read_csv()-Methode
Liest eine Datei mit Werten, die durch Kommas getrennt wurden (*.csv), oder eine Textdatei (*.txt) in einen HCL-Datenrahmen ein.
Syntax
hcl.read_csv(quelldatei, nrows = anzahl_zeilen, usecols = ["spaltenname", "...n"], header = anzahl_kopfzeilen, names = ["spaltenname", "...n"], delimiter = "trennzeichen", index_col = ["spaltenname", "...n"], mehrere_zusaetzliche_parameter)
Parameter
Name | Beschreibung |
---|---|
quelldatei |
Der Name, Dateipfad oder die URL der Quelldatei, einschließlich der Dateierweiterung (*.csv oder *.txt). |
nrows = anzahl_zeilen Optional |
Die Anzahl der zu verwendenden Zeilen. Zeilen werden ab dem Dateibeginn und der Nummer 0 gezählt. Wenn der Parameter nicht angegeben wird, werden alle Zeilen innerhalb der Quelldatei verwendet. |
usecols = ["spaltenname", "...n"] Optional |
Die zu verwendenden Spalten. Wenn der Parameter nicht angegeben wird, werden alle Spalten innerhalb der Quelldatei verwendet. Geben Sie die Spaltennamen genauso ein, wie sie in der Quelldatei festgelegt sind, es sei denn, Sie legen mit names andere Namen fest. Wenn Sie andere Namen festlegen, verwenden Sie diese mit usecols. Die sich ergebende Reihenfolge der Spalten im Datenrahmen ist mit der Reihenfolge in der Quelldatei identisch. Es spielt also keine Rolle, in welcher Reihenfolge Sie sie angeben. |
header = number_of_header_rows Optional |
Schließt eine oder mehrere Zeilen des Kopfzeilentexts der Quelldatei im Datenrahmen aus. |
names = ["spaltenname", "...n"] Optional |
Im Datenrahmen zu verwendende Spaltennamen. Legt Spalten fest, wenn es in der Quelldatei keine Namen gibt, oder überschreibt die Namen in der Quelldatei. Die Namen, die Sie angeben, werden sequenziell auf die Spalten der Daten angewendet. Stellen Sie also sicher, dass die Namen und die Spalten korrekt ausgerichtet sind. Hinweis Verwenden Sie den Parameter header, um zu verhindern, dass existierende Spaltennamen im Datenrahmen erfasst werden. Geben Sie beispielsweise header = 0 an, falls sich die Spaltennamen in der ersten Zeile der Quelldatei befinden. |
delimiter = "trennzeichen" Optional |
Das Trennzeichen, das zwischen den Werten der Quelldatei verwendet wird, falls es sich dabei nicht um ein Komma handelt. Umschließen Sie das Trennzeichen mit Anführungszeichen. delimiter = "|" Tabstopp als Trennzeichen: delimiter = "\t" Falls für „delimiter“ nichts angegeben wird, wird das Komma (,) verwendet. |
index_col = ["spaltenname", "...n"] Optional |
Verwendet eine der Datenspalten in der Quelldatei als Indexspalte im Datenrahmen. Gestattet die Angabe mehrerer Indexspalten. |
mehrere_zusaetzliche_parameter
Optional |
hcl.read_csv() unterstützt alle Parameter der Pandas-Funktion pandas.read_csv(). Eine vollständige Liste der Parameter finden Sie in der Pandas-Dokumentation für pandas.read_csv(). |
Gibt zurück
HCL-Datenrahmen zurück.
Beispiele
CSV-Datei in einen HCL-Datenrahmen einlesen
Sie möchten alle Daten, also alle Zeilen und Spalten, aus der Datei Pcard_Transactions.csv in den Datenrahmen pcard_transactions einlesen. Die Spaltennamen aus der CSV-Quelldatei werden im Datenrahmen verwendet. Weil die Quelldatei ein Komma ( , ) als Trennzeichen zwischen den Werten verwendet, müssen Sie das Trennzeichen nicht festlegen.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")
Untermenge an Zeilen und Spalten einer CSV-Datei in einen HCL-Datenrahmen einlesen
Sie möchten nur eine Untermenge der Daten aus der Datei Pcard_Transactions.csv in den Datenrahmen pcard_transactions einlesen. Im folgenden Beispiel werden nur die ersten 100 Zeilen und die angegebenen Spalten eingelesen.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])
Textdateien mit Trennzeichen in einen HCL-Datenrahmen einlesen
Sie möchten Daten aus der Textdatei mit Trennzeichen Pcard_Transactions.txt in den Datenrahmen pcard_transactions einlesen. Die Spaltennamen aus der Quelltextdatei werden im Datenrahmen verwendet. Weil die Quelldatei einen Tabstopp als Trennzeichen zwischen den Werten verwendet, müssen Sie das Trennzeichen festlegen ( "\t" ).
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")
CSV-Datei in einen HCL-Datenrahmen einlesen und die Spaltennamen aktualisieren
Sie möchten die Daten aus der Datei Pcard_Transactions.csv in den Datenrahmen pcard_transactions einlesen. Im Datenrahmen sollen jedoch Ihre eigenen Spaltennamen festgelegt und nicht die Spaltennamen aus der Quelldatei verwendet werden.
Davon abgesehen, dass Sie andere Spaltennamen angeben müssen, ist auch die Angabe von header = 0 notwendig, damit die Spaltennamen in der ersten Zeile der Quelldatei nicht im Datenrahmen erfasst werden.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])
CSV-Datei in einen HCL-Datenrahmen einlesen und Kopfzeileninformationen ausschließen
Sie möchten die Daten aus der Datei Pcard_Transactions.csv in den Datenrahmen pcard_transactions einlesen und drei Zeilen mit Kopfzeileninformationen in der Quelldatei überspringen.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)