read_csv() メソッド

カンマ区切り値ファイル(*.csv)またはテキスト ファイル(*.txt)を HCL データフレームに読み取ります。

構文

hcl.read_csv(source file, nrows = 行数, usecols = ["列名", "...n"], header = ヘッダー行数, names = ["列名", "...n"], delimiter = "区切り文字", index_col = ["列名", "...n"], 複数の追加のパラメーター)

パラメーター

名前 説明
ソース ファイル

ファイル拡張子(*.csv または *.txt)を含む、ソース ファイルの名前、ファイル パス、URL。

nrows = 行数

省略可能

使用する行数。

行はファイルの先頭からカウントされます。0 から開始します。省略すると、ソース ファイルのすべての行が使用されます。

usecols = ["列名", "...n"]

省略可能

使用する列。

省略すると、ソース ファイルのすべての列が使用されます。

names で別の名前を指定しない場合は、ソース ファイルに記述されているとおりに正確に列名を指定します。別名を指定する場合は、usecols でこれらの名前を使用します。

データフレームの列の順序は、指定する順序に関係なく、ソース ファイルの順序と同じです。

header = ヘッダー行数

省略可能

ソース ファイルの 1 行以上のヘッダー テキストをデータフレームから除外します。

names = ["列名", "...n"]

省略可能

データフレームで使用する列名。

ソース ファイルに名前が存在していないか、ソース ファイルの名前を上書きする場合は、列名を指定します。

指定した名前はデータの列に連続して適用されるため、名前と列の順序が正しいことを確認してください。

メモ

header パラメーターを使用すると、既存の列名がデータフレームに含まれなくなります。たとえば、列名がソース ファイルの最初の行にある場合は、header = 0 を指定します。

delimiter = "区切り文字"

省略可能

ソース ファイルの値を区切るために使用する区切り文字(カンマ以外の場合)。区切り文字は引用符で囲みます。

区切り文字 = "|"

タブ区切り文字:

区切り文字 = "\t"

省略すると、区切り文字としてカンマ(,)が使用されます。

index_col = ["列名", "...n"]

省略可能

データフレームのインデックス列として、ソース ファイルのデータ列のいずれかを使用します。複数のインデックス列を指定できます。
複数の追加パラメーター

省略可能

hcl.read_csv() は、Pandas 関数 pandas.read_csv() によってサポートされるすべてのパラメーターをサポートします。

パラメーターの一覧については、Pandas ドキュメントの pandas.read_csv() を参照してください。

戻り値

HCL データフレーム。

CSV ファイルを HCL データフレームに読み取る

Pcard_Transactions.csv ファイルのすべてのデータ(すべての行とすべての列)を pcard_transactions データフレームに読み取ります。ソース CSV ファイルの列名がデータフレームで使用されます。ソース ファイルは値の区切り文字としてカンマ(,)を使用するため、区切り文字を指定する必要はありません。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")

CSV ファイルの行と列のサブセットを HCL データフレームに読み取る

Pcard_Transactions.csv ファイルのデータのサブセットのみを pcard_transactions データフレームに読み取ります。次の例では、最初の 100 行と指定した列のみを読み取ります。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])

タブ区切りテキスト ファイルを HCL データフレームに読み取る

タブ区切りの Pcard_Transactions.txt ファイルのデータを pcard_transactions データフレームに読み取ります。ソース テキスト ファイルの列名がデータフレームで使用されます。ソース ファイルは値の区切り文字としてタブを使用するため、区切り文字("\t")を指定する必要があります。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")

CSV ファイルを HCL データフレームに読み取り、列名を更新する

Pcard_Transactions.csv ファイルのデータを pcard_transactions データフレームに読み取り、ソース ファイルの列名を使用せずに、独自の列名を指定します。

別の列名を指定するほかに、header = 0 を指定して、ソース ファイルの最初の行のソース列名がデータフレームに含まれないようにする必要があります。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])

CSV ファイルを HCL データフレームに読み取り、ヘッダー情報を除外する

Pcard_Transactions.csv ファイルのデータを pcard_transactions データフレームに読み取り、ソース ファイルのヘッダー情報の 3 行をスキップします。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)