read_csv() 方法
将一个逗号分隔值文件 (*.csv) 或者文本文件 (*.txt) 读取至 HCL 数据帧。
语法
hcl.read_csv(源文件, nrows = 行数, usecols = ["列名称", "...n"], header = 标题行个数, names = ["列名称", "...n"], delimiter = "分隔符", index_col = ["列名称", "...n"], 多个附加参数)
参数
名称 | 描述 |
---|---|
源文件 |
源文件的名称、文件路径或 URL,且包括文件扩展名(*.csv 或 *.txt)。 |
nrows = 行数 可选 |
要使用的行数。 从文件的开头开始对行计数(以 0 为起点)。如果被省略,则源文件中的所有行都被使用。 |
usecols = ["列名称", "...n"] 可选 |
要使用的列。 如果被省略,则源文件中的所有列都被使用。 除非您用 names 指定不同的名称,否则请完全按照列出现在源文件中的样子指定列名称。如果要指定不同的名称,请将这些名称与 usecols 一起使用。 在数据帧中得到的列顺序与其在源文件中的顺序相同,而无论您指定它们的顺序如何。 |
header = 标题行个数 可选 |
从数据帧中排除源文件中的一个或多个标题文本行。 |
names = ["列名称", "...n"] 可选 |
要在数据帧中使用的列名称。 如果源文件中不存在任何名称,则指定列名称;否则覆盖源文件中的名称。 您指定的名称被按顺序应用于数据中的列,因此请确保这些名称和列被正确匹配。 说明 使用 header 参数可阻止现有列名称被包括在数据帧中。例如,如果列名称位于源文件的第一行,请指定 header = 0。 |
delimiter = "分隔符" 可选 |
在源文件中的值之间使用的除逗号以外的分隔符。请使用引号限定分隔符。 delimiter = "|" 制表符分隔符: delimiter = "\t" 如果被省略,则使用逗号分隔符 (,)。 |
index_col = ["列名称", "...n"] 可选 |
请使用源文件中的数据列之一作为数据帧中的索引列。可以指定一个以上的索引列。 |
多个附加参数
可选 |
hcl.read_csv() 支持 Pandas 函数 pandas.read_csv() 所支持的所有参数。 要获得完整的参数列表,请咨询 Pandas 的 pandas.read_csv() 文档。 |
返回
HCL 数据帧。
示例
将 CSV 文件读取至 HCL 数据帧
您想要将所有数据(所有行和所有列)从 Pcard_Transactions.csv 文件读取至 pcard_transactions 数据帧。源 CSV 文件中的列名称被用在数据帧中。因为源文件使用逗号 (,) 作为值之间的分隔符,所以您不需要指定分隔符。
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")
将 CSV 文件中的行和列子集读取至 HCL 数据帧
您只想将 Pcard_Transactions.csv 文件的数据子集读取至 pcard_transactions 数据帧。下面的示例仅读取前 100 行和指定的列。
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])
将一个制表符分隔文本文件读取至 HCL 数据帧
您需要将制表符分隔 Pcard_Transactions.txt 文件中的数据读取至 pcard_transactions 数据帧。源文本文件中的列名称被用在数据帧中。因为源文件使用制表符作为值之间的分隔符,所以您需要指定分隔符 ("\t")。
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")
将 CSV 文件读取至 HCL 数据帧并更新列名称
您想要将数据从 Pcard_Transactions.csv 文件读取至 pcard_transactions 数据帧,并且指定您自己的列名称而不是使用源文件的列名称。
除了指定不同的列名称以外,您还需要指定 header = 0 以阻止源文件源的第一行上的源列名称被包括在数据帧中。
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])
将 CSV 文件读取至 HCL 数据帧并排除标题信息
您想要将数据从 Pcard_Transactions.csv 文件读取至 pcard_transactions 数据帧,并且跳过源文件中的三个标题信息行。
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)