read_csv() 方法

将一个逗号分隔值文件 (*.csv) 或者文本文件 (*.txt) 读取至 HCL 数据帧。

语法

hcl.read_csv(源文件, nrows = 行数, usecols = ["列名称", "...n"], header = 标题行个数, names = ["列名称", "...n"], delimiter = "分隔符", index_col = ["列名称", "...n"], 多个附加参数)

参数

名称 描述
源文件

源文件的名称、文件路径或 URL,且包括文件扩展名(*.csv 或 *.txt)。

nrows = 行数

可选

要使用的行数。

从文件的开头开始对行计数(以 0 为起点)。如果被省略,则源文件中的所有行都被使用。

usecols = ["列名称", "...n"]

可选

要使用的列。

如果被省略,则源文件中的所有列都被使用。

除非您用 names 指定不同的名称,否则请完全按照列出现在源文件中的样子指定列名称。如果要指定不同的名称,请将这些名称与 usecols 一起使用。

在数据帧中得到的列顺序与其在源文件中的顺序相同,而无论您指定它们的顺序如何。

header = 标题行个数

可选

从数据帧中排除源文件中的一个或多个标题文本行。

names = ["列名称", "...n"]

可选

要在数据帧中使用的列名称。

如果源文件中不存在任何名称,则指定列名称;否则覆盖源文件中的名称。

您指定的名称被按顺序应用于数据中的列,因此请确保这些名称和列被正确匹配。

说明

使用 header 参数可阻止现有列名称被包括在数据帧中。例如,如果列名称位于源文件的第一行,请指定 header = 0

delimiter = "分隔符"

可选

在源文件中的值之间使用的除逗号以外的分隔符。请使用引号限定分隔符。

delimiter = "|"

制表符分隔符:

delimiter = "\t"

如果被省略,则使用逗号分隔符 (,)。

index_col = ["列名称", "...n"]

可选

请使用源文件中的数据列之一作为数据帧中的索引列。可以指定一个以上的索引列。
多个附加参数

可选

hcl.read_csv() 支持 Pandas 函数 pandas.read_csv() 所支持的所有参数。

要获得完整的参数列表,请咨询 Pandas 的 pandas.read_csv() 文档。

返回

HCL 数据帧。

示例

将 CSV 文件读取至 HCL 数据帧

您想要将所有数据(所有行和所有列)从 Pcard_Transactions.csv 文件读取至 pcard_transactions 数据帧。源 CSV 文件中的列名称被用在数据帧中。因为源文件使用逗号 (,) 作为值之间的分隔符,所以您不需要指定分隔符。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")

将 CSV 文件中的行和列子集读取至 HCL 数据帧

您只想将 Pcard_Transactions.csv 文件的数据子集读取至 pcard_transactions 数据帧。下面的示例仅读取前 100 行和指定的列。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])

将一个制表符分隔文本文件读取至 HCL 数据帧

您需要将制表符分隔 Pcard_Transactions.txt 文件中的数据读取至 pcard_transactions 数据帧。源文本文件中的列名称被用在数据帧中。因为源文件使用制表符作为值之间的分隔符,所以您需要指定分隔符 ("\t")。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")

将 CSV 文件读取至 HCL 数据帧并更新列名称

您想要将数据从 Pcard_Transactions.csv 文件读取至 pcard_transactions 数据帧,并且指定您自己的列名称而不是使用源文件的列名称。

除了指定不同的列名称以外,您还需要指定 header = 0 以阻止源文件源的第一行上的源列名称被包括在数据帧中。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])

将 CSV 文件读取至 HCL 数据帧并排除标题信息

您想要将数据从 Pcard_Transactions.csv 文件读取至 pcard_transactions 数据帧,并且跳过源文件中的三个标题信息行。

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)