Método read_csv()
Lee un archivo de valores separados por comas (*.csv) o un archivo de texto (*.txt) en un marco de datos de HCL.
Sintaxis
hcl.read_csv(archivo de origen, nrows = número_de_filas, usecols = ["nombre de columna", "...n"], header = número_de_filas_de_encabezado, names = ["nombre_de_columna", "...n"], delimiter = "carácter delimitador", index_col = ["nombre de columna", "...n"], varios parámetros adicionales)
Parámetros
Nombre | Descripción |
---|---|
archivo de origen |
El nombre, la ruta del archivo o el URL del archivo de origen, incluida la extensión del archivo (*.csv o *.txt). |
nrows = number_of_rows opcional |
La cantidad de filas que se deben usar. Las filas se cuentan desde el principio del archivo, comenzando en 0. Si se omite este valor, se utilizan todas las filas del archivo de origen. |
usecols = ["nombre de columna", "...n"] opcional |
Las columnas que se debe usar. Si se omite, se utilizan todas las columnas del archivo de origen. Especifique los nombres de las columnas tal como aparecen en el archivo de origen, a menos que esté especificando nombres diferentes con names. Si está especificando nombres diferentes, utilícelos con usecols. El orden de las columnas del marco de datos que se obtiene es el mismo orden que tienen en el archivo de origen, sin importar el orden en el que las especifique. |
header = number_of_header_rows opcional |
Excluye del marco de datos una o más líneas del texto de encabezado del archivo de origen. |
names = ["nombre de columna", "...n"] opcional |
Nombres de columna que se deben usar en el marco de datos. Especifica los nombres de las columnas si no hay nombres en el archivo de origen o reemplaza los nombres del archivo de origen. Los nombres que especifique se aplican de forma secuencial a las columnas de los datos para asegurarse de que los nombres y las columnas estén correctamente alineados. Nota Use el parámetro header para impedir que se incluyan los nombres de las columnas existentes en el marco de datos. Por ejemplo, especifique header = 0 si los nombres de las columnas están en la primera línea del archivo de origen. |
delimiter = "carácter delimitador" opcional |
El carácter delimitador que se usa entre los valores del archivo de origen, si no es una coma. Indique el carácter delimitador utilizando comillas. delimiter = "|" Carácter delimitador tabulador delimiter = "\t" Si se omite, se usa la coma como delimitador ( , ). |
index_col = ["nombre de columna", "...n"] opcional |
Utiliza una de las columnas de datos del archivo de origen como la columna de índice en el marco de datos. Permite especificar más de una columna de índice. |
varios parámetros adicionales
opcional |
hcl.read_csv() admite todos los parámetros que se pueden usar con la función pandas.read_csv() de Pandas. Si desea conocer una lista completa de parámetros, consulte la documentación de Pandas para pandas.read_csv(). |
Devuelve
Marco de datos de HCL.
Ejemplos
Leer un archivo CSV a un marco de datos de HCL
Desea leer todos lo datos (todas las filas y columnas) del archivo Pcard_Transactions.csv al marco de datos pcard_transactions. En el marco de datos, se utilizan los nombres de las columnas del archivo de origen CSV. Como el archivo de origen utiliza una coma ( , ) como separador entre los valores, no es necesario que especifique el separador.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")
Leer un subconjunto de filas y columnas de un archivo CSV a un marco de datos de HCL
Desea leer solo un subconjunto de los datos del archivo Pcard_Transactions.csv al marco de datos pcard_transactions. El siguiente ejemplo lee solo las primeras 100 filas y las columnas especificadas.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])
Leer un archivo de texto delimitado por tabuladores a un marco de datos de HCL
Necesita leer los datos del archivo Pcard_Transactions.csv al marco de datos pcard_transactions. En el marco de datos, se utilizan los nombres de las columnas del archivo de texto de origen. Como el archivo de origen utiliza un tabulador como separador entre los valores, debe especificar el separador ( "\t" ).
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")
Leer un archivo CSV a un marco de datos de HCL y actualizar los nombres de las columnas
Desea leer los datos del archivo Pcard_Transactions.csv al marco de datos pcard_transactions y especificar sus propios nombres de columna en lugar de utilizar los nombres de columna del archivo de origen.
Además de especificar diferentes nombres de columna, debe especificar header = 0 para impedir que se incluyan en el marco de datos los nombres de las columnas de origen que se encuentran en la primera línea del archivo de origen.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])
Leer un archivo CSV a un marco de datos HCL y excluir la información de encabezado
Desea leer los datos del archivo Pcard_Transactions.csv al marco de datos pcard_transactions y saltear tres líneas de la información de encabezado del archivo de origen.
pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)