Méthode read_csv()

Lit un fichier de valeurs séparées par des virgules (*.csv) ou un fichier texte (*.txt) dans un cadre de données HCL.

Syntaxe

hcl.read_csv(fichier source, nrows = nombre_de_lignes, usecols = ["nom colonne", "...n"], header = nombre_de_lignes_entête, names = ["nom colonne", "...n"], delimiter = "caractère délimiteur", index_col = ["nom colonne", "...n"], plusieurs paramètres supplémentaires)

Paramètres

Nom Description
fichier source

Nom, chemin d'accès ou URL du fichier source, y compris l'extension du fichier (*.csv ou *.txt).

nrows = nombre_de_lignes

facultatif

Nombre de lignes à utiliser.

Les lignes sont comptées à partir du début du fichier, en commençant par 0. En cas d'omission, toutes les lignes du fichier source sont utilisées.

usecols = ["nom colonne", "...n"]

facultatif

Colonnes à utiliser.

En cas d'omission, toutes les colonnes du fichier source sont utilisées.

Spécifiez les noms de colonnes exactement comme ils apparaissent dans le fichier source, sauf si vous spécifiez des noms différents avec names. Si vous spécifiez des noms différents, utilisez ces derniers avec usecols.

L'ordre résultant des colonnes dans le cadre de données est le même que leur ordre dans le fichier source, quel que soit l'ordre dans lequel vous les spécifiez.

header = nombre_de_lignes_entête

facultatif

Exclut du cadre de données une ou plusieurs lignes de texte d'en-tête du fichier source.

names = ["nom colonne", "...n"]

facultatif

Noms de colonnes à utiliser dans le cadre de données.

Spécifie les noms des colonnes si aucun nom n'existe dans le fichier source ou remplace les noms dans le fichier source.

Les noms que vous spécifiez sont appliqués de manière séquentielle aux colonnes des données, assurez-vous donc que les noms et les colonnes sont correctement alignés.

Remarque

Utilisez le paramètre header pour éviter que les noms des colonnes existantes soient inclus dans le cadre de données. Par exemple, spécifiez header = 0 si les noms des colonnes se trouvent sur la première ligne du fichier source.

delimiter = "caractère délimiteur"

facultatif

Caractère de délimitation utilisé entre les valeurs dans le fichier source s'il est autre qu'une virgule. Qualifiez le caractère de délimitation à l'aide de guillemets.

delimiter = "|"

Caractère délimiteur tabulation :

delimiter = "|"

En cas d'omission, c'est le délimiteur virgule ( , ) qui est utilisé.

index_col = ["nom colonne", "...n"]

facultatif

Utilise une des colonnes de données du fichier source comme colonne d'index dans le cadre de données. Permet de spécifier plus d'une colonne d'index.
plusieurs paramètres supplémentaires

facultatif

hcl.read_csv() prend en charge tous les paramètres pris en charge par la fonction Pandas pandas.read_csv().

Pour la liste complète des paramètres, consultez la documentation Pandas pour pandas.read_csv().

Renvoie

Un cadre de données HCL.

Exemples

Lire un fichier CSV dans un cadre de données HCL

Vous voulez lire toutes les données - toutes les lignes et toutes les colonnes - du fichier Pcard_Transactions.csv au cadre de données pcard_transactions. Les noms de colonnes du fichier CSV source sont utilisés dans le cadre de données. Comme le fichier source utilise une virgule ( , ) comme séparateur entre les valeurs, vous n'êtes pas obligé de spécifier le séparateur.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv")

Lire un sous-ensemble de lignes et de colonnes à partir d'un fichier CSV vers un cadre de données HCL

Vous voulez uniquement lire un sous-ensemble des données du fichier Pcard_Transactions.csv au cadre de données pcard_transactions. Dans l'exemple ci-dessous, seules les 100 premières lignes et les colonnes spécifiées sont lues.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", nrows = 100, usecols = ["AccountNumber", "Amount", "Description", "Quantity", "TransDate", "UnitCost", "VendorLocation","VendorName", "VendorNumber"])

Lire un fichier texte délimité par des tabulations dans un cadre de données HCL

Vous devez lire les données du fichier délimité par des tabulations Pcard_Transactions.txt vers le cadre de données pcard_transactions. Les noms de colonnes du fichier texte source sont utilisés dans le cadre de données. Comme le fichier source utilise une tabulation comme séparateur entre les valeurs, vous n'êtes pas obligé de spécifier le séparateur ( "\t" ).

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.txt", delimiter = "\t")

Lire un fichier CSV vers un cadre de données HCL et mettre à jour les noms des colonnes

Vous souhaitez lire les données du fichier Pcard_Transactions.csv au cadre de données pcard_transactions et spécifier vos propres noms de colonnes plutôt que d'utiliser les noms de colonnes du fichier source.

En plus de spécifier des noms de colonnes différents, vous devez préciser header = 0 pour éviter que les noms de colonnes sources sur la première ligne du fichier source ne soient inclus dans le cadre de données.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 0, names = ["Acct_Num", "Amount", "Currency", "Country", "Desc", "Merch_Code", "Qty", "Ref_Num", "Currency_Src", "Trans_Date", "Unit_Cost", "Vend_Loc", "Vend_Name", "Vend_Num"])

Lire un fichier CSV dans un cadre de données HCL et exclure les informations d'en-tête

Vous voulez lire les données du fichier Pcard_Transactions.csv au cadre de données pcard_transactions et sauter les trois lignes d'informations d'en-tête du fichier source.

pcard_transactions = hcl.read_csv("https://help.highbond.com/analytics/Pcard_Transactions.csv", header = 3)