Méthode summarize()
Regroupe les lignes d'un cadre de données basées sur des valeurs identiques dans une ou plusieurs colonnes. Compte le nombre de lignes dans chaque groupe et calcule également le sous-total des colonnes numériques spécifiées pour chaque groupe.
Syntaxe
nom_cadre_données.summarize(on = ["colonne_clé", "...n"], calculate = ["colonne_numérique", "...n"]|None, statistics = True|False)
Paramètres
Nom | Description |
---|---|
on = ["colonne_clé", "...n"] |
La ou les colonnes clés à totaliser. Si vous calculez un sous-total selon plusieurs colonnes, c'est que vous avez créé des groupes imbriqués. L'ordre de l'imbrication suit l'ordre dans lequel vous indiquez les colonnes. Les colonnes clés sont placées le plus à gauche dans le cadre de données totalisé. Remarque La méthode summarize() trie automatiquement le cadre de données par rapport aux colonnes clés avant de totaliser les données dans des groupes. Le cadre de données de sortie contient un seul groupe unique pour chaque jeu de valeurs identiques ou combinaison identique de valeurs dans la ou les colonnes clés. |
calculate = ["colonne_numérique", "...n"] | None facultatif |
Si vous ignorez le paramètre, aucune colonne n'est sous-totalisée |
statistics = True | False facultatif |
Si vous spécifiez True, les valeurs statistiques suivantes sont calculées pour chaque colonne de sous-total, divisée par groupe :
Si vous omettez statistics, c'est la longueur par défaut de False qui est utilisée. |
Renvoie
Un cadre de données HCL.
Exemples
Montant total des transactions par client
Vous totalisez un cadre de données Accounts receivable en fonction de la colonne Customer_Number et sous-totalisez la colonne Trans_Amount. La sortie est regroupée par client et inclut le montant total des transactions pour chaque client :
customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)
Montant total des transactions par client par date de transaction
Vous totalisez un cadre de données Accounts receivable en fonction des colonnes Customer_Number et Trans_Date. Vous sous-totalisez la colonne Trans_Amount.
La sortie est regroupée par client et, à l'intérieur de chaque client, par date. Elle inclut le montant total des transactions pour chaque client à chaque date à laquelle des transactions ont été effectuées.
customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)
Montant total des transactions (avec des valeurs statistiques) par client par date de transaction
Cet exemple est identique à celui susmentionné, sauf que vous spécifiez True pour le paramètre statistics.
En plus du montant des transactions sous-totalisées pour chaque client pour chaque date à laquelle des transactions ont été effectuées par le client, vous calculez également diverses valeurs statistiques pour chaque client pour chaque date :
customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)
Remarques
Fonctionnement
La méthode summarize() regroupe les lignes dont une colonne contient la même valeur ou dont plusieurs colonnes contiennent la même combinaison de valeurs. Le cadre de données de sortie contient une seule ligne pour chaque groupe, avec le compte du nombre de lignes du cadre de données source inclus dans le groupe. La sortie calcule aussi le pourcentage de ligne du cadre de données appartenant à chaque groupe.
Sous-total et statistiques : calculs et noms des colonnes dans les résultats de sortie
Vous pouvez utiliser les paramètres calculate et statistics pour effectuer des calculs statistiques sur n'importe quel colonne de sous-total que vous spécifiez. Les calculs statistiques sont décomposés par groupe dans les résultats de sortie.
paramètre calculate
Nom de la colonne dans le cadre de données de sortie | Calcul effectué sur la colonne sous-totalisée |
---|---|
nom de colonne sous-totalisée + _sum | Valeurs sous-totalisées pour chaque groupe |
nom de colonne sous-totalisée + _sum% |
Le sous-total de chaque groupe exprimé sous forme du pourcentage du total de la colonne |
paramètre statistics
Intitulé de la colonne dans le cadre de données de sortie | Calcul effectué sur la colonne sous-totalisée |
---|---|
nom de colonne sous-totalisée + _min |
La valeur minimale pour chaque groupe |
nom de colonne sous-totalisée + _max |
La valeur maximale pour chaque groupe |
nom de colonne sous-totalisée + _mean |
La valeur moyenne pour chaque groupe |
nom de colonne sous-totalisée + _median |
La valeur médiane pour chaque groupe
|
nom de colonne sous-totalisée + _std |
L'écart-type pour chaque groupe |
nom de colonne sous-totalisée + _mode |
La valeur la plus fréquente pour chaque groupe En cas d'égalité, affiche la valeur la plus faible Si aucune valeur n'apparaît plusieurs fois, affiche la valeur minimale de la colonne. |
nom de colonne sous-totalisée + _q25 |
La valeur du premier quartile pour chaque groupe (valeur du quartile inférieur) |
nom de colonne sous-totalisée + _q75 |
La valeur du troisième quartile pour chaque groupe (valeur du quartile supérieur) |