Méthode summarize()

Regroupe les lignes d'un cadre de données basées sur des valeurs identiques dans une ou plusieurs colonnes. Compte le nombre de lignes dans chaque groupe et calcule également le sous-total des colonnes numériques spécifiées pour chaque groupe.

Syntaxe

nom_cadre_données.summarize(on = ["colonne_clé", "...n"], calculate = ["colonne_numérique", "...n"]|None, statistics = True|False)

Paramètres

Nom Description
on = ["colonne_clé", "...n"]

La ou les colonnes clés à totaliser.

Si vous calculez un sous-total selon plusieurs colonnes, c'est que vous avez créé des groupes imbriqués. L'ordre de l'imbrication suit l'ordre dans lequel vous indiquez les colonnes.

Les colonnes clés sont placées le plus à gauche dans le cadre de données totalisé.

Remarque

La méthode summarize() trie automatiquement le cadre de données par rapport aux colonnes clés avant de totaliser les données dans des groupes. Le cadre de données de sortie contient un seul groupe unique pour chaque jeu de valeurs identiques ou combinaison identique de valeurs dans la ou les colonnes clés.

calculate = ["colonne_numérique", "...n"] | None

facultatif

  • colonne_numérique une ou plusieurs colonnes numériques à sous-totaliser pour chaque groupe

    Calcule aussi le sous-total de chaque groupe comme pourcentage du total de colonne

  • None ne sous-totalisez pas de colonnes numériques

Si vous ignorez le paramètre, aucune colonne n'est sous-totalisée

statistics = True | False

facultatif

  • True calcule les statistiques pour toutes les colonnes des sous-totaux numériques

    Remarque

    Ne peut pas être utilisé sauf si au moins une colonne de sous-total numérique est indiquée avec calculate.

  • False ne calcule pas de statistiques

Si vous spécifiez True, les valeurs statistiques suivantes sont calculées pour chaque colonne de sous-total, divisée par groupe :

  • minimum
  • maximum
  • moyenne
  • médiane
  • écart-type
  • mode
  • premier quartile
  • troisième quartile

Si vous omettez statistics, c'est la longueur par défaut de False qui est utilisée.

Renvoie

Un cadre de données HCL.

Exemples

Montant total des transactions par client

Vous totalisez un cadre de données Accounts receivable en fonction de la colonne Customer_Number et sous-totalisez la colonne Trans_Amount. La sortie est regroupée par client et inclut le montant total des transactions pour chaque client :

customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)

Montant total des transactions par client par date de transaction

Vous totalisez un cadre de données Accounts receivable en fonction des colonnes Customer_Number et Trans_Date. Vous sous-totalisez la colonne Trans_Amount.

La sortie est regroupée par client et, à l'intérieur de chaque client, par date. Elle inclut le montant total des transactions pour chaque client à chaque date à laquelle des transactions ont été effectuées.

customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)

Montant total des transactions (avec des valeurs statistiques) par client par date de transaction

Cet exemple est identique à celui susmentionné, sauf que vous spécifiez True pour le paramètre statistics.

En plus du montant des transactions sous-totalisées pour chaque client pour chaque date à laquelle des transactions ont été effectuées par le client, vous calculez également diverses valeurs statistiques pour chaque client pour chaque date :

customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)

Remarques

Fonctionnement

La méthode summarize() regroupe les lignes dont une colonne contient la même valeur ou dont plusieurs colonnes contiennent la même combinaison de valeurs. Le cadre de données de sortie contient une seule ligne pour chaque groupe, avec le compte du nombre de lignes du cadre de données source inclus dans le groupe. La sortie calcule aussi le pourcentage de ligne du cadre de données appartenant à chaque groupe.

Sous-total et statistiques : calculs et noms des colonnes dans les résultats de sortie

Vous pouvez utiliser les paramètres calculate et statistics pour effectuer des calculs statistiques sur n'importe quel colonne de sous-total que vous spécifiez. Les calculs statistiques sont décomposés par groupe dans les résultats de sortie.

paramètre calculate

Nom de la colonne dans le cadre de données de sortie Calcul effectué sur la colonne sous-totalisée
nom de colonne sous-totalisée + _sum Valeurs sous-totalisées pour chaque groupe
nom de colonne sous-totalisée + _sum%

Le sous-total de chaque groupe exprimé sous forme du pourcentage du total de la colonne

paramètre statistics

Intitulé de la colonne dans le cadre de données de sortie Calcul effectué sur la colonne sous-totalisée

nom de colonne sous-totalisée + _min

La valeur minimale pour chaque groupe

nom de colonne sous-totalisée + _max

La valeur maximale pour chaque groupe

nom de colonne sous-totalisée + _mean

La valeur moyenne pour chaque groupe

nom de colonne sous-totalisée + _median

La valeur médiane pour chaque groupe

  • Jeux de valeurs impaires : la valeur du milieu
  • Jeux de valeurs paires : la moyenne des deux valeurs du milieu

nom de colonne sous-totalisée + _std

L'écart-type pour chaque groupe

nom de colonne sous-totalisée + _mode

La valeur la plus fréquente pour chaque groupe

En cas d'égalité, affiche la valeur la plus faible Si aucune valeur n'apparaît plusieurs fois, affiche la valeur minimale de la colonne.

nom de colonne sous-totalisée + _q25

La valeur du premier quartile pour chaque groupe (valeur du quartile inférieur)

nom de colonne sous-totalisée + _q75

La valeur du troisième quartile pour chaque groupe (valeur du quartile supérieur)