summarize()-Methode

Gruppiert Zeilen basierend auf identischen Werten in einer oder mehreren Spalten. Zählt die Anzahl der Zeilen in jeder Gruppe und berechnet auch Zwischensummen angegebener numerischer Spalten jeder Gruppe.

Syntax

datenrahmen_name.summarize(on = ["schluesselspalte", "...n"], calculate = ["numerische_spalte", "...n"]|None, statistics = True|False)

Parameter

Name Beschreibung
on = ["schluesselspalte", "...n"]

Die Schlüsselspalte(n), für die Sie eine Summenstruktur erstellen möchten.

Wenn Sie eine Summenstruktur für mehr als eine Spalte erstellen, haben Sie verschachtelte Gruppen erstellt. Die Reihenfolge, in der Sie die Spalten angeben, bestimmt die Reihenfolge der Verschachtelung.

Schlüsselspalten sind ganz links im Datenrahmen mit der Summenstruktur positioniert.

Hinweis

Die summarize()-Methode sortiert automatisch den Datenrahmen nach den Schlüsselspalten, bevor die Daten in Gruppen zusammengefasst werden. Der ausgegebene Datenrahmen beinhaltet für jede Menge identischer Werte bzw. identischer Wertkombinationen im Schlüsselfeld oder den Schlüsselfeldern eine einzelne eindeutige Gruppe.

calculate = ["numerische_spalte", "...n"] | None

Optional

  • numerische_spalte ein oder mehrere numerische Spalten, für die eine Zwischensumme je Gruppe erstellt werden soll

    Berechnet auch die Zwischensumme jeder Gruppe als Prozentsatz des Gesamtwertes der Spalte

  • None für numerische Spalten keine Zwischensummen erstellen

Wenn der Parameter weggelassen wird, werden keine Zwischensummen für Spalten erstellt.

statistics = True | False

Optional

  • True Statistiken für alle numerischen Zwischensummenspalten berechnen

    Hinweis

    Kann nur verwendet werden, wenn mindestens eine numerische Zwischensummenspalte mit calculate angegeben wird

    .
  • False keine Statistiken berechnen

Wenn Sie True festlegen, werden die folgenden statistischen Werte für jede Zwischensummenspalte berechnet, unterteilt nach Gruppe:

  • Minimum
  • Maximum
  • Mittelwert (Durchschnitt)
  • Median
  • Standardabweichung
  • Modus
  • erstes Quartil
  • drittes Quartil

Wenn statistics weggelassen wird, wird der Standard False verwendet.

Gibt zurück

HCL-Datenrahmen zurück.

Beispiele

Gesamter Transaktionsbetrag pro Kunde

Sie möchten die Summenstruktur eines Datenrahmens mit Forderungen für die Spalte Customer_Number erstellen und Zwischensummen für die Spalte Trans_Amount berechnen. Die Ausgabe wird nach Kunde gruppiert und beinhaltet den gesamten Transaktionsbetrag für jeden Kunden:

customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)

Transaktionsbetrag pro Kunde und Transaktionsdatum

Sie erstellen die Summenstruktur eines Datenrahmens für die Spalten Customer_Number und Trans_Date. Für Trans_Amount berechnen Sie eine Zwischensumme.

Die Ausgabe wird nach Kunde und innerhalb von Kunden nach Datum gruppiert. Sie beinhaltet den gesamten Transaktionsbetrag für jeden Kunden an jedem Datum, an dem der Kunde Transaktionen aufwies.

customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)

Gesamter Transaktionsbetrag pro Kunde und Transaktionsdatum mit statistischen Werten

Dieses Beispiel entspricht dem obigen. Sie legen jedoch True für den statistics-Parameter fest.

Neben der Zwischensumme des Transaktionsbetrags für jeden Kunden und für jedes Datum, an dem der Kunde Transaktionen aufwies, berechnen Sie nun auch eine Vielzahl statistischer Werte pro Kunde und Datum:

customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)

Bemerkungen

Funktionsweise

Die summarize()-Methode gruppiert Zeilen, die in einer Spalte denselben Wert oder in mehreren Spalten dieselben Wertkombinationen aufweisen. Der ausgegebene Datenrahmen beinhaltet für jede Gruppe eine einzelne Zeile. Sie enthält die Anzahl von Zeilen des Quelldatenrahmens, die zu der Gruppe gehören. In der Ausgabe wird auch der Prozentsatz der Zeilen des Datenrahmens berechnet, die zu einer Gruppe gehören.

Zwischensumme und Statistik: Spaltennamen und Berechnungen in den Ausgabeergebnissen

Sie können die calculate- und statistics-Parameter zur Durchführung statistischer Berechnungen für beliebige angegebene Zwischensummenspalten verwenden. Die statistischen Berechnungen werden in den Ausgabeergebnissen nach Gruppen unterteilt.

calculate-Parameter

Spaltenname in ausgegebenem Datenrahmen Durchgeführte Berechnung für eine Zwischensummenspalte
Name der Zwischensummenspalte + _sum Zwischensumme der Werte jeder Gruppe
Name der Zwischensummenspalte + _sum%

Die Zwischensumme jeder Gruppe als Prozentsatz des Gesamtwertes der Spalte

statistics-Parameter

Spaltentitel in ausgegebenem Datenrahmen Durchgeführte Berechnung für eine Zwischensummenspalte

Name der Zwischensummenspalte + _min

Der Minimalwert jeder Gruppe

Name der Zwischensummenspalte + _max

Der Maximalwert jeder Gruppe

Name der Zwischensummenspalte + _mean

Der durchschnittliche Wert jeder Gruppe

Name der Zwischensummenspalte + _median

Der Median jeder Gruppe

  • Ungeradzahlige Wertegruppen: die Mittelwerte
  • Geradzahlige Wertegruppen: der Durchschnittswert der zwei Werte in der Mitte

Name der Zwischensummenspalte + _std

Die Standardabweichung für jede Gruppe

Name der Zwischensummenspalte + _mode

Der am häufigsten auftretende Wert jeder Gruppe

Bei einem Gleichstand wird der niedrigste Wert angezeigt. Falls kein Wert mehr als einmal auftritt, wird das Minimum der Spalte angezeigt.

Name der Zwischensummenspalte + _q25

Der Wert des ersten Quartils jeder Gruppe (Wert des unteren Quartils)

Name der Zwischensummenspalte + _q75

Der Wert des dritten Quartils jeder Gruppe (Wert des oberen Quartils)