summarize()-Methode

Gruppiert Zeilen basierend auf identischen Werten in einer oder mehreren Spalten. Zählt die Anzahl der Zeilen in jeder Gruppe und berechnet auch Zwischensummen angegebener numerischer Spalten jeder Gruppe.

Syntax

datenrahmen_name.summarize(on = ["schluesselspalte", "...n"], calculate = ["numerische_spalte", "...n"]|None, statistics = True|False)

Parameter

Name	Beschreibung
on = ["schluesselspalte", "...n"]	Die Schlüsselspalte(n), für die Sie eine Summenstruktur erstellen möchten. Wenn Sie eine Summenstruktur für mehr als eine Spalte erstellen, haben Sie verschachtelte Gruppen erstellt. Die Reihenfolge, in der Sie die Spalten angeben, bestimmt die Reihenfolge der Verschachtelung. Schlüsselspalten sind ganz links im Datenrahmen mit der Summenstruktur positioniert. Hinweis Die summarize()-Methode sortiert automatisch den Datenrahmen nach den Schlüsselspalten, bevor die Daten in Gruppen zusammengefasst werden. Der ausgegebene Datenrahmen beinhaltet für jede Menge identischer Werte bzw. identischer Wertkombinationen im Schlüsselfeld oder den Schlüsselfeldern eine einzelne eindeutige Gruppe.
calculate = ["numerische_spalte", "...n"] \| None Optional	numeric_column eine oder mehrere numerische Spalten für die Zwischensumme für jede Gruppe Berechnet auch die Zwischensumme jeder Gruppe als Prozentsatz der Spaltensumme None für numerische Spalten keine Zwischensummen erstellen Wenn der Parameter weggelassen wird, werden keine Zwischensummen für Spalten erstellt.
statistics = True \| False Optional	True Statistiken für alle numerischen Zwischensummenspalten berechnen Hinweis Kann nur verwendet werden, wenn mindestens eine numerische Zwischensummenspalte mit calculate angegeben wird. False keine Statistiken berechnen Wenn Sie True festlegen, werden die folgenden statistischen Werte für jede Zwischensummenspalte berechnet, unterteilt nach Gruppe: Minimum Maximum Mittelwert (Durchschnitt) Median Standardabweichung Modus erstes Quartil drittes Quartil Wenn statistics weggelassen wird, wird der Standard False verwendet.

Name

Beschreibung

on = ["schluesselspalte", "...n"]

Die Schlüsselspalte(n), für die Sie eine Summenstruktur erstellen möchten.

Wenn Sie eine Summenstruktur für mehr als eine Spalte erstellen, haben Sie verschachtelte Gruppen erstellt. Die Reihenfolge, in der Sie die Spalten angeben, bestimmt die Reihenfolge der Verschachtelung.

Schlüsselspalten sind ganz links im Datenrahmen mit der Summenstruktur positioniert.

Hinweis

Die summarize()-Methode sortiert automatisch den Datenrahmen nach den Schlüsselspalten, bevor die Daten in Gruppen zusammengefasst werden. Der ausgegebene Datenrahmen beinhaltet für jede Menge identischer Werte bzw. identischer Wertkombinationen im Schlüsselfeld oder den Schlüsselfeldern eine einzelne eindeutige Gruppe.

calculate = ["numerische_spalte", "...n"] | None

Optional

numeric_column eine oder mehrere numerische Spalten für die Zwischensumme für jede Gruppe
Berechnet auch die Zwischensumme jeder Gruppe als Prozentsatz der Spaltensumme
None für numerische Spalten keine Zwischensummen erstellen

Wenn der Parameter weggelassen wird, werden keine Zwischensummen für Spalten erstellt.

statistics = True | False

Optional

True Statistiken für alle numerischen Zwischensummenspalten berechnen
Hinweis
Kann nur verwendet werden, wenn mindestens eine numerische Zwischensummenspalte mit calculate angegeben wird.
False keine Statistiken berechnen

Wenn Sie True festlegen, werden die folgenden statistischen Werte für jede Zwischensummenspalte berechnet, unterteilt nach Gruppe:

Minimum
Maximum
Mittelwert (Durchschnitt)
Median
Standardabweichung
Modus
erstes Quartil
drittes Quartil

Wenn statistics weggelassen wird, wird der Standard False verwendet.

Gibt zurück

HCL-Datenrahmen zurück.

Beispiele

Gesamter Transaktionsbetrag pro Kunde

Sie möchten die Summenstruktur eines Datenrahmens mit Forderungen für die Spalte Customer_Number erstellen und Zwischensummen für die Spalte Trans_Amount berechnen. Die Ausgabe wird nach Kunde gruppiert und beinhaltet den gesamten Transaktionsbetrag für jeden Kunden:

customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)

Transaktionsbetrag pro Kunde und Transaktionsdatum

Sie erstellen die Summenstruktur eines Datenrahmens für die Spalten Customer_Number und Trans_Date. Für Trans_Amount berechnen Sie eine Zwischensumme.

Die Ausgabe wird nach Kunde und innerhalb von Kunden nach Datum gruppiert. Sie beinhaltet den gesamten Transaktionsbetrag für jeden Kunden an jedem Datum, an dem der Kunde Transaktionen aufwies.

customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)

Gesamter Transaktionsbetrag pro Kunde und Transaktionsdatum mit statistischen Werten

Dieses Beispiel entspricht dem obigen. Sie legen jedoch True für den statistics-Parameter fest.

Neben der Zwischensumme des Transaktionsbetrags für jeden Kunden und für jedes Datum, an dem der Kunde Transaktionen aufwies, berechnen Sie nun auch eine Vielzahl statistischer Werte pro Kunde und Datum:

customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)

Bemerkungen

Funktionsweise

Die summarize()-Methode gruppiert Zeilen, die in einer Spalte denselben Wert oder in mehreren Spalten dieselben Wertkombinationen aufweisen. Der ausgegebene Datenrahmen beinhaltet für jede Gruppe eine einzelne Zeile. Sie enthält die Anzahl von Zeilen des Quelldatenrahmens, die zu der Gruppe gehören. In der Ausgabe wird auch der Prozentsatz der Zeilen des Datenrahmens berechnet, die zu einer Gruppe gehören.

Zwischensumme und Statistik: Spaltennamen und Berechnungen in den Ausgabeergebnissen

Sie können die calculate- und statistics-Parameter zur Durchführung statistischer Berechnungen für beliebige angegebene Zwischensummenspalten verwenden. Die statistischen Berechnungen werden in den Ausgabeergebnissen nach Gruppen unterteilt.

calculate-Parameter

Spaltenname in ausgegebenem Datenrahmen	Durchgeführte Berechnung für eine Zwischensummenspalte
Name der Zwischensummenspalte + _sum	Zwischensumme der Werte jeder Gruppe
Name der Zwischensummenspalte + _sum%	Die Zwischensumme jeder Gruppe als Prozentsatz des Gesamtwertes der Spalte

statistics-Parameter

Spaltentitel in ausgegebenem Datenrahmen	Durchgeführte Berechnung für eine Zwischensummenspalte
Name der Zwischensummenspalte + _min	Der Minimalwert jeder Gruppe
Name der Zwischensummenspalte + _max	Der Maximalwert jeder Gruppe
Name der Zwischensummenspalte + _mean	Der durchschnittliche Wert jeder Gruppe
Name der Zwischensummenspalte + _median	Der Median jeder Gruppe Ungeradzahlige Wertegruppen: die Mittelwerte Geradzahlige Wertegruppen: der Durchschnittswert der zwei Werte in der Mitte
Name der Zwischensummenspalte + _std	Die Standardabweichung für jede Gruppe
Name der Zwischensummenspalte + _mode	Der am häufigsten auftretende Wert jeder Gruppe Bei einem Gleichstand wird der niedrigste Wert angezeigt. Falls kein Wert mehr als einmal auftritt, wird das Minimum der Spalte angezeigt.
Name der Zwischensummenspalte + _q25	Der Wert des ersten Quartils jeder Gruppe (Wert des unteren Quartils)
Name der Zwischensummenspalte + _q75	Der Wert des dritten Quartils jeder Gruppe (Wert des oberen Quartils)