summarize()-Methode
Gruppiert Zeilen basierend auf identischen Werten in einer oder mehreren Spalten. Zählt die Anzahl der Zeilen in jeder Gruppe und berechnet auch Zwischensummen angegebener numerischer Spalten jeder Gruppe.
Syntax
datenrahmen_name.summarize(on = ["schluesselspalte", "...n"], calculate = ["numerische_spalte", "...n"]|None, statistics = True|False)
Parameter
Name | Beschreibung |
---|---|
on = ["schluesselspalte", "...n"] |
Die Schlüsselspalte(n), für die Sie eine Summenstruktur erstellen möchten. Wenn Sie eine Summenstruktur für mehr als eine Spalte erstellen, haben Sie verschachtelte Gruppen erstellt. Die Reihenfolge, in der Sie die Spalten angeben, bestimmt die Reihenfolge der Verschachtelung. Schlüsselspalten sind ganz links im Datenrahmen mit der Summenstruktur positioniert. Hinweis Die summarize()-Methode sortiert automatisch den Datenrahmen nach den Schlüsselspalten, bevor die Daten in Gruppen zusammengefasst werden. Der ausgegebene Datenrahmen beinhaltet für jede Menge identischer Werte bzw. identischer Wertkombinationen im Schlüsselfeld oder den Schlüsselfeldern eine einzelne eindeutige Gruppe. |
calculate = ["numerische_spalte", "...n"] | None Optional |
Wenn der Parameter weggelassen wird, werden keine Zwischensummen für Spalten erstellt. |
statistics = True | False Optional |
Wenn Sie True festlegen, werden die folgenden statistischen Werte für jede Zwischensummenspalte berechnet, unterteilt nach Gruppe:
Wenn statistics weggelassen wird, wird der Standard False verwendet. |
Gibt zurück
HCL-Datenrahmen zurück.
Beispiele
Gesamter Transaktionsbetrag pro Kunde
Sie möchten die Summenstruktur eines Datenrahmens mit Forderungen für die Spalte Customer_Number erstellen und Zwischensummen für die Spalte Trans_Amount berechnen. Die Ausgabe wird nach Kunde gruppiert und beinhaltet den gesamten Transaktionsbetrag für jeden Kunden:
customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)
Transaktionsbetrag pro Kunde und Transaktionsdatum
Sie erstellen die Summenstruktur eines Datenrahmens für die Spalten Customer_Number und Trans_Date. Für Trans_Amount berechnen Sie eine Zwischensumme.
Die Ausgabe wird nach Kunde und innerhalb von Kunden nach Datum gruppiert. Sie beinhaltet den gesamten Transaktionsbetrag für jeden Kunden an jedem Datum, an dem der Kunde Transaktionen aufwies.
customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)
Gesamter Transaktionsbetrag pro Kunde und Transaktionsdatum mit statistischen Werten
Dieses Beispiel entspricht dem obigen. Sie legen jedoch True für den statistics-Parameter fest.
Neben der Zwischensumme des Transaktionsbetrags für jeden Kunden und für jedes Datum, an dem der Kunde Transaktionen aufwies, berechnen Sie nun auch eine Vielzahl statistischer Werte pro Kunde und Datum:
customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)
Bemerkungen
Funktionsweise
Die summarize()-Methode gruppiert Zeilen, die in einer Spalte denselben Wert oder in mehreren Spalten dieselben Wertkombinationen aufweisen. Der ausgegebene Datenrahmen beinhaltet für jede Gruppe eine einzelne Zeile. Sie enthält die Anzahl von Zeilen des Quelldatenrahmens, die zu der Gruppe gehören. In der Ausgabe wird auch der Prozentsatz der Zeilen des Datenrahmens berechnet, die zu einer Gruppe gehören.
Zwischensumme und Statistik: Spaltennamen und Berechnungen in den Ausgabeergebnissen
Sie können die calculate- und statistics-Parameter zur Durchführung statistischer Berechnungen für beliebige angegebene Zwischensummenspalten verwenden. Die statistischen Berechnungen werden in den Ausgabeergebnissen nach Gruppen unterteilt.
calculate-Parameter
Spaltenname in ausgegebenem Datenrahmen | Durchgeführte Berechnung für eine Zwischensummenspalte |
---|---|
Name der Zwischensummenspalte + _sum | Zwischensumme der Werte jeder Gruppe |
Name der Zwischensummenspalte + _sum% |
Die Zwischensumme jeder Gruppe als Prozentsatz des Gesamtwertes der Spalte |
statistics-Parameter
Spaltentitel in ausgegebenem Datenrahmen | Durchgeführte Berechnung für eine Zwischensummenspalte |
---|---|
Name der Zwischensummenspalte + _min |
Der Minimalwert jeder Gruppe |
Name der Zwischensummenspalte + _max |
Der Maximalwert jeder Gruppe |
Name der Zwischensummenspalte + _mean |
Der durchschnittliche Wert jeder Gruppe |
Name der Zwischensummenspalte + _median |
Der Median jeder Gruppe
|
Name der Zwischensummenspalte + _std |
Die Standardabweichung für jede Gruppe |
Name der Zwischensummenspalte + _mode |
Der am häufigsten auftretende Wert jeder Gruppe Bei einem Gleichstand wird der niedrigste Wert angezeigt. Falls kein Wert mehr als einmal auftritt, wird das Minimum der Spalte angezeigt. |
Name der Zwischensummenspalte + _q25 |
Der Wert des ersten Quartils jeder Gruppe (Wert des unteren Quartils) |
Name der Zwischensummenspalte + _q75 |
Der Wert des dritten Quartils jeder Gruppe (Wert des oberen Quartils) |