summarize() methode

Groepeert rijen in een dataframe op basis van identieke waarden in een of meer kolommen. Telt het aantal rijen in elke groep en berekent ook subtotalen van opgegeven numerieke kolommen voor elke groep.

Syntaxis

dataframe_name.summarize(on = ["key_column", "...n"], calculate = ["numeric_column", "...n"]|None, statistics = Waar|Onwaar)

Parameters

Naam Beschrijving
on = ["key_column", "...n"]

De belangrijkste kolom(men) om samen te vatten.

Als u samenvat op basis van meer dan één kolom, hebt u geneste groepen gemaakt. De volgorde van nesten volgt de volgorde waarin u de kolommen opgeeft.

Belangrijke kolommen worden uiterst links in het samengevatte dataframe geplaatst.

Opmerking

De summarize()-methode sorteert het dataframe automatisch op de sleutelkolommen voordat de gegevens in groepen worden samengevat. De uitvoer-dataframe bevat een enkele, unieke groep voor elke set identieke waarden, of identieke combinatie van waarden, in de sleutelkolom of -kolommen.

calculate = ["numeric_column", "...n"] | Geen

optioneel

  • numeric_column een of meer numerieke kolommen om subtotalen voor elke groep te maken

    Het subtotaal van elke groep uitgedrukt als percentage van het kolomtotaal

  • Geen numerieke kolommen niet subtotaliseren

Als u de parameter weglaat, worden er geen kolommen gesubtotaliseerd.

statistics = Waar | Onwaar

optioneel

  • Waar statistieken berekenen voor alle numerieke subtotaalkolommen

    Opmerking

    Kan niet worden gebruikt tenzij er ten minste één numerieke subtotaalkolom is opgegeven met calculate.

  • Onwaar geen statistieken berekenen

Als u Waar opgeeft, worden de volgende statistische waarden berekend voor elke subtotaalkolom, uitgesplitst per groep:

  • minimum
  • maximum
  • gemiddelde
  • mediaan
  • standaarddeviatie
  • modus
  • eerste kwartiel
  • derde kwartiel

Als u statistieken weglaat, wordt de standaardwaarde Onwaar gebruikt.

Retourneert

HCL-dataframe.

Voorbeelden

Totaal transactiebedrag per klant

U vat een dataframe van debiteuren samen op basis van de kolom Customer_Number en maakt een subtotaal van de kolom Trans_Amount. De uitvoer wordt gegroepeerd per klant en bevat het totale transactiebedrag voor elke klant:

customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)

Totaal transactiebedrag per klant per transactiedatum

U vat een dataframe van debiteuren samen op basis van de kolommen Customer_Number en Trans_Date. U subtotaliseert de kolom Trans_Amount.

De uitvoer is gegroepeerd per klant, en binnen elke klant op datum, en omvat het totale transactiebedrag voor elke klant voor elke datum waarop de klant transacties heeft uitgevoerd.

customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)

Totaal transactiebedrag, met statistische waarden, per klant per transactiedatum

Dit voorbeeld is identiek aan het bovenstaande, maar u geeft Waar op voor de parameter statistics.

Naast het gesubtotaliseerde transactiebedrag voor elke klant voor elke datum waarop de klant transacties had, berekent u ook verschillende statistische waarden voor elke klant voor elke datum:

customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)

Opmerkingen

Hoe het werkt

De summarize()-methode groepeert rijen die dezelfde waarde in een kolom hebben, of dezelfde combinatie van waarden in meerdere kolommen. Het uitvoer-dataframe bevat één rij voor elke groep, met een telling van het aantal rijen in het bron-dataframe die tot de groep behoren. De uitvoer berekent ook het percentage van de dataframe-rijen dat tot elke groep behoort.

Subtotaal en statistieken: kolomnamen en berekeningen in de uitvoerresultaten

U kunt de parameters calculate en statistics gebruiken om statistische berekeningen uit te voeren op elke door u opgegeven subtotaalkolom. De statistische berekeningen worden in de uitvoerresultaten uitgesplitst per groep.

calculate-parameter

Kolomnaam in uitvoerdataframe Berekening uitgevoerd op gesubtotaliseerde kolom
subtotaled column name + _sum Subtotaalwaarden voor elke groep
subtotaled column name + _sum%

Het subtotaal van elke groep uitgedrukt als percentage van het kolomtotaal

statistics-parameter

Kolomtitel in uitvoerdataframe Berekening uitgevoerd op gesubtotaliseerde kolom

subtotaled column name + _min

De minimumwaarde voor elke groep

subtotaled column name + _max

De maximale waarde voor elke groep

subtotaled column name + _mean

De gemiddelde waarde voor elke groep

subtotaled column name + _median

De mediaan voor elke groep

  • Oneven reeksen waarden: de middelste waarde
  • Even-getallen reeksen: het gemiddelde van de twee waarden in het midden

subtotaled column name + _std

De standaardafwijking voor elke groep

subtotaled column name + _mode

De meest voorkomende waarde voor elke groep

In geval van een gelijke score wordt de laagste waarde weergegeven. Als geen waarde meer dan eens voorkomt, wordt de minimumwaarde in de kolom weergegeven.

subtotaled column name + _q25

De eerste kwartielwaarde voor elke groep (onderste kwartielwaarde)

subtotaled column name + _q75

De derde kwartielwaarde voor elke groep (bovenste kwartielwaarde)