Método summarize()

Agrupa las filas de un marco de datos sobre la base de los valores idénticos en una o más columnas. Cuenta la cantidad de filas en cada grupo y también calcula el subtotal de columnas numéricas especificadas para cada grupo.

Sintaxis

nombre_marco_de_datos.summarize(on = ["columna_clave", "...n"], calculate = ["columna_numérica", "...n"]|None, statistics = True|False)

Parámetros

Nombre Descripción
on = ["columna_clave", "...n"]

La o las columnas clave que se deben usar para resumir.

Si resume por más de una columna, creó grupos anidados. El orden de anidamiento respeta el orden en el que usted especifica las columnas.

Las columnas clave se colocan a la izquierda en el marco de datos resumido.

Nota

El método summarize() ordena automáticamente el marco de datos por las columnas clave antes de resumir los datos en grupos. El marco de datos de salida contiene un solo grupo exclusivo para cada conjunto de valores idénticos o combinación idéntica de valores, en la o las columnas clave.

calculate = ["columna_numérica", "...n"] | None

opcional

  • columna_numérica una o más columnas numéricas que se deben utilizar para calcular el subtotal en cada grupo

    Además, calcula el subtotal de cada grupo como un porcentaje del total de la columna

  • None no se calcula el subtotal de ninguna columna numérica

Si omite el parámetro, no se calcula el subtotal de ninguna columna.

statistics = True | False

opcional

  • True calcule las estadísticas de todas las columnas de subtotal numérico

    Nota

    No se puede usar a menos que se haya especificado al menos una columna de subtotal numérico con calculate.

  • False no calcule las estadísticas

Si especifica True, se calculan los siguientes valores estadísticos para cada columna de subtotal, desglosados por grupo:

  • mínimo
  • máximo
  • media (promedio)
  • mediana
  • desviación estándar
  • moda
  • primer cuartil
  • tercer cuartil

Si omite statistics, se utiliza el valor predeterminado de False.

Devuelve

Marco de datos de HCL.

Ejemplos

Importe total de transacciones por cliente

Usted resume un marco de datos de cuentas por cobrar por la columna Customer_Number y calcula el subtotal de la columna Trans_Amount. La salida se agrupa por cliente e incluye el importe total de las transacciones para cada cliente:

customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)

Importe total de las transacciones por cliente por fecha de transacción

Usted resume un marco de datos de cuentas por cobrar por el campo Customer_Number y las columnas Trans_Date. Calcula el subtotal de la columna Trans_Amount.

La salida se agrupa por cliente (y, dentro del cliente, por fecha) e incluye el importe total de las transacciones para cada cliente por cada fecha en la que el cliente hizo una transacción.

customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)

Importe total de las transacciones, con valores estadísticos, por cliente por fecha de transacción

Este ejemplo es idéntico al anterior, pero usted especifica True para el parámetro statistics.

Además del importe de las transacciones subtotalizadas para cada cliente para cada fecha en la que el cliente realizó una transacción, también calcula una variedad de valores estadísticos para cada cliente en cada fecha:

customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)

Observaciones

Cómo funciona

El método summarize() agrupa las filas que tienen el mismo valor en un columna o la misma combinación de valores en varias columnas. El marco de datos de salida contiene una única fila para cada grupo, con un recuento de la cantidad de filas en el marco de datos de origen que pertenecen al grupo. La salida también calcula el porcentaje de filas del marco de datos que pertenecen a cada grupo.

Subtotal y estadísticas: los cálculos y los nombres de columnas de los resultados de salida

Puede usar los parámetros calculate y statistics para realizar cálculos estadísticos en cualquier columna de subtotal que especifique. Los cálculos estadísticos se desglosan por grupo en los resultados de la salida.

Parámetro calculate

Nombre de la columna en el marco de datos de salida Cálculo realizado en la columna subtotalizada
nombre columna subtotalizada + _sum Valores subtotalizados para cada grupo
nombre columna subtotalizada + _sum%

El subtotal de cada grupo expresado como un porcentaje del total de la columna

Parámetro statistics

Título de la columna en el marco de datos de salida Cálculo realizado en la columna subtotalizada

nombre columna subtotalizada + _min

El valor mínimo para cada grupo

nombre columna subtotalizada + _max

El valor máximo para cada grupo

nombre columna subtotalizada + _mean

El valor promedio para cada grupo

nombre columna subtotalizada + _median

El valor de la mediana para cada grupo

  • Conjuntos de valores impares: el valor del centro
  • Conjuntos de valores pares: el promedio de los dos valores del centro

nombre columna subtotalizada + _std

La desviación estándar de cada grupo

nombre columna subtotalizada + _mode

El valor que ocurre con mayor frecuencia en cada grupo

En caso de empate, muestra el valor más bajo. Si ningún valor está presente más de una vez, muestra el valor mínimo en la columna.

nombre columna subtotalizada + _q25

El valor de primer cuartil de cada grupo (valor de cuartil inferior)

nombre columna subtotalizada + _q75

El valor de tercer cuartil de cada grupo (valor de cuartil superior)