Método summarize()
Agrupa las filas de un marco de datos sobre la base de los valores idénticos en una o más columnas. Cuenta la cantidad de filas en cada grupo y también calcula el subtotal de columnas numéricas especificadas para cada grupo.
Sintaxis
nombre_marco_de_datos.summarize(on = ["columna_clave", "...n"], calculate = ["columna_numérica", "...n"]|None, statistics = True|False)
Parámetros
Nombre | Descripción |
---|---|
on = ["columna_clave", "...n"] |
La o las columnas clave que se deben usar para resumir. Si resume por más de una columna, creó grupos anidados. El orden de anidamiento respeta el orden en el que usted especifica las columnas. Las columnas clave se colocan a la izquierda en el marco de datos resumido. Nota El método summarize() ordena automáticamente el marco de datos por las columnas clave antes de resumir los datos en grupos. El marco de datos de salida contiene un solo grupo exclusivo para cada conjunto de valores idénticos o combinación idéntica de valores, en la o las columnas clave. |
calculate = ["columna_numérica", "...n"] | None opcional |
Si omite el parámetro, no se calcula el subtotal de ninguna columna. |
statistics = True | False opcional |
Si especifica True, se calculan los siguientes valores estadísticos para cada columna de subtotal, desglosados por grupo:
Si omite statistics, se utiliza el valor predeterminado de False. |
Devuelve
Marco de datos de HCL.
Ejemplos
Importe total de transacciones por cliente
Usted resume un marco de datos de cuentas por cobrar por la columna Customer_Number y calcula el subtotal de la columna Trans_Amount. La salida se agrupa por cliente e incluye el importe total de las transacciones para cada cliente:
customer_total = accounts_receivable.summarize(on = ["Customer_Number"], calculate = ["Trans_Amount"], statistics = False)
Importe total de las transacciones por cliente por fecha de transacción
Usted resume un marco de datos de cuentas por cobrar por el campo Customer_Number y las columnas Trans_Date. Calcula el subtotal de la columna Trans_Amount.
La salida se agrupa por cliente (y, dentro del cliente, por fecha) e incluye el importe total de las transacciones para cada cliente por cada fecha en la que el cliente hizo una transacción.
customer_total_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = False)
Importe total de las transacciones, con valores estadísticos, por cliente por fecha de transacción
Este ejemplo es idéntico al anterior, pero usted especifica True para el parámetro statistics.
Además del importe de las transacciones subtotalizadas para cada cliente para cada fecha en la que el cliente realizó una transacción, también calcula una variedad de valores estadísticos para cada cliente en cada fecha:
customer_stats_by_date = accounts_receivable.summarize(on = ["Customer_Number", "Trans_Date"], calculate = ["Trans_Amount"], statistics = True)
Observaciones
Cómo funciona
El método summarize() agrupa las filas que tienen el mismo valor en un columna o la misma combinación de valores en varias columnas. El marco de datos de salida contiene una única fila para cada grupo, con un recuento de la cantidad de filas en el marco de datos de origen que pertenecen al grupo. La salida también calcula el porcentaje de filas del marco de datos que pertenecen a cada grupo.
Subtotal y estadísticas: los cálculos y los nombres de columnas de los resultados de salida
Puede usar los parámetros calculate y statistics para realizar cálculos estadísticos en cualquier columna de subtotal que especifique. Los cálculos estadísticos se desglosan por grupo en los resultados de la salida.
Parámetro calculate
Nombre de la columna en el marco de datos de salida | Cálculo realizado en la columna subtotalizada |
---|---|
nombre columna subtotalizada + _sum% | Valores subtotalizados para cada grupo |
nombre columna subtotalizada + _sum% |
El subtotal de cada grupo expresado como un porcentaje del total de la columna |
Parámetro statistics
Título de la columna en el marco de datos de salida | Cálculo realizado en la columna subtotalizada |
---|---|
nombre columna subtotalizada + _min |
El valor mínimo para cada grupo |
nombre columna subtotalizada + _max |
El valor máximo para cada grupo |
nombre columna subtotalizada + _mean |
El valor promedio para cada grupo |
nombre columna subtotalizada + _median |
El valor de la mediana para cada grupo
|
nombre columna subtotalizada + _std |
La desviación estándar de cada grupo |
nombre columna subtotalizada + _mode |
El valor que ocurre con mayor frecuencia en cada grupo En caso de empate, muestra el valor más bajo. Si ningún valor está presente más de una vez, muestra el valor mínimo en la columna. |
nombre columna subtotalizada + _q25 |
El valor de primer cuartil de cada grupo (valor de cuartil inferior) |
nombre columna subtotalizada + _q75 |
El valor de tercer cuartil de cada grupo (valor de cuartil superior) |