Uso de las funciones para limpiar los datos
Puede usar una función de Analytics para limpiar los datos. Existen diferentes funciones que le permiten realizar distintos tipos de limpieza, según sus necesidades particulares.
¿Por qué necesito limpiar los datos?
Con frecuencia, los datos que se importan a Analytics no están limpios. Esto significa que no están perfectamente formateados y no son uniformes. Los comandos de Analytics no funcionan, o arrojan resultados imprecisos, si la información de entrada está formada por datos no estandarizados o con un formato incorrecto.
Cómo funciona la limpieza de los datos
A limpiar los datos, no está limpiando ni modificando los datos de origen reales. Los datos de origen siempre permanecen en modo de solo lectura.
Por el contrario, usted introduce los datos de origen en una función que los procesa y los entrega en forma de "datos virtuales" con el formato correcto y uniformizados. A continuación, introduce los datos virtuales como información de entrada para un comando de Analytics, en lugar de utilizar los datos de origen.
Punto clave
Por medio del uso de una o más funciones, puede realizar una amplia variedad de tareas de limpieza de datos o preparación de datos que le permiten trabajar de manera eficaz y precisa, incluso con datos de origen que no son uniformes. La preparación de los datos es una tarea preliminar fundamental para gran parte del análisis de datos.
Quitar todos los espacios en blanco
El uso no uniforme de espacios en blanco es una causa común para la obtención de resultados imprecisos. Puede utilizar la función ALLTRIM( ) para quitar los espacios en blanco iniciales y finales, y asegurarse de obtener resultados precisos.
Ejemplo: Espacios en blanco
Usted desea ordenar una tabla de proveedores por ciudad, pero los espacios iniciales en algunos nombres de ciudades impiden el ordenamiento preciso.
Ciudad_proveedor ordenada |
---|
[ ] [ ] [ ] [ ] Salt Lake City |
[ ] [ ] Chicago |
Ann Arbor |
Austin |
Englewood |
[ ] = espacio en blanco |
Puede usar la función ALLTRIM( ) para deshacerse de los espacios iniciales y garantizar el ordenamiento preciso:
ALLTRIM(Ciudad_proveedor)
ALLTRIM(Ciudad_proveedor) ordenada |
---|
Ann Arbor |
Austin |
Chicago |
Englewood |
Salt Lake City |
Nota
Para aplicar la función ALLTRIM( ) al campo Ciudad_proveedor, debe crear un campo calculado que utilice ALLTRIM( ). En otro tutorial se analizan los campos calculados.
Quitar los caracteres no deseados
Con frecuencia, los caracteres no uniformes o los caracteres no cruciales impiden el análisis de datos. Puede usar diferentes funciones para incluir únicamente determinados caracteres o para excluir determinados caracteres o cadenas de caracteres, antes de procesar los datos con un comando de Analytics.
Probar cosas usted mismo
Puede copiar y pegar cualquiera de los ejemplos de las funciones que se encuentran a continuación en la línea de comandos para verificar el valor que regresan o para experimentar con diferentes datos de entrada.
En la línea de comandos, debe anteceder el ejemplo con la palabra DISPLAY y un espacio. La experimentación en la línea de comandos se explica en tutoriales anteriores.
Ejemplo: caracteres no deseados
Usted desea realizar una prueba de duplicados en una tabla, pero el formato no uniforme de los datos arroja resultados imprecisos.
Por ejemplo, al ejecutar el comando de duplicados en un campo de números de teléfono que no tiene un formato uniforme los siguientes dos números no aparecen como duplicados, aunque claramente lo son:
- (604) 555-1212
- Tel. 604-555-1212
Para asegurarse de que se detecten todos los duplicados, puede utilizar funciones para estandarizar los datos antes de realizar la operación de detección de duplicados.
Tarea | Ejemplo de la función |
---|---|
Estandarizar números de teléfono |
INCLUDE("(604) 555-1212"; "1234567890")
Devuelve 6045551212 INCLUDE("Tel. 604-555-1212"; "1234567890")
Devuelve 6045551212 La función INCLUDE( ) incluye únicamente los caracteres especificados en la salida; en este caso, únicamente los números de 0 a 9 Consejo Utilice INCLUDE( ) si el conjunto de caracteres que desea incluir es pequeño y el conjunto que desea excluir es grande. |
Estandarizar domicilios |
EXCLUDE("#1550-980 Howe St."; "#.")
Devuelve 1550-980 Howe St EXCLUDE("1550-980 Howe St"; "#.")
Devuelve 1550-980 Howe St La función EXCLUDE( ) excluye los caracteres específicos de la salida; en este caso, el signo numeral (#) y el punto (.). Consejo Utilice EXCLUDE( ) si el conjunto de caracteres que desea excluir es pequeño y el conjunto que desea incluir es grande. |
Estandarizar domicilios y quitar las abreviaturas de las calles |
OMIT("#1550-980 Howe St."; " Street, St.,#")
Devuelve 1550-980 Howe OMIT("1550-980 Howe Street"; " Street, St.,#")
Devuelve 1550-980 Howe La función OMIT( ) excluye los caracteres y cadenas especificados de la salida; en este caso, el signo de numeral (#) y la palabras no uniformes St. y Street Consejo Utilice OMIT( ) si desea excluir caracteres o cadenas específicos, pero no los caracteres individuales que conforman la cadena. Por ejemplo, excluir Street cuando aparece como una unidad, pero no las letras S, t, r, e o t cuando aparecen dentro de otras palabras. |
¿Cómo continuar?
Aprenda a usar funciones para realizar varias tareas de manera simultánea: Limpieza y filtrado de datos al mismo tiempo