Definición de archivos de imagen de impresión (reporte) y archivos PDF

Los archivos de imagen de impresión, también denominados archivos de reporte, son copias electrónicas de los reportes impresos. Los archivos PDF son archivos de aplicación o archivos escaneados que se guardaron en el formato estándar PDF. La manera en la que se definen e importan los archivos de imagen de impresión o los archivos PDF es casi idéntica. Por este motivo, la mayoría de los temas de esta sección de la Ayuda de Analytics son válidos para ambos tipos de archivos.

Los archivos PDF pueden ser más difíciles de definir e importar que los archivos de imagen de impresión porque las columnas de los datos que parecen estar alineadas en el archivo PDF de origen pueden desalinearse una vez que Analytics analiza el archivo PDF (parte del proceso de definición de archivos). Analytics incluye dos analizadores de PDF: Xpdf y VeryPDF. Puede intentar utilizar ambos analizadores para ver si uno ofrece mejores resultados.

¡Precaución!

Utilice los totales de control para verificar que la tabla de Analytics creada a partir de un archivo de imagen de impresión o PDF importado contenga todos los datos del archivo de origen. Al definir archivos de imagen de impresión o PDF es posible que se excluyan registros sin que usted lo advierta. Siempre debería verificar que tiene un conjunto de datos completo en Analytics antes de comenzar cualquier análisis.

Puntos clave para definir con éxito un archivo de imagen de impresión o PDF

La definición de un archivo de imagen de impresión o PDF puede resultar compleja. Más que una ciencia, se trata de un arte y es necesario que analice cuidadosamente la organización de los datos del archivo de origen para planificar un enfoque efectivo. La organización de los datos en los archivos de imagen de impresión o PDF suele ser menos estandarizada que la organización en otros formatos de archivo, lo cual complica el proceso de definición. Para alcanzar el éxito, es posible que sea necesario repetir varias veces el proceso.

Hay una variedad de técnicas y puntos clave, que se describen a continuación, que pueden ayudar a evitar la frustración. Se le recomienda revisar estos puntos con atención antes de definir un archivo, al hacerlo o al enfrentarse con problemas.

Puntos generales

Datos mal alineados

Campos y registros

Captura de registros

Consideraciones adicionales

Puntos generales

El proceso de definición de archivos es iterativo

La definición de un archivo de imagen de impresión o PDF con éxito suele ser un proceso iterativo y tal vez requiera una cierta cantidad de pruebas y errores. Necesitará realizar algunas de las siguientes tareas o la totalidad de ellas:

  • definir uno o más campos
  • definir un conjunto de registros detallados sobre la base de un valor único
  • definir uno o más registros de encabezado o pie de página
  • modificar o ajustar criterios para afinar un conjunto de registros capturado
  • revisar la precisión de cada definición de registro y campo
  • editar las definiciones de registros o campos imprecisas
  • realizar varias pasadas por un archivo como una manera de abordar los datos no alineados

Mejorará con la práctica

En un principio, la definición de archivos de imagen de impresión o PDF puede parecer bastante difícil, en especial al definir archivos con datos que no están alineados. Con la práctica, mejorará en la evaluación de la estructura de los datos de un archivo de origen y en la búsqueda de métodos adecuados para definirla.

Puede utilizar los dos archivos de muestra que se incluyen con Analytics para practicar:

  • El archivo REPORT3.TXT es más fácil de definir. Analytics define automáticamente los registros de detalle del archivo; sin embargo, usted debe editar la definición automática porque contiene errores.
  • El archivo Inventory.pdf es más complejo de definir y contiene datos que no están alineados (a menos que analice el archivo página por página). Analytics no puede definir automáticamente ninguna parte del archivo desalineado; por lo tanto, debe crear una definición manual desde cero.

Analytics define automáticamente a la perfección los registros y los campos de detalle en otro archivo de muestra, Report.txt. Puede resultarle útil estudiar la definición automática de Report.txt en el Asistente de Definición de Datos.

Datos mal alineados

Soluciones para los datos no alineados

En el Asistente de Definición de Datos, las columnas de datos desalineados de un archivo de imagen de impresión o un archivo PDF analizado (ver Datos alineados y no alineados en un archivo PDF analizado) pueden dificultar o hacer muy ardua la tarea de crear una tabla de Analytics que se pueda utilizar. Si la falta de alineación de los datos es un problema significativo, considere cualquiera de los siguientes enfoques.

Nota

El enfoque más adecuado para su situación depende de la naturaleza de los datos que está intentando definir y de su experiencia con Analytics. Los nuevos usuarios de Analytics deberían considerar solicitar los datos en otro formato.

  • Regrese al origen del archivo y pida los datos en otro formato.
  • Intente convertir el archivo utilizando software de conversión de archivos, como software que convierta archivos PDF en archivos de Excel o en archivos de texto. Importe el archivo convertido a Analytics.
  • Intente copiar y pegar los datos de PDF en un editor de texto. A continuación, importe el archivo de texto a Analytics.
  • Utilice una o más de las siguientes técnicas para definir campos no alineados:
    • Cree una definición de campo lo suficientemente extensa como para capturar los caracteres ubicados más a la izquierda y más a la derecha en un campo que no esté alineado.
    • Cree definiciones de campos superpuestas.
    • Cree una definición de campo extenso única que abarque varios campos no alineados.

    Si desea obtener más información, consulte Definición de campos incorrectamente alineados en un archivo de imagen de impresión o PDF.

  • Importe el archivo de origen más de una vez. Con cada importación, defina un subconjunto diferente de registros. Anexe las tablas resultantes de Analytics para ensamblar un conjunto de datos completo.

    Si desea obtener más información, consulte Definición e importación de subconjuntos de datos de imagen de impresión o PDF.

Datos alineados y no alineados en un archivo PDF analizado

Las dos columnas de datos ubicadas más a la izquierda en el archivo PDF que se muestra a continuación están alineadas. El resto de las columnas de datos están desalineadas.

Campos y registros

Los campos están en azul, los registros, en gris y los datos sin definir, en blanco

Al utilizar el Asistente de Definición de Datos para definir campos y registros en un archivo de imagen de impresión o PDF analizado, los tres colores indican el estado de los datos:

  • El resaltado en azul aguamarina indica que los datos forman parte de un campo definido. Todos los campos definidos también forman parte de un registro definido.
  • El resaltado en gris indica que los datos forman parte de un registro definido, pero no forman parte de un campo definido.
  • El fondo blanco indica que los datos están sin definir.

Nota

Solo los campos resaltados en azul aguamarina se incluyen en la tabla de Analytics resultante.

Los datos resaltados en gris en un registro definido se ignoran, a menos que también se lo defina como un campo. Las porciones grises de un registro entre campos definidos se omiten en la tabla de Analytics resultante.

Los datos completamente indefinidos se ignoran. Si desea incluir alguno de estos datos en la tabla de Analytics resultante, debe definir campos y registros adicionales.

Campos definidos, registros definidos y datos sin definir

Puede definir tres tipos de datos: detalle, encabezado y pie de página

En el Asistente de Definición de Datos, puede definir tres tipos de datos en un archivo PDF o de imagen de impresión.

Tipo de datos Descripción Ejemplo

Ubicación en

Diferentes tipos de datos en un archivo PDF

Datos de detalle

El contenido básico de un archivo, organizado en registros.

La definición de los datos de detalle es obligatoria. No puede definir un archivo PDF o de imagen de impresión sin definir los datos de detalle.

  • transacciones con tarjetas de crédito
  • registros del inventario
#2, con contorno en azul
Datos de encabezado

La información de identificación que aparece sobre los bloques o subconjuntos de los registros de detalle.

Los datos de definición del encabezado son opcionales. Si no necesita la información de encabezado, no es necesario que la defina.

  • número de tienda y lugar en el que se realizaron las transacciones con tarjeta de crédito
  • Información de la “Clase de producto”
#1, con contorno en rojo
Datos del pie de página

La información que aparece debajo de los bloques o subconjuntos de registros de detalle.

La definición de los datos de pie de página es opcional. Si no necesita la información de pie de página, no es necesario que la defina.

  • transacciones con tarjeta de crédito subtotalizadas por tienda
  • “Totales de clase”
#3, con contorno en turquesa

Otras indicaciones

  • Puede definir los datos de detalle, encabezado o pie de página en el orden que lo desee. No se impone una secuencia.
  • También puede especificar nombres de campos (con contorno verde en la Diferentes tipos de datos en un archivo PDF). El método para especificar los nombres de los campos es diferente del proceso para definir los datos de detalle, encabezado o pie de página.

    Nota

    No utilice los datos de encabezado para intentar definir los nombres de campo que pueden aparecer en un archivo PDF o de imagen de impresión.

Diferentes tipos de datos en un archivo PDF

El ejemplo que se incluye a continuación destaca los diferentes tipos de datos en un PDF de un reporte de valuación del inventario.

Datos de detalle y datos de encabezado en un archivo PDF analizado

El ejemplo a continuación muestra el reporte de valuación del inventario anterior una vez analizado en el Asistente de Definición de Datos. Se definió un registro de detalle con cinco campos y un registro de encabezado con dos campos.

Cómo se tratan los datos de encabezado y pie de página

Si bien el Asistente de Definición de Datos trata los datos de encabezado o pie de página como un registro con campos, únicamente los datos de detalle se transforman en un verdadero conjunto de registros en la tabla de Analytics resultante. Cualquier dato de encabezado o pie de página que usted defina se convierte en uno o más campos que se agregan a los registros de detalle.

Los campos de encabezado y pie de página agregados repiten el mismo valor para cada registro de un bloque individual o un subconjunto de registros. Por ejemplo, “Store 3” para un bloque de registros, “Store 4” para el siguiente bloque y así en adelante.

No seleccione nombres de campos en el archivo de origen

No intente definir los nombres de los campos seleccionándolos en el archivo de imagen de impresión o PDF. Si bien esto parece ir en contra de lo que haríamos naturalmente, deje todos los nombre de los campos sin seleccionar en el archivo de origen. Lo que debe hacer es crear los nombres de los campos escribiéndolos en el cuadro de diálogo Definición de campo. Si selecciona los nombres de los campos en el archivo de origen, Analytics trata los nombres de los campos como datos dentro de los campos.

Especifique un valor único para capturar un conjunto de registros

La clave para capturar de manera precisa un conjunto de registros consiste en seleccionar o especificar un valor único para el conjunto de registros. En otras palabras, el valor aparece en una posición de byte específica (posición de carácter) en todos los registros del conjunto y no aparece en esa posición en ningún otro lugar del archivo de origen. El valor único puede ser un carácter o varios caracteres.

Por ejemplo, en la Selección de un valor único para un conjunto de registros, se selecciona el punto decimal del campo “Unit Cost” como valor único. Aparece en la misma posición en cada importe del campo y no aparece en esa posición ni encima ni debajo del campo.

Puede seleccionar o especificar este valor único en dos lugares diferentes:

  • En el valor de datos iniciales que selecciona para comenzar a definir el campo de datos inicial
  • En la misma fila que el valor de datos inicial

Selección de un valor único para un conjunto de registros

En el siguiente ejemplo, el valor único está en la misma fila que el valor de datos inicial. El valor de datos inicial, rodeado por un cuadro después de ser seleccionado, es el primer nombre de producto en el campo “Product No”.

Consejos para escoger un valor único

Para escoger un valor único, busque datos de registro en los que uno o más caracteres ocupen de manera sistemática la misma posición o tengan una posición exclusiva si se los compara con los datos anteriores o posteriores a ese conjunto de registros.

Cualquiera de las siguientes posibilidades podrían ser una buena opción para el valor exclusivo porque normalmente aparecen en la misma posición en cada registro y no suelen aparecer en esa posición fuera del conjunto de registros:

  • un punto decimal en los números
  • una o dos barras en las fechas
  • uno o más guiones en los números de identificación
  • una cadena de caracteres que forme un prefijo estándar
  • en los datos de encabezado y pie de página, una etiqueta que aparezca de forma sistemática, como “Customer ID:” o “Subtotal:”

La selección inicial del valor exclusivo crea un criterio de Concordancia exacta en el cuadro de diálogo Definición de registro. En el siguiente ejemplo, el criterio especifica que debe aparecer un punto decimal en la posición de byte 74 para que un registro sea incluido en el conjunto de registros.

De ser necesario, puede cambiar la concordancia exacta a una concordancia genérica, tal como Numérico o No en blanco, que puede ofrecer mayor flexibilidad al especificar un valor exclusivo. Si desea obtener más información, consulte Trabajo con definiciones de registros.

Capture de manera precisa un conjunto de registros

Capturar de manera precisa un conjunto de registros puede resultar un desafío. Puede escoger un valor que considere que es exclusivo del conjunto de registros que desea capturar y luego descubrir que algunos de los registros necesarios no son capturados o que se capturan datos adicionales que no pertenecen al registro.

Para comprender mejor esta situación, tal vez resulte útil pensar en un archivo de imagen de impresión o PDF como una grilla formada por columnas y filas. Imagine que cada columna es exactamente de un carácter o un espacio de ancho y se extiende desde la parte superior del archivo hasta la parte inferior del archivo.

Al seleccionar o especificar un valor, en una posición específica, para capturar un conjunto de registros, Analytics considera todos los caracteres en esa posición, desde la parte superior del archivo hasta la parte inferior, mientras busca el valor. Los caracteres se consideran aun cuando estén fuera de las hileras que usted considera datos del registro. Si el valor que especificó no es lo suficientemente preciso, es posible que se capturen e incluyan datos adicionales no pertenecientes al registro en el conjunto de registros.

Campo de datos definido de manera imprecisa

En el ejemplo anterior, si especificó un valor numérico genérico en la primera posición del campo “Product No” como el valor exclusivo para capturar un conjunto de registros, se capturarán todos los números que se encuentren en esa posición en cualquier lugar del archivo además del primer dígito real del número de producto. Vea el siguiente ejemplo.

Campo de datos definido de manera precisa

Sin embargo, si especificara un valor numérico genérico que abarque los nueve dígitos del campo, crearía un criterio lo suficientemente preciso como para capturar únicamente el conjunto de registros deseado.

Utilice varios criterios para capturar un conjunto de registros

Es posible que descubra que un único criterio, como una barra en un campo de fecha, no es suficiente para capturar un conjunto de registros de manera precisa. Tal vez, falten algunos valores de fecha. O, por casualidad, aparezca una barra en la misma posición en la información de encabezado o pie de página, fuera del conjunto de registros que desea capturar. En esta situación, puede agregar más criterios para ajustar el conjunto de registros que se captura.

Nota

Puede utilizar criterios para incluir o excluir filas del archivo de origen.

Algunos ejemplos de criterios múltiples:

  • Incluir filas que tengan la primera barra en un campo de fecha Y la segunda barra en el campo de fecha
  • Incluir filas que tengan el punto decimal en un campo numérico Y excluir las filas que contengan la palabra “Subtotal”
  • Incluir filas que tengan caracteres alfabéticos en el primer conjunto especificado de las posiciones de byte O incluir filas que tengan caracteres alfabéticos en el segundo conjunto especificado de posiciones de byte

Si desea obtener más información, consulte Trabajo con definiciones de registros.

Compruebe las definiciones de los registros y las definiciones de los campos en todo el archivo

A medida que defina los registros y los campos, asegúrese de recorrer el archivo para comprobar la precisión de las definiciones. Los valores en blanco, los caracteres inesperados y los datos incorrectamente alineados pueden provocar cualquiera de los siguientes problemas:

  • se excluyeron algunos de los registros del archivo
  • los datos no pertenecientes al registro se capturaron incorrectamente como un registro
  • los datos del campo están incluidos de manera incompleta en una definición de campo, lo cual trunca los valores
  • los datos de dos campos diferentes aparecen en una única definición de campo

Si una definición de registro no es correcta, debe modificar o ajustar los criterios que se utilizaron para capturar el conjunto de registros. Si desea obtener más información, consulte Trabajo con definiciones de registros.

Si una definición de campo es incorrecta, debe editar la definición. Si desea obtener más información, consulte Trabajo con definiciones de campos.

Puede definir campos y registros de varias líneas

Puede definir datos de campo o registro que se extiendan más allá de una línea o una fila en un archivo de origen. Por ejemplo, es posible organizar los datos de domicilio de cada registro en varias líneas. Si desea obtener más información, consulte Trabajo con registros y campos de varias líneas.

Defina e importe únicamente los datos que necesita

No pierda el tiempo ni complique el proceso de definición e importación definiendo campos de datos que no necesita para su análisis. Defina únicamente los registros de encabezado y pie de página si agregan información valiosa. Cada elemento de datos adicional que incluya puede agregar complejidad y hacer que el proceso de definición sea más difícil.

Controle el orden de los campos en la tabla de Analytics resultante

El orden en que defina los campos en un registro de detalle es también el orden en el cual aparecen en la tabla de Analytics resultante. Si elimina un campo de detalle durante el proceso de definición y luego lo vuelve a agregar, pierde su posición original y se coloca en el último lugar entre los campos de detalle. Los campos de detalle permanecen unidos, sin importar cualquier reorganización interna.

Consejo

Si utiliza un campo de detalle inicial para capturar registros de detalle, pero no desea que el campo aparezca primero en la tabla de Analytics resultante, puede usar el campo para capturar los registros y luego eliminarlo y volver a agregarlo.

Los campos de encabezado y pie de página aparecen en la tabla de Analytics resultante en el orden en el que los define. Aparecen antes de los campos de detalle si no ha definido un campo de detalle inicial y aparecen después de los campos de detalle una vez que ha definido un campo de detalles inicial.

También tiene la posibilidad de reordenar los campos una vez que ha terminado de importar el archivo de imagen de impresión o PDF a Analytics. Puede arrastrar las columnas para reordenarlas en una vista. También puede extraer por vista si desea crear una nueva tabla en la que los campos del formato de tabla estén reordenados físicamente. Si desea obtener más información, consulte Extraer datos. Puede descubrir que reordenar los campos en Analytics es más sencillo que intentar mantener un orden de campos preciso en el Asistente de Definición de Datos.

Analytics puede definir automáticamente un archivo

Analytics puede definir automáticamente un archivo de imagen de impresión o PDF si puede identificar patrones reiterados en los datos. Si el aspecto inicial del archivo de origen en el Asistente de Definición de Datos incluye definiciones de campo azul aguamarina y definiciones de registro grises, entonces Analytics ha definido automáticamente el archivo de manera parcial o completa.

Si comprueba las definiciones de registros y campos a lo largo de todo el archivo y considera que la definición automática es completa y precisa, el trabajo de definición del archivo está básicamente completo. Puede continuar con la siguiente página del Asistente de Definición de Datos.

Con frecuencia, la definición automática de Analytics no es totalmente precisa y es necesario decidir qué es más sencillo: editar la definición automática o eliminar por completo la definición automática y comenzar una definición manual de cero. Puede eliminarla y comenzar nuevamente en cualquier momento; por lo tanto, es posible que primero desee intentar algún trabajo de edición y, más tarde, si resulta evidente que la definición automática está demasiado alejada de lo que usted necesita, puede eliminarla.

Nota

Solo se definen automáticamente los registros de detalle. Los datos de encabezado y pie de página, si los necesita, se deben definir manualmente.

Utilice totales de control para verificar la tabla de Analytics resultante

Antes de comenzar un análisis de datos, asegúrese de utilizar totales de control para verificar que la tabla de Analytics creada a partir de un archivo de imagen de impresión o PDF contenga todos los datos del archivo de origen. Una tabla de Analytics incompleta invalidará cualquier análisis que realice

Para verificar una tabla de Analytics con totales de control:

  1. Realice una de las siguientes acciones:

    • Si los registros están agrupados en el archivo de origen, clasifique o resuma la tabla de Analytics para agrupar los registros de la misma manera.

      Al clasificar o resumir, seleccione Campos de subtotal que coincidan con uno o más campos de subtotal del archivo de origen.

      Si desea obtener más información, consulte Clasificar datos y Resumir datos.

    • Si los registros no están agrupados en el archivo de origen, calcule el total de cualquier campo de la tabla de Analytics que también esté totalizado en el archivo de origen.

      Si desea obtener más información, consulte Totalización de campos.

  2. Envíe los resultados a la pantalla o a una nueva tabla de Analytics y compare los subtotales o los totales de Analytics con los números del archivo de origen.

    Si todos los números son idénticos, tiene un conjunto de datos completo.

    Si uno o más números no son idénticos, los datos de la tabla de Analytics difieren de los datos del archivo de origen. Si importó subconjuntos de datos y reorganizó un conjunto de datos completo en Analytics, una posibilidad es que existan registros duplicados en la tabla de Analytics. Si desea información para eliminar registros duplicados, consulte Quitar duplicados.

    Si el problema no se debe a la presencia de registros duplicados, tal vez deba volver a realizar la definición e importación del archivo de origen. Si vuelve a hacer la definición, asegúrese de comprobar cuidadosamente las definiciones de los registros y los campos para asegurarse de estar capturando los datos con precisión.

Ayuda de Analytics 14.1