Definição e importação de arquivos de imagem de impressão (relatório) e arquivos PDF

Os arquivos de imagem de impressão, também denominados arquivos de relatório, são cópias eletrônicas dos relatórios impressos. Os arquivos Adobe PDF são arquivos de aplicativos ou arquivos digitalizados que foram salvos no formato padrão PDF. Os processos de definição e importação de arquivos de imagem de impressão ou de arquivos PDF são praticamente idênticos. Por isso, a maioria dos tópicos desta seção se aplica aos dois tipos de arquivo.

Pode ser mais difícil definir e importar arquivos PDF que os arquivos de imagem de impressão por que as colunas de dados que aparentam estar alinhadas no PDF de origem podem ficar desalinhadas após a análise do PDF pelo Analytics (como parte do processo de definição de arquivo). O Analytics inclui dois analisadores de PDF: Xpdf e VeryPDF. Você pode tentar usar os dois analisadores para verificar qual produz melhores resultados.

Cuidado

Use totais de controle para verificar se a tabela do Analytics criada com base em um arquivo de imagem de impressão ou PDF importado contém todos os dados do arquivo de origem. É possível excluir registros involuntariamente durante a definição de arquivos de imagem de impressão ou PDF. Verifique sempre se o conjunto de dados está completo no Analytics antes de iniciar qualquer análise.

Principais aspectos para definir com êxito um arquivo de imagem de impressão ou PDF

A definição de um arquivo de imagem de impressão ou PDF pode ser complicada. É mais uma arte que uma ciência, e pode exigir uma análise cuidadosa da organização dos dados no arquivo de origem para planejar uma abordagem eficaz. Normalmente, a organização dos dados em arquivos de imagem de impressão ou PDF é menos padronizada que a de outros formatos de arquivos, o que dificulta o processo de definição. Uma definição bem-sucedida pode exigir um processo interativo.

Há vários aspectos ou técnicas principais, descritos a seguir, que podem ajudar a evitar frustrações. Recomendamos uma análise cuidadosa desses pontos antes ou durante a definição de um arquivo, ou caso ocorram problemas.

Pontos gerais

Dados desalinhados

Campos e registros

Captura de registros

Considerações adicionais

Pontos gerais

O processo de definição de arquivos é interativo

Normalmente, a definição bem-sucedida de um arquivo de imagem de impressão ou PDF é um processo interativo e pode exigir uma certa quantidade de tentativas e erros. Será necessário executar algumas ou todas as seguintes tarefas individuais:

  • definir um ou mais campos
  • definir um conjunto de registros de detalhes com base em um valor único
  • definir um ou mais registros de cabeçalho ou rodapé
  • modificar ou refinar critérios para ajustar um conjunto de registros capturado
  • analisar a precisão da definição de cada campo e registro
  • editar definições imprecisas de campos ou registros
  • executar várias passagens em um arquivo como forma de lidar com dados desalinhados

Os resultados ficarão melhores com a prática

Inicialmente, a definição de arquivos de imagem de impressão ou PDF pode parecer muito difícil, particularmente para arquivos com dados desalinhados. Com a prática, você ficará mais experiente na avaliação da estrutura dos dados em um arquivo de origem na identificação dos métodos adequados definir essa estrutura.

Você pode usar dois dos arquivos de amostra fornecidos com o Analytics para praticar:

  • A definição do arquivo REPORT3.TXT é mais fácil. O Analytics define automaticamente os registros de detalhe no arquivo. No entanto, será preciso editar a definição automática porque ela contém erros.
  • O arquivo Inventory.pdf é mais desafiador porque contém dados desalinhados (a menos que você analise o arquivo página por página). O Analytics não consegue definir automaticamente nenhuma parte do arquivo desalinhado. Portanto, você deve criar uma definição manual desde o início.

A definição automática dos campos e registros de detalhe do outro arquivo de amostra, Report.txt, é efetuada perfeitamente pelo Analytics. Recomendamos que você analise a definição automática do arquivo Report.txt no Assistente de Definição de Dados.

Dados desalinhados

Soluções alternativas para dados desalinhados

No Assistente de Definição de Dados, as colunas de dados desalinhados em um arquivo PDF ou de imagem de impressão analisado (consulte a Dados alinhados e desalinhados em um arquivo PDF analisado) podem transformar a criação de uma tabela do Analytics usável em uma tarefa difícil ou muito trabalhosa. Se os dados desalinhados forem um problema significativo, considere uma das seguintes abordagens.

Nota

A abordagem mais adequada para cada situação depende da natureza dos dados que você está tentando definir e da sua experiência com o Analytics. Usuários iniciantes do Analytics devem considerar a solicitação dos dados em um formato diferente.

  • Retorne à origem do arquivo e solicite os dados em um formato diferente.
  • Tente converter o arquivo usando um software de conversão como, por exemplo, um software que converta um arquivo PDF em um arquivo Excel ou texto. Importe o arquivo convertido para o Analytics.
  • Tente copiar e colar os dados do PDF em um editor de texto. Em seguida importe o arquivo de texto para o Analytics.
  • Use uma ou mais das seguintes técnicas para definir campos desalinhados:
    • Crie uma definição de arquivo longa o suficiente para capturar os caracteres mais à esquerda e mais à direita em um campo desalinhado.
    • Crie definições de campo sobrepostas.
    • Crie uma definição de um campo único e longo que abranja vários campos desalinhados.

    Para obter mais informações, consulte Definição de campos desalinhados em um arquivo de imagem de impressão ou PDF.

  • Importe o arquivo de origem mais de uma vez. Em cada importação, defina um subconjunto de registros diferente. Acrescente as tabelas do Analytics resultantes para montar um conjunto de dados completo.

    Para obter mais informações, consulte Definição e importação de subconjuntos de dados de imagem de impressão ou PDF.

Dados alinhados e desalinhados em um arquivo PDF analisado

As duas colunas de dados mais à esquerda no arquivo PDF analisado mostrado abaixo estão alinhadas. As outras colunas de dados estão desalinhadas.

Campos e registros

Os campos estão em azul, os registros em cinza e os dados indefinidos em branco

À medida que você usa o Assistente de Definição de Dados para definir campos e registros em um arquivo de imagem de impressão ou PDF analisado, o status dos dados é indicado por três cores:

  • O realce em ciano indica que os dados fazem parte de um campo definido. Todos os campos definidos também fazem parte de um registro definido.
  • O realce em cinza indica que os dados fazem parte de um registro definido, mas não fazem parte de um campo definido.
  • O fundo branco indique que os dados estão totalmente indefinidos.

Nota

Somente os campos realçados em ciano farão parte da tabela do Analytics resultante.

Os dados realçados em cinza em um registro definido serão ignorados, a menos que ele também seja definido como um campo. As partes cinza de um registro entre campos definidos serão omitidas na tabela do Analytics resultante.

Os dados totalmente indefinidos são ignorados. Se você quiser incluir quaisquer desses dados na tabela do Analytics resultante, deverá definir campos e registros adicionais.

Campos definidos, registro definido e dados indefinidos

Você pode definir três tipos de dados: detalhe, cabeçalho e rodapé

No Assistente de Definição de Dados, você pode definir três tipos de dados em um arquivo de imagem de impressão ou PDF.

Tipo de dados Descrição Exemplo

Local em

Os diferentes tipos de dados em um arquivo PDF

Dados de detalhes

O conteúdo básico de um arquivo, organizado em registros.

A definição de dados de detalhe é obrigatória. Não é possível definir um arquivo de imagem de impressão ou PDF sem definir dados de detalhe.

  • transações de cartão de crédito
  • registros de inventário
nº 2, contornados em azul
Dados de cabeçalho

As informações de identificação exibidas acima de blocos ou subconjuntos de registros de detalhe.

A definição dos dados do cabeçalho é opcional. Se você não precisa das informações do cabeçalho, não precisa defini-las.

  • número e localização da loja em que ocorreram as transações com cartão de crédito
  • Informações de "Product Class"
nº 1, contornados em vermelho
Dados de rodapé

As informações exibidas abaixo de blocos ou subconjuntos de registros de detalhe.

A definição de dados de rodapé é opcional. Se você não precisa das informações do rodapé, não precisa defini-las.

  • transações de cartão de crédito subtotalizadas por loja
  • "Class Totals"
nº 3, contornados em azul piscina

Diretrizes adicionais

  • Você pode definir os dados de detalhes, cabeçalho ou rodapé na ordem que quiser. A sequência não é controlada.
  • Também é possível especificar nomes de campo (contornados em verde na Os diferentes tipos de dados em um arquivo PDF). O método para especificar nomes de campo é diferente do processo para a definição de dados de detalhes, cabeçalho ou rodapé.

    Nota

    Não use dados do cabeçalho para tentar definir nomes de campo exibidos em um arquivo de imagem de impressão ou PDF.

Os diferentes tipos de dados em um arquivo PDF

O exemplo abaixo realça os diferentes tipos de dados em um PDF de um relatório de valorização de inventário.

Dados de detalhe e de cabeçalho em um arquivo PDF analisado

O exemplo abaixo mostra o relatório de valorização de inventário após sua análise no Assistente de Definição de Dados. Foram definidos um registro de detalhe com cinco campos e um registro de cabeçalho com dois campos.

Como os dados de cabeçalho e rodapé são tratados

Embora o Assistente de Definição de Dados trate dados de cabeçalho ou rodapé como um registro com campos, somente os dados de detalhe tornam-se um conjunto de registros real na tabela do Analytics resultante. Todos os dados de cabeçalho ou rodapé definidos tornam-se um ou mais campos adicionados aos registros de detalhe.

Os campos de cabeçalho e rodapé adicionados repetem o mesmo valor para cada registro em um bloco ou subconjunto de registros individual. Por exemplo, "Loja 3" para um bloco de registros, "Loja 4" para o próximo bloco e assim por diante.

Não selecione nomes de campo no arquivo de origem

Não tente definir nomes de campo selecionando-os no arquivo de imagem de impressão ou PDF. Embora isso possa parecer não intuitivo, não selecione nenhum nome de campo no arquivo de origem. Em vez disso, crie nomes de campo digitando seus nomes na caixa de diálogo Definição de campo. Se você selecionar nomes de campo no arquivo de origem, o Analytics os tratará como dados contidos nos campos.

Especifique um valor único para capturar um conjunto de registros

O segredo da captura precisa de um conjunto de registros está na seleção ou especificação de um valor único no conjunto de registros. Em outras palavras, o valor aparece em uma posição de byte específica (posição de caractere) em todos os registros do conjunto e não aparece nessa posição em qualquer outro lugar do arquivo de origem. O valor único pode ser composto por um ou mais caracteres.

Por exemplo, na Seleção de um valor único para o conjunto de registros, o ponto decimal no campo "Unit Cost" está selecionado como valor único. Ele aprece na mesma posição em todos os valores do campo e não aparece nessa posição acima ou abaixo do campo.

Você pode selecionar ou especificar o valor único em dois lugares:

  • No valor de dados inicial selecionado para começar a definir o campo inicial de dados
  • Na mesma linha do valor de dados inicial

Seleção de um valor único para o conjunto de registros

No exemplo abaixo, o valor único está na mesma linha que o valor de dados inicial. O valor de dados inicial, contornado por uma caixa após sua seleção, é o primeiro número de produto no campo "Product No".

Dicas para escolher um valor único

Para escolher um valor único, procure dados do registro em que um ou mais caracteres posicionados de forma consistente são únicos, ou posicionados unicamente, quando comparados aos dados acima ou abaixo do conjunto de registros.

Qualquer uma das seguintes possibilidades pode ser uma boa candidata a um valor único, pois aparecem normalmente na mesma posição em todos os registros e normalmente não aparecem nessa posição fora do conjunto de registros:

  • um ponto decimal em números
  • uma ou ambas as barras em datas
  • um ou mais hifens em números de ID
  • uma cadeia de caracteres que forma um prefixo padrão
  • em dados de cabeçalho ou rodapé, um rótulo que aparece de forma consistente, como "ID do cliente:" ou "Subtotal:"

A seleção inicial do valor único cria um critério Correspondência exata na caixa de diálogo Definição de registro. No exemplo abaixo, o critério especifica que um ponto decimal deve aparecer na posição de byte 74 para que o registro seja incluído no conjunto de registros.

Se necessário, você pode alterar a correspondência exata para uma correspondência genérica, como Numérico ou Não em branco, que pode oferecer maior flexibilidade na definição do valor único. Para obter mais informações, consulte Como trabalhar com definições de registro.

Capture um conjunto de registros com precisão

A captura precisa de um conjunto de registros pode ser um desafio. Você pode escolher um valor que pensa ser único para o conjunto de registros que quer capturar e descobrir que alguns dos registros necessários não são capturados ou que dados adicionais fora de registros são capturados.

Para compreender essa situação melhor, podemos pensar do arquivo de imagem de impressão ou PDF como uma grade formada por colunas e linhas. Imagine cada coluna com exatamente um caractere ou um espaço de largura, começando no início do arquivo e indo até o final do arquivo.

Quando você seleciona ou especifica um valor em uma posição específica para capturar um conjunto de registros, o Analytics considera todos os caracteres nessa posição, desde o início do arquivo até o final, conforme pesquisa o valor. Os caracteres são considerados mesmo se estão fora das linhas consideradas como dados do registro. Se o valor especificado não for suficientemente preciso, dados adicionais de fora dos registros podem ser capturados e incluídos no conjunto de registros.

Campo de dados com definição imprecisa

No exemplo abaixo, se você especificou um valor numérico genérico na primeira posição do campo "Nº do Produto" como valor exclusivo para capturar um conjunto de registros, quaisquer números nessa posição em qualquer local do arquivo seriam capturados além do primeiro dígito real do número do produto. Veja o exemplo abaixo.

Campo de dados com definição precisa

No entanto, se você especificou um valor numérico genérico que abrange todos os nove dígitos do campo, criou um critério suficientemente preciso para capturar apenas o conjunto de registros pretendido.

Use vários critérios para capturar um conjunto de registros

Você pode descobrir que um único critério, como uma barra em um campo de data, não é suficiente para capturar um conjunto de registros com precisão. Talvez alguns dos valores de dados estejam ausentes. Ou, por coincidência, uma barra apareça na mesma posição nas informações de cabeçalho ou rodapé, fora do conjunto de registros que você deseja capturar. Nessa situação, você pode adicionar critérios adicionais para ajustar o conjunto de registros capturado.

Nota

Você pode usar critérios para incluir ou excluir linhas no arquivo de origem.

Alguns exemplos de vários critérios:

  • Incluir linhas que têm a primeira barra em um campo de data E a segunda barra no campo de data
  • Incluir linhas que têm o ponto decimal em um campo numérico E excluir linhas que contém a palavra "Subtotal"
  • Incluir linhas que têm caracteres alfabéticos no primeiro conjunto de posições de byte especificado OU incluir linhas que têm caracteres alfabéticos no segundo conjunto de posições de byte especificado

Para obter mais informações, consulte Como trabalhar com definições de registro.

Verifique as definições de registro e de campo em todo o arquivo

Durante a definição de registros e campos, não deixe de percorrer todo o arquivo para verificar a precisão das definições. Valores em branco, caracteres inesperados e dados desalinhados podem causar os seguintes problemas:

  • alguns dos registros do arquivo são excluídos
  • dados de fora dos registros são capturados como um registro
  • os dados do campo não estão totalmente contidos em uma definição de campo, causando truncamento dos valores
  • os dados de dois campos diferentes aparecem em uma única definição de campo

Se a definição do registro estiver incorreta, você precisará modificar ou refinar os critérios usados para capturar o conjunto de registros. Para obter mais informações, consulte Como trabalhar com definições de registro.

Se uma definição de campo estiver incorreta, você precisará editar a definição. Para obter mais informações, consulte Trabalho com definições de campo.

Você pode definir registros e campos de várias linhas

Você pode definir dados de registro ou campo que se estendem além de uma linha em um arquivo de origem. Por exemplo, os dados de endereço em cada registro devem ser arranjados em várias linhas. Para obter mais informações, consulte Trabalho com registros e campos de várias linhas.

Defina e importe somente os dados necessários

Não perca tempo ou complique o processo de definição e importação definindo campos de dados desnecessários para a análise. Somente defina registros de cabeçalho ou rodapé se eles adicionarem informações úteis. Cada elemento de dados adicional pode aumentar a complexidade e dificultar o processo de definição.

Controle a ordem dos campos na tabela do Analytics resultante

A ordem em que você define os campos em um registro de detalhe é a ordem em que eles aparecem na tabela do Analytics resultante. Se você excluir um campo de detalhe durante o processo de definição e depois adicioná-lo novamente, ele perderá sua posição original e será colocado por último entre os campos de detalhe. Os campos de detalhes permanecem juntos, independentemente de qualquer ajuste interno.

Dica

Se você usar um campo de detalhe inicial para capturar registros de detalhe, mas não quer que o campo apareça em primeiro lugar na tabela do Analytics resultante, poderá usar o campo para capturar registros e depois excluí-lo e adicioná-lo novamente.

Os campos de cabeçalho e rodapé aparecem na tabela do Analytics resultante na ordem em que você os define. Eles aparecem antes dos campos de detalhe, se você não definiu um campo de detalhe inicial, e aparecem após os campos de detalhe quando você define um campo de detalhe inicial.

Você também pode reordenar os campos depois do término da importação do arquivo de imagem de impressão ou PDF para o Analytics. Você pode arrastar colunas para reordená-las em uma exibição. Você também poderá extrair por exibição se quiser criar uma nova tabela com os campos do layout da tabela reordenados fisicamente. Para obter mais informações, consulte Extrair dados. A reorganização de campos no Analytics pode ser mais fácil que tentar manter uma ordem de campos precisa no Assistente de Definição de Dados.

O Analytics pode definir automaticamente um arquivo

O Analytics poderá definir automaticamente um arquivo de imagem de impressão ou PDF se conseguir identificar padrões recorrentes nos dados. Se a aparência inicial do arquivo de origem no Assistente de Definição de Dados incluir definições de campo em ciano e definições de registro em cinza, o Analytics definiu parcialmente ou completamente o arquivo.

Se você verificar as definições de campo e de registro em todo o arquivo e avaliar que a definição automática está completa e precisa, o trabalho de definição do arquivo estará praticamente concluído. Você pode prosseguir para a próxima página no Assistente de Definição de Dados.

Com frequência, a definição automática do Analytics não é totalmente precisa e você precisa decidir o que é mais fácil: editar a definição automática ou excluí-la completamente e começar uma definição manual desde o início. Você pode excluir e começar novamente a qualquer momento. Portanto, você pode tentar alguma edição inicialmente e, se ficar claro que a definição automática está muito longe do que você precisa, excluí-la nesse momento.

Nota

Somente os registros de detalhe são definidos automaticamente. Os dados de cabeçalho ou rodapé, se necessários, devem ser definidos manualmente.

Use totais de controle para verificar a tabela do Analytics resultante

Antes de começar a analisar os dados, não deixe de usar totais de controle para verificar se a tabela do Analytics criada com base em um arquivo de imagem de impressão ou PDF contém todos os dados presentes no arquivo de origem. Uma tabela do Analytics incompleta invalidará qualquer análise executada.

Para verificar uma tabela do Analytics usando totais de controle:

  1. Execute uma das seguintes ações:

    • Se os registros estiverem agrupados no arquivo de origem, classifique ou sumarize a tabela do Analytics para agrupar os registros da mesma maneira.

      Ao classificar ou sumarizar, selecione Campos de subtotalização que correspondam a um ou mais campos de subtotal no arquivo de origem.

      Para obter mais informações, consulte Classificar dados e Sumarizar dados.

    • Se os registros não estiverem agrupados no arquivo de origem, totalize todos os campos da tabela do Analytics que também são totalizados no arquivo de origem.

      Para obter mais informações, consulte Totalizar campos.

  2. Gere os resultados na tela ou em uma nova tabela do Analytics e compare os subtotais ou totais no Analytics com os números do arquivo de origem.

    Se todos os números forem idênticos, você terá um conjunto de dados completo.

    Se um ou mais números não forem idênticos, os dados na tabela do Analytics serão diferentes dos dados no arquivo de origem. Se você importou subconjuntos de dados e criou novamente um conjunto de dados completo no Analytics, é possível que existam registros duplicados na tabela do Analytics. Para obter informações sobre a remoção de registros duplicados, consulte Remover duplicidades.

    Se o problema não for a existência de registros duplicados, poderá ser necessário refazer as definições e a importação do arquivo de origem. Se você refizer a definição, não deixe de verificar as definições de campo e registro cuidadosamente para garantir a captura precisa dos dados.