Conectar ao Apache Cassandra
Informações do conceito
O Apache Cassandra é um sistema de gerenciamento de banco de dados NoSQL. Use o conector de dados do Apache Cassandra para importar dados da sua organização residentes no Cassandra.
Nota
O Analytics oferece o Cassandra como um conector opcional. Se esse conector não estiver disponível na janela Acesso a dados, é provável que o coletor não tenha sido selecionado durante a instalação. Para obter mais informações, consulte Instale opcionalmente os conectores de dados do Analytics e o mecanismo do Python.
Antes de começar
Para conectar-se ao Cassandra, você deve obter:
- o nome ou endereço IP do host do servidor de banco de dados
- a porta de conexão correta
- nome do usuário e senha, se usar autenticação
Para obter ajuda na coleta dos pré-requisitos de conexão, entre em contato com o administrador do Cassandra na sua organização. Se o administrador não conseguir ajudá-lo, você ou o administrador deve entrar em contato com o suporte da Cassandra.
Criar uma conexão ao Cassandra
- No menu principal do Analytics, selecione Importar > Banco de dados e aplicativo.
- Na guia Novas conexões, na seção Conectores do ACL, selecione seu conector Cassandra.
Dica
Você pode filtrar a lista de conectores disponíveis inserindo uma cadeia de pesquisa na caixa Filtrar conexões. Os conectores são listados em ordem alfabética.
- No painel Configurações de Conexão de Dados, insira as configurações da conexão e clique em Salvar e conectar na parte inferior do painel.
Você pode aceitar o Nome de conexão padrão ou inserir um novo nome.
A conexão do Cassandra é salva na guia Conexões existentes. No futuro, você poderá reconectar o Cassandra usando a conexão salva.
Após estabelecer a conexão, a janela Acesso a Dados abre na Área de preparação e você pode começar a importar dados. Para obter ajuda na importação de dados do Cassandra, consulte Trabalho com a Janela de Acesso a Dados.
Configurações de conexão
Configurações básicas
| Configuração | Descrição | Exemplo |
|---|---|---|
| Host |
O endereço IP ou nome do host do servidor do Cassandra. |
|
| Porta | A porta TCP para o banco de dados Cassandra. | 9042 |
| Espaço de chaves padrão | O espaço de chaves (esquema) padrão a ser conectado no Cassandra. | |
| Mecanismo de autenticação |
O mecanismo de autenticação a ser usado para conexão ao servidor do Cassandra. As opções disponíveis são as seguintes:
|
Sem autenticação |
| Nome do usuário | O nome do usuário a ser usado para acessar o servidor do Cassandra. | |
| Senha | A senha correspondente ao nome de usuário fornecido. |
Configurações avançadas
| Configuração | Descrição | Exemplo |
|---|---|---|
| Modo de consulta |
Especifica o modo de consulta a ser usado ao enviar consultas para o Cassandra. As opções disponíveis são:
|
SQL com uso de CQL, se necessário |
| Consistência ajustável | A réplica específica ou o número de réplicas do Cassandra que devem processar uma consulta para que ela seja bem-sucedida. | ONE |
| Política de balanceamento de carga | Especifica a política de balanceamento de carga a ser usada. | |
| Comprimento da coluna de binários | O comprimento de coluna padrão a ser informado para colunas BLOB. | 4000 |
| Comprimento da coluna de cadeia | O comprimento de coluna padrão a ser informado para colunas ASCII, TEXT e VARCHAR. | 4000 |
| Separador do nome da tabela virtual | O separador para nomear uma tabela virtual criada a partir de uma coleção. O nome da tabela virtual consiste em nome da tabela original, separador e nome da coleção. |
_vt_ |
| Ativar percepção de token | Especifica se uma política ***** com tokens deve ser usada para aprimorar o balanceamento de carga e a latência. | |
| Ativar percepção de latência | Especifica se o driver deve usar um algoritmo de latência para distribuir a carga para nós com melhor desempenho. | |
| Ativar inserção de valores nulos | Especifica se o driver deve inserir todos os valores NULL conforme especificado nas instruções INSERT. | |
| Ativar diferenciação de maiúsculas e minúsculas |
Especifica se o driver diferencia entre letras maiúsculas e minúsculas em nomes de esquemas, tabelas e colunas. Se essa opção for habilitada, todos os esquemas, tabelas e colunas deverão ter aspas duplas ("). |
|
| Usar SQL_WVARCHAR para tipo de dados de cadeia | Especifica se SQL_WVARCHAR deve ser usado para tipos de texto e varchar. | |
| Ativar paginação | Especifica se grandes conjuntos de resultados devem ser divididos em páginas. | |
| Linhas por página | Quando a opção Ativar paginação estiver habilitada, use esta opção para especificar o número máximo de linhas a serem exibidas em cada página. | 10000 |
| Opções de SSL |
Especifica como o driver usa SSL para conectar-se ao servidor do Cassandra. As opções disponíveis são:
|
Sem SSL |
| Ativar verificação de hostname de servidor | Especifica se o driver exige que o nome do host do servidor corresponda ao nome do host no certificado SSL. | |
| Ssltrustedcertspath | O caminho completo para o arquivo .pem que contém o certificado para verificação do servidor. | |
| Certificado do lado do cliente | O caminho completo para o arquivo .pem que contém o certificado para verificação do cliente. | |
| Chave privada do lado do cliente | O caminho completo para o arquivo .pem que contém a chave privada usada para verificar o cliente. | |
| Senha do arquivo de chave | A senha do arquivo de chave privada especificada no campo de chave privada do lado do cliente. |
Consultar o Cassandra
Uma vantagem do projeto do Apache Cassandra é a capacidade de armazenar dados desnormalizados em um número menor de tabelas. É possível simplificar as transações aproveitando estruturas de dados aninhados, como conjuntos, listas e mapas. No entanto, o Analytics não permite o acesso a esse tipo de dados. Com a renormalização dos dados contidos em coleções (conjuntos, listas e mapas) em tabelas virtuais, o conector permite que os usuários interajam diretamente com os dados, com o Cassandra se encarregando do armazenamento desses dados na forma desnormalizada.
Se uma tabela contiver colunas de coleções, na primeira consulta da tabela, o conector criará as seguintes tabelas virtuais:
- Uma tabela "base", que contém os mesmos dados da tabela real, exceto pelas colunas de coleções.
- Uma tabela virtual para cada coluna de coleção, que expande os dados aninhados.
As tabelas virtuais fazem referência aos dados na tabela real, permitindo que o conector acesse os dados desnormalizados. Ao consultar as tabelas virtuais, você pode acessar o conteúdo das coleções do Cassandra usando ODBC.
A tabela base e as tabelas virtuais aparecem como tabelas adicionais na lista de tabelas existentes no banco de dados. A tabela base usa o mesmo nome da tabela real que representa. As tabelas virtuais que representam coleções são nomeadas usando o nome da tabela real, um separador (por padrão, _vt_) e o nome da coluna.
Exemplo
A TabelaExemplo é uma tabela do banco de dados Cassandra que contém uma coluna de chave primária do tipo inteiro denominada cp_int, uma coluna de lista, uma coluna de mapa e uma coluna de conjunto (denominada ConjuntoCadeias).
Tabela de origem com coleções
| cp_int | Lista | Mapa | ConjuntoCadeias |
|---|---|---|---|
| 1 | ["1","2","3"] | {"S1" : "a", "S2" : "b"} | {"a", "b", "c"} |
| 3 | ["100","101","102","105"] | {"S1" : "t"} | {"a","e"} |
O conector gera várias tabelas virtuais para representar essa única tabela. A primeira tabela virtual é a tabela base:
Tabela base
| cp_int |
|---|
| 1 |
| 3 |
A tabela base contém os mesmos dados da tabela de banco de dados original, exceto as coleções, que são omitidas dessa tabela e expandidas em outras tabelas virtuais.
As tabelas a seguir mostram as tabelas virtuais que renormalizam os dados das colunas Lista, Mapa e ConjuntoCadeias:
Lista
| cp_int | Lista#índice | Lista#valor |
|---|---|---|
| 1 | 0 | 1 |
| 1 | 1 | 2 |
| 1 | 2 | 3 |
| 3 | 0 | 100 |
| 3 | 1 | 101 |
| 3 | 2 | 102 |
| 3 | 3 | 105 |
Mapa
| cp_int | Mapa#chave | Mapa#valor |
|---|---|---|
| 1 | S1 | a |
| 1 | S2 | bi |
| 3 | S1 | tri |
ConjuntoCadeias
| cp_int | ConjuntoCadeias#valor |
|---|---|
| 1 | a |
| 1 | bi |
| 1 | c |
| 3 | a |
| 3 | e |
As colunas de chave estrangeira nas tabelas virtuais fazem referência às colunas de chave primária na tabela real e indicam a correspondência entre a linha da tabela virtual e a linha da tabela real. As colunas com nomes terminados em #índice ou #chave indicam a posição dos dados dentro da lista ou mapa original. As colunas com nomes terminados em #valor contêm os dados expandidos da coleção.
Atualizações de conector de dados
Quando atualiza o Analytics ou o Agente do Robôs, você deve testar todos os scripts que importam dados usando um dos conectores de dados do Analytics (comando ACCESSDATA).
É possível que alterações feitas por fornecedores externos de fontes de dados ou drivers ODBC exigiram atualizações em um ou mais conectores de dados. Pode ser necessário atualizar as conexões de dados com script para que continuem a funcionar corretamente.
- Execute novamente a importação A maneira mais fácil de atualizar uma conexão é executar manualmente uma importação usando a janela Acesso a Dados na versão atualizada do Analytics. Copie o comando ACCESSDATA do log e use-o para atualizar o script.
Nota
Antes de se conectar a uma fonte de dados e executar novamente a importação, limpe o cache do conector para remover o conjunto existente de nomes de tabelas.
Na guia Conexões existentes na janela Acesso a Dados, ao lado do nome do conector, selecione
> Limpar cache. - Atualize as especificações de campos Também pode ser necessário atualizar as especificações de campos no corpo do script para compatibilizá-lo com as alterações do esquema da tabela na fonte de dados ou no driver ODBC. As possíveis alterações incluem nomes de campos, tipos de dados de campos e comprimentos de campos e registro.
- Verifique os resultados de todas as filtragens Você também deve verificar os resultados de qualquer filtragem aplicada durante a importação de dados. Confirme se a filtragem de importação está incluindo e excluindo corretamente os registros.
Alterações do conector de dados do Apache Cassandra
As alterações específicas efetuadas no conector de dados do Apache Cassandra são listadas a seguir.
| Versão do Analytics | Alteração |
|---|---|
|
14.2 |
O conector não é mais compatível com o Apache Cassandra 2.0. As conexões podem ser efetuadas com o Apache Cassandra nas versões 2.1, 2.2 e 3.0. |