Cloudera Impala への接続

コンセプト情報

ACCESSDATA コマンド

Cloudera Impala はクラウド データ サービスです。Cloudera Impala データ コネクターを使用して、Impala データをインポートできます。

メモ

Analytics は任意のコネクターとして Impala を提供します。データ アクセス ウィンドウでこのコネクターを使用できない場合、一般的に、インストール中にコネクターが選択されていないことが原因です。詳細については、任意の Analytics データ コネクター と Python エンジンをインスト-るするを参照してください。

作業を開始する前に

Impala に接続するには、以下を収集する必要があります。

  • ユーザー名
  • パスワード
  • 読み取りアクセス許可

接続の前提条件の収集については、組織の Impala 管理者に支援を仰いでください。管理者から支援を得られない場合は、あなたまたは管理者から Impala のサポートにお問い合わせください。

Impala 接続の作成

  1. Analytics のメイン メニューから、[インポート > データベースとアプリケーション]を選択します。
  2. ACL コネクター セクションの[新規の接続 ]タブから、Impalaを選択します。

    ヒント

    使用可能なコネクターのリストをフィルタリングするには、[接続のフィルタリング]ボックスに検索文字列を入力します。コネクターはアルファベット順に表示されます。

  3. データ接続の設定]パネルが開いたら、接続設定を入力し、パネルの下部にある[保存して接続]をクリックします。

    デフォルトの接続名を使用するか、新しい接続名を入力します。

Impalaの接続は、[既存の接続]タブに保存されます。今後、Impalaに接続するには、保存したこの接続を使用できます。

接続が確立されると、データ アクセス ウィンドウが開いてステージング領域が表示されるので、データのインポートを開始できます。Impalaからデータをインポートする方法については、データ アクセス ウィンドウの作業を参照してください。

接続設定

基本設定

設定 説明
ホスト

Impala サーバーのホスト名または IP アドレス。

 
ポート Impala サーバー インスタンスに接続するためのポート。  
データベース デフォルトで使用する Impala データベースの名前。  
認証機構

使用する認証メカニズム。使用可能なオプション:

  • 認証なし
  • Kerberos
  • SASL ユーザー名
  • ユーザー名とパスワード
認証なし
領域 Impala ホストの領域。  
ホストの FQDN Impala サーバー ホストの完全修飾ドメイン名。 _HOST
サービス名 Impala サーバーの Kerberos サービス プリンシパル名。 Impala
ユーザー名 Impala サーバーにアクセスするためのユーザー名。  
パスワード Impala サーバーへのアクセスを認証するためのパスワード。  
転送バッファー サイズ ネットワークから暗号化されていないデータをバッファリングするためにメモリに予約するバイト数。 1000
簡易認証およびセキュリティ層 (SASL) を使用 ドライバーで認証を処理するために SASL を使用するかどうかを指定します。  
委任 UID このオプションでユーザー ID が指定されると、Impala ドライバーはすべての Impala に対する処理を、接続で認証されたユーザーではなく、指定したユーザーに委任します。  

詳細設定

設定 説明
SSL の有効化

クライアントが SSL 暗号化接続を使用して Impala サーバーと通信するかどうかを指定します。

 
列名とホスト名の不一致を許可 CA が発行した SSL 証明書名が Impala サーバーのホスト名と一致するかどうかを指定します。  
自己署名サーバー証明書の許可 ドライバーが自己署名証明書を使用する Impala サーバーへの接続を許可するかどうかを指定します。  
信頼できる証明書 SSL を使用するときにサーバーを検証するための、信頼できる CA 証明書を含む .pem ファイルへの完全パス。  
ネイティブ クエリの使用 ドライバーがネイティブ Impala SQL クエリを使用するかどうかを指定します。このオプションが選択されていない場合、ドライバーはアプリケーションで発行されたクエリを Impala SQL の同等の形式に変換します。アプリケーションが Impala アウェアで、既に Impala SQL を発行している場合、このオプションを憂苦尾にして、クエリ変換の負荷が大きくなることを回避してください。  
取引シミュレーションの有効化 ドライバーがトランザクションをシミュレートするかどうかを指定します。無効にすると、トランザクション文を含むクエリを実行しようとした場合に、ドライバーでエラーが返されます。  
SQL で Unicode 型を使用 文字列データ型で返される SQL タイプを指定します。有効な場合、ドライバーは SQL_WVARCHAR(STRING および VARCHAR 列)と SQL_WCHAR(CHAR 列)を返します。  
ブロックあたりフェッチされる行数 一度にクエリが返す行の最大数。 10000
ソケットのタイムアウト

要求がタイムアウトし、エラー メッセージが返される前に、TCP ソケットがサーバーからの応答を待機する秒数。

0 に設定すると、TCP ソケットで要求のタイムアウトが発生しません。

30
文字列型列の長さ STRING 列に含まれる最大文字数。 32767

データ コネクターの更新

Analytics またはロボット エージェントをアップグレードする場合は、いずれかの Analytics データ コネクターを使ってデータをインポートするスクリプト(ACCESSDATA コマンド)をテストする必要があります。

データ ソースまたは ODBC ドライバーのサード パーティ ベンダーが加えた変更により、1 つまたは複数のデータ コネクターを更新しなければならない可能性があります。スクリプトに作り込んだデータ接続を引き続き正常に動作させるには、それを更新する必要があります。

  • インポートの再実行 接続機能を最も簡単に更新する方法は、更新されたバージョンの Analytics のデータ アクセス ウィンドウを使って、インポートを手動で実行することです。ログに記録されている ACCESSDATA コマンドをコピーし、それを使ってスクリプトを更新します。

    メモ

    データ ソースに接続してインポートを再実行する前に、コネクターのキャッシュを消去することで、既存の一連のテーブル名を削除します。

    データ アクセス ウィンドウの[既存の接続]タブで、接続名の横にある[ >キャッシュの消去]を選択します。

  • フィールド指定の更新 データ ソースまたは ODBC ドライバーのテーブル スキーマの変更と一致するように、スクリプト本体内のフィールド指定を更新しなければならない場合もあります。必要に応じてフィールド名、フィールドのデータ型、およびフィールド長とレコード長を変更します。
  • フィルター処理の結果の確認 データ インポートの一環として適用したフィルター処理の結果も確認する必要があります。インポートのフィルター処理によってレコードを正しく追加または除外できたかどうかを確認します。