Cloudera Impala への接続
コンセプト情報
Cloudera Impala はクラウド データ サービスです。Cloudera Impala データ コネクターを使用して、Impala データをインポートできます。
メモ
Analytics は任意のコネクターとして Impala を提供します。データ アクセス ウィンドウでこのコネクターを使用できない場合、一般的に、インストール中にコネクターが選択されていないことが原因です。詳細については、任意の Analytics データ コネクター と Python エンジンをインスト-るするを参照してください。
作業を開始する前に
Impala に接続するには、以下を収集する必要があります。
- ユーザー名
- パスワード
- 読み取りアクセス許可
接続の前提条件の収集については、組織の Impala 管理者に支援を仰いでください。管理者から支援を得られない場合は、あなたまたは管理者から Impala のサポートにお問い合わせください。
Impala 接続の作成
- Analytics のメイン メニューから、[インポート > データベースとアプリケーション]を選択します。
- ACL コネクター セクションの[新規の接続 ]タブから、Impalaを選択します。
ヒント
使用可能なコネクターのリストをフィルタリングするには、[接続のフィルタリング]ボックスに検索文字列を入力します。コネクターはアルファベット順に表示されます。
- [データ接続の設定]パネルが開いたら、接続設定を入力し、パネルの下部にある[保存して接続]をクリックします。
デフォルトの接続名を使用するか、新しい接続名を入力します。
Impalaの接続は、[既存の接続]タブに保存されます。今後、Impalaに接続するには、保存したこの接続を使用できます。
接続が確立されると、データ アクセス ウィンドウが開いてステージング領域が表示されるので、データのインポートを開始できます。Impalaからデータをインポートする方法については、データ アクセス ウィンドウの作業を参照してください。
接続設定
基本設定
| 設定 | 説明 | 例 |
|---|---|---|
| ホスト |
Impala サーバーのホスト名または IP アドレス。 |
|
| ポート | Impala サーバー インスタンスに接続するためのポート。 | |
| データベース | デフォルトで使用する Impala データベースの名前。 | |
| 認証機構 |
使用する認証メカニズム。使用可能なオプション:
|
認証なし |
| 領域 | Impala ホストの領域。 | |
| ホストの FQDN | Impala サーバー ホストの完全修飾ドメイン名。 | _HOST |
| サービス名 | Impala サーバーの Kerberos サービス プリンシパル名。 | Impala |
| ユーザー名 | Impala サーバーにアクセスするためのユーザー名。 | |
| パスワード | Impala サーバーへのアクセスを認証するためのパスワード。 | |
| 転送バッファー サイズ | ネットワークから暗号化されていないデータをバッファリングするためにメモリに予約するバイト数。 | 1000 |
| 簡易認証およびセキュリティ層 (SASL) を使用 | ドライバーで認証を処理するために SASL を使用するかどうかを指定します。 | |
| 委任 UID | このオプションでユーザー ID が指定されると、Impala ドライバーはすべての Impala に対する処理を、接続で認証されたユーザーではなく、指定したユーザーに委任します。 |
詳細設定
| 設定 | 説明 | 例 |
|---|---|---|
| SSL の有効化 |
クライアントが SSL 暗号化接続を使用して Impala サーバーと通信するかどうかを指定します。 |
|
| 列名とホスト名の不一致を許可 | CA が発行した SSL 証明書名が Impala サーバーのホスト名と一致するかどうかを指定します。 | |
| 自己署名サーバー証明書の許可 | ドライバーが自己署名証明書を使用する Impala サーバーへの接続を許可するかどうかを指定します。 | |
| 信頼できる証明書 | SSL を使用するときにサーバーを検証するための、信頼できる CA 証明書を含む .pem ファイルへの完全パス。 | |
| ネイティブ クエリの使用 | ドライバーがネイティブ Impala SQL クエリを使用するかどうかを指定します。このオプションが選択されていない場合、ドライバーはアプリケーションで発行されたクエリを Impala SQL の同等の形式に変換します。アプリケーションが Impala アウェアで、既に Impala SQL を発行している場合、このオプションを憂苦尾にして、クエリ変換の負荷が大きくなることを回避してください。 | |
| 取引シミュレーションの有効化 | ドライバーがトランザクションをシミュレートするかどうかを指定します。無効にすると、トランザクション文を含むクエリを実行しようとした場合に、ドライバーでエラーが返されます。 | |
| SQL で Unicode 型を使用 | 文字列データ型で返される SQL タイプを指定します。有効な場合、ドライバーは SQL_WVARCHAR(STRING および VARCHAR 列)と SQL_WCHAR(CHAR 列)を返します。 | |
| ブロックあたりフェッチされる行数 | 一度にクエリが返す行の最大数。 | 10000 |
| ソケットのタイムアウト |
要求がタイムアウトし、エラー メッセージが返される前に、TCP ソケットがサーバーからの応答を待機する秒数。 0 に設定すると、TCP ソケットで要求のタイムアウトが発生しません。 |
30 |
| 文字列型列の長さ | STRING 列に含まれる最大文字数。 | 32767 |
データ コネクターの更新
Analytics またはロボット エージェントをアップグレードする場合は、いずれかの Analytics データ コネクターを使ってデータをインポートするスクリプト(ACCESSDATA コマンド)をテストする必要があります。
データ ソースまたは ODBC ドライバーのサード パーティ ベンダーが加えた変更により、1 つまたは複数のデータ コネクターを更新しなければならない可能性があります。スクリプトに作り込んだデータ接続を引き続き正常に動作させるには、それを更新する必要があります。
- インポートの再実行 接続機能を最も簡単に更新する方法は、更新されたバージョンの Analytics のデータ アクセス ウィンドウを使って、インポートを手動で実行することです。ログに記録されている ACCESSDATA コマンドをコピーし、それを使ってスクリプトを更新します。
メモ
データ ソースに接続してインポートを再実行する前に、コネクターのキャッシュを消去することで、既存の一連のテーブル名を削除します。
データ アクセス ウィンドウの[既存の接続]タブで、接続名の横にある[
>キャッシュの消去]を選択します。 - フィールド指定の更新 データ ソースまたは ODBC ドライバーのテーブル スキーマの変更と一致するように、スクリプト本体内のフィールド指定を更新しなければならない場合もあります。必要に応じてフィールド名、フィールドのデータ型、およびフィールド長とレコード長を変更します。
- フィルター処理の結果の確認 データ インポートの一環として適用したフィルター処理の結果も確認する必要があります。インポートのフィルター処理によってレコードを正しく追加または除外できたかどうかを確認します。