Apache Spark への接続

コンセプト情報

ACCESSDATA コマンド

Apache Spark はクラウド データ サービスです。Apache Spark データ コネクターを使用して、Spark データをインポートできます。

メモ

Analytics は任意のコネクターとして Spark を提供します。データ アクセス ウィンドウでこのコネクターを使用できない場合、一般的に、インストール中にコネクターが選択されていないことが原因です。詳細については、任意の Analytics データ コネクター と Python エンジンをインスト-るするを参照してください。

作業を開始する前に

Spark に接続するには、以下を収集する必要があります。

  • ユーザー名とパスワード
  • 正しい接続ポート
  • 使用される認証スキーム
  • サーバーのホスト名または IP アドレス
  • サーバーと通信するための転送モード
  • 読み取りアクセス許可

接続の前提条件の収集については、組織の Spark 管理者に支援を仰いでください。管理者から支援を得られない場合は、あなたまたは管理者から Spark のサポートにお問い合わせください。

Spark 接続の作成

  1. Analytics のメイン メニューから、[インポート > データベースとアプリケーション]を選択します。
  2. ACL コネクター セクションの[新規の接続 ]タブから、Sparkを選択します。

    ヒント

    使用可能なコネクターのリストをフィルタリングするには、[接続のフィルタリング]ボックスに検索文字列を入力します。コネクターはアルファベット順に表示されます。

  3. データ接続の設定]パネルが開いたら、接続設定を入力し、パネルの下部にある[保存して接続]をクリックします。

    デフォルトの接続名を使用するか、新しい接続名を入力します。

Sparkの接続は、[既存の接続]タブに保存されます。今後、Sparkに接続するには、保存したこの接続を使用できます。

接続が確立されると、データ アクセス ウィンドウが開いてステージング領域が表示されるので、データのインポートを開始できます。Sparkからデータをインポートする方法については、データ アクセス ウィンドウの作業を参照してください。

接続設定

基本設定

設定 説明
Spark Server タイプ 接続先の Spark サーバー インスタンスを指定します。 SharkServer2
ホスト Spark サーバーのホスト名または IP アドレス。  
ポート Spark サーバー インスタンスに接続するためのポート。 10000
データベース スキーマがクエリで明示的に指定されていないときに使用する、データベース スキーマの名前。 デフォルト
認証機構

使用する認証メカニズムを指定します。オプション:

  • 認証なし
  • Kerberos
  • ユーザー名
  • ユーザー名とパスワード
  • Windows Azure HDInsight Emulator
  • Windows Azure HDInsight Service
認証なし
領域 Spark Thrift サーバー ホストの領域。  
ホストの FQDN Spark Thrift サーバー ホストの完全修飾ドメイン名。 _HOST
サービス名 Spark サーバーの Kerberos サービス プリンシパル名。  
ユーザー名 Spark サーバーで認証するためのユーザー名。  
パスワード Spark サーバーで認証するためのユーザー名のパスワード。  
委任 UID 接続の認証済みユーザーではなく、ドライバーがすべての Spark オペレーションを委任する必要がある委任されたユーザーのユーザー ID。  
Thrift による転送

Thrift レイヤーで使用する転送プロトコルを指定します。オプション:

  • バイナリ
  • SASL
  • HTTP
バイナリ

詳細設定

設定 説明
SSL の有効化 クライアントが SSL 暗号化接続を使用して Spark サーバーと通信するかどうかを指定します。  
列名とホスト名の不一致を許可 CA が発行した SSL 証明書名が Spark サーバーのホスト名と一致するかどうかを指定します。  
自己署名サーバー証明書の許可 この証明書が信頼できる証明書のリストにない場合でも、ドライバーが自己署名証明書を使用する Spark サーバーへの接続を許可するかどうかを指定します。  
信頼できる証明書 SSL を使用するときにサーバーを検証するための、信頼できる CA 証明書を含む .pem ファイルへの完全パス。  
双方向 SSL 双方向 SSL を有効にするかどうかを指定します。  
クライアントの証明書ファイル クライアントの SSL 証明書を含む .pem ファイルへの完全パス。  
クライアントの秘密鍵ファイル クライアントの SSL 秘密鍵を含む .pem ファイルへの完全パス。  
クライアントの秘密鍵のパスワード クライアント秘密鍵]フィールドで指定された秘密鍵ファイルのパスワード。  
ネイティブ クエリの使用 ドライバーがネイティブ HiveQL クエリを使用するかどうかを指定します。このオプションが選択されていない場合、ドライバーはアプリケーションで発行されたクエリを HiveQL の同等の形式に変換します。  
Fast SQLPrepare ドライバーが SQLExecute へのクエリ実行を遅延するかどうかを指定します。  
ドライバー設定を優先 ドライバー全体の構成設定が接続および DNS 設定よりも優先されるかどうかを指定します。  
非同期実行を使用 クエリを同期で実行するか非同期で実行するかどうかを指定します。  
非同期実行のポーリング間隔 クエリ実行状況をポーリングする間隔(ミリ秒)。 100
クエリでテーブルを取得 ドライバーが SHOW TABLES クエリを使用して、データベースからテーブル名を取得するかどうかを指定します。無効な場合、ドライバーは GetTables Thrift API 呼び出しを使用します。 1
Unicode の SQL 文字型 文字列データ型で返される SQL タイプを指定します。有効な場合、ドライバーは SQL_WVARCHAR(STRING および VARCHAR 列)と SQL_WCHAR(CHAR 列)を返します。  
システム テーブルの表示 ドライバーが SQLTables や SQLColumns などのカタログ関数呼び出しで spark_system テーブルを返すかどうかを指定します。  
SSPI のみを使用 ドライバーが SSPI プラグインまたは MIT Kerberos を使用した Kerberos 認証を処理するかどうかを指定します。  
セッションの自動回復が無効です 既存のセッションが有効ではないときに、ドライバーで自動的に新しいセッションを開くかどうかを指定します。  
ブロックあたりフェッチされる行数 一度にクエリが返す行の最大数。 10000
文字列型列のデフォルト長 STRING 列に含まれる最大文字数。 255
バイナリ型列の長さ BINARY 列の最大データ長さ。 32767
小数列の尺度 数値データ型の小数点以下の桁数。 10
ソケットのタイムアウト 終了するまでにオペレーションがアイドル状態である秒数。 60
HTTP のパス Spark サーバーに対応する部分 URL。 /spark

Spark 接続フィールド

列の一意の名前

データ アクセス ウィンドウ経由で行われるSpark接続では、デフォルトで 0 に設定される EnableUniqueColumnName 接続文字列パラメーターが使用されます。接続時に正しい列名が取得されることを保証するために、このパラメーターの値は 0 にする必要があります。

データ アクセス ウィンドウを使用するのではなく DSN を使用してSpark接続を作成する場合は、デフォルトでこの値が 1 に設定されます。接続が動作するには、Windows リポジトリで 0 に変更する必要があります。

メモ

13.1 より古いバージョンの ACL で確立された DSN 接続を使用するスクリプトは、バージョン 13.1 にアップグレードした後に動作し続けます。