Apache Spark への接続

コンセプト情報

Apache Spark はクラウドデータサービスです。Apache Spark データコネクターを使用して、Spark データをインポートできます。

メモ

Analytics は任意のコネクターとして Spark を提供します。データアクセスウィンドウでこのコネクターを使用できない場合、一般的に、インストール中にコネクターが選択されていないことが原因です。詳細については、任意の Analytics データコネクターと Python エンジンをインスト－るするを参照してください。

作業を開始する前に

Spark に接続するには、以下を収集する必要があります。

ユーザー名とパスワード
正しい接続ポート
使用される認証スキーム
サーバーのホスト名または IP アドレス
サーバーと通信するための転送モード
読み取りアクセス許可

接続の前提条件の収集については、組織の Spark 管理者に支援を仰いでください。管理者から支援を得られない場合は、あなたまたは管理者から Spark のサポートにお問い合わせください。

Spark 接続の作成

Analytics のメインメニューから、［インポート > データベースとアプリケーション］を選択します。
ACL コネクターセクションの［新規の接続］タブから、Sparkを選択します。
ヒント
使用可能なコネクターのリストをフィルタリングするには、［接続のフィルタリング］ボックスに検索文字列を入力します。コネクターはアルファベット順に表示されます。
［データ接続の設定］パネルが開いたら、接続設定を入力し、パネルの下部にある［保存して接続］をクリックします。
デフォルトの接続名を使用するか、新しい接続名を入力します。

Sparkの接続は、［既存の接続］タブに保存されます。今後、Sparkに接続するには、保存したこの接続を使用できます。

接続が確立されると、データアクセスウィンドウが開いてステージング領域が表示されるので、データのインポートを開始できます。Sparkからデータをインポートする方法については、データアクセスウィンドウの作業を参照してください。

接続設定

基本設定

設定	説明	例
Spark Server タイプ	接続先の Spark サーバーインスタンスを指定します。	SharkServer2
ホスト	Spark サーバーのホスト名または IP アドレス。
ポート	Spark サーバーインスタンスに接続するためのポート。	10000
データベース	スキーマがクエリで明示的に指定されていないときに使用する、データベーススキーマの名前。	デフォルト
認証機構	使用する認証メカニズムを指定します。オプション：認証なし Kerberos ユーザー名ユーザー名とパスワード Windows Azure HDInsight Emulator Windows Azure HDInsight Service	認証なし
領域	Spark Thrift サーバーホストの領域。
ホストの FQDN	Spark Thrift サーバーホストの完全修飾ドメイン名。	_HOST
サービス名	Spark サーバーの Kerberos サービスプリンシパル名。
ユーザー名	Spark サーバーで認証するためのユーザー名。
パスワード	Spark サーバーで認証するためのユーザー名のパスワード。
委任 UID	接続の認証済みユーザーではなく、ドライバーがすべての Spark オペレーションを委任する必要がある委任されたユーザーのユーザー ID。
Thrift による転送	Thrift レイヤーで使用する転送プロトコルを指定します。オプション：バイナリ SASL HTTP	バイナリ

詳細設定

設定	説明	例
SSL の有効化	クライアントが SSL 暗号化接続を使用して Spark サーバーと通信するかどうかを指定します。
列名とホスト名の不一致を許可	CA が発行した SSL 証明書名が Spark サーバーのホスト名と一致するかどうかを指定します。
自己署名サーバー証明書の許可	この証明書が信頼できる証明書のリストにない場合でも、ドライバーが自己署名証明書を使用する Spark サーバーへの接続を許可するかどうかを指定します。
信頼できる証明書	SSL を使用するときにサーバーを検証するための、信頼できる CA 証明書を含む .pem ファイルへの完全パス。
双方向 SSL	双方向 SSL を有効にするかどうかを指定します。
クライアントの証明書ファイル	クライアントの SSL 証明書を含む .pem ファイルへの完全パス。
クライアントの秘密鍵ファイル	クライアントの SSL 秘密鍵を含む .pem ファイルへの完全パス。
クライアントの秘密鍵のパスワード	［クライアント秘密鍵］フィールドで指定された秘密鍵ファイルのパスワード。
ネイティブクエリの使用	ドライバーがネイティブ HiveQL クエリを使用するかどうかを指定します。このオプションが選択されていない場合、ドライバーはアプリケーションで発行されたクエリを HiveQL の同等の形式に変換します。
Fast SQLPrepare	ドライバーが SQLExecute へのクエリ実行を遅延するかどうかを指定します。
ドライバー設定を優先	ドライバー全体の構成設定が接続および DNS 設定よりも優先されるかどうかを指定します。
非同期実行を使用	クエリを同期で実行するか非同期で実行するかどうかを指定します。
非同期実行のポーリング間隔	クエリ実行状況をポーリングする間隔（ミリ秒）。	100
クエリでテーブルを取得	ドライバーが SHOW TABLES クエリを使用して、データベースからテーブル名を取得するかどうかを指定します。無効な場合、ドライバーは GetTables Thrift API 呼び出しを使用します。	1
Unicode の SQL 文字型	文字列データ型で返される SQL タイプを指定します。有効な場合、ドライバーは SQL_WVARCHAR（STRING および VARCHAR 列）と SQL_WCHAR（CHAR 列）を返します。
システムテーブルの表示	ドライバーが SQLTables や SQLColumns などのカタログ関数呼び出しで spark_system テーブルを返すかどうかを指定します。
SSPI のみを使用	ドライバーが SSPI プラグインまたは MIT Kerberos を使用した Kerberos 認証を処理するかどうかを指定します。
セッションの自動回復が無効です	既存のセッションが有効ではないときに、ドライバーで自動的に新しいセッションを開くかどうかを指定します。
ブロックあたりフェッチされる行数	一度にクエリが返す行の最大数。	10000
文字列型列のデフォルト長	STRING 列に含まれる最大文字数。	255
バイナリ型列の長さ	BINARY 列の最大データ長さ。	32767
小数列の尺度	数値データ型の小数点以下の桁数。	10
ソケットのタイムアウト	終了するまでにオペレーションがアイドル状態である秒数。	60
HTTP のパス	Spark サーバーに対応する部分 URL。	/spark

Spark 接続フィールド

列の一意の名前

データアクセスウィンドウ経由で行われるSpark接続では、デフォルトで 0 に設定される EnableUniqueColumnName 接続文字列パラメーターが使用されます。接続時に正しい列名が取得されることを保証するために、このパラメーターの値は 0 にする必要があります。

データアクセスウィンドウを使用するのではなく DSN を使用してSpark接続を作成する場合は、デフォルトでこの値が 1 に設定されます。接続が動作するには、Windows リポジトリで 0 に変更する必要があります。

メモ

13.1 より古いバージョンの ACL で確立された DSN 接続を使用するスクリプトは、バージョン 13.1 にアップグレードした後に動作し続けます。

Apache Spark への接続

作業を開始する前に

Spark 接続の作成

接続設定

基本設定

詳細設定

Spark 接続フィールド

列の一意の名前

ページオプション

このページは役に立ちましたか。

このページは役に立ちましたか。

Apache Spark への接続

作業を開始する前に

Spark 接続の作成

接続設定

基本設定

詳細設定

Spark 接続フィールド

列の一意の名前

ページ オプション

このページは役に立ちましたか。

このページは役に立ちましたか。

ページオプション