Databricks (ベータ版) テーブルのレコードを ArcGIS Data Pipelines への入力として使用します。
使用上の注意
Databricks (ベータ版) を操作する際には、以下の点に注意してください。
- Databricks (ベータ版) のデータセットを使用するには、まずデータ ストア アイテムを作成する必要があります。 Data Pipelines がデータを読み取れるように、データ ストア アイテムは認証情報と接続情報を安全に保存します。 データ ストアを作成するには、下記の「Databricks (ベータ版) への接続」セクションの手順を実行します。
- 構成したデータ ストア アイテムを変更するには、[データ ストア アイテム] パラメーターを使用して、現在選択されているアイテムを削除し、次のいずれかのオプションを選択します。
- [データ ストアの追加] - 新しいデータ ストア アイテムを作成します。
- [アイテムの選択] - コンテンツを参照して、既存のデータ ストア アイテムを選択します。
- [スキーマ] パラメーターを使用して、使用するデータセットを含むスキーマを指定します。
- [テーブル] パラメーターを使用して、使用するデータセットを指定します。
- 入力データセットの読み取りパフォーマンスを向上させるには、以下の方法を検討してください。
- [キャッシュの使用] パラメーターを使用して、データセットのコピーを格納します。 キャッシュされたコピーは、エディターで開いている少なくとも 1 つのブラウザー タブが接続されている間だけ保持されます。 これで、処理中にデータによりすばやくアクセスできるようになる場合があります。 ソース データがキャッシュされた後に更新された場合は、このパラメーターをオフにして、ツールをプレビューするか、再実行してください。
- 入力データセットを構成した後で、処理されるデータの量を制限する次のツールを構成します。
- 属性によるフィルター - 特定の属性値を含むレコードのサブセットを維持します。
- 範囲によるフィルター - 特定の空間範囲内のレコードのサブセットを維持します。
- フィールドの選択 - 対象フィールドのみを維持します。
- クリップ - 特定のジオメトリーと交差するレコードのサブセットを維持します。
Databricks (ベータ版) への接続
Databricks (ベータ版) に格納されているデータを使用するには、次の手順を実行し、Data Pipelines エディターでデータ ストア アイテムを作成します。
- Data Pipelines エディターのツールバーで [入力] をクリックして [Databricks (ベータ版)] を選択します。
[データ ストア接続の選択] ダイアログ ボックスが表示されます。
- [新しいデータ ストアを追加] を選択して、[次へ] をクリックします。
[データ ストアへの接続の追加] ダイアログ ボックスが表示されます。
- Databricks アカウントへのサーバー URL を指定します。例: my_account.azuredatabricks.net
サーバー URL に https:// を指定すると、検証に失敗する可能性があります。
- 次のいずれかの認証タイプを選択します:
- [OAuth Machine-to-Machine] - Databricks アカウントのクライアント ID とクライアント シークレットを指定します。
- [個人用アクセス トークン] - Databricks アカウントのトークンを指定します。
- [HTTP パス] パラメーターに、使用される Databricks 計算リソースの HTTP パスを指定します。
サーバーレス ウェアハウスの使用をおすすめします。 サーバーレス ウェアハウスを使用すると、従来のウェアハウスよりも速く接続できます。
- [カタログ (オプション)] パラメーターに、使用するデータセットを含むカタログの名前を指定します。カタログを指定しない場合、データ ストア アイテムは Databricks アカウントのデフォルトのカタログに接続します。
- [次へ] をクリックします。
アイテム詳細ページが表示されます。
- 新しいデータ ストア アイテムのタイトルを指定します。
このタイトルはコンテンツに表示されます。 また、アイテムを特定のフォルダーに保存して、アイテム タグまたはサマリーを入力することもできます。
- [接続の作成] をクリックして、データ ストア アイテムを作成します。
[データセットの選択] ダイアログ ボックスが表示されます。
- [スキーマ] パラメーターに、レコードの読み込み元のテーブルを含むスキーマの名前を指定します。
- [テーブル] パラメーターに、データ パイプラインで入力として使用するレコードを含むテーブルの名前を指定します。
- [追加] をクリックします。
Databricks (ベータ版) エレメントがキャンバスに追加されます:
制限事項
既知の制限事項は以下のとおりです。
- 組織がベータ版のアプリと機能をブロックしている場合は、Databricks (ベータ版) 入力オプションにアクセスできません。
- Databricks テーブルのデータを操作するには、まず Databricks ウェアハウスを開始する必要があります。 Data Pipelines は、データがリクエストされた時点でウェアハウスを開始します。 ウェアハウスの開始に要する時間によっては、Databricks テーブルからレコードまたはフィールドを読み込むのに数分かかることがあります。 パフォーマンス向上のため、従来のウェアハウスではなくサーバーレス ウェアハウスを使用することをおすすめします。
- Databricks SQL を使用してクエリーできないフィールド タイプは Data Pipelines で使用することはできません。
- データ ストア アイテムを使用して外部データ ソースに接続するには、そのデータ ストア アイテムの所有者である必要があります。 データ ストア アイテムはプライベートであり、共有できません。
ライセンス要件
次のライセンスと構成が必要です。
- Creator または Professional ユーザー タイプ
- 公開者、ファシリテーター、管理者ロール、またはそれと同等のカスタム ロール
Data Pipelines の要件の詳細については、要件をご参照ください。