ArcGIS Data Pipelines アプリで作成したデータ パイプラインは、コンテンツ内のアイテムとして格納されます。 Data Pipelines エディターを使用して、データ パイプラインを作成および編集します。 以下の各セクションでは、データ パイプライン エディターの概要と、エディターでのデータ パイプラインの作成および実行方法について説明します。
データ パイプライン エレメント
データ パイプラインには、次の 3 つのエレメントがあります。
- 入力
- 入力は、データをデータ パイプラインに読み込んで下流方向の処理を行うために使用されます。 多くの入力ソース タイプを利用できます。 ソースおよびソース タイプの詳細については、「データセットの構成」をご参照ください。
- 1 つのデータ パイプラインに複数のデータ ソースを含めることもできます。 データ パイプライン ワークフローには、少なくとも 1 つのデータ ソースが必要です。
- ツール
- ツールは、入力データセットから読み込まれたデータを処理します。
- 1 つのデータ パイプラインに複数のツールを含めることもできます。
- ツールを互いに接続することができ、その場合、1 つのツールの出力が次のツールの入力を表します。
- 利用可能なツールとその使用方法の詳細については、「データの処理」をご参照ください。
- 出力
- 出力は、データ パイプラインの結果で何が実行されるべきかを定義します。
- データ パイプラインの結果を新しいフィーチャ レイヤーに出力したり、既存のフィーチャ レイヤーのデータを置き換えたり、フィーチャ レイヤーの既存のデータに追加および更新したりすることができます。
- 1 つのデータ パイプラインに複数の出力を含めることもできます。
- 1 つのツールの結果または入力データセットに対して、複数の出力を構成できます。 データ パイプラインを実行するには、少なくとも 1 つの出力が必要です。
- 結果の書き込みに関する詳細については、「フィーチャ レイヤー」をご参照ください。
データ パイプライン ワークフロー
上で説明したとおり、データ パイプライン ワークフローは、既存のデータへの接続、データ エンジニアリングの実行、新たに用意されたデータの書き出しの 3 つのエレメントで構成されています。 データ パイプラインが実行されると、1 つ以上の出力が生成されます。 すべての出力結果は、コンテンツで利用できます。
データへの接続
データ パイプラインを作成する最初のステップは、データへの接続です。 エディター ツールバーの [入力] で、接続するソース タイプを選択します。 たとえば、[フィーチャ レイヤー] を選択してレイヤーを参照したり、[Amazon S3] を選択してデータセットが含まれるバケットとフォルダーを表すデータ ストア アイテムを参照したりすることができます。 データへの接続と読み取りのパフォーマンスを最適化する方法の詳細については、「データセットの構成」をご参照ください。
データ処理の実行
2 つ目のステップは、入力データの処理です。 エディター ツールバーの [ツール] で、データセットに対して実行する処理を選択します。 たとえば、CSV データの位置を計算し、特定の対象地域に対して位置をフィルタリングするには、ジオメトリの作成ツールと範囲によるフィルター ツールを使用します。
ツールの入力として使用するデータセットを指定するには、次のいずれかを実行します。
- ラインを描画するには、1 つのエレメントのコネクタから他のコネクタにポインターをドラッグします。
- 入力データセット パラメーターを使用して、入力データセットを特定します。
データの処理はオプションです。 データセットに接続した後、処理を行うことなくフィーチャ レイヤーとして書き出すことができます。
データ パイプライン処理のパフォーマンスを向上させるには、次のツールのいずれかを使用するか、ツールを組み合わせて使用して、操作するデータ量を制限します。
- フィールドの選択 - 対象フィールドのみを維持します。 たとえば、2000 年と 2010 年のフィールドを含む国勢調査データセットがあり、2010 年のみを対象にするとします。 2010 年の値を表すフィールドのみを選択します。
- 属性によるフィルター - 特定の属性値を含むレコードのサブセットを維持します。 たとえば、地震データセットでマグニチュードが 5.5 より大きい地震をフィルタリングします。
- 範囲によるフィルター - 特定の空間範囲内のレコードのサブセットを維持します。 たとえば、米国の洪水危険地帯のデータセットを、州の境界を表す別のデータセットの範囲に合わせてフィルタリングします。
データ パイプライン エレメントのプレビュー
ワークフローの任意のステップで、プレビューを使用してデータを調査できます。 プレビューには、データを調査するために次の方法が用意されています。
- [テーブルのプレビュー] - データを表形式で表示します。
- [マップのプレビュー] - データセットの位置をマップ上に表示します。 マップのプレビューでは、画面移動、拡大表示、属性の調査を行うことができます。
- [スキーマ] - データセットのスキーマを表示します。
- [メッセージ] - プレビュー操作により出力されたメッセージを確認します。
プレビューには、最大 8,000 件のデータ レコードが表示されます。
日付/時間フィールドをプレビューすると、値はお使いのブラウザーのタイム ゾーンで表示されます。 値をフィーチャ レイヤーに書き込むと、UTC で保存されます。
複雑なジオメトリが含まれているデータセットをプレビューすると、大量のメモリが消費されることがあります。 メモリ閾値を超えている場合は、マップのプレビューがレンダリングされなかったり、復元時にステータスが再接続中に変わったりすることがあります。 プレビューのパフォーマンスを改善するには、以下を検討します。
- すべてのジオメトリ タイプで、属性によるフィルター ツールまたは範囲によるフィルター ツールを使用してデータセットにフィルターを追加します。
- ポリゴン ジオメトリの場合、ジオメトリの単純化ツールを使用してジオメトリをジェネラライズします。
データセット全体をフィーチャ レイヤーに書き込むには、データ パイプラインを実行する前にフィルタリング ツールや単純化ツールを削除してください。
データ パイプラインの実行
キャンバス アクション バーの [実行] ボタンを使用して、構成された処理を実行します。 データ パイプラインを実行するには、少なくとも 1 つの出力フィーチャ レイヤー エレメントが構成されている必要があります。 ジョブの結果とメッセージには、最新の実行詳細コンソールからアクセスできます。 結果をクリックすると、アイテム ページを開くことができます。
自動化されたスケジュールでデータ パイプラインを実行するには、タスクを作成できます。 データ パイプラインのスケジュール設定されたタスクを作成する方法の詳細については、「データ パイプライン タスクのスケジュール設定」をご参照ください。