Microsoft Azure ストレージレコードの使用—ArcGIS Data Pipelines

Microsoft Azure ストレージコンテナーに格納されているファイルのレコードを ArcGIS Data Pipelines への入力として使用します。

使用上の注意

Microsoft Azure ストレージを操作する際には、以下の点に注意してください。

Azure ストレージのデータセットを使用するには、まずデータストアアイテムを作成しておく必要があります。 Data Pipelines がデータを読み取れるように、データストアアイテムは認証情報と接続情報を安全に保存します。データストアを作成するには、下記の「Azure ストレージへの接続」セクションの手順を実行します。
構成したデータストアアイテムを変更するには、[データストアアイテム] パラメーターを使用して、現在選択されているアイテムを削除し、次のいずれかのオプションを選択します。
- [データストアの追加] - 新しいデータストアアイテムを作成します。
- [アイテムの選択] - コンテンツを参照して、既存のデータストアアイテムを選択します。
[データセットのパス] パラメーターを使用して、データセットの名前、またはデータセットを含むフォルダーの名前を指定します。たとえば、データセットのパスは次の方法で指定できます。
- そのファイルのパスを指定して、1 つのファイルを参照します (Hurricanes.shp や CustomerInfo.csv など)。
- パスを指定して、複数のデータセットを含むフォルダーを参照します (MyFolder/ など)。フォルダー内のすべてのファイルは、同じスキーマとファイルタイプである必要があります。
- パスを指定して、複数のファイルと形式を含むフォルダーから特定のファイルタイプを参照します (MyFolder/*.parquet など)。この例では、パーケットファイルのみが読み取られます。フォルダー内のすべてのパーケットファイルは、同じスキーマである必要があります。
- パスを指定して、glob パターンを使用して複数のファイルとネストされたフォルダーを参照します (MyFolder/**/*.geojson など)。この例では、MyFolder 内のすべてのサブフォルダーと、それらのサブフォルダー内のすべての GeoJSON ファイルが読み込まれます。
データセットのパスは、データストアアイテムの作成時に指定したコンテナーやフォルダーの相対パスにする必要があります。たとえば、データセットの絶対パスが https://myaccount.blob.core.windows.net/my-container/my-folder/my-subfolder/file.csv で、データストアアイテムがコンテナーに my-container、フォルダーに my-folder を指定している場合、データセットのパスは my-subfolder/file.csv にする必要があります。
[データセットのパス] パラメーターで指定されるデータセットのファイル形式を指定するには、[ファイル形式] パラメーターを使用します。次の形式オプションを利用できます。
- [CSV または区切りファイル] (例: .csv、.tsv、.txt)
- [Parquet] (.parquet)
- [GeoParquet] (.geoparquet)
- [JSON] (例: .json または JSON として書式設定されたデータを含む .txt ファイル)
- [GeoJSON] (例: .json、.geojson、または GeoJSON として書式設定されたデータを含む .txt ファイル)
- [シェープファイル] (.shp)
- [ファイルジオデータベース] (.gdb)
- [ORC] (.orc)
[CSV または区切りファイル] 形式オプションを指定した場合は、次のデータセット定義パラメーターを使用できます。
- [区切り文字] - フィールド (または列) およびレコード (または行) の値を分割するために使用される区切り文字。デフォルトでは、カンマ (,) 区切りが使用されます。その他の一般的な区切り文字形式には、タブ (\t)、セミコロン (;)、垂直バー (|)、スラッシュおよびバックスラッシュ (/ および \) などがあります。
- [ヘッダー行を含む] - データセットにヘッダー行が含まれるかどうかを指定します。デフォルトは true です。 false に設定すると、データセットの最初の行はレコードと見なされます。
- [複数行データを含む] - データセットに、改行文字を含むレコードが含まれるかどうかを指定します。デフォルトは false です。 true に設定すると、複数行データを含むデータが正しく読み取られて書式設定されます。
- [文字エンコーディング] - 指定したデータセットの読み取りに使用されるエンコードタイプを指定します。デフォルトは [UTF-8] です。利用可能なエンコードオプションから選択するか、エンコードタイプを指定できます。値をエンコードする際、スペースはサポートされていません。たとえば、値に ISO 8859-8 を指定することは無効であり、ISO-8859-8 と指定する必要があります。

データ形式の値が [CSV または区切りファイル] の場合は、[フィールド] を使用して、フィールドの名前とタイプを構成できます。 [スキーマの構成] ボタンをクリックするとダイアログボックスが開き、データセットフィールドと次のオプションが表示されます。

フィールドの挿入または削除 - 該当するフィールドの横にあるチェックボックスをオンにして、そのフィールドを削除できます。デフォルトでは、すべてのフィールドが挿入されます。
[フィールド名] - Data Pipelines で使用するときのフィールドの名前。この値は編集可能です。ソース名に無効な文字や予約語が含まれていない限り、デフォルトでは、この値はソースデータセット内のフィールドと同じになります。無効な文字はアンダースコア (_) に置き換えられ、予約語は先頭にアンダースコア (_) が付きます。
[フィールドタイプ] - フィールドを Data Pipelines で使用する際のフィールドタイプ。この値は編集可能です。

以下の表で、使用できるフィールドタイプについて説明します。


フィールドタイプ	説明
String	String フィールドには、テキスト文字の文字列を指定できます。
Small Integer	Small Integer フィールドには、-32768 ～ 32767 の整数を指定できます。
Integer	Integer フィールドには、-2147483648 ～ 2147483647 の整数を指定できます。
Big Integer	Big Integer フィールドには、-9223372036854776000 ～ 9223372036854776000 の整数を指定できます。
Float	Float フィールドには、およそ -3.4E38 ～ 3.4E38 の有理数を指定できます。
Double	Double フィールドには、およそ -2.2E308 ～ 1.8E308 の有理数を指定できます。
Date	Date フィールドには、yyyy-MM-dd HH:mm:ss 形式の値を指定できます。たとえば、有効な値は 2022-12-31 13:30:30 です。日付の値が別の形式で格納されている場合は、日付/時間の作成ツールを使用して Date フィールドを計算します。
Boolean	Boolean フィールドには、True と False を指定できます。整数表現のブール値 (0 と 1) がフィールドに含まれている場合は、フィールドの更新ツールを使用して、代わりに整数をブール値にキャストします。

[JSON] 形式オプションを指定した場合は、[ルートのプロパティ] パラメーターを使用できます。このパラメーターを使用すると、データの読み取り元となる JSON のプロパティを指定することができます。各プロパティの間に小数点の記号を使用して、ネストされたプロパティを参照できます (例: property.subProperty)。デフォルトでは、JSON ファイル全体が読み取られます。
[GeoJSON] 形式オプションを指定した場合、[ジオメトリタイプ] パラメーターを使用できます。このパラメーターはオプションです。デフォルトでは、GeoJSON ファイル内のジオメトリタイプが使用されます。 GeoJSON ファイルに複数のジオメトリタイプが含まれている場合に、このパラメーターの値を指定する必要があります。ジオメトリタイプの混在はサポートされておらず、指定したタイプのみが使用されます。 [ポイント]、[マルチポイント]、[ポリライン]、[ポリゴン] のいずれかを指定します。 GeoJSON データの位置を含むジオメトリフィールドは自動的に計算され、入力データセットに追加されます。ジオメトリフィールドを空間演算の入力として使用したり、出力結果でジオメトリを有効化するために使用したりすることができます。
[ファイルジオデータベース] 形式オプションを指定した場合は、[フィーチャクラス名またはテーブル名] パラメーターを使用できます。このパラメーターを使用して、入力として使用するフィーチャクラスまたはテーブルの名前を指定します。ポイント、マルチポイント、ポリライン、ポリゴンフィーチャクラスとテーブルのみがサポートされています。ラスター、モザイク、軌道などのデータセットはサポートされていません。ジオメトリックネットワークフィーチャなどの高度なフィーチャタイプはサポートされていません。
入力データセットの読み取りパフォーマンスを向上させるには、以下の方法を検討してください。
- [キャッシュの使用] パラメーターを使用して、データセットのコピーを格納します。キャッシュされたコピーは、エディターで開いている少なくとも 1 つのブラウザータブが接続されている間だけ保持されます。これで、処理中にデータによりすばやくアクセスできるようになる場合があります。ソースデータがキャッシュされた後に更新された場合は、このパラメーターをオフにして、ツールをプレビューするか、再実行してください。
- 入力データセットを構成した後で、処理されるデータの量を制限する次のツールを構成します。
  - 属性によるフィルター - 特定の属性値を含むレコードのサブセットを維持します。
  - フィールドの選択 - 対象フィールドのみを維持します。
  - 範囲によるフィルター - 特定の空間範囲内のレコードのサブセットを維持します。

Azure ストレージへの接続

Azure ストレージに格納されているデータを使用するには、次の手順を実行して、Data Pipelines エディターでデータストアアイテムを作成します。

Data Pipelines エディターのツールバーで [入力] をクリックして [Microsoft Azure Storage] を選択します。
[データストア接続の選択] ダイアログボックスが表示されます。
[新しいデータストアを追加] を選択します。
[次へ] をクリックします。
[データストアへの接続の追加] ダイアログボックスが表示されます。
データへのアクセスに使用する認証タイプを選択します。
認証の値を入力します。
認証の値は、選択した認証タイプによって異なります。
データが格納されているコンテナーの名前を指定します。
必要に応じて、登録するコンテナー内のフォルダーへのパスを指定します。
[次へ] をクリックします。
アイテム詳細ページが表示されます。
新しいデータストアアイテムのタイトルを指定します。
このタイトルはコンテンツに表示されます。また、アイテムを特定のフォルダーに保存して、アイテムタグまたはサマリーを入力することもできます。
[接続の作成] をクリックして、データストアアイテムを作成します。
特定のデータセットに対して構成できる Microsoft Azure ストレージエレメントがキャンバスに追加されます。

制限事項

既知の制限事項は以下のとおりです。

認証情報には、少なくとも READ 権限と LIST 権限が必要です。これらの権限により、指定したコンテナーへのアクセスとそれに含まれているデータセットの読み取りが許可されます。
1 つのデータセットを表す複数のファイルを含むフォルダーを指定した場合は、Azure ストレージフォルダーで特定したすべてのファイルのスキーマとジオメトリタイプを同じにする必要があります。
Zip 形式の圧縮ファイル (.zip) はサポートされていません。
Esri の JSON ファイル (.esrijson) は使用できません。
Azure への入力となる Data Pipelines データは、[BLOB の論理的な削除を有効にする] が無効になっている必要があります。
データセットにスペースまたは無効な文字を含むフィールド名が存在する場合、その名前はアンダースコアを使用するように自動的に更新されます。たとえば、Population 2022 というフィールドは Population_2022 という名前に変更され、%Employed というフィールドは _Employed という名前に変更されます。
データストアアイテムを使用して外部データソースに接続するには、そのデータストアアイテムの所有者である必要があります。現在のユーザーと共有されているデータストアアイテムは、入力としてサポートされていません。

ライセンス要件

次のライセンスと構成が必要です。

Creator または Professional ユーザータイプ
公開者、ファシリテーター、管理者ロール、またはそれと同等のカスタムロール

Data Pipelines の要件の詳細については、要件をご参照ください。

このトピックへのフィードバック

使用上の注意

Azure ストレージへの接続

制限事項

ライセンス要件

このトピックの内容