このモデルは、ArcGIS Pro の GeoAI ツールボックスからアクセスできる [ディープ ラーニングを使用したテキスト変換 (Transform Text Using Deep Learning)] ツールで使用できます。
テキスト ファイルからエンティティを抽出するには、以下の手順を実行します。
- Address Standardization モデルを ArcGIS Living Atlas of the World からダウンロードします。
- [解析] タブの [ツール] を参照します。
- [ジオプロセシング] ウィンドウの [ツールボックス] タブをクリックし、[GeoAI ツール] を選択して、[テキスト分析] の下の [ディープ ラーニングを使用したテキスト変換 (Transform Text Using Deep Learning)] ツールを参照します。
- [パラメーター] タブで、次のように変数を設定します。
- [入力テーブル] - 変換されるテキストを含む、入力ポイント、ライン、ポリゴン フィーチャクラス、またはテーブル。
- [テキスト フィールド] - 変換されるテキストを含む入力フィーチャクラスまたはテーブル内のテキスト フィールド。
- [入力モデル定義] - 事前トレーニングされた、または微調整されたモデルの .dlpk ファイルを選択します。
- [結果フィールド] - 変換されたテキストを含む、出力フィーチャクラスまたはテーブルのフィールドの名前。 デフォルトのフィールド名は Result です。
- [モデル引数] (オプション) - 必要に応じて引数の値を変更します。
- [Sequence_length] - モデルのトレーニングで考慮されるトレーニング データの最大シーケンス長 (トークン化後のサブワード レベル)。 デフォルト値は 512 です。 これは、HuggingFace トランスフォーマー バックボーンを持つモデルに限り適用できます。
- より正確な結果を得るには、[詳細] オプションを使用します。
- [バッチ サイズ] - 一度に処理する行数。 バッチ サイズを増やすと、ツールのパフォーマンスが向上します。ただし、バッチ サイズの増加に伴って、使用されるメモリ量も多くなります。
- [最小シーケンス長] - 出力されるテキスト文字列の最小文字数。 推奨値は 10 です。
- [最大シーケンス長] - 出力されるテキスト文字列の最大文字数。 デフォルト値は 50 です。
- [プロセッサー タイプ] で [CPU] または [GPU] を選択して、[環境] タブの変数を設定します。
可能であれば [GPU] を選択し、[GPU ID] を、使用する GPU に設定することをお勧めします。
- [実行] をクリックします。
出力レイヤーまたはテーブルがマップに追加されます。 [属性テーブル] をクリックして出力を確認します。