区画エリア、画像、対象フィーチャに合わせて、Address Standardization モデルを微調整できます。 新しいモデルをトレーニングする場合に比べ、モデルを微調整する方がトレーニング データや計算リソースが少なくて済み、時間も短縮できます。
満足のいく結果が得られない場合は、モデルの微調整を行うことをお勧めします。 この状況は、トレーニングされていない地域に適用された場合に発生する可能性があります。
このモデルは、ArcGIS Pro のツールボックスから GeoAI ツールボックスで使用できるテキスト変換モデルのトレーニング (Train Text Transformation Model) ツールで微調整できます。
モデルを微調整するには、次の手順を実行します。
- Address Standardization モデルを ArcGIS Living Atlas of the World からダウンロードします。
- [解析] タブの [ツール] を参照します。

- [ジオプロセシング] ウィンドウの [ツールボックス] タブをクリックし、[GeoAI ツール] を選択して、[テキスト分析] の下の テキスト変換モデルのトレーニング (Train Text Transformation Model) ツールを参照します。

- [パラメーター] タブで、次のように変数を設定します。
- [入力テーブル] - 変換されるテキストおよびモデルをトレーニングするためのターゲットの変換テキストを含む、入力ポイント、ライン、ポリゴン フィーチャクラス、またはテーブル。
- [テキスト フィールド] - 変換されるテキストを含む入力フィーチャクラスまたはテーブル内のテキスト フィールド。
- [ラベル フィールド] - モデルのトレーニングのためのターゲットの変換テキストを含む、入力フィーチャクラスまたはテーブル内のテキスト フィールド。
- [事前トレーニング済みモデル ファイル] - 事前にトレーニングされた Address Standardization.dlpk ファイルを選択します。
- [出力モデル] - トレーニング済みのモデルを保存する出力フォルダーの場所。
- [最大エポック] - 100 (モデルを微調整する反復回数によります。 エポックとは、ツールがデータを処理する際にかかる反復回数のことです)。
- [モデル パラメーター] オプションで、次のように変数を設定します。
[モデル バックボーン] (オプション) - 新しいモデルをトレーニングするためのアーキテクチャとして使用される構成済みのニューラル ネットワークを指定します。
- [バッチ サイズ] - 一度に処理する行数。 バッチ サイズを増やすと、ツールのパフォーマンスが向上します。ただし、バッチ サイズの増加に伴って、使用されるメモリ量も多くなります。
- [Sequence_Length] - モデルのトレーニングで考慮されるトレーニング データの最大シーケンス長 (トークン化後のサブワード レベル)。 デフォルト値は 512 です。 これは、HuggingFace トランスフォーマー バックボーンを持つモデルに限り適用できます。
- より正確な結果を得るには、[詳細] オプションを使用します。
- [学習率] (オプション) - トレーニング処理の際に調整されるモデル ウェイトの量を示すステップ サイズ。 値を指定しない場合、最適な学習率が自動的に推測されます。
- [検証率] (オプション) - モデルの検証に使用するトレーニング サンプルの割合。 デフォルト値は 10 です。
- [モデルの改善が見込めなくなった時点で停止] (オプション) - モデルの改善がなくなった時点でモデルのトレーニングを停止するか、[最大エポック] の値に達するまでトレーニングを行うかを指定します。
- HTML タグの削除 (オプション) - HTML タグを入力テキストから削除するかどうかを指定します。
- URL の削除 (オプション) - URL を入力テキストから削除するかどうかを指定します。
- [プロセッサ タイプ] で [CPU] または [GPU] を選択して、[環境] タブの変数を設定します。
可能であれば [GPU] を選択し、[GPU ID] を、使用する GPU に設定することをお勧めします。
- [実行] をクリックします。
出力モデルは、目的の場所に保存されます。