エンティティ認識モデルのトレーニング (Train Entity Recognition Model) (GeoAI)—ArcGIS AllSource

サマリー

未加工のテキストから事前定義されたエンティティを抽出するエンティティ認識モデルをトレーニングします。

使用法

このツールを使用するには、ディープラーニングフレームワークがインストールされている必要があります。 ArcGIS AllSource のディープラーニングフレームワークを使用するようにコンピューターを設定するには、「ArcGIS 用のディープラーニングフレームワークのインストール」をご参照ください。
このツールは、既存のトレーニング済みモデルの微調整にも使用できます。
GPU を使用してこのツールを実行するには、プロセッサタイプ環境を GPU に設定します。複数の GPU がある場合は、代わりに GPU ID 環境を指定します。
入力には、テキストフィールドと名前付きエンティティラベルを含むフィーチャクラスまたはテーブル、あるいは .json または .csv ファイルのトレーニングデータがあるフォルダーを指定できます。
このツールは、NER モデルのトレーニングに Transformer ベースのバックボーンを使用し、Mistral LLM を使用したプロンプト付きコンテキスト内学習をサポートしています。 Mistral バックボーンをインストールするには、「ArcGIS Mistral バックボーン」をご参照ください。
このツールの実行要件および発生する可能性のある問題の詳細については、「ディープラーニングに関するよくある質問」をご参照ください。

パラメーター

ラベル	説明	データタイプ
入力フォルダーまたはテーブル	入力は次のいずれかになります。モデルの入力テキストを含むテキストフィールドと、選択したテキストフィールドがモデルの入力テキストとして使用され残りのフィールドが名前付きエンティティのラベルとして処理されるラベル付きエントリのある、フィーチャクラスまたはテーブル。 NER タスクの標準データセット形式のトレーニングデータを含むフォルダー。トレーニングデータは .json または .csv ファイル形式である必要があります。ファイル形式が、入力のデータセットタイプを決定します。入力がフォルダーの場合、次のデータセットタイプがサポートされています。 ner_json - トレーニングデータフォルダーには、テキストとラベル付きエンティティを spaCy JSON トレーニング形式でフォーマットした .json ファイルが含まれている必要があります。 IOB - Ramshaw および Marcus が論文「Text Chunking using Transformation-Based Learning」で提案した IOB (I - Inside、O - Outside、B - Begging タグ) 形式。トレーニングデータフォルダーには、次の 2 つの .csv ファイルが含まれる必要があります。 tokens.csv - 入力チャンクとしてテキストが含まれています。 tags.csv - テキストチャンクの IOB タグが含まれています。 BILUO - IOB 形式のエクステンションで、追加で L (Last) および U (Unit) タグが含まれます。トレーニングデータフォルダーには、次の 2 つの .csv ファイルが含まれる必要があります。 tokens.csv - 入力チャンクとしてテキストが含まれています。 tags.csv - テキストチャンクの BILUO タグが含まれます。	Folder; Feature Layer; Table View; Feature Class
出力モデル	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
事前トレーニング済みモデルファイル (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力には Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) を指定できます。類似したエンティティを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。	File
住所エンティティ (オプション)	ロケーションとして処理される住所エンティティ。推論では、このようなエンティティは、指定のロケーターでジオコーディングされ、エンティティ抽出処理の結果としてフィーチャクラスが生成されます。ロケーターが提供されていないか、トレーニング済みモデルが住所エンティティを抽出しない場合、抽出したエンティティを含むテーブルが代わりに生成されます。	String
最大エポック (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポック値を 1 に設定すると、データセットがニューラルネットワークによって 1 回渡されます。デフォルト値は 5 です。	Long
モデルバックボーン (オプション)	新しいモデルをトレーニングするアーキテクチャとして使用する、事前構成済みのニューラルネットワークを指定します。 bert-base-cased—モデルは BERT ニューラルネットワークを使用してトレーニングされます。 BERT は、Masked Language Model 目的関数と Next Sentence Prediction を使用して事前トレーニングされます。 roberta-base—モデルは RoBERTa ニューラルネットワークを使用してトレーニングされます。 RoBERTa は、BERT の主要なハイパーパラメーターを変更し、小さいバッチと高い学習率により、目的の事前トレーニングと Next Sentence のトレーニングを回避します。 albert-base-v1—モデルは ALBERT ニューラルネットワークを使用してトレーニングされます。 ALBERT は、文章の一貫性 (intersentence coherence) のモデリングに焦点を当てた自己監視損失を使用しており、BERT より優れたスケーラビリティが得られます。 xlnet-base-cased—モデルは XLNet ニューラルネットワークを使用してトレーニングされます。 XLNet は、一般化された自己回帰事前トレーニング方法です。これにより、因数分解順序のすべての順列で予想される確率を最大化することで双方向のコンテキストを学習でき、BERT の欠点が克服されます。 xlm-roberta-base—モデルは XLM-RoBERTa ニューラルネットワークを使用してトレーニングされます。 XLM-RoBERTa は、100 の異なる言語でトレーニングされた多言語モデルです。一部の XLM 多言語モデルとは異なり、使用されている言語を理解して入力 ID から正しい言語を識別するための言語テンソルを必要としません。 distilroberta-base—モデルは DistilRoBERTa ニューラルネットワークを使用してトレーニングされます。 DistilRoBERTa は、OpenAI の WebText データセットの複製である OpenWebTextCorpus にのみ基づく roberta-base ニューラルネットワークの管理下で事前トレーニングされた英語モデルです。 distilbert-base-cased—モデルは DistilBERT ニューラルネットワークを使用してトレーニングされます。 DistilBERT は、より小さい汎用言語表現モデルです。 mistral—このモデルは、Mistral 大規模言語モデル (LLM) を使用してトレーニングされます。 Mistral は、Sliding Window Attention、Grouped Query Attention、Byte-fallback BPE トークナイザーを使用するデコーダーオンリーなトランスフォーマーです。 Mistral バックボーンをインストールするには、「ArcGIS Mistral バックボーン」をご参照ください。	String
バッチサイズ (オプション)	1 回に処理されるトレーニングサンプルの数。デフォルト値は 2 です。バッチサイズを大きくすると、ツールのパフォーマンスが向上しますが、バッチサイズが増加するにつれて、使用されるメモリ量が増加します。メモリ不足エラーが発生した場合は、より小さなバッチサイズを使用してください。	Double
モデル引数 (オプション)	モデルの初期化に使用される追加の引数。サポートされるモデル引数は sequence_length です。これは、モデルのトレーニングにおいて考慮されるトレーニングデータの最大シーケンス長を設定するために使用されます。	Value Table
学習率 (オプション)	トレーニング処理の際に調整されるモデル加重の量を示すステップサイズ。値を指定しない場合、最適な学習率が自動的に生成されます。	Double
検証率 (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は、Transformer ベースのモデルバックボーンの場合は 10、Mistral バックボーンの場合は 50 です。	Double
モデルの改善が見込めなくなった時点で停止 (オプション)	モデルの改善がなくなった時点でモデルのトレーニングを停止するか、[最大エポック] パラメーター値に達するまでトレーニングを続行するかを指定します。オン - [最大エポック] パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングを停止します。これがデフォルトです。オフ - [最大エポック] パラメーター値に到達するまで、モデルのトレーニングが続行されます。	Boolean
モデルバックボーンをトレーニング可能にする (オプション)	事前トレーニング済みモデルのバックボーンレイヤーを固定するかどうかを指定します。これにより、加重とバイアスが本来の設計どおりになります。オン - バックボーンレイヤーは固定されず、[モデルバックボーン] パラメーター値の加重とバイアスを、トレーニングサンプルに合わせて変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。これがデフォルトです。オフ - バックボーンレイヤーは固定され、[モデルバックボーン] パラメーター値の事前定義済み加重とバイアスはトレーニング中に変更されません。	Boolean
テキストフィールド	モデルによって入力として使用されるテキストを含む、入力フィーチャクラスまたはテーブル内のテキストフィールド。このパラメーターは、[入力フォルダーまたはテーブル] パラメーター値がフィーチャクラスまたはテーブルである場合は必須です。	Field
プロンプト (オプション)	予測した出力を生成するために、大規模言語モデル (LLM) に与えられる特定の入力または手順。デフォルト値は、指定テキスト内の指定クラスに属する名前付きエンティティの抽出です。他のクラスに属するエンティティにはタグを付けないでください。	String

arcpy.geoai.TrainEntityRecognitionModel(in_folder, out_model, {pretrained_model_file}, {address_entity}, {max_epochs}, {model_backbone}, {batch_size}, {model_arguments}, {learning_rate}, {validation_percentage}, {stop_training}, {make_trainable}, text_field, {prompt})

名前	説明	データタイプ
in_folder	入力は次のいずれかになります。モデルの入力テキストを含むテキストフィールドと、選択したテキストフィールドがモデルの入力テキストとして使用され残りのフィールドが名前付きエンティティのラベルとして処理されるラベル付きエントリのある、フィーチャクラスまたはテーブル。 NER タスクの標準データセット形式のトレーニングデータを含むフォルダー。トレーニングデータは .json または .csv ファイル形式である必要があります。ファイル形式が、入力のデータセットタイプを決定します。入力がフォルダーの場合、次のデータセットタイプがサポートされています。 ner_json - トレーニングデータフォルダーには、テキストとラベル付きエンティティを spaCy JSON トレーニング形式でフォーマットした .json ファイルが含まれている必要があります。 IOB - Ramshaw および Marcus が論文「Text Chunking using Transformation-Based Learning」で提案した IOB (I - Inside、O - Outside、B - Begging タグ) 形式。トレーニングデータフォルダーには、次の 2 つの .csv ファイルが含まれる必要があります。 tokens.csv - 入力チャンクとしてテキストが含まれています。 tags.csv - テキストチャンクの IOB タグが含まれています。 BILUO - IOB 形式のエクステンションで、追加で L (Last) および U (Unit) タグが含まれます。トレーニングデータフォルダーには、次の 2 つの .csv ファイルが含まれる必要があります。 tokens.csv - 入力チャンクとしてテキストが含まれています。 tags.csv - テキストチャンクの BILUO タグが含まれます。	Folder; Feature Layer; Table View; Feature Class
out_model	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
pretrained_model_file (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力には Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) を指定できます。類似したエンティティを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。	File
address_entity (オプション)	ロケーションとして処理される住所エンティティ。推論では、このようなエンティティは、指定のロケーターでジオコーディングされ、エンティティ抽出処理の結果としてフィーチャクラスが生成されます。ロケーターが提供されていないか、トレーニング済みモデルが住所エンティティを抽出しない場合、抽出したエンティティを含むテーブルが代わりに生成されます。	String
max_epochs (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポック値を 1 に設定すると、データセットがニューラルネットワークによって 1 回渡されます。デフォルト値は 5 です。	Long
model_backbone (オプション)	新しいモデルをトレーニングするアーキテクチャとして使用する、事前構成済みのニューラルネットワークを指定します。 bert-base-cased—モデルは BERT ニューラルネットワークを使用してトレーニングされます。 BERT は、Masked Language Model 目的関数と Next Sentence Prediction を使用して事前トレーニングされます。 roberta-base—モデルは RoBERTa ニューラルネットワークを使用してトレーニングされます。 RoBERTa は、BERT の主要なハイパーパラメーターを変更し、小さいバッチと高い学習率により、目的の事前トレーニングと Next Sentence のトレーニングを回避します。 albert-base-v1—モデルは ALBERT ニューラルネットワークを使用してトレーニングされます。 ALBERT は、文章の一貫性 (intersentence coherence) のモデリングに焦点を当てた自己監視損失を使用しており、BERT より優れたスケーラビリティが得られます。 xlnet-base-cased—モデルは XLNet ニューラルネットワークを使用してトレーニングされます。 XLNet は、一般化された自己回帰事前トレーニング方法です。これにより、因数分解順序のすべての順列で予想される確率を最大化することで双方向のコンテキストを学習でき、BERT の欠点が克服されます。 xlm-roberta-base—モデルは XLM-RoBERTa ニューラルネットワークを使用してトレーニングされます。 XLM-RoBERTa は、100 の異なる言語でトレーニングされた多言語モデルです。一部の XLM 多言語モデルとは異なり、使用されている言語を理解して入力 ID から正しい言語を識別するための言語テンソルを必要としません。 distilroberta-base—モデルは DistilRoBERTa ニューラルネットワークを使用してトレーニングされます。 DistilRoBERTa は、OpenAI の WebText データセットの複製である OpenWebTextCorpus にのみ基づく roberta-base ニューラルネットワークの管理下で事前トレーニングされた英語モデルです。 distilbert-base-cased—モデルは DistilBERT ニューラルネットワークを使用してトレーニングされます。 DistilBERT は、より小さい汎用言語表現モデルです。 mistral—このモデルは、Mistral 大規模言語モデル (LLM) を使用してトレーニングされます。 Mistral は、Sliding Window Attention、Grouped Query Attention、Byte-fallback BPE トークナイザーを使用するデコーダーオンリーなトランスフォーマーです。 Mistral バックボーンをインストールするには、「ArcGIS Mistral バックボーン」をご参照ください。	String
batch_size (オプション)	1 回に処理されるトレーニングサンプルの数。デフォルト値は 2 です。バッチサイズを大きくすると、ツールのパフォーマンスが向上しますが、バッチサイズが増加するにつれて、使用されるメモリ量が増加します。メモリ不足エラーが発生した場合は、より小さなバッチサイズを使用してください。	Double
model_arguments [model_arguments,...] (オプション)	モデルの初期化に使用される追加の引数。サポートされるモデル引数は sequence_length です。これは、モデルのトレーニングにおいて考慮されるトレーニングデータの最大シーケンス長を設定するために使用されます。	Value Table
learning_rate (オプション)	トレーニング処理の際に調整されるモデル加重の量を示すステップサイズ。値を指定しない場合、最適な学習率が自動的に生成されます。	Double
validation_percentage (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は、Transformer ベースのモデルバックボーンの場合は 10、Mistral バックボーンの場合は 50 です。	Double
stop_training (オプション)	モデルの改善がなくなった時点でモデルのトレーニングを停止するか、max_epochs パラメーター値に達するまでトレーニングを続行するかを指定します。 STOP_TRAINING—max_epochs パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングを停止します。これがデフォルトです。 CONTINUE_TRAINING—max_epochs パラメーター値に到達するまで、モデルのトレーニングは続行します。	Boolean
make_trainable (オプション)	事前トレーニング済みモデルのバックボーンレイヤーを固定するかどうかを指定します。これにより、加重とバイアスが本来の設計どおりになります。 TRAIN_MODEL_BACKBONE—バックボーンレイヤーは固定されず、model_backbone パラメーター値の加重とバイアスを、トレーニングサンプルに合わせて変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。これがデフォルトです。 FREEZE_MODEL_BACKBONE—バックボーンレイヤーは固定され、model_backbone パラメーター値の事前定義済み加重とバイアスはトレーニング中に変更されません。	Boolean
text_field	モデルによって入力として使用されるテキストを含む、入力フィーチャクラスまたはテーブル内のテキストフィールド。このパラメーターは、in_folder パラメーター値がフィーチャクラスまたはテーブルである場合は必須です。	Field
prompt (オプション)	予測した出力を生成するために、大規模言語モデル (LLM) に与えられる特定の入力または手順。デフォルト値は、指定テキスト内の指定クラスに属する名前付きエンティティの抽出です。他のクラスに属するエンティティにはタグを付けないでください。	String

コードのサンプル

TrainEntityRecognitionModel (スタンドアロンスクリプト)

次の例は、TrainEntityRecognitionModel 関数を使用する方法を示しています。

# Name: TrainEntityRecognizer.py
# Description: Train an Entity Recognition model to extract useful entities such as "Address", "Date" from text.  

# Import system modules
import arcpy

arcpy.env.workspace = "C:/textanalysisexamples/data"

# Set local variables
in_folder = "train_data"
out_folder = "test_bio_format"

# Run Train Entity Recognition Model
arcpy.geoai.TrainEntityRecognitionModel(in_folder, out_folder)

環境

プロセッサタイプ, GPU ID

このトピックへのフィードバック

サマリー

使用法

パラメーター

コードのサンプル

環境

このトピックの内容