Подпись | Описание | Тип данных |
Входная папка | Папка содержит обучающие данные в виде стандартных наборов данных для задач NER. Обучающие данные должны быть в виде файлов .json или .csv. Формат файлов определяет тип входного набора данных. Ниже перечислены поддерживаемые типы наборов данных:
| Folder |
Выходная модель | Расположение выходной папки, в которой будет храниться обученная модель. | Folder |
Файл предварительно обученной модели (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель с подобными записями можно настроить так, чтобы она соответствовала новой модели. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
Элемент адреса (Дополнительный) | Элемент адреса распознается как местоположение Во время логического вывода такие объекты будут геокодированы с использованием указанного локатора, и в результате процесса извлечения объектов будет создан класс пространственных объектов. Если локатор не указана, либо обучающая модель не извлекла записи адресов, то вместо этого будет создана таблица с извлеченными записями. | String |
Максимальное число периодов времени (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться вперед и назад через нейронную сеть один раз. Значение по умолчанию 5. | Long |
Опорная модель (Дополнительный) | Указывает предварительно настроенную нейронную сеть, которая будет использоваться в качестве архитектуры для обучения новой модели.
| String |
Размер пакета (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Этот параметр не применим к моделям с базой spaCy. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
Аргументы модели (Дополнительный) | Дополнительные аргументы для инициализации модели, такие как seq_len для максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. См. аргументы ключевых слоев в документации EntityRecognizer, чтобы посмотреть список поддерживаемых аргументов модели, которые могут быть использованы. | Value Table |
Скорость обучения (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, то оптимальная скорость обучения будет получена автоматически. | Double |
Процент проверки (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10. | Double |
Завершить, когда модель перестанет улучшаться (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или достигнуто значение параметра Максимальное число эпох.
| Boolean |
Сделать опорную модель обучаемой (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
Краткая информация
Тренирует именованную модель распознавания элементов для извлечения преднастроенного набора записей из сырого текста.
Использование
Для этого инструмента требуются установленные системы глубокого изучения. Чтобы настроить компьютер на работу в среде глубокого обучения в ArcGIS AllSource, см. раздел Установка сред глубокого обучения для ArcGIS.
Этот инструмент также можно использовать для тонкой настройки существующей обученной модели.
Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.
В качестве входных данных для инструмента указывается папка с фалами .json или .csv.
Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.
Параметры
arcpy.geoai.TrainEntityRecognitionModel(in_folder, out_model, {pretrained_model_file}, {address_entity}, {max_epochs}, {model_backbone}, {batch_size}, {model_arguments}, {learning_rate}, {validation_percentage}, {stop_training}, {make_trainable})
Имя | Описание | Тип данных |
in_folder | Папка содержит обучающие данные в виде стандартных наборов данных для задач NER. Обучающие данные должны быть в виде файлов .json или .csv. Формат файлов определяет тип входного набора данных. Ниже перечислены поддерживаемые типы наборов данных:
| Folder |
out_model | Расположение выходной папки, в которой будет храниться обученная модель. | Folder |
pretrained_model_file (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель с подобными записями можно настроить так, чтобы она соответствовала новой модели. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
address_entity (Дополнительный) | Элемент адреса распознается как местоположение Во время логического вывода такие объекты будут геокодированы с использованием указанного локатора, и в результате процесса извлечения объектов будет создан класс пространственных объектов. Если локатор не указана, либо обучающая модель не извлекла записи адресов, то вместо этого будет создана таблица с извлеченными записями. | String |
max_epochs (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться вперед и назад через нейронную сеть один раз. Значение по умолчанию 5. | Long |
model_backbone (Дополнительный) | Указывает предварительно настроенную нейронную сеть, которая будет использоваться в качестве архитектуры для обучения новой модели.
| String |
batch_size (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Этот параметр не применим к моделям с базой spaCy. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
model_arguments [model_arguments,...] (Дополнительный) | Дополнительные аргументы для инициализации модели, такие как seq_len для максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. См. аргументы ключевых слоев в документации EntityRecognizer, чтобы посмотреть список поддерживаемых аргументов модели, которые могут быть использованы. | Value Table |
learning_rate (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, то оптимальная скорость обучения будет получена автоматически. | Double |
validation_percentage (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10. | Double |
stop_training (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или достигнуто значение параметра max_epochs.
| Boolean |
make_trainable (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
Пример кода
Пример скрипта в окне Python для использования функции TrainEntityRecognitionModel.
# Name: TrainEntityRecognizer.py
# Description: Train an Entity Recognition model to extract useful entities like "Address", "Date" from text.
#
# Requirements: ArcGIS Pro Advanced license
# Import system modules
import arcpy
import os
arcpy.env.workspace = "C:/textanalysisexamples/data"
dbpath = "C:/textanalysisexamples/Text_analysis_tools.gdb"
# Set local variables
in_folder = 'train_data'
out_folder = "test_bio_format"
# Run Train Entity Recognition Model
arcpy.geoai.TrainEntityRecognitionModel(in_folder, out_folder)