Подпись | Описание | Тип данных |
Входная таблица | Класс объектов или таблица, который содержит текстовое поле с входным текстом для модели и поле меток с метками целевого класса. | Feature Layer; Table View |
Поле текста | Текстовое поле во входном классе или таблице, содержащее текст, который будет классифицирован моделью. | Field |
Поле меток | Текстовое поле во входном классе объектов или таблице, которое содержит метки целевого клсса для обучения модели. В случае классификации текста с несколькими метками укажите более одного текстового поля. | Field |
Выходная модель | Расположение выходной папки, в которой будет храниться обученная модель. | Folder |
Файл предварительно обученной модели (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель с подобными классами можно настроить так, чтобы она соответствовала новой модели. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
Максимальное число периодов времени (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться вперед и назад через нейронную сеть один раз. Значение по умолчанию 5. | Long |
Опорная модель (Дополнительный) | Определяет преднастроенную нейронную сеть, которая будет действовать как кодировщик для модели и извлекать представления объектов входного текста в форме векторов фиксированной длины. Затем эти векторы передаются в качестве входных данных в заголовок классификации модели.
| String |
Размер пакета (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
Аргументы модели (Дополнительный) | Дополнительные аргументы для инициализации модели, такие как seq_len для максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. См. аргументы ключевых слоев в документации TextClassifier, чтобы посмотреть список поддерживаемых аргументов модели, которые могут быть использованы. | Value Table |
Скорость обучения (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, то оптимальная скорость обучения будет определена автоматически. | Double |
Процент проверки (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10. | Double |
Завершить, когда модель перестанет улучшаться (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или достигнуто значение параметра Максимальное число эпох.
| Boolean |
Сделать опорную модель обучаемой (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
Удалить теги HTML (Дополнительный) | Определяет, будут ли теги HTML удалены из входного текста.
| Boolean |
Удалить URL (Дополнительный) | Определяет, будут ли адреса URL удалены из входного текста.
| Boolean |
Краткая информация
Обучает модель классификации текста с одной или несколькими метками для назначения преднастроенных категорий или меток для неструктурированного текста.
Использование
Для этого инструмента требуются установленные системы глубокого изучения. Чтобы настроить компьютер на работу в среде глубокого обучения в AllSource, см. раздел Установка сред глубокого обучения для ArcGIS.
Этот инструмент также можно использовать для тонкой настройки существующей обученной модели.
Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.
Входными данными для этого инструмента являются таблица или класс объектов, которые содержат данные обучения, с текстовым полем, где хранится входной текст, и полем метки, где хранятся метки целевого класса.
Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.
Параметры
arcpy.geoai.TrainTextClassificationModel(in_table, text_field, label_field, out_model, {pretrained_model_file}, {max_epochs}, {model_backbone}, {batch_size}, {model_arguments}, {learning_rate}, {validation_percentage}, {stop_training}, {make_trainable}, {remove_html_tags}, {remove_urls})
Имя | Описание | Тип данных |
in_table | Класс объектов или таблица, который содержит текстовое поле с входным текстом для модели и поле меток с метками целевого класса. | Feature Layer; Table View |
text_field | Текстовое поле во входном классе или таблице, содержащее текст, который будет классифицирован моделью. | Field |
label_field [label_field,...] | Текстовое поле во входном классе объектов или таблице, которое содержит метки целевого клсса для обучения модели. В случае классификации текста с несколькими метками укажите более одного текстового поля. | Field |
out_model | Расположение выходной папки, в которой будет храниться обученная модель. | Folder |
pretrained_model_file (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель с подобными классами можно настроить так, чтобы она соответствовала новой модели. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
max_epochs (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться вперед и назад через нейронную сеть один раз. Значение по умолчанию 5. | Long |
model_backbone (Дополнительный) | Определяет преднастроенную нейронную сеть, которая будет действовать как кодировщик для модели и извлекать представления объектов входного текста в форме векторов фиксированной длины. Затем эти векторы передаются в качестве входных данных в заголовок классификации модели.
| String |
batch_size (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
model_arguments [model_arguments,...] (Дополнительный) | Дополнительные аргументы для инициализации модели, такие как seq_len для максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. См. аргументы ключевых слоев в документации TextClassifier, чтобы посмотреть список поддерживаемых аргументов модели, которые могут быть использованы. | Value Table |
learning_rate (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, то оптимальная скорость обучения будет определена автоматически. | Double |
validation_percentage (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10. | Double |
stop_training (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или достигнуто значение параметра max_epochs.
| Boolean |
make_trainable (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
remove_html_tags (Дополнительный) | Определяет, будут ли теги HTML удалены из входного текста.
| Boolean |
remove_urls (Дополнительный) | Определяет, будут ли адреса URL удалены из входного текста.
| Boolean |
Пример кода
Пример скрипта в окне Python для использования функции TrainTextClassificationModel.
# Name: TrainTextClassification.py
# Description: Train a text classifier model to classify text in different classes.
#
# Requirements: ArcGIS Pro Advanced license
# Import system modules
import arcpy
import os
arcpy.env.workspace = "C:/textanalysisexamples/data"
# Set local variables
in_table = "training_data_textclassifier.csv"
out_folder = "c\\textclassifier"
# Run Train Text Classification Model
arcpy.geoai.TrainTextClassificationModel(in_table, out_folder,
max_epochs=2, text_field="Address", label_field="Country", batch_size=16)