Подпись | Описание | Тип данных |
Входная таблица | Класс пространственных объектов или таблица, содержащие текстовое поле с входным текстом для модели и поле надписи, содержащее надписи целевого класса. | Feature Layer; Table View |
Текстовое поле | Текстовое поле во входном классе объектов или таблице, содержащее текст, который будет классифицирован моделью. | Field |
Поле надписи | Текстовое поле во входном классе пространственных объектов или таблице, содержащее надписи целевого класса для обучения модели. В случае классификации текста с несколькими надписями укажите более одного текстового поля. | Field |
Выходная модель | Местоположение выходной папки, в которой будет храниться обученная модель. | Folder |
Файл предварительно обученной модели (Дополнительный) | Предварительно обученная модель, которая будет использоваться для уточнения новой модели. На входе берется файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученная модель с похожими классами может быть уточнена для соответствия новой модели. Предварительно обученная модель должна быть обучена с помощью модели того же типа и базовой моделью, которые будут использоваться для обучения новой модели. | File |
Максимальное число периодов времени (Дополнительный) | Максимальное число эпох, для которых будет обучаться модель. Максимальная эпоха со значением 1 означает, что набор данных будет передан через нейронную сеть вперед и назад один раз. Значение, предлагаемое по умолчанию, равно 5. | Long |
Опорная модель (Дополнительный) | Задает предварительно настроенную нейронную сеть, которая будет использоваться в качестве базовой архитектуры для обучения новой модели и извлекать представления объектов входного текста в виде векторов фиксированной длины. Затем эти векторы передаются в качестве входных в классификационную головную часть модели.
| String |
Размер пакета (Дополнительный) | Число обучающих примеров, которые обрабатываются одновременно. Значение по умолчанию – 2. Увеличение размера пакета может повысить производительность инструмента, но по мере его увеличения используется все больше памяти. При появлении ошибки переполнения памяти задайте меньший размер пакета. | Double |
Аргументы модели (Дополнительный) | Дополнительные аргументы для инициализации модели, такие как максимальная длина последовательности обучающих данных seq_len, которые будут учитываться при обучении модели. Список поддерживаемых аргументов модели, которые можно использовать, приведен в разделе Аргументы ключевых слов в документации по текстовому классификатору TextClassifier. | Value Table |
Скорость обучения (Дополнительный) | Размер шага, указывающий, насколько веса модели будут скорректированы в процессе тренировки. Если значение не задано, оптимальная скорость обучения будет определена автоматически. | Double |
Процент проверки (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10. | Double |
Завершить, когда модель перестанет улучшаться (Дополнительный) | Указывает, будет ли остановлено обучение модели, когда она перестанет улучшаться, или оно продолжится до тех пор, пока не будет достигнуто значение параметра maxEpochs.
| Boolean |
Сделайте базовую основу модели обучаемой (Дополнительный) | Указывает, будут ли заморожены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально задуманы.
| Boolean |
Удалить HTML-теги (Дополнительный) | Указывает, будут ли HTML-теги удалены из входного текста.
| Boolean |
Удалить URLs (Дополнительный) | Указывает, будут ли URL-адреса удалены из входного текста.
| Boolean |
Краткая информация
Обучает модель классификации текста с одной или несколькими надписями для присваивания предварительно заданной категории или надписи неструктурированному тексту.
Использование
Для этого инструмента требуются установленные среды глубокого изучения. Чтобы настроить компьютер на работу в среде глубокого обучения в ArcGIS AllSource, см. раздел Установка сред глубокого обучения для ArcGIS.
Этот инструмент также можно использовать для точной настройки существующей обученной модели.
Чтобы запустить этот инструмент с использованием графического процессора, установите Тип процессора как GPU. Если имеется более одного GPU, можно вместо этого задать GPU ID.
Входными для инструмента являются таблица или класс пространственных объектов, содержащие обучающие данные, с текстовым полем, содержащим входной текст, и полем надписи, содержащим надписи целевого класса.
Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.
Параметры
arcpy.geoai.TrainTextClassificationModel(in_table, text_field, label_field, out_model, {pretrained_model_file}, {max_epochs}, {model_backbone}, {batch_size}, {model_arguments}, {learning_rate}, {validation_percentage}, {stop_training}, {make_trainable}, {remove_html_tags}, {remove_urls})
Имя | Описание | Тип данных |
in_table | Класс пространственных объектов или таблица, содержащие текстовое поле с входным текстом для модели и поле надписи, содержащее надписи целевого класса. | Feature Layer; Table View |
text_field | Текстовое поле во входном классе объектов или таблице, содержащее текст, который будет классифицирован моделью. | Field |
label_field [label_field,...] | Текстовое поле во входном классе пространственных объектов или таблице, содержащее надписи целевого класса для обучения модели. В случае классификации текста с несколькими надписями укажите более одного текстового поля. | Field |
out_model | Местоположение выходной папки, в которой будет храниться обученная модель. | Folder |
pretrained_model_file (Дополнительный) | Предварительно обученная модель, которая будет использоваться для уточнения новой модели. На входе берется файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученная модель с похожими классами может быть уточнена для соответствия новой модели. Предварительно обученная модель должна быть обучена с помощью модели того же типа и базовой моделью, которые будут использоваться для обучения новой модели. | File |
max_epochs (Дополнительный) | Максимальное число эпох, для которых будет обучаться модель. Максимальная эпоха со значением 1 означает, что набор данных будет передан через нейронную сеть вперед и назад один раз. Значение, предлагаемое по умолчанию, равно 5. | Long |
model_backbone (Дополнительный) | Задает предварительно настроенную нейронную сеть, которая будет использоваться в качестве базовой архитектуры для обучения новой модели и извлекать представления объектов входного текста в виде векторов фиксированной длины. Затем эти векторы передаются в качестве входных в классификационную головную часть модели.
| String |
batch_size (Дополнительный) | Число обучающих примеров, которые обрабатываются одновременно. Значение по умолчанию – 2. Увеличение размера пакета может повысить производительность инструмента, но по мере его увеличения используется все больше памяти. При появлении ошибки переполнения памяти задайте меньший размер пакета. | Double |
model_arguments [model_arguments,...] (Дополнительный) | Дополнительные аргументы для инициализации модели, такие как максимальная длина последовательности обучающих данных seq_len, которые будут учитываться при обучении модели. Список поддерживаемых аргументов модели, которые можно использовать, приведен в разделе Аргументы ключевых слов в документации по текстовому классификатору TextClassifier. | Value Table |
learning_rate (Дополнительный) | Размер шага, указывающий, насколько веса модели будут скорректированы в процессе тренировки. Если значение не задано, оптимальная скорость обучения будет определена автоматически. | Double |
validation_percentage (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10. | Double |
stop_training (Дополнительный) | Указывает, будет ли остановлено обучение модели, когда она перестанет улучшаться, или оно продолжится до тех пор, пока не будет достигнуто значение параметра max_epochs.
| Boolean |
make_trainable (Дополнительный) | Указывает, будут ли заморожены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально задуманы.
| Boolean |
remove_html_tags (Дополнительный) | Указывает, будут ли HTML-теги удалены из входного текста.
| Boolean |
remove_urls (Дополнительный) | Указывает, будут ли URL-адреса удалены из входного текста.
| Boolean |
Пример кода
Следующий скрипт окна Python демонстрирует использование функции TrainTextClassificationModel.
# Name: TrainTextClassification.py
# Description: Train a text classifier model to classify text in different classes.
#
# Requirements: ArcGIS Pro Advanced license
# Import system modules
import arcpy
import os
arcpy.env.workspace = "C:/textanalysisexamples/data"
# Set local variables
in_table = "training_data_textclassifier.csv"
out_folder = "c\\textclassifier"
# Run Train Text Classification Model
arcpy.geoai.TrainTextClassificationModel(in_table, out_folder,
max_epochs=2, text_field="Address", label_field="Country", batch_size=16)