Подпись | Описание | Тип данных |
Входная таблица | Класс объектов или таблица, который содержит текстовое поле с входным текстом для модели и поле меток с преобразованным текстом. | Feature Layer; Table View |
Поле текста | Текстовое поле во входном классе или таблице, содержащее входной текст, который будет преобразован моделью. | Field |
Поле меток | Текстовое поле во входном классе объектов или таблице, которое содержит преобразованный текст для обучения модели. | Field |
Выходная модель | Расположение выходной папки, в которой будет храниться обученная модель. | Folder |
Файл предварительно обученной модели (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель, которая выполняет аналогичную задачу, можно дополнительно настроить, чтобы она соответствовала обучающим данным. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
Максимальное число периодов времени (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться вперед и назад через нейронную сеть один раз. Значение по умолчанию 5. | Long |
Опорная модель (Дополнительный) | Указывает предварительно настроенную нейронную сеть, которая будет использоваться в качестве архитектуры для обучения новой модели.
| String |
Размер пакета (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
Аргументы модели (Дополнительный) | Дополнительные аргументы для инициализации модели, такие как seq_len для максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. См. аргументы ключевых слоев в документации SequenceToSequence, чтобы посмотреть список поддерживаемых аргументов модели, которые могут быть использованы. | Value Table |
Скорость обучения (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, то оптимальная скорость обучения будет получена автоматически. | Double |
Процент проверки (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10. | Double |
Завершить, когда модель перестанет улучшаться (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или достигнуто значение параметра Максимальное число эпох.
| Boolean |
Сделать опорную модель обучаемой (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
Удалить теги HTML (Дополнительный) | Определяет, будут ли теги HTML удалены из входного текста.
| Boolean |
Удалить URL (Дополнительный) | Определяет, будут ли адреса URL удалены из входного текста.
| Boolean |
Краткая информация
Обучает модель преобразования текста для преобразования, перевода или суммирования текста.
Более подробно о том, как работает инструмент Преобразовать текст
Использование
Для этого инструмента требуются установленные системы глубокого изучения. Чтобы настроить компьютер на работу в среде глубокого обучения в AllSource, см. раздел Установка сред глубокого обучения для ArcGIS.
Этот инструмент также можно использовать для тонкой настройки существующей обученной модели.
Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.
Входными данными для этого инструмента являются таблица или класс объектов, которые содержат данные обучения, с текстовым полем, где хранится входной текст, и полем метки, где хранится преобразованный текст.
Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.
Параметры
arcpy.geoai.TrainTextTransformationModel(in_table, text_field, label_field, out_model, {pretrained_model_file}, {max_epochs}, {model_backbone}, {batch_size}, {model_arguments}, {learning_rate}, {validation_percentage}, {stop_training}, {make_trainable}, {remove_html_tags}, {remove_urls})
Имя | Описание | Тип данных |
in_table | Класс объектов или таблица, который содержит текстовое поле с входным текстом для модели и поле меток с преобразованным текстом. | Feature Layer; Table View |
text_field | Текстовое поле во входном классе или таблице, содержащее входной текст, который будет преобразован моделью. | Field |
label_field | Текстовое поле во входном классе объектов или таблице, которое содержит преобразованный текст для обучения модели. | Field |
out_model | Расположение выходной папки, в которой будет храниться обученная модель. | Folder |
pretrained_model_file (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель, которая выполняет аналогичную задачу, можно дополнительно настроить, чтобы она соответствовала обучающим данным. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
max_epochs (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться вперед и назад через нейронную сеть один раз. Значение по умолчанию 5. | Long |
model_backbone (Дополнительный) | Указывает предварительно настроенную нейронную сеть, которая будет использоваться в качестве архитектуры для обучения новой модели.
| String |
batch_size (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
model_arguments [model_arguments,...] (Дополнительный) | Дополнительные аргументы для инициализации модели, такие как seq_len для максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. См. аргументы ключевых слоев в документации SequenceToSequence, чтобы посмотреть список поддерживаемых аргументов модели, которые могут быть использованы. | Value Table |
learning_rate (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, то оптимальная скорость обучения будет получена автоматически. | Double |
validation_percentage (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10. | Double |
stop_training (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или достигнуто значение параметра max_epochs.
| Boolean |
make_trainable (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
remove_html_tags (Дополнительный) | Определяет, будут ли теги HTML удалены из входного текста.
| Boolean |
remove_urls (Дополнительный) | Определяет, будут ли адреса URL удалены из входного текста.
| Boolean |
Пример кода
Пример скрипта в окне Python для использования функции TrainTextTransformationModel.
# Name: TrainTextTransformation.py
# Description: Train a sequence-to-sequence model to translate text from English to German.
#
# Requirements: ArcGIS Pro Advanced license
# Import system modules
import arcpy
import os
# Set local variables
in_table = "training_data.csv"
out_folder = "c\\texttransformer"
# Run Train Text Transformation Model
arcpy.geoai.TrainTextTransformationModel(in_table, out_folder, max_epochs=2,
text_field="input", label_field="target", batch_size=16)