Подпись | Описание | Тип данных |
Входные обучающие объекты | Входной класс объектов, который будет использоваться для обучения модели. | Feature Layer; Table View |
Выходная модель | Выходная обученная модель, которая будет сохранена как пакет глубокого обучения (файл .dlpk). | File |
Переменная для прогнозирования | Поле из параметра Входные обучающие объекты, которое содержит значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях. | Field |
Рассматривать переменную как Категориальную (Дополнительный) | Определяет, будет ли значение параметра Переменная для прогнозирования интерпретироваться как категорийная переменная.
| Boolean |
Независимые переменные обучения (Дополнительный) | Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории для параметра Переменная для прогнозирования. Установите флажки для любых переменных, которые представляют классы или категории (такие как земной покров, наличие или отсутствие). | Value Table |
Независимые объекты расстояния обучения (Дополнительный) | Объекты, расстояние до которых от входных обучающих объектов будет оценено автоматически и добавлено как дополнительные независимые переменные. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния обучения до ближайшего Входного обучающего объекта. Поддерживаются точечные и полигональные объекты, а также если входные независимые объекты расстояния обучения являются полигонами или линиями, то атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. | Feature Layer |
Независимые обучающие растры (Дополнительный) | Растры, значения которых будут исключены из растра и станут использоваться как независимые переменные в модели. Каждый слой формирует одну независимую переменную. Для каждого из входных обучающих объектов значение ячейки растра извлекается в именно в этом местоположении. Билинейный пересчет растра используется, если значение растра извлекается из непрерывных растров. Метод ближайшего соседа используется, если значение растра извлекается из категориальных растров. Если значение параметра Входные обучающие объекты содержит полигоны, и вы ввели значение для этого параметра, в модели будет использоваться одно значение растра для каждого полигона. Каждому полигону назначается среднее значение для непрерывных растров и значение большинства для категориальных растров. Отметьте столбец Категориальная для любых растров, которые представляют классы или категории например, почвенно-растительный покров – его наличие или отсутствие. | Value Table |
Общий лимит времени (минуты) (Дополнительный) | Общий лимит времени в минутах, который нужен для обучения модели AutoML. По умолчанию равен 60 (1 час). | Double |
Режим AutoML (Дополнительный) | Определяет цель AutoML и то, насколько интенсивно будет выполняться поиск AutoML.
| String |
Алгоритмы (Дополнительный) | Определяет алгоритмы, которые будут использоваться в ходе обучения. По умолчанию будут использоваться все алгоритмы.
| String |
Процент проверки (Дополнительный) | Процент входных данных, который будет использован для проверки. Значением по умолчанию является 10. | Long |
Выходной отчет (Дополнительный) | Выходной отчет будет создан как файл .html. Если указанный путь не пуст, отчет будет создан в новой папке по указанному пути. Отчет будет содержать подробную информацию о различных моделях, а также сведения о гиперпараметрах, которые использовались во время оценки и производительности каждой модели. Гиперпараметры представляют собой параметры, которые управляют процессом обучения. Они не обновляются в ходе обучения и включают архитектуру модели, скорость обучения, число эпох и др. | File |
Выходная таблица значимости (Дополнительный) | Выходная таблица, содержащая информацию о важности каждой независимой переменной (полей, пространственных объектов и растров), используемых в модели. | Table |
Выходной класс объектов (Дополнительный) | Векторный слой, содержащий прогнозируемые значения самой эффективной модели в векторном слое обучения. Его можно использовать для проверки производительности модели путем визуального сравнения прогнозируемых значений с реальными данными. | Feature Class |
Добавить вложения изображения (Дополнительный) | Указывает, будут ли изображения использоваться как независимые переменные из значения параметра Входные обучающие объекты для обучения мультимодальной или смешанной модели данных. Обучение мультимодальной или смешанной табличной модели данных предполагает использование основ машинного и глубокого обучения в AutoML для обучения на основе нескольких типов форматов данных с помощью одной модели. Входные данные могут представлять собой комбинацию независимых переменных из различных источников данных, таких как текстовые описания, соответствующие изображения и любые дополнительные категориальные и непрерывные переменные.
| Boolean |
Чувствительные атрибуты пространственных объектов (Дополнительный) |
Оценивает и улучшает правильность обученных моделей для табличных данных для классификационных и регрессионных моделей. Установите следующие два компонента для этого параметра:
| Value Table |
Метрика справедливости (Дополнительный) | Задает метрику справедливости, которая будет использоваться для измерения справедливости для задач классификации и регрессии, которые применяются при поиске по сетке для выбора наилучшей справедливой модели.
| String |
Краткая информация
Тренирует модель глубокого обучения путем создания конвейеров обучения и автоматизации большей части процесса обучения. Это включает в себя исследовательский анализ данных, выбор объектов, разработку обработку объектов, выбор модели, настройку гиперпараметров и обучение модели. Его выходные данные включают показатели производительности лучшей модели на обучающих данных, а также обученный пакет модели глубокого обучения .dlpk, которую можно использовать в качестве входной в инструменте Прогнозирование с помощью AutoML для прогнозирования нового набора данных.
Использование
Вы должны установить соответствующую среду глубокого обучения для Python в ArcGIS AllSource.
Время, необходимое инструменту для создания обученной модели, зависит от следующих факторов:
- Объем данных, предоставленных при обучении.
- Значение параметра Режим AutoML.
По умолчанию таймер для всех режимов установлен на 60 минут. Независимо от того, какой объем данных используется в обучении, опция Базовый параметра Режим AutoML для поиска оптимальной модели не займет более 60 минут. Процесс подгонки будет выполнен, как только появится оптимальная модель. Для работы опции Расширенный может потребоваться больше времени, поскольку в нее входят дополнительные задачи по обработке объектов, выборке данных и настройке гиперпараметров. Помимо новых объектов, полученных путем объединения нескольких входных объектов, инструмент также создает новые пространственные объекты с именами от zone3_id до zone7_id. Эти новые объекты будут извлечены из информации о местоположении входных данных, и будут использоваться для обучения лучших моделей. Подробнее о новых пространственных объектах см. статью Как работает AutoML. Если объем обучаемых данных велик, все комбинации моделей могут не успеть оцениться в течение 60 минут. В таких случаях оптимальной моделью будет считаться наиболее эффективная модель, определенная в течение 60 минут. Затем вы можете либо использовать эту модель, либо повторно запустить инструмент с более высоким значением параметра Общий лимит времени (минуты) parameter value.
Для использования растров в качестве независимых переменных необходима лицензия ArcGIS Spatial Analyst extension.
Значение параметра Выходной отчет представляет собой файл в формате HTML, который позволяет просматривать информацию в рабочем каталоге.
Первая страница выходного отчета содержит ссылки на каждую из оцененных моделей и показывает их производительность в наборе данных проверки, а также время, затраченное на их обучение. На основе метрики оценки в отчете показана наиболее эффективная выбранная модель.
RMSE — это метрика оценки по умолчанию для задач регрессии, а Logloss — метрика по умолчанию для задач классификации. В выходном отчете доступны следующие метрики:
- Классификация —AUC, Logloss, F1, Точность, Средняя точность
- Регрессия—MSE, RMSE, MAE, R2, MAPE, коэффициент Спирмена, коэффициент Пирсона
Когда вы щелкаете комбинацию моделей, то отображаются сведения об обучении для этой комбинации моделей, включая кривые обучения, кривые важности переменных, используемые гиперпараметры и т. д.
Примеры использования этого инструмента включают обучение модели ежегодного производства солнечной энергии на основе погодных факторов, обучение модели прогнозирования урожая с использованием связанных переменных и обучение модели прогнозирования стоимости дома.
Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.
Чтобы использовать параметр Добавить вложения изображений, подготовьте значение параметра Входные обучающие объекты для вложений изображений, выполнив следующее:
- Убедитесь, что векторный слой включает поле с путями к файлам изображений для каждой записи.
- Включите вложения для векторного слоя с помощью инструмента Включить вложения.
- Используйте инструмент Добавить вложение, чтобы задать поле пути к изображению и добавить его как вложение изображения в векторный слой.
Параметры
arcpy.geoai.TrainUsingAutoML(in_features, out_model, variable_predict, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {total_time_limit}, {autoML_mode}, {algorithms}, {validation_percent}, {out_report}, {out_importance}, {out_features}, {add_image_attachments}, {sensitive_feature}, {fairness_metric})
Имя | Описание | Тип данных |
in_features | Входной класс объектов, который будет использоваться для обучения модели. | Feature Layer; Table View |
out_model | Выходная обученная модель, которая будет сохранена как пакет глубокого обучения (файл .dlpk). | File |
variable_predict | Поле из значения параметра in_features, которое содержит значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях. | Field |
treat_variable_as_categorical (Дополнительный) | Определяет, будет ли значение параметра variable_predict интерпретироваться как категорийная переменная.
| Boolean |
explanatory_variables [explanatory_variables,...] (Дополнительный) | Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории параметра variable_predict. Укажите значение Истина ("<name_of_variable> true") для любых переменных, которые представляют классы или категории (например, почвенно-растительный покров – его наличие или отсутствие). | Value Table |
distance_features [distance_features,...] (Дополнительный) | Объекты, расстояние до которых от входных обучающих объектов будет оценено автоматически и добавлено как дополнительные независимые переменные. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния обучения до ближайшего Входного обучающего объекта. Поддерживаются точечные и полигональные объекты, а также если входные независимые объекты расстояния обучения являются полигонами или линиями, то атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. | Feature Layer |
explanatory_rasters [explanatory_rasters,...] (Дополнительный) | Растры, значения которых будут исключены из растра и станут использоваться как независимые переменные в модели. Каждый слой формирует одну независимую переменную. Для каждого из входных обучающих объектов значение ячейки растра извлекается в именно в этом местоположении. Билинейный пересчет растра используется, если значение растра извлекается из непрерывных растров. Метод ближайшего соседа используется, если значение растра извлекается из категориальных растров. Если значение параметра in_features содержит полигоны, и вы ввели значение для этого параметра, в модели будет использоваться одно значение растра для каждого полигона. Каждому полигону назначается среднее значение для непрерывных растров и значение большинства для категориальных растров. Укажите значение Истина, используя "<name_of_raster> true" для любых растров, которые представляют классы или категории например, почвенно-растительный покров – его наличие или отсутствие. | Value Table |
total_time_limit (Дополнительный) | Общий лимит времени в минутах, который нужен для обучения модели AutoML. По умолчанию равен 60 (1 час). | Double |
autoML_mode (Дополнительный) | Определяет цель AutoML и то, насколько интенсивно будет выполняться поиск AutoML.
| String |
algorithms [algorithms,...] (Дополнительный) | Определяет алгоритмы, которые будут использоваться в ходе обучения.
По умолчанию будут использоваться все алгоритмы. | String |
validation_percent (Дополнительный) | Процент входных данных, который будет использован для проверки. Значением по умолчанию является 10. | Long |
out_report (Дополнительный) | Выходной отчет будет создан как файл .html. Если указанный путь не пуст, отчет будет создан в новой папке по указанному пути. Отчет будет содержать подробную информацию о различных моделях, а также сведения о гиперпараметрах, которые использовались во время оценки и производительности каждой модели. Гиперпараметры представляют собой параметры, которые управляют процессом обучения. Они не обновляются в ходе обучения и включают архитектуру модели, скорость обучения, число эпох и др. | File |
out_importance (Дополнительный) | Выходная таблица, содержащая информацию о важности каждой независимой переменной (полей, пространственных объектов и растров), используемых в модели. | Table |
out_features (Дополнительный) | Векторный слой, содержащий прогнозируемые значения самой эффективной модели в векторном слое обучения. Его можно использовать для проверки производительности модели путем визуального сравнения прогнозируемых значений с реальными данными. | Feature Class |
add_image_attachments (Дополнительный) | Указывает, будут ли изображения использоваться как независимые переменные из значения параметра in_features для обучения мультимодальной или смешанной модели данных. Обучение мультимодальной или смешанной табличной модели данных предполагает использование основ машинного и глубокого обучения в AutoML для обучения на основе нескольких типов форматов данных с помощью одной модели. Входные данные могут представлять собой комбинацию независимых переменных из различных источников данных, таких как текстовые описания, соответствующие изображения и любые дополнительные категориальные и непрерывные переменные.
| Boolean |
sensitive_feature [sensitive_feature,...] (Дополнительный) |
Оценивает и улучшает правильность обученных моделей для табличных данных для классификационных и регрессионных моделей. Установите следующие два компонента для этого параметра:
| Value Table |
fairness_metric (Дополнительный) | Задает метрику справедливости, которая будет использоваться для измерения справедливости для задач классификации и регрессии, которые применяются при поиске по сетке для выбора наилучшей справедливой модели.
| String |
Пример кода
Это пример использования функции TrainUsingAutoML.
# Name: TrainUsingAutoML.py
# Description: Train a machine learning model on feature or tabular data with
# automatic hyperparameter selection.
# Import system modules
import arcpy
import os
# Set local variables
datapath = "path_to_data"
out_path = "path_to_trained_model"
in_feature = os.path.join(datapath, "train_data.gdb", "name_of_data")
out_model = os.path.join(out_path, "model.dlpk")
# Run Train Using AutoML Model
arcpy.geoai.TrainUsingAutoML(in_feature, out_model, "price", None,
"bathrooms #;bedrooms #;square_fee #", None, None,
60, "BASIC")