Подпись | Описание | Тип данных |
Входные обучающие объекты | Входной класс объектов, который будет использоваться для обучения модели. | Feature Layer; Table View |
Выходная модель | Выходная обученная модель, которая будет сохранена как пакет глубокого обучения (файл .dlpk). | File |
Переменная для прогнозирования | Поле из значения параметра Входные обучающие объекты, которое содержит значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях. | Field |
Рассматривать переменную как Категориальную (Дополнительный) | Определяет, будет ли значение параметра Переменная для прогнозирования интерпретироваться как категорийная переменная.
| Boolean |
Независимые переменные обучения (Дополнительный) | Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории для параметра Переменная для прогнозирования. Установите флажки для любых переменных, которые представляют классы или категории (такие как земной покров, наличие или отсутствие). | Value Table |
Независимые объекты расстояния обучения (Дополнительный) | Объекты, расстояние до которых от входных обучающих объектов будет оценено автоматически и добавлено как дополнительные независимые переменные. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния обучения до ближайшего Входного обучающего объекта. Поддерживаются точечные и полигональные объекты, а также если входные независимые объекты расстояния обучения являются полигонами или линиями, то атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. | Feature Layer |
Независимые обучающие растры (Дополнительный) | Растры, значения которых будут исключены из растра и станут использоваться как независимые переменные в модели. Каждый слой формирует одну независимую переменную. Для каждого из входных обучающих объектов значение ячейки растра извлекается в именно в этом местоположении. Билинейный пересчет растра используется, если значение растра извлекается из непрерывных растров. Метод ближайшего соседа используется, если значение растра извлекается из категориальных растров. Если параметр Входные обучающие объекты содержит полигоны, и вы отметили этот параметр, в модели будет использоваться одно значение растра для каждого полигона. Каждому полигону назначается среднее значение для непрерывных растров и значение большинства для категориальных растров. Отметьте столбец Категориальная для любых растров, которые представляют классы или категории например, почвенно-растительный покров – его наличие или отсутствие. | Value Table |
Общий лимит времени (минуты) (Дополнительный) | Общий лимит времени в минутах, который нужен для обучения модели AutoML. По умолчанию равен 60 (1 час). | Double |
Режим AutoML (Дополнительный) | Определяет цель AutoML и то, насколько интенсивно будет выполняться поиск AutoML.
| String |
Алгоритмы (Дополнительный) | Определяет алгоритмы, которые будут использоваться в ходе обучения. По умолчанию будут использоваться все алгоритмы.
| Multivalue |
Процент проверки (Дополнительный) | Процент входных данных, который будет использован для проверки. Значением по умолчанию является 10. | Long |
Выходной отчет (Дополнительный) | Выходной отчет будет создан как файл .html. Если указанный путь не пуст, отчет будет создан в новой папке по указанному пути. Отчет будет содержать подробную информацию о различных моделях, а также сведения о гиперпараметрах, которые использовались во время оценки и производительности каждой модели. Гиперпараметры представляют собой параметры, которые управляют процессом обучения. Они не обновляются в ходе обучения и включают архитектуру модели, скорость обучения, число эпох и др. | File |
Выходная таблица значимости (Дополнительный) | Выходная таблица, содержащая информацию о важности каждой независимой переменной (полей, пространственных объектов и растров), используемых в модели. | Table |
Выходной класс пространственных объектов (Дополнительный) | Векторный слой, содержащий прогнозируемые значения самой эффективной модели в векторном слое обучения. Его можно использовать для проверки производительности модели путем визуального сравнения прогнозируемых значений с реальными данными. | Feature Class |
Краткая информация
Обучает модель глубокого обучения путем создания конвейеров обучения и автоматизации большей части процесса обучения. Это включает в себя исследовательский анализ данных, выбор объектов, разработку обработку объектов, выбор модели, настройку гиперпараметров и обучение модели. Его выходные данные включают показатели производительности лучшей модели на обучающих данных, а также обученный пакет модели глубокого обучения .dlpk, которую можно использовать в качестве входной в инструменте Прогнозирование с помощью AutoML для прогнозирования нового набора данных.
Использование
Вы должны установить соответствующую среду глубокого обучения для Python в AllSource.
Время, необходимое инструменту для создания обученной модели, зависит от следующих факторов:
- Объем данных, предоставленных при обучении.
- Значение параметра Режим AutoML.
По умолчанию таймер для всех режимов установлен на 60 минут. Независимо от того, какой объем данных используется в обучении, опция Базовый для поиска оптимальной модели не займет более 60 минут. Процесс подгонки будет выполнен, как только появится оптимальная модель. Для работы опции Расширенный может потребоваться больше времени, поскольку в нее входят дополнительные задачи по обработке объектов, выборке данных и настройке гиперпараметров. Помимо новых объектов, полученных путем объединения нескольких входных объектов, инструмент также создает новые пространственные объекты с именами от zone3_id до zone7_id. Эти новые объекты будут извлечены из информации о местоположении входных данных, и будут использоваться для обучения лучших моделей. Подробнее о новых пространственных объектах см. статью Как работает AutoML. Если объем обучаемых данных велик, все комбинации моделей могут не успеть оцениться в течение 60 минут. В таких случаях оптимальной моделью будет считаться наиболее эффективная модель, определенная в течение 60 минут. Затем вы можете либо использовать эту модель, либо повторно запустить инструмент с более высоким значением параметра Общий лимит времени (минуты) parameter value.
Для использования растров в качестве независимых переменных необходима лицензия ArcGIS Spatial Analyst extension.
Значение параметра Выходной отчет представляет собой файл в формате HTML, который позволяет просматривать информацию в рабочем каталоге.
Первая страница выходного отчета содержит ссылки на каждую из оцененных моделей и показывает их производительность в наборе данных проверки, а также время, затраченное на их обучение. На основе метрики оценки в отчете показана наиболее эффективная выбранная модель.
RMSE — это метрика оценки по умолчанию для задач регрессии, а Logloss — метрика по умолчанию для задач классификации. В выходном отчете доступны следующие метрики:
- Классификация —AUC, Logloss, F1, Точность, Средняя точность
- Регрессия—MSE, RMSE, MAE, R2, MAPE, коэффициент Спирмена, коэффициент Пирсона
Когда вы щелкаете комбинацию моделей, то отображаются сведения об обучении для этой комбинации моделей, включая кривые обучения, кривые важности переменных, используемые гиперпараметры и т. д.
Возможные варианты использования этого инструмента включают обучение модели ежегодного производства солнечной энергии на основе погодных факторов, обучение модели прогнозирования урожая с использованием связанных переменных и обучение модели прогнозирования стоимости дома.
Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.
Параметры
arcpy.geoai.TrainUsingAutoML(in_features, out_model, variable_predict, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {total_time_limit}, {autoML_mode}, {algorithms}, {validation_percent}, {out_report}, {out_importance}, {out_features})
Имя | Описание | Тип данных |
in_features | Входной класс объектов, который будет использоваться для обучения модели. | Feature Layer; Table View |
out_model | Выходная обученная модель, которая будет сохранена как пакет глубокого обучения (файл .dlpk). | File |
variable_predict | Поле из значения параметра in_features, которое содержит значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях. | Field |
treat_variable_as_categorical (Дополнительный) | Определяет, будет ли значение параметра variable_predict интерпретироваться как категорийная переменная.
| Boolean |
explanatory_variables [explanatory_variables,...] (Дополнительный) | Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории параметра variable_predict. Передайте значение True ('name_of_variabler',True) для любых переменных, которые представляют классы или категории (такие как земной покров, наличие или отсутствие). | Value Table |
distance_features [distance_features,...] (Дополнительный) | Объекты, расстояние до которых от входных обучающих объектов будет оценено автоматически и добавлено как дополнительные независимые переменные. Расстояния будут вычислены от каждого из входных Независимых объектов расстояния обучения до ближайшего Входного обучающего объекта. Поддерживаются точечные и полигональные объекты, а также если входные независимые объекты расстояния обучения являются полигонами или линиями, то атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. | Feature Layer |
explanatory_rasters [explanatory_rasters,...] (Дополнительный) | Растры, значения которых будут исключены из растра и станут использоваться как независимые переменные в модели. Каждый слой формирует одну независимую переменную. Для каждого из входных обучающих объектов значение ячейки растра извлекается в именно в этом местоположении. Билинейный пересчет растра используется, если значение растра извлекается из непрерывных растров. Метод ближайшего соседа используется, если значение растра извлекается из категориальных растров. Если параметр in_features содержит полигоны, и вы отметили этот параметр, в модели будет использоваться одно значение растра для каждого полигона. Каждому полигону назначается среднее значение для непрерывных растров и значение большинства для категориальных растров. Укажите значение Истина, используя "<name_of_raster> true" для любых растров, которые представляют классы или категории например, почвенно-растительный покров – его наличие или отсутствие. | Value Table |
total_time_limit (Дополнительный) | Общий лимит времени в минутах, который нужен для обучения модели AutoML. По умолчанию равен 60 (1 час). | Double |
autoML_mode (Дополнительный) | Определяет цель AutoML и то, насколько интенсивно будет выполняться поиск AutoML.
| String |
algorithms [algorithms,...] (Дополнительный) | Определяет алгоритмы, которые будут использоваться в ходе обучения.
По умолчанию будут использоваться все алгоритмы. | Multivalue |
validation_percent (Дополнительный) | Процент входных данных, который будет использован для проверки. Значением по умолчанию является 10. | Long |
out_report (Дополнительный) | Выходной отчет будет создан как файл .html. Если указанный путь не пуст, отчет будет создан в новой папке по указанному пути. Отчет будет содержать подробную информацию о различных моделях, а также сведения о гиперпараметрах, которые использовались во время оценки и производительности каждой модели. Гиперпараметры представляют собой параметры, которые управляют процессом обучения. Они не обновляются в ходе обучения и включают архитектуру модели, скорость обучения, число эпох и др. | File |
out_importance (Дополнительный) | Выходная таблица, содержащая информацию о важности каждой независимой переменной (полей, пространственных объектов и растров), используемых в модели. | Table |
out_features (Дополнительный) | Векторный слой, содержащий прогнозируемые значения самой эффективной модели в векторном слое обучения. Его можно использовать для проверки производительности модели путем визуального сравнения прогнозируемых значений с реальными данными. | Feature Class |
Пример кода
Это пример использования функции TrainUsingAutoML.
# Name: TrainUsingAutoML.py
# Description: Train a machine learning model on feature or tabular data with
# automatic hyperparameter selection.
# Import system modules
import arcpy
import os
# Set local variables
datapath = "path_to_data"
out_path = "path_to_trained_model"
in_feature = os.path.join(datapath, "train_data.gdb", "name_of_data")
out_model = os.path.join(out_path, "model.dlpk")
# Run Train Using AutoML Model
arcpy.geoai.TrainUsingAutoML(in_feature, out_model, "price", None,
"bathrooms #;bedrooms #;square_fee #", None, None,
60, "BASIC")