Классификация на основе леса и регрессия

Значок инструмента Доступен в аналитике больших данных.

Инструмент Классификация на основе леса и регрессия Инструмент Классификация на основе леса и регрессия создает модели и строит прогнозы при помощи адаптации метода контролируемого машинного обучения произвольного леса Лео Бреймана. Прогнозы могут быть выполнены для категориальных перемененных (классификация) и непрерывных переменных (регрессия). Описательные переменные могут иметь вид полей в атрибутивной таблице обучающих объектов. В дополнение к проверке производительности модели на основании обучающих данных, по объектам можно выполнять прогнозы.

Схема рабочего процесса

Схема рабочего процесса инструмента Классификация на основе леса и регрессия

Примеры

  • Имеются данные данные о наличии морских водорослей, а также ряд экологических независимых переменных, в дополнение к расстояниям до заводов вверх по течению и крупных портов. Появление морских водорослей в будущем может быть предсказано на основе прогнозов для тех же экологических независимых переменных.
  • Стоимость жилья можно спрогнозировать на основе цен домов, которые были проданы в текущем году. Цена домов при продаже, а также информация о числе спален, расстоянии до школ, близости автомагистралей, среднем доходе и числе преступлений могут быть использованы для прогноза продажной стоимости аналогичных домов.
  • Имеется информация об уровне свинца в крови детей и ID налогового участка их домов в сочетании с атрибутами уровня участка, такими как возраст дома, атрибутами уровня переписи населения, такими как доход и уровень образования, и национальный набор данных, отражающий выброс токсичных веществ свинца и его соединений. Можно спрогнозировать риск воздействия свинца для участков без данных об уровне свинца в крови. Эти прогнозы риска могут стимулировать политические и образовательные программы в области.

Примечания по использованию

  • Инструмент можно настроить для использования одного из двух методов обработки:
    • Метод 1 — если предоставлены только целевые (обучающие) данные, инструмент применяет подгонку модели и оценку производительности. Эту опцию можно использовать для оценки производительности конфигурации при изучении различных независимых переменных и настроек инструментов.
    • Метод 2 — у вас уже есть подходящая модель и независимые переменные, выполните дополнительную настройку, чтобы добавить присоединенные (прогнозируемые) данные. После настройки присоединенных данных инструмент будет прогнозировать значения зависимой переменной в присоединенных (прогнозируемых) данных на основании сопоставления независимых переменных.
  • Используйте параметр Переменная для прогноза, чтобы выбрать поля из целевого потока входных данных (обучающие данные), представляющего явление, которое вы моделируете. Используйте параметр Независимые переменные для выбора одного или нескольких полей, представляющих независимые переменные Целевого потока входных данных (обучающие данные). Поля должны быть числовыми и содержать диапазоны значений. Объекты, у которых отсутствуют значения в зависимых или описательных переменных, будут исключены из анализа. Если вы хотите изменить нулевые значения, используйте инструмент Вычислить поле перед обновлением значений.
  • Описательные переменные могут поступать из полей и должны содержать разнообразные значения. Если независимая переменная является категориальной, следует включить опцию Категориальная. Категориальные независимые переменные ограничены 60 уникальными значениями, хотя меньшее количество категорий улучшит производительность модели. Для данного размера данных, чем больше категорий содержит переменная, тем больше вероятность того, что она будет доминировать в модели и приведет к менее эффективным результатам прогнозирования.
  • При сопоставлении описательных переменных целевое поле (обучающие данные) и поле соединения (поле прогноза) должны быть одного типа (например, поле типа double в поле обучения должно сопоставляться с полем типа double в поле прогноза).
  • Модели на основе леса не выполняют экстраполяцию, они могут только классифицировать или прогнозировать диапазон значений, на которых обучалась модель. Обучение модели с помощью обучающих объектов и описательных переменных, которые находятся в пределах диапазона целевых объектов и переменных. Инструмент не сработает, если в независимых переменных прогнозирования, не представленных в обучающих объектах, существуют категории.
  • Значение по умолчанию для параметра Число деревьев равно 100. Увеличение числа деревьев в модели леса приведет к более точному прогнозированию модели, но модель будет дольше вычисляться.
  • Инструмент Классификация на основе леса и регрессия также создает выходные объекты и результаты диагностики. Выходные слои объектов имеют схему отображения, применяемую автоматически. Полное объяснение каждых выходных данных доступно ниже в разделе Выходной слой.
  • Пространственные объекты, имеющие одно или более значений null или пустые строковые значения в полях прогноза или в описательных полях, будут исключены из результатов. Если вам нужно изменить значения, используйте инструмент Вычислить поле.
  • Более подробно о работе этого инструмента и инструмента геообработки ArcGIS Pro, на котором он основан, см. в разделе Как работает инструмент Классификация на основе леса и регрессия.

Параметры

ПараметрОписаниеТип данных

Целевой входной слой (обучающие данные)

Обучающие объекты, используемые для построения модели. Поток данных, содержащий параметр Переменная для прогноза и поля независимых переменных обучения.

Объекты

Присоединяемый входной слой (прогнозируемые данные)

(Дополнительный)

Объекты прогнозирования, для которых будет предсказываться переменная, будут предсказываться на основе указанных независимых переменных и параметров.

Это дополнительный параметр. Если не указано, инструмент Классификация на основе леса и регрессия будет выполнять подгонку модели для максимальной производительности на основании обучающих данных.

Объекты

Переменная для прогноза

Переменная из параметра потока Целевой входной слой (обучающие объекты), содержащая значения, используемые для обучения модели. Это поле содержит известные (обучающие) значения переменной, которые будут использованы для прогнозирования в неизвестных местоположениях.

FieldName

Рассматривать переменную как категориальную

Указывает, будет ли переменная для прогнозирования категориальной переменной.

  • Отмечено – переменная для прогнозирования является категориальной переменной, и инструмент будет выполнять классификацию.
  • Не отмечено – переменная для прогнозирования является непрерывной, и инструмент будет выполнять регрессию. Это установка по умолчанию.

Boolean

Независимые переменные

Список полей, представляющих независимые переменные, которые помогут прогнозировать значения или категории Переменных для прогнозирования. Включите опцию Категориальная для любых переменных, которые представляют классы или категории (например, почвенно-растительный покров – его наличие или отсутствие).

ExplanatoryVariablesConfiguration

Сопоставление независимой переменной (только прогноз)

Сопоставляет выбранные имена полей независимых переменных в целевой (обучающей) схеме с соответствующими именами полей в присоединяемой (прогнозируемой) схеме.

Это дополнительный параметр. Сопоставления независимых переменных указываются, только если заданы присоединенные (прогнозируемые) данные.

ExplanatoryVariableMappings

Число деревьев

Число деревьев для создания модели леса. Увеличение числа деревьев приведет к более точному прогнозированию модели, но модель будет дольше вычисляться. По умолчанию число деревьев равно 100.

Целочисленные

Минимальный размер листа

Минимальное число наблюдений, необходимых для сохранения листа (т.е. конечного объекта на дереве, без дальнейшего разбиения). Минимум по умолчанию для регрессии составляет 5, а для классификации – 1. Для очень больших данных увеличение этих значений увеличит время работы инструмента.

Целочисленные

Максимальная глубина дерева

Максимальное число разбиений, которые будут сделаны вниз по дереву. При большей максимальной глубине будет создано больше разбиений, что может увеличить вероятность чрезмерной подгонки модели. Значение по умолчанию управляется данными и зависит от числа созданных деревьев и количества включенных переменных.

Целочисленные

Размер выборки

Процент Целевого входного слой (обучающих объектов), используемых для каждого дерева решений. По умолчанию это 100 процентов от данных. Выборка для каждого дерева берется произвольно из двух третей указанных данных.

Каждое дерево решений в лесу создается с с использованием случайной выборки или поднабора (примерно две трети) доступных обучающих данных. Понижение процента входных данных для каждого дерева решений увеличит скорость инструмента при работе с очень большими наборами данных.

Целочисленные

Случайные переменные

Число независимых переменных, используемых для создания каждого дерева решений.

Каждое из деревьев решений в лесу создается с использованием случайного поднабора заданных независимых переменных. Увеличение числа переменных, используемых для создания каждого дерева решений, увеличит вероятность чрезмерной подгонки модели, особенно, если имеется одна или больше доминирующая переменная. Обычно используется квадратный корень от общего числа описательных переменных, если Переменная для прогнозирования является числовой, или разделите общее число описательных переменных на 3, если переменная для прогнозирования является категорийной.

String

Процент для проверки

Процент (от 10 до 50) от входных обучающих объектов, чтобы сохранить их как тестовый набор данных для проверки. Обучение модели будет происходить без этого произвольного поднабора данных, и значения наблюдений для этих объектов будут сравниваться с прогнозируемыми значениями. Значение по умолчанию – 10 процентов.

Целочисленные

Выходной слой

Инструмент Классификация на основе леса и регрессия производит множество выходных данных. Суммарная информация по модели Классификации на основе леса и регрессии и статистические сводки доступны на странице информации элемента выходного векторного слоя, я также в журналах анализа.

При реализации метода 1 выше для обучения модели для оценки производительности модели (только данные обучения, предоставленные инструменту) инструмент выдает следующие два результата:

  • Выходные обучающие объекты - содержит все обучающие объекты (целевая схема), использованные в создаваемой модели, а также все независимые переменные модели. Также они содержат прогнозы для всех объектов, использованных для обучения модели, что может быть полезно при оценке эффективности созданной модели.
  • Итоговые сообщения инструмента - сообщения, которые помогают понять производительность созданной модели. В сообщения входит информация о характеристиках модели, не вошедших в набор ошибках, значимости переменных и диагностика проверки. Чтобы получить доступ к сводным результатам, просмотрите журналы анализа или страницу сведений о выходном элементе векторного слоя, где также доступна сводная информация.

При реализации метода 2 выше, чтобы соответствовать модели и прогнозировать значения (данные обучения и прогнозирования, предоставленные инструменту), инструмент выдает следующие два выходных результата:

  • Выходные прогнозируемые объекты - слой результатов прогноза. Прогнозы применяются к слою для прогнозирования (прогноз значений для данных съемы соединения), используя модель, сгенерированную из обучающего слоя.
  • Итоговые сообщения инструмента - сообщения, которые помогают понять производительность созданной модели. В сообщения входит информация о характеристиках модели, не вошедших в набор ошибках, значимости переменных и диагностика проверки. Чтобы получить доступ к сводным результатам, просмотрите журналы анализа или страницу сведений о выходном элементе векторного слоя, где также доступна сводная информация.

Советы и ограничения

Поддерживается единый поток данных для обучающих данных и единый поток данных для данных прогнозирования.