Как работает Прогнозирование только присутствия (MaxEnt)

Инструмент Прогнозирование только присутствия (MaxEnt) использует метод максимальной энтропии (MaxEnt) для оценки вероятности присутствия явления. Инструмент использует точки известных местоположений и независимые переменные в виде полей, растров или объектов расстояния, чтобы обеспечить оценку присутствия в изучаемой области. Вы можете использовать обученную модель для прогнозирования присутствия в различных данных, если известны соответствующие независимые переменные. В отличие от других методов, которые либо предполагают, либо явно требуют заданных местоположений отсутствия явления, Прогнозирование только присутствия может использоваться в задачах прогнозирования, когда известны только местоположения присутствия явления.

Обзорная схема работы инструмента Прогнозирование только присутствия (MaxEnt)

Возможное применение

Несмотря на то, что приведенные примеры описывают моделирование присутствия видов в экологических и природоохранных целях, проблемы прогнозирования присутствия охватывают множество областей и приложений:

  • Исследователь дикой природы собрал полевые данные о местоположениях присутствия определенного вида растения. Ему необходимо оценить присутствие данного вида на более широкой территории. Используя известные местоположения присутствия и предоставив базовые факторы в виде растров, он может смоделировать присутствие вида и создать карту предполагаемых мест, где вид с наибольшей вероятностью может быть обнаружен.
  • Исследователь хочет понять, как повлияет изменение климата на среду обитания уязвимого вида. Он моделирует присутствие с помощью известных местоположений присутствия и ряда независимых переменных, включая различные факторы, связанные с климатом, такие как температура и осадки. Используя растровые поверхности прогнозируемых характеристик изменения климата, исследователь моделирует предполагаемое распределение вида, как следствие климатических изменений, наблюдаемых в независимых переменных, получая прогнозируемую среду обитания вида, отражающую прогнозируемые последствия изменения климата.
  • Аналитик по предотвращению последствий наводнений хочет оценить вероятность наводнения в изучаемой области после урагана. В дополнение к аэрофотоснимкам высокого разрешения, собранным во время события, для моделирования наводнения аналитик использует пространственно-распределенные физико-географические и социально-экономические характеристики в сочетании с краудсорсинговыми данными. Аналитик использует эту модель, чтобы определить, где людям, скорее всего, потребуется экстренная помощь в случае урагана (Мобли и др., 2019).
  • Эпидемиологи моделируют вспышки новых инфекционных заболеваний. В качестве предикторов модели они используют существующие известные местоположения распространения патогенов и такие экологические факторы, как температура, осадки, земельный покров, стандартизованный индекс различия растительного покрова (NDVI) и продолжительность светового дня. Модель используется для создания предварительной поверхности риска, которая отражает благоприятные факторы, способствующие возникновению новых инфекционных заболеваний (Ду и др., 2014).

MaxEnt

Одним из аспектов решения задач пространственного анализа является моделирование и прогнозирование событий в определенном географическом регионе. Несмотря на то, что приведенные примеры описывают моделирование присутствия видов в экологических и природоохранных целях, проблемы прогнозирования присутствия охватывают множество областей и приложений.

В некоторых случаях данные о присутствии записываются как количество событий присутствия в прямоугольных ячейках: каждое наблюдение увеличивает количество событий в своем местоположении, и для моделирования этого количества можно использовать различные способы моделирования, например, метод Пуассона инструмента Обобщенная линейная регрессия. В других случаях точные данные о присутствии и отсутствии записываются через определенные промежутки времени в известных местоположениях, например, станциях мониторинга качества воздуха, регистрирующих вредный для здоровья уровень концентрации озона. В этих случаях моделирование присутствия и отсутствия представляет собой задачу бинарной классификации, для решения которой можно использовать различные методы, например, логистическую регрессию.

В случае моделирования экологических видов и других экологических областей, где присутствие события регистрируется часто, а отсутствие - редко, нехватка явных данных об отсутствии затрудняет моделирование присутствия и отсутствия с помощью методов мультиклассового прогнозирования.

MaxEnt не предполагает и не требует данных об отсутствии. MaxEnt — это метод широкого назначения для прогнозирования или предположения при наличии неполной информации (Phillips et al. 2006). Учитывая набор известных местоположений присутствия и заданные независимые переменные, описывающие изучаемую область, MaxEnt сравнивает условия местоположений присутствия и изучаемой области, чтобы спрогнозировать поверхность вероятности присутствия.

По своей сути MaxEnt работает с тремя основными входными данными:

  • Известные местоположения точек присутствия.
  • Изучаемая область.
  • Независимые переменные или ковариации, описывающие факторы окружающей среды, которые могут иметь отношение к присутствию в изучаемой области.

Изучаемая область определяет область, в которой возможно присутствие, и часто представлена набором местоположений, где присутствие неизвестно. Эти местоположения также известны как фоновые точки, и метод MaxEnt использует их для сопоставления условий местоположений присутствия и изучаемой области для прогнозирования поверхности вероятности присутствия.

Поверхность вероятности присутствия может принимать различные формы, и MaxEnt выбирает форму, которая больше всего похожа на среду, из которой она была выведена, уменьшая при этом все другие предположения (или максимизируя ее энтропию). “Она согласуется со всем, что известно, но тщательно избегает допущения чего-либо неизвестного.“ (Джейнс, 1990).

В дополнение к собственному методу моделирования MaxEnt включает в себя этапы подготовки входных данных, преобразования независимых переменных, подготовки выходных данных и проверки модели, что делает его надежным методом моделирования только присутствия явления.

Использование инструмент Прогнозирование только присутствия (MaxEnt)

Инструмент Прогнозирование только присутствия включает аспекты подготовки данных, моделирования, выбора переменных и рабочих процессов прогнозирования MaxEnt. В этом разделе содержится важная информация о каждом параметре, которая поможет вам создавать более подходящие модели.

Укажите известные местоположения присутствия и фоновые точки

Прогнозирование только присутствия требует, чтобы входные данные представляли известные местоположения присутствия. Параметр Входные точечные объекты используется для указания существующего набора данных с этими местоположениями.

Входные точечные объекты не содержат фоновых точек

Если ваши входные точечные объекты не включают фоновые точки, вы можете оставить параметр Содержит фоновые точки не отмеченным.

Автоматическое создание фоновых точек с помощью ячеек растра

Когда параметр Содержит фоновые точки не отмечен, инструмент использует центроиды ячеек пересекающихся значений параметра Независимые обучающие растры в изучаемой области для автоматического создания фоновых точек.

Автоматическое создание фоновых точек с помощью ячеек растра

Вы можете использовать параметр Выходные обученные объекты, чтобы создать выходные данные, включающие созданные инструментом фоновые точки.

Входные точечные объекты содержат фоновые точки

Если ваши входные точечные объекты содержат фоновые точки, вы можете использовать параметры Содержит фоновые точки и Поле индикатора присутствия со значениями поля, обозначающими каждое местоположение как присутствие (1) или фон (0).

Использование фоновых точек во Входных точечных объектах

Отношение фоновых точек и точек присутствия оказывает существенное влияние на результаты прогнозирования. Независимо от того, предоставлены ли фоновые точки в ваших входных точечных объектах или инструмент создает их для вас, рекомендуется протестировать и сравнить классификационную диагностику для ваших моделей с использованием разного количества фоновых точек. Вы можете использовать параметр Пространственное прореживание, чтобы уменьшить количество фоновых точек в анализе. Дополнительные сведения см. в разделах Определение изучаемой области и Уменьшение систематической ошибки выборки с помощью пространственного прореживания ниже.

Примечание:

Для создания модели инструменту требуется как минимум две точки присутствия и две фоновые точки в обучающих данных.

Указание независимых переменных

В дополнение к известным точкам присутствия и фоновым точкам для создания модели прогнозирования инструмент использует независимые переменные. Существует три способа задания независимых переменных: использование растров, использование полей во входных точечных объектах и использование объектов расстояний. Для растров и полей независимые переменные могут быть непрерывными или категориальными. Для категориальных независимых переменных инструменту требуется минимум три точки данных на категорию.

Три типа независимых переменных: растр, пространственный объект и поля

Использование независимых переменных из растров

Вы можете использовать растры для представления условий местности, которые могут быть полезными предикторами присутствия события. Например, вид растений может сильно зависеть от определенного диапазона высот, поэтому вы можете использовать растр высот, чтобы связать значения высот с местоположениями растений в модели.

Отметьте Категориальный, если растры представляют категориальные данные, такие как классы землепользования.

Необходимо использовать независимые переменные из растров, когда входные точечные объекты не включают фоновые точки, и каждая ячейка в области исследования будет использоваться для создания фоновой точки.

Размер ячеек значения параметра Независимые обучающие растры существенно влияет на время обработки: чем выше разрешение, тем больше время обработки. По этой причине инструмент имеет ограничение в 100 миллионов ячеек в области интереса. Вы можете использовать инструмент Изменить разрешение, чтобы уменьшить пространственное разрешение растра, что приведет к уменьшению количества ячеек и сокращению времени обработки.

Использование независимых переменных из полей

Используйте параметр Независимые переменные обучения, чтобы указать поля, атрибуты которых используются в качестве независимых переменных при моделировании присутствия. Эта опция доступна только в том случае, если входные точечные объекты включают фоновые точки и отмечен параметр Содержит фоновые точки.

Используйте отметку Категориальный, чтобы указать, является ли поле в параметре Независимые переменные обучения категориальным.

Использование независимых переменных из объектов расстояния

Используйте параметр Независимые объекты расстояния обучения, чтобы указать объекты, близость которых к объектам входных точек будет использоваться в качестве независимых переменных. Эта опция доступна только в том случае, если входные точечные объекты включают фоновые точки и отмечен параметр Содержит фоновые точки.

Объекты расстояния используются для автоматического создания независимых переменных путем вычисления расстояния от входных точечных объектов до ближайшего предоставленного объекта. Если значением параметра Независимые объекты расстояния обучения являются полигонами или линиями, атрибуты расстояния рассчитываются как расстояние между ближайшими сегментами пары объектов. Расстояния рассчитываются по-разному для полигонов и линий; подробности см. в разделе Как инструменты близости вычисляют расстояние.

Параметр Независимые объекты расстояния обучения недоступен, если входные точечные объекты не включают фоновые точки из-за соображений производительности. Однако вы можете использовать объекты расстояний при использовании точек только присутствия, если создадите растр расстояний с помощью инструмента Накопление расстояния. Растры расстояний содержат ячейки со значениями, описывающими расстояние между ячейкой и ближайшим объектом в указанном источнике данных. После создания растров расстояний вы можете использовать их в качестве входных данных параметра Независимые обучающие растры для входных точечных объектов только присутствия.

Выполнение подготовки входных данных модели

Инструмент включает этапы подготовки данных, предоставляемых как входные точечные объекты и независимые переменные. Подготовка данных включает преобразование переменных с использованием базисных функций, указание области изучения и снижение смещения выборки с помощью пространственного прореживания.

Преобразование независимых переменных с помощью базисных функций

В качестве возможных независимых переменных в MaxEnt используются характеристики ландшафта. В некоторых случаях условия, способствующие присутствию, могут иметь сложные отношения с возникновением события. Чтобы помочь включить в модель более сложные формы отношений, инструмент преобразует (или расширяет) эти кандидаты в независимые переменные, используя базисные функции.

Вы можете выбрать несколько базисных функций в одном запуске инструмента, используя параметр Расширения независимой переменной (базисные функции), после чего в модели будут использоваться все преобразованные версии независимых переменных. Наиболее эффективные переменные выбираются с помощью регуляризации - метода выбора переменных, который уравновешивает плюсы и минусы между пригодностью и сложностью модели.

Существует пять типов базисных функций, которые учитывают разные аспекты при моделировании сложных явлений.

  • Исходный (Линейный) — применяет линейную базисную функцию к входным переменным и может использоваться, когда нет необходимости в применении преобразования. Это является опцией по умолчанию.

    Пример использования — использование инструмента с целью моделирования присутствия видов, которым требуется доступ к водному объекту. Использование линейной базисной функции для переменной, отражающей расстояние до ручья, позволяет модели оценить линейную зависимость между присутствием вида и расстоянием до ручья. Полученный коэффициент можно использовать для интерпретации предельной линейной зависимости, прежде чем пытаться использовать более сложные формы отношений.

    Используйте Исходную (Линейную) базисную функцию, когда в модели приоритетом является возможность интерпретации. Поскольку преобразование не происходит, интерпретировать коэффициенты в контексте их влияния на вероятность присутствия проще всего с помощью линейного метода.

    Линейная базисная функция

    Примечание:

    Категориальные независимые переменные позволяют использовать только Исходную (Линейную) базисную функцию. Когда применяются как непрерывные, так и категориальные независимые переменные, вы можете выбрать несколько базисных функций, но к категориальным переменным будет применена только Исходная (Линейная) базисная функция.

  • В квадрате (Квадратическая) — преобразование каждого значения независимой переменной путем возведения его в квадрат, что приводит к квадратичной зависимости между независимой переменной и откликом присутствия. В некоторых областях применения, например, для распространения видов, реакции видов на условия окружающей среды часто бывают нелинейными и унимодальными (Остин, 2002, 2007), и квадратичная форма может лучше всего отражать эти отношения.

    В некоторых случаях, когда квадратичная зависимость отражает отношение независимой переменной к отклику события, данные выборки во входных точечных объектах могут представлять только один аспект параболической зависимости. Например, тропические виды могут иметь параболическую зависимость от температуры: чрезвычайно низкие температуры приводят к низкой вероятности присутствия, тропические температуры приводят к высокой вероятности, а чрезвычайно высокие температуры снова приводят к низкой вероятности. Если данные выборки для этого вида не включают низкие температуры, зависимость может быть представлена линейной зависимостью (Мероу и др., 2013).

    Квадратическая базисная функция

  • Попарное взаимодействие (Продукт) — выполняет попарное умножение независимых переменных. Например, если выбраны три переменные, A, B и C, эта базисная функция даст преобразованные переменные, соответствующие результатам A x B, A x C и B x C. Эти преобразованные переменные обычно известны как условия взаимодействия и могут быть полезным представлением сложных отношений, зависящих от условий нескольких переменных. Например, условие взаимодействия, включающее как доход, так и расстояние до магазина, может быть более сильным предиктором постоянного покупателя, чем если бы каждая переменная использовалась сама по себе.

    Хотя преобразованные независимые переменные метода Попарное взаимодействие (Продукт) могут быть полезны при моделировании взаимодействия различных условий окружающей среды, интерпретируемость модели может стать более сложной, поскольку условия взаимодействия затрудняют разделение влияния одной независимой переменной по сравнению с другой. Это наиболее важно при оценке коэффициента каждой независимой переменной и графиков частичного отклика.

    Базисная функция Продукт

    Примечание:

    Опция Попарное взаимодействие (Продукт) доступна, только если выбрано несколько непрерывных независимых переменных.

  • Дискретный шаг (Порог) — преобразует непрерывную независимую переменную в двоичную независимую переменную путем применения ступенчатой функции: значениям ниже порога присваивается значение 0, а значениям выше порога присваивается значение 1.

    Параметр Число узлов определяет количество создаваемых порогов, которые затем используются для создания нескольких преобразованных двоичных независимых переменных, использующих каждый порог. Пороги применяются между минимальным и максимальным значениями независимой переменной для создания сегментов равной длины.

    Примером является использование Прогнозирование только присутствия с целью изучения влияния высоких температур на присутствие явления (например, температуры выше 32 градусов Цельсия или нет). Используя пороговую базисную функцию, непрерывная переменная температур разделяется на значения 1 (выше 32 градусов) и 0 (ниже 32 градусов) и позволяет интерпретировать влияние каждого условия на присутствие явления.

    Пороговая базисная функция

  • Сглаженный шаг (Петля) — преобразовывает непрерывную независимую переменную в два сегмента, статический сегмент (все нули или единицы) и линейную функцию (возрастающую или убывающую), разделенную порогом, называемым узлом. Это можно выполнить с помощью прямой петли (назначьте нули между минимумом и узлом, а затем примените возрастающую линейную функцию между узлом и максимумом) или обратной петли (начните с возрастающей линейной функции между минимумом и узлом, а затем примените единицы для всех значений между узлом и максимумом).

    Параметр Число узлов определяет количество преобразований независимых переменных, в результате чего получается (Число узлов — 1) * 2 преобразованных независимых переменных. Согласно этой формуле, число узлов - это количество равных интервалов между минимальным и максимальным значениями независимой переменной (число узлов минус единица), а в результате создаются переменные, преобразованные с помощью прямой петли, и переменные, преобразованные с помощью обратной петли, (умножение на 2).

    Пример использования — запуск инструмента с целью изучения влияния колебаний высоких температур (например: сохранение всех значений выше 32 градусов Цельсия и игнорирование всех значений ниже). Базисная функция петли позволит переменной сохранить вариацию выше узла (применяя линейную функцию для всех значений выше 32 градусов), уменьшая при этом шум от всех данных ниже узла (преобразуя все значения ниже 32 градусов в 0).

    Опции Сглаженный шаг (Петля) и Дискретный шаг (Порог) являются взаимоисключающими кусочными функциями; когда одна опция выбрана, другая не может быть выбрана. При выборе одной из них рекомендуется протестировать запуск модели несколько раз с разными значениями параметра Число узлов, чтобы понять, как эти пороговые значения помогают или мешают модели.

    Базовая функция Петля

    Инструмент использует несколько преобразованных версий каждой независимой переменной при попытке смоделировать сложные условия, влияющие на присутствие явления. Например, модель, использующая среднегодовую температуру для оценки вероятности присутствия вида пустынной черепахи, может использовать различные расширения переменных для описания сложной взаимосвязи между температурой и средой обитания пустынной черепахи.

    Часть частичного ответа отношения среднегодовой температуры и присутствия вида

    Приведенный выше график частичного ответа отображает предельный отклик вероятности присутствия в зависимости от изменения среднегодовой температуры. Если остальные факторы не изменяются, вероятность присутствия будет следующей:

    • Увеличивается линейно по мере увеличения среднегодовой температуры от 0 до 15 градусов Цельсия
    • Постепенно снижается от 15 до 21 градуса по Цельсию
    • Быстро снижается при среднегодовых значениях температуры выше 21 градуса Цельсия

    Инструмент использует несколько базисных функций для создания расширений независимых переменных, которые лучше всего представляют этот тип отношений, выбирая наиболее полезные преобразования посредством процесса, называемого упорядочиванием.

Упорядочивание

MaxEnt может иметь склонность к подгонке обучающих данных. Чтобы уменьшить эту проблему, метод применяет форму упорядочивания, которая игнорирует большие коэффициенты независимой переменной, заставляя модель сосредоточиться на наиболее важных независимых переменных (Филипс и др., 2006 г.).

Концепция упорядочивания заключается в том, что бюджет коэффициентов разделяется между всеми независимыми переменными, представленными в модели. Если необходимо уменьшить коэффициенты для удовлетворения этого бюджета, некоторые независимые переменные с низкими коэффициентами сводятся к нулю и удаляются из модели. В результате модель сохраняет меньше независимых переменных, оставляя только те, которые имеют достаточно высокие коэффициенты, чтобы остаться даже при ограниченном бюджете коэффициентов. При меньшем количестве независимых переменных модель с меньшей вероятностью перегружается и ее легче интерпретировать. Следуя принципу ограниченности, самое простое объяснение явления обычно является наилучшим (Филипс и др., 2006).

Дополнительным эффектом упорядочивания является помощь в решении проблемы мультиколлинеарности: по мере добавления связанных независимых переменных общее значение коэффициента, которое включала бы одна переменная, теперь распределяется между несколькими коррелированными переменными, что приводит к более низким коэффициентам для мультиколлинеарных переменных. Поскольку упорядочивание снижает оставшиеся значения коэффициентов, мультиколлинеарные переменные коэффициенты, скорее всего, будут сведены к нулю и удалены из модели.

Определение изучаемой области

Изучаемая область должна быть указана, если фоновые точки не являются частью ваших входных точечных объектов и определяют, где возможно присутствие. Вы можете использовать три опции параметра Изучаемая область, чтобы задать изучаемую область:

  • Выпуклая оболочка — использует выпуклую оболочку входных точечных объектов.

    Изучаемая область Выпуклая оболочка

  • Экстент растра — экстент пересечения растров, указанных в параметре Независимые обучающие растры.

    Изучаемая область Экстента растра

  • Полигон изучаемой области — использует пользовательскую границу класса полигональных объектов, указанного в параметре Полигон изучаемой области.

    Изучаемая область Полигон изучаемой области

Изучаемая область оказывает существенное влияние на результат модели: экстент изучаемой области определяет, какие ячейки растра независимых обучающих растров будут использоваться для создания фоновых точек. Фоновые точки определяют условия среды, при которых присутствие возможно, и противопоставляются условиям среды, в которых присутствие наблюдается. Результаты прогнозирования будут различаться по мере изменения соотношения фоновых точек и точек присутствия.

Область изучения определяет экстент обучающих данных для модели. Входные точечные объекты в этом сценарии представляют собой место, где зафиксировано присутствие явления, а изучаемая область представляет место, где присутствие возможно (хотя и не обязательно зафиксировано). Таким образом, рекомендуется, чтобы изучаемая область для анализа базировалась на планируемом рабочем процессе сбора точек присутствия. Например, если в ходе сбора данных о присутствии был тщательно осмотрен район площадью 100 квадратных километров, полигон границ этого района может использоваться в качестве изучаемой области.

В ряде случаев допускается использование разных областей изучения для одного набора входных точечных объектов, что позволяет изучить разнообразную динамику присутствия явления (Элит и др., 2011, 51–52).

Уменьшение смещения выборки с помощью пространственного прореживания

Смещение выборки возникает, когда области выборки, представленные во входных точечных объектах, демонстрируют различные пространственные кластеры. Например, сбор данных обычно проводят ближе к дорогам, тропам и другим условиям, удобным для сбора данных на местности. Эффект смещения выборки заключается в том, что данные, указывающие на присутствие явления, смешиваются с данными, указывающими на присутствие подходящих условий для сбора данных. Смещение выборки присуще большинству наборов данных только присутствия и минимизируется только если соблюдены самые строгие условия сбора данных.

Пространственное прореживание — это метод уменьшения эффекта смещения выборки в модели; он удаляет точки присутствия и фона из обучающих данных, исходя из заданного минимального расстояния между точками. Так как количество точек в пределах указанного расстояния между ними уменьшается, области, в которых имеется пространственная перегруженность точками выборки уменьшается в обучающих данных в модели.

Пространственное прореживание входных точек

Чтобы использовать пространственное прореживание, отметьте параметр Применить пространственное прореживание и укажите значения для следующих двух параметров:

  • Минимальное расстояние до ближайшего соседа — определяет, насколько близко могут быть две точки друг от друга.
  • Число итераций прореживания — определяет, сколько раз предпринимается попытка удаления точек для поиска подходящего решения. После того, как будет предпринято это указанное число запусков пространственного прореживания, запуск с наибольшим количеством оставшихся точек будет использоваться для обучения модели.

Пространственное прореживание проводится как для точек присутствия, так и для фоновых точек, даже если фоновые точки создаются инструментом в случае использования данных только присутствия. Пространственное прореживание, применяемое к фоновым точкам, происходит отдельно от пространственного прореживания, применяемого к точкам присутствия, что может привести к тому, что точка присутствия окажется ближе к фоновой точке, чем минимальное расстояние до ближайшего соседа.

К точкам присутствия и фоновым точкам применяется отдельное пространственное прореживание

Когда фоновые точки создаются инструментом с использованием ячеек растра, пространственное прореживание применяется путем пересчета растра по значению параметра Минимальное расстояние до ближайшего соседа и использования центроидов полученных ячеек растра в качестве пространственно прореженных фоновых точек.

Пространственное прореживание может быть применено для уменьшения проблем, возникающих при использовании растров с большим количеством ячеек, поскольку оно уменьшает количество фоновых точек. Независимо от разрешения растра, приблизительно одинаковое число точек фона останется после прореживания, исходя из указанного минимального расстояния ближайшего соседства.

Пространственное прореживание не применяется, когда значение минимального расстояния до ближайшего соседа меньше ближайшего расстояния между любыми двумя точками (независимо, используются ли точки из входных точечных объектов или получены из центроидов ячеек растра), поскольку данные удовлетворяют критериям пространственного прореживания.

Настройка модели

Инструмент содержит различные параметры для настройки модели. Хотя для запуска инструмента не требуется использовать каждый параметр, понимание того, как работает модель и как используется каждый параметр, может оказать существенное влияние на применение инструмента в рабочих процессах моделирования присутствия.

Установка относительного веса присутствия к фону

Инструмент использует параметр Относительный вес присутствия к фону, чтобы указать, как фоновые точки учитываются моделью.

Значение по умолчанию 100 указывает, что точки присутствия во входных точечных объектах являются основным источником информации о присутствии; присутствие в каждой фоновой точке неизвестно, и их можно использовать только для представления характеристик ландшафта, где присутствие возможно, но неизвестно. Значение 1 указывает, что фоновые точки равнозначны точкам присутствия; и так как они не являются местоположениями присутствия, но в равной степени значимы, они представляют известные местоположения отсутствия. Фоновые точки, как местоположения отсутствия, можно использовать так же и в сочетании с местоположениями присутствия для создания модели бинарной классификации, которая оценивает как присутствие, так и отсутствие.

Это значение оказывает сильное влияние на то, как работает модель, и на итоговые прогнозы инструмента. Если значение Относительный вес присутствия к фону близко к 100, модель применяет традиционную форму метода MaxEnt. Если значение равно 1, модель одинаково обрабатывает каждую точку присутствия и фона и похожа на логистическую регрессию.

При выборе подходящих значений от 1 до 100 для параметра Относительный вес присутствия к фону рекомендуется полагаться на опыт предметной области, поскольку они могут использоваться для моделирования распространенности события в изучаемой области.

Использование функций связей и порогов вероятности присутствия для интерпретации выходных данных

Промежуточный результат модели (не возвращаемый инструментом) — это относительная частота встречаемости (ROR) для каждого местоположения. Этот промежуточный результат не представляет вероятность присутствия явления; он соответствует относительной пригодности каждого местоположения в изучаемой области для возможности присутствия. Чтобы преобразовать эти необработанные значения в значения, которые можно интерпретировать как вероятности присутствия и прогнозы присутствия, используйте параметр Преобразование вероятности присутствия (функция связи), чтобы задать функцию связи, и параметр Предельное значение вероятности присутствия, чтобы задать предельное значение.

Для параметра Преобразование вероятности присутствия (функция связи) доступны две опции:

  • C-log-log — использует формулу 1-exp(-exp(энтропия + необработанный результат)) для расчета вероятности присутствия в каждом местоположении. Используется по умолчанию.

  • Logistic — использует формулу 1/(1+exp(-энтропия - необработанный результат)) для расчета вероятности присутствия в каждом местоположении.

Функции связи связаны с неоднозначностью, которая может быть частью зафиксированных точек присутствия. Используйте опцию C-log-log, когда связь местоположения и присутствия явления ясна и однозначна, например, когда точки присутствия представляют местоположения неподвижных видов растений. Используйте опцию Logistic, когда связь местоположения и присутствия явления неоднозначна или ее трудно определить, например, когда точки присутствия представляют местонахождение мигрирующих видов животных.

Вероятность присутствия, вычисленная функциями связи, определяется как значение от 0 до 1. Используйте параметр Предельное значение вероятности присутствия, чтобы указать предельное значение вероятности, которое классифицирует местоположение как присутствие. Значение по умолчанию — 0,5, значение больше или равное 0,5 классифицируется как присутствие. Вы можете задать пользовательское значение, указав значение от 0,01 до 0,99.

Результаты классификации с использованием предельного значения сравниваются с известными точками присутствия во входных точечных объектах, а диагностика предоставляется в сообщениях геообработки и в выходных обученных объектах.

Указание выходных данных обучения модели

Инструмент организует выходные данные в выходные данные обучения и прогнозирования. Основное различие заключается в том, что результаты обучения соответствуют данным, которые использовались при обучении и выборе модели, а результаты прогнозирования соответствуют данным, которые модель еще не использовала.

Выходные обученные объекты

Используйте параметр Выходные обученные объекты, чтобы создать класс объектов, содержащий точки, использованные при обучении модели. В этих выходных данных каждой обученной точке присваивается символ на основании результата сравнения классификации из модели и наблюдаемой классификации.

Символы и легенда для выходных обученных объектов

Точки, включенные в выходные обученные объекты, не обязательно совпадают с точками во входных точечных объектах, поскольку при использовании данных только присутствия создаются фоновые точки, а пространственное прореживание может уменьшить количество точек, используемых при обучении модели.

Три диаграммы включены в выходные данные обученных объектов:

  • Процент результатов классификации — используется для оценки доли правильных прогнозов с помощью наблюдаемой классификации в обучающих объектах.

    Диаграмма Процент результатов классификации

  • Количество присутствий и фона по диапазонам вероятности — используется для сравнения распределения значений вероятности присутствия модели с классификациями наблюдаемого присутствия и фона.

    Диаграмма Количество присутствий и фона по диапазонам вероятности

  • Распределение вероятности присутствия по классификации — используется для просмотра распределения диапазонов вероятности присутствия по категориям классификации.

    Диаграмма Распределение вероятности присутствия по классификации

Выходной обученный растр

Вы можете использовать Выходной обученный растр для создания растра, который классифицирует вероятность присутствия в каждой ячейке экстента входных обучающих данных по четырем категориям. Это доступно только при использовании входных точечных объектов, не включающих фоновые точки.

Экстент выходного обученного растра соответствует пересечению независимых обучающих растров в изучаемой области. Размер ячейки по умолчанию — это максимальный размер ячейки входных растровых данных, который вы можете изменить с помощью параметра среды Размер ячейки.

Символы и легенда выходного обученного растра

Таблица кривой ответов и таблица чувствительности

Вы можете использовать параметр Выходная таблица кривой ответов, чтобы создать таблицу с диаграммами, визуализирующими предельное влияние каждой независимой переменной на прогнозирование присутствия. Это также известно как частичная зависимость или частичный ответ присутствия явления на каждую независимую переменную.

Диаграмма Частичный ответ непрерывных переменных состоит из нескольких диаграмм; каждая диаграмма визуализирует влияние изменения значений каждой независимой переменной на вероятность присутствия при сохранении всех остальных факторов неизменными.

Диаграмма Частичный ответ непрерывных переменных

Диаграмма Частичный ответ категориальных переменных представляет собой простую столбчатую диаграмму, отображающую предельный ответ присутствия для каждой категории независимых переменных.

Диаграмма Частичный ответ категориальных переменных

Параметр Выходная таблица чувствительности предоставляет таблицу, включающую две диаграммы:

  • Диаграмма Частота пропусков — используется для оценки доли известных точек присутствия, которые были ошибочно классифицированы моделью как точки отсутствия, с использованием диапазона пороговых значений вероятности присутствия от нуля до единицы.

    Диаграмма Частота пропусков

  • Диаграмма График ROC — используется для сравнения доли правильно классифицированных известных точек присутствия, известно как чувствительность модели, и доли фоновых точек, которые были классифицированы как присутствие. Как и на диаграмме Частота пропусков, это сравнение выполняется в диапазоне пороговых значений вероятности присутствия от нуля до единицы.

    Диаграмма График ROC

Применение модели для прогнозирования

Кроме обучения модели инструмент Прогнозирование только присутствия используется для применения обученных моделей для оценки присутствия в новых местоположениях с использованием параметров, находящихся в категории параметров Опции прогнозирования.

Настройка инструмента для прогнозирования с использованием новых входных объектов прогнозирования

Параметр Входные объекты прогнозирования задает местоположения, где инструмент будет применять обученную модель для оценки присутствия. Параметр Выходные объекты прогнозирования задает выходные данные, которые будут содержать результаты прогнозирования для значения параметра Входные объекты прогнозирования.

Для каждой независимой переменной, используемой при обучении модели, вы должны сопоставить независимую переменную в форме поля, объекта расстояния или растра, используя параметры Сопоставить независимые переменные, Сопоставить объекты расстояния и Сопоставить независимые растры.

Диапазоны значений, встречающиеся в прогнозируемых данных, могут отличаться от диапазонов значений, найденных в обучающих данных. Например, растр высот для обучения модели может включать значения от 400 до 1000 метров, но соответствующий растр высот для прогнозируемых местоположений имеет области с высотами от 200 до 1200 метров. Хотя рекомендуется поддерживать диапазоны независимых переменных в местоположениях прогнозирования в пределах диапазонов, найденных в обучающих данных, параметр Разрешить прогнозирование вне диапазонов данных позволяет модели экстраполировать и предоставлять оценки даже для этих местоположений. Используйте сообщения геообработки инструмента, чтобы диагностировать, превышают ли диапазоны независимых переменных диапазоны обучающих данных.

Вы также можете использовать параметр Выходной растр прогнозирования, чтобы создать растр, содержащий результаты прогнозирования модели, примененные к каждой ячейке экстента пересечения растров, указанных в параметре Сопоставить независимые растры. Использование этого параметра обеспечивает прогнозируемую поверхность по экстенту условий окружающей среды, доступных для прогнозируемых местоположений.

Символы и легенда выходного растра прогнозирования

Выходной растр прогнозирования отличается от выходного обучающего растра тем, что обучающий растр создается только для экстента обучающих данных, которые использовались в модели, а растр прогнозирования создается для экстента входных объектов прогнозирования и пересечения соответствующих независимых растров.

Проверка модели

Инструмент предоставляет опции, помогающие проверить и оценить модель. Рекомендуется использовать эти опции в сочетании с параметрами Выходная таблица кривой ответов и Выходная таблица чувствительности для оценки качества и применимости модели.

Использование пересчета и перекрестной проверки

Параметры Схема пересчета и Число групп в параметре Опции проверки указывают, будет ли применяться перекрестная проверка в модели.

Если выбрана Произвольная схема пересчета, инструмент разделит обучающие данные на указанное число групп.

Схема пересчета с использованием случайных групп

Затем инструмент запустит итерацию по каждой группе: выбрав данные текущей группы в качестве поднабора проверки и данные всех оставшихся групп в качестве поднабора обучающих данных.

Проверка и обучение поднаборов для первой группы

Инструмент создает модель, используя обучающий поднабор для этой группы, и прогнозирует присутствие для каждого объекта проверки. Затем результаты прогноза сравниваются с известными данными присутствия и фона в поднаборе проверки.

Инструмент продолжает этот процесс итерирования, позволяя каждой группе взять на себя роль поднабора проверки. Этот процесс широко известен как K-кратная перекрестная проверка, где K соответствует количеству групп.

Перекрестная проверка по каждой группе

Для каждой группы записывается процент правильно классифицированных объектов присутствия и процент фоновых объектов, классифицированных как потенциальное присутствие. Диагностика каждой группы помогает показать, как модель будет работать при прогнозировании присутствия в неизвестных местоположениях. Эти диагностики включаются в сообщения геообработки инструмента.

Диагностики перекрестной проверки в сообщениях геообработки

Инструменту требуется по крайней мере две точки присутствия и две фоновые точки в обучающем поднаборе для каждой группы, чтобы создать модель для перекрестной проверки. Если случайно выбранные инструментом группы не дают по крайней мере двух точек присутствия и двух фоновых точек в обучающих поднаборах каждой группы, инструмент будет пытаться перестраивать группы до тех пор, пока это требование не будет выполнено или пока число попыток не достигнет 10. Если после 10 попыток использования предоставленных данных инструмент по-прежнему не может выполнить требование для перекрестной проверки, инструмент выдаст сообщение о том, что перекрестная проверка невозможна.

Сообщения геообработки

Важным результатом работы инструмента является отчет, включенный в сообщения геообработки. Отчет содержит важную информацию об обученной модели, в том числе таблицу параметров модели, диагностики сравнения модели, коэффициенты регрессии, сводку по категориям (если какие-либо независимые переменные являются категориальными), сводку перекрестной проверки (для произвольной схемы пересчета) и диагностику диапазонов независимых переменных для обучающих данных и данных прогнозирования (если использовались входные объекты прогнозирования).

Сообщения о характеристиках модели

В таблице Коэффициенты регрессии показаны независимые переменные, используемые при обучении модели после упорядочивания. Каждая запись включает имя независимой переменной, соответствующее базисное расширение и итоговый коэффициент. Имена независимых переменных указывают на характер базисного расширения; например, переменная продукта, сложенная из переменной Elevation и переменной ClimaticWaterDeficit , называется product(ELEVATION, CLIMACTICWATERDEFICIT). Коэффициенты округляются до четырех знаков после запятой.

Сообщения о коэффициентах регрессии

Таблица Краткая информация перекрестной проверки включает идентификатор каждой группы перекрестной проверки, количество наблюдений в ее обучающих поднаборах проверки, процент наблюдаемых объектов присутствия, спрогнозированных как присутствие, и процент наблюдаемых фоновых объектов, спрогнозированных как фон.

Диагностики перекрестной проверки в сообщениях геообработки

Таблица Диагностика диапазона независимых переменных включает каждую предоставленную независимую переменную (в форме поля, объекта расстояния или растра), их минимальное и максимальное значения, найденные в обучающих данных, и, если используются входные объекты прогнозирования, минимальное и максимальное значения, найденные в данных прогнозирования.

Сообщения диагностики диапазона независимых переменных

Рекомендации и примеры

Есть ряд полезных примеров и рекомендаций, которые помогут при использовании этого инструмента.

Мультиколлинеарность

Хотя упорядочивание в данном инструменте смягчает влияние мультиколлинеарности независимых переменные, все же рекомендуется определить и уменьшить количество коррелированных независимых переменных. Для анализа мультиколлинеарности используются матрицы диаграмм, Исследовательская регрессия и Уменьшение измерений.

Категорийные данные

Инструмент разбивает входные обучающие данные на группы для выполнения перекрестной проверки, когда для параметра Схема пересчета выбрана опция Произвольно. В этом случае любые категории с менее чем тремя точками данных в результирующих группах остановят перекрестную проверку, а предупреждающее сообщение уведомит вас о том, что метод пересчета не может быть применен. Запуск инструмента с более низким значением параметра Число групп снижает вероятность возникновения этой проблемы, увеличивая размер каждой группы и увеличивая вероятность того, что категории будут частью каждой группы.

Пространственное прореживание

Используйте параметр Выходные обучающие объекты, чтобы изучить результаты пространственного прореживания значения Входные точечные объекты.

Чтобы построить модель с использованием пространственного прореживания и применить модель ко всем входным точечным объектам, укажите одни и те же объекты в параметрах Входные точечные объекты и Входные объекты прогнозирования.

Предельное значение вероятности

Чтобы выбрать подходящее значение для параметра Предельное значение вероятности присутствия, используйте диаграммы Частота пропусков и График ROC.

На диаграмме Частота пропусков показано, как значение параметра Предельное значение вероятности присутствия влияет на количество неправильно классифицированных точек присутствия, также известное как частота пропусков. Желательно, чтобы частота пропусков была близка к 0, но также важно не снижать предельное значение только ради минимизации частоты пропусков, так как это также сведет к минимуму число фоновых точек, классифицируемых как потенциальное присутствие (полезный результат во многих сценариях).

Диаграмма Частота пропусков

Чтобы оценить, как различные предельные значения влияют на частоту фоновых точек, классифицируемых как присутствие, используйте диаграмму График ROC. Она включает сравнение между правильно классифицированными точками присутствия и фоновыми точками, классифицированными как потенциальное присутствие, при различных предельных значениях вероятности присутствия.

Диаграмма График ROC

Назначение диаграммы График ROC меняется в зависимости от характера фоновых точек. Когда фоновые точки представляют отсутствие, а значение параметра Относительный вес присутствия к фону равно 1, диаграмму можно использовать как традиционный график ROC, в котором чувствительность (правильно классифицированные точки присутствия) максимальна, а 1-специфичность (фон или отсутствие классифицировано как присутствие) сводится к минимуму. В этом случае значения предельного значения, находящиеся ближе к левому верхнему углу диаграммы, являются более подходящими. Когда фоновые точки представляют собой неизвестность, но при этом возможность возникновения явления, график ROC демонстрирует, как различные уровни предельного значения влияют на то, сколько потенциальных местоположений фона было оценено как присутствие.

Рекомендуется использовать обе диаграммы вместе. Когда вы оцениваете диаграмму частоты пропусков для предельного значения по умолчанию, равного 0,5, выберите точку-кандидата предельного значения на диаграмме Частота пропусков и сравните эту запись на диаграмме График ROC.

Карта с диаграммами Частота пропусков и график ROC

Диаграммы выходных обученных объектов для проверки

Диаграмма Процент результатов классификации отображает сравнение наблюдаемой и прогнозируемой классификаций. Вы можете использовать диаграмму, чтобы оценить способность модели прогнозировать присутствие в известных точках присутствия. Например, вы можете оценить эффективность модели при прогнозировании присутствия в известных точках присутствия, сосредоточившись на доли неправильно классифицированных точек присутствия. В случаях, когда важно прогнозирование присутствия в фоновых точках, вы также можете использовать диаграмму для просмотра и выбора фоновых точек, которые прогнозируются как точки присутствия.

Диаграмма Процент результатов классификации, используемая для оценки истинных и ложных результатов

Общие критерии выбора модели

Рабочий процесс выбора модели, которая может быть применима к вашим задачам, выглядит следующим образом:

  1. Оцените предельное значение вероятности присутствия по умолчанию, равное 0,5, и его влияние на способность модели идентифицировать известные местоположения присутствия как присутствие (чувствительность), используя ось Y графика ROC.

    Откройте диаграммы Частота пропусков и График ROC так, чтобы они располагались рядом. Выберите предельное значение вероятности присутствия по умолчанию, равное 0,5, на диаграмме частоты пропусков и оцените результирующую чувствительность по оси Y графика ROC.

    График Частота пропусков и График ROC, показывающие соответствующее значение чувствительности предельного значения

  2. Оцените предельное значение вероятности присутствия по умолчанию, равное 0,5, и его влияние на способность модели идентифицировать известные фоновые местоположения как фон (1-специфичность), используя ось X графика ROC.

    Откройте диаграммы Частота пропусков и График ROC так, чтобы они располагались рядом. Выберите предельное значение вероятности присутствия по умолчанию, равное 0,5, на диаграмме частоты пропусков и оцените итоговое значение (1-специфичность) по оси X графика ROC.

    Когда фоновые точки отражают местоположения с неизвестным присутствием (при использовании параметра Относительный вес присутствия к фону со значением по умолчанию, равным 100), это отражает число фоновых местоположений в отправленных обучающих данных, которые оцениваются как соответствующие потенциальному присутствию.

    Когда фоновые точки соответствуют известным местоположениям отсутствия (при использовании значения Относительный вес присутствия к фону равным 1), это отражает число ложных ответов (известные местоположения отсутствия, которые ошибочно отмечены как присутствие).

    Диаграммы Частота пропусков и График ROC, показывающие предельные значения

  3. Интерпретируйте площадь под кривой (AUC) на графике ROC, которая является диагностической оценкой того, насколько модель способна оценивать известные местоположения присутствия как присутствие и известные фоновые местоположения как фон. Чем больше площадь под кривой, тем больше модель подходит для задачи прогнозирования присутствия.

    График ROC, показывающий площадь под кривой

    Хотя площадь под кривой полезна в общей оценочной диагностике, важно решить, является ли целью модели уменьшение ложно положительных ответов (т.е. гарантирование того, что прогнозируемое присутствие с большой вероятностью действительно будет присутствием) или уменьшением ложно отрицательных ответов (т.е. гарантирование того, что прогнозированное отсутствие, скорее всего, действительно будет отсутствием). Баланс двух целей — это значение, ближнее к верхнему левому углу графика ROC.

    График ROC, показывающий предельные значения, которые уравновешивают чувствительность и специфичность

  4. Если несколько моделей показывают схожие диагностики проверки, выбирайте более простую модель Модель, которая имеет меньшее количество более простых независимых переменных, более предпочтительна, так как ее легче интерпретировать и объяснить. Следуя принципу ограниченности, самое простое объяснение явления обычно является наилучшим (Филипс и др., 2006).

    Прежде всего, используйте знания предметной области и глубокое понимание проблемы при разработке, проверки и использовании модели.

Дополнительные ресурсы

Для получения более подробной информации обратитесь к следующим ресурсам:

  • Aiello-Lammens, Matthew E., Robert A. Boria, Aleksandar Radosavljevic, Bruno Vilela, Robert P. Anderson. 2015. "spThin: an R package for spatial thinning of species occurrence records for use in ecological niche models." Ecography 38: 541-545.

  • Du, Zhaohui , Zhiqiang Wang, Yunxia Liu, Hao Wang, Fuzhong Xue, Yanxun Liu. 2014. "Ecological niche modeling for predicting the potential risk areas of severe fever with thrombocytopenia syndrome." International Journal of Infectious Diseases, 26: 1-8. ISSN 1201-9712. https://doi.org/10.1016/j.ijid.2014.04.006
  • Elith, Jane, Steven J. Phillips, Trevor Hastie, Miroslav Dudík, Yung En Chee, and Colin J. Yates. 2011. "A statistical explanation of MaxEnt for ecologists." Diversity and Distributions, 17: 43-57. pdf

  • Fithian, William, Jane Elith, Trevor Hastie, David A. Keith. 2014. "Bias Correction in Species Distribution Models: Pooling Survey and Collection Data for Multiple Species." arXiv:1403.7274v2 [stat.AP].

  • Fithian, William, Trevor Hastie. 2013. "Finite-sample equivalence in statistical models for presence-only data." The Annals of Applied Statistics, 7, № 4 (Декабрь), 1917-1939.

  • Merow, Cory, Matthew J. Smith, and John A. Silander, Jr. 2013. "A practical guide to MaxEnt for modeling species’ distributions: what it does, and why inputs and settings matter." Ecography, 36: 1058–1069. pdf

  • Mobley W, Sebastian A,Highfield W, Brody SD. 2019. "Estimating flood extent during Hurricane Harvey using maximum entropy to build a hazard distribution model." J Flood Risk Management. 2019;12 (Suppl. 1):e12549. https://doi.org/10.1111/jfr3.12549

  • Phillips, Steven J., Miroslav Dudik. 2008. "Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation." Ecography 31: 161-175.

  • Phillips, Steven J. , Robert P. Anderson, Robert E. Schapire. 2006. "Maximum entropy modeling of species geographic distributions." Ecological Modelling, 190: 231-259. pdf

  • Radosavljevic, Aleksandar, Robert P. Anderson. 2014. "Making better Maxent models of species distributions: complexity, overfitting and evaluation." Journal of Biogeography 41, 629-643.