Как работает инструмент Анализ локальных выбросов

Инструмент Анализ локальных выбросов идентифицирует статистически значимые кластеры и выбросы в данных. Он находит в изучаемой области местоположения, которые статистически отличаются от соседей в пространстве и времени. В качестве входных данных используется куб пространство-время в формате NetCDF, созданный с помощью инструментов Создать куб Пространство-Время по агрегации точек или Создать Куб пространство-время из указанных местоположений. Далее инструмент использует значение параметра Определение пространственных взаимоотношений для вычисления пространственно-временного исполнения статистики Anselin локальный индекс Морана I (Анализ кластеров и выбросов) для каждого бина. Для этого инструмент вычисляет локальный индекс Морана I, псевдо p-значение и код типа (CO_TYPE), представляющий тип категории кластера или выброса для каждого статистически значимого бина в значении параметра Входной куб Пространство-Время. Псевдо p-значения представляют статистическую значимость вычисленных значений индекса, и его точность зависит от числа перестановок.

Возможное применение

Инструмент Анализа локальных выбросов может применяться во многих областях, включая экономику, управление ресурсами, политическую географию, демографию, здравоохранение и охрану порядка. К вопросам, на которые можно ответить с помощью этого инструмента, относятся:

  • Есть ли в изучаемой области местоположения с аномальными типами расходов?
  • Был ли в изучаемой области период с неожиданно высоким уровнем заболеваемости?
  • Есть ли районы, жители которых потребляют значительно больше воды, чем в соседних? Возможно есть районы, постоянно потребляющие меньше воды, на примере которых можно разработать методы экономии ресурсов.
  • Есть ли в моем регионе места со значительным ростом заявлений о страховых случаях за последний месяц?

Выходные данные инструмента

Выходные данные, получаемые в результате работы инструмента. Чаще всего выходные данные представлены в виде двухмерной карты с суммой временных данных по каждому местоположению, которая добавляется к обычной карте по завершении работы инструмента. Используются следующие категории:

Имя типаОписание
Незначимый никогда

Never Significant

Местоположение, где никогда не встречается статистически значимый CO_TYPE.

Только высокий-высокий кластер

Only High-High Cluster

Местоположение, где во времени встречается только статистически значимые кластеры HH.

Только высокий-низкий кластер

Only High-Low Outlier

Местоположение, где во времени встречается только статистически значимые выбросы HL.

Только низкий-высокий кластер

Only Low-High Outlier

Местоположение, где во времени встречается только статистически значимые выбросы LH.

Только низкий-низкий кластер

Only Low-Low Cluster

Местоположение, где во времени встречается только статистически значимые кластеры LL.

Несколько типов

Multiple Types

Местоположение, где во времени встречаются различные типы статистически значимых кластеров и выбросов (например, в течение некоторого времени местоположение являлось выбросом LH, затем оно стало кластером HH).

Дополнительно сообщения, в которых суммируются результаты анализа, отображаются в нижней части панели Геообработка во время выполнения инструмента. Можно получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув всплывшую кнопку Всплывающее окно или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента из панели История геообработки.

В этих сообщениях содержится такая информация о значении параметра Входной куб Пространство-Время, как временной интервал, временное смещение и число проанализированных бинов и местоположений. Также в сообщениях содержатся важные сведения о выбросах, произошедших в последнем временном шаге, а также сводная информация ключевых временных шагов, которая может представлять большой интерес. Например, если в задачу входит нахождение неэффективных областей на территории продаж, при изучении выбросов LH эти сообщения позволят определить ключевой временной шаг, в котором находится наибольшее число LH выбросов.

Пример сообщений инструмента Анализ локальных выбросов

Этот инструмент создает новый выходной класс объектов со следующими полями, где находится сводная информация о бинах в каждом местоположении значения параметра Входной куб Пространство-Время:

ПсевдонимИмя поля
Number of OutliersNUM_OUT
Percentage of OutliersPERC_OUT
Number of Low ClustersN_LOW_CLS
Percentage of Low ClustersP_LOW_CLS
Number of Low OutliersN_LOW_OUT
Percentage of Low OutliersP_LOW_OUT
Number of High ClustersN_HIGH_CLS
Percentage of High ClustersP_HIGH_CLS
Number of High OutliersN_HIGH_OUT
Percentage of High OutliersP_HIGH_OUT

Местоположения с No Spatial Neighbors, которые в аналитических вычислениях зависят только от временных соседей

NO_SP_NBR

Местоположения с Outlier in the Most Recent Time Step

OUT_R_TIME
Cluster Outlier Type

CO_TYPE

Дополнительная суммарная статистика, включающая сумму, минимальное и максимальное значения, среднее, стандартное отклонение и медиану анализируемой переменной.

SUM_VALUE, MIN_VALUE, MAX_VALUE, MEAN_VALUE, STD_VALUE, и MED_VALUE

И в заключение инструмент Анализ локальных выбросов добавляет некоторые новые переменные к значению параметра Входной куб Пространство-Время. Если эти переменные уже существуют (возможно вы уже запускали инструмент Анализ локальных выбросов для того же значения параметра Переменная анализа несколько раз), они будут перезаписаны, то есть куб всегда содержит только самые свежие результаты анализа.

Вы можете визуализировать эти переменные с помощью ArcGIS AllSource. См. Визуализация куба пространство-время, чтобы узнать о стратегиях.

Интерпретация

Для облегчения интерпретации результатов инструмента Анализ локальных выбросов можно использовать инструмент Создать слой куба пространство-время, для создания слоя куба пространство-время, который может отображать полученные переменные, добавленные в куб. Вы можете визуализировать локальный индекс Морана I, p-значение и Cluster Outlier Analysis Type для каждого бина, выбрав слой куба пространство-время, а на ленте куб пространство-время установите Тема отображения на соответствующую тему в разделе Анализ локальных выбросов. Индекс с положительным значением означает, что у этого бина имеются соседние бины с похожими высокими или низкими атрибутивными значениями; этот бин является частью кластера. Индекс с отрицательным значением означает, что у бина имеются соседние бины с отличающимися значениями; т.е. этот бин является выбросом. В любом случае, p-значение или псевдо p-значение для объекта должно быть достаточно маленьким, чтобы кластер или выброс можно было считать статистически значимыми. Более подробно об определении статистической значимости см. Что такое z-оценка? Что такое p-значение?. Заметьте, что Локальный индекс Морана (I) – относительное измерение и может интерпретироваться только в контексте сгенерированного референсного распределения и вычисленных p-значения и псевдо p-значения. Псевдо p-значение и p-значения, полученные в классе выходных объектов, являются скорректированными по множественному тестированию и пространственным зависимостям.

Тип кластера или выброса различает статистически существенный кластер высоких значений (HH), кластер низких значений (LL), выброс, в котором высокое значение окружено в основном низкими значениями (HL), и выброс, в котором низкое значение окружено в основном высокими значениями (LH). Статистическая значимость задается с уровнем достоверности 95 %. Эта значимость представляет Коррекцию FDR, которая регулирует порог p-значения от 0.05 до значения, которое лучше отражает 95-процентный уровень достоверности, с учетом множественного тестирования.

Окрестность по умолчанию

Чтобы определить, является ли значение бина в определенном местоположении во времени и пространстве статистически значимой горячей или холодной точкой или статистически значимым выбросом, каждый бин рассматривается в контексте окружающих его бинов как в пространстве, так и во времени. По умолчанию в этом инструменте используется опция Фиксированное расстояние для определения отношений между бинами. Значения параметров для Расстояние окрестности и Временной шаг окрестности определяют экстент окрестности каждого бина (контекст для анализа каждого бина). Предположим, размерность бина составляет 400 метров на 400 метров, с временным шагом в 1 день. Если вы зададите для значения параметра Расстояния окрестности 801 метр, а для Временного шага окрестности значение 2, пространство, определяющее окрестность, будет составлять два бина по горизонтали и по вертикали и один бин по диагонали, как показано на рисунке:

Пример пространственного соседства

Кроме того, окрестность определяется также и во времени. Все бины в одном местоположении, как целевой, так и его соседи во времени (как показано выше), соответствующие двум предшествующим временным периодам, будут включены в окрестность анализа – в этом примере – 3 дня. Обратите внимание, что во временную окрестность включаются только предшествующие временные шаги и значение параметра Временной шаг окрестности, установленный на 2, в реальности охватывает 3 временных шага. Чтобы обеспечить наличие, по крайней мере, 1 временного соседства для каждого местоположения, Локальный индекс Морана не вычисляется для бинов первого временного среза. Значения бинов в первом временном среде, тем не менее, включаются в вычисление глобального среднего.

Если вы не указываете значение для параметра Расстояние окрестности, то оно рассчитывается по умолчанию. Формула основана на вычислении радиуса поиска по умолчанию для инструмента Плотность ядер. Если вы не указываете Интервал временного шага, - значение по умолчанию - 1.

Есть несколько дополнительных опций для определения окрестности с помощью параметра Определение пространственных взаимоотношений. Любая опция подразумевает, что инструмент сначала находит пространственных соседей, а затем определяются бины, расположенные в том же местоположении, но в пределах N предшествующих временных шагов, где N – значение параметра Временной шаг окрестности, указанный во входных параметрах.

Выбор параметра Определение пространственных взаимоотношений должен отражать внутренние отношения между пространственными объектами, которые вы анализируете. Чем более точно вы сможете смоделировать взаимодействие пространственных объектов в пространстве, тем более точные результаты вы получите. Рекомендации см. в разделе Лучшие практики для выбора определения пространственных отношений.

Перестановки

Перестановки используются для определения вероятности нахождения актуального пространственного распределения анализируемых значений, методом сравнения имеющихся значений и случайно сгенерированных. Даже в случае полной пространственной случайности (CSR), в силу этой случайности всегда будет наблюдаться некоторая степень кластеризации. Перестановки позволяют сгенерировать множество случайных наборов данных и сравнить эти значения с локальным индексом Морана I исходных данных. Для этого, при каждой перестановке, значения, окружающие каждый бин, перераспределяются в случайном порядке, затем вычисляется значение локального индекса Морана I этих случайных данных. Рассматривая распределение локального индекса Морана I, полученного от перестановок, вы можете увидеть диапазон значений локального индекса Морана I, которые действительно являются следствием случайного распределения. Если в данных имеется статистически значимая пространственная закономерность, можно ожидать, что значения локального индекса Морана I, полученного в результате перестановок, показывают меньшую кластеризацию, по сравнению с исходными данными. Затем вычисляется псевдо p-значение, это делается определением пропорции значений локального индекса Морана I перестановок, которые показывают большую кластеризацию, по сравнению с исходными данными. Если эта пропорция (псевдо p-значение) мала (менее 0.05), можно заключить, что в данных отсутствует статистически значимая кластеризация.

Выбор числа перестановок является компромиссом между точностью и временем обработки. Увеличение числа перестановок повышает точность, поскольку увеличивается диапазон возможных значений для вычисления псевдо p. Например, с 99 перестановками, точность псевдо p-значения составляет .01 (1/99+1), а для 999 перестановок, точность равна .001 (1/999+1). Малое число перестановок может использоваться для начального изучения проблемы, но рекомендуется увеличивать количество перестановок до максимального, в зависимости от требуемого результата.

Дополнительные ресурсы

Anselin, Luc. "Local Indicators of Spatial Association – LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.