Как работает Анализ кластеров и выбросов (выбросов) (Anselin Локальный индекс Морана I)

Имея набор объектов (значение параметра Входной класс объектов) и поле анализа (значение параметра Входное поле), инструмент Анализ кластеров и выбросов (Локальный индекс Морана Анселина I) определяет кластеры объектов с высокими или низкими значениями. Этот инструмент также определяет пространственные выбросы. Чтобы сделать это, инструмент вычисляет Локальный индекс Морана I, z-оценку, псевдо p-значение, и код, представляющий тип кластера для каждого статистически значимого объекта. Z-оценки и псевдо p-значения представляют статистическую значимость вычисленных значений индекса.

Вычисления

Математические расчеты Локального индекса Морана I

См. дополнительные математические расчеты для статистического показателя Локальный индекс Морана I.

Интерпретация

Положительное значение индекса (I) указывает, что у объекта есть соседние объекты с такими же высокими или низкими значениями атрибута; этот объект является частью кластера. Отрицательное значение индекса указывает, что у объекта есть соседние объекты с несходными значениями; этот объект является выбросом. В любом случае, p-значение для объекта должно быть достаточно маленьким, чтобы кластер или выброс можно было считать статистически значимыми. Более подробно об определении статистической значимости см. в разделе Что такое z-оценка? Что такое p-значение? Локальный индекс Морана (I) – относительное измерение и может интерпретироваться только в контексте вычисленных для него z-оценки или p-значения. P-значения и z-оценки, сообщаемые в классе выходных объектов, не являются скорректированными для множественного тестирования или пространственных зависимостей.

Поле (COType) Тип кластера или выброса различает статистически существенный кластер высоких значений (HH), кластер низких значений (LL), выброс, в котором высокое значение окружено в основном низкими значениями (HL), и выброс, в котором низкое значение окружено в основном высокими значениями (LH). Статистическая значимость задается с уровнем достоверности 95 %. Когда применяется FDR коррекция, объекты с p-значениями, меньшими 0.05, рассматриваются как статистически значимые. Коррекция FDR уменьшает порог p-значения с 0.05 до значения, которое лучше отражает 95-процентный уровень достоверности данного множественного тестирования. Объекты, не имеющие соседей, будут иметь значение поля NN, а несущественные объекты будут иметь пустой текст в этом поле.

Выходные данные

Этот инструмент создает новый выходной класс объектов со следующими атрибутами для каждого объекта во входном классе объектов: локальный индекс Морана I, z-оценка, p-значение и тип кластера/выброса.

Когда этот инструмент запускается, выходной класс объектов автоматически добавляется к таблице содержания с методом отображением по умолчанию для поля COType. Применяемое отображение определяется файлом слоя в <ArcGIS Pro>\Resources\ArcToolBox\Templates\Layers. Можно заново применить механизм отрисовки по умолчанию, если необходимо, с помощью инструмента Применить символы из слоя.

Перестановки

Перестановки используются для определения вероятности нахождения актуального пространственного распределения анализируемых значений, методом сравнения имеющихся значений и случайно сгенерированных. Даже в случае полной пространственной случайности (CSR), в силу этой случайности всегда будет наблюдаться некоторая степень кластеризации. Перестановки позволяют сгенерировать множество случайных наборов данных, и вы должны сравнить эти значения с локальным значением Морана I исходных данных. Для этого, при каждой перестановке, значения, окружающие каждый объект, перераспределяются в случайном порядке, затем вычисляется значение локального индекса Морана I этих случайных данных. Просматривая распределение значений локального индекса Морана I, полученное в результате перестановок, вы можете определить диапазон значений локального индекса Морана I, которые действительно являются следствием случайного распределения. Если в данных имеется статистически значимая пространственная закономерность, можно ожидать, что значения локального индекса Морана I, полученного в результате перестановок, показывают меньшую кластеризацию, по сравнению с исходными данными. Затем вычисляется псевдо p-значение, это делается определением пропорции значений локального индекса Морана I перестановок, которые показывают большую кластеризацию, по сравнению с исходными данными. Если эта пропорция (псевдо p-значение) мала (менее 0.05), можно заключить, что в данных отсутствует статистически значимая кластеризация.

Выбор числа перестановок является компромиссом между точностью и временем обработки. Увеличение числа перестановок повышает точность, поскольку увеличивается диапазон возможных значений для вычисления псевдо p. Например, при 99 перестановках точность значения псевдо-p равна .01, а при 999 перестановках точность равна .001. Эти значения вычисляются путем деления 1 на количество перестановок плюс единица: 1/(1+99) и 1/(1+999). Малое число перестановок может использоваться для начального изучения проблемы, но для получения окончательного результата рекомендуется увеличить количество перестановок до максимально возможного.

Практическое применение

Имейте в виду следующее при использовании инструмента Анализ кластеров и выбросов (Anselin локальный индекс I Морана):

  • Результаты надежны только в том случае, если входной класс объектов содержит, по крайней мере, 30 объектов.
  • Этот инструмент требует входное поле, такое как количество, уровень, или другое числовое измерение. При анализе точечных данных, где каждый пункт представляет единственный случай или инцидент, вы возможно не имеете определенного числового атрибута для оценки (ранжирование, количество, или другое измерение). Если необходимо осуществить поиск местоположений с большим количеством инцидентов (горячие точки) и/или местоположений с небольшим количеством инцидентов (холодные точки), то нужно агрегировать данные инцидентов до анализа. Инструмент Анализ горячих точек (Getis-Ord Gi*) также эффективен для обнаружения горячих и холодных точек. Однако только инструмент Анализ кластеров и выбросов (Локальный Индекс Морана Анселина I) сможет идентифицировать статистически существенные пространственные выбросы (высокое значение, окруженное низкими значениями или низкое значение, окруженное высокими значениями).
  • Выбрать подходящее Определение пространственных отношений.
  • При выборе значения Пространственно-временное окно, вы можете указать пространственно-временные кластеры и выбросы. Более подробную информацию см. в разделе Пространственно-временной анализ.
  • Выбрать подходящее значение Диапазона расстояний или Порогового расстояния.
    • Все объекты должны иметь, по крайней мере, одного соседа.
    • Никакой из объектов не должен иметь всех других объектов в качестве соседей.
    • В случае если значения для входящего поля асимметричны, у каждого объекта должно быть около восьми соседей.

Возможное применение

Инструмент Анализ кластеров и выбросов (Локальный Индекс Морана Анселина I) идентифицирует концентрации высоких значений, концентрации низких значений и пространственные выбросы. Это может помочь ответить на подобные вопросы:

  • Где проходят наиболее четкие границы между богатыми и бедными областями?
  • Есть ли местоположения в области исследования с аномальными типами расходов?
  • Где можно встретить неожиданно высокий уровень заболевания диабетом в области изучения?

Применения могут быть найдены во многих областях, включая экономику, управление ресурсами, биогеографию, политическую географию, и демографию.

Дополнительные ресурсы

Anselin, Luc. "Local Indicators of Spatial Association – LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The ESRI Guide to GIS Analysis,Volume 2. ESRI Press, 2005.