Как работает Сравнение Анализа горячих точек

Инструмент Сравнение Анализа горячих точек сравнивает два слоя результатов анализа горячих точек и вычисляет их сходство и связь. Сходство и связь между двумя слоями результатов анализа горячих точек определяется сравнением по категориям уровня значимости (горячая 99%, горячая 95%, горячая 90%, не значима, холодная 90%, холодная 95% и холодная 99%) между соответствующими объектами (и их соседями) в двух входных слоях.

Сравнение двух результатов анализа горячих точек

Инструмент вычисляет глобальное сходство и глобальное значение каппа для оценки общего сходства и связи результатов анализа горячих точек. Локальные версии значений сходства и каппа также вычисляются для каждой пары совпадающих объектов. Это позволяет вам сопоставлять сравнения для оценки областей, уровень сходства или выраженность связи которых больше или меньше, чем глобальные значения. Выходные объекты также включают диаграммы и пользовательские символы, позволяющие выделить области, в которых результаты горячих точек наиболее несхожи, а также результаты суммирования пар уровней значимости для всех совпадающих объектов.

Входные слои результатов анализа горячих точек должны быть выходными объектами инструментов Анализ горячих точек (Getis-Ord Gi*) или Оптимизированный анализ горячих точек. Каждый объект в каждом слое результатов должен быть спарен с одним соответствующим объектом в другом слое результатов, что дает возможность сравнить их категории уровней значимости. Если объекты двух слоев результатов горячих точек пространственно не совпадают (например, как полигоны, у которых нет общей границы), для этих двух векторных слоев будет рассчитано пересечение перед выполнением анализа, и сравнение будет выполнено только где пересечение присутствует.

Сходство и связь

Сходство результатов анализа горячих точек — это степень пространственного выравнивания горячих точек, холодных точек и незначимых областей обоих результатов анализа горячих точек, а связь (или зависимость) между результатами — это степень статистической зависимости между основными переменными анализа горячих точек. Различие слабовыраженное, но важное, потому что часто два результата анализа горячих точек очень схожи (много совпадающих объектов имеют одинаковый уровень значимости), но при этом имеют незначительную связь или зависимость. Это показано на изображении ниже на примере двух слоев результатов анализа горячих точек.

Эти два результата очень схожи, так как 23 из 25 полигонов в каждом результате сопоставимы по категориям. Однако, поскольку 24 из 25 полигонов в каждом результате являются холодными точками, можно ожидать, по крайней мере, 23 совпадающих полигона, даже если базовые результаты горячих точек независимы и не связаны между собой. Это означает, что, несмотря на совпадающие категории почти у каждого полигона, нет никаких доказательств того, что результаты статистически связаны. Можно сделать вывод, что обе переменные почти полностью являются холодными точками с одной изолированной горячей точкой, но нет никаких доказательств взаимосвязи или связи между ними.

Схожие, но не связанные результаты
В обоих слоях результатов анализа горячих точек красный полигон является горячей точкой, а синие полигоны — холодными точками.

В двух результатах анализа горячих точек на изображении ниже 23 из 25 полигонов также совпадают, поэтому их сходство такое же, как и в первом наборе результатов. Однако 22 совпадения относятся к холодным точкам, а одно — к горячим точкам. При наличии только двух горячих точек в каждом результате маловероятно, что горячие точки случайно совпали так близко. Это свидетельствует о взаимоотношении и связи между результатами. Хотя связь не обязательно является причинно-следственной, вы можете повлиять на значения одного результата, изменив значения другого. Например, если один результат анализа горячих точек представляет горячие и холодные точки детской смертности, а другой представляет горячие и холодные точки загрязнения, сильная связь между переменными предполагает, что детская смертность может снизиться за счет снижения уровня загрязнения. Другой пример, если два результата анализа горячих точек представляют собой уровни загрязнения за несколько последовательных лет, связь можно интерпретировать как смещение уровня загрязнения на север и восток.

Схожие и связанные результаты

Сходство между двумя результатами анализа горячих точек измеряется в уровне сходства, в диапазоне от 0 до 1. Если много совпадающих объектов в обоих результирующих слоях имеют одинаковый уровень значимости, значение будет стремиться к 1, а если такие же совпадающие объекты с разными уровнями значимости, значение будет ближе к 0. Связь измеряется значением каппа: выраженная связность в результатах будет иметь значения каппа близко к 1, а несвязанные (независимые) результаты будут иметь значения каппа ближе к 0 (или небольшие отрицательные). Значение каппа - это пересчитанный вариант значения сходства, которое учитывает пространственную кластеризацию и последовательность категорий для выделения статистической связности между результатами анализа горячих точек. Первый набор результатов анализа горячих точек выше имеет значение каппа, приблизительно равное 0, а второй набор результатов имеет значение каппа, приблизительно равное 0,6.

Исключить незначимые объекты

Когда в результатах анализа горячих точках доминирует одна категория, как в приведенных выше примерах, чаще всего это незначимая категория. Тем не менее, если вас не интересуют объекты с незначимыми точками, вам может быть не нужно рассчитывать значения сходства и каппа просто для подтверждения наличия большого числа незначимых точек в обоих слоях результатов анализа горячих точек. Чтобы предотвратить это, вы можете использовать параметр Исключить незначимые объекты, чтобы исключить пары совпадающих объектов из сравнения, если в обоих случаях результаты анализа горячих точек статистически незначимы. Если исключение задано, инструмент вычислит условные значения сходства и каппа на основе сравнения только статистически значимых горячих и холодных точек, чтобы точно отразить их сходство и связь. Количество и общие пропорции категорий уровня значимости влияют на значения сходства и каппа, поэтому обдумайте результат, прежде чем исключать большое количество незначимых объектов.

Нечеткое сходство

При сравнении двух соответствующих объектов результат может быть больше, чем просто двоичный (да или нет), если эти объекты имеют одинаковую категорию уровня значимости. При расчетах сходства и связи используется принадлежность к нечеткому множеству для возможности частичного сопоставления соответствующих объектов на основании сходства уровней значимости и пространственной окрестности. Например, горячие точки с уровнем 99% могут считаться идеально совпадающими с другими горячими точками с уровнем 99%, частично совпадать с горячими точкам с уровнем 95%, и полностью не совпадать с холодными точками с уровнем 99%. Два соответствующих объекта также могут считаться частично совпадающими на основе сходства расстояния, если эти объекты имеют разный уровень значимости, но одинаковый уровень значимости имеют соседние объекты. Общее сходство между двумя объектами рассчитывается как их сходство категорий умноженное на расстояние сходства. Подробнее о вычислениях см. в разделе Пространственная нечеткая каппа ниже.

Сходство категорий

Существует семь возможных категорий уровня значимости в каждом результате анализа горячих точек. Категории имеют естественный порядок от горячих точек с уровнем 99% до холодных точек с уровнем 99%, и некоторые категории больше похожи друг на друга, чем другие. Веса сходства категорий позволяют вам определить, насколько похожими вы считаете разные категории уровня значимости. Каждая комбинация результатов (например, холодная 90% и горячая 95%) должна иметь вес категории от 0 до 1, указывающий на их сходство. Комбинации с весами, равными 1, считаются точными совпадениями, а комбинации с весами, равными 0, считаются полностью непохожими. Значения между 0 и 1 определяют степень частичного сходства категорий. Веса должны быть симметричными; например, вес между горячая 99% и горячая 95% должен быть равен весу между горячая 95% и горячая 99%.

Если две категории имеют вес сходства, равный 1, расчеты сходства и связи будут рассматривать их так, как если бы они были одной и той же категорией, поэтому вы можете использовать веса для объединения разных категорий. Например, чтобы выполнить анализ двух горячих точек с уровнем доверия 95%, вы можете объединить категории холодная 90%, незначимая и горячая 90%, используя вес, равный 1, для всех комбинаций этих категорий. Значения сходства и значения каппа будут рассматривать категории холодная 90% и горячая 90%, как если бы они были незначимыми. Кроме того, если вы исключите незначимые объекты, все категории, объединенные с категорией незначимые, также будут исключены.

Вы также можете обратить отношения горячих и холодных точек, задав большие веса между горячими и холодными точками. Обратить отношения рекомендуется в случаях, когда полученные горячие точки имеют отрицательную связь, например, холодные точки среднего дохода совпадают с горячими точками заболевания диабетом.

Внимание:

Веса сходства категорий влияют только на расчет значений сходства и каппа. Даже если уровни значимости комбинируются на основании весов сходства, таблицы в сообщениях инструмента, символы выходного слоя и диаграммы расценивают их как отдельные категории. Дополнительные сведения см. в разделе ниже Выходные данные инструмента.

Веса сходства категорий задаются с помощью параметра Метод взвешивания сходства. Доступны следующие опции:

  • Нечеткие веса — веса сходства являются нечеткими (не бинарными) и определяются близостью уровней значимости. Все горячие точки совершенно непохожи на все холодные точки и незначимые объекты (и наоборот). Веса между горячими и холодными точками уровней 90%, 95% и 99% определяются отношениями критических значений верхних односторонних областей отклонения нормального распределения; например, вес между горячая 95% и горячая 99% составляет 1,645/2,33 = 0,71. Для всех других весов между категориями см. первое изображение в разделе ниже Всплывающая матрица весов. Это значение по умолчанию
  • Полное совпадение уровней значимости — объекты должны иметь одинаковый уровень значимости, чтобы считаться схожими. Например, горячие точки 99% будут считаться полностью несхожими с горячими точками 95% и 90%.
  • Объединить значимость 90%, 95% и 99% — объекты горячих точек с уровнем значимости 90%, 95% и 99% будут считаться полностью схожими друг с другом, и объекты холодных точек с уровнем значимости 90%, 95% и 99% также будут считаться полностью схожими друг с другом. Эта опция рассматривает объекты с уровнем значимости выше 90% как одинаковую (статистически значимую) категорию, а все объекты с уровнем значимости ниже 90% как одинаковую (статистически незначимую) категорию.
  • Объединить значимость 95% и 99% — объекты горячих точек с уровнем значимости 95% и 99% будут считаться полностью схожими друг с другом, и объекты холодных точек с уровнем значимости 95% и 99% также будут считаться полностью схожими друг с другом. Например, горячие точки 90% и холодные точки 90% будут считаться полностью несхожими с более высокими уровнями значимости. Эта опция рассматривает объекты с уровнем значимости выше 95% как одинаковую (статистически значимую) категорию, а все объекты с уровнем значимости ниже 95% как одинаковую (статистически незначимую) категорию.
  • Использовать только значимость 99% — только объекты горячих (или холодных) точек с уровнем значимости 99% будут считаться полностью совпадающими друг с другом. Эта опция рассматривает объекты с уровнем значимости ниже 99% как незначимые.
  • Обратить отношения горячих и холодных точек — будут использованы нечеткие веса по умолчанию, но горячие точки в первом слое результата горячих точек будут считаться схожими с холодными точками второго слоя результатов горячих точек. Например, горячие точки с уровнем значимости 99% в первом слое результата будут считаться идеально схожими с холодными точками с уровнем значимости 99% во втором слое результата, и частично схожими с холодными точкам с уровнем 95% и 90% во втором слое.
  • Получить веса из таблицы — будут использоваться веса, определенные полями слоя таблицы. Таблица предоставляется в параметре Входная таблица весов и должна содержать поля CATEGORY1, CATEGORY2 и WEIGHT. Содержит информацию о категориях уровней значимости для пары (значения в поле Gi_Bin входных слоев) в полях категорий и вес сходства между ними в поле веса. Например, строка [-3, -2, 0.6] присваивает значение веса сходства 0,6 комбинации холодная 99% и холодная 95%. Если комбинация в таблице не указана, вес принимается за 0. Таблицу можно экспортировать из всплывающего окна матрицы весов.
  • Пользовательские веса — используются значения пользовательских весов, указанные в параметре Веса сходства категорий.

Всплывающее окно матрицы весов

Параметр Веса сходства категорий позволяет интерактивно просматривать и редактировать веса с помощью всплывающего окна матрицы весов. Отображаемые веса обновляются по мере того, как вы выбираете различные опции параметра Метод взвешивания сходства, поэтому вы можете видеть веса, связанные с каждой опцией, и вносить любые изменения. Чтобы открыть всплывающее окно, нажмите кнопку Пользовательский рядом с параметром.

Всплывающее окно матрицы весов сходства категорий

Чтобы назначить пользовательский вес комбинации уровней значимости, щелкните соответствующую ячейку, введите значение веса от 0 до 1 и нажмите Enter. Чтобы веса оставались симметричными, вы можете редактировать только ячейки в нижней левой половине матрицы, и вес будет зеркально отражен в эквивалентной ячейке в правом верхнем углу. На следующем изображении показан пример пользовательских весов, в которых используется точное соответствие уровней значимости с обратным отношением горячих и холодных точек (например, горячая 95% полностью схожа с холодная 95% и полностью отличается от всех других уровней значимости):

Точное соответствие уровня значимости с обратным отношением горячих и холодных точек

Указав веса, нажмите ОК или щелкните за пределами всплывающего окна, чтобы применить веса. Если какие-либо веса были изменены, значение параметра Метод взвешивания сходства изменится на Пользовательские веса. Вы также можете нажать кнопку Отмена или Закрыть, чтобы закрыть всплывающее окно и не применять изменения.

Кнопка Экспорт открывает диалоговое окно обзора, в котором можно сохранить значения весов в таблице, чтобы их можно было повторно использовать позже с помощью опции Получить веса из таблицы. Для повторного использования пользовательских весов рекомендуется создать файл весов с помощью всплывающего окна матрицы весов; вы сможете использовать таблицу весов для будущих сравнений.

Сходство на основе расстояния

В дополнение к сходству категорий сходство по расстоянию допускает частичное совпадение, если у объектов различный уровень значимости, но у объектов в их окрестности уровень значимости совпадает. Так как анализ горячих точек является пространственным методом, который учитывает локальные окрестности, уровень значимости каждого объекта - это характеристика значений не только самого объекта, но и его ближайших соседей. В этом смысле, если какой-либо объект в окрестности демонстрирует сходства, он некоторым образом вносит вклад в сходство своих соседей.

Параметр Число соседей определяет количество дополнительных соседних объектов, которые будут использоваться при сравнении, а частичное сходство формируется по взвешенному расстоянию в порядке убывания соседей. Объект получает вес расстояния, равный 1, и веса последовательно уменьшаются для каждого дополнительного соседа по следующей формуле:

Формула веса расстояния

Ранг в формуле представляет собой порядок соседей и находится в диапазоне от 0 (для сравниваемого объекта) до числа соседей (для самого дальнего соседа). Например, при четырех соседях (пяти, включая сравниваемый объект) используются следующие пять весов расстояния: 5/5 (1), 4/5 (0,8), 3/5 (0,6), 2/5 (0,4) и 1/5 (0,2).

Примечание:

Для полигонов и линий для определения порядка ближайших соседей используется Евклидово расстояние между центроидами. Если выходная пространственная привязка является географической системой координат, используются хордовые расстояния между центроидами. Порядок соседей (а не необработанные расстояния) используется для весов расстояний, чтобы поддерживать одно и то же ожидаемое значение сходства для всех объектов, даже если их соседи находятся на разных расстояниях от сравниваемого объекта.

Выходные данные инструмента

Результаты сравнения будут возвращены в сообщениях геообработки, как составной слой выходного класса объектов, а также в виде диаграмм.

Сообщения геообработки

В сообщении будет отображена общая информация о результатах сравнения двух слоев горячих точек. Сообщения содержат следующую информацию:

  • Значение сходства — значение в диапазоне от 0 до 1, измеряющее общее сходство между двумя слоями результатов анализа горячих точек. Значение можно интерпретировать как нечеткая вероятность того, что любая пара совпадающих объектов имеет одинаковую категорию уровня значимости. Значение равно среднему значению всех локальных значений сходства.
  • Ожидаемое значение сходства — ожидаемое значение сходства, при допущении того, что два слоя результатов анализа горячих точек не связаны (независимы). Значение сходства больше ожидаемого значения указывает на зависимость между двумя картами. Это значение наиболее информативно, и используется для пересчета значения сходства при вычислении значения Каппа. Значение равно среднему значению ожидаемых локальных значений сходства.
  • Пространственная нечеткая Каппа — измерение связи между переменными анализа горячих точек, которая вычисляется пересчетом значения сходства по ожидаемому значению. Если связь результатов горячих точек выражена - это значение будет близ1, а для несвязанных (независимых) результатов это значение будет близко к 0. Отрицательные значения указывают на отрицательные отношения между переменными анализа горячих точек. Хотя значение не имеет ограничения по нижней границы, на практике они редко бывают меньше -3. Не существует строгих правил для интерпретации значений каппа, но общие рекомендации заключаются в том, чтобы интерпретировать значения выше 0,8 как почти идеальную связь, значения от 0,6 до 0,8 как сильную связь, значения от 0,4 до 0,6 как умеренную связь, значения от 0,2 до 0,4 как достоверную связь, значения от 0 до 0,2 — как слабую связь, а отрицательные значения — как отсутствие связи (или отрицательная связь для больших отрицательных значений).
  • Число незначимых объектов — число пар уровней значимости горячих точек, в которых оба объекта статистически не значимы.
    Примечание:

    Если незначимые объекты исключены, они не будут включаться в вычисления сходства, ожидаемого сходства или пространственной нечеткой каппы. Надписи изменятся на Условное значение сходства, Условное ожидаемое значение сходства, Условная пространственная нечеткая каппа и Число исключенных незначимых объектов, чтобы указать, что значения обусловлены статистически значимыми объектами.

  • В таблице сообщений Таблица весов категорий отображаются веса категорий между каждой парой уровней значимости горячих точек. Например, на изображении ниже показана таблица весов категорий для метода взвешивания сходства категорий по умолчанию:

    Сообщения Таблицы весов категорий

  • В таблице сообщения Пара уровней значимости горячей точки (количество) отображаются количества для каждой пары уровней значимости горячих точек. Например, на изображении ниже значение 440 в первой строке и втором столбце означает, что 440 пар объектов имели категорию холодная 99% в первом результате и холодная 95% во втором результате. Общие данные для строк и столбцов на полях показывают общее количество для каждого уровня значимости каждого результата горячей точки.

    Сообщения Количество пар уровней значимости горячей точки (проценты)

  • В таблице сообщений Количество пар уровней значимости горячей точки (проценты) отображается та же информация, что и в таблице количеств, но количества преобразуются в проценты от общего количества строк. Например, на изображении ниже ячейка, которая отображала 440 на изображении выше, теперь отображает 5,57 (440/7904 = 0,0557). Эта таблица используется, если два результата горячих точек считались для одной и той же переменной, измеренной в разное время. В этом случае таблица позволяет вам оценить, как категории изменились во времени между измерениями. Например, на изображении ниже показано, что среди объектов, которые в первом результате были холодные 99%, 89,26% остались как холодные 99%, 5,57% изменились на холодные 95% и так далее.

    Сообщения Количество пар уровней значимости горячих точек (проценты)

Выходные объекты и составной слой

Выходные объекты будут пересечениями входных слоев результатов горячих точек и будут содержать поля, суммируюющие локальное сходство и связь для каждой пары соответствующих объектов. Класс пространственных объектов будет иметь следующие поля:

  • Входное значение горячих точек 1 (GI_BIN_1) — целое число, представляющее категорию уровня значимости объекта из первого результата анализа горячих точек. Значения варьируются от -3 (холодная 99%) до 3 (горячая 99%). Тип поля будет long.
  • Входное значение горячих точек 2 (GI_BIN_2) — целое число, представляющее категорию уровня значимости объекта из второго результата анализа горячих точек. Тип поля будет long.
  • Уровень значимости горячих точек 1 (GI_SIG_1) — категория уровня значимости объекта из первого результата анализа горячих точек. Возможные значения: Холодная 99%, Холодная 95%, Холодная 90%, Не значимая, Горячая 90%, Горячая 95% и Горячая 99%. Тип поля будет text.
  • Уровень значимости горячих точек 2 (GI_SIG_2) — категория уровня значимости объекта из второго результата анализа горячих точек. Тип поля будет text.
  • Значение сходства (SIM_VALUE) — локальное значение сходства пары объектов. Значение будет между 0 и 1. Типа поля будет double.
  • Ожидаемое значение сходства (EXP_SIM) — ожидаемое значение сходства пары объектов. Значение будет между 0 и 1. Типа поля будет double.
  • Пространственная нечеткая каппа (KAPPA) — значение пространственной нечеткой каппы пары объектов. Типа поля будет double.
  • Комбинации уровней значимости (CAT_PAIR) — комбинация категорий уровней значимости результатов анализа горячих точек. Это поле используется в качестве основы для двух диаграмм ниже. Тип поля будет text.

Если инструмент запускается в карте, вы получаете составной слой из трех слоев, которые позволят вам пространственно изучить сходство, связь и уровень значимости пар. В первом слое показаны значения сходства, разбитые на 5 классов по равным интервалам в диапазоне от 0 до 1, и низкие значения сходства показаны более темными оттенками, чтобы выделить наиболее несвязанные участки. Во втором слое показаны значения пространственной нечеткой каппы, символами, классифицированными на 6 классов по равным интервалам. В третьем слое показаны все варианты комбинаций уровней значимости, с применением пользовательских символов для идентификации объектов, для которых в одном результирующем слое горячих точек определена статистически значимая горячая точка, а в другом - статистически значимая холодная точка (в символах уровни значимости 90%, 95% и 99% не различаются, чтобы уменьшить число комбинаций). По умолчанию первый слой включен, а два последних отключены.

Составной слой результатов сравнения

Диаграммы

Последний слой включает две диаграммы для дальнейшего изучения комбинаций уровней значимости между результатами. На диаграммах отражена та же информация, что и в таблице, но числа и проценты показаны разными цветами, что упрощает интерпретацию. Также можно использовать выборку на карте и диаграмме, чтобы выбрать, например, все объекты, у которых выявлены горячие точки с вероятностью 99% в одном слое, и холодные точки с вероятностью 99% в другом слое, что указывает на максимально возможное несходство.

Диаграмма интенсивности Количество пар уровней значимости горячей точки отображает количество для каждой комбинации уровней значимости, где более глубокими оттенками синего показаны более высокие значения. Например, на рисунке ниже показаны пары с большим количеством холодных (99%) с холодными (99% ) (вверху слева), незначимых с незначимыми (середина) и горячих (99%) с горячими (99%) (внизу справа).

Диаграмма интенсивности Количество пар уровней значимости горячей точки

На столбчатой диаграмме Количество уровней Результатов горячих точек 2 в пределах категорий уровней Результатов горячих точек 1 отображаются сложенные друг на друга горизонтальные полосы для визуализации количества каждой категории уровня значимости второго результата горячих точек в категориях первого результата. Например, на рисунке ниже подавляющее большинство горячих и холодных точек со значимостью 99% также были значимыми горячими и холодными точками (верхняя и нижняя полосы в основном синие и красные соответственно). Но среди незначимых объектов в первом результирующем слое было больше совпадающих горячих точек, чем холодных во втором результирующем слое (в среднем столбце больше красного, чем синего). Если два слоя результатов анализа горячих точек представляют измерения температур в разное время, они могут указывать на общее повышение температуры воздуха в изучаемой области во временном интервале между двумя измерениями.

Столбчатая диаграмма Количество уровней Результатов горячих точек 2 в пределах категорий уровней Результатов горячих точек 1

Пространственная нечеткая каппа

Связь между слоями результатов анализа горячих точек оценивается по значению каппа, которое количественно определяет сходство результатов по сравнению с ожидаемым сходством, если бы два результата были независимыми. Значение сходства может быть высоким из-за большого количества определенных категорий и пространственной кластеризации категорий. Значение каппа корректирует частоты категорий и пространственную кластеризацию для более точного измерения базовой связи между слоями результатов горячих точек.

Значение каппа рассчитывается путем перемасштабирования значения сходства на его ожидаемое значение в соответствии со следующей формулой:

Формула каппы

Если слои результатов горячих точек полностью схожи (значение сходства равно 1), значение каппа также будет равно 1, что указывает на идеальную связь. Если значение сходства равно его ожидаемому значению, значение каппа будет равно 0, что указывает на то, что результаты не связаны и независимы. Если значение сходства меньше ожидаемого значения, значение каппа будет отрицательным, указывая на наличие отрицательной связи между результатами горячих точек.

Каппа статистика изначально была разработана для проверки согласованности и надежности оценки с использованием шкалы Ликерта (Коэн, 1960). Первая версия статистики каппа с поправкой на частоты категорий (некоторые оценки Ликерта встречаются чаще, чем другие), но предполагала, что каждая оценка независима. В начале 2000-х годов были внесены улучшения, чтобы включить категориальное и дистанционное сходство для сравнения категориальных растров (Хаген 2003, 235-249) (Хаген-Занкер, Страатман и Ульджи 2005, 769-785) (Хаген-Занкер 2009, 61-73) (Доу и др. 2007, 726-734). Однако эти усовершенствования по-прежнему предполагали, что категории не группируются в пространстве, что неверно для результатов анализа горячих точек и большинства других пространственных категориальных переменных. Инструмент Сравнение Анализа горячих точек улучшает статистику каппа, превращая ее в пространственную нечеткую статистику каппа, которая учитывает категориальную кластеризацию (автокорреляцию) категорий уровня значимости в каждом результате горячих точек.

Расчет значения сходства

Значения локального сходства рассчитываются для каждой пары соответствующих объектов в результатах анализа горячих точек. Значение глобального сходства представляет собой среднее значение всех локальных значений сходства.

Значение сходства для пары объектов будет равно 1, если каждый из соответствующих объектов имеет одинаковую категорию уровня значимости (или категории, которые были объединены весами сходства). Значение сходства будет равно 0, когда все соседи первого результата имеют совершенно разные категории уровней значимости, чем все соседи второго результата (например, все горячие точки в первом результате и все холодные точки во втором результате). Во всех других ситуациях значения сходства будут находиться в диапазоне от 0 до 1.

Для каждой пары объектов значение сходства включает в себя вычисление двух значений сходства по направлениям и выбор меньшего из них. Сходство в направлении первого результата — это сходство от первого результата ко второму, а сходство в направлении второго результата — от второго результата к первому. Вычисление каждого влечет за собой сравнение категории объекта одного результата с соответствующим объектом другого результата и каждого из его соседей. Для соответствующего объекта и каждого соседа вес категории умножается на вес расстояния, и наибольший результат является значением сходства по направлению.

Например, на изображении ниже показаны два результата анализа горячих точек, A и B. A и B имеют по три объекта: одна горячая точка (красная), холодная точка (синяя) и незначимый объект (светло-серая). Самые большие полигоны — это первая пара объектов, наименьшие полигоны — это вторая пара объектов, а средние полигоны — это третья пара объектов. Чтобы помочь определить, какие полигоны ближе к другим полигонам, показаны их центроиды; первый полигон немного ближе ко второму полигоны, чем к третьему.

Пример вычисления сходства

Для этого примера предположим, что вес категории между совпадающими категориями (горячие к горячим, холодные к холодным и незначимые к незначимым) равен 1, вес между горячими и холодными точками равен 0, а вес между незначимыми объектами и горячими и холодными точками равен 1/2.

В следующей таблице показаны веса категорий, веса расстояний и сходство по направлению от результата A к результату B. Значение сходства в последнем столбце вычисляется путем умножения веса расстояния и веса категории:

КомбинацияВес расстоянияВес категорииСходство

От A1 к B1

1 (соответствующий объект)

0 (холодная с горячей)

0

От A1 к B2

2/3 (первый сосед)

1/2 (холодная с незначимой)

1/3 = 0.33

От A1 к B3

1/3 (второй сосед)

Холодная с холодной

1/3 = 0.33

Наибольшее сходство результата A с результатом B составляет 0.33, и это наблюдается для двух комбинаций соседей. В следующей таблице показано сходство по направлению от результата B к результату A.

КомбинацияВес расстоянияВес категорииСходство

От B1 к A1

1 (соответствующий объект)

0 (горячая с холодной)

0

От B1 к A2

2/3 (первый сосед)

1 (горячая с горячей)

2/3 = 0.67

От B1 к A3

1/3 (второй сосед)

1/2 (горячая с незначимой)

1/6 = 0.17

Наибольшее сходство результата В с результатом А составляет 0.67.

Значение локального сходства для пары объектов — это меньшее из двух сходств по направлениям (от A к B и от B к A), поэтому значение сходства первой пары объектов равно 0.33. Эта же процедура используется для вычисления значения сходства для второй и третьей пар объектов, и в этом примере обе имеют значения сходства, равные 0.5. Значение глобального сходства — это среднее значение сходства всех пар объектов, и для этого примера значение глобального сходства составляет 4/9 = 0.44.

Если незначимые объекты исключены, их значения сходства не будут рассчитываться, и они не будут включены в среднее значение глобального значения сходства; однако они по-прежнему будут использоваться в качестве соседей при вычислении значения сходства для объектов, которые не исключены.

Примечание:

В этом примере использовались результаты горячих точек, которые имели только три пары объектов и три категории уровня значимости, чтобы уменьшить количество комбинаций. Однако для использования инструмента требуется не менее 20 пар объектов, а веса категорий должны быть предоставлены между всеми семью категориями уровней значимости.

Расчет ожидаемого значения сходства

Для каждого объекта вычисление ожидаемого значения сходства использует ту же процедуру, что и значение сходства, только объект первого результата связывается в пару со случайными объектами второго результата, а не с соответствующим ему объектом.

Случайные окрестности
Каждый объект первого результата анализа горячих точек случайным образом связывается в пары с несколькими объектами второго результата.

При сравнении случайных окрестностей ожидаемое значение учитывает частоту категорий (более распространенные категории с большей вероятностью будут выбраны случайным образом) и кластеризацию категорий внутри окрестностей (случайные окрестности, вероятно, будут содержать кластеры объектов с похожими категориями уровня значимости). Значение сходства для каждой случайной пары является единственной оценкой значения сходства при допущении, что результаты двух горячих точек независимы. Чтобы вычислить ожидаемое значение сходства объекта, каждый объект первого результата сопоставляется с несколькими случайными соседями, а случайные значения сходства усредняются. Параметр Число перестановок указывает количество случайных пар для каждого объекта. Большее количество перестановок увеличит время работы инструмента и повысит точность ожидаемого сходства и значений каппа.

Глобальное ожидаемое значение сходства — это среднее ожидаемых значений сходства всех пар объектов. Если незначимые объекты исключены, исключенные объекты никогда не будут выбраны в качестве случайных соседей, и их ожидаемое значение сходства не будет вычислено; однако они все еще могут быть включены в качестве соседей случайно выбранных объектов.

Примечание:

Глобальное ожидаемое значение сходства представляет собой несмещенную оценку истинного глобального ожидаемого значения при допущении отсутствия зависимости между двумя результатами. Однако дисперсия глобального ожидаемого значения не совпадает с дисперсией глобального значения сходства из-за корреляций между перекрывающимися соседями. Это означает, что традиционные p-значения перестановки на основе рангов для значения глобального сходства недействительны для этой процедуры. Совершенствование методологии для поддержки тестирования значимости является областью активных исследований.

Лучшие практики и ограничения

При использовании инструмента учитывайте следующее:

  • Выбор весов сходства категорий и необходимость исключения незначимых объектов следует из вопросов, на которые вы хотите ответить, выполняя сравнения. Вы не должны выбирать значения и параметры только для максимизации или минимизации сходства или связи между результатами анализа горячих точек. Например, несмотря на то, что вы можете использовать веса сходства категорий для объединения категорий горячая 99% и холодная 90%, такое сравнение, скорее всего, не даст ответа на поставленный вопрос, если только нет оснований полагать, что следует категория горячая 99% в одном результате аналогична категории холодная 90% в другом результате. Точно так же исключение или включение незначимых объектов должно определяться тем, представляют ли незначимые области области исследовательского интереса.
  • Если какой-либо из входных слоев результатов анализа горячих точек содержит перекрывающиеся полигоны, перекрытия будут пересечены в новые объекты. Это может привести к тому, что значения сходства не будут равны 1 даже для слоев результатов с одинаковыми категориями уровней значимости. Можно использовать параметр среды Допуск по XY для удаления непреднамеренных перекрытий, таких как ошибки геокодирования. Рекомендуется просмотреть количество объектов в выходных объектах, чтобы определить, не больше ли пересечений, чем ожидалось.
  • Если два результата анализа горячих точек представляют собой полигоны разных размеров, пересечение разделит большие полигоны на множество небольших полигонов. Это изменит количество категорий уровня значимости и повлияет на сходство и связь. Для использования инструмента должно быть пересечение не менее 20 объектов.
  • Изменение порядка входных слоев результатов анализа горячих точек не влияет на значение сходства, но ожидаемое значение сходства и значение каппа немного изменятся из-за случайности в перестановках. Также в сообщениях, в таблицах и даиграммах оси поменяются местами, что упростит интерпретацию в ряде случаев. Так как в сообщениях и диаграммах показываются количества категорий уровней значимости второго слоя результатов горячих точек в пределах категорий первого слоя, поменяв порядок входных слоев, вы получите отображение категорий первого слоя в пределах категорий второго слоя.

Список литературы

Коэн, Джейкоб. 1960. "A coefficient of agreement for nominal scales." Educational and Psychological Measurement. 20:1, 37-46. https://doi.org/10.1177/001316446002000104.

Доу, Вэйбэй, Юань Рен, Цянь Ву, Су Руань, Яньпин Чен, Даниэль Блуа и Жан-Марк Констанс. 2007. "Fuzzy kappa for the agreement measure of fuzzy classifications." Neurocomputing. 70, 726-734. https://dx.doi.org/10.1016/j.neucom.2006.10.007.

Хаген, Алекс. 2003. "Fuzzy set approach to assessing similarity of categorical maps." International Journal of Geographical Information Science. 17:3, 235-249. https://doi.org/10.1080/13658810210157822.

Хаген-Занкер, Алекс, Бас Страатман и Инге Улжи. 2005. "Further developments of a fuzzy set map comparison approach." International Journal of Geographical Information Science. 19:7, 769-785. https://doi.org/10.1080/13658810500072137.

Хаген-Занкер, Алекс. 2009. "An improved Fuzzy Kappa statistic that accounts for spatial autocorrelation." International Journal of Geographical Information Science. 23:1, 61-73. https://doi.org/10.1080/13658810802570317.