Локальные бивариантные отношения (Пространственная статистика)

Краткая информация

Анализирует две переменные на предмет статистически значимых отношений с использованием локальной энтропии. Каждый объект классифицируется в одной из шести категорий на основании типа отношений. Выходные данные можно использовать для визуализации областей, где существуют отношения между переменными и изучения изменений отношений в пределах области изучения.

Более подробно о том, как работает инструмент Локальные бивариантные отношения

Иллюстрация

Иллюстрация инструмента Локальные бивариантные отношения
Обнаружение и визуализация локального отношения между двумя переменными.

Использование

  • Инструмент использует точки или полигоны в качестве входных данных и для переменных требует непрерывные данные. Не подходит для бинарных или категорийных данных.

  • Рекомендуется хранить выходные объекты в базе геоданных, а не как шейп-файл (.shp). Шейп-файлы не могут хранить значения null в атрибутах и диаграммы во всплывающих диалоговых окнах.

  • Каждому входному объекту присваивается одна из следующих категорий отношений, исходя из того, насколько достоверно Независимая переменная может спрогнозировать значения Зависимой переменной:

    • Не значимы - между переменными не выявлено статистически значимых отношений.
    • Линейные положительные - зависимая переменная линейно возрастает с ростом независимой переменной.
    • Линейные отрицательные - зависимая переменная линейно снижается с ростом независимой переменной.
    • Вогнутые - зависимая переменная изменяется, образуя вогнутую кривую с ростом независимой переменной.
    • Выпуклые - зависимая переменная изменяется, образуя выпуклую кривую с ростом независимой переменной.
    • Сложные неопределенные – переменные значимо связаны, но тип отношений не может быть корректно описан какой-либо категорией.

  • Наличие или отсутствие отношения между двумя переменными не зависят от того, какая из них назначается независимой, а какая - зависимой. Например, если диабет связан с ожирением, то и ожирение аналогично связано с диабетом. Тем не менее, классификация типов отношений может меняться, в зависимости от того, какая из переменных назначается независимой, а какая - зависимой. Одна переменная может точно прогнозировать значения второй переменной, но вторая переменная не может точно прогнозировать значения первой. Если вы не уверены, какая переменную стоит назначить зависимой, а какую – независимой, запустите инструмент два раза и попробуйте оба варианта.

  • Инструмент поддерживает параллельную обработку и использует до 50 % доступной мощности процессора по умолчанию. Количество используемых процессоров можно изменить при помощи параметра среды Коэффициент параллельной обработки.

Параметры

ПодписьОписаниеТип данных
Входные объекты

Класс объектов, содержащий поля, представляющие значения Зависимой переменной и Независимой переменной.

Feature Layer
Зависимая переменная

Числовое поле, представляющее значения зависимой переменной. При классификации отношений значение Независимая переменная используется для прогнозирования значения Зависимой переменной.

Field
Независимая переменная

Числовое поле, представляющее значения независимой переменной. При классификации отношений значение Независимая переменная используется для прогнозирования значения Зависимой переменной.

Field
Выходные объекты

Выходной класс объектов, содержащий все входные объекты с полями, представляющими значения Зависимой переменной, Независимой переменной, оценку энтропии, псевдо-вероятность (p), уровень достоверности, тип категории отношения и диагностику, относящуюся к категориям.

Feature Class
Число соседей
(Дополнительный)

Число соседних объектов вокруг каждого объекта (включая сам объект) которое будет использовано для тестирования локальных отношений между переменными. Число соседних объектов должно быть в пределах от 30 до 1000, по умолчанию – 30. Указанное значение должно быть достаточно большим для выявления отношений между объектами, но достаточно небольшим для сохранения возможности идентификации локальных закономерностей.

Long
Число перестановок
(Дополнительный)

Указывает количество перестановок, которые будут использоваться для вычисления псевдо (p) вероятности для каждого объекта. Выбор числа перестановок является компромиссом между точностью псевдо p-значением и временем обработки.

  • 99 перестановокС 99 перестановками, минимально возможное псевдо p-значение равно 0.01, а все остальные псевдо p-значения будут кратны этому значению.
  • 199 перестановокС 199 перестановками, минимально возможное псевдо p-значение равно 0.005, а все остальные псевдо p-значения будут кратны этому значению. Это значение по умолчанию
  • 499 перестановокС 499 перестановками, минимально возможное псевдо p-значение равно 0.002, а все остальные псевдо p-значения будут кратны этому значению.
  • 999 перестановокС 999 перестановками, минимально возможное псевдо p-значение равно 0.001, а все остальные псевдо p-значения будут кратны этому значению.
Long
Включение всплывающих окон с локальными точечными диаграммами
(Дополнительный)

Указывает, будут ли созданы точечные диаграммы во всплывающих окнах для каждого выходного объекта. Каждая точечная диаграмма отображает значения независимой (горизонтальная ось) и зависимой (вертикальная ось) переменных, а также линию или кривую соответствия, визуализирующую форму отношения. Точечные диаграммы не поддерживаются, если выходные данные заданы в виде шейп-файла.

  • Отмечено – будут созданы локальные точечные диаграммы во всплывающих окнах для каждого выходного объекта в наборе данных. Это значение по умолчанию
  • Не отмечено – локальные точечные диаграммы во всплывающих окнах не будут созданы.
Boolean
Уровень достоверности
(Дополнительный)

Определяет уровень достоверности для гипотезы значимости отношений.

  • 90%Уровень достоверности 90 процентов. Это значение по умолчанию
  • 95%Уровень достоверности 95 процентов.
  • 99%Уровень достоверности 99 процентов.
String
Применить коррекцию средней доли ложных отклонений гипотезы (FDR)
(Дополнительный)

Указывает, будет ли применена коррекция средней доли ложных отклонений гипотезы (FDR) для псевдо p-значений.

  • Отмечено – статистическая значимость будет рассчитана с учетом коррекции FDR. Это значение по умолчанию
  • Не отмечено – статистическая значимость будет рассчитана с учетом псевдо p-значения.
Boolean
Коэффициент масштабирования (Альфа)
(Дополнительный)

Уровень чувствительности к определению неявных отношений между переменными. Большие значения (близко к единице) позволяют выявить относительно слабо выраженные отношения, а небольшие значения (близкие к нулю) позволяют выявить только явно выраженные отношения. Небольшие значения также больше устойчивы к выбросам. Значения должны быть в пределах от 0.01 и 1, по умолчанию – 0.5.

Double

arcpy.stats.LocalBivariateRelationships(in_features, dependent_variable, explanatory_variable, output_features, {number_of_neighbors}, {number_of_permutations}, {enable_local_scatterplot_popups}, {level_of_confidence}, {apply_false_discovery_rate_fdr_correction}, {scaling_factor})
ИмяОписаниеТип данных
in_features

Класс объектов, содержащий поля, представляющие значения dependent_variable и explanatory_variable.

Feature Layer
dependent_variable

Числовое поле, представляющее значения зависимой переменной. При классификации отношений значение explanatory_variable используется для прогнозирования значения dependent_variable.

Field
explanatory_variable

Числовое поле, представляющее значения независимой переменной. При классификации отношений значение explanatory_variable используется для прогнозирования значения dependent_variable.

Field
output_features

Выходной класс объектов, содержащий все входные объекты с полями, представляющими значения dependent_variable, explanatory_variable, оценку энтропии, псевдо-вероятность (p), уровень достоверности, тип категории отношения, и диагностику, относящуюся к категориям.

Feature Class
number_of_neighbors
(Дополнительный)

Число соседних объектов вокруг каждого объекта (включая сам объект) которое будет использовано для тестирования локальных отношений между переменными. Число соседних объектов должно быть в пределах от 30 до 1000, по умолчанию – 30. Указанное значение должно быть достаточно большим для выявления отношений между объектами, но достаточно небольшим для сохранения возможности идентификации локальных закономерностей.

Long
number_of_permutations
(Дополнительный)

Указывает количество перестановок, которые будут использоваться для вычисления псевдо (p) вероятности для каждого объекта. Выбор числа перестановок является компромиссом между точностью псевдо p-значением и временем обработки.

  • 99С 99 перестановками, минимально возможное псевдо p-значение равно 0.01, а все остальные псевдо p-значения будут кратны этому значению.
  • 199С 199 перестановками, минимально возможное псевдо p-значение равно 0.005, а все остальные псевдо p-значения будут кратны этому значению. Это значение по умолчанию
  • 499С 499 перестановками, минимально возможное псевдо p-значение равно 0.002, а все остальные псевдо p-значения будут кратны этому значению.
  • 999С 999 перестановками, минимально возможное псевдо p-значение равно 0.001, а все остальные псевдо p-значения будут кратны этому значению.
Long
enable_local_scatterplot_popups
(Дополнительный)

Указывает, будут ли созданы точечные диаграммы во всплывающих окнах для каждого выходного объекта. Каждая точечная диаграмма отображает значения независимой (горизонтальная ось) и зависимой (вертикальная ось) переменных, а также линию или кривую соответствия, визуализирующую форму отношения. Точечные диаграммы не поддерживаются, если выходные данные заданы в виде шейп-файла.

  • CREATE_POPUPБудут созданы локальные точечные диаграммы во всплывающих окнах для каждого выходного объекта в наборе данных. Это значение по умолчанию
  • NO_POPUPЛокальные точечные диаграммы во всплывающих окнах не будут созданы.
Boolean
level_of_confidence
(Дополнительный)

Определяет уровень достоверности для гипотезы значимости отношений.

  • 90%Уровень достоверности 90 процентов. Это значение по умолчанию
  • 95%Уровень достоверности 95 процентов.
  • 99%Уровень достоверности 99 процентов.
String
apply_false_discovery_rate_fdr_correction
(Дополнительный)

Указывает, будет ли применена коррекция средней доли ложных отклонений гипотезы (FDR) для псевдо p-значений.

  • APPLY_FDRСтатистическая значимость будет рассчитана с учетом коррекции FDR. Это значение по умолчанию
  • NO_FDRСтатистическая значимость будет рассчитана с учетом псевдо p-значения.
Boolean
scaling_factor
(Дополнительный)

Уровень чувствительности к определению неявных отношений между переменными. Большие значения (близко к единице) позволяют выявить относительно слабо выраженные отношения, а небольшие значения (близкие к нулю) позволяют выявить только явно выраженные отношения. Небольшие значения также больше устойчивы к выбросам. Значения должны быть в пределах от 0.01 и 1, по умолчанию – 0.5.

Double

Пример кода

LocalBivariateRelationships пример 1 (окно Python)

Пример скрипта в окне Python для использования функции LocalBivariateRelationships.

import arcpy
arcpy.env.workspace = 'C:\\LBR\\MyData.gdb'
arcpy.stats.LocalBivariateRelationships('ObesityDiabetes', 'ObesityRate', 
                   'DiabetesRate','LBR_Results', 30, '199', 'CREATE_POPUP', 
                   '95%', 'APPLY_FDR', 0.5)
LocalBivariateRelationships пример 2 (автономный скрипт)

Следующий автономный Python скрипт демонстрирует, как использовать функцию LocalBivariateRelationships.

# Use the Local Bivariate Relationships tool to study the relationship between
# obesity and diabetes.

# Import system modules.
import arcpy
import os

# Set property to overwrite existing output by default.
arcpy.env.overwriteOutput = True

try:
    # Set the workspace and input features.
    arcpy.env.workspace = r"C:\\LBR\\MyData.gdb"
    inputFeatures = 'ObesityDiabetes'

    # Set the output workspace and output name.
    outws = 'C:\\LBR\\outputs.gdb'
    outputName = 'LBR_Results'

    # Set input features, dependent variable, and explanatory variable.
    depVar = 'DiabetesRate'
    explVar = 'ObesityRate'

    # Set number of neighbors and permutations.
    numNeighbors = 50
    numPerms = '999'

    # Choose to create pop-ups.
    popUps = 'CREATE_POPUP'

    # Choose confidence level and apply False Discovery Rate correction.
    confLevel = '95%'
    fdr = 'APPLY_FDR'

    # Set the scaling factor.
    scaleFactor = 0.5

    # Run Local Bivariate Relationships.
    arcpy.stats.LocalBivariateRelationships(inputFeatures, depVar, explVar, 
                                            os.path.join(outws, outputName), 
                                            numNeighbors, numPerms, popUps, 
                                            confLevel, fdr, scaleFactor)

except arcpy.ExecuteError:
    # If an error occurred when running the tool, print the error message.
    print(arcpy.GetMessages())