Определение пространственных выбросов (Пространственная статистика)

Краткая информация

Определяет глобальные и локальные пространственные выбросы у точечных объектов.

Глобальный выброс - это точка, которая находится далеко от всех других точек класса пространственных объектов. Глобальные выбросы обнаруживаются путем изучения расстояний между каждой точкой и одним из ее ближайших соседей (по умолчанию, ближайшим соседом) и обнаружения точек с большим расстоянием.

Локальный выброс - это точка, которая находится дальше от своих соседей, чем можно было бы ожидать, исходя из плотности точек в окружающей области. Локальные выбросы обнаруживаются путем вычисления коэффициента локального выброса (LOF) для каждого объекта. LOF - это показатель, который характеризует, насколько изолировано местоположение по сравнению с его локальными соседями. Более высокое значение LOF указывает на более высокую степень изоляции. Этот инструмент также может использоваться для создания растровой поверхности интерполяции, которая может использоваться для оценки, будут ли новые объекты классифицироваться как выбросы, в зависимости от пространственного распределения данных.

Подробнее о том, как работает Определение пространственных выбросов

Иллюстрация

Иллюстрация инструмента Определение пространственных выбросов

Использование

  • Инструмент определяет точки, указанные в параметре Входные объекты как выбросы или как точки, соответствующие модели. Параметр Сохранить только пространственные выбросы можно использовать для возврата только тех точек, которые были идентифицированы как выбросы.

  • Инструмент использует локальное соседство вокруг каждого объекта, заданную параметром Число соседей. Для обнаружения локальных выбросов используются все точки в окрестности, а значение по умолчанию оценивается инструментом во время выполнения. Для обнаружения глобального выброса используется только самый дальний сосед в окрестности, а значение по умолчанию равно 1 (ближайший сосед). Например, значение 3 указывает, что глобальные выбросы обнаруживаются с использованием расстояний до третьего ближайшего соседа каждой точки.

  • При обнаружения локальных выбросов параметр Процент местоположений, считающихся выбросами используется для задания порога LOF, позволяющего считать объект выбросом или соответствующим модели.

    Примечание:

    Небольшие различия в значениях параметра Процент местоположений, считающихся выбросами могут привести к неизменности числа выходных объектов, определенных как выбросы. Это может произойти, когда сходство в пространственном распределении объектов создает одинаковые значения LOF у нескольких объектов.

  • Выходной слой включает две диаграммы. Первая - это линейчатая диаграмма, отображающая число выбросов и объектов, соответствующих модели. Вторая диаграмма - гистограмма. При обнаружения локальных выбросов гистограмма показывает распределение значений LOF для всех точечных объектов и границы LOF, использованной для определения выброса или соответствия модели. Для обнаружения глобальных выбросов эта гистограмма показывает распределение расстояний между соседями и соответствующее пороговое значение.

  • Если значение параметра Входные объекты имеет z-координаты, инструмент будет учитывать 3D-природу данных, определяя пространственные выбросы в 3D пространстве. При добавлении к виду сцены, выходные объекты отображаются в 3D для визуализации 3D пространственных выбросов. Если единицы измерения координаты z (например, метры) не заданы в вертикальной системе координат, предполагается, что единицы измерения совпадают с координатами x, y.

  • Параметр Выходной растр прогнозирования - это дополнительные выходные данные, которые отображают значения, использованные для определения того, является ли каждая ячейка выбросом, в виде непрерывной поверхности для изучаемой области. При обнаружении локальных выбросов растр содержит значение LOF, вычисленное для ячейки. При обнаружении глобальных выбросов растр содержит расстояние до ближайшего соседа. Выходные данные можно использовать для определения того, являются ли будущие наблюдения выбросами, без необходимости пересчитывать значение новой точки. Выходные данные могут быть созданы только для входных 2D-объектов.

    Примечание:

    Расстояния до соседей и значения LOF точек не будут соответствовать значениям ячеек растра под каждой точкой, даже если точки совпадают с центром ячейки растра. Это происходит потому, что объект не использует самого себя в качестве соседства, а ячейка растра использует объект как соседство, поэтому каждое вычисление использует различные соседства и создает разные значения.

  • Для получения дополнительной информации о локальном факторе выброса и параметрах оптимизации см. в:

    • Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). "LOF: identifying density-based local outliers." Материалы международной конференции 2000 ACM SIGMOD, посвященной управлению данными. (pp. 93-104).
    • Xu, Z., Kakde, D., Chaudhuri, A. (2019). "Automatic Hyperparameter Tuning Method for Local Outlier Factor, with Applications to Anomaly Detection." 2019 IEEE Международная конференция по Большим данным. (pp. 4201-4207).

Параметры

ПодписьОписаниеТип данных
Входные объекты

Точечные объекты, которые будут использоваться для построения модели обнаружения пространственных выбросов. Каждая точка будет классифицирована как выброс или соответствующая модели, в зависимости от ее локального фактора выброса.

Feature Layer
Выходные объекты

Выходной класс объектов, содержащий локальный фактор выброса для каждого входного объекта, а также индикатор, является ли точка пространственным выбросом.

Feature Class
Число соседей
(Дополнительный)

Количество соседей, которые будут использоваться для обнаружения пространственных выбросов для каждой входной точки.

Для обнаружения локальных выбросов это значение должно быть не менее 2, и все объекты в пределах данной окрестности будут использоваться в качестве соседей. Если значение не задано, оно будет получено в процессе выполнения и показано в сообщении геообработки.

Для обнаружения глобальных выбросов будет использоваться только самый дальний сосед в окрестности, по умолчанию - 1 (ближайший сосед). Например, значение 3 указывает, что глобальные выбросы обнаруживаются с использованием расстояний до третьего ближайшего соседа каждой точки.

Long
Процент местоположений, считающихся выбросами
(Дополнительный)

Процент местоположений, которые будут идентифицироваться как пространственные выбросы путем определения порогового значения коэффициента локальных выбросов. Если значение не задано, оно будет получено в процессе выполнения и показано в сообщении геообработки. Не более 50 процентов объектов могут быть идентифицированы как пространственные выбросы.

Double
Выходной растр прогнозирования
(Дополнительный)

Выходной растр, содержащий локальные факторы выбросов в каждой ячейке, вычисляется на основе пространственного распределения входных объектов.

Этот параметр доступен только при условии наличия лицензии Desktop Advanced.

Raster Dataset
Тип выброса
(Дополнительный)

Задает тип обнаруживаемого выброса. Глобальный выброс - это точка, которая находится далеко от всех других точек класса пространственных объектов. Локальный выброс - это точка, которая находится дальше от своих соседей, чем можно было бы ожидать, исходя из плотности точек в окружающей области.

  • ГлобальныйБудут обнаружены глобальные выбросы входных точек. Это значение по умолчанию
  • ЛокальныеБудут обнаружены локальные выбросы входных точек.
String
Чувствительность обнаружения
(Дополнительный)

Задает уровень чувствительности, который будет использоваться для обнаружения глобальных выбросов. Чем выше чувствительность, тем больше точек будет обнаружено как выбросы.

Значение чувствительности будет определять порог, и любая точка с расстоянием соседства, превышающим этот порог, будет идентифицирована как глобальный выброс. Пороговые значения определяются с использованием правила прямоугольной диаграммы, в котором порог высокой чувствительности составляет один межквартильный диапазон выше третьего квартиля. Для средней чувствительности порог составляет 1,5 интерквартильных диапазона выше третьего квартиля. Для низкой чувствительности порог составляет два интерквартильных диапазона выше третьего квартиля.

  • НизкоеВыбросы будут обнаруживаться с использованием низкой чувствительности. Эта опция обнаружит наименьшее количество выбросов.
  • СреднееВыбросы будут обнаруживаться с использованием средней чувствительности. Это значение по умолчанию
  • ВысокоеВыбросы будут обнаруживаться с использованием высокой чувствительности. Эта опция обнаружит наибольшее количество выбросов.
String
Сохранить только пространственные выбросы
(Дополнительный)

Определяет, будут ли выходные объекты содержать все входные объекты или только объекты, идентифицированные как пространственные выбросы.

  • Отмечено - выходные объекты будут содержать только те объекты, которые определены как пространственные выбросы.
  • Не отмечено - выходные объекты будут содержать все входные объекты. Это значение по умолчанию

Boolean

arcpy.stats.SpatialOutlierDetection(in_features, output_features, {n_neighbors}, {percent_outlier}, {output_raster}, {outlier_type}, {sensitivity}, {keep_type})
ИмяОписаниеТип данных
in_features

Точечные объекты, которые будут использоваться для построения модели обнаружения пространственных выбросов. Каждая точка будет классифицирована как выброс или соответствующая модели, в зависимости от ее локального фактора выброса.

Feature Layer
output_features

Выходной класс объектов, содержащий локальный фактор выброса для каждого входного объекта, а также индикатор, является ли точка пространственным выбросом.

Feature Class
n_neighbors
(Дополнительный)

Количество соседей, которые будут использоваться для обнаружения пространственных выбросов для каждой входной точки.

Для обнаружения локальных выбросов это значение должно быть не менее 2, и все объекты в пределах данной окрестности будут использоваться в качестве соседей. Если значение не задано, оно будет получено в процессе выполнения и показано в сообщении геообработки.

Для обнаружения глобальных выбросов будет использоваться только самый дальний сосед в окрестности, по умолчанию - 1 (ближайший сосед). Например, значение 3 указывает, что глобальные выбросы обнаруживаются с использованием расстояний до третьего ближайшего соседа каждой точки.

Long
percent_outlier
(Дополнительный)

Процент местоположений, которые будут идентифицироваться как пространственные выбросы путем определения порогового значения коэффициента локальных выбросов. Если значение не задано, оно будет получено в процессе выполнения и показано в сообщении геообработки. Не более 50 процентов объектов могут быть идентифицированы как пространственные выбросы.

Double
output_raster
(Дополнительный)

Выходной растр, содержащий локальные факторы выбросов в каждой ячейке, вычисляется на основе пространственного распределения входных объектов.

Этот параметр доступен только при условии наличия лицензии Desktop Advanced.

Raster Dataset
outlier_type
(Дополнительный)

Задает тип обнаруживаемого выброса. Глобальный выброс - это точка, которая находится далеко от всех других точек класса пространственных объектов. Локальный выброс - это точка, которая находится дальше от своих соседей, чем можно было бы ожидать, исходя из плотности точек в окружающей области.

  • GLOBALБудут обнаружены глобальные выбросы входных точек. Это значение по умолчанию
  • LOCALБудут обнаружены локальные выбросы входных точек.
String
sensitivity
(Дополнительный)

Задает уровень чувствительности, который будет использоваться для обнаружения глобальных выбросов. Чем выше чувствительность, тем больше точек будет обнаружено как выбросы.

Значение чувствительности будет определять порог, и любая точка с расстоянием соседства, превышающим этот порог, будет идентифицирована как глобальный выброс. Пороговые значения определяются с использованием правила прямоугольной диаграммы, в котором порог высокой чувствительности составляет один межквартильный диапазон выше третьего квартиля. Для средней чувствительности порог составляет 1,5 интерквартильных диапазона выше третьего квартиля. Для низкой чувствительности порог составляет два интерквартильных диапазона выше третьего квартиля.

  • LOWВыбросы будут обнаруживаться с использованием низкой чувствительности. Эта опция обнаружит наименьшее количество выбросов.
  • MEDIUMВыбросы будут обнаруживаться с использованием средней чувствительности. Это значение по умолчанию
  • HIGHВыбросы будут обнаруживаться с использованием высокой чувствительности. Эта опция обнаружит наибольшее количество выбросов.
String
keep_type
(Дополнительный)

Определяет, будут ли выходные объекты содержать все входные объекты или только объекты, идентифицированные как пространственные выбросы.

  • KEEP_OUTLIERВыходные объекты будут содержать только те объекты, которые определены как пространственные выбросы.
  • KEEP_ALLВыходные объекты будут содержать все входные объекты. Это значение по умолчанию
Boolean

Пример кода

SpatialOutlierDetection, пример 1 (окно Python)

Пример скрипта в окне Python для использования функции SpatialOutlierDetection.


arcpy.stats.SpatialOutlierDetection("Transaction_Locations", 
            "Transactions_SpatialOutliers", 20, 5, 
            "Transactions_OutliersPredictionSurface")
SpatialOutlierDetection, пример 2 (автономный скрипт)

Следующий автономный Python скрипт демонстрирует, как использовать функцию SpatialOutlierDetection.


# Import system modules.
import arcpy

try:
    # Set the workspace and input features.
    arcpy.env.workspace = 'C:\\SpatialOutlierDetection\\MyData.gdb'
    inputFeatures = "PM25_AirQualityStations"

    # Set the name of the output features
    outputFeatures = "AirQualityStations_SpatialOutliers"

    # Set the number of neighbors
    numberNeighbors = 8

    # Set the percentage of locations considered outliers
    pcntLocationsAsOutliers = 10

    # Set the output prediction raster
    outputPredictionRaster = airQualityStations_OutPredictionRaster


    # Run the Spatial Outlier Detection tool
    arcpy.stats.SpatialOutlierDetection(inputFeatures, outputFeatures, 
            numberNeighbors, pcntLocationsAsOutliers, outputPredictionRaster)

except arcpy.ExecuteError:
    # If an error occurred when running the tool, print the error message.
    print(arcpy.GetMessages())

Параметры среды

Особые случаи

Размер ячейки

Этот параметр среды влияет только на выходной растр.

Маска

Этот параметр среды влияет только на выходной растр.

Растр привязки

Этот параметр среды влияет только на выходной растр.

Экстент

Этот параметр среды влияет только на выходной растр.