Поиск кластеров точек (GeoAnalytics Desktop)

Краткая информация

Находит кластеры точечных объектов в окружающем шуме, на основе пространственного или пространственно-временного распределения.

Более подробно о работе инструмента Кластеризация на основе плотности

Иллюстрация

Иллюстрация работы инструмента Поиск кластеров точек

Использование

  • В инструменте Поиск кластеров точек используется один входной точечный слой. Этот инструмент извлекает кластеры из Входного точечного слоя и определяет окружающий шум.

  • Для инструмента Поиск кластеров точек необходимо, чтобы Входной точечный слой был в системе координат проекции, или чтобы параметр среды Выходная система координат был установлен на система координат проекции.

  • Есть два Метода кластеризации. Заданное расстояние (DBSCAN) использует алгоритм DBSCAN и находит кластеры точек в непосредственной близости, на основе заданного расстояния поиска. Автонастройка (HDBSCAN) применяет алгоритм HDBSCAN и находит кластеры точек так же, как и DBSCAN, но работает с меняющимися расстояниями, позволяя определить кластеры с меняющимися плотностями, на основе вероятности кластеров (или стабильности). Если выбран DBSCAN, кластеры могут быть найдены либо только в двумерном пространстве, либо и в пространстве, и во времени. Если вы установите отметку Использовать время для поиска кластеров, а входной слой имеет включенное время и тип Мгновенный, DBSCAN обнаружит пространственно-временные кластеры точек, находящихся в непосредственной близости, на основе заданного расстояния поиска и продолжительности поиска.

  • Параметр Минимальное число объектов на кластер, используется по-разному, в зависимости от выбранного метода кластеризации:

    • Заданное расстояние (DBSCAN) – определяет число объектов, которое должно быть найдено в радиусе поиска от точки, с которой начинается формирование кластера. В результатах могут встречаться кластеры с меньшим числом объектов, чем задано этим значением. Расстояние поиска настраивается в параметре Расстояние поиска. При использовании времени для поиска кластеров требуется Длительности поиска. При поиске содержимого кластеров Минимальное число объектов на кластер должно находиться в пределах Расстояния поиска и Длительности поиска, чтобы сформировать кластер. Обратите внимание, что это расстояние и длительность не связаны с диаметром или временным экстентом обнаруженных кластеров точек.
    • Самонастраивающаяся кластеризация (HDBSCAN)–- задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.

  • Этот инструмент создает выходной класс объектов с новым целочисленным полем CLUSTER_ID, где обозначается принадлежность объектов кластерам. Отображение по умолчанию основано на поле COLOR_ID. Разным кластерам присваиваются различные цвета. Цвета распределяются и повторяются таким образом, что каждый кластер визуально отличается от соседних.

  • Если для обнаружения пространственно-временных кластеров используется метод кластеризации Заданное расстояние (HDBSCAN), в результаты также будут включены следующие поля:

    • FEAT_TIME – Исходное мгновенное время каждого объекта.
    • START_DATETIME – время начала временного экстента кластера, к которому принадлежит объект.
    • END_DATETIME – время окончания временного экстента кластера, к которому принадлежит объект.

    Свойства времени результирующего слоя будут установлены как интервал в полях START_DATETIME и END_DATETIME, гарантируя, что все элементы кластера будут нарисованы вместе при визуализации пространственно-временных кластеров с помощью бегунка времени. Эти поля используются только для визуализации. Для объектов шума поля START_DATETIME и END_DATETIME будут равны FEAT_TIME.

  • Если выбран Метод кластеризации Автонастройка (HDBSCAN), в выходном классе объектов также будут содержаться следующие поля:

    • PROB – вероятность принадлежности объекта к назначенному ему кластеру.
    • OUTLIER – вероятность того, что объект является выбросом со своим собственным кластером. Более значение означает большую вероятность выброса.
    • EXEMPLAR – обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1.
    • STABILITY - присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов.

  • Можно повысить производительность инструмента Найти кластеры точек, выполнив одно или несколько из следующих действий:

    • Установите параметр среды Экстент так, чтобы вы анализировали только интересующие вас данные.
    • Выбирайте расстояние и длительность поиска. Меньшее расстояние поиска или радиус могут работать лучше на тех же данных.
    • Используйте локальные данные там, где запускается анализ.

  • Этот инструмент геообработки работает на Spark. Анализ выполняется на настольном компьютере с использованием параллельно работающих ядер. Чтобы узнать больше о выполнении анализа см. раздел Информация по инструментами GeoAnalytics Desktop.

  • При запуске инструментов GeoAnalytics Desktop аналитика выполняется на настольном компьютере. Для оптимальной производительности, данные должны быть доступны на настольном ПК. Если используется размещенный векторный слой, рекомендуется применить ArcGIS GeoAnalytics Server. Если данные не являются локальными, инструмент будет работать дольше. Чтобы использовать ArcGIS GeoAnalytics Server для выполнения анализа, см. GeoAnalytics Tools.

Параметры

ПодписьОписаниеТип данных
Входной точечный слой

Класс точечных объектов, содержащий кластеры точек.

Feature Layer
Выходной класс пространственных объектов

Новый класс пространственных объектов с полученными кластерами точек.

Feature Class
Метод кластеризации

Задает метод, который будет использован для определения кластеров.

  • Заданное расстояние (DBSCAN)Использует заданное расстояние для отделения плотных кластеров от окружающего шума. DBSCAN является наиболее быстрым методом кластеризации, но подходит только при наличии четкого расстояния, хорошо подходящего для поиска всех представленных кластеров. Это приводит к получению кластеров с похожей плотностью. Это значение по умолчанию
  • Автонастройка (HDBSCAN)Использует различные расстояния для отделения кластеров с различными плотностями от окружающего шума. HDBSCAN является наиболее ориентированным на данные методом кластеризации для него требуется минимум участия пользователя.
String
Минимальное число объектов на кластер

Этот параметр используется по-разному, в зависимости от выбранного метода кластеризации:

  • Заданное расстояние (DBSCAN) – определяет число объектов, которое должно быть найдено в пределах указанного расстояния от точки, с которой начинается формирование кластера. Расстояние настраивается в параметре Расстояние поиска.
  • Самонастраивающаяся кластеризация (HDBSCAN)–- задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.

Long
Расстояние поиска

Максимальное расстояние, которое будет учитываться.

Заданное значение Минимальное число объектов на кластер должно быть найдено в пределах этого расстояния, чтобы отнести объекты к кластеру. Отдельные кластеры будут разделяться, как минимум, этим расстоянием. Если объект расположен дальше, чем это расстояние, от следующего ближайшего объекта в кластере, он не будет включен в кластер.

Linear Unit
Использование времени для поиска кластеров
(Дополнительный)

Указывает, будет ли использоваться время для обнаружения кластеров с помощью DBSCAN.

  • Отмечено – пространственно-временные кластеры будут найдены с использованием расстояния и длительности поиска.
  • Не отмечено – пространственные кластеры будут найдены с использованием расстояния поиска, а время будет проигнорировано. Используется по умолчанию.
Boolean
Длительность поиска
(Дополнительный)

При поиске участников кластера заданное минимальное количество точек должно быть найдено в течение этой длительности времени, чтобы сформировать кластер.

Time Unit

arcpy.geoanalytics.FindPointClusters(input_points, out_feature_class, clustering_method, minimum_points, search_distance, {use_time}, {search_duration})
ИмяОписаниеТип данных
input_points

Класс точечных объектов, содержащий кластеры точек.

Feature Layer
out_feature_class

Новый класс пространственных объектов с полученными кластерами точек.

Feature Class
clustering_method

Задает метод, который будет использован для определения кластеров.

  • DBSCANИспользует заданное расстояние для отделения плотных кластеров от окружающего шума. DBSCAN является наиболее быстрым методом кластеризации, но подходит только при наличии четкого расстояния, хорошо подходящего для поиска всех представленных кластеров. Это приводит к получению кластеров с похожей плотностью. Это значение по умолчанию
  • HDBSCANИспользует различные расстояния для отделения кластеров с различными плотностями от окружающего шума. HDBSCAN является наиболее ориентированным на данные методом кластеризации для него требуется минимум участия пользователя.
String
minimum_points

Этот параметр используется по-разному, в зависимости от выбранного метода кластеризации:

  • Заданное расстояние (DBSCAN) – определяет число объектов, которое должно быть найдено в пределах указанного расстояния от точки, с которой начинается формирование кластера. Расстояние настраивается в параметре Расстояние поиска.
  • Самонастраивающаяся кластеризация (HDBSCAN)–- задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.

Long
search_distance

Максимальное расстояние, которое будет учитываться.

Заданное значение Минимальное число объектов на кластер должно быть найдено в пределах этого расстояния, чтобы отнести объекты к кластеру. Отдельные кластеры будут разделяться, как минимум, этим расстоянием. Если объект расположен дальше, чем это расстояние, от следующего ближайшего объекта в кластере, он не будет включен в кластер.

Linear Unit
use_time
(Дополнительный)

Указывает, будет ли использоваться время для обнаружения кластеров с помощью DBSCAN.

  • TIMEПространственно-временные кластеры будут найдены с использованием расстояния и длительности поиска.
  • NO_TIMEПространственные кластеры будут найдены с использованием расстояния поиска, а время будет проигнорировано. Используется по умолчанию.
Boolean
search_duration
(Дополнительный)

При поиске участников кластера заданное минимальное количество точек должно быть найдено в течение этой длительности времени, чтобы сформировать кластер.

Time Unit

Пример кода

FindPointClusters, пример (автономный скрипт)

Пример скрипта в окне Python для использования функции FindPointClusters.

#-------------------------------------------------------------------------------
# Name: FindPointClusters.py
# Description: Finds Point Clusters of rodent infestations

# Import system modules
import arcpy

arcpy.env.workspace = "C:/data/CountyData.gdb"

# Set local variables
inputPoints = "rat_sightings"
minimumPoints = 10
outputName = "RodentClusters"
searchDistance = "1 Kilometers"
clusterMethod = "DBSCAN"

# Run Find Point Clusters
arcpy.gapro.FindPointClusters(inputPoints, outputName, clusterMethod, 
                              minimumPoints, searchDistance)