Найти кластеры точек—ArcGIS Velocity

Значок инструмента Доступен в аналитике больших данных.

Инструмент Найти кластеры точек находит на основании пространственного или пространственно-временного распределения находит кластеры точечных объектов в окружающем шуме.

Схема рабочего процесса

Пример

Негосударственная организация изучает какую-то болезнь, вызванную переносчиками инфекции, и у нее есть набор точечных данных о домашних хозяйствах изучаемой области, некоторые из которых являются зараженными, а некоторые – нет. С помощью инструмента Найти кластеры точек исследователь может определить наибольшие кластеры зараженных переносчиками инфекции домашних хозяйств, чтобы выделить места, в которых нужно начать лечение и уничтожение паразитов.

Примечания по использованию

При работе с инструментом Найти кластеры точек помните следующее:

Входные данные для этого инструмента используют отдельный точечный слой.
Все результаты будут включать поле с именем CLUSTER_ID, которое указывает, к какому кластеру относится каждый объект, и поле с именем COLOR_ID, которое является надписью, используемой для отображения результатов, так что каждый кластер визуально отличается от соседних кластеров в большинстве случаев. Для обоих полей значение -1 означает, что объект отмечен как шум.
Параметр Метод кластеризации определяет, будет ли использоваться алгоритм заданного расстояния или самонастраивающийся алгоритм кластеризации. DBSCAN – идентифицирует кластеры точек, которые находятся в непосредственной близости, на основе указанного диапазона поиска. HDBSCAN – находит кластеры точек, аналогичные DBSCAN, но использует различные диапазоны поиска, позволяющие находить кластеры с различной плотностью на основе вероятности (или стабильности) кластера.
- Если выбран DBSCAN, кластеры могут быть найдены либо только в двумерном пространстве, либо и в пространстве, и во времени. Если выбрана отметка использовать время для поиска кластеров, а входной слой имеет включенное время и тип мгновенный, DBSCAN обнаружит пространственно-временные кластеры точек, находящихся в непосредственной близости, на основе заданного расстояния поиска и продолжительности поиска.
- HDBSCAN в настоящее время поддерживает только пространственную кластеризацию и не использует время для обнаружения кластеров.
Если метод кластеризации DBSCAN используется со временем для обнаружения пространственно-временных кластеров, результаты также будут включать следующие поля:
- FEAT_TIME-Оригинальное мгновенное время каждого объекта.
- START_DATETIME- Время начала временного экстента кластера, которому принадлежит объект.
- END_DATETIME- Время окончания временного экстента кластера, которому принадлежит объект. Время результирующего слоя будет установлено как интервал в полях START_DATETIME и END_DATETIME, гарантируя, что в большинстве случаев все элементы кластера объединяются при визуализации пространственно-временных кластеров с помощью бегунка времени. Для шумовых объектов START_DATETIME и END_DATETIME будут равны FEAT_TIME.
Если используется метод кластеризации HDBSCAN, в результаты также будут включены следующие поля:
- PROB-Вероятность принадлежности объекта к назначенному ему кластеру.
- OUTLIER- Вероятность того, что объект является выбросом в своем собственном кластере. Чем больше значение, тем больше вероятность выброса объекта.
- EXEMPLAR-Обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1.
- STABILITY-Присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов.
Параметр Минимальное число объектов на кластер, используется по-разному, в зависимости от выбранного Метода кластеризации:
- Заданное расстояние (DBSCAN) - задает число объектов, которое должно быть найдено в пределах диапазона поиска от точки, с которой начинается формирование кластера. В результатах могут встречаться кластеры с меньшим числом объектов, чем задано этим значением. Диапазон поиска настраивается в параметре Расстояние поиска. При использовании времени для поиска кластеров требуется дополнительная длительность поиска, которая задается с помощью параметра Длительность поиска. При поиске участников кластера, указанное минимальное количество объектов на кластер должно быть найдено в указанном диапазоне поиска и продолжительности поиска для формирования кластера. Обратите внимание, что расстояние поиска и его длительность не связаны с диаметром или временным экстентом обнаруженных кластеров точек.
- Самонастраивающаяся кластеризация (HDBSCAN) - задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.

Параметры

Ниже приведены параметры инструмента Найти кластеры точек:


Параметр	Описание	Тип данных
Входной слой	Точечные объекты, из которых можно найти точечные кластеры.	Возможности
Методы кластеризации	Метод кластеризации, используемый инструментом для определения точечных кластеров. Есть две опции: DBSCAN – использует указанное расстояние для отделения плотных кластеров от окружающего шума. DBSCAN является наиболее быстрым методом кластеризации, но подходит только при наличии четкого расстояния, что хорошо подходит для поиска всех представленных кластеров. Этот метод приводит к получению кластеров с похожей плотностью. Используется по умолчанию. HDBSCAN – использует различные расстояния для отделения кластеров с различными плотностями от окружающего шума. HDBSCAN является наиболее ориентированным на данные методом кластеризации для него требуется минимум участия пользователя.	Строка
Минимальное число объектов на кластер	Этот параметр используется по-разному, в зависимости от выбранного Метода кластеризации: Заданное расстояние (DBSCAN) – определяет число объектов, которое должно быть найдено в пределах указанного расстояния от точки, с которой начинается формирование кластера. Расстояние настраивается в параметре Расстояние поиска. Самонастраивающаяся кластеризация (HDBSCAN) – задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.	Int64
Использовать время	Использовать ли время для идентификации точечных кластеров. Эта опция доступна только для метода кластеризации DBSCAN.	Boolean
Расстояние поиска	Максимальное расстояние поиска. Указанное Минимальное число объектов на кластер должно быть найдено в пределах этого расстояния для участия в кластере. Отдельные кластеры будут разделяться, как минимум, этим расстоянием. Если объект расположен дальше, чем это расстояние, от следующего ближайшего объекта в кластере, он не будет включен в кластер.	Float64
Длительность поиска	При поиске участников кластера заданное минимальное количество точек должно быть найдено в течение этой длительности времени, чтобы сформировать кластер.	Строка

Выходной слой

Созданный выходной слой будет содержать различные поля в зависимости от выбранного метода кластеризации и от того, используется ли время при идентификации точечных кластеров.

Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени


Имя поля	Описание	Тип поля
Все входные поля сохраняются	Все входные поля из входного набора данных сохраняются.	любое
CLUSTER_ID	ID кластера указывает, к какому кластеру относится каждый объект.	Int32
COLOR_ID	Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум.	Int32
FEAT_TIME	Оригинальное мгновенное время каждого объекта	Дата
START_DATETIME	Время начала временного экстента кластера, которому принадлежит объект.	Дата
END_DATETIME	Время окончания временного экстента кластера, которому принадлежит объект.	Дата

Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени


Имя поля	Описание	Тип поля
Все входные поля сохраняются	Все входные поля из входного набора данных сохраняются.	любое
CLUSTER_ID	ID кластера указывает, к какому кластеру относится каждый объект.	Int32
COLOR_ID	Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум.	Int32

Выходные поля добавляются при выборе метода кластеризации HDBSCAN


Имя поля	Описание	Тип поля
Все входные поля сохраняются	Все входные поля из входного набора данных сохраняются.	любое
CLUSTER_ID	ID кластера указывает, к какому кластеру относится каждый объект.	Int32
COLOR_ID	Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум.	Int32
PROB	Вероятность принадлежности объекта к назначенному ему кластеру.	Float64
STABILITY	Присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов.	Float64
OUTLIER	Вероятность того, что объект является выбросом со своим собственным кластером. Чем больше значение, тем больше вероятность выброса объекта.	Float64
EXEMPLAR	Обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1.	Int32

Отзыв по этому разделу?

Схема рабочего процесса

Пример

Примечания по использованию

Параметры

Выходной слой

Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени

Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени

Выходные поля добавляются при выборе метода кластеризации HDBSCAN

В этом разделе