Доступен в аналитике больших данных.
Инструмент Найти кластеры точек находит на основании пространственного или пространственно-временного распределения находит кластеры точечных объектов в окружающем шуме.
Схема рабочего процесса
Пример
Негосударственная организация изучает какую-то болезнь, вызванную переносчиками инфекции, и у нее есть набор точечных данных о домашних хозяйствах изучаемой области, некоторые из которых являются зараженными, а некоторые – нет. С помощью инструмента Найти кластеры точек исследователь может определить наибольшие кластеры зараженных переносчиками инфекции домашних хозяйств, чтобы выделить места, в которых нужно начать лечение и уничтожение паразитов.
Примечания по использованию
При работе с инструментом Найти кластеры точек помните следующее:
- Входные данные для этого инструмента используют отдельный точечный слой.
- Все результаты будут включать поле с именем CLUSTER_ID, которое указывает, к какому кластеру относится каждый объект, и поле с именем COLOR_ID, которое является надписью, используемой для отображения результатов, так что каждый кластер визуально отличается от соседних кластеров в большинстве случаев. Для обоих полей значение -1 означает, что объект отмечен как шум.
- Параметр Метод кластеризации определяет, будет ли использоваться алгоритм заданного расстояния или самонастраивающийся алгоритм кластеризации. DBSCAN – идентифицирует кластеры точек, которые находятся в непосредственной близости, на основе указанного диапазона поиска. HDBSCAN – находит кластеры точек, аналогичные DBSCAN, но использует различные диапазоны поиска, позволяющие находить кластеры с различной плотностью на основе вероятности (или стабильности) кластера.
- Если выбран DBSCAN, кластеры могут быть найдены либо только в двумерном пространстве, либо и в пространстве, и во времени. Если выбрана отметка использовать время для поиска кластеров, а входной слой имеет включенное время и тип мгновенный, DBSCAN обнаружит пространственно-временные кластеры точек, находящихся в непосредственной близости, на основе заданного расстояния поиска и продолжительности поиска.
- HDBSCAN в настоящее время поддерживает только пространственную кластеризацию и не использует время для обнаружения кластеров.
- Если метод кластеризации DBSCAN используется со временем для обнаружения пространственно-временных кластеров, результаты также будут включать следующие поля:
- FEAT_TIME-Оригинальное мгновенное время каждого объекта.
- START_DATETIME- Время начала временного экстента кластера, которому принадлежит объект.
- END_DATETIME- Время окончания временного экстента кластера, которому принадлежит объект. Время результирующего слоя будет установлено как интервал в полях START_DATETIME и END_DATETIME, гарантируя, что в большинстве случаев все элементы кластера объединяются при визуализации пространственно-временных кластеров с помощью бегунка времени. Для шумовых объектов START_DATETIME и END_DATETIME будут равны FEAT_TIME.
- Если используется метод кластеризации HDBSCAN, в результаты также будут включены следующие поля:
- PROB-Вероятность принадлежности объекта к назначенному ему кластеру.
- OUTLIER- Вероятность того, что объект является выбросом в своем собственном кластере. Чем больше значение, тем больше вероятность выброса объекта.
- EXEMPLAR-Обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1.
- STABILITY-Присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов.
- Параметр Минимальное число объектов на кластер, используется по-разному, в зависимости от выбранного Метода кластеризации:
- Заданное расстояние (DBSCAN) - задает число объектов, которое должно быть найдено в пределах диапазона поиска от точки, с которой начинается формирование кластера. В результатах могут встречаться кластеры с меньшим числом объектов, чем задано этим значением. Диапазон поиска настраивается в параметре Расстояние поиска. При использовании времени для поиска кластеров требуется дополнительная длительность поиска, которая задается с помощью параметра Длительность поиска. При поиске участников кластера, указанное минимальное количество объектов на кластер должно быть найдено в указанном диапазоне поиска и продолжительности поиска для формирования кластера. Обратите внимание, что расстояние поиска и его длительность не связаны с диаметром или временным экстентом обнаруженных кластеров точек.
- Самонастраивающаяся кластеризация (HDBSCAN) - задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.
Параметры
Ниже приведены параметры инструмента Найти кластеры точек:
Параметр | Описание | Тип данных |
---|---|---|
Входной слой | Точечные объекты, из которых можно найти точечные кластеры. | Возможности |
Методы кластеризации | Метод кластеризации, используемый инструментом для определения точечных кластеров. Есть две опции:
| Строка |
Минимальное число объектов на кластер | Этот параметр используется по-разному, в зависимости от выбранного Метода кластеризации:
| Int64 |
Использовать время | Использовать ли время для идентификации точечных кластеров. Эта опция доступна только для метода кластеризации DBSCAN. | Boolean |
Расстояние поиска | Максимальное расстояние поиска. Указанное Минимальное число объектов на кластер должно быть найдено в пределах этого расстояния для участия в кластере. Отдельные кластеры будут разделяться, как минимум, этим расстоянием. Если объект расположен дальше, чем это расстояние, от следующего ближайшего объекта в кластере, он не будет включен в кластер. | Float64 |
Длительность поиска | При поиске участников кластера заданное минимальное количество точек должно быть найдено в течение этой длительности времени, чтобы сформировать кластер. | Строка |
Выходной слой
Созданный выходной слой будет содержать различные поля в зависимости от выбранного метода кластеризации и от того, используется ли время при идентификации точечных кластеров.
Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени
Имя поля | Описание | Тип поля |
---|---|---|
Все входные поля сохраняются | Все входные поля из входного набора данных сохраняются. | любое |
CLUSTER_ID | ID кластера указывает, к какому кластеру относится каждый объект. | Int32 |
COLOR_ID | Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум. | Int32 |
FEAT_TIME | Оригинальное мгновенное время каждого объекта | Дата |
START_DATETIME | Время начала временного экстента кластера, которому принадлежит объект. | Дата |
END_DATETIME | Время окончания временного экстента кластера, которому принадлежит объект. | Дата |
Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени
Имя поля | Описание | Тип поля |
---|---|---|
Все входные поля сохраняются | Все входные поля из входного набора данных сохраняются. | любое |
CLUSTER_ID | ID кластера указывает, к какому кластеру относится каждый объект. | Int32 |
COLOR_ID | Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум. | Int32 |
Выходные поля добавляются при выборе метода кластеризации HDBSCAN
Имя поля | Описание | Тип поля |
---|---|---|
Все входные поля сохраняются | Все входные поля из входного набора данных сохраняются. | любое |
CLUSTER_ID | ID кластера указывает, к какому кластеру относится каждый объект. | Int32 |
COLOR_ID | Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум. | Int32 |
PROB | Вероятность принадлежности объекта к назначенному ему кластеру. | Float64 |
STABILITY | Присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов. | Float64 |
OUTLIER | Вероятность того, что объект является выбросом со своим собственным кластером. Чем больше значение, тем больше вероятность выброса объекта. | Float64 |
EXEMPLAR | Обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1. | Int32 |