Доступен в аналитике больших данных.
Инструмент Поиск кластеров точек находит на основании пространственного или пространственно-временного распределения находит кластеры точечных объектов в окружающем шуме.
Схема рабочего процесса
Пример
Негосударственная организация изучает какую-то болезнь, вызванную переносчиками инфекции, и у нее есть набор точечных данных о домашних хозяйствах изучаемой области, некоторые из которых являются зараженными, а некоторые – нет. С помощью инструмента Поиск кластеров точек исследователь может определить наибольшие кластеры зараженных переносчиками инфекции домашних хозяйств, чтобы выделить места, в которых нужно начать лечение и уничтожение паразитов.
Примечания по использованию
- Входные данные для этого инструмента используют отдельный точечный слой.
- Все результаты будут включать поле с именем CLUSTER_ID, которое указывает, к какому кластеру относится каждый объект, и поле с именем COLOR_ID, которое является надписью, используемой для отображения результатов, так что каждый кластер визуально отличается от соседних кластеров в большинстве случаев. Для обоих полей значение -1 означает, что объект отмечен как шум.
- Параметр Метод кластеризации определяет, будет ли использоваться алгоритм заданного расстояния или самонастраивающийся алгоритм кластеризации. DBSCAN – идентифицирует кластеры точек, которые находятся в непосредственной близости, на основе указанного диапазона поиска. HDBSCAN – находит кластеры точек, аналогичные DBSCAN, но использует различные диапазоны поиска, позволяющие находить кластеры с различной плотностью на основе вероятности (или стабильности) кластера.
- Если выбран DBSCAN, кластеры могут быть найдены либо только в двумерном пространстве, либо и в пространстве, и во времени. Если выбрана отметка использовать время для поиска кластеров, а входной слой имеет включенное время и тип мгновенный, DBSCAN обнаружит пространственно-временные кластеры точек, находящихся в непосредственной близости, на основе заданного расстояния поиска и продолжительности поиска.
- HDBSCAN в настоящее время поддерживает только пространственную кластеризацию и не использует время для обнаружения кластеров.
- Если метод кластеризации DBSCAN используется со временем для обнаружения пространственно-временных кластеров, результаты также будут включать следующие поля:
- FEAT_TIME-Оригинальное мгновенное время каждого объекта.
- START_DATETIME- Время начала временного экстента кластера, которому принадлежит объект.
- END_DATETIME- Время окончания временного экстента кластера, которому принадлежит объект. Время результирующего слоя будет установлено как интервал в полях START_DATETIME и END_DATETIME, гарантируя, что в большинстве случаев все элементы кластера объединяются при визуализации пространственно-временных кластеров с помощью бегунка времени. Для шумовых объектов START_DATETIME и END_DATETIME будут равны FEAT_TIME.
- Если используется метод кластеризации HDBSCAN, в результаты также будут включены следующие поля:
- PROB-Вероятность принадлежности объекта к назначенному ему кластеру.
- OUTLIER- Вероятность того, что объект является выбросом в своем собственном кластере. Чем больше значение, тем больше вероятность выброса объекта.
- EXEMPLAR-Обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1.
- STABILITY-Присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов.
- Параметр Минимальное число объектов на кластер, используется по-разному, в зависимости от выбранного Метода кластеризации:
- Заданное расстояние (DBSCAN) - задает число объектов, которое должно быть найдено в пределах диапазона поиска от точки, с которой начинается формирование кластера. В результатах могут встречаться кластеры с меньшим числом объектов, чем задано этим значением. Диапазон поиска настраивается в параметре Расстояние поиска. При использовании времени для поиска кластеров требуется дополнительная длительность поиска, которая задается с помощью параметра Длительность поиска. При поиске участников кластера, указанное минимальное количество объектов на кластер должно быть найдено в указанном диапазоне поиска и продолжительности поиска для формирования кластера. Обратите внимание, что расстояние поиска и его длительность не связаны с диаметром или временным экстентом обнаруженных кластеров точек.
- Самонастраивающаяся кластеризация (HDBSCAN) - задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.
Параметры
Параметр | Описание | Тип данных |
---|---|---|
Входной слой | Точечные объекты, из которых можно найти точечные кластеры. | Объекты |
Методы кластеризации | Метод кластеризации, используемый инструментом для определения точечных кластеров. Есть две опции:
| String |
Минимальное число объектов на кластер | Этот параметр используется по-разному, в зависимости от выбранного Метода кластеризации:
| Int64 |
Использовать время | Использовать ли время для идентификации точечных кластеров. Эта опция доступна только для метода кластеризации DBSCAN. | Boolean |
Расстояние поиска | Максимальное расстояние поиска. Указанное Минимальное число объектов на кластер должно быть найдено в пределах этого расстояния для участия в кластере. Отдельные кластеры будут разделяться, как минимум, этим расстоянием. Если объект расположен дальше, чем это расстояние, от следующего ближайшего объекта в кластере, он не будет включен в кластер. | Float64 |
Длительность поиска | При поиске участников кластера заданное минимальное количество точек должно быть найдено в течение этой длительности времени, чтобы сформировать кластер. | String |
Выходной слой
Созданный выходной слой будет содержать различные поля в зависимости от выбранного метода кластеризации и от того, используется ли время при идентификации точечных кластеров.
Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени
Имя поля | Описание | Тип поля |
---|---|---|
Все входные поля сохраняются | Все входные поля из входного набора данных сохраняются. | любое |
CLUSTER_ID | ID кластера указывает, к какому кластеру относится каждый объект. | Int32 |
COLOR_ID | Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум. | Int32 |
FEAT_TIME | Оригинальное мгновенное время каждого объекта | Date |
START_DATETIME | Время начала временного экстента кластера, которому принадлежит объект. | Date |
END_DATETIME | Время окончания временного экстента кластера, которому принадлежит объект. | Date |
Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени
Имя поля | Описание | Тип поля |
---|---|---|
Все входные поля сохраняются | Все входные поля из входного набора данных сохраняются. | любое |
CLUSTER_ID | ID кластера указывает, к какому кластеру относится каждый объект. | Int32 |
COLOR_ID | Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум. | Int32 |
Выходные поля добавляются при выборе метода кластеризации HDBSCAN
Имя поля | Описание | Тип поля |
---|---|---|
Все входные поля сохраняются | Все входные поля из входного набора данных сохраняются. | любое |
CLUSTER_ID | ID кластера указывает, к какому кластеру относится каждый объект. | Int32 |
COLOR_ID | Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум. | Int32 |
PROB | Вероятность принадлежности объекта к назначенному ему кластеру. | Float64 |
STABILITY | Присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов. | Float64 |
OUTLIER | Вероятность того, что объект является выбросом со своим собственным кластером. Чем больше значение, тем больше вероятность выброса объекта. | Float64 |
EXEMPLAR | Обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1. | Int32 |