Найти кластеры точек

Значок инструмента Доступен в аналитике больших данных.

Инструмент Найти кластеры точек Инструмент Найти кластеры точек находит на основании пространственного или пространственно-временного распределения находит кластеры точечных объектов в окружающем шуме.

Схема рабочего процесса

Схема рабочего процесса инструмента Найти кластеры точек

Пример

Негосударственная организация изучает какую-то болезнь, вызванную переносчиками инфекции, и у нее есть набор точечных данных о домашних хозяйствах изучаемой области, некоторые из которых являются зараженными, а некоторые – нет. С помощью инструмента Найти кластеры точек исследователь может определить наибольшие кластеры зараженных переносчиками инфекции домашних хозяйств, чтобы выделить места, в которых нужно начать лечение и уничтожение паразитов.

Примечания по использованию

При работе с инструментом Найти кластеры точек помните следующее:

  • Входные данные для этого инструмента используют отдельный точечный слой.
  • Все результаты будут включать поле с именем CLUSTER_ID, которое указывает, к какому кластеру относится каждый объект, и поле с именем COLOR_ID, которое является надписью, используемой для отображения результатов, так что каждый кластер визуально отличается от соседних кластеров в большинстве случаев. Для обоих полей значение -1 означает, что объект отмечен как шум.
  • Параметр Метод кластеризации определяет, будет ли использоваться алгоритм заданного расстояния или самонастраивающийся алгоритм кластеризации. DBSCAN – идентифицирует кластеры точек, которые находятся в непосредственной близости, на основе указанного диапазона поиска. HDBSCAN – находит кластеры точек, аналогичные DBSCAN, но использует различные диапазоны поиска, позволяющие находить кластеры с различной плотностью на основе вероятности (или стабильности) кластера.
    • Если выбран DBSCAN, кластеры могут быть найдены либо только в двумерном пространстве, либо и в пространстве, и во времени. Если выбрана отметка использовать время для поиска кластеров, а входной слой имеет включенное время и тип мгновенный, DBSCAN обнаружит пространственно-временные кластеры точек, находящихся в непосредственной близости, на основе заданного расстояния поиска и продолжительности поиска.
    • HDBSCAN в настоящее время поддерживает только пространственную кластеризацию и не использует время для обнаружения кластеров.
  • Если метод кластеризации DBSCAN используется со временем для обнаружения пространственно-временных кластеров, результаты также будут включать следующие поля:
    • FEAT_TIME-Оригинальное мгновенное время каждого объекта.
    • START_DATETIME- Время начала временного экстента кластера, которому принадлежит объект.
    • END_DATETIME- Время окончания временного экстента кластера, которому принадлежит объект. Время результирующего слоя будет установлено как интервал в полях START_DATETIME и END_DATETIME, гарантируя, что в большинстве случаев все элементы кластера объединяются при визуализации пространственно-временных кластеров с помощью бегунка времени. Для шумовых объектов START_DATETIME и END_DATETIME будут равны FEAT_TIME.
  • Если используется метод кластеризации HDBSCAN, в результаты также будут включены следующие поля:
    • PROB-Вероятность принадлежности объекта к назначенному ему кластеру.
    • OUTLIER- Вероятность того, что объект является выбросом в своем собственном кластере. Чем больше значение, тем больше вероятность выброса объекта.
    • EXEMPLAR-Обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1.
    • STABILITY-Присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов.
  • Параметр Минимальное число объектов на кластер, используется по-разному, в зависимости от выбранного Метода кластеризации:
    • Заданное расстояние (DBSCAN) - задает число объектов, которое должно быть найдено в пределах диапазона поиска от точки, с которой начинается формирование кластера. В результатах могут встречаться кластеры с меньшим числом объектов, чем задано этим значением. Диапазон поиска настраивается в параметре Расстояние поиска. При использовании времени для поиска кластеров требуется дополнительная длительность поиска, которая задается с помощью параметра Длительность поиска. При поиске участников кластера, указанное минимальное количество объектов на кластер должно быть найдено в указанном диапазоне поиска и продолжительности поиска для формирования кластера. Обратите внимание, что расстояние поиска и его длительность не связаны с диаметром или временным экстентом обнаруженных кластеров точек.
    • Самонастраивающаяся кластеризация (HDBSCAN) - задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.

Параметры

Ниже приведены параметры инструмента Найти кластеры точек:

ПараметрОписаниеТип данных

Входной слой

Точечные объекты, из которых можно найти точечные кластеры.

Возможности

Методы кластеризации

Метод кластеризации, используемый инструментом для определения точечных кластеров. Есть две опции:

  • DBSCAN – использует указанное расстояние для отделения плотных кластеров от окружающего шума. DBSCAN является наиболее быстрым методом кластеризации, но подходит только при наличии четкого расстояния, что хорошо подходит для поиска всех представленных кластеров. Этот метод приводит к получению кластеров с похожей плотностью. Используется по умолчанию.
  • HDBSCAN – использует различные расстояния для отделения кластеров с различными плотностями от окружающего шума. HDBSCAN является наиболее ориентированным на данные методом кластеризации для него требуется минимум участия пользователя.

Строка

Минимальное число объектов на кластер

Этот параметр используется по-разному, в зависимости от выбранного Метода кластеризации:

  • Заданное расстояние (DBSCAN) – определяет число объектов, которое должно быть найдено в пределах указанного расстояния от точки, с которой начинается формирование кластера. Расстояние настраивается в параметре Расстояние поиска.
  • Самонастраивающаяся кластеризация (HDBSCAN) – задает число объектов, окружающих каждую точку (включая саму точку), которые будут учитываться при оценке плотности. Это число также соответствует минимальному размеру кластера, размешенному при извлечении кластеров.

Int64

Использовать время

Использовать ли время для идентификации точечных кластеров. Эта опция доступна только для метода кластеризации DBSCAN.

Boolean

Расстояние поиска

Максимальное расстояние поиска.

Указанное Минимальное число объектов на кластер должно быть найдено в пределах этого расстояния для участия в кластере. Отдельные кластеры будут разделяться, как минимум, этим расстоянием. Если объект расположен дальше, чем это расстояние, от следующего ближайшего объекта в кластере, он не будет включен в кластер.

Float64

Длительность поиска

При поиске участников кластера заданное минимальное количество точек должно быть найдено в течение этой длительности времени, чтобы сформировать кластер.

Строка

Выходной слой

Созданный выходной слой будет содержать различные поля в зависимости от выбранного метода кластеризации и от того, используется ли время при идентификации точечных кластеров.

Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени

Имя поляОписаниеТип поля

Все входные поля сохраняются

Все входные поля из входного набора данных сохраняются.

любое

CLUSTER_ID

ID кластера указывает, к какому кластеру относится каждый объект.

Int32

COLOR_ID

Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум.

Int32

FEAT_TIME

Оригинальное мгновенное время каждого объекта

Дата

START_DATETIME

Время начала временного экстента кластера, которому принадлежит объект.

Дата

END_DATETIME

Время окончания временного экстента кластера, которому принадлежит объект.

Дата

Выходные поля добавляются при выборе метода кластеризации DBSCAN и использовании времени

Имя поляОписаниеТип поля

Все входные поля сохраняются

Все входные поля из входного набора данных сохраняются.

любое

CLUSTER_ID

ID кластера указывает, к какому кластеру относится каждый объект.

Int32

COLOR_ID

Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум.

Int32

Выходные поля добавляются при выборе метода кластеризации HDBSCAN

Имя поляОписаниеТип поля

Все входные поля сохраняются

Все входные поля из входного набора данных сохраняются.

любое

CLUSTER_ID

ID кластера указывает, к какому кластеру относится каждый объект.

Int32

COLOR_ID

Color ID – это надпись, используемая для отображения результатов, поэтому в большинстве случаев каждый кластер визуально отличается от соседних кластеров. Для обоих полей значение -1 указывает, что объект помечен как шум.

Int32

PROB

Вероятность принадлежности объекта к назначенному ему кластеру.

Float64

STABILITY

Присутствие каждого кластера в диапазоне масштабов. Большее значение показывает, что кластер входит в более широкий диапазон масштабов.

Float64

OUTLIER

Вероятность того, что объект является выбросом со своим собственным кластером. Чем больше значение, тем больше вероятность выброса объекта.

Float64

EXEMPLAR

Обозначает наиболее репрезентативные объекты каждого кластера. Такие объекты обозначаются значением 1.

Int32