Buscar clústeres de puntos

Icono de la herramienta Disponible en análisis de big data.

La herramienta Buscar clústeres de puntos herramienta Buscar clústeres de puntos encuentra clústeres de entidades de punto dentro del ruido colindante en función de su distribución espacial o espaciotemporal.

Diagrama de flujo de trabajo

Diagrama del flujo de trabajo de Buscar clústeres de puntos

Ejemplo

Una organización no gubernamental está estudiando una enfermedad concreta propagada por plagas y tiene un dataset de puntos que representa los hogares de un área de estudio, algunos de ellos infestados y otros no. Utilizando la herramienta Buscar clústeres de puntos, un analista puede determinar qué clústeres de hogares están infestados para ayudarle a delimitar un área en la que iniciar el tratamiento y la erradicación de las plagas.

Notas de uso

  • La entrada de esta herramienta es una sola capa de puntos.
  • Todos los resultados incluirán un campo llamado CLUSTER_ID que indica el clúster al que pertenece cada entidad, además de un campo llamado COLOR_ID, que es una etiqueta que se usa para dibujar los resultados para que cada clúster se diferencie visualmente de sus clústeres vecinos en la mayoría de los casos. Para ambos campos, un valor de -1 indica que una entidad se ha etiquetado como ruido.
  • El parámetro Método de clustering determina si se usará una distancia definida o un algoritmo de clustering de autoajuste. DBSCAN identifica clústeres de puntos que están próximos en función de un rango de búsqueda especificado. HDBSCAN busca clústeres de puntos similares a DBSCAN, pero utiliza rangos de búsqueda variables teniendo en cuenta los clústeres con densidades variables en función de la probabilidad (o estabilidad) del clúster.
    • Si elige DBSCAN, encontrará clústeres solo en espacio bidimensional o en espacio y tiempo. Si selecciona utilizar la hora para buscar clústeres y la capa de entrada tiene el tiempo habilitado y es del tipo de instante, DBSCAN descubrirá clústeres espaciotemporales de puntos que estén muy próximos en función de una distancia de búsqueda y una duración de búsqueda especificadas.
    • Actualmente, HDBSCAN solo admite clustering espacial y no utilizará el tiempo para descubrir clústeres.
  • Si usa el método de clustering DBSCAN con el tiempo para descubrir clústeres espaciotemporales, los resultados también incluirán estos campos:
    • FEAT_TIME- el tiempo de instante original de cada entidad.
    • START_DATETIME- la hora de inicio de la extensión temporal del clúster al que pertenece una entidad.
    • END_DATETIME- la hora de finalización de la extensión temporal del clúster al que pertenece una entidad. El tiempo de la capa resultante se definirá como un intervalo en los campos START_DATETIME y END_DATETIME, lo cual garantiza que, en la mayoría de los casos, todos los miembros del clúster se dibujen juntos al visualizar clústeres espaciotemporales en un control deslizante de tiempo. En el caso de las entidades de ruido, START_DATETIME y END_DATETIME equivaldrán a FEAT_TIME.
  • Si se usa el método de clustering HDBSCAN, los resultados también incluirán los siguientes campos:
    • PROB- la probabilidad de que una entidad pertenezca a su clúster asignado.
    • OUTLIER- la posibilidad de que una entidad sea un valor atípico dentro de su propio clúster. Un valor más alto indica que es más probable que la entidad sea un valor atípico.
    • EXEMPLAR- indica qué entidades son las más representativas de cada clúster. Estas entidades se indican con un valor de 1.
    • STABILITY- la persistencia de cada clúster en un rango de escalas. Una puntuación mayor indica que un clúster persiste en un rango más amplio de escalas de distancia.
  • El parámetro Entidades mínimas por clúster se utiliza de manera diferente en función del método de clustering seleccionado:
    • Distancia definida (DBSCAN): especifica el número de entidades que se deben encontrar dentro de un rango de búsqueda determinado de un punto para que este pueda empezar a formar un clúster. Los resultados podrían incluir clústeres con menos entidades que este valor. La distancia de rango de búsqueda se define con el parámetro Distancia de búsqueda. Si utiliza la hora para buscar clústeres, se necesita una duración de búsqueda adicional, que se define con el parámetro Duración de búsqueda. Al buscar miembros de clústeres, las entidades mínimas por clúster especificadas deben estar en la distancia de búsqueda y duración de búsqueda especificadas para formar un clúster. Tenga en cuenta que esta distancia y duración de búsqueda no están relacionadas con el diámetro o la extensión temporal de los clústeres de puntos descubiertos.
    • Autoajuste (HDBSCAN): especifica el número de entidades vecinas de cada punto (incluido el propio punto) que se tendrán en cuenta a la hora de estimar la densidad. Este número es además el tamaño de clúster mínimo permitido al extraer los clústeres.

Parámetros

ParámetroDescripciónTipo de datos

Capa de entrada

Las entidades de puntos desde las que buscar clústeres de puntos.

Entidades

Método de clustering

El método de clustering utilizado por la herramienta para determinar clústeres de puntos. Las dos opciones son las siguientes:

  • DBSCAN: utiliza una distancia especificada para separar los clústeres densos del ruido más disperso. DBSCAN es el método de clustering más rápido, pero solo es apropiado si se puede utilizar una distancia clara y que funcione bien para definir todos los clústeres que puedan estar presentes. El resultado de este método son clústeres que presentan densidades similares. Esta es la opción predeterminada.
  • HDBSCAN: utiliza distancias variables para separar clústeres de densidades variables del ruido más disperso. HDBSCAN es el método de clustering que más se basa en los datos y requiere la menor participación del usuario.

Cadena de caracteres

Entidades mínimas por clúster

Este parámetro se utiliza de manera diferente en función del Método de clustering elegido, como se explica a continuación:

  • Distancia definida (DBSCAN): especifica el número de entidades que se deben encontrar dentro de una distancia determinada de un punto para que este pueda empezar a formar un clúster. La distancia se define con el parámetro Distancia de búsqueda.
  • Autoajuste (HDBSCAN): especifica el número de entidades vecinas de cada punto (incluido el punto) que se tendrán en cuenta a la hora de estimar la densidad. Este número es además el tamaño de clúster mínimo permitido al extraer los clústeres.

Int64

Utilizar hora

Si se debe utilizar el tiempo para identificar clústeres de puntos. Esta opción está disponible solo para el método de clustering DBSCAN.

Booleano

Distancia de búsqueda

La distancia máxima que se va a considerar.

Las Entidades mínimas por clúster especificadas se deberán encontrar dentro de esta distancia para que pertenezcan a un clúster. Los clústeres individuales estarán separados, al menos, por esta distancia. Si una entidad se encuentra a una distancia mayor que esta respecto de la siguiente entidad más cercana en el clúster, no se incluirá en el clúster.

Float64

Duración de búsqueda

Al buscar miembros de clústeres, la cantidad mínima de puntos debe estar dentro de esta duración de tiempo para formar un clúster.

Cadena de caracteres

Capa de salida

La capa de salida generada contendrá campos diferentes dependiendo del método de clustering seleccionado y de si el tiempo se utiliza en la identificación de clústeres de puntos.

Campos de salida agregados cuando se elige el método de clustering DBSCAN y se utiliza el tiempo

Nombre de campoDescripciónTipo de campo

Todos los campos de entrada se conservan

Se conservan todos los campos de entrada del dataset de entrada.

any

CLUSTER_ID

El Id. de clúster indica a qué clúster pertenece cada entidad.

Int32

COLOR_ID

El Id. de color es una etiqueta que se utiliza para dibujar los resultados, de modo que cada clúster sea visualmente diferente de sus clústeres vecinos en la mayoría de los casos. Para ambos campos, un valor de -1 indica que una entidad se ha etiquetado como ruido.

Int32

FEAT_TIME

El tiempo de instante original de cada entidad.

Fecha

START_DATETIME

La hora de inicio de la extensión temporal del clúster al que pertenece una entidad.

Fecha

END_DATETIME

La hora de finalización de la extensión temporal del clúster al que pertenece una entidad.

Fecha

Campos de salida agregados cuando se elige el método de clustering DBSCAN y no se utiliza el tiempo

Nombre de campoDescripciónTipo de campo

Todos los campos de entrada se conservan

Se conservan todos los campos de entrada del dataset de entrada.

any

CLUSTER_ID

El Id. de clúster indica a qué clúster pertenece cada entidad.

Int32

COLOR_ID

El Id. de color es una etiqueta que se utiliza para dibujar los resultados de modo que cada clúster sea visualmente diferente de sus clústeres vecinos en la mayoría de los casos. Para ambos campos, un valor de -1 indica que una entidad se ha etiquetado como ruido.

Int32

Campos de salida agregados cuando se elige el método de clustering HDBSCAN

Nombre de campoDescripciónTipo de campo

Todos los campos de entrada se conservan

Se conservan todos los campos de entrada del dataset de entrada.

any

CLUSTER_ID

El Id. de clúster indica a qué clúster pertenece cada entidad.

Int32

COLOR_ID

El Id. de color es una etiqueta que se utiliza para dibujar los resultados de modo que cada clúster sea visualmente diferente de sus clústeres vecinos en la mayoría de los casos. Para ambos campos, un valor de -1 indica que una entidad se ha etiquetado como ruido.

Int32

PROB

La probabilidad de que una entidad pertenezca a su clúster asignado.

Float64

STABILITY

La persistencia de cada clúster en un rango de escalas. Una puntuación mayor indica que un clúster persiste en un rango más amplio de escalas de distancia.

Float64

OUTLIER

La posibilidad de que una entidad sea un valor atípico dentro de su propio clúster. Un valor más alto indica que es más probable que la entidad sea un valor atípico.

Float64

EXEMPLAR

Indica qué entidades son las más representativas de cada clúster. Estas entidades se indican con un valor de 1.

Int32