Disponible en análisis de big data.
La herramienta Buscar clústeres de puntos encuentra clústeres de entidades de punto dentro del ruido colindante en función de su distribución espacial o espaciotemporal.
Diagrama de flujo de trabajo
Ejemplo
Una organización no gubernamental está estudiando una enfermedad concreta propagada por plagas y tiene un dataset de puntos que representa los hogares de un área de estudio, algunos de ellos infestados y otros no. Utilizando la herramienta Buscar clústeres de puntos, un analista puede determinar qué clústeres de hogares están infestados para ayudarle a delimitar un área en la que iniciar el tratamiento y la erradicación de las plagas.
Notas de uso
Tenga en cuenta lo siguiente al trabajar con la herramienta Buscar clústeres de puntos:
- La entrada de esta herramienta es una sola capa de puntos.
- Todos los resultados incluirán un campo llamado CLUSTER_ID que indica el clúster al que pertenece cada entidad, además de un campo llamado COLOR_ID, que es una etiqueta que se usa para dibujar los resultados para que cada clúster se diferencie visualmente de sus clústeres vecinos en la mayoría de los casos. Para ambos campos, un valor de -1 indica que una entidad se ha etiquetado como ruido.
- El parámetro Método de clustering determina si se usará una distancia definida o un algoritmo de clustering de autoajuste. DBSCAN identifica clústeres de puntos que están próximos en función de un rango de búsqueda especificado. HDBSCAN busca clústeres de puntos similares a DBSCAN, pero utiliza rangos de búsqueda variables teniendo en cuenta los clústeres con densidades variables en función de la probabilidad (o estabilidad) del clúster.
- Si elige DBSCAN, encontrará clústeres solo en espacio bidimensional o en espacio y tiempo. Si selecciona utilizar la hora para buscar clústeres y la capa de entrada tiene el tiempo habilitado y es del tipo de instante, DBSCAN descubrirá clústeres espaciotemporales de puntos que estén muy próximos en función de una distancia de búsqueda y una duración de búsqueda especificadas.
- Actualmente, HDBSCAN solo admite clustering espacial y no utilizará el tiempo para descubrir clústeres.
- Si usa el método de clustering DBSCAN con el tiempo para descubrir clústeres espaciotemporales, los resultados también incluirán estos campos:
- FEAT_TIME- el tiempo de instante original de cada entidad.
- START_DATETIME- la hora de inicio de la extensión temporal del clúster al que pertenece una entidad.
- END_DATETIME- la hora de finalización de la extensión temporal del clúster al que pertenece una entidad. El tiempo de la capa resultante se definirá como un intervalo en los campos START_DATETIME y END_DATETIME, lo cual garantiza que, en la mayoría de los casos, todos los miembros del clúster se dibujen juntos al visualizar clústeres espaciotemporales en un control deslizante de tiempo. En el caso de las entidades de ruido, START_DATETIME y END_DATETIME equivaldrán a FEAT_TIME.
- Si se usa el método de clustering HDBSCAN, los resultados también incluirán los siguientes campos:
- PROB- la probabilidad de que una entidad pertenezca a su clúster asignado.
- OUTLIER- la posibilidad de que una entidad sea un valor atípico dentro de su propio clúster. Un valor más alto indica que es más probable que la entidad sea un valor atípico.
- EXEMPLAR- indica qué entidades son las más representativas de cada clúster. Estas entidades se indican con un valor de 1.
- STABILITY- la persistencia de cada clúster en un rango de escalas. Una puntuación mayor indica que un clúster persiste en un rango más amplio de escalas de distancia.
- El parámetro Entidades mínimas por clúster se utiliza de manera diferente en función del método de clustering seleccionado:
- Distancia definida (DBSCAN): especifica el número de entidades que se deben encontrar dentro de un rango de búsqueda determinado de un punto para que este pueda empezar a formar un clúster. Los resultados podrían incluir clústeres con menos entidades que este valor. La distancia de rango de búsqueda se define con el parámetro Distancia de búsqueda. Si utiliza la hora para buscar clústeres, se necesita una duración de búsqueda adicional, que se define con el parámetro Duración de búsqueda. Al buscar miembros de clústeres, las entidades mínimas por clúster especificadas deben estar en la distancia de búsqueda y duración de búsqueda especificadas para formar un clúster. Tenga en cuenta que esta distancia y duración de búsqueda no están relacionadas con el diámetro o la extensión temporal de los clústeres de puntos descubiertos.
- Autoajuste (HDBSCAN): especifica el número de entidades vecinas de cada punto (incluido el propio punto) que se tendrán en cuenta a la hora de estimar la densidad. Este número es además el tamaño de clúster mínimo permitido al extraer los clústeres.
Parámetros
A continuación se indican los parámetros para la herramienta Buscar clústeres de puntos:
Parámetro | Descripción | Tipo de datos |
---|---|---|
Capa de entrada | Las entidades de puntos desde las que buscar clústeres de puntos. | Entidades |
Método de clustering | El método de clustering utilizado por la herramienta para determinar clústeres de puntos. Las dos opciones son las siguientes:
| Cadena de caracteres |
Entidades mínimas por clúster | Este parámetro se utiliza de manera diferente en función del Método de clustering elegido, como se explica a continuación:
| Int64 |
Utilizar hora | Si se debe utilizar el tiempo para identificar clústeres de puntos. Esta opción está disponible solo para el método de clustering DBSCAN. | Booleano |
Distancia de búsqueda | La distancia máxima que se va a considerar. Las Entidades mínimas por clúster especificadas se deberán encontrar dentro de esta distancia para que pertenezcan a un clúster. Los clústeres individuales estarán separados, al menos, por esta distancia. Si una entidad se encuentra a una distancia mayor que esta respecto de la siguiente entidad más cercana en el clúster, no se incluirá en el clúster. | Float64 |
Duración de búsqueda | Al buscar miembros de clústeres, la cantidad mínima de puntos debe estar dentro de esta duración de tiempo para formar un clúster. | Cadena de caracteres |
Capa de salida
La capa de salida generada contendrá campos diferentes dependiendo del método de clustering seleccionado y de si el tiempo se utiliza en la identificación de clústeres de puntos.
Campos de salida agregados cuando se elige el método de clustering DBSCAN y se utiliza el tiempo
Nombre de campo | Descripción | Tipo de campo |
---|---|---|
Todos los campos de entrada se conservan | Se conservan todos los campos de entrada del dataset de entrada. | any |
CLUSTER_ID | El Id. de clúster indica a qué clúster pertenece cada entidad. | Int32 |
COLOR_ID | El Id. de color es una etiqueta que se utiliza para dibujar los resultados, de modo que cada clúster sea visualmente diferente de sus clústeres vecinos en la mayoría de los casos. Para ambos campos, un valor de -1 indica que una entidad se ha etiquetado como ruido. | Int32 |
FEAT_TIME | El tiempo de instante original de cada entidad. | Fecha |
START_DATETIME | La hora de inicio de la extensión temporal del clúster al que pertenece una entidad. | Fecha |
END_DATETIME | La hora de finalización de la extensión temporal del clúster al que pertenece una entidad. | Fecha |
Campos de salida agregados cuando se elige el método de clustering DBSCAN y no se utiliza el tiempo
Nombre de campo | Descripción | Tipo de campo |
---|---|---|
Todos los campos de entrada se conservan | Se conservan todos los campos de entrada del dataset de entrada. | any |
CLUSTER_ID | El Id. de clúster indica a qué clúster pertenece cada entidad. | Int32 |
COLOR_ID | El Id. de color es una etiqueta que se utiliza para dibujar los resultados de modo que cada clúster sea visualmente diferente de sus clústeres vecinos en la mayoría de los casos. Para ambos campos, un valor de -1 indica que una entidad se ha etiquetado como ruido. | Int32 |
Campos de salida agregados cuando se elige el método de clustering HDBSCAN
Nombre de campo | Descripción | Tipo de campo |
---|---|---|
Todos los campos de entrada se conservan | Se conservan todos los campos de entrada del dataset de entrada. | any |
CLUSTER_ID | El Id. de clúster indica a qué clúster pertenece cada entidad. | Int32 |
COLOR_ID | El Id. de color es una etiqueta que se utiliza para dibujar los resultados de modo que cada clúster sea visualmente diferente de sus clústeres vecinos en la mayoría de los casos. Para ambos campos, un valor de -1 indica que una entidad se ha etiquetado como ruido. | Int32 |
PROB | La probabilidad de que una entidad pertenezca a su clúster asignado. | Float64 |
STABILITY | La persistencia de cada clúster en un rango de escalas. Una puntuación mayor indica que un clúster persiste en un rango más amplio de escalas de distancia. | Float64 |
OUTLIER | La posibilidad de que una entidad sea un valor atípico dentro de su propio clúster. Un valor más alto indica que es más probable que la entidad sea un valor atípico. | Float64 |
EXEMPLAR | Indica qué entidades son las más representativas de cada clúster. Estas entidades se indican con un valor de 1. | Int32 |