Buscar clústeres de puntos (GeoAnalytics Desktop)

Resumen

Busca clústeres de entidades de puntos dentro del ruido colindante en función de su distribución espacial o espaciotemporal.

Más información sobre cómo funciona Clustering basado en densidad

Ilustración

Ilustración de la herramienta Buscar clústeres de puntos

Uso

  • La entrada de Buscar clústeres de puntos es una capa de puntos. Esta herramienta extrae clústeres de la Capa de puntos de entrada e identifica cualquier ruido colindante.

  • Buscar clústeres de puntos requiere que la Capa de puntos de entrada esté proyectada o que el sistema de coordenadas de salida se haya definido como un sistema de coordenadas proyectadas.

  • Existen dos opciones para el parámetro Método de clustering. Distancia definida (DBSCAN) utiliza el algoritmo DBSCAN y busca clústeres de puntos que están próximos en función de una distancia de búsqueda especificada. Autoajuste (HDBSCAN) utiliza el algoritmo HDBSCAN y busca clústeres de puntos similares a DBSCAN, utilizando distancias variables teniendo en cuenta los clústeres con densidades variables en función de la probabilidad (o estabilidad) de clúster. Si elige DBSCAN, encontrará clústeres solo en espacio bidimensional o en espacio y tiempo. Si selecciona Utilizar hora para buscar clústeres y la capa de entrada tiene el tiempo habilitado y es del tipo de instante, DBSCAN descubrirá clústeres espaciotemporales de puntos que estén muy próximos en función de una distancia de búsqueda y una duración de búsqueda especificadas.

  • El parámetro Entidades mínimas por clúster se utiliza de manera diferente, en función del método de clustering:

    • Distancia definida (DBSCAN): especifica el número de entidades que se deben encontrar dentro de una distancia de búsqueda determinada de un punto para que este pueda empezar a formar un clúster. Los resultados podrían incluir clústeres con menos entidades que este valor. La distancia de búsqueda se define con el parámetro Distancia de búsqueda. Si utiliza la hora para buscar clústeres, la Duración de búsqueda es obligatoria. Al buscar miembros de clústeres, las Entidades mínimas por clúster deben estar en Distancia de búsqueda y Duración de búsqueda para formar un clúster. Tenga en cuenta que esta distancia y duración no están relacionadas con el diámetro o la extensión temporal de los clústeres de puntos descubiertos.
    • Autoajuste (HDBSCAN): especifica el número de entidades vecinas de cada punto (incluido el punto) que se tendrán en cuenta a la hora de estimar la densidad. Este número es además el tamaño de clúster mínimo permitido al extraer los clústeres.

  • Esta herramienta produce una clase de entidad de salida con un nuevo campo de tipo entero, CLUSTER_ID, que identifica el clúster en el que se encuentra cada entidad. La representación en pantalla predeterminada se basa en el campo COLOR_ID. Cada color se asignará a varios clústeres. Los colores se asignarán y repetirán de forma que cada clúster sea visualmente diferente de sus clústeres vecinos.

  • Si usa el método de clustering Distancia definida (DBSCAN) con el tiempo para descubrir clústeres espaciotemporales, los resultados también incluirán estos campos:

    • FEAT_TIME: el tiempo de instante original de cada entidad.
    • START_DATETIME: la hora de inicio de la extensión temporal del clúster al que pertenece una entidad.
    • END_DATETIME: la hora de finalización de la extensión temporal del clúster al que pertenece una entidad.

    Las propiedades de tiempo de la capa de resultados se definirán como un intervalo en los campos START_DATETIME y END_DATETIME, lo cual garantiza que todos los miembros del clúster se dibujen juntos al visualizar clústeres espaciotemporales en un control deslizante de tiempo. Estos campos se utilizan únicamente para visualización. En el caso de las entidades de ruido, START_DATETIME y END_DATETIME equivaldrán a FEAT_TIME.

  • Si el Método de clustering es Autoajuste (HDBSCAN), la clase de entidad de salida también contendrá los siguientes campos:

    • PROB: la probabilidad de que una entidad pertenezca a su clúster asignado.
    • OUTLIER: la posibilidad de que una entidad sea un valor atípico dentro de su propio clúster. Un valor más alto indica que es más probable que la entidad sea un valor atípico.
    • EXEMPLAR: las entidades que representan mejor cada clúster. Estas entidades se indican con un valor de 1.
    • STABILITY: la persistencia de cada clúster en un rango de escalas. Un valor mayor indica que un clúster persiste en un rango más amplio de escalas de distancia.

  • Es posible mejorar el rendimiento de la herramienta Buscar clústeres de puntos gracias a una o varias de estas sugerencias:

    • Defina el entorno de extensión para analizar únicamente datos de interés.
    • Sea exigente en la distancia y duración de búsqueda. Las distancias o radios de búsqueda más reducidos pueden rendir mejor en los mismos datos.
    • Utilice datos locales en los que se ejecute el análisis.

  • Esta herramienta de geoprocesamiento se basa en Spark. El análisis se completa en su equipo de escritorio utilizando varios núcleos en paralelo. Consulte Consideraciones acerca de las herramientas de GeoAnalytics Desktop para obtener más información acerca de la ejecución de análisis.

  • Al ejecutar herramientas de GeoAnalytics Desktop, el análisis se completa en su equipo de escritorio. Para un rendimiento óptimo, los datos deben estar disponibles en su escritorio. Si utiliza una capa de entidades alojada, se recomienda utilizar ArcGIS GeoAnalytics Server. Si sus datos no están almacenados localmente, se tardará más tiempo en ejecutar una herramienta. Para utilizar su ArcGIS GeoAnalytics Server para realizar un análisis, consulte GeoAnalytics Tools.

Parámetros

EtiquetaExplicaciónTipo de datos
Capa de puntos de entrada

La clase de entidad de punto que contiene los clústeres de puntos.

Feature Layer
Clase de entidad de salida

Una clase de entidad nueva con los clústeres de puntos resultantes.

Feature Class
Método de clustering

Especifica el método que se utilizará para definir clústeres.

  • Distancia definida (DBSCAN)Se utilizará una distancia definida para separar los clústeres densos del ruido más disperso. DBSCAN es el método de clustering más rápido, pero solo es apropiado si se puede utilizar una distancia clara y que funcione bien para definir todos los clústeres que puedan estar presentes. El resultado son clústeres que presentan densidades similares. Esta es la opción predeterminada.
  • Autoajuste (HDBSCAN)Se utilizarán distancias variables para separar clústeres de densidades variables del ruido más disperso. HDBSCAN es el método de clustering que más se basa en los datos y requiere la menor participación del usuario.
String
Entidades mínimas por clúster

Este parámetro se utiliza de manera diferente en función del método de clustering elegido, como se explica a continuación:

  • Distancia definida (DBSCAN): especifica el número de entidades que se deben encontrar dentro de una distancia determinada de un punto para que este pueda empezar a formar un clúster. La distancia se define con el parámetro Distancia de búsqueda.
  • Autoajuste (HDBSCAN): especifica el número de entidades vecinas de cada punto (incluido el punto) que se tendrán en cuenta a la hora de estimar la densidad. Este número es además el tamaño de clúster mínimo permitido al extraer los clústeres.

Long
Distancia de búsqueda

La distancia máxima que se considerará.

El valor de Entidades mínimas por clúster especificado se deberá encontrar dentro de esta distancia para que pertenezcan a un clúster. Los clústeres individuales estarán separados, al menos, por esta distancia. Si una entidad se encuentra a una distancia mayor que esta respecto de la siguiente entidad más cercana en el clúster, no se incluirá en el clúster.

Linear Unit
Utilizar hora para buscar clústeres
(Opcional)

Especifica si se utilizará o no la hora para descubrir clústeres con DBSCAN.

  • Activado: se buscarán clústeres espaciotemporales utilizando una distancia y una duración de búsqueda.
  • Desactivado: se buscarán clústeres espaciales utilizando una distancia de búsqueda y el tiempo se ignorará. Esta es la opción predeterminada.
Boolean
Duración de búsqueda
(Opcional)

Al buscar miembros de clústeres, la cantidad mínima especificada de puntos debe estar dentro de esta duración de tiempo para formar un clúster.

Time Unit

arcpy.geoanalytics.FindPointClusters(input_points, out_feature_class, clustering_method, minimum_points, search_distance, {use_time}, {search_duration})
NombreExplicaciónTipo de datos
input_points

La clase de entidad de punto que contiene los clústeres de puntos.

Feature Layer
out_feature_class

Una clase de entidad nueva con los clústeres de puntos resultantes.

Feature Class
clustering_method

Especifica el método que se utilizará para definir clústeres.

  • DBSCANSe utilizará una distancia definida para separar los clústeres densos del ruido más disperso. DBSCAN es el método de clustering más rápido, pero solo es apropiado si se puede utilizar una distancia clara y que funcione bien para definir todos los clústeres que puedan estar presentes. El resultado son clústeres que presentan densidades similares. Esta es la opción predeterminada.
  • HDBSCANSe utilizarán distancias variables para separar clústeres de densidades variables del ruido más disperso. HDBSCAN es el método de clustering que más se basa en los datos y requiere la menor participación del usuario.
String
minimum_points

Este parámetro se utiliza de manera diferente en función del método de clustering elegido, como se explica a continuación:

  • Distancia definida (DBSCAN): especifica el número de entidades que se deben encontrar dentro de una distancia determinada de un punto para que este pueda empezar a formar un clúster. La distancia se define con el parámetro Distancia de búsqueda.
  • Autoajuste (HDBSCAN): especifica el número de entidades vecinas de cada punto (incluido el punto) que se tendrán en cuenta a la hora de estimar la densidad. Este número es además el tamaño de clúster mínimo permitido al extraer los clústeres.

Long
search_distance

La distancia máxima que se considerará.

El valor de Entidades mínimas por clúster especificado se deberá encontrar dentro de esta distancia para que pertenezcan a un clúster. Los clústeres individuales estarán separados, al menos, por esta distancia. Si una entidad se encuentra a una distancia mayor que esta respecto de la siguiente entidad más cercana en el clúster, no se incluirá en el clúster.

Linear Unit
use_time
(Opcional)

Especifica si se utilizará o no la hora para descubrir clústeres con DBSCAN.

  • TIMESe buscarán clústeres espaciotemporales utilizando una distancia y una duración de búsqueda.
  • NO_TIMESe buscarán clústeres espaciales utilizando una distancia de búsqueda y el tiempo se ignorará. Esta es la opción predeterminada.
Boolean
search_duration
(Opcional)

Al buscar miembros de clústeres, la cantidad mínima especificada de puntos debe estar dentro de esta duración de tiempo para formar un clúster.

Time Unit

Muestra de código

Ejemplo de FindPointClusters (script independiente)

El siguiente script de la ventana de Python muestra cómo utilizar la función FindPointClusters.

#-------------------------------------------------------------------------------
# Name: FindPointClusters.py
# Description: Finds Point Clusters of rodent infestations

# Import system modules
import arcpy

arcpy.env.workspace = "C:/data/CountyData.gdb"

# Set local variables
inputPoints = "rat_sightings"
minimumPoints = 10
outputName = "RodentClusters"
searchDistance = "1 Kilometers"
clusterMethod = "DBSCAN"

# Run Find Point Clusters
arcpy.gapro.FindPointClusters(inputPoints, outputName, clusterMethod, 
                              minimumPoints, searchDistance)