Cómo funciona Clustering multivariante restringido espacialmente

Cuando nos fijamos en el mundo que nos rodea, es muy natural que organicemos, agrupemos, diferenciemos y cataloguemos lo que vemos para ayudarnos a tener un mejor sentido al respecto; este tipo de proceso de clasificación mental es fundamental para el aprendizaje y la comprensión. Del mismo modo, para ayudarle a aprender y comprender mejor los datos, puede utilizar la herramienta Clustering multivariante restringido espacialmente. Dado el número de clústeres a crear, buscará una solución en la que todas las entidades dentro de cada clúster son lo más parecido posible, y todos los clúster en sí son tan diferentes como sea posible. La similitud de las entidades se basa en el conjunto de atributos que especifica para el parámetro Campos de análisis y también pueden incorporar opcionalmente restricciones sobre el tamaño de los clústeres. El algoritmo utilizado por esta herramienta emplea un gráfico de conectividad (árbol de expansión mínima) y un método denominado SKATER para encontrar clústeres naturales en sus datos, así como acumulación de pruebas para evaluar la probabilidad de pertenencia a los clústeres.

Sugerencia:

El clustering, el agrupamiento y la clasificación son algunas de las técnicas más utilizadas en aprendizaje de máquina. La herramienta Clustering multivariante restringido espacialmente utiliza métodos no supervisados de aprendizaje de máquina para determinar el clustering natural presente en sus datos. Estos métodos de clasificación se consideran no supervisados porque no requieren un conjunto de entidades previamente clasificadas para guiar o entrenar en la forma de determinar el clustering de los datos.

A pesar de que existen cientos de algoritmos de análisis cluster, todos ellos están clasificados como NP-duro. Esto significa que la única forma de garantizar que una solución maximizará perfectamente tanto las similitudes dentro del clúster como las diferencias entre clústeres es tratar cada combinación posible de las entidades que desee distribuir en clústeres. Aunque esto puede ser viable con unas cuantas entidades, el problema rápidamente se convierte en incorregible.

No solo es incorregible para garantizar que ha encontrado una solución óptima, sino también es poco realista intentar identificar un algoritmo de clustering que funcionará mejor para todos los escenarios de datos posibles. Los clústeres son de diferentes formas, tamaños y densidades; los datos de atributos pueden incluir una variedad de rangos, simetría, continuidad y unidades de medición. Esto explica por qué tantos algoritmos de análisis cluster diferentes han sido desarrollados durante los últimos 50 años. Es más adecuado, por lo tanto, pensar en Clustering multivariante restringido espacialmente de agrupamiento como una herramienta de exploración que puede ayudarle a obtener más información sobre estructuras subyacentes en los datos.

Aplicaciones potenciales

Estas son algunas formas en que se podría aplicar esta herramienta:

  • Si ha recopilado datos sobre avistamientos de animales para entender mejor sus territorios, la herramienta Clustering multivariante restringido espacialmente podría ser útil. Entender dónde y cuándo se congrega el salmón en diferentes fases de la vida, por ejemplo, podría ayudar a diseñar las áreas protegidas que pueden ayudar a garantizar una reproducción exitosa.
  • Como agronomista, es posible que desee clasificar diferentes tipos de suelos en su área de estudio. Utilizar Clustering multivariante restringido espacialmente de agrupamiento en las características del suelo que se han encontrado para una serie de muestras, le puede ayudar a identificar clústeres de tipos de suelo distintos, contiguos espacialmente.
  • El clustering de los clientes por sus patrones de compra, características demográficas o patrones de viaje puede ayudarle a diseñar una estrategia de marketing eficiente para los productos de la empresa.
  • Los planificadores urbanos a menudo necesitan dividir las ciudades en vecindades distintas para localizar eficientemente las instalaciones públicas y promover el activismo y el compromiso comunitario local. Utilizar Clustering multivariante restringido espacialmente de agrupamiento en las características físicas y demográficas de cuadras de una ciudad puede ayudar a los planificadores a identificar áreas de su ciudad que estén contiguas espacialmente y que tengan características físicas y demográficas similares.
  • Falacia ecológica es un problema bien conocido por la inferencia estadística cuando se realiza el análisis de datos agregados. A menudo, el esquema de agregación que se utiliza para el análisis no tiene nada que ver con lo que queremos analizar. Los datos del censo, por ejemplo, se agregan con base en las distribuciones de la población que pueden no ser la mejor elección para analizar incendios forestales. La partición de las unidades de agregación más pequeñas posibles en regiones homogéneas para un conjunto de atributos que se relacionan con precisión a las preguntas analíticas que nos ocupa, es un método eficaz para reducir la influencia de agregación y evitar la falacia ecológica.

Entradas

Esta herramienta toma Entidades de entrada de punto o polígono, una ruta para las Entidades de salida, uno o varios Campos de análisis y un valor entero que representa el Número de clústeres que se desea crear, y el tipo de Restricción espacial que se debe aplicar dentro del algoritmo de clustering. También existen distintos parámetros opcionales que pueden usarse para establecer Restricciones del tamaño del clúster, ya sea en cuanto al mínimo o máximo número de entidades por clúster o una suma mínima o máxima de valores de atributos por cada clúster, además de una Tabla de salida para evaluar el número óptimo de clústeres.

Campos de análisis

Seleccione los campos que son numéricos y que reflejan relación, intervalo o sistemas de medición ordinales. A pesar de que los datos nominales se pueden representar mediante variables ficticias (binarias), estas por lo general no funcionan tan bien como los demás tipos de variables numéricas. Por ejemplo, podría crear una variable llamada Rural y asignar a cada entidad (cada distrito censal, por ejemplo) un 1 si es principalmente rural y un 0 si es principalmente urbana. Sin embargo, una mejor representación de esta variable para el uso con Clustering multivariante restringido espacialmente de agrupamiento, sería la cantidad o la proporción de extensión rural asociada con cada entidad.

Nota:

Los valores de Campos de análisis están estandarizados en la herramienta porque las variables que tienen grandes variaciones (donde los valores de los datos están dispersos alrededor del valor medio) tienden a influir más en los clústeres que las variables que tienen pequeñas variaciones. La estandarización de los valores de atributos implica una transformación z en la que el valor medio de todos los valores se resta de cada valor y se divide entre la desviación estándar de todos los valores. La estandarización pone todos los atributos en la misma escala aunque estén representados por tipos de números muy diferentes: tasas (número de 0 a 1,0), población (valores superior a 1 millón) y distancias (kilómetros, por ejemplo).

Debe seleccionar las variables que considere que distinguirán un clúster de entidades de otro. Supongamos, por ejemplo, que está interesado en realizar un clustering distritos escolares por rendimiento de los estudiantes sobre pruebas estandarizadas de logros. Podría seleccionar Campos de análisis que incluyan los resultados generales de las pruebas, los resultados de temas específicos como matemáticas o lectura, la proporción de los estudiantes que cumplen con un umbral de puntuación mínima en las pruebas, y así sucesivamente. Cuando ejecuta la herramienta Clustering multivariante restringido espacialmente, se calcula un valor R2 para cada variable, que se comunica en la ventana de mensajes. En el siguiente resumen, por ejemplo, los distritos escolares se organizan en clústeres basándose en las puntuaciones de las pruebas de los estudiantes, el porcentaje de los adultos en el área que no terminaron la escuela secundaria, por gasto por estudiante y la relación promedio entre estudiantes-profesores. Observe que la variable TestScores tiene el valor R2 más alto. Esto indica que esta variable divide los distritos escolares en clústeres de forma más eficaz. El valor R2 refleja cuánto de la variación en los datos originales de TestScores se mantuvo después del proceso de clustering, de modo que mientras más alto sea el valor R2 para una variable específica, mejor es esa variable en la discriminación entre las entidades.

Resumen de variables del clustering multivariante restringido espacialmente

Explorar:

R2 se calcula como:

(TSS - ESS) / TSS

donde TSS es la suma total de cuadrados y EES es la suma explicada de los cuadrados. TSS se calcula al elevar al cuadrado y luego sumar las desviaciones del valor medio global de una variable. ESS se calcula de la misma manera, excepto que las desviaciones se agrupan por grupo: cada valor se resta del valor medio para el grupo al que pertenece, luego se eleva al cuadrado y se suma.

Restricciones del tamaño del clúster

Puede administrar el tamaño de los clústeres con el parámetro Restricciones del tamaño del clúster. Puede establecer umbrales mínimos o máximos que cada clúster debe cumplir. Las restricciones de tamaño pueden ser el Número de entidades que debe contener cada clúster o bien la suma de un Valor de atributo. Por ejemplo, si estaba agrupando los condados de los EE. UU. en función de un conjunto de variables económicas, podría especificar que cada clúster tenga una población mínima de 5 millones y una población máxima de 25 millones. Como alternativa, puede especificar que cada clúster debe contener un mínimo de 30 condados.

Si se especifica una restricción Máximo por clúster, el algoritmo comienza con un solo clúster y divide los clústeres espacialmente contiguos y de valor similar. Se crean nuevos clústeres hasta que todos los tamaños de clúster estén por debajo del valor de Máximo por clúster, teniendo en cuenta todas las variables de cada división.

SKATER forma clústeres dividiendo espacialmente los datos que presentan valores similares para las entidades de interés. Es posible que el parámetro Restricciones del tamaño del clúster no se respeten con todos los clústeres. Esto se produce si las restricciones del tamaño del clúster definidas no permiten una definición óptima de los clústeres

SKATER también forma clústeres dividiendo espacialmente los datos que presentan valores similares para todos los Campos de análisis especificados. Es posible que las Restricciones del tamaño del clúster no se respeten con todos los clústeres. Esto puede ocurrir si tanto la restricción de máximo como la de mínimo presentan valores muy cercanos entre sí, o a causa de la forma en que se construyó el árbol de expansión mínima a partir de las restricciones espaciales. Si esto ocurre, la herramienta finaliza y los clústeres que no hayan cumplido los requisitos especificados se indican en la ventana de mensajes.

Número de clústeres

A veces sabrá cuál es el número de clústeres más adecuado para su pregunta o problema. Si tiene cinco gerentes de ventas y desea asignar cada uno a su propia región contigua, por ejemplo, debe utilizar 5 para el parámetro Número de clústeres. En muchos casos, sin embargo, usted no tendrá ningún criterio para seleccionar una cantidad específica de clústeres; en lugar de ello, solo desea el número que mejor distingue las similitudes y diferencias de las entidades. Para ayudarle en esta situación, puede dejar vacío el parámetro Número de clústeres y permitir que la herramienta Clustering multivariante restringido espacialmente evalúe la eficacia de dividir las entidades en 2, 3, 4 y hasta 30 clústeres. La eficacia del clustering se mide mediante la pseudo estadística F Calinski-Harabasz, que es una proporción de la varianza entre clústeres respecto de la varianza dentro del clúster. En otras palabras, es una proporción que refleja la similitud dentro de un grupo y las diferencias entre grupos del siguiente modo:

Pseudo estadística F Calinski-Harabasz

Supongamos que desea crear cuatro clústeres espacialmente contiguos. En este caso, la herramienta creará un árbol de expansión mínima que reflejará la estructura espacial de las entidades y los valores de campo de análisis asociados. A continuación, la herramienta determina el mejor lugar por donde cortar el árbol a fin de crear dos clústeres separados. Después, determina cuál de los dos clústeres resultantes debe dividirse para obtener la mejor solución de tres clústeres. Uno de los dos clústeres se dividirá y el otro clúster permanecerá intacto. Finalmente, determina cuáles de los tres clústeres resultantes debe dividirse para obtener la mejor solución de cuatro clústeres. Para cada división, la mejor solución es aquella que maximiza las similitudes dentro del clúster y las diferencias entre clústeres. Un clúster ya no puede dividirse más (salvo de forma arbitraria) cuando los valores de campo del análisis para todas las entidades dentro de dicho clúster son idénticos. En el caso de que todos los clústeres resultantes tuvieran entidades idénticas, la herramienta Clustering multivariante restringido espacialmente dejaría de crear clústeres nuevos, aunque no hubiera alcanzado todavía el valor de Número de clústeres especificado. No existe ninguna base para dividir un clúster cuando todos los Campos de análisis tienen valores idénticos.

Restricciones espaciales

El parámetro Restricciones espaciales garantiza que los clústeres resultantes sean espacialmente proximales. Las opciones de Contigüidad están habilitadas para las clases de entidad poligonal e indican que las entidades solo pueden formar parte del mismo clúster si comparten un borde (Solo bordes de contigüidad) o si comparten un borde o un vértice (Bordes o esquinas de contigüidad) con otro miembro del clúster. Las opciones de contigüidad de polígono no son buenas opciones, sin embargo, si su dataset incluye clusters de polígonos no adyacentes o polígonos sin vecinos contiguos en absoluto:

Polígonos no adyacentes

La opción Triangulación de Delaunay restringida es apropiada para las entidades de punto o poligonales y garantiza que una entidad se incluya en un clúster solo si al menos otro miembro del clúster es un vecino natural (Triangulación de Delaunay). Conceptualmente, la triangulación de Delaunay crea una malla de triángulos no superpuestos a partir de los centroides de la entidad. Cada entidad es un nodo de triángulo, y los nodos que comparten bordes se consideran vecinos. A continuación, estos triángulos se restringen a una envoltura convexa para garantizar que las entidades no puedan ser vecinas de ninguna otra entidad fuera de la envoltura convexa. Esta opción no debería utilizarse para los datasets con entidades coincidentes. También, dado que el Método de triangulación de Delaunay convierte entidades en polígonos de Thiessen para determinar las relaciones de vecinos, especialmente con las entidades poligonales y algunas veces con entidades periféricas en el dataset, los resultados de usar esta opción pueden no ser siempre lo que esperaba. Observe en la siguiente ilustración que algunos de los polígonos originales agrupados no son contiguos. Sin embargo, cuando se convierten en polígonos de Thiessen, todas las entidades agrupadas, de hecho, comparten un borde.

Ejemplo de Triangulación de Delaunay
Para la Triangulación de Delaunay restringida, la contigüidad del polígono de Thiessen define las relaciones de vecinos.

Si desea que los clústeres resultantes sean proximales tanto espacial como temporalmente, cree un archivo de matriz de ponderaciones espaciales (SWM) utilizando la herramienta Generar matriz de ponderaciones espaciales y seleccione Ventana espacio-tiempo para el parámetro Conceptualización de relaciones espaciales. A continuación, puede especificar el archivo SWM que creó con la herramienta Generar matriz de ponderaciones espaciales para el parámetro Archivo de matriz de ponderaciones cuando ejecute la herramienta Clustering multivariante restringido espacialmente.

Nota:

Mientras que las relaciones espaciales entre las entidades se almacenan en un archivo SWM y las utiliza la herramienta Clustering multivariante restringido espacialmente para imponer restricciones espaciales, no hay una ponderación real implicada en el proceso de agrupamiento. El archivo SWM solo se utiliza para rastrear qué entidades pueden incluirse en un mismo clúster y cuáles no.

Árbol de expansión mínima

Para limitar la pertenencia al clúster a entidades contiguas o proximales, la herramienta primero construye un gráfico de conectividad que representa las relaciones de vecindad entre las entidades. Desde el gráfico de conectividad, se concibe un árbol de expansión mínima que resume las relaciones espaciales de la entidad y la similitud de datos de la entidad. Las entidades se convierten en nodos en el árbol de expansión mínima conectadas por medio de bordes ponderados. El peso de cada borde es proporcional a la similitud de los objetos que conecta. Después de construir el árbol de expansión mínima, se corta una rama (borde) del árbol, creando dos árboles de expansión mínima. El borde que se debe cortar se selecciona de manera que minimice la falta de similitud en los clústeres resultantes, a la vez que evita (si es posible) clases individuales (clústeres con solo una entidad). En cada iteración uno de los árboles de expansión mínima se divide por medio de este proceso de corte hasta que se obtiene el Número de clústeres especificado. El método publicado empleado se llama SKATER (Análisis de "K"luster espacial por medio de eliminación de bordes del árbol). A pesar de que se selecciona la rama que optimiza la similitud del clúster para el corte en cada iteración, no hay ninguna garantía de que el resultado final sea óptimo.

Probabilidades de pertenencia

El parámetro Permutaciones para calcular probabilidades de pertenencia define el número de permutaciones a realizar para el cálculo de la probabilidad de pertenencia al clúster mediante acumulación de pruebas. Las probabilidades de pertenencia se incluyen en la clase de entidad de salida, en el campo PROB. Una probabilidad de pertenencia elevada indica que la entidad es similar y proximal al clúster al que se ha asignado y que usted puede confiar en que la entidad pertenece al clúster al que se ha asignado. Una baja probabilidad puede indicar que la entidad es muy distinta del clúster al que fue asignada por el algoritmo SKATER, o que la entidad no se pudo incluir en un clúster diferente si los parámetros Campos de análisis, Restricciones del tamaño del clúster o Restricciones espaciales se han cambiado de alguna forma.

El número de permutaciones que especifique define el número de árboles de expansión aleatorios que se deben crear para perturbar la restricción espacial de SKATER. A continuación, el algoritmo resuelve el Número de clústeres especificado para cada árbol de expansión aleatorio. Con los clústeres originales definidos por SKATER, el proceso de permutación controla la frecuencia con la que cada miembro de un clúster aparece en el clúster a medida que cambian los árboles de expansión. Las entidades con más probabilidad de cambiar de clúster ante un cambio leve del árbol de expansión reciben probabilidades de pertenencia pequeñas, mientras que las entidades que no cambian de clúster reciben probabilidades de pertenencia grandes.

El cálculo de estas probabilidades puede requerir un tiempo considerable en los datasets grandes. Se recomienda iterar y buscar primero el número óptimo de clústeres para su análisis y calcular a continuación las probabilidades para su análisis en una ejecución posterior. También puede mejorar el rendimiento incrementando el ajuste de Entornos de factor de procesamiento en paraleloa 50.

Salidas

La herramienta Clustering multivariante restringido espacialmente crea un número de resultados. Los mensajes son accesibles desde el panel Geoprocesamiento desplazando el puntero por encima de la barra de progreso, haciendo clic en el botón de progreso de herramienta Progreso de herramienta o expandiendo la sección de mensajes situada en la parte inferior del panel Geoprocesamiento. También puede acceder a los mensajes de una ejecución previa de Clustering multivariante restringido espacialmente a través del Historial de geoprocesamiento.

Ventana de mensajes del Clustering multivariante restringido espacialmente

La salida predeterminada para la herramienta Clustering multivariante restringido espacialmente es una nueva clase de entidad de salida que contiene los campos que se utilizan en el análisis más un nuevo campo de tipo entero llamado CLUSTER_ID que identifica el grupo al que pertenece cada entidad. Esta clase de entidad de salida se agrega a la tabla de contenido con un esquema de representación en pantalla a color único aplicado al campo CLUSTER_ID.

Clase de entidad de salida de Clustering multivariante restringido espacialmente
Salida de Clustering multivariante restringido espacialmente.

Salidas de gráfico de Clustering multivariante restringido espacialmente

Se crean varios tipos de gráficos para resumir los clústeres que se han creado. Se usan diagramas de caja para representar tanto las características de cada clúster como las características de cada variable utilizada en el análisis. El siguiente gráfico le muestra cómo interpretar los diagramas de caja y sus valores de resumen para cada Campo de análisis y clúster creado: valor mínimo de datos, 1.er cuartil, mediana global, 3.er cuartil, valor máximo de datos y valores atípicos de datos (valores más pequeños o más grandes que 1,5 veces el rango entre cuartiles). Sitúe el ratón sobre el diagrama de caja del gráfico para ver estos valores, así como el valor de rango entre cuartiles. Cualquier marca de punto que quede fuera del mínimo o el máximo (límite superior o inferior) representa valores atípicos de datos.

Explorar:

El rango entre cuartiles (IQR) es el 3.er cuartil menos el 1.er cuartil. Los valores atípicos bajos serían valores menores que 1.5*IQR (Q1-1.5*IQR) y los valores atípicos altos serían valores mayores que 1.5*IQR (Q3+1.5*IQR). Los valores atípicos aparecen en los diagramas de caja como símbolo de punto.

Resumen de diagrama de caja

El gráfico de diagrama de caja paralelo predeterminado resume tanto los clústeres como las variables que contienen. Por ejemplo, la herramienta Clustering multivariante restringido espacialmente se ejecutó junto con distritos censales para crear cuatro clústeres. Observe en el gráfico siguiente que el clúster 2 (rojo) refleja distritos con rentas medias, los valores más altos para los hogares liderados por mujeres con hijos (FHH_CHILD), los valores más altos para la cantidad de unidades residenciales (HSE_UNITS) y los valores más altos para los niños menores de 5 años. El clúster 2 (dorado) refleja distritos con las medianas de rentas más altas, casi el número más bajo de hogares con hijos con mujeres como cabeza de familia y más que la media de unidades de vivienda. El clúster 3 (verde) refleja los distritos con el menor número de hogares con hijos con mujeres como cabeza de familia, el menor número de hijos por debajo de los 5 años de edad, el menor número de unidades residenciales y casi la renta más baja (no tan baja como en el clúster 1). Sitúe el ratón sobre cada nodo de las líneas de media para ver el valor medio del clúster para cada Campo de análisis.

Diagramas de caja de clustering multivariante restringido espacialmente

Tras inspeccionar el resumen global del análisis con los diagramas de caja paralelos que mostrábamos arriba, puede inspeccionar los diagramas de caja de cada clúster en cada variable, cambiando a En paralelo en la pestaña Series del panel Propiedades de gráfico. Con esta vista de los datos, puede ver qué grupo tiene el rango más alto y más bajo de valores en cada variable. Se crearán diagramas de caja para cada clúster y cada variable, de modo que puede ver la relación entre los valores de cada clúster y los de los demás clústeres creados. Sitúe el ratón sobre el diagrama de caja de cada variable para ver los valores Mínimo, Máximo y Mediana de cada variable de cada clúster. En el gráfico para que aparece a continuación, por ejemplo, verá que el clúster 4 (dorado) presenta los valores más altos en la variable MEDIANRENT y contiene distritos con un rango de valores que va del 354 al 813.

Diagramas de caja de clustering multivariante restringido espacialmente

También se crea un gráfico de barras que muestra el número de entidades por cada clúster. Al seleccionar cada barra, también se seleccionan las entidades del clúster en el mapa, lo que puede resultar útil para análisis posteriores.

Entidades por gráfico de barras de clúster

Si deja vacío el parámetro Número de clústeres, la herramienta evaluará el número óptimo de clústeres basándose en sus datos. Si especifica una ruta para la Tabla de salida para evaluar el número de clústeres, se creará un gráfico que muestra los valores de la pseudo estadística F calculados. El pico más alto del gráfico es la estadística F más grande, que indica cuántos clústeres serán más eficaces para distinguir las entidades y las variables que especificó. En el gráfico que aparece a continuación, la estadística F asociada con cuatro grupos es la más alta. Cinco grupos, con una pseudo estadística F alta, también serían una buena elección.

Gráfico de índice estadístico F pseudo
Gráfico de pseudo estadística F para la evaluación del número óptimo de clústeres

Prácticas recomendadas

Aunque existe la tendencia a querer incluir tantos Campos de análisis como sea posible, la herramienta Clustering multivariante restringido espacialmente funciona mejor si comienza con una variable única y construye. Los resultados son más fáciles de interpretar con menos campos de análisis. También es más fácil determinar qué variables son los mejores discriminadores cuando hay menos campos.

En muchos casos, es probable que ejecute la herramienta Clustering multivariante restringido espacialmente varias veces antes de encontrar el Número de clústeres óptimo, las Restricciones espaciales más efectivas y la combinación de Campos de análisis que mejor separe las entidades en clústeres.

Si la herramienta devuelve 30 como número óptimo de clústeres, asegúrese de echar un vistazo al gráfico de la estadística F. Vale entras a la por la pregunta está en que hace Celia vamos a ver un poco o La selección del número de clústeres y la interpretación del gráfico de la estadística F es todo un arte y un número más bajo de clústeres podría ser más adecuado para su análisis.

Recursos adicionales

Duque, J. C., R. Ramos y J. Surinach. 2007. "Métodos de regionalización supervisada: Una encuesta" en Revisión Internacional de la Ciencia Regional 30: 195–220.

Assuncao, R. M., M. C. Neves, G. Camara y C. Da Costa Freitas. 2006. "Técnicas eficientes de regionalización para unidades geográficas socio-económicas utilizando árboles de expansión mínima" en International Journal of Geographical Information Science 20 (7): 797–811.