Cómo funciona Análisis de agrupamiento

Cuando nos fijamos en el mundo que nos rodea, es muy natural que organicemos, agrupemos, diferenciemos y cataloguemos lo que vemos para ayudarnos a tener un mejor sentido al respecto; este tipo de proceso de clasificación mental es fundamental para el aprendizaje y la comprensión. Del mismo modo, para ayudarle a aprender y comprender mejor los datos, puede utilizar la herramienta Análisis de agrupamiento. Dado el número de grupos a crear, buscará una solución en la que todas las entidades dentro de cada grupo son lo más parecido posible, y todos los grupos en sí son tan diferentes como sea posible. La similitud de las entidades se basa en el conjunto de atributos que especifica para el parámetro Campos de análisis y también pueden incorporar de manera opcional las propiedades espaciales o las propiedades de espacio-tiempo. Cuando se especifican Restricciones espaciales de espacio o espacio-tiempo, el algoritmo emplea un gráfico de conectividad (árbol de expansión mínima) para encontrar agrupaciones naturales.

Sugerencia:

El agrupamiento y la clasificación son algunas de las técnicas más utilizadas en aprendizaje de máquinas. La herramienta Análisis de agrupamiento utiliza métodos de aprendizaje de máquinas sin supervisión para determinar los agrupamientos naturales en los datos Estos métodos de clasificación se consideran no supervisados porque no requieren un conjunto de entidades previamente clasificadas para guiar o entrenar en la forma de determinar los agrupamientos de los datos.

A pesar de que existen cientos de algoritmos de análisis cluster, todos ellos están clasificados como NP-duro. Esto significa que la única forma de garantizar que una solución maximizará perfectamente tanto las similitudes dentro del grupo como las diferencias entre grupos es tratar cada combinación posible de las entidades que desee agrupar. Aunque esto puede ser viable con unas cuantas entidades, el problema rápidamente se convierte en incorregible.

No solo es incorregible para garantizar que ha encontrado una solución óptima, sino también es poco realista intentar identificar un algoritmo de agrupamiento que funcionará mejor para todos los escenarios de datos posibles. Los grupos son de diferentes formas, tamaños y densidades; los datos de atributos pueden incluir una variedad de rangos, simetría, continuidad y unidades de medición. Esto explica por qué tantos algoritmos de análisis cluster diferentes han sido desarrollados durante los últimos 50 años. Es más adecuado, por lo tanto, pensar en Análisis de agrupamiento como una herramienta de exploración que puede ayudarle a obtener más información sobre estructuras subyacentes en los datos.

Aplicaciones potenciales

Estas son algunas formas en que se podría aplicar esta herramienta:

  • Supongamos que tiene muestras de salmonela de granjas alrededor de su estado y atributos que incluyen el tipo/clase, ubicación y fecha/tiempo. Para comprender mejor cómo las bacterias se transmiten y propagan, puede utilizar la herramienta Análisis de agrupamiento para dividir las muestras en "brotes" individuales. Podría decidir utilizar una restricción de espacio-tiempo porque las muestras del mismo brote estarían cerca una de la otra tanto en el tiempo como en el espacio, y también estarían asociadas al mismo tipo o clase de bacteria. Una vez que se determinan los grupos, puede utilizar otras herramientas de análisis de patrón espacial como Elipse de desviación estándar, Centro medio o Cercano para analizar cada brote.
  • Si ha recopilado datos sobre avistamientos de animales para entender mejor sus territorios, la herramienta Análisis de agrupamiento podría ser útil. Entender dónde y cuándo se congrega el salmón en diferentes fases de la vida, por ejemplo, podría ayudar a diseñar las áreas protegidas que pueden ayudar a garantizar una reproducción exitosa.
  • Como agronomista, es posible que desee clasificar diferentes tipos de suelos en su área de estudio. Utilizar Análisis de agrupamiento en las características del suelo que se han encontrado para una serie de muestras, le puede ayudar a identificar clusters de tipos de suelo distintos, contiguos espacialmente.
  • La agrupación de los clientes por sus patrones de compra, características demográficas o patrones de viaje puede ayudarle a diseñar una estrategia de marketing eficiente para los productos de la empresa.
  • Los planificadores urbanos a menudo necesitan dividir las ciudades en vecindades distintas para localizar eficientemente las instalaciones públicas y promover el activismo y el compromiso comunitario local. Utilizar Análisis de agrupamiento en las características físicas y demográficas de cuadras de una ciudad puede ayudar a los planificadores a identificar áreas de su ciudad que estén contiguas espacialmente y que tengan características físicas y demográficas similares.
  • Falacia ecológica es un problema bien conocido por la inferencia estadística cuando se realiza el análisis de datos agregados. A menudo, el esquema de agregación que se utiliza para el análisis no tiene nada que ver con lo que queremos analizar. Los datos del censo, por ejemplo, se agregan con base en las distribuciones de la población que pueden no ser la mejor elección para analizar incendios forestales. La partición de las unidades de agregación más pequeñas posibles en regiones homogéneas para un conjunto de atributos que se relacionan con precisión a las preguntas analíticas que nos ocupa, es un método eficaz para reducir la influencia de agregación y evitar la falacia ecológica.

Entradas

Esta herramienta toma el punto, polilínea o polígono Entidades de entrada, un campo de Id. único, una ruta para la Clase de entidad de salida, uno o más Campos de análisis, un valor entero que representa el Número de grupos a crear y el tipo de Restricción espacial, si la hay, que debería aplicarse en el algoritmo de agrupamiento. También hay una serie de parámetros opcionales incluido uno que le permite crear un Archivo de informe de salida en PDF.

Campos de análisis

Nota:

Los valores de los Campos de análisis están estandarizados en la herramienta porque las variables que tienen grandes variaciones (donde los valores de los datos están muy dispersos alrededor del valor medio) tienden a influir más en los clusters que las variables que tienen pequeñas variaciones. La estandarización de los valores de atributos implica una transformación z en la que el valor medio de todos los valores se resta de cada valor y se divide entre la desviación estándar de todos los valores. La estandarización pone todos los atributos en la misma escala aunque estén representados por tipos de números muy diferentes: tasas (número de 0 a 1,0), población (valores superior a 1 millón) y distancias (kilómetros, por ejemplo).

Debe seleccionar las variables que considere que distinguirán un grupo de entidades de otro. Supongamos, por ejemplo, que está interesado en agrupar distritos escolares por rendimiento de los estudiantes sobre pruebas estandarizadas de logros. Podría seleccionar Campos de análisis que incluyan los resultados generales de las pruebas, los resultados de temas específicos como matemáticas o lectura, la proporción de los estudiantes que cumplen con un umbral de puntuación mínima en las pruebas, y así sucesivamente. Cuando ejecuta la herramienta Análisis de agrupamiento, se calcula un valor R2 para cada variable. En el siguiente resumen, por ejemplo, los distritos escolares se agrupan con base en las puntuaciones de las pruebas de los estudiantes, el porcentaje de los adultos en el área que no terminaron la escuela secundaria, por gasto por estudiante y la relación promedio entre estudiantes-profesores. Observe que la variable TestScores tiene el valor R2 más alto. Esto indica que esta variable divide los distritos escolares en grupos de forma más eficaz. El valor R2 refleja cuánto de la variación en los datos originales de TestScores se mantuvo después del proceso de agrupamiento, de modo que mientras más alto sea el valor R2 para una variable específica, mejor es esa variable en la discriminación entre las entidades.

Resumen de variables de análisis de agrupamiento

Explorar:

R2 se calcula como:

(TSS-ESS)/TSS

donde TSS es la suma total de cuadrados y EES es la suma explicada de los cuadrados. TSS se calcula al elevar al cuadrado y luego sumar las desviaciones del valor medio global de una variable. ESS se calcula de la misma manera, excepto que las desviaciones se agrupan por grupo: cada valor se resta del valor medio para el grupo al que pertenece, luego se eleva al cuadrado y se suma.

Número de grupos

A veces sabrá cuál es el número de grupos más adecuado para su pregunta o problema. Si tiene cinco gerentes de ventas y desea asignar cada uno a su propia región contigua, por ejemplo, debe utilizar 5 para el parámetro Cantidad de grupos. En muchos casos, sin embargo, usted no tendrá ningún criterio para seleccionar una cantidad específica de grupos; en lugar de ello, solo desea el número que mejor distingue las similitudes y diferencias de las entidades Para ayudarle en esta situación, puede activar el parámetro Evaluar la cantidad óptima de grupos y permitir que la herramienta Análisis de agrupamiento evalúe la eficacia de dividir las entidades en 2, 3, 4 y hasta 15 grupos. La eficacia del agrupamiento se mide mediante el pseudo índice estadístico F Calinski-Harabasz, que es una proporción que refleja la similitud dentro de un grupo y las diferencias entre grupos:

Pseudo índice estadístico F Calinski-Harabasz:

Supongamos que desea crear cuatro grupos espacialmente contiguos. En este caso, la herramienta creará un árbol de expansión mínima que reflejará la estructura espacial de las entidades y los valores de campo de análisis asociados. A continuación, la herramienta determina el mejor lugar por donde cortar el árbol a fin de crear dos agrupaciones separadas. Después decide cuál de los dos grupos resultantes debe dividirse para obtener la mejor solución de tres grupos. Uno de los dos grupos se dividirá y el otro grupo permanecerá intacto. Finalmente, determina cuáles de los tres grupos resultantes debe dividirse para obtener la mejor solución de cuatro grupos. Para cada división, la mejor solución es aquella que maximiza las similitudes dentro del grupo y las diferencias entre grupos. Un grupo ya no puede dividirse más (salvo de forma arbitraria) cuando los valores de campo del análisis para todas las entidades dentro de dicho grupo son idénticos. En el caso de que todos los grupos resultantes tuvieran entidades idénticas, la herramienta Análisis de agrupamiento dejaría de crear grupos nuevos, aunque no hubiera alcanzado todavía el Número de grupos especificado. No existe ninguna base para dividir un grupo cuando todos los Campos de análisis tienen valores idénticos.

Restricción espacial

Las opciones de contigüidad de polígono no son buenas opciones, sin embargo, si su dataset incluye clusters de polígonos no adyacentes o polígonos sin vecinos contiguos en absoluto:

Polígonos no adyacentes

Ejemplo de Triangulación de Delaunay
Para la Triangulación de Delaunay, la contigüidad del polígono de Thiessen define las relaciones de vecinos.

A continuación, puede especificar el archivo SWM que creó con la herramienta Generar matriz de ponderaciones espaciales para el parámetro Archivo de matriz de ponderaciones cuando ejecute Análisis de agrupamiento.

Nota:

Mientras que las relaciones espaciales entre las entidades se almacenan en un archivo SWM y las utiliza la herramienta Análisis de agrupamiento para imponer restricciones espaciales, no hay una ponderación real implicada en el proceso de agrupamiento. El archivo SWM solo se utiliza para rastrear qué entidades pueden incluirse en un mismo grupo y cuáles no.

Para muchos análisis, la imposición de una restricción espacial o de espacio-tiempo no es ni necesaria ni útil. Por ejemplo, supongamos que desea agrupar los incidentes de delincuencia por atributos del perpetrador (altura, edad, gravedad de la delincuencia y así sucesivamente). A pesar de que los delitos cometidos por la misma persona tienden a ser proximales, es poco probable que descubra que todos los delitos en un área en particular fueron cometidos por la misma persona. Sin embargo, puede ser que elija incluir algunas variables espaciales (proximidad a los bancos, por ejemplo) en la lista de Campos de análisis para captar algunos de los aspectos espaciales de los delitos que está analizando.

Valores medios K

El objetivo del algoritmo de valores medios K es dividir las entidades de manera que se minimicen las diferencias que existan entre las entidades de un grupo, en todos los grupos. Debido a que el algoritmo es NP-duro, se utiliza una heurística codiciosa para agrupar las entidades. El algoritmo codicioso siempre convergirá en un mínimo local, pero no siempre encontrará el mínimo global (más óptimo).

El algoritmo de valores medios K funciona identificando primero las entidades semilla utilizadas para hacer crecer cada grupo. Por consiguiente, el número de valores iniciales siempre coincidirá con el Número de grupos. La primera semilla se selecciona de manera aleatoria. Sin embargo, la selección de las semillas que quedan, mientras aún se emplea un componente aleatorio, aplica una ponderación que favorece la selección de semillas posteriores más adelante en el espacio de datos desde el conjunto existente de entidades de semillas (esta parte del algoritmo se denomina valores medios K ++).

Una vez se identifican las entidades de semillas, se asignan todas las entidades a la entidad de semilla más cercana (más cercana en el espacio de datos). Para cada cluster de entidades, se calcula un centro medio de datos, y se vuelve a asignar cada entidad al centro más cercano. El proceso de calcular un centro medio de datos para cada grupo y luego reasignar las entidades al centro más cercano continúa hasta que se estabiliza la pertenencia al grupo (hasta un número máximo de 100 iteraciones).

Árbol de expansión mínima

Cuando especifica una restricción espacial para limitar la pertenencia al grupo a entidades contiguas o proximales, la herramienta primero construye un gráfico de conectividad que representa las relaciones de vecindad entre las entidades. Desde el gráfico de conectividad, se concibe un árbol de expansión mínima que resume las relaciones espaciales de la entidad y la similitud de datos de la entidad. Las entidades se convierten en nodos en el árbol de expansión mínima conectadas por medio de bordes ponderados. El peso de cada borde es proporcional a la similitud de los objetos que conecta. Después de construir el árbol de expansión mínima, se corta una rama (borde) del árbol, creando dos árboles de expansión mínima. El borde que se debe cortar se selecciona de manera que minimice la falta de similitud en los grupos resultantes, a la vez que evita (si es posible) clases individuales (grupos con solo una entidad). En cada iteración uno de los árboles de expansión mínima se divide por medio de este proceso de corte hasta que se obtiene el Número de grupos especificado. El método publicado empleado se llama SKATER (Análisis de "K"luster espacial por medio de eliminación de bordes del árbol). A pesar de que se selecciona la rama que optimiza la similitud del grupo para el corte en cada iteración, no hay ninguna garantía de que el resultado final sea óptimo.

Salidas

La salida predeterminada para la herramienta Análisis de agrupamiento es una nueva Clase de entidad de salida que contiene los campos que se utilizan en el análisis más un nuevo campo de número entero llamado SS_GROUP que identifica a qué grupo pertenece cada entidad. Esta clase de entidad de salida se agrega a la tabla de contenido con un esquema de representación en pantalla de color único aplicado al campo SS_GROUP. La representación vacía en pantalla indica que las entidades no se pudieron agregar a ningún grupo, normalmente porque no tienen entidades vecinas.

Clase de entidad de salida del análisis de agrupamiento
Agrupamiento con la restricción espacial de contigüidad.

Archivo de informe del análisis de agrupamiento

Si especifica una ruta para el parámetro Archivo de informe de salida, se crea un PDF que resume los grupos que se han creado.

Nota:

Crear el archivo de informe opcional puede agregar tiempo de procesamiento sustancial. Por consiguiente, a pesar de que el Análisis de agrupamiento siempre creará una clase de entidad de salida que muestra la pertenencia al grupo, el informe de archivo PDF no se creará si especifica más de 15 grupos o más de 15 variables.

Los diagramas de caja se incluyen en todo el informe, por lo tanto el primer elemento en el informe es un gráfico que muestra cómo interpretarlos (vea a continuación). Los gráficos de caja en el informe Análisis de agrupamiento representan gráficamente nueve valores de resumen para cada campo de análisis y grupo: valor mínimo de datos, cuartil inferior, mediano, cuartil superior, valor máximo de datos, los valores atípicos de datos (valores más pequeños o más grandes que 1,5 veces el rango entre cuartiles), mínimo del grupo, valor medio del grupo y máximo del grupo. Cualquier marca de + que quede fuera del límite superior o inferior representa valores atípicos de datos.
Explorar:

El rango entre cuartiles (IQR) es el cuartil superior menos el cuartil inferior. Los valores atípicos bajos serían valores menores que 1.5*IQR (Q1-1.5*IQR) y los valores atípicos altos serían valores mayores que 1.5*IQR (Q3+1.5*IQR). Los valores atípicos aparecen en los diagramas de caja como símbolos +.

La primera página del informe compara las variables (los Campos de análisis) dentro de cada grupo entre sí. En el informe que se presenta a continuación, por ejemplo, el Análisis de agrupamiento se realizó en los distritos censales para crear cuatro grupos. El resumen de estadísticas para cada grupo se imprime con un color diferente (azul, rojo, verde y dorado). El primer conjunto de estadísticas del resumen se imprimen en negro porque estos son los Valores medio, Desviación estándar (Desv. estándar), Valor mínimo, Valor máximo y R2 globales para todos los datos en cada campo de análisis. Cuanto mayor sea el valor R2 para una variable específica, mejor será esa variable en la discriminación entre las entidades. Después de los resúmenes globales, el Valor medio, Desviación estándar, el Valor mínimo, Valor máximo y Compartir valores se muestran para cada variable en cada grupo. En el informe que se presenta a continuación, por ejemplo, puede ver que el Grupo 1 (azul) contiene el 52 por ciento del rango de valores en la variable AGE_UNDER5 global; el rango global de valores es de 0 a 1.453 niños menores de 5 años de edad, y el grupo azul contiene distritos de 488 a 1.246 niños menores de 5 años de edad. El número medio de niños menores de 5 años de edad para los distritos en el grupo azul es 805.3750. El diagrama de caja a la derecha del resumen estadístico del grupo azul muestra cómo los valores del grupo se refieren a los valores globales para ese mismo campo de análisis. Observe que el punto azul en el diagrama de caja cae fuera del cuartil superior y que la primera línea vertical azul (que representa el valor mínimo de los distritos del grupo azul) es superior al valor medio de este campo. De hecho, al analizar en donde quedan los puntos azules en los diagramas de caja para todas las variables, puede ver que, con excepción de la variable MEDIANRENT, los valores medios de todos los campos de análisis están por encima del cuartil superior. Este grupo tiene el rango más alto de valores en comparación con los demás grupos.

Explorar:

El valor de la Porción es la relación del grupo y el rango global. Para el grupo 1 y la variable AGE_UNDER5, por ejemplo, la porción del 52 por ciento se obtiene al dividir el rango de grupo (1246-488= 758) por el rango global (1453-0=1453), que produce 0.52 cuando se redondea a dos dígitos significativos.

Resumen de grupo
Sección 1 del informe de salida.

La segunda sección del informe compara los rangos de las variable de cada grupo, un campo de análisis (variable) a la vez. Con esta vista de los datos, es fácil ver qué grupo tiene el rango más alto y más bajo de valores en cada variable. Los valores mínimo, medio y máximo del grupo se superponen en la parte superior del diagrama de caja reflejando todos los valores. Observe que el grupo 4 (naranja) tiene los valores más bajos de la variable MEDIANRENT. Los valores mínimo, medio y máximo de este grupo son más bajos que para cualquier otro grupo.

Resumen de variables
Sección 2 del informe de salida.

El gráfico de diagrama de caja paralelo resume tanto los grupos y las variables dentro de ellos. Observe en el gráfico siguiente que el grupo 1 (azul) refleja distritos con rentas medias, los valores más altos para los hogares liderados por mujeres con hijos (FHH_CHILD), los valores más altos para la cantidad de unidades de vivienda (HSE_UNITS) y los valores más altos para los niños menores de 5 años. El grupo 2 (rojo) refleja distritos con las rentas medias más altas, el número más bajo de hogares liderados por mujeres con hijos, más que la media de unidades de vivienda (aunque menos que los distritos en los grupos 1 o 3) y el menor número de niños menores de 5 años de edad.

Diagrama de caja de análisis de agrupamiento
Diagrama de caja paralelo en el informe de salida.

Al marcar la casilla en el parámetro Evaluar el número óptimo de grupos, el archivo del informe en PDF incluirá un gráfico de valores pseudo estadísticos F. El punto dentro de un círculo en el gráfico es la estadística F más grande, que indica cuántos grupos serán más eficaces para distinguir las entidades y las variables que especificó. En el gráfico a continuación, la estadística F asociada con cuatro grupos es la más alta. Cinco grupos, con una pseudo estadística F alta, también serían una buena elección.

Gráfico de índice estadístico F pseudo
El diagrama de pseudo estadística F en el informe de salida.

Mejores prácticas

Aunque hay una tendencia de querer incluir el mayor número de Campos de análisis posible, para Análisis de agrupamiento, funciona mejor comenzar con una variable única y construir. Los resultados son más fáciles de interpretar con menos campos de análisis. También es más fácil determinar qué variables son los mejores discriminadores cuando hay menos campos.

En muchos casos, es probable que ejecute la herramienta Análisis de agrupamiento varias veces buscando el Número de grupos óptimo, las Restricciones espaciales más efectivas y la combinación de Campos de análisis que mejor separe las entidades en grupos. Debido que la creación del Informe de salida puede agregar tiempo de procesamiento sustancial, tal vez no desee crear el informe mientras está experimentando con diferentes parámetros de entrada.

Recursos adicionales

Duque, J. C., R. Ramos y J. Surinach. 2007. "Métodos de regionalización supervisada: Una encuesta" en Revisión Internacional de la Ciencia Regional 30: 195–220.

Assuncao, R. M., M. C. Neves, G. Camara y C. Da Costa Freitas. 2006. "Técnicas eficientes de regionalización para unidades geográficas socio-económicas utilizando árboles de expansión mínima" en International Journal of Geographical Information Science 20 (7): 797–811.

Jain, A. K. 2009. "Clustering de datos: 50 años más allá de los valores K.". Cartas de reconocimiento de patrones.

Hinde, A., T. Whiteway, R. Ruddick y A. D. Heap. 2007. "Marinas del margen australiano y el suelo marino adyacente: Metodología de Keystroke." en Geoscience Australia, Registro 2007/10, 58 pág.