Disponible con una licencia de Spatial Analyst.
Con Extensión ArcGIS Spatial Analyst, puede crear una clasificación agrupando celdas ráster en clases o clústeres. Una clase suele ser una categoría conocida, como bosques, áreas residenciales o masas de agua, mientras que un clúster es un agrupamiento de celdas basadas en las estadísticas de sus atributos. Una firma es un subconjunto de celdas representativas de una clase o un clúster. Las estadísticas de firmas se almacenan en un archivo de firma que se utilizará para clasificar todas las celdas en la intersección de las bandas de entrada.
¿Qué es una clase?
Una clase corresponde a una agrupación significativa de ubicaciones. Por ejemplo, bosque, agua y alta productividad del trigo son todas clases.
Cada ubicación se caracteriza por un conjunto o vector de valores, un valor para cada variable o una banda de entrada. Cada ubicación se puede visualizar como un punto en un espacio de atributos multidimensionales cuyos ejes corresponden a las variables de las bandas de entrada. Un agrupamiento de puntos en este espacio de atributos multidimensional se denomina clúster y, en este caso, como el clúster hace referencia a algo significativo, también se puede considerar una clase. Dos ubicaciones pertenecen al mismo clúster si sus atributos (vector de valores de banda) son similares.
Las clases conocidas pueden formar clústeres en el espacio de atributos si sus valores de atributo pueden separar o distinguir las clases. Las ubicaciones que corresponden a clústeres naturales en el espacio de atributos se pueden interpretar como clases de estratos que ocurren de forma natural.
Identificar clases para la clasificación supervisada
En una clasificación supervisada, usted sabe las clases en las que desea dividir el sitio de estudio y tiene ubicaciones de muestra en el sitio de estudio que son representativas de cada clase. Por ejemplo, si está creando un mapa de uso del suelo a partir de una imagen de satélite, las clases pueden ser urbana, agua, bosque, campos y carreteras. El objetivo es asignar cada ubicación del área de estudio a una clase conocida. Cuantas más ubicaciones de muestra se puedan identificar como pertenecientes a una clase y más homogéneos serán los valores de celda dentro de una clase, mejor será la clasificación subsiguiente. Las ubicaciones reales que identifican las ubicaciones de clase conocidas se denominan muestras de entrenamiento.
Las muestras de entrenamiento se pueden identificar en una capa de polígono o en un ráster. Al definir las muestras de entrenamiento, es posible identificar un ráster existente como referencia. Generalmente, una composición de color de las tres primeras capas del ráster se muestra como fondo y se utiliza como referencia para identificar las áreas que se deben rodear al producir muestras de entrenamiento.
Crear clústeres en una clasificación no supervisada
El primer paso en una clasificación no supervisada es crear clústeres. Estadísticamente, los clústeres son agrupaciones que ocurren de forma natural en los datos. La herramienta Clúster ISO requiere bandas de ráster de entrada, el número de clases, el nombre del archivo de firma de salida, el número de iteraciones, el tamaño mínimo de clase y el intervalo en el cual se toman los puntos de muestra desde los que calcular los clústeres (los tres parámetros finales se tratan a continuación).
La herramienta devuelve un archivo de firma que contiene las estadísticas multivariantes para un subconjunto de celdas para los clústeres identificados. Los cálculos resultantes identifican la ubicación de celda que pertenece a cada clúster, el valor medio del clúster y la matriz de varianza-covarianza. Esta información se almacena en un archivo de firma ASCII. El archivo de firma es esencial en el clustering y la clasificación de las celdas restantes sin muestrear.
Almacenar estadísticas de clúster o clase: el archivo de firma
El archivo de firma es un archivo ASCII que almacena las estadísticas multivariantes para cada clase o clúster de interés. El archivo incluye el valor medio para cada clase o clúster, el número de celdas de la clase o clúster y la matriz de varianza-covarianza de la clase o clúster.
El archivo de firma se puede crear con cualquier editor de texto.
Para cualquier clase o clúster, los valores diagonales que se mueven desde la parte superior izquierda hasta la parte inferior derecha en la matriz de varianza-covarianza son los valores de varianza para las variables que corresponden a las bandas de ráster de entrada identificadas por la intersección fila/columna en la matriz para las bandas. El resto de valores de la matriz son valores de covarianza.
Cómo se determinan los clústeres para una clasificación no supervisada
El nombre del algoritmo utilizado para crear clústeres en una clasificación no supervisada es Clúster ISO. El prefijo ISO del algoritmo de clustering de isodata significa Organización automática iterativa (ISO), un método para realizar el clustering. Los clústeres se calculan utilizando un subconjunto de celdas en el área de estudio. Todos los cálculos de clúster se realizan en los valores de celda en el espacio de atributos multivariante y no se basan en características espaciales. Es decir, el valor medio se deriva de los valores de atributo para las distintas bandas de entrada. Los valores de varianza y covarianza se calculan a partir de la variación dentro de las bandas y entre ellas.
El siguiente ejemplo utiliza un enfoque de clustering ISO o valor medio K. Un ráster de dos bandas se utilizará para explicar teóricamente la metodología. Esta misma metodología funciona con el número de bandas que se introducen o en un espacio dimensional n. El siguiente debate es conceptual para permitir una mejor comprensión del enfoque de clustering ISO.
- Se realiza un gráfico vacío con el rango de valores de la primera banda que se graficó en el eje x y el rango de valores de la segunda banda que se graficó en el eje y.
- Se dibuja una línea de 45 grados y se divide en el número de clases que especifique. El punto central de cada uno de estos segmentos de línea es el valor medio inicial de las clases.
- Cada celda de muestra se traza en el gráfico y se determina la distancia desde el punto a cada punto de centro medio en la línea de 45 grados. La distancia se calcula en el espacio de atributos utilizando el teorema de Pitágoras. El punto de muestra se asigna al clúster representado por el punto de centro medio más cercano.
- Se traza el siguiente punto de muestra y se repite el procedimiento anterior para todos los puntos de muestra.
- El proceso anterior iterará. Antes de la siguiente iteración, se calcula un nuevo punto de centro medio para cada clúster basado en los valores de las ubicaciones de celda asignados actualmente al clúster en la iteración anterior. Con el nuevo punto de centro medio para cada clúster, se repiten los dos pasos anteriores.
- Se actualizan los valores medios y se repite el paso anterior. El proceso de iteración para actualizar los valores medios continúa hasta alcanzar el número de iteraciones definido por el usuario o hasta que menos del 2 por ciento de las celdas cambian de un clúster a otro en relación a los nuevos valores medios en una iteración.
El clustering es sensible al rango de valores dentro de cada banda. Este rango de valores determina los valores en los ejes x e y desde los cuales se calculan las distancias euclidianas entre valores medios y puntos de muestra. Para que los atributos de cada banda se consideren por igual, el rango de valores de cada banda debe ser similar, ya sea al realizar una clasificación supervisada o un clustering no supervisado. Cuando el rango de valores de una banda es pequeño en relación con las otras bandas, la distancia euclidiana en un espacio multivariante puede ser tan pequeña que varios clústeres pueden dar como resultado un valor medio de cero. Si algún clúster tiene un valor medio de cero, la clasificación final y cualquier otra herramienta multivariante que dependa de un archivo de firma fallará. Lo ideal sería que todas las bandas se normalicen al mismo rango de valores.