Disponible con una licencia de Spatial Analyst.
La herramienta Clúster ISO utiliza un procedimiento de clustering de optimización iterativo modificado, también conocido como técnica de migración de valor medio. El algoritmo separa todas las celdas en el número especificado por el usuario de grupos unimodales distintos en el espacio multidimensional de las bandas de entrada. Esta herramienta se utiliza generalmente como preparación para la clasificación no supervisada.
El prefijo ISO del algoritmo de clustering de isodatos es una abreviatura para la manera iterativa autoorganizada de la realización de clustering. Este tipo de clustering utiliza un proceso en el que, durante cada iteración, todas las muestras se asignan a centros de clúster existentes y se vuelven a calcular nuevos valores medios para cada clase. Por lo general, se desconoce la cantidad óptima de clases a especificar. Por lo tanto, se aconseja introducir un número conservadoramente alto, analizar los clústeres resultantes y volver a ejecutar la función con un número reducido de clases.
El algoritmo de Cluster ISO es un proceso iterativo para calcular la distancia euclidiana mínima cuando se asigna cada celda candidata a un clúster. El proceso comienza con la asignación de valores medios arbitrarios por parte del software, uno para cada clúster (usted determina el número de clústeres). Cada celda se asigna al valor más cercano de estos valores medios (todas en el espacio de atributos multidimensional). Los nuevos valores medios se recalculan para cada clúster en función de las distancias de atributo de las celdas que pertenecen al clúster después de la primera iteración. El proceso se repite: cada celda se asigna al valor medio más cercano en el espacio de atributos multidimensional y se calculan nuevos valores medios para cada clúster en función de la pertenencia de las celdas de la iteración. Puede especificar el número de iteraciones del proceso mediante Número de iteraciones. Este valor debe ser lo suficientemente grande para garantizar que, después de ejecutar el número de iteraciones especificado, la migración de celdas de un clúster a otro sea mínima; por lo tanto, todos los clústeres se vuelven estables. Al aumentar el número de clústeres, también se debe aumentar el número de iteraciones.
El valor de Número de clases especificado es el número máximo de clústeres que pueden ser el resultado del proceso de clustering. Sin embargo, es posible que el número de clústeres en el archivo de firma de salida no sea el mismo que el número especificado para la cantidad de clases. Esta situación ocurre en los siguientes casos:
- Los valores de los datos y los valores medios de clúster iniciales no están distribuidos uniformemente. En determinados rangos de valores de celdas, la frecuencia de aparición de estos clústeres puede ser prácticamente nula. Por consiguiente, es posible que algunos de los valores medios de clúster predefinidos originalmente no tengan la oportunidad de absorber suficientes miembros de celda.
- Los clústeres que constan de menos celdas que el valor de Tamaño de clase mínimo especificado se eliminarán al final de las iteraciones.
- Los clústeres se fusionan con los clústeres vecinos cuando los valores estadísticos son similares después de que los clústeres se vuelven estables. Algunos clústeres pueden estar tan cerca entre sí y tener estadísticas tan similares que separarlos sería una división innecesaria de los datos.
Ejemplo
A continuación, se muestra un archivo de firma de muestra creado por Clúster ISO. El archivo comienza con un encabezado, que incluye comentarios, que muestra los valores de los parámetros utilizados para realizar el clustering ISO.
Los nombres de clase son opcionales y se introducen después de crear el archivo mediante un editor de texto. Cada nombre de clase, si se introduce, debe constar de una sola cadena de caracteres de no más de 14 caracteres alfanuméricos.
# Signatures Produced by Clustering of # Stack redlands # number_of_classes=6 max_iterations=20 min_class_size=20 # sampling interval=10 # Number of selected grids /* 3 # Layer-Number Grid-name /* 1 redlands1 /* 2 redlands2 /* 3 redlands3 # Type Number of Classes Number of Layers Number of Parametric Layers 1 4 3 3 # =============================================================== # Class ID Number of Cells Class Name 1 1843 # Layers 1 2 3 # Means 22.8817 60.7656 34.8893 # Covariance 1 169.3975 -69.7444 179.0808 2 -69.7444 714.7072 10.7889 3 179.0808 10.7889 284.0931 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 2 2495 # Layers 1 2 3 # Means 38.4894 132.9775 61.8104 # Covariance 1 414.9621 -19.0732 301.0267 2 -19.0732 510.8439 102.8931 3 301.0267 102.8931 376.5450 # --------------------------------------------------------------- # Class ID Number of Cells Class Name 3 2124 # Layers 1 2 3 # Means 70.3983 82.9576 89.2472 # Covariance 1 264.2680 100.6966 39.3895 2 100.6966 523.9096 75.5573 3 39.3895 75.5573 279.7387 # ------------------------------------------------------------ # Class ID Number of Cells Class Name 4 2438 # Layers 1 2 3 # Means 105.8708 137.6645 130.0886 # Covariance 1 651.0465 175.1060 391.6028 2 175.1060 300.8853 143.2443 3 391.6028 143.2443 647.7345
Referencias
Ball, G. H. y D. J. Hall. 1965. A Novel Method of Data Analysis and Pattern Classification. Menlo Park, California: Stanford Research Institute.
Richards, J. A. 1986. Remote Sensing Digital Image Analysis: An Introduction.. Berlín: Springer-Verlag.