ISO クラスター (Iso Cluster) ツールの仕組み—ArcGIS AllSource

Spatial Analyst のライセンスで利用可能。

[ISO クラスター (Iso Cluster)] ツールは、改良した反復最適化クラスタリング手法を使用します。これは、平均値移行手法とも呼ばれます。このアルゴリズムは、すべてのセルを入力バンドの多次元空間内の個別の単一モードグループ (ユーザーが数を指定) に分離します。このツールは、一般的に、教師なし分類の準備に使用されます。

ISO クラスターアルゴリズムの接頭辞「iso」は、クラスタリングの実行方法である Iterative Self Organizing の略称です。このタイプのクラスタリングは、反復されるたびに、すべてのサンプルが既存のクラスターの中心に割り当てられ、すべてのクラスについてそれぞれ新しい平均値が再計算されるプロセスを使用します。クラスの数として最適な値が最初からわかっていることは通常ありません。したがって、まず控えめに大きい値を入力して、結果として生成されるクラスターを分析してから、より少ない数のクラスで関数を再実行することをお勧めします。

ISO クラスターアルゴリズムは、反復的なプロセスであり、それぞれの候補のセルをクラスターに割り当てるときに最短ユークリッド距離を計算します。このプロセスでは、まず、ソフトウェアによって任意の平均値がクラスターごとに 1 つ割り当てられます (クラスターの数はユーザーが指定します)。すべてのセルがそれぞれ最も近い平均値に割り当てられます (これらはすべて多次元属性空間に含まれています)。新しい平均値が、最初の反復の後にクラスターに属するセルの属性距離に基づいて、クラスターごとに再計算されます。このプロセスは繰り返され、再び、各セルが多次元属性空間の最も近い平均値に割り当てられ、前の反復で決定されたセルの所属に基づいて新しい平均値がクラスターごとに再計算されます。 [処理の反復数] を使用して、プロセスの反復の数を指定できます。この値は、指定した数の反復が実行された後に、セルの別のクラスターへの移行が最小限になること (すべてのクラスターが安定するようになること) が確保されるために十分大きい値である必要があります。クラスターの数を増やすとき、反復の数も増やす必要があります。

[クラス数] で指定する値は、クラスタリングプロセスによって生成されることが可能なクラスターの最大数です。ただし、出力シグネチャファイルのクラスターの数は、クラスの数として指定した数と必ずしも同じではありません。このような状況は、次のような場合に生じます。

データの値と最初のクラスターの平均値は均等に配分されません。これらのクラスターの出現頻度がほぼ 0 であるセル値の範囲があることも考えられます。したがって、元のあらかじめ定義されているクラスターの平均値の中には、十分なセルを吸収することがないものがある場合もあります。
[最小クラスサイズ] に指定した値よりも少ないセルで構成されるクラスターは、反復の終了時に排除されます。
クラスターは、クラスターが安定するようになった後に統計値が似ていれば、隣接するクラスターとマージされます。近接し、よく似た統計情報を持つ複数のクラスターを分離したままにしておくことはデータの不要な分割であるためです。

例

[ISO クラスター (Iso Cluster)] ツールによって作成されるシグネチャファイルのサンプルを次に示します。このファイルの先頭には、ISO クラスタリングを実行するときに使用されるパラメーターの値を示すコメント化されたヘッダーがあります。

クラス名を指定するかどうかはオプションであり、テキストエディターを使用してファイルを作成した後に入力します。クラス名を入力する場合、クラス名はそれぞれ 14 文字 (英数字) 以下の単一の文字列である必要があります。

# Signatures Produced by Clustering of 
#    Stack redlands
#    number_of_classes=6   max_iterations=20   min_class_size=20
#    sampling interval=10
#    Number of selected grids
/*           3
#    Layer-Number   Grid-name
/*           1      redlands1
/*           2      redlands2
/*           3      redlands3

# Type  Number of Classes   Number of Layers  Number of Parametric
                                                   Layers
   1             4                 3                 3
# ===============================================================

# Class ID     Number of Cells      Class Name
       1              1843 
# Layers   1             2             3
# Means 
        22.8817       60.7656       34.8893
# Covariance
1      169.3975      -69.7444      179.0808
2      -69.7444      714.7072       10.7889
3      179.0808       10.7889      284.0931
# ---------------------------------------------------------------

# Class ID     Number of Cells      Class Name
       2              2495 
# Layers   1             2             3
# Means 
         38.4894      132.9775       61.8104
# Covariance
1       414.9621      -19.0732      301.0267
2       -19.0732      510.8439      102.8931
3       301.0267      102.8931      376.5450
# ---------------------------------------------------------------
# Class ID     Number of Cells      Class Name
       3              2124 
# Layers   1             2             3
# Means 
         70.3983       82.9576       89.2472
# Covariance
1       264.2680      100.6966       39.3895
2       100.6966      523.9096       75.5573
3        39.3895       75.5573      279.7387
# ------------------------------------------------------------

# Class ID     Number of Cells      Class Name
       4              2438 
# Layers   1             2             3
# Means 105.8708      137.6645      130.0886
# Covariance
1       651.0465      175.1060      391.6028
2       175.1060      300.8853      143.2443
3       391.6028      143.2443      647.7345

参考文献

Ball, G. H., and D. J. Hall. 1965. A Novel Method of Data Analysis and Pattern Classification. Menlo Park, California: Stanford Research Institute.

Richards, J. A. 1986. Remote Sensing Digital Image Analysis: An Introduction.. Berlin: Springer–Verlag.

例

参考文献

関連トピック

このトピックの内容