最適化外れ値分析 (Optimized Outlier Analysis) の詳細

[最適化外れ値分析 (Optimized Outlier Analysis)] は、入力データの特性から作成されたパラメーターを使用して [クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールを実行します。デジタル カメラの自動設定が、照明および被写体と地面の読み取り値を使用して適切な絞り、シャッター スピード、焦点を決定するのと同様に、[最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、データを調べて、最適な解析結果が得られる設定を取得します。たとえば、入力フィーチャ データセットにインシデント ポイント データが含まれる場合、このツールは、それらのインシデントを重み付きフィーチャに集約します。ツールは、重み付きフィーチャの分布を使用して、分析の適切なスケールを決定します。出力フィーチャにレポートされる分類タイプは、FDR (False Discovery Rate) 補正を使用して多重検定空間依存性に合わせて自動的に調整されます。

最良の結果を提供するためにツールによって行われた判定が、ツールの実行中にメッセージとしてレポートされます。各判定の内容については後述します。

カメラに、自動設定を無効にできる手動モードが備わっているのと同様に、[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールでは、すべてのパラメーターのオプションを完全に制御できます。[最適化外れ値分析 (Optimized Outlier Analysis)] ツールを実行するときに、ツールが使用したパラメーター設定を書き留めておくと、完全に制御された [クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールに対して指定するパラメーターの調整に役立ちます。

[最適化外れ値分析 (Optimized Outlier Analysis)] ツールのワークフローには、以下のコンポーネントが含まれています。これらの各コンポーネントで使用される計算とアルゴリズムについて、以下で説明します。

初期データの評価

このコンポーネントでは、 入力フィーチャとオプションの分析フィールドインシデント範囲境界ポリゴン、およびインシデント データ集約方法が精査されて、分析するための十分なフィーチャとさまざまな値が適切に存在することが確認されます。ツールによってレコードの破損やジオメトリの欠損が検出された場合、または分析フィールドを指定し、かつ NULL 値が存在する場合、関連するレコードが不良レコードとしてリスト表示され、分析から除外されます。

[最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、Anselin Local Moran's I 統計を使用します。多くの統計手法と同様に、フィーチャが 30 個未満の場合、このツールの結果は信頼できません。ポリゴン入力フィーチャまたはポイント入力フィーチャと、分析フィールドを指定する場合、このツールを使用するには、30 個以上のフィーチャが必要になります。[インシデントをポイントに集約するためのポリゴン] の最小数も 30 です。インシデント範囲境界ポリゴンを表すフィーチャ レイヤーには、1 つ以上のポリゴンを含めることができます。

また、Anselin Local Moran's I 統計は、分析対象の各フィーチャに値を関連付けることを必要とします。指定した入力フィーチャがインシデント データを表す場合 (分析フィールドを指定しない場合)、ツールはインシデントを集約し、そのインシデント数が分析対象の値になります。集約処理の完了後も、引き続き 30 個以上のフィーチャが存在している必要があります。そのため、インシデント データでは、30 個よりも多いフィーチャを使用して開始することをお勧めします。以下の表に、インシデント データ集約方法ごとの最小フィーチャ数をまとめています。

インスタンスの最小数集約方法集約後の最小フィーチャ数

60

30

30

30

30

30

60

30

また、Anselin Local Moran's I 統計は、さまざまな値を持つ分析フィールド用に設計されています。この統計は、バイナリ データなどには適していません。[最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、分析フィールド をチェックして、値に最小限の変動があることを確認します。

地理的な外れ値は、データセット内の大部分のフィーチャと比べて、近隣フィーチャから大きく離れているフィーチャです。人口密度の高い大都市群が中心に存在し、人口密度の低い小都市群が周辺に存在する都市環境を考えてみます。これらの都市について平均最近隣距離を計算する場合に、周辺の地理的な外れ値を除外し、密集地に近い都市のみを計算対象にすると、計算結果の値が小さくなることがわかります。これは、地理的な外れ値が [平均最近隣距離分析 (Average Nearest Neighbor)] などの空間統計に大きな影響を与える一例です。[最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、平均最近隣距離と中央最近隣距離の計算値を集約で使用し、分析の適切なスケールも決定します。そのため、ツールの初期データ評価コンポーネントは、入力フィーチャまたはインシデントをポイントに集約するためのポリゴンの地理的な外れ値も決定し、検出した数をレポートします。ツールは、これを実行するために、各フィーチャの平均最近隣距離を計算し、それらすべての距離の分布を評価します。同じ場所ではない最近隣フィーチャからの距離が 3 標準偏差距離を超えているフィーチャは、地理的な外れ値と見なされます。

インシデントの集約

ワークフローの次のコンポーネントは、インシデント データを集約します。[インシデント データの集約方法] で選択して使用できる 3 つの方法があります。それらの方法のアルゴリズムを以下で説明します。

  • :
    1. 同じ場所に存在し、一意の場所で単一のポイントを生成するデータセット内の各ポイントを、[イベントの集計 (Collect Events)] ツールで採用された方法と同じ方法を使用して集約します。
    2. 入力フィーチャの最小境界ポリゴンに基づき、N 入力フィーチャの密度を N ランダム フィーチャの密度と比較します (測地線メートル)。指定された最小境界ポリゴン内にある N ポイントのランダム セットに対して、平均最近隣距離が計算されます。このランダム フィーチャ分布に対する平均最近隣距離の 2 倍が、分析範囲の最大範囲を 100 で除算した値より小さい場合、データセットは密と見なされ、使用されるグリッドのセル サイズは最大範囲を 100 で除算した値になります。
    3. 上記の方法でデータセットが密と見なされない場合、使用されるセル サイズの距離は、平均最近隣距離または中央最近隣距離の大きい方の 2 倍になります。各フィーチャの最近隣フィーチャへの距離を合計し、それをフィーチャ数 (N) で割ることによって、一意の場所のポイントすべてに対して、地理的な外れ値を除く平均最近隣距離 (ANN) を計算します。最近隣距離を昇順に並べ替え、(地理的な外れ値も除いて) 並べ替えられたリストの中央にある距離を選択することよって、中間最近隣距離 (MNN) を計算します。距離の大きな方 (ANN または MNN) が 2 倍され、グリッドのセル サイズとして使用されます。
    4. 最適化されたセル サイズを使用してフィッシュネットまたは六角形のポリゴン グリッドを作成し、インシデント ポイントを使用してグリッドをオーバーレイします。
    5. 各ポリゴン セル内のインシデントをカウントします。
    6. [インシデント範囲境界ポリゴン] を指定した場合、境界ポリゴン内のすべてのポリゴン セルが維持されます。[インシデント範囲境界ポリゴン] を指定しない場合、インシデント数がゼロのポリゴン セルが削除されます。
    7. 集約処理によってポリゴン セルが 30 個未満になった場合、またはすべてのポリゴン セルのカウント数が同じである場合、指定した入力フィーチャが選択したインシデント データ集約方法 に適していないことを示すメッセージが表示されます。そうでない場合は、この方法の集約コンポーネントが正常に完了します。
  • :
    1. このインシデント データ集約方法では、インシデントをポイントに集約するためのポリゴン フィーチャ レイヤーが必要です。これらの集約ポリゴンは、インシデント ポイントをオーバーレイします。
    2. 各ポリゴン内のインシデントを計算します。
    3. インシデント数に、分析のための十分な変動があることを確認します。集約処理によって、すべてのポリゴンのインシデント数が同じになった場合、選択したインシデント データ集約方法に対してデータが適していないことを示すメッセージが表示されます。
  • :
    1. 同じ場所に存在し、一意の場所で単一のポイントを生成するデータセット内の各ポイントを、[イベントの集計 (Collect Events)] ツールで採用された方法と同じ方法を使用して集約します。一意の場所のフィーチャの数 (UL) をカウントします。
    2. 地理的な外れ値を除外し、一意の場所のポイントすべてに対して、平均最近隣距離と中間最近隣距離の両方を計算します。各フィーチャの最近隣フィーチャへの距離を合計し、それをフィーチャ数 (N) で割ることによって、平均最近隣距離 (ANN) を計算します。最近隣距離を昇順に並べ替え、並べ替えられたリストの中央にある距離を選択することよって、中間最近隣距離 (MNN) を計算します。
    3. 初期スナップ距離 (SD) を、ANN と MNN のうちの小さい方の値に設定します。
    4. 同じ場所に存在するポイントを考慮して、スナップ距離を調整します。Scalar = (UL/N)。ここで N は、入力フィーチャ レイヤー内のフィーチャ数です。調整されたスナップ距離は、SD * Scalar になります。
    5. [インテグレート (Integrate)] ツールは、次のように 3 回反復してインシデント ポイントを統合します。まず、調整されたスナップ距離の 0.10 倍を使用し、次に調整されたスナップ距離の 0.25 倍を使用し、最後に調整されたスナップ距離全体に等しいスナップ距離を使用して統合します。これらの 3 つのパスで統合ステップを実行することによって、元のポイントの場所の変形を最小限に抑えます。
    6. 一緒にスナップされたインシデントの数を示す重みを使用して、各場所で単一のポイントを生成するスナップされたポイントを集約します。集約処理のこの部分では、[イベントの集計 (Collect Events)] の方法が使用されます。
    7. 集約処理によって重み付きポイントが 30 個未満になった場合、またはすべてのポイントのカウント数が同じである場合、指定した入力フィーチャが選択したインシデント データ集約方法 に適していないことを示すメッセージが表示されます。そうでない場合は、この方法の集約コンポーネントが正常に完了します。

分析のスケール

分析フィールドと共に入力フィーチャを指定したことによって、またはインシデント データ集約方法がインシデント数から重みを作成したことによって、[最適化外れ値分析 (Optimized Outlier Analysis)] ワークフローの次のコンポーネントが、重み付きフィーチャに適用されます。次のステップでは、分析の適切なスケールを決定します。理想的な分析のスケールは、対象にしている問題のスケールに一致する距離です (たとえば、病気発生のクラスター/外れ値のエリアを探している場合、媒介蚊の範囲が 10 マイルであることがわかっていれば、10 マイルの距離を使用することが理想的です)。分析のスケールに使用する特定の距離を正しく判断できない場合、それに役立つ方法がいくつかあります。[最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、これらの方法を採用しています。

最初に試みられる方法は、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] です。地形上に空間クラスタリングが見られる場合は、内在する空間プロセスがアクティブであることを示します。[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] ツールにより、距離を徐々に増やして Global Moran's I 統計を実行し、各距離の空間クラスタリングの強度を計測します。地理的な外れ値は、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] で使用される開始距離および距離の増加量の計算から除外されます。クラスタリングの強度は、返される Z スコアによって決定されます。通常、距離が増えると Z スコアも増え、クラスタリングの強度が増していることを示します。ただし、通常、ある特定の距離で Z スコアはピークになります。ピークは、クラスタリングを促進する空間プロセスが最も顕著である距離を表します。[最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] を使用してピーク距離を探します。ピーク距離が見つかったら、その距離が分析のスケールになります。複数のピーク距離が見つかった場合は、最初のピーク距離が選択されます。

[最適化外れ値分析 (Optimized Outlier Analysis)] は、ピーク距離が見つからなかった場合、フィーチャの空間分布を調べて、K 個の隣接フィーチャを生成する平均距離をフィーチャごとに計算します。K は、0.05 * N として計算されます。ここで N は、入力フィーチャ レイヤー内のフィーチャの数です。K は、3 個以上、30 個以下になるように調整されます。K 個の隣接フィーチャを生成する平均距離が 1 つの標準距離を超えた場合、分析のスケールは、1 つの標準距離に設定されます。そうでない場合、分析のスケールは、K 個の隣接フィーチャの平均距離を反映します。

大規模で高密度のデータセットの場合、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] 手順の完了に長時間かかることがあります。その結果、隣接フィーチャが 500 以上存在するフィーチャが検出された場合、インクリメンタル分析がスキップされ、30 個の隣接フィーチャを生成する平均距離が計算されて、分析のスケールに使用されます。

この距離の近傍がないフィーチャの場合、[距離バンド] が延長され、最も近い近傍を含めるように適合されました。

クラスター/外れ値分析 (Cluster and Outlier Analysis)

[最適化外れ値分析 (Optimized Outlier Analysis)] ワークフローのこの時点で、チェックとパラメーター設定はすべて完了しています。次のステップでは、Anselin Local Moran's I 統計を実行します。この統計計算の詳細については、「クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I)) の詳細」で説明されています。Anselin Local Moran's I 統計の結果は、FDR (False Discovery Rate) 補正を使用して 多重検定空間依存性に対して自動的に補正されます。

出力

[最適化外れ値分析 (Optimized Outlier Analysis)] ツールの最後のコンポーネントでは、出力フィーチャが作成されます。入力フィーチャが、集約を必要とするインシデント データを表している場合、出力フィーチャには、集約された重み付きフィーチャ (フィッシュネット ポリゴン セル、[インシデントをポイントに集約するためのポリゴン] パラメーターに指定した集約ポリゴン、または重み付きポイント) が反映されます。各フィーチャには、Local Moran's I インデックス値 (LMiIndex)、Z スコア、p 値、クラスター/外れ値タイプ (COType) の結果と、各フィーチャが計算に使用した近隣数が含められます。

参考資料

Anselin, Luc 『Local Indicators of Spatial Association-LISA』(Geographical Analysis 27 (2): 93–115)、1995 年

空間統計リソースのページには、ショート ビデオ、チュートリアル、Web セミナー、記事、およびその他いろいろな資料が用意されており、空間統計を取り扱う際に役立ちます。