[空間的外れ値の検出 (Spatial Outlier Detection)] ツールは、ポイント フィーチャのグローバルまたはローカルの空間的外れ値を特定します。 グローバル外れ値は、フィーチャクラスの他のすべてのポイントから遠く離れているポイントを示します。 ローカル外れ値は、その地域内のポイント密度で想定されるよりも遠くに近傍から離れているポイントを示します。 このツールは、入力ポイントを外れ値とインライアーに分類するだけでなく、分析範囲全体で計算されたローカル外れ値係数 (LOF) でラスター サーフェスを作成できます。データの空間分布を考慮して新しい観測点の分類方法を決定するうえで役立つ可能性があります。 さらに、このツールにより近傍数や外れ値と見なされる場所の割合など必要なパラメーターの選択を最適化できます。
適用例
このツールの適用例としては、以下のようなシナリオがあります。
- ある組織は大気環境サーフェスの内挿を目的とした大気環境観測所を管理しており、孤立度の極めて高いモニターを特定し、補足的なデータ収集が必要な地点を特定したいと考えています。
- 献血活動は、多くの場合、ドナーの移動を最小限に抑えるためにドナー候補者が多くいる場所の近くで開催されます。遠方に住む重要なドナーに進んで献血してもらうには、いっそうのコミュニケーションとインセンティブが必要となる可能性があります。 コーディネーターは、空間的外れ値と見なされるこれらのドナー候補者を特定し、献血活動の場所まではるばる移動することに対する追加のインセンティブを記載した郵便広告を送ることができます。
グローバルまたはローカルの空間的外れ値
空間的外れ値は、そのロケーションがデータセット内の残りのポイントのパターンとして一般的でないポイントとして定義されます。 最も単純な例では、あるポイントが他のポイントから大きく離れていることを意味し、これはグローバル外れ値と呼ばれます。 たとえば、州内の緊急治療室のマップでは、人口の少ない地域の緊急治療室は、人口の多い地域に比べて距離が離れているため、グローバル外れ値として特定される可能性があります。 ただし、その地域のポイントのパターンとは異なるロケーションにあるポイントを検出するほうが有意義な場合もあり、これはローカル外れ値と呼ばれます。 先ほどと同様に州内の緊急治療室の例では、州内の緊急治療室の密度の変化を考慮すると、他の緊急治療室から離れている病院がローカルの空間的外れ値となります。 これにより、周辺の緊急治療室よりも多くの患者にサービスを提供している、人口の多い地域の緊急治療室を特定できるため、救急医療を受けづらい地域を特定できます。
次の画像は、空間的外れ値検出の一般的な結果で、外れ値はオレンジに、インライアーはグレーに色付けされています。 右側にはグローバル外れ値、左側にはワシントン州の一部の地域のローカル外れ値が表示されています。 ローカル ポイントは、全国のすべてのポイントを見ると外れ値のようには見えませんが、その地域内のポイントのローカル クラスターからは大きく離れています。
ツールの出力
このツールは、空間的外れ値として指定されたフィーチャをハイライト表示する出力フィーチャ レイヤーを提供します。 外れ値はオレンジ、インライアーは半透明の灰色でシンボル表示され、インライアーの空間密度を視覚的に評価できるようになります。
このフィーチャ レイヤーには 2 つのチャートがあります。1 つは外れ値およびインライアーの数を示すバー チャート、もう 1 つは LOF 値 (ローカル外れ値) または近傍距離値 (グローバル外れ値) の分布を示すヒストグラムです。
外れ値の数を示すこのバー チャートには外れ値の数が即時表示されるので、出力解析結果からすべての外れ値を選択するのに効果的な方法です。
LOF 値または近傍距離値の分布を示すこのヒストグラムには、平均値と、外れ値とインライアーを区別するのに使用される閾値が含まれます。
さらに、[出力予測ラスター] パラメーターに値が入力されると、分析範囲のセルごとに計算された LOF 値または近傍距離値を示す出力ラスターが作成されます。
グローバルの空間的外れ値の検出
グローバル外れ値は、ローカル外れ値よりも単純です。 グローバル外れ値の検出の場合、近傍距離と呼ばれる最も近い近傍の 1 つまでの距離を計算することで外れ値を決定します。 デフォルトでは、最も近い近傍が使用されますが、[近傍数] パラメーターを使用して数を変更することができます。 たとえば、値を 3 に指定すると、各ポイントから 3 番目に近い近傍までの距離が計算されます。 近傍距離が最大のポイントは最も近い近傍から最も離れており、近傍距離が一定の閾値を超えるポイントがグローバル外れ値として検出されます。
検出に使用する閾値は、近傍距離の分布と [検出感度] パラメーターの値によって決定されます。 第 3 四分位に四分位範囲 (データの中央 50% の範囲) の数を追加することで、箱ひげ図を使用して閾値を視覚化できます。 [高] 感度オプションでは、第 3 四分位に 1 四分位範囲が追加されます。 [中] 感度では、1.5 四分位範囲が追加されます。 [低] 感度では、2 四分位範囲が追加されます。 感度が高いほど閾値は低くなり、グローバル外れ値として検出される近傍距離が短くなることに注意してください。
ローカルの空間的外れ値の検出
異常であったり他から離れている場所の特定は、多くの場合、一般的であったり集中している場所の特定よりも重要です。 例として、詐欺の可能性のある金融取引の調査があげられます。詐欺が発生するのは、多くの場合取引の一般的な空間パターンから外れた異常な場所です。
こうしたニーズがあるにもかかわらず、外れ値を特定しようとするアプローチの大半では、まずクラスターを特定したうえで、残りのフィーチャを空間的外れ値と推測できるものとして使用するというやり方にこだわります。 たとえば、[密度ベースのクラスター分析 (Density-based Clustering)] ツールは、さまざまなアプローチで空間的クラスターを定義し特定するのには長けていますが、このツールによる外れ値の特定は、クラスターの基準を満たさず、ノイズ フィーチャとして二値的に指定されたフィーチャでしかありません。 その結果、クラスター アプローチだけを使用して空間的外れ値を特定すると、少なくとも 2 つの短所が伴うことになります。 1 つ目の短所は、設計上クラスター アプローチが焦点を当てているのはクラスターの定義と特定であって、外れ値の定義と特定ではないということです。 もう 1 つの短所は、多くの場合外れ値の指定が二値的な手法で行われ、観測値の外れ値の度合いについての許容値や定量的レベルが存在しないということです。
ローカル外れ値係数 (LOF) は、外れ値の特定に焦点を当て、フィーチャの離れ度合いの計測値を提供することで、こうした短所に対処します。 さらに、このアプローチでは、ローカルな密度パターンを使用して、フィーチャの近傍の密度を、付近のその他のフィーチャの近傍に対して比較します。 これにより、分析範囲全体の状況において異常であることを示すグローバルな外れ値と、ごく近い周辺のみの状況において異常であることを示すローカルな外れ値とを区別することができます。 ローカルな外れ値に注目すれば、上述の取引履歴シナリオのような詳細な調査を要する複雑なローカル現象を明らかにするのに役立ちます。
ローカルの空間的外れ値の検出条件の定義
空間的外れ値を計測して特定するこのツールを使用するには、フィーチャごとに評価された[近傍数] パラメーターの値と、分析範囲の [外れ値と見なされる場所の割合] パラメーターの値が必要です。これらの基準は、LOF 計算時の近傍のサイズや外れ値とインライアーを指定する閾値を決めるうえで重要です。
- [近傍数] パラメーターは、フィーチャごとの近傍を決めるものです。 LOF 計算では、この近傍を使って到達可能性距離とローカル到達可能性密度を計算します。これが、あるフィーチャが付近のフィーチャから空間的にどれだけ離れているかを推定するための比較の基準となります。
- [外れ値と見なされる場所の割合] パラメーターは、フィーチャが外れ値かインライアーかを指定する閾値を決めるものです。 この閾値は、入力データのすべてのフィーチャについて計算された LOF の値を使用して、外れ値として指定される LOF の最大値を持つフィーチャの割合を決めます。
可能であれば、特定領域の知識でこうしたパラメーターの値を以下の例のように設定するようお勧めします。
- 交差点での衝突数が体系的な安全性の問題を示していることについて固有の領域知識を持っている運輸業界のエンジニアは、この値を近傍数として使い空間的外れ値を検出することができます。
- 献血活動のコーディネーターは、献血ボランティア候補のリストを持っています。 コーディネーターには、献血活動の場所への移動時間を補完するために 10 パーセントの特に遠方のボランティアにインセンティブを与えるための予算があるので、外れ値と見なされる場所の割合として 10 パーセントを使用して、献血活動の場所や献血活動に対するインセンティブを計画するのに役立てます。
さらに、もし [近傍数] や [外れ値と見なされる場所の割合] パラメーターの値がわからない場合や、これらのパラメーターのデータドリブンな値を調べたい場合には、データの空間分布を使用してパラメーター値を検索することができます。 このアプローチについては、後述する「データドリブン パラメーター選択」セクションで詳しく説明します。
ローカル外れ値係数
ローカル外れ値係数の計算は、空間的外れ値を特定して説明するうえで重要なメカニズムです。 この特徴は、次の 4 つの手順です。すなわち、近傍の確定、到達可能性距離の検索、ローカル到達可能性密度の計算、ローカル外れ値係数自体の計算です。 以下では、それらのアクションについて説明します。
近傍の確定と到達可能性距離の検索
ローカル近傍は、指定されたフィーチャの最小数を使用して場所ごとに確定します。 このアプローチは、一般的に K 近傍と呼ばれます。K とは、現在解析されているフィーチャ周辺の指定されたフィーチャの最小数に相当します。 例として、以下の図に示したフィーチャ A のシナリオでは、近傍数 k は 4 です。
フィーチャの近傍が確定すれば、到達可能性距離は、A と B の間の距離か、B から kth の最も近い近傍までの距離の、どちらか距離の大きい方となります。
次の図では、k = 4 のシナリオにおけるポイント A の到達可能性距離を示しています。
同様にして、各フィーチャにはそれぞれ K 近傍で定義された到達可能性距離があります。
ローカル到達可能性密度の検索
フィーチャごとに到達可能性距離が判明したら、フィーチャの近傍のすべてのフィーチャの到達可能性距離の平均値を計算します。 この平均値は、フィーチャの近傍の空間密度の計測値であるローカル到達可能性密度を決定するために使用されます。 ローカル到達可能性密度の計算値は、フィーチャの近傍のすべてのフィーチャの到達可能性距離の平均値の逆数に相当します。
ローカル到達可能性密度を概念化するもう 1 つの方法は、フィーチャ A の近傍に属する B1 から B4 までのすべてのフィーチャの到達可能性距離を算出することです。以下の図に示します。
その後、距離の合計をフィーチャの数 (この場合は 4) で除算し、その逆数を出します (合計値で 1 を除算)。
さらに、フィーチャの到達可能性距離の平均値が増加するとローカル到達可能性密度が下がることを概念化することもできます。 つまり、フィーチャの到達可能性距離の平均値が減少するとローカル到達可能性密度は上がることになります。
ローカル外れ値係数の計算
すべてのフィーチャに対してローカル到達可能性密度が計算できたので、ローカル外れ値係数の計算の最終ステップとして、あるフィーチャのローカル到達可能性密度とその近傍のローカル到達可能性密度の比率を計算します。 こうして計算された比率の平均値が、ローカル外れ値係数です。
この係数が、あるフィーチャが空間的外れ値かどうかを検出するのにどう役立つのかを概念化するため、フィーチャのローカル到達可能性密度が減少 (つまり、フィーチャの近傍は疎) し、近傍のローカル到達可能性が増加 (つまり、フィーチャの近傍の近傍はより密)すると、ローカル外れ値係数は増加する、と考えてみましょう。このフィーチャの空間密度は低く、近傍のフィーチャの空間密度はそれより高いことから、このフィーチャがその他のフィーチャよりも離れているということになります。
このツールは、すべてのフィーチャに対して計算されたローカル外れ値係数を使用して、指定された場所の割合を外れ値のパラメーター値として使用して、フィーチャを外れ値とインライアーとに指定します。 つまり、適切な割合を選択することが解析結果を定義し解釈するうえで重要な条件の 1 つということです。
データドリブン パラメーター選択
[近傍数] と [外れ値と見なされる場所の割合] パラメーターは、LOF 計算結果や検出される空間的外れ値に重大な影響を与えます。 こうしたパラメーター値は、領域知識に基づいて選択することをお勧めしますが、必ずしもすべての解析問題でこうした基準の明確な値がわかっているとは限りません。
解析実行前の段階では近傍数や外れ値と見なされる場所の割合の論理値がわからない場合やデータドリブンな結果を評価したい場合、このツールでは、入力フィーチャの空間分布に基づいて適切なパラメーターの値を自動検索することができます。 このために、ツールは近傍数パラメーター (k) と外れ値と見なされる場所の割合パラメーター (c とする) の組み合わせた値を比較することで検索を実行します。これは、外れ値と見なされる場所の数 (n とする) に変換されます。
パラメーターの値のペア [(c1, k1), (c2, k2), …] ごとに、ローカル外れ値係数を計算します。 結果の LOF 値を降順にランク付けし、t 統計値 Tci,kj を使用して、上位 n 個の外れ値の log(LOF) の平均値と次の n 個のインライアーの log(LOF) の平均値を比較します。
次に進む前に、次の点に留意してください。
- c の値が与えられると、ツールは t 統計値の有意性を最大化する k を特定します。 つまり、外れ値のグループとインライアーのグループの LOF の差を最大化する最近傍の値です。
- ツールは、n のサイズに合わせて調整後、t 統計値を最大化する c の値を特定します。
検索は、入力ポイントの数によって確定された k と c の値のドメインで実行され、選択されたパラメーターについてツールが下した各決定は、ツール実行後のメッセージに表示されます。
注意:
多数のフィーチャの入力データセットがある場合、近傍数と LOF 閾値の一部だけがとツールによって確認されます。
注意事項と出力の解釈
このツールの出力を解釈する際、重要な注意事項がいくつかあります。
- ある入力データセットに対して計算された LOF 値は、別のデータセットで計算された LOF 値との比較に使用することはできません。 LOF 計算は、データセットの入力フィーチャの空間分布に依存します。つまり、異なるデータセットに存在する差異が原因で、計算されるローカル到達可能性密度や LOF 値も異なるものになります。
- 計算された LOF 結果が、出力フィーチャのポイントとそのポイントに合致する出力予測ラスターのセルとで、異なる可能性があります。 この差異が生じるのは、あるポイントの近傍には周辺の近傍は含まれるもののそのポイントそのものは含まれないのに対し、そのポイントに合致するラスター セルにはポイントそのものも近傍の 1 つとして含まれるためです。
- [外れ値と見なされる場所の割合] パラメーターに渡される値にわずかな差異があっても、外れ値と見なされる場所の割合の出力が同じとなる可能性があります。 この状態は、フィーチャの空間分布が類似していたために複数のフィーチャの LOF 値が同じとなっている場合や、割合に差はあってもわずかな幅だったために同じ LOF 閾値が設定される場合に発生する可能性があります。
- 10 個のフィーチャがあり、LOF 計算結果の LOF 値が次のようになっているシンプルなデータセットを考えてみましょう。: [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]。 この例では、外れ値と見なされる場所の割合の値を 10 パーセントとすると、上位 10 パーセントの LOF 値が選択されることになり、LOF 閾値を 9 とした場合に相当します。 同様に、外れ値と見なされる場所の割合の値として 40 パーセントを渡すと、上位 40 パーセントの LOF 値が選択されることになりますが、これでも設定される LOF 閾値は 9 のままです。 そのため、外れ値として指定される外れ値の数は、10 パーセントの場合から 40 パーセントの場合まで同じとなります。
その他の参照先
ローカルの外れ値要因と最適化パラメーターの詳細については、次の資料をご参照ください。
- Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). "LOF: identifying density-based local outliers." Proceedings of the 2000 ACM SIGMOD international conference on Management of data. (pp. 93-104).
- Xu, Z., Kakde, D., Chaudhuri, A. (2019). "Automatic Hyperparameter Tuning Method for Local Outlier Factor, with Applications to Anomaly Detection." 2019 IEEE International Conference on Big Data (pp. 4201-4207)