ポイント クラスターの検索

ツール アイコン ビッグ データ解析で使用できます。

[ポイント クラスターの検索] ツール [ポイント クラスターの検索] 小さなツール は、空間分布または時空間分布に基づき周辺ノイズ内でポイント フィーチャのクラスターを検索します。

ワークフロー図

[ポイント クラスターの検索] のワークフロー図

非政府組織が、害虫が運ぶ特定の病気を調査しており、分析範囲内の世帯を表しているポイント データセットが存在し、それらの世帯の一部が感染していて、その他の世帯が感染していない場合があります。 [ポイント クラスターの検索] ツールを使用することによって、アナリストは、感染した世帯のクラスターを決定し、害虫の処理および駆除を開始する必要のあるエリアを正確に示すことができます。

使用上の注意

ポイント クラスターの検索ツールを操作する際には、以下の点に注意してください。

  • このツールの入力は、単一ポイント レイヤーです。
  • すべての結果は、各フィーチャが属しているクラスターを示す CLUSTER_ID という名前のフィールド、および各クラスターが隣接するクラスターからほとんどの場合は視覚的に区別されるように、結果の描画に使用されるラベルである COLOR_ID という名前のフィールドを含みます。 両方のフィールドで、-1 の値は、フィーチャがノイズとしてラベル付けされていることを示します。
  • [クラスター分析方法] パラメーターは、指定距離または自動調整クラスタリング アルゴリズムのいずれが使用されるかを決定します。 [DBSCAN] は、指定された検索距離に基づいて最近接にあるポイントのクラスターを識別します。 [HDBSCAN] は、[DBSCAN] と同様にポイントのクラスターを検索しますが、クラスターの可能性 (または安定性) に基づきさまざまな密度で、クラスターを考慮したさまざまな検索範囲を使用します。
    • [DBSCAN] を選択した場合、クラスターは 2 次元空間のみか、空間と時間の両方で検索できます。 時間を使ってクラスターを検索し、入力レイヤーが時間対応かつ時間のタイプが瞬間である場合、DBSCAN は指定された検索距離および検索期間に基づいて最近接にあるポイントの時空間クラスターを検出します。
    • [HDBSCAN] では現在のところ空間クラスタリングのみがサポートされており、クラスターの検出に時間は使用されません。
  • [DBSCAN] クラスター分析手法を時間とともに使用し、時空間クラスターを検出する場合、結果には次のフィールドも含まれます。
    • FEAT_TIME- 各フィーチャの元となる瞬間の時間。
    • START_DATETIME- フィーチャが含まれるクラスターの時間範囲における開始時間。
    • END_DATETIME- フィーチャが含まれるクラスターの時間範囲における終了時間。 生成されるレイヤーの時間は、START_DATETIME および END_DATETIME フィールドの間隔として設定され、時間スライダーで時空間クラスターを視覚化する際は、ほとんどの場合、すべてのクラスター メンバーが一緒に描画されます。 ノイズ フィーチャの場合、START_DATETIME および END_DATETIMEFEAT_TIME と等しくなります。
  • [HDBSCAN] クラスター分析手法が使用される場合、結果には次のフィールドも含まれます。
    • PROB- フィーチャが、割り当てられたクラスターに存在する可能性。
    • OUTLIER- フィーチャが自身のクラスターの外れ値である可能性。 値が高いほど、フィーチャが外れ値である可能性が高いことを示しています。
    • EXEMPLAR- 各クラスターの最も代表的なフィーチャを示します。 これらのフィーチャは値が 1 であることで示されます。
    • STABILITY- さまざまな縮尺における各クラスターの持続性。 スコアが大きいほど、より広範な距離縮尺においてクラスターが持続できることを示しています。
  • [クラスターあたりの最小フィーチャ数] パラメーターは、選択した [クラスター分析方法] に応じて異なって使用されます。
    • [指定距離 (DBSCAN)] - あるポイントからクラスターの形成を開始するには、そのポイントから検索範囲内にある必要があるフィーチャの数を指定します。 結果は、この値よりも少ないフィーチャが含まれるクラスターを含むことができます。 検索範囲の距離は、[検索距離] パラメーターを使用して設定されます。 時間を使用してクラスターを検出する場合、追加の検索期間が必要であり、[検索期間] パラメーターを使用して設定します。 クラスター メンバーを検索する場合、クラスターを形成するには、指定した検索距離および検索期間内で、指定したクラスターあたりの最小フィーチャ数が検出される必要があります。 検索距離および検索期間は、検出されたポイント クラスターの直径または時間範囲には関連しません。
    • [自己調整 (HDBSCAN)] - 密度の推定時に考慮される各ポイントに隣接するフィーチャの数 (そのポイント自体を含む) を指定します。 この数は、クラスターの抽出時に許容される最小クラスター サイズでもあります。

パラメーター

以下は、ポイント クラスターの検索ツールのパラメーターです。

パラメーター説明データ タイプ

入力レイヤー

ポイント クラスターの検出元になるポイント フィーチャ。

フィーチャ

クラスター分析手法

ポイント クラスターを決定するためにツールによって使用されるクラスター分析方法。 2 つのオプションは、次のとおりです。

  • [DBSCAN] - 指定した距離を使用して、密度が低いノイズから密度の濃いクラスターを分離します。 DBSCAN は最速のクラスター分析方法ですが、存在する可能性があるすべてのクラスターを定義するための明確な距離がある場合にのみ適しています。 この方法により、密度が同じクラスターが生成されます。 これがデフォルトです。
  • [HDBSCAN] - さまざまな距離を使用して、密度が低いノイズからさまざまな密度のクラスターを分離します。 HDBSCAN は、最もデータを使用するクラスター分析方法で、最小のユーザー入力を必要とします。

String

クラスターあたりの最小フィーチャ数

このパラメーターは、以下のように、選択した [クラスター分析方法] に応じて異なる方法で使用されます。

  • [指定距離 (DBSCAN)] - あるポイントからクラスターの形成を開始するには、そのポイントから特定の距離内にある必要があるフィーチャの数を指定します。 この距離は、[検索距離] パラメーターを使用して設定されます。
  • [自己調整 (HDBSCAN)] - 密度の推定時に考慮される各ポイントに隣接するフィーチャの数 (そのポイントを含む) を指定します。 この数は、クラスターの抽出時に許容される最小クラスター サイズでもあります。

Int64

時間の使用

ポイント クラスターの識別で時間を使用するかどうかを指定します。 このオプションは、[DBSCAN] クラスター分析方法でのみ利用可能です。

Boolean

検索距離

考慮する最大距離。

指定される [クラスターあたりの最小フィーチャ数] はクラスター メンバーシップのこの距離内にある必要があります。 個別のクラスターは最小のこの距離で分離されます。 フィーチャがクラスター内で最近接するフィーチャからこの距離よりも離れて配置されている場合、クラスターには含められません。

Float64

検索期間

クラスター メンバーを検索する際に、クラスターを形成するためにこの期間内で検出される必要がある最小ポイント数を指定します。

String

出力レイヤー

生成される出力レイヤーは、選択したクラスター分析方法およびポイント クラスターの識別で時間が使用されるかどうかに応じて、異なるフィールドを含みます。

[DBSCAN] クラスター分析方法が選択され、時間が使用される場合に追加される出力フィールド

フィールド名説明フィールド タイプ

すべての入力フィールドが維持される

入力データセットのすべての入力フィールドが維持されます。

すべて

CLUSTER_ID

クラスター ID は、各フィーチャが属するクラスターを示します。

Int32

COLOR_ID

色 ID は、結果の描画に使用されるラベルです。そのため、ほとんどの場合、各クラスターは隣接するクラスターと視覚的に異なっています。 両方のフィールドで、-1 の値は、フィーチャがノイズとしてラベル付けされていることを示します。

Int32

FEAT_TIME

各フィーチャの元となる瞬間の時間。

Date

START_DATETIME

フィーチャが含まれるクラスターの時間範囲における開始時間。

Date

END_DATETIME

フィーチャが含まれるクラスターの時間範囲における終了時間。

Date

[DBSCAN] クラスター分析方法が選択され、時間が使用されない場合に追加される出力フィールド

フィールド名説明フィールド タイプ

すべての入力フィールドが維持される

入力データセットのすべての入力フィールドが維持されます。

すべて

CLUSTER_ID

クラスター ID は、各フィーチャが属するクラスターを示します。

Int32

COLOR_ID

色 ID は、結果の描画に使用されるラベルです。そのため、ほとんどの場合、各クラスターは隣接するクラスターと視覚的に異なっています。 両方のフィールドで、-1 の値は、フィーチャがノイズとしてラベル付けされていることを示します。

Int32

[HDBSCAN] クラスター分析方法が選択された場合に追加される出力フィールド

フィールド名説明フィールド タイプ

すべての入力フィールドが維持される

入力データセットのすべての入力フィールドが維持されます。

すべて

CLUSTER_ID

クラスター ID は、各フィーチャが属するクラスターを示します。

Int32

COLOR_ID

色 ID は、結果の描画に使用されるラベルです。そのため、ほとんどの場合、各クラスターは隣接するクラスターと視覚的に異なっています。 両方のフィールドで、-1 の値は、フィーチャがノイズとしてラベル付けされていることを示します。

Int32

PROB

フィーチャが、割り当てられたクラスターに存在する可能性。

Float64

STABILITY

さまざまな縮尺における各クラスターの持続性。 スコアが大きいほど、より広範な距離縮尺においてクラスターが持続できることを示しています。

Float64

OUTLIER

フィーチャが自身のクラスターの外れ値である可能性。 値が高いほど、フィーチャが外れ値である可能性が高いことを示しています。

Float64

EXEMPLAR

各クラスターの最も代表的なフィーチャを示します。 これらのフィーチャは値が 1 であることで示されます。

Int32