[K 平均クラスターの検索] は、位置または属性値にのみ基づき、K 平均アルゴリズムを使用してフィーチャの自然なクラスターを見つけます。 アルゴリズムは、クラスター内のフィーチャはできる限り類似しつつクラスター間はできる限り異質になるように、フィーチャを分類します。
例
K 平均クラスターの検索を使用したサンプル シナリオを以下に示します。
- ある非政府組織が、遺棄された漁具とその他の海岸にある大きなごみに関するデータを収集しています。 ごみの位置を解析すると、ごみのクラスターを見つけることができます。これは、遺棄された器具やごみの主な発生源を組織が特定するのに役立ちます。
- 小売店の位置にいる顧客は、人口統計学上の特性と購買パターンに基づいて解析できます。 可処分所得と支出などのプロパティに基づくクラスターを使用して、店のマーケティング戦略を設計することができます。
K 平均クラスターの検索の実行
[K 平均クラスターの検索] はポイント、ライン、またはエリアのフィーチャを使用しているマップ、チャート、テーブル カードで実行できます。
自然なクラスターを見つけるには、次の手順に従います。
- 必要に応じて、マップ カードをクリックして有効化します。
ツールバーと [アクション] ボタン が表示されると、カードがアクティブになります。
- [アクション] ボタンをクリックし、次のいずれかを実行します。
- マップ カードの場合、[空間解析] タブで [K 平均クラスターの検索] をクリックします。
- チャートとテーブル カードの場合は、[どのように分布していますか?] および [K 平均クラスターの検索] をクリックします。
- [レイヤーの選択] の場合、クラスターを検索するレイヤーを選択します。
- [解析フィールド] では、次のオプションのいずれかを選択します。
- [K 平均クラスターの検索] を空間的に実行するには、位置フィールドを選択します。
- [K 平均クラスターの検索] を非空間的に実行するには、1 つ以上の数値フィールドを選択します。
- [その他のオプション] を展開し、必要に応じて [クラスターの数] パラメーターの値を入力します。
- [実行] をクリックします。
使用上の注意
[レイヤーの選択] パラメーターを使用すると、クラスターを検索するデータセットを選択できます。 データセットは、ポイント、ライン、エリアのフィーチャを含めたり、非空間テーブルにすることができます (チャートまたはテーブルの機能を使用する場合に利用可能)。
[解析フィールド] パラメーターを使用すると、クラスターが基盤とするフィールドを選択することができます。 フィールドは、位置フィールドにすることも、1 つ以上の数値または割合/比率フィールドにすることもできます。位置フィールドの場合、クラスターは地理的な位置に基づき、数値または割合/比率フィールドの場合、クラスターは各属性に同様に基づきます。 位置フィールドと、数値または割合/比率フィールドの組み合わせはサポートされません。
[その他のオプション] を展開すると、[クラスターの数] パラメーターが表示されます。 解析に特定の数のクラスターが必要な場合は、[クラスターの数] パラメーターにその値を入力します。 値を入力しないと、クラスターの数は Davies および Bouldin の文献 (1979) に記述されている Davies-Bouldin Index を使用して計算されます。これは、1 つのクラスター内の類似性とクラスター間の異質性を最適化します。
制限事項
このツールは、Google BigQuery および追加設定が必要なデータベース プラットフォームへの読み取り専用接続ではサポートされていません。
クロス フィルター、フィルター ウィジェット、時系列フィルター ウィジェットを K 平均クラスターの検索の結果に適用できますが、フィルターを変更するたびにツールが再実行されることはありません。
参考文献
Davies, David L., and Donald W. Bouldin. 1979. "A Cluster Separation Measure." IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1, no. 2 (April): 224 - 227.https://doi.org/10.1109/TPAMI.1979.4766909.