查找 K 均值聚类使用 K 均值算法根据位置或属性值查找要素的自然聚类。 该算法可对要素进行分类,以使聚类中的要素尽可能相似,而聚类则尽可能不同。
示例
一个非政府组织要收集有关废弃渔具和其他大型近海垃圾的数据。 可以通过分析垃圾的位置查找垃圾的聚类,这可以帮助组织确定废弃设备和垃圾的主要来源。
可以根据人口统计特征和购买方式来分析零售网点的顾客。 可以使用基于可支配输入和支出等属性的聚类来设计商店的营销策略。
使用“查找 K 均值聚类”
可以使用点、线或面要素在地图、图表或表格卡片上运行“查找 K 均值聚类”。
完成以下步骤以运行“查找 K 均值聚类”:
- 如有必要,请单击地图卡片将其激活。 工具栏和操作按钮 出现时,卡片处于活动状态。
- 单击操作按钮并执行以下操作之一:
- 对于地图卡片,请单击空间分析选项卡上的查找 K 均值聚类。
- 对于图标和表格卡片,请单击分布方式,然后单击查找 K 均值聚类。
- 对于选择图层,选择要查找聚类的图层。
- 对于分析字段,请选择以下选项之一:
- 要以空间方式运行查找 K 均值聚类,请选择一个位置字段。
- 要以非空间方式运行查找 K 均值聚类,请选择一个或多个数值字段。
- 展开其他选项,根据需要在聚类数参数中输入一个值。
- 单击运行。
用法说明
选择图层参数用于选择要查找聚类的数据集。 数据集可以包含点、线或面要素,也可以是非空间表(使用图表或表格中的功能时可用)。
分析字段参数用于选择聚类所基于的字段。 该字段可以是位置字段,在这种情况下,聚类将基于地理位置;也可以是一个或多个数值或比率/比例字段,在这种情况下,聚类将基于属性之间的相似性。 不支持将位置与数字或比率/比例字段进行组合。
可以展开其他选项,显示聚类数参数。 如果您的分析需要特定数量的聚类,请在聚类数参数中输入需要的值。 如果未输入任何值,则将使用 Davies & Bouldin (1979) 中描述的 Davies-Bouldin 指数来计算聚类数,以优化聚类内相似性和聚类间差异性。
局限性
Google BigQuery、Snowflake 以及不支持开箱即用的数据库平台的只读连接不支持此工具。
交叉过滤器、过滤器微件和时态过滤器微件可以应用于查找 K 均值聚类的结果,但不会在每次更改过滤器时重新运行工具。
参考资料
Davies, David L., and Donald W. Bouldin. 1979. "A Cluster Separation Measure." IEEE Transactions on Pattern Analysis and Machine Intelligence. PAMI-1, no. 2 (April): 224 - 227.https://doi.org/10.1109/TPAMI.1979.4766909.