箱形图可以针对数据集中值的差异提供快速、直观的汇总。 它们显示数据集中的中值、上下四分位数、最小值和最大值,以及所有异常值。 异常值可以揭示数据中的错误或发生的异常情况。 箱形图是使用 y 轴上的数字或比率/比例字段创建的。
箱形图可以回答有关数据的问题,例如:“我的数据是如何分布的?” “数据集中是否存在异常值?” “数据集中多个系列的分散差异是什么?”
示例
一位市场研究人员正在研究一家连锁零售店的业绩。 可以使用每家商店年收入的箱形图来确定销售分布,包括最小值、最大值和中值。
以上箱形图显示销售额中位数为 $1,111,378(通过将鼠标悬停在图表上方或者使用翻转卡片按钮 翻转卡片来显示)。 分布似乎相当均匀,其中中位数位于箱形中间,并且须线具有相似大小。 同时还存在高低异常值,分析人员可据此指示哪些商店的业绩出色或表现不佳。
为了更深入地探究数据,分析人员决定为商店所在的每个地区创建单独的箱形图。 为此,可通过将分组依据字段更改为地区实现此操作。 结果为四个单独的箱形图,可将其进行比较以识别有关每个区域的信息。
根据箱形图,分析人员可以判断地区之间的差异较小;四个箱形图的中位数一致,箱形大小相似,并且所有地区在最小端和最大端都具有异常值。 但是,北部和中部地区的须线比海湾地区和南部地区稍密,这意味着这些地区的业绩比其他地区的业绩更稳定。 海湾地区和南部地区的须线稍长,这意味着这些地区既有表现不佳的商店,也有业绩出色的商店。 分析人员可能希望将其分析重点放在这两个地区,以了解为什么会出现这样的业绩差异。
创建箱形图
要创建箱形图,请完成以下步骤:
- 选择以下数据选项之一:
- 一个数字 或比率/比例字段 。
- 一个数字 或比率/比例字段 加上一个字符串字段 。
注:
您可以使用数据窗格中的搜索栏来搜索字段。
- 使用以下步骤创建箱形图:
- 将所选字段拖动到新卡片。
- 将鼠标悬停在图表放置区上方。
- 将所选字段拖放到箱形图上。
提示:
也可以使用数据窗格上方的图表菜单或现有卡片上的可视化类型按钮 创建图表。 图表菜单中仅启用与所选数据兼容的图表。 可视化类型菜单仅显示兼容的可视化(包括地图、图表或表格)。
注:
根据数据库数据集创建的箱形图必须至少拥有 5 个记录。 使用字符串字段对箱形图进行分组时,或者在数据集或卡片上应用过滤器时,很可能会出现少于 5 个记录的箱形图。 可通过 Insights in ArcGIS Enterprise 和 Insights desktop 中的数据库连接访问数据库数据集。
用法说明
图层选项按钮 可打开图层选项窗格。 图层选项窗格包含以下功能:
- 将“分组依据”字段应用至图表的 x 轴时,可以使用图例选项卡 。 如果使用“分组依据”字段,则会创建并排箱形图,每个箱形图表示每个类别中的数据分散。 “弹出图例”按钮 可将图例显示为页面上的单个卡片。 您可以使用图例在图表上进行选择。 要更改与值相关联的颜色,请单击符号,然后从调色板中选择颜色或者输入十六进制值。
- 外观选项卡 可更改图表上的符号颜色(仅单一符号)。
使用可视化类型按钮 可以直接在箱形图和其他可视化(例如分级符号地图、汇总表或直方图)之间进行切换。 如果箱形图包含分组依据字段,则可将可视化更改为图表,例如折线图或柱状图。
使用翻转卡片按钮 查看卡片背面。 卡片信息选项卡 提供有关卡片上的数据的信息,并且导出数据选项卡 允许用户从卡片中导出数据。
箱形图的一个主要功能是确定异常值。 异常值是指明显大于或小于其余数据的值。 箱形图上的须线代表阈值,超过这个阈值的值将被视为异常值。 如果没有异常值,则须线将延伸到数据集中的最小值和最大值。 在 Insights 中,低异常值和高异常值的范围在箱形图上显示为用虚线连接的圆。
可通过单击图表选择箱形图中的每个统计数据或范围。
创建箱形图时,可将结果数据集 以及输入字段和输出统计数据添加到数据窗格。 结果数据集可用于使用操作按钮 进行非空间分析,找到答案。
箱形图的工作原理
箱形图包括以下组件:
标注 | 组成部分 | 描述 |
---|---|---|
须 | 小于第一个四分位数且大于第三个四分位数的数据范围。 每根须线都具有 25% 的数据。 须线通常不能超过 IQR 的 1.5 倍,IQR 用于设置异常值的阈值。 | |
框 | 第一个和第三个四分位数之间的数据范围。 50% 的数据位于此范围内。 第一个和第三个四分位数之间的范围也称为四分位距 (IQR)。 | |
最大值 | 数据集中的最大值或者在由须线设置的阈值范围之内的最大值。 | |
第三四分位数 | 其中 75% 的数据小于该值并且 25% 的数据大于该值。 | |
中值 | 数据集中的中间数。 一半数值大于中位数,另一半数值小于中位数。 中位数也可以称为第二个四分位数。 | |
第一四分位数 | 其中 25% 的数据小于该值并且 75% 的数据大于该值。 | |
最小值 | 数据集中的最小值或者在由须线设置的阈值范围之内的最小值。 | |
异常值 | 高于或低于由须线设置的限制的数据值。 |