直方图将数值数据聚合到相等间隔的组(称为条柱)中,并显示每个条柱内值的频率。 可以使用单个数值或比率/比例字段来创建直方图。
直方图可以回答有关数据的问题,例如:“数据集中的数值及其出现频率的分布如何?” 以及“是否存在异常值?”
示例
非政府卫生组织正在研究美国的青少年肥胖率。 可以使用各个州青少年肥胖率频率的直方图来确定肥胖率的分布,包括最常见和最不常见的频率以及整个范围。
直方图可以显示正态分布,并指示最常出现的肥胖率介于 10 % 到 14 % 范围。
增加或减少条柱数可能会影响分析数据的方式。 虽然数据不会发生变化,但是其外观会发生变化。 要想不误解数据中的模式,为数据选择适当的条柱数非常重要。 条柱过少会隐藏重要模式,而条柱过多会使数据中的较小预期波动显得非常重要。 下图是适用于数据的适当条柱数示例。 每个条柱包含约 1% 的范围,可以在更精细级别对数据进行检查,以查看使用六个条柱时未显示的模式。 在此情况中,显示模式为围绕平均值的正态分布,同时向左出现微小但不明显的偏斜。
创建直方图
要创建直方图,请完成以下步骤:
- 选择一个数字 或比率/比例字段 。
提示:
您可以使用数据窗格中的搜索栏来搜索字段。
- 使用以下步骤创建直方图:
- 将所选字段拖动到新卡片。
- 将鼠标悬停在图表放置区上方。
- 将所选字段拖放到直方图上。
提示:
也可以使用数据窗格上方的图表菜单或现有卡片上的可视化类型按钮 创建图表。 图表菜单中仅启用与所选数据兼容的图表。 可视化类型菜单仅显示兼容的可视化(包括地图、图表或表格)。
也可以使用查看直方图来创建直方图,可通过查找答案 > 分布方式下的操作按钮 来访问该工具。
用法说明
可以使用单个值对直方图进行符号化。 可以使用图层选项按钮 来更改符号颜色和轮廓颜色,此更改将应用到所有条柱。
创建直方图后,Insights 将自动计算用于显示数据的相应数量的条柱。 可以更改条柱的数量,方法为使用沿 x 轴的滑块或单击条柱数量并输入新数值。
注:
如果没有将所选条柱的数量均匀划分到数据范围内,则系统将使用小数值来计算条柱。 直方图会将取舍整数而非小数显示为其条柱标注。 取舍整数仅可用于显示,而小数值则可用于所有计算。 如果条柱包含接近上限或下限的数据值并且标注已舍入,则条柱的起始值和结束值可能会显示不正确,原因是标注所显示的是舍入值而非小数。
使用图表统计数据按钮 可以显示数据的平均值、中值和正态分布。 正态分布曲线表示连续数据的随机样本预期分布,其中最高频率的值以平均值为中心,并且值的频率随着值的增大而减小,或者远离平均值而减小。 正态分布曲线在确定您的数据是否有偏差(例如,数据具有较高频率的低值)或是否有异常值方面非常有用。
使用可视化类型按钮 可以直接在直方图、分级符号地图或汇总表之间进行切换。
使用翻转卡片按钮 查看卡片背面。 卡片信息选项卡 提供有关卡片上的数据的信息,并且导出数据选项卡 允许用户从卡片中导出数据。
直方图的背部可以显示以下计算值:平均值、中值、标准差、偏度和峰度(简化)。 下表中介绍了偏度和峰度:
统计数据 | 描述 |
---|---|
偏度 | 偏度可以确定数据的分布是否对称。 偏度测量可以确定是否大多数分布值都位于平均值的左侧或右侧。 正态分布的偏度值为零,表示平均值两侧分布的数据数量相等。 偏度值可以为零、负值或正值,如下所示:
|
峰度 | 峰度描述了频率分布的形状,并给出了分布将产生异常值的可能性测量。 具有较厚尾部的分布被称为高峰态,其峰度大于零。 具有较薄尾部的分布被称为低峰态,其峰度小于零。 正态分布的峰度为 3,或者如果使用“简化峰度”,则正态分布的峰度为零(使用与峰度相同的公式和 -3)。 简化峰度值可以为零、负值或正值,如下所示:
|