直方图

通过测量某些值在数据集中显示的频数,直方图直观地概述了连续型数字变量的分布。 直方图中的 x 轴 是一个数字行,该行已被拆分成数字范围或条柱。 对每个条柱而言,已绘制相应的条,其中条的宽度表示条柱范围,条的高度表示落入此范围内的数据点数。 了解数据分布是数据探索过程中的一个重要步骤。

变量

直方图需要 x 轴上的一个连续数字变量。

多个系列

可以通过设置分割依据字段创建多个系列的直方图。 当设置了分割依据字段时,直方图会基于字段中的唯一类别数分割为多个系列。 例如,当显示与住房价格相关的数据集的直方图时,数值控件设置为 SoldPrice 以查看城市中住房价格的分布。 将分割依据控件设置为 Neighborhood 会将直方图分割为 N 个系列,其中 N 是唯一邻域值的数量。 多个系列的直方图会显示 N 个迷你图表,每个图表代表一个唯一 Neighborhood 值,因此可以在分割依据值之间比较住房价格分布。

注:

具有多个唯一值的类别字段不适用于将字段分割成多个系列。

显示多个系列

多个系列的直方图仅可以使用一种格网布局显示,可以在图表属性窗格中的系列选项卡上对其进行自定义。 您可以通过设置每行的迷你图表数字输入来自定义格网图表布局的尺寸。 例如,将每行的迷你图表设置为 3 将每行最多显示 3 个图表 - 格网中的总行数将由图表中的系列数决定。 通过选中显示预览图表复选框,您可以选择一个迷你图表以在较大的预览图表中查看,从而能够更详细地动态探索每个迷你图表。多系列直方图

变换

某些分析方法需要呈正态分布的数据。 如果数据偏斜(分布不均衡),则可能需要将数据变换为正态分布。 直方图使您可以在数据分布上浏览对数和平方根变换的效果。 对于参考,可通过选中图表属性窗格中的显示正态分布复选框,向直方图添加一个正态分布叠加。

对数变换

对数变换通常用于呈正偏分布的数据,其中有些值非常大。 如果这些大值位于数据集中,对数变换有助于使方差更加恒定并会归一化数据。

例如,左侧图表中的正偏分布使用右侧图表中的对数变换转换为正态分布:

左侧是原始数据分布的图表,而右侧是对数变换。

注:

对数变换只能应用于大于零的数字。

平方根变换

平方根变换和对数变换类似,因为它会减少数据集的右偏度。 不同于对数变换的是,平方根变换可以应用于零。

注:

平方根变换只能应用于大于零的数字和零。

反向变换

倒数变换可获取字段中每个值 (x) 的倒数 (1/x)。

注:

倒数变换不能应用于零值。 如果字段中存在零值,则将这些值评估为空值。

Box-Cox 变换

Box-Cox 变换将以下幂函数应用于正态分布值:

Box-Cox 变换

其中 x' 为变换后的值,x 为原始值,λ1参数,λ2偏移参数。

注:

Box-Cox 变换只能应用于正值。 如果存在负值或零值,请使用偏移参数确保所有值均为正值。

条柱数量

条柱数量默认为数据集中记录数的平方根。 可通过更改图表属性窗格的数据选项卡中的条柱值调整此项。 通过更改条柱数量,可在数据结构中查看或多或少的详细信息。

统计数据

将计算几个描述性统计信息并将其在直方图上显示为垂直线。 平均值和中值均使用一行来显示,位于平均值以上或以下的标准差需使用两行来显示。 可在图表图例中单击这些项目以将其开启或关闭。

统计信息表在图表属性窗格的数据选项卡中显示,其中包含所选数值字段的以下统计信息:

  • 平均值
  • 中值
  • 标准差
  • 计数
  • 最小值
  • 最大值
  • 总和
  • 偏度
  • 峰度

如果图表的源图层具有选择集,则统计信息表将有一列显示完整数据集的统计信息,一列仅显示选择集的统计信息。

统计信息表还包含用于打开和关闭直方图平均值、中值和标准偏差线以及更改其颜色的控件。

可以右键单击统计信息表,然后选择复制表复制行复制值。 从而可以将统计信息从图表属性窗格复制并粘贴到其他窗口或应用程序中。

多个选项可以控制轴和相关设置。

Y 轴边界

默认的 y 轴边界是基于 y 轴上表示的数据值范围设置的。 可以通过输入新的所需轴边界值来对这些值进行自定义。 设置轴边界可用来保持图表比例一致以进行比较。 单击重置按钮,以将轴边界恢复为默认值。

数字格式

可以通过指定数字格式类别或定义自定义格式字符串来设置轴显示数值的格式。 例如,$#,### 可以用作自定义格式字符串来显示货币值。

外观

标题和描述

图表和轴的默认标题将基于变量名和图标类型给定。 可在图表属性窗格的常规选项卡上对此进行编辑。 还可提供图表描述,这是显示在图表窗口底部的文本块。

颜色

可使用图表属性窗格的数据选项卡中图格旁边的颜色图面更改直方图的图格颜色。

参考线

可以向图表中添加参考线或范围作为参考或用以突出重要值。 要添加新参考线,在图表属性窗格的参考线选项卡中,单击添加参考线。 要绘制一条线,请在要绘制线的位置输入。 要创建一个范围,请输入一个值。 您可以选择通过指定标注为参考线添加文本。

示例

创建直方图,以便对整个华盛顿特区人口普查区块组的人口密度分布情况进行可视化。

  • 数字 - Population Density

直方图显示整个华盛顿特区人口普查区块组的人口密度分布