散点图

散点图能够可视化两个数值变量之间的关系,即在 x 轴与 y 轴上分别显示这两个变量。 对于每条记录而言,每当两个变量在图表中相交便绘制一个点。 生成的点将构成一个有序结构,两个变量之间的关系随即形成。

变量

散点图由两个数字组成,分别位于 x 轴与 y 轴。 此外,可以指定第三个数值变量,以按比例调整绘图中的每个点的大小。

注:

为了提高性能,如果创建散点图时使用的点数超过 200,000,则将应用视觉聚合。 在本例中,散点图的点将聚合成一个 250 x 250 格网,每个单元格将最多显示一个点。 在应用视觉聚合后,将禁用工具提示显示字段比例控件。

多个系列

通过设置分割依据类别字段,散点图可以与多个系列一起显示。 例如,在犯罪事件数据集中,CrimeType 字段可用于将数据拆分为多个系列。 系列表将使用各个唯一的犯罪类型(例如 Theft、Vandalism 和 Arson)进行填充,并且生成的图表将显示三个散点图系列。

显示多个系列

要配置具有多个系列的散点图,请使用图表属性窗格中系列选项卡上的将多个系列显示为选项。 默认情况下,将使用单一图表选项显示多个系列。 在此制图表达中,所有系列都绘制在相同的图形区域中,但每个系列都分配了唯一的颜色,以便在不同群组之间进行比较。

您还可以选择格网选项,将具有多个系列的散点图作为格网图表(也称为小倍数)查看。 此选项将显示较小图表的矩阵,其中每个迷你图表仅显示单个系列的数据。 格网图表有助于比较不同数据子组之间的趋势和模式。 可以通过设置每行的迷你图表数值来自定义格网图表布局的尺寸。 例如,将每行图表的迷你图表设置为 3 将每行最多显示 3 个图表 - 格网中的总行数将由图表中的系列数决定。 选中显示预览图表复选框允许您通过选择一个图表以在较大的预览图表中查看来更详细地动态探索每个迷你图表。

格网图表示例

系列统计数据

当使用格网选项配置多系列散点图时,可使用系列选项卡的显示下拉列表将迷你图表显示为散点图R 平方Pearson 相关系数。 在选择 R 平方Pearson 相关系数选项后,迷你图表将显示统计值,背景将反映在配色方案下拉列表中指定的渐变颜色,这对应于值的强度。 使用排序依据排序方向下拉列表按字母、手动或按照统计值对迷你图表进行排序。

当将迷你图表配置为显示 R² 或 Pearson 相关系数值时,可以通过选中显示 p 值复选框显示每个系列的 p 值指标。 以下指标用于表示三个显著性阈值:

  • *** - p 值小于 0.001。
  • ** - p 值小于 0.01。
  • * - p 值小于 0.05。

当系列的 p 值等于或大于 0.05 时,将不会在迷你图表中显示任何 p 值指标。

注:

t 分布用于计算 p 值。

工具提示显示字段

工具提示显示字段下拉菜单可用于在每个散点图点的工具提示中显示特定字段的值。 例如,当根据 crime_rate 绘制 housing_cost 时,选择 neighborhood 作为工具提示显示字段值,可以在鼠标悬停在单个点上时显示相应的邻域名称,这可能非常有用。

统计数据

计算回归方程,并在散点图中绘制关联趋势线。 趋势线描绘了两个变量之间的关系,提供了线性 (Linear) 和非线性(ExponentialLogarithmicPowerPolynomial)趋势线选项。 R² 值用于量化数据与模型的拟合程度,但是建议谨慎将 R² 用于非线性模型,因为 R² 计算中的线性是一种假设。 要关闭趋势线,取消选中图表属性窗格中的显示趋势线复选框,或通过单击图例中的项目打开和关闭可见性。 要更改趋势线的颜色,请单击图表属性窗格中的趋势线颜色样本,然后选择一种新的颜色。

了解有关回归分析的详细信息

注:

图表采用以下公式计算 R²:

R 平方公式

其中 实际值 为实际值,预测值 为预测值,实际值的平均值 为实际值的平均值。

相关性

对于线性趋势,如果较小 x 值与较小 y 值相对应,而较大 x 值与较大 y 值相对应(线呈上扬趋势),则其指示正相关。 如果较小 x 值与较大 y 值相对应,而较大 x 值与较小 y 值相对应(线呈下降趋势),则其指示负相关。

注:

x 和 y 之间的相关性并不意味着 x 导致 y。

符号

多个选项可以控制图表符号化和相关设置。

样式

默认情况下,散点图的点将使用图层颜色,并从源图层符号系统中继承轮廓并填充颜色。 使用不同于任一散点图变量的属性对图层进行符号化后,散点图可视化中还会显示一个维度。

要自定义点样式,可以在图表属性窗格的系列选项卡上,单击系列表中的符号颜色图面。 使用弹出窗口配置点符号的样式、大小、颜色和透明度。

比例大小

使用比例下拉列表根据数值属性按比例调整散点图的点大小。 基于第三个数值变量按比例调整散点图的点大小时,会向可视化添加另一个维度,从而创建如下图所示的气泡图:

气泡图示例

多个选项可以控制轴和相关设置。

轴边界

默认的最小和最大轴边界基于轴上表示的数据值的范围。 通过提供新的轴边界值,可以对这些值进行自定义。 单击重置按钮,轴边界将会恢复为默认值。

对数轴

默认情况下,散点图轴以线性刻度显示。 通过选中图表属性窗格部分的对数轴复选框,可以以对数刻度显示一个或两个轴。

在可视化呈较大正偏分布的数据(其中大部分数据点具有较小值,一小部分数据点具有非常大的值)时,对数刻度非常有用。 更改轴的刻度不会改变数据的值,只是改变显示的方式。

线性刻度基于加法,对数刻度基于乘法。

在线性刻度上,轴上的每个增量均表示值相同的距离。 例如,在下面的轴逻辑示意图中,轴上的每个增量通过加 10 增加。

线性刻度轴

在对数刻度上,增量按照量级增加。 在下面的轴逻辑示意图中,轴上的每个增量通过乘 10 增加。

对数刻度轴

注:

对数刻度无法显示负值或零。 如果您用对数刻度表示具有负值或零的变量,这些值将不会显示在图表上。

自适应轴边界

当使用格网选项显示多系列散点图时,可使用以下选项配置轴边界:

  • 固定 - 将全局最小和最大边界应用于所有迷你图表。
  • 自适应 - 针对每个迷你图表调整为局部最小和最大边界。

格网间隔

可以使用间隔控件配置 x 轴和 y 轴的格网间隔。 默认情况下,将自动计算格网间隔。

反向轴

可通过选中反向轴复选框反向散点图的各个轴。

数字格式

可以通过指定数字格式类别或定义自定义格式字符串来设置轴显示数值的格式。 例如,$#,### 可以用作自定义格式字符串来显示货币值。

外观

多个选项可以控制图表外观和相关设置。

标题和描述

图表和轴默认标题将基于变量名和图表类型给定。 可在图表属性窗格的常规选项卡上对此进行编辑。 您也可以为描述选项提供值,这是显示在图表窗口底部的文本块。

参考线

可将参考线或范围添加到图表,以此作为参考或突出显示重要值的方式。 要添加新参考线,请转至图表属性窗格中的参考线选项卡,然后选择是要绘制垂直还是水平参考线。 单击添加参考线按钮上的箭头,然后选择以下选项之一:

  • 创建固定值线或范围参考线 - 在固定位置处绘制线或范围参考线。 如果选择此选项,请在要绘制线的位置为提供一个值。 要创建一个范围,请提供一个值。
  • 创建数据驱动的参考线 - 绘制数据驱动的参考线。 如果选择此选项,请使用下拉列表以选择一个字段,该字段的值将用于计算参考线的位置。 选择一个聚合值以指定这些值的汇总方式。
  • 创建折线参考线 - 绘制折线参考线。 如果选择此选项,请编辑数据表以输入 x 和 y 值,由此确定绘制参考线的方式。 仅当两个轴均连续时,此选项才可用。
可以使用线颜色填充颜色颜色选取器来更改参考线样式,具体取决于参考线类型。 或者,可以通过指定标注值向参考线添加文本。 数据驱动的参考线将始终显示参考线值(基于字段值和聚合),并且此值将附加到为标注值提供的任何文本的末尾。

示例

以下散点图显示了医疗保险受益人中糖尿病和高血压之间的关系。 选择图表中的要素以查看其在地图上的位置。

  • X 轴 - 糖尿病发病率
  • Y 轴 - 高血压发病率

散点图示例