回归分析

Insights in ArcGIS Online
Insights in ArcGIS Enterprise
Insights 桌面版

回归分析是一种分析技术,用于计算因变量与一个或多个解释变量之间的估算关系。 借助回归分析,可以对所选变量之间的关系进行建模,并根据模型预测值。

回归分析概述

回归分析使用所选估算方法、一个因变量以及一个或多个解释变量来创建用于估算因变量值的方程。

回归模型包括输出,例如 R2 和 p 值,以提供有关模型对因变量估算能力的信息。

图表(例如散点图矩阵直方图点图)也可以用于回归分析,以分析关系和测试假设。

回归分析可用于解决以下类型的问题:

  • 确定与因变量相关的解释变量。
  • 理解因变量和解释变量之间的关系。
  • 预测因变量的未知值。

示例

一家小型连锁零售店的分析人员正在研究不同位置的商店的绩效。 该分析人员想知道为什么一些商店的销量低得出乎意料。 该分析人员将使用解释变量(例如周围居民区中居民的年龄和收入中位数以及到零售中心和公共交通的距离)创建回归模型以确定影响销售的变量。

一家教育部门的分析人员正在研究学校早餐计划的效果。 该分析人员将使用解释变量(例如班级规模、家庭收入、人均学校预算和每日吃早餐的学生比例)创建教育程度结果(例如毕业率)的回归模型。 此模型的方程可用于确定每个变量对教育程度结果的相对影响。

一家非政府组织的分析人员正在研究全球温室气体排放量。 该分析人员将使用诸如国内生产总值 (GDP)、人口、使用化石燃料的电力生产和车辆使用等解释变量创建各国最新排放量的回归模型。 然后,可以使用该模型通过预测的 GDP 和人口值来预测未来的温室气体排放量。

普通最小二乘法

使用普通最小二乘法 (OLS) 对 ArcGIS Insights 中的回归分析进行建模。

OLS 方法是多元线性回归的一种形式,即因变量和自变量之间的关系必须通过将线性方程拟合到观测数据来进行建模。

OLS 模型可使用以下方程:

yi = β0 + β1 x 1 + β2 x 2+...+βn x n + ε

其中:

  • yi = 点 i 处的因变量的观测值
  • β0 = y 截距(常量值)
  • βn = 点 i 处的解释变量 N 的回归系数或斜率
  • xn = 点 i 处的变量 N 的值
  • ε = 回归方程的误差

假设

每个回归方法都有多个假设,必须满足这些假设,此方程才可视为可靠。 创建回归模型时,应验证 OLS 假设。

使用 OLS 方法时,应测试并满足以下假设:

模型必须为线性模型

OLS 回归只能用于创建线性模型。 可以使用散点图来测试因变量和解释变量之间的线性。 如果变量总计不超过 5 个,则散点图矩阵可以测试所有变量。

数据必须进行随机采样

回归分析中使用的数据应以样本自身不依赖于任何外部因素的方式进行采样。 可以使用回归模型中的残差对随机采样进行测试。 在散点图散点图矩阵上针对解释变量进行绘制时,残差(回归模型的输出)应不具有相关性。

解释变量不得共线

共线性是指解释变量之间的线性关系,它将在模型中创建冗余。 在某些情况下,可使用共线性创建模型。 但是,如果其中一个共线变量似乎依赖于另一个共线变量,则可能要考虑从模型中删除该变量。 可以使用解释变量的散点图散点图矩阵来测试共线性。

解释变量的测量误差必须可忽略不计

回归模型仅与其输入数据同样精确。 如果解释变量的误差幅度较大,则无法接受该模型为精确。 执行回归分析时,仅使用来自已知受信任来源的数据集以确保误差可忽略不计是非常重要的。

残差的预期总和为零

残差是回归分析中观测值与估计值之间的差值。 落在回归曲线以上的观测值将具有正残差值,而落在回归曲线以下的观测值将具有负残差值。 回归曲线应位于沿数据点中心的位置;因此,残差的总和应为零。 可以在汇总表中计算字段的总和。

残差具有齐质方差

所有残差应具有相同的方差。 可以使用残差(y 轴)和估计值(x 轴)的散点图来测试该假设。 生成的散点图应显示为整个图中随机绘制的点组成一个水平带。

残差为正态分布

正态分布也称为钟形曲线,是自然产生的分布,其中现象的频率略高于平均值,并且随着与平均值距离的增大而逐渐减小。 正态分布通常用作统计分析中的零假设。 残差必须为正态分布,才能显示最佳拟合线在观测的数据点内集中优化,而不是偏斜一些数据点并远离其他数据点。 可以通过创建具有残差的直方图来测试该假设。 可以叠加正态分布曲线,然后在直方图卡片的背面报告偏度和峰度测量值。

相邻残差不得显示自相关

此假设基于按时间排序的数据。 如果数据按时间排序,则每个数据点必须独立于前一个或后一个数据点。 因此,执行回归分析时,确保按正确的顺序来组织按时间排序的数据十分重要。 可以使用德宾-沃森检验来计算该假设。

德宾-沃森检验是针对回归模型中残差的自相关进行的测量。 德宾-沃森检验使用 0 到 4 级别,值为 0 到 2 表示正自相关,值为 2 表示无自相关,值为 2 到 4 表示负自相关。 因此,需要接近 2 的值以满足残差中无自相关的假设。 通常,1.5 到 2.5 之间的值被视为可接受值,而小于 1.5 或大于 2.5 的值表示该模型不符合无自相关性的假设。

模型有效性

回归方程的精确性是回归分析的一个重要部分。 所有模型都将包含大量误差,但是了解统计数据可帮助您确定模型是否可用于分析,或者是否需要进行调整。

有两种确定回归模型有效性的方法:探索性分析验证性分析

探索性分析

探索性分析是一种使用多种不同的可视化和统计技术来理解数据的方法。 在整个探索性分析过程中,您将测试 OLS 回归的假设并比较不同解释变量的有效性。 探索性分析允许您比较不同模型的有效性和准确性,但它并不决定您是否应使用或拒绝模型。 应在每个回归模型的验证性分析之前进行探索性分析,并重复执行分析以在模型之间进行比较。

以下图表和统计数据可用作探索性分析的一部分:

  • 散点图和散点图矩阵
  • 直方图和正态分布
  • 回归方程和预测新的观测点
  • 判决系数,R2 和校正的 R2
  • 标准残差
  • 点图

在选择解释变量和创建回归模型之前,应先进行探索性分析。 由于 OLS 是一种线性回归方法,因此其中一项主要假设为模型必须为线性模型。 散点图或散点图矩阵可用于评估因变量与解释变量之间的线性相关性。 散点图矩阵可以显示最多四个解释变量以及因变量,使其成为在所有变量之间进行大规模比较的重要工具。 单个散点图仅显示两个变量:一个是因变量,另一个是自变量或解释变量。 查看因变量和单个解释变量的散点图,使您可以更精确地评估变量之间的关系。 在创建回归模型之前,可以测试线性相关性,以帮助确定哪些解释变量将创建可接受模型。

创建回归模型后,可以使用多个统计输出,包括回归方程、R2 值和德宾-沃森检验。 创建回归模型后,应使用输出和必要的图表和表格来测试其余的 OLS 回归假设。 如果您的模型符合假设,则可以继续进行其余的探索性分析。

回归方程给出了每个解释变量对预测值影响的有价值的信息,包括每个解释变量的回归系数。 可以对斜率值进行比较,以确定每个解释变量对因变量的相对影响;斜率值离零(正数或负数)越远,影响越大。 回归方程还可以通过输入每个解释变量的值来预测因变量的值。

判决系数(符号化为 R2)可测量回归方程对实际数据点的建模程度。 R2 值是介于 0 和 1 之间的数字,其值越接近 1,则表示模型越精确。 R2 值为 1 表示模型完美,考虑到不同因素和未知变量之间相互作用的复杂性,这在实际情况中几乎不可能存在。 因此,您应该力求使用尽可能最高的 R2 值来创建回归模型,但要认识到该值可能不会接近 1。

执行回归分析时,通过添加解释变量来创建具有可接受的 R2 值的回归模型存在一定的风险,这些解释变量可仅基于概率产生更好的拟合。 校正 R2 值也将介于 0 和 1 之间,考虑附加解释变量,由此降低了概率在计算中的作用。 校正 R2 应该用于使用许多解释变量的模型,或者用于比较具有不同数量的解释变量的多个模型。

标准残差用于测量回归模型使用新数据预测值的准确性。 数值越小表示模型越精确;因此,当对多个模型进行比较时,具有最小值的模型将是最小化标准残差的模型。

点图可用于分析您的解释变量的模式,如集群和异常值,这可能会影响模型的准确性。

验证性分析

验证性分析是针对零假设测试模型的过程。 在回归分析中,零假设是指因变量与解释变量之间无关系。 无关系的模型的斜率值为 0。 如果验证性分析的要素具有统计显著性,则可以拒绝零假设(换言之,统计显著性表明因变量与解释变量之间存在关系)。

以下统计输出用于确定作为验证分析一部分的显著性:

  • F 统计量及其相关联的 p 值
  • t 统计量及其相关联的 p 值
  • 置信区间

F 统计量是从 F 检验返回的全局统计量,它通过确定模型中的所有回归系数与 0 的差异是否显著来表明回归模型的预测功能。 F 检验分析解释变量的综合影响,而不是单独检验解释变量。 F 统计量具有相关联的 p 值,表明数据中的关系偶然发生的概率。 由于 p 值基于概率,因此这些值介于 0.0 到 1.0 之间。 需要一个小 p 值(通常为 0.05 或更小)来确定模型中的关系是否真实(换言之,非偶然发生),并拒绝零假设。 在这种情况下,模型中的关系偶然发生的概率为 0.05 或 1/20。 或者,这些关系为真实的概率是 0.95 或 19/20。

t 统计量是从 t 检验返回的局部统计量,它分别表示每个解释变量的预测功能。 与 F 检验一样,t 检验将分析模型中的回归系数与零的差异是否显著。 但是,由于对每个解释变量都执行 t 检验,所以模型将为每个解释变量返回一个 t 统计值,而不是每个模型返回一个。 每个 t 统计量都有一个相关联的 p 值,表示解释变量的显著性。 与 F 检验的 p 值一样,每个 t 检验的 p 值应为 0.05 或更小,以拒绝零假设。 如果解释变量的 p 值大于 0.05,则即使全局 p 值显著,也应丢弃该变量并创建新模型。

置信区间显示了每个解释变量的回归系数以及相关联的 90%、95% 和 99% 的置信区间。 因此,置信区间可以与 t 检验的 p 值一起用于评估单个解释变量的零假设。 如果要拒绝零假设并继续使用该模型,则回归系数不得等于 0。 因此,对于每个解释变量,回归系数和相关联的置信区间不应与 0 重叠。如果给定解释变量的 99% 或 95% 的置信区间与 0 重叠,则解释变量无法拒绝零假设。 在模型中包含此类变量可能会影响模型的整体显著性。 如果只有 90% 的置信区间与 0 重叠,则在其他全局统计数据显著的情况下,解释变量可能包含于模型中。 理想情况下,所有解释变量的置信区间都应远离 0。

其他输出

其他输出(如估计值和残差)对于检验 OLS 回归的假设非常重要。 在本节中,您将了解有关如何计算这些值的详细信息。

估计值

使用回归方程和每个解释变量的值来计算估计值。 理想情况下,估计值将等于观测值(换言之,因变量的实际值)。

估计值与观测值一起用于计算残差。

残差

回归分析中的残差值是数据集中观测值与使用回归方程计算的估算值之间的差值。

具有残差值和最佳拟合线的散点图

上述关系的残差 A 和 B 计算如下:

残差 A = 观测值 A - 估计值 A 残差 A = 595 - 487.62 残差 A = 107.38
残差 B = 观测值 B - 估计值 B 残差 B = 392 - 527.27 残差 B = -135.27

残差可用于计算回归方程中的误差以及测试多个假设。