可以使用“创建回归模型”,通过将线性方程拟合到观测数据来对两个或多个解释变量与响应变量之间的关系进行建模。 每个自变量 (x) 的值都与因变量 (y) 的值相关联。
“创建回归模型”将使用普通最小二乘法 (OLS) 作为回归类型。
示例
一家环保组织正在研究 1990 年至 2015 年间各国温室气体排放的原因。 “创建回归模型”可用于创建方程式,该方程式根据诸如人口和国内生产总值 (GDP) 等解释变量来评估每个国家/地区的温室气体排放量。
使用“创建回归模型”功能
请使用以下步骤运行“创建回归模型”分析功能:
- 使用要用于创建回归模型的数据集来创建地图、图表或表。
- 单击操作按钮 。
- 执行以下操作之一:
- 如果卡片为图表或表,请单击分析窗格中的关联方式。
- 如果卡片为地图,请单击查找答案选项卡,然后单击关联方式。
- 单击创建回归模型。
- 对于选择图层,选择要用于创建回归模型的数据集。
- 对于选择因变量,选择要使用模型来说明的字段。 该字段必须为数值或比例/比率。
- 单击选择解释变量以显示可用字段的菜单。
- 选择要用作解释变量的字段(也称为自变量)。
- 单击选择以应用解释变量。
- 单击可视化按钮,以查看因变量和解释变量的散点图或散点图矩阵(如果可用)。 散点图可以用作模型探索性分析的一部分。
注:
如果选择 5 个或更多解释变量,则可视化按钮将不可用。
- 单击运行。
将为您选择的因变量和解释变量创建回归模型。 现在,可以使用输出和统计数据,通过探索性和验证性分析来继续验证模型有效性。
用法说明
可以使用查找答案选项卡中关联方式下的操作按钮 查找“创建回归模型”。
可以选择一个数值或比例/比率字段作为因变量。 因变量是您尝试使用回归模型进行解释的数值字段。 例如,如果您要创建回归模型以确定儿童死亡的原因,则儿童死亡率将为因变量。
最多可以选择 20 个数值或比例/比率字段作为解释变量。 解释变量是自变量,可以选择其作为回归模型的一部分来解释因变量。 例如,如果您要创建回归模型以确定儿童死亡的原因,则解释变量可能包含贫困率、发病率和疫苗接种率。 如果所选解释变量的数量为 4 或更少,则可以通过单击可视化来创建散点图或散点图矩阵。
模型统计数据下方将提供以下输出值:
- 回归方程
- R2
- 校正 R2
- 德宾-沃森检验
- p 值
- 标准残差
- F 统计
输出和统计数据可用于分析模型的精度。
创建模型后,会将新的函数数据集添加到数据窗格。 该函数数据集可用于预测变量功能中。 “创建回归模型”还会创建一个结果数据集,其中包含来自输入的所有字段以及 estimated、residual 和 standardized_residual 字段。 字段包含以下信息:
- estimated- 由回归模型估计的因变量的值
- residual- 原始字段值与因变量估计值之间的差值
- standardized_residual- 残差与残差标准差的比率
创建回归模型的工作原理
如果满足以下假设,则可创建普通最小二乘法模型:
- 该模型在参数中必须是线性的。
- 数据是人口的随机样本。
- 自变量不具有强共线性。
- 将精确测量自变量,以使测量误差可以忽略不计。
- 残差的预期值始终为零。
- 残差具有恒定方差(均匀方差)。
- 残差为正态分布。
即使不满足一个或多个假设,“创建回归模型”通常仍会成功运行。 因此,在使用“创建回归模型”之前,应对 OLS 的假设进行测试。 如果假设不满足,则模型可能无效。
如果不满足第三个假设(自变量非强共线),则无法创建模型。 在这种情况下,将显示消息两个或多个解释变量相关。 请移除共线变量之一,然后重试。 可以使用散点图或散点图矩阵来确定共线变量。 共线变量将具有线性关系,并且其中一个变量将对另一个变量具有强依赖关系。 请从模型中移除线性因变量。
有关 OLS 模型假设的详细信息,请参阅回归分析。