广义线性回归

大数据分析中的可用工具图标

“广义线性回归”工具 “广义线性回归”工具 将执行广义线性回归 (GLR) 以生成预测,或对因变量与一组解释变量的关系进行建模。 此工具可用于拟合连续(高斯)、计数(泊松)和二进制(逻辑)模型类型。

工作流示意图

广义线性回归工作流示意图

示例

作为大城市的分析师,您可以访问过去的 911 通话记录以及人口统计信息。 您需要回答以下问题:哪些变量可有效预测 911 呼叫数? 根据未来的预测,针对应急响应资源的预期需求会是什么?

用法说明

使用“广义线性回归”工具时,请牢记以下内容:

  • 此工具可以配置为执行以下两个操作方法之一:
    • 方法 1 - 如果只提供目标(训练)数据,那么工具将拟合模型来评估模型性能。 探索不同的解释变量和工具设置时,您可以通过此工具来评估不同模型的性能。
    • 方法 2 - 当您确定了较好的模型和解释变量后,将模型配置为也提供连接(预测)数据。 配置连接数据后,该工具将根据映射的解释变量为您的连接(预测)数据中的要素预测因变量值。
  • 使用因变量参数从目标输入图层(训练数据)中选择一个字段,代表您正在建模的现象。 使用解释变量参数从目标输入图层(训练数据)中选择一个或多个字段,代表解释变量。 这些字段必须为数字且具有值范围。 因变量或解释变量中包含缺失值的要素将从分析中排除。 要修改空值,请在更新值之前使用计算字段工具。
  • 广义线性回归工具还会生成输出要素和诊断。 输出要素图层会自动会对模型残差应用渲染方案。 下面提供了有关各输出的完整说明。
  • 要想获得准确的回归分析结果,必须使用正确的模型类型(连续(高斯)计数(泊松)二进制(逻辑))进行分析。
  • 模型汇总结果和诊断结果会写入分析日志以及输出要素图层的项目详细信息页面。 这些诊断包括广义线性回归模型的汇总和统计汇总,用于评估模型是否拟合数据。 报告的诊断取决于所选的模型类型。 模型类型的三个选项如下:
    • 连续(高斯) - 如果因变量可以采用温度或总销售额等大范围的值,则请使用此类型。 理想情况下,因变量将是正态分布的。
    • 计数(泊松)如果因变量是离散的,并且表示事件的出现次数(如犯罪数量),则应使用此类型。 如果因变量表示一个比率,并且该比率的分母是固定值(如每月销售额或每 10,000 人口中患癌症的人数),则也可以使用计数模型。 计数(泊松)模型类型假设因变量的均值和方差相等,并且因变量的值不能为负数或包含小数。
    • 二进制(逻辑)- 如果因变量可以采用两个可能值中的一个(如成功或失败,或者存在或不存在),则请使用此类型。 包含因变量的字段必须为数字且仅包含 1 和 0。 数据中的 1 和 0 必须存在变化。
  • 因变量解释变量参数应为包含值范围的数值型字段。 如果变量值均相等(例如,如果某字段的所有值均为 9.0),则此工具将无法求解。
  • 在预测或解释字段中具有一个或多个空值或空字符串值的要素将从输出中排除。 如有必要,可以使用计算字段工具对值进行修改。
  • 从视觉上检查回归残差中明显的预测过度和预测不足,从而挖掘出回归模型中是否可能发生变量丢失的线索。
  • 可以使用已创建的回归模型对其他要素进行预测。 要创建这些预测,每个预测要素(连接数据集)都应包含每个所指定的解释变量的对应值。 将提供一个解释变量映射配置,用于从目标(训练)要素和连接(预测)要素中映射解释变量字段名称。 当匹配解释变量字段时,目标(训练数据)和连接(预测数据)要素中的字段必须属于同一类型(例如,双精度字段必须与双精度字段匹配)。

参数

以下是“广义线性回归”工具的参数:

参数描述数据类型

目标输入图层(训练数据)

用于生成模型的训练要素。

要素

连接输入图层(预测数据)

(可选)

根据指定的解释变量和模型类型对因变量进行预测的预测要素。

设置此参数属于可选操作。 如果未指定,广义线性回归工具将根据训练数据拟合模型以评估模型性能。

要素

模型类型

指定要使用的模型类型。 选择的模型类型取决于因变量字段的数据类型。 模型类型选项包括:

  • 连续(高斯) - 如果因变量可以采用温度或总销售额等大范围的值,则请选择此类型。
  • 计数(泊松) - 如果因变量是离散的,并且表示事件的出现次数(如犯罪数量或犯罪率,犯罪率的分母为固定值),则选择此类型。
  • 二进制(逻辑)- 如果因变量可以采用两个可能值中的一个(如成功或失败,或者存在或不存在),则请选择此类型。

字符串

因变量

指定表示正在进行建模的现象的字段。

FieldName

文本到零映射

对于二进制(逻辑)模型类型,如果为因变量指定了字符串字段,则此参数可以用来指定因变量中要转换为零的字符串。

字符串

文本到一映射

对于二进制(逻辑)模型类型,如果为因变量指定了字符串字段,则此参数可以用来指定因变量中要转换为一的字符串。

字符串

解释变量

从目标方案中选择一个或多个字段,以表示回归模型中的独立解释变量。

FieldNames

解释变量映射(仅限预测)

将目标(训练)方案中的选定解释变量字段名称映射到连接(预测)方案中的相应字段名称。

设置此参数属于可选操作。 只有在指定了连接(预测)数据的情况下,才需要指定解释变量映射。

ExplanatoryVariableMappings

输出图层

广义线性回归工具会生成各种输出。 在输出要素图层的项目详细信息页面或分析日志中可以看到广义线性回归模型的汇总和统计汇总。

如果实现本工具的方法 1 仅拟合模型以评估性能,那么除了分析日志中的结果外,训练数据将是输出,同时包括输出要素图层的详细信息页面中可用的消息和诊断。

如果实现本工具的方法 2 来拟合模型并预测值,那么预测数据将是输出,除了分析日志中的结果外,还将附加预测值,以及输出要素图层的项目详细信息页面中可用的消息和诊断。

生成的诊断取决于输入要素的模型类型,如下所述。

连续(高斯)

解释消息和诊断

  • AIC - 可用于检验模型性能并比较回归模型。 考虑到模型复杂性,具有较低 AIC 值的模型将更好地拟合观测数据。 AIC 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。 如果两个模型的 AIC 值相差大于 3,具有较低 AIC 值的模型将被视为更精确。
  • AICc - AICc 对 AIC 应用偏差校正,适用于小样本大小。 随着输入要素数量的增加,AICc 将接近 AIC。 有关 AIC,请参阅以上内容。
  • 多重可决系数 (Multiple R-Squared) - 可决系数 (R-Squared) 可用于检验拟合度。 其值在 0.0 和 1.0 之间变化,较高的数值更适合。 此值可解释为回归模型所涵盖的因变量方差的比例。 可决系数 (R-Squared) 计算的分母为因变量值平方和。 在模型中增加一个额外的解释变量并不会改变分母,但会改变分子;这可能造成模型拟合度提高的印象,但可能不是真实的。 请参阅下文中的校正可决系数。
  • 校正可决系数 - 由于上述可决系数值问题,校正可决系数值的计算将按分子和分母的自由度对它们进行归一化。 这具有对模型中变量数进行补偿的效果,因此校正可决系数 (Adjusted R-Squared) 值通常小于可决系数值。 然而,在进行这种调整时,您失去了该值作为可解释方差比例的解释。 在地理加权回归 (GWR) 中,自由度的有效值是所使用邻域的函数,因此与全局模型(如 GLR)相比,校正程度可能非常明显。 因此,AICc 是对模型进行比较的首选方式。

计数(泊松)

解释消息和诊断

  • AIC - 可用于检验模型性能并比较回归模型。 考虑到模型复杂性,具有较低 AIC 值的模型将更好地拟合观测数据。 AIC 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。 如果两个模型的 AIC 值相差大于 3,具有较低 AIC 值的模型将被视为更精确。
  • AICc - AICc 对 AIC 应用偏差校正,适用于小样本大小。 随着输入要素数量的增加,AICc 将接近 AIC。 有关 AIC,请参阅以上内容。

二进制(逻辑)

解释消息和诊断

  • AIC - 可用于检验模型性能并比较回归模型。 考虑到模型复杂性,具有较低 AIC 值的模型将更好地拟合观测数据。 AIC 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。 如果两个模型的 AIC 值相差大于 3,具有较低 AIC 值的模型将被视为更精确。
  • AICc - AICc 对 AIC 应用偏差校正,适用于小样本大小。 随着输入要素数量的增加,AICc 将接近 AIC。 有关 AIC,请参阅以上内容。

注意事项和限制

广义线性回归的 ArcGIS Velocity 实施具有以下限制:

  • 它是一种全局回归模型,不考虑数据的空间分布。
  • 分析不适用于将 Moran's I 检验应用于残差。
  • 支持将点、线、面和表作为目标(训练数据)数据集几何。
  • 您无法将值分类为多个类。