基于森林的分类与回归

大数据分析中的可用工具图标

“基于森林的分类与回归”工具 “基于森林的分类与回归”工具 可使用 Leo Breiman 随机森林算法(一种监督式机器学习方法)的改编版本创建模型并生成预测 可以针对分类变量(分类)和连续变量(回归)执行预测。 解释变量可采用训练要素属性表中字段的形式。 除了基于训练数据对模型性能进行验证之外,还可以对要素进行预测。

工作流示意图

基于森林的分类与回归工作流示意图

示例

以下是“基于森林的分类与回归”工具的用例:

  • 给出有关海草是否存在的数据以及许多环境解释变量,除了距上游工厂和主要港口的距离之外,还可以根据对这些相同环境解释变量的预测来预测未来海草是否存在。
  • 可根据当年已售房屋的价格来预测房屋价值。 可使用已售房屋的售价以及有关卧室数量、距学校的距离、与主要高速公路的接近度、平均收入和犯罪计数的信息预测类似房屋的售价。
  • 给出有关儿童血铅水平及其住宅的征税宗地 ID 的信息,结合宗地属性(例如房屋年龄)、人口普查数据(例如收入和教育水平)和反映铅和铅化合物的毒物排放的国家数据集,可以预测没有血铅水平数据的宗地的铅暴露风险。 此类风险预测可能会告知该地区的政策和教育计划。

用法说明

使用“基于森林的分类与回归”工具时,请谨记以下信息:

  • 此工具可以配置为执行以下两个操作方法之一:
    • 方法 1 - 如果只提供目标(训练)数据,则工具将训练模型来评估模型性能。 探索不同的解释变量和工具设置时,可以使用此选项来评估配置的性能。
    • 方法 2 - 确定了较好的模型和解释变量后,请将模型配置为也提供连接(预测)数据。 配置连接(预测)数据后,该工具将根据映射的解释变量为您的连接(预测)数据中的要素预测指定的变量值。
  • 使用要预测的变量参数从目标输入管道(训练数据)中选择一个字段,代表正在建模的现象。 使用解释变量参数从目标输入管道(训练数据)中选择一个或多个字段,代表解释变量。 这些字段必须为数值或分类字段且具有值范围。 因变量或解释变量中包含缺失值的要素将从分析中排除。 如果要修改空值,请在更新值之前使用计算字段工具。
  • 解释变量可以来自字段,应包含各种值。 如果解释变量为分类变量,应选中分类复选框。 尽管较小的类别数量可改善模型性能,但分类解释变量限于 60 个唯一值。 对于给定的数据大小,变量所包含的类别越多,则其影响模型的可能性越大,从而导致预测结果的有效性越低。
  • 对解释变量进行匹配时,目标(训练数据)字段和连接(预测数据)字段必须具有相同类型的字段(例如,训练字段中的双精度字段必须与预测字段中的双精度字段相匹配)。
  • 基于森林的模型不会进行外推;它们只能对训练模型时基于的值进行分类或预测。 使用在目标要素和变量范围内的训练要素和解释变量来训练模型。 如果类别存在于训练要素中不存在的预测解释变量中,则该工具将失败。
  • 树数参数的默认值为 100。 增加森林模型中的树数将使模型预测更加精准,但是将增加模型计算的时间。
  • “基于森林的分类与回归”工具还会生成输出要素和诊断信息。 输出要素图层会自动应用渲染方案。 下面的输出图层中提供了有关各输出的完整说明。
  • 在预测或解释字段中具有一个或多个空值或空字符串值的要素将从输出中排除。 如有必要,可以使用计算字段工具对值进行修改。
  • 要了解有关此工具工作原理的详细信息以及此实施所基于的 ArcGIS Pro 地理处理工具,请参阅基于森林的分类与回归工作原理

参数

以下是“基于森林的分类与回归”工具的参数:

参数描述数据类型

目标输入图层(训练数据)

用于生成模型的训练要素。 包含要预测的变量参数以及解释训练变量字段的管道。

要素

连接输入图层(预测数据)

(可选)

根据指定的解释变量和参数对要预测的变量进行预测的预测要素。

设置此参数属于可选操作。 如果未指定,则“基于森林的分类与回归”工具将根据训练数据拟合模型以评估模型性能。

要素

要预测的变量

目标输入图层(训练数据)管道中的变量,其中包含要用于训练模型的值。 该字段包含将用于在未知位置进行预测的变量的已知(训练)值。

FieldName

将变量视为分类变量

指定要预测的变量是否为分类变量。

  • 选中 - 要预测的变量为分类变量,并且此工具将执行分类。
  • 未选中 - 要预测的变量为连续变量,并且此工具将执行回归。 这是默认设置。

布尔

解释变量

表示解释变量的字段列表,可帮助预测要预测的变量的值或类别。 对于任何表示类或类别(例如土地覆被或存在/不存在)的变量,请选中分类复选框。

ExplanatoryVariablesConfiguration

解释变量映射(仅限预测)

将目标(训练)方案中的选定解释变量字段名称映射到连接(预测)方案中的相应字段名称。

设置此参数属于可选操作。 只有在指定了连接(预测)数据的情况下,才需要指定解释变量映射。

ExplanatoryVariableMappings

树数

要在森林模型中创建的树的数量。 增大树数通常将产生更加精确的模型预测,但是将增加模型计算的时间。 默认树数为 100

整型

最小叶子大小

保留叶子(即未进一步进行分割的树上的终端节点)所需的最小观测值数。 回归的默认最小值为 5,分类的默认值为 1。 对于非常大的数据,增大这些值将减小工具的运行时间。

整型

树最大深度

对树进行的最大分割数。 如果使用较大的最大深度,则将创建更多分割,这可能会增大过度拟合模型的可能性。 默认值由数据驱动,并且取决于所创建的树数以及所包含的变量数。

整型

采样大小

用于每棵决策树的目标输入图层(训练数据)的百分比。 默认值为 100% 的数据。 将根据指定数据的三分之二随机获取每棵树的样本。

可以使用可用训练数据的随机样本或子集(大约三分之二)来创建森林中的每棵决策树。 如果用于每个决策树的输入数据百分比较低,则对于非常大的数据集,将会提高工具速度。

整型

随机变量

用于创建每棵决策树的解释变量数。

森林中的每个决策树都是使用指定解释变量的随机子集创建的。 增大每棵决策树中使用的变量数将增大过度拟合模型的可能性,尤其是存在一个或多个主导变量时更是如此。 常用方法是:如果要预测的变量为数值,则使用解释变量总数的平方根;如果要预测的变量为分类变量,则将解释变量的总数除以 3。

字符串

验证的百分比

要保留为验证测试数据集的目标输入训练要素的百分比(介于 10% 和 50% 之间)。 将在没有此随机数据子集的情况下对模型进行训练,并将这些要素的观测值与预测值进行比较。 默认值为 10%。

整型

输出图层

“基于森林的分类与回归”工具会生成各种输出。 在输出要素图层的项目详细信息页面或分析日志中可以看到基于森林的分类与回归模型的汇总和统计汇总。

如果实施上述方法 1 来训练模型以评估模型性能(仅提供给工具训练数据),该工具会生成以下两个输出:

  • 输出已训练要素 - 包含创建的模型中使用的所有训练要素(目标方案)以及模型中使用的所有解释变量。 还包含用于训练模型的所有要素的预测,这对于评估所创建模型的性能非常有用。
  • 工具汇总消息 - 用于帮助了解所创建模型的性能的消息。 这些消息包括有关模型要素、袋外误差、变量重要性以及验证诊断的信息。 要访问结果汇总,请查看分析日志或要素图层输出项目详细信息页面(其中也提供了汇总信息)。

如果实施上述方法 2 来拟合模型并预测值(提供给工具训练和预测数据),该工具会生成以下两个输出:

  • 输出预测要素 - 预测结果图层。 将预测应用于图层以使用从训练图层生成的模型进行预测(预测连接方案数据的值)。
  • 工具汇总消息 - 用于帮助了解所创建模型的性能的消息。 这些消息包括有关模型要素、袋外误差、变量重要性以及验证诊断的信息。 要访问结果汇总,请查看分析日志或要素图层输出项目详细信息页面(其中也提供了汇总信息)。

注意事项和限制

支持用于训练数据的单数据管道和用于预测数据的单数据管道。