您可以微调“地址标准化”模型,使其适应您的地理区域。 与训练全新模型相比,微调现有模型所需的训练数据量更少,且节省计算资源和时间。
如果模型未能达到预期效果,我们推荐您尝试对模型进行微调。 当模型应用于未经训练的地理区域时,可能会出现上述情况。
您可以在 ArcGIS Pro 的 GeoAI 工具箱中提供的训练文本转换模型工具中微调此模型。
按照以下步骤微调模型:
- 从 ArcGIS Living Atlas of the World 下载地址标准化模型。
- 浏览至分析选项卡上的工具。
- 单击地理处理窗格中的工具箱选项卡,选择 GeoAI 工具,然后浏览至文本分析下的训练文本转换模型工具。
- 按照以下说明设置参数选项卡上的变量:
- 输入表 - 包含待转换文本以及用于训练模型的已转换目标文本的输入点、线或面要素类或表。
- 文本字段 - 输入要素类或表中的文本字段,其中包含待转换文本。
- 标注字段 - 输入要素类或表中的文本字段,其中包含用于训练模型的已转换目标文本。
- 预训练模型文件 - 选择预训练模型地址标准化的 .dlpk 文件。
- 输出模型 - 将存储经训练模型的输出文件夹位置。
- 最大轮数 - 100(取决于用于微调模型的迭代次数。 轮数是工具遍历数据所需进行的迭代次数。)
- 按照以下说明设置模型参数选项中的变量:
模型骨干(可选)- 指定要用作模型训练架构的预配置神经网络。
- 批量大小 - 一次处理的行数。 增加批量大小可以提高工具性能;但是随着批量大小增加,所用内存也将随之增加。
- 序列长度 - 为训练模型而考虑的训练数据(令牌化之后子单词级别)的最大序列长度。 默认值为 512。 这仅适用于具有 HuggingFace 转换器主干的模型。
- 使用高级选项以使结果更加准确:
- 学习率(可选)- 步长用于指示在训练过程中调整模型权重的大小。 如果未指定值,则将自动推断最佳学习率。
- 验证百分比(可选)- 将用于验证模型的训练样本的百分比。 默认值为 10。
- 当模型停止改进时停止(可选)- 指定模型训练是在模型不再改进时,还是在达到最大轮数值时停止。
- 移除 HTML 标签(可选)- 指定是否从输入文本中移除 HTML 标签。
- 移除 URL(可选)- 指定是否从输入文本中移除 URL。
- 在环境选项卡上设置变量,选择 CPU 或 GPU 作为处理器类型。
如果可以,建议您选择 GPU 并设置待使用 GPU 的 GPU ID。
- 单击运行。
输出模型将保存到所需位置。