从文档和文本中提取位置

作为 ArcGIS LocateXT 扩展模块的一部分,ArcGIS AllSource 提取位置窗格允许您扫描文档和文本以获取空间坐标和自定义位置。 打开要向其添加找到的位置的地图。 表示位置的点将存储在要素类中,同时作为图层添加到活动地图中。

打开“提取位置”窗格

ArcGIS AllSource 中的地图必须处于活动状态,才能打开提取位置窗格。

  1. 创建或打开地图。 例如,在地图选项卡的插入组中,单击新建地图
  2. 数据选项卡的工具组中,单击提取位置 提取位置,然后单击提取位置提取位置

    随即显示提取位置窗格。

提取位置

提取位置窗格中,可以在提取选项卡中指定以下内容:

  • 将进行扫描以获取位置的文件、文件夹或文本
  • 将创建或更新的地图图层的名称和输出要素类
  • 输出要素类(如创建)的坐标系

每次从文档或文本中提取位置时,都可以选择是否创建要素类并将新图层添加到活动地图、是否更新现有地图图层和要素类,或是否覆盖现有要素类。

将新图层添加到地图

创建要素类以存储提取的位置。 在活动地图中创建地图图层以显示要素类的内容。

  1. 打开提取位置窗格
  2. 执行以下操作之一为要创建的新地图图层和要素类提供名称:
    • 名称文本框中为新地图图层和要素类输入名称。 系统将在工程的默认地理数据库中使用该名称创建一个新的要素类。
    • 单击浏览按钮 浏览,在新建要素类对话框中,浏览到要在其中创建要素类或 shapefile 的位置。 在名称文本框内为新项目输入一个名称,然后单击保存
      警告:

      如果选择现有要素类而非提供新要素类的名称,则提取位置窗格中将出现一条警告。 现有要素类将被删除,且将创建一个具有相同名称的新要素类。 其他地图可能会受到影响。

  3. 单击坐标系下拉列表或选择坐标系按钮 坐标系,然后单击要用于输出要素类的坐标系。

    输入要素的坐标系统将分别在坐标选项卡自定义位置文件中指定。 找到的位置将转换为输出要素类的坐标系。

  4. 单击文件和文件夹选项卡,并指定要进行扫描以获取位置的项目。
    • 将文件和文件夹从 Windows 资源管理器拖到选项卡上。
    • 单击浏览,在添加文件和文件夹对话框中,浏览到相应的文件或文件夹并将其选中,然后单击确定。 单击添加更多,将文件和文件夹添加到列表中。
  5. 单击文本选项卡,并指定要进行扫描以获取位置的文本。
    • 从文档、电子邮件或网页中复制文本,然后将其粘贴到选项卡上。
    • 选择要在文档、电子邮件或网页中扫描的文本,然后将其拖至 ArcGIS AllSource 和该选项卡上。
  6. 必须至少指定一个文件或文件夹,或文本作为输入。 如果适用,可以一次性全部扫描完成。
  7. 单击提取

如有必要,可以随时取消该过程。 过程完成后,窗格底部会显示一条消息,指示操作是否已成功。

将创建指定要素类,且会将找到的位置作为点存储在要素类中。 引用要素类的地图图层将添加到活动地图中。 如果在文档和文本中未找到任何位置,则要素类和地图图层将为空。

注:

如果选择了覆盖先前添加到地图的现有要素类,则系统将创建一个新地图图层并将其添加到访问新要素类的地图中。

要从不同位置捕获的不同文档或文本中提取位置,请单击提取选项卡底部的清除所有输入。 所有文件都将从文件和文件夹选项卡的列表中移除,所有文本都将从文本选项卡中移除。 指定要处理的一组新项目。

更新地图中的现有图层

您可以逐步向现有要素类中添加位置。 例如,您每周都可以处理一组新报告,并将这些文件中的位置添加到现有集合中。 或者,在处理完一组示例文档后,如果对结果感到满意,即可处理其他文档并将这些位置添加到现有要素类中。

  1. 打开提取位置窗格。
  2. 单击名称下拉列表并单击要更新的现有地图图层。

    从文档和文本中提取的位置将添加到地图图层所引用的现有要素类中。 用于指定输出要素类的坐标系的控件将被禁用。

  3. 单击文件和文件夹选项卡,并指定要进行扫描以获取位置的项目。
  4. 单击文本选项卡,并指定要进行扫描以获取位置的文本。
  5. 单击提取

    字段匹配面板出现在提取位置窗格中。

  6. 指定现有图层属性表中的哪个字段将用于存储从文档和文本中提取的信息。

    可以在输出要素类中填充的完整字段集如下所述。

  7. 如果现有要素类中的任何字段都无法存储提取的信息,单击返回 后退,然后选择其他输出图层或改为创建图层。
  8. 如果对现有图层的字段与从文档和文本中提取的信息字段之间的匹配感到满意,请单击确定

如有必要,可以随时取消该过程。 过程完成后,窗格底部会显示一条消息,指示操作是否已成功。

如果在扫描文档和文本时找到位置,则会将这些位置添加到指定的要素类中。 将更新现有地图图层及其属性表以显示新位置。

查看提取的位置

扫描文档和文本并创建输出要素类后,输出地图图层将添加到地图中,且在目录窗格中处于选中状态。 单击找到的位置以了解其更多相关信息。 弹出窗口将显示已提取的位置,位置提取自哪个文档,以及从提供上下文的位置周围的文档中所提取的信息。 打开图层的属性表,以比较找到的所有位置。 在评估数据时,您可能删除当前范围以外的位置,或导出表示首要关注点的位置的子集。

提取位置窗格使用各种默认设置来识别最常用的位置。 当您已更深入了解数据中的位置时,可在属性选项卡上调整这些设置,以在输出字段中提取其他位置或更有针对性的信息。

了解用于提取位置和属性的设置

输出字段定义

创建用于存储已提取位置的新输出要素类时,要素类将包含以下默认字段以及通过自定义属性文件定义的任何其他字段。

了解自定义属性文件

字段名字段别名数据类型描述

Name

名称

文本 - 默认为 50 个字符

已处理文件的名称,或指示文本已处理的 Text。 大小由输出选项卡中的设置控制。

Pre_Text

前文本

文本 - 默认为 254 个字符

所找到的位置之前的文件或文本摘录。 大小由输出选项卡中的设置控制。

Ext_Text

已提取文本

文本 - 默认为 120 个字符

在文件或文本中找到的位置,例如,对于空间坐标,为 52.825°N, 169.944°W;对于将机场代码与空间坐标相关联的自定义位置,为 LAX。 大小由输出选项卡中的设置控制。

Ext_Type

已提取类型

文本 - 默认为 50 个字符

找到的位置的类型,例如,十进制度 (DD) 坐标。 找到自定义位置后,将记录在匹配的自定义位置文件中定义的位置。 大小由输出选项卡中的设置控制。

Post_Text

后文本

文本 - 默认为 254 个字符

位于找到位置之后的文件或文本的摘录。 大小由输出选项卡中的设置控制。

Precision

精度 (m)

长整型

对于空间坐标,位置的地面精度水平是精确的,以米为单位。 例如,十进制度坐标的小数位数越多,则越精确,且距离更小。

对于自定义位置,将原始文本与匹配位置进行比较时的不匹配字母数。 模糊匹配已禁用时,则需要精确匹配,且值为 0。 模糊匹配启用时,错误拼写的位置 Redalnds 匹配 Redlands,值为 2。

Std_Coord

标准 坐标

文字 - 30 个字符

提取的位置的标准化版本,例如 52.825000N 169.944000W。 坐标的格式由输出选项卡中的设置控制。

First_Date

第一个日期

日期

如果已提取日期,则为文件或文本中找到第一个日期。 否则,该字段包含空值。 只有介于输出选项卡中所指定范围内的日期才会被提取, 日期未设置为跳过,且尚未达到提取日期的数量限制

Early_Date

最早日期

日期

如果已提取日期,则为文件或文本中找到的最早的日期。 否则,该字段包含空值。 只有介于输出选项卡中所指定范围内的日期才会被提取, 日期未设置为跳过,且尚未达到提取日期的数量限制

Late_Date

最近日期

日期

如果已提取日期,则为文件或文本中找到的最近日期。 否则,该字段包含空值。 只有介于输出选项卡中所指定范围内的日期才会被提取, 日期未设置为跳过,且尚未达到提取日期的数量限制

All_Dates

所有日期

文本 - 默认为 254 个字符

如果已提取日期,则为文本中找到的所有日期的逗号分隔列表。 否则,该字段包含空值。 所有日期均以 yyyy-mm-dd 格式标准化。 只有介于输出选项卡中所指定范围内的日期才会被提取, 日期未设置为跳过,且尚未达到提取日期的数量限制。 如果以逗号分隔的日期列表对于此字段的大小来说过大,则列表将被截断。 大小由输出选项卡中的设置控制。

ExDateText

提取的日期文本

文本 - 默认为 254 个字符

在文件或文本中找到的日期,例如 2019 年 8 月 18 日或 2/3/2020。 如果以逗号分隔的日期列表对于此字段的大小来说过大,则列表将被截断。 大小由输出选项卡中的设置控制。

Filename

文件名

文本 - 默认为 254 个字符

已处理文件的完整路径,或者,对于已处理的文本,则为空值。 可以选择要处理或跳过的文件。 大小由输出选项卡中的设置控制。

File_Type

文件类型

文本 - 默认为 10 个字符

已处理文件的格式,或者,对于已处理的文本,则为空值。 可以选择处理特定的文件类型。 大小由输出选项卡中的设置控制。

Modified

已修改(UTC)

文字 - 20 个字符

文件的最近修改日期和时间,格式为 yyyy-mm-dd hh:mm:ss。

Scanned

已扫描(UTC)

文字 - 20 个字符

文件的处理日期和时间,格式为 yyyy-mm-dd hh:mm:ss。

评估结果

第一次扫描文档时,可能未能获取预期位置。 除了输出地图图层和要素类之外,还可以创建两个日志文件:扫描日志和无效坐标日志。 如果提供一个文档作为输入且已知该文档的内容,而输出要素类中创建的位置数与预期数量不匹配时,则可借助日志文件评估结果。

文档和文本已扫描结束且已创建输出要素类后,会在提取位置窗格底部显示一条消息,指示过程已成功完成。 此消息包含指向日志文件的临时链接。 要保留此链接以供日后查看,可打开文件并将其保存到永久位置,例如工程的主文件夹。 例如,添加与日志文件关联的地图图层或要素类的名称。

扫描日志

单击提取位置窗格底部消息内的查看扫描日志链接,以打开扫描日志文件。 对于扫描的每个文档,日志将指示以下信息:

  • 文档的文件名及其在本地或网络计算机上的位置
  • 如果适用,在扫描文档时还会显示一则小子,用于指示所遇到的问题
  • 找到的潜在位置的数量
  • 找到的唯一日期的数量

潜在位置是在文档内容中找到的文本,类似于空间坐标或自定义位置。 将文本作为输入提供时,扫描日志中不会提供文件名和位置,但日志文件中的其余信息都是相同的。

例如,如果预期提取九个位置但仅将六个位置创建为输出,则扫描日志可以清楚展示所发生的情况。 日志可能仅指示根据提取位置窗格中的当前设置找到的六个可能位置。 日志还可能指示找到的日期数多于预期 - 可能之前将坐标解释为日期。 再次尝试从文档中提取位置之前调整设置。

无效坐标日志

如果已对潜在位置进行评估且发现其无效,则会创建无效坐标日志。 单击查看错误坐标日志以将其打开。

无效坐标日志表示出现以下情况:

  • 找到的潜在位置所在的文件
  • 确定将成为潜在位置的原始文本
  • 用于评估位置的坐标格式

例如,如果找到纬度和经度坐标,但坐标的纬度大于 90 度,则视为该坐标无效。 您可能会发现对文档中潜在位置进行评估时所使用的坐标格式与预期格式不同。 再次尝试从文档中提取位置之前调整设置。

如果您发现无效坐标没有用,可以坐标选项卡上取消选中记录无效坐标,以不再记录正在使用的空间坐标格式的无效坐标。