调整提取位置和属性的方式

在 LocateXT 许可等级下可用。

扫描一组文档或文本并评估结果后,您可能需要调整提取的内容以及评估内容的方式。 在文档广泛且格式多变的情况下,所使用的方法与文档集合多样、格式已知且文档中包含半结构化信息的情况下使用的方法是不同的。

提取位置窗格使用各种专用默认设置来识别最常用的位置并支持提取最近的日期。 当您更好地了解文档或文本的内容时,可以调整这些设置并优化提取的信息。 这些设置可以在属性选项卡上进行调整。

默认设置集合与默认非结构化数据模板相关联。 确定最适合文档集合或特定格式文本的设置后,可以将它们保存到自定义模板中。 当您在集合或相似文本中收到新一批次的文档时,请使用模板。

了解关于用于提取位置的模板的详细信息

选项

默认情况下,当您单击属性选项卡时,将选择选项选项卡 选项。 它允许您打开或关闭与输入文档或文本中提取的信息类别相关联的开关,并允许您选择该信息的处理方式。 它还允许您指定输出地图图层将使用的符号。

  • 提取位置
    • 坐标 - 坐标开关默认处于打开状态。 扫描文档时,会检查它们的空间坐标。 将在输出要素类中创建点,以表示找到的每个位置。
    • 自定义位置 - 默认情况下,自定义位置开关处于关闭状态。 扫描文档时,将检查它们是否包含自定义位置文件中指定的地名。 自定义位置文件会将地名与空间坐标相关联。 将在输出要素类中创建点,以表示找到的每个位置。
    • 模糊匹配 - 默认情况下,模糊匹配开关处于关闭状态。 当您查找自定义位置时,可以使用模糊匹配将输入文档的内容与自定义位置进行比较,例如,考虑拼写错误。
  • 提取属性
    • 日期 - 默认情况下,日期开关处于打开状态。 扫描文档时,会检查它们的最近日期。 找到的日期将被提取并存储在输出要素类属性表的字段中。
    • 自定义属性 - 默认情况下,自定义属性开关处于关闭状态。 扫描文档时,将检查它们是否包含自定义属性文件中指定的关键字。 自定义属性文件可以确定您要查找的关键字以及找到关键字时提取的文本,并定义将在输出要素类属性表中创建的自定义字段,以存储提取的内容。
  • 搜索控制
    • 需要词内换行 - 默认情况下,“需要词内换行”切换处于打开状态。 在扫描用欧洲语言编写的文档时,系统会检查文档中是否存在文本边界为空格字符或标点字符的单词。 此设置会影响到在文档中查找自定义位置和自定义属性时用于标识单词的方式。 该设置还会影响到当可以表示坐标或日期的文本被其他字符包围等情况下,用于标识坐标和日期的方式。
  • 符号系统 - 红色实心圆圈是默认符号。 创建输出地图图层时,输出要素类中的点将使用指定符号显示。

在一些开关旁边显示有箭头按钮 跳转到选项。 箭头按钮允许您移动到提取位置窗格中的另一个选项卡,您可以在其中定义坐标、自定义位置、日期或自定义属性的评估和提取方式。

提取位置窗格中还提供以下选项,可用于自定义处理的文件、提取的内容以及创建的输出。 但是,这些选项无法通过选项选项卡上的开关表示。

  • 扫描文件 - 允许您控制扫描哪些文件。
  • 输出 - 允许您控制评估的要素和日期的数量,以及输出要素类的属性表中包含的内容。

坐标

坐标选项卡可确定扫描输入文档时将考虑的坐标格式。 将检查成对的数字和字母数字组合以查看它们是否与启用的坐标格式匹配。 根据所有启用的格式检查空间坐标候选项:

  • X Y 格式 - 指定为 x,y 值的坐标
  • DD 格式 - 十进制度格式
  • DM 格式 - 十进制度分格式
  • DMS 格式 - 度分秒格式
  • UTM 格式 - 通用横轴墨卡托投影格式
  • MGRS 格式 - 军用格网参考系格式

将在输出要素类中创建一个位置,以表示找到的第一个坐标格式匹配。

每种坐标格式都与一组不同的选项相关联,这些选项默认设置为打开或关闭,以提供一组合理的输出位置。 当输入文档包含类似于空间坐标但实际上不描述地面位置的数字或字母数字组合时,某些选项可以生成输出位置;这些被称为误报。 默认情况下关闭的选项更有可能产生误报。 但是,如果您知道您的文档包含这些格式的位置,则应启用这些选项。 启用的坐标格式较少时,文档的扫描时间会相对较短。

可以自定义受支持的坐标格式,以符合一组文档的具体情况。 例如,文档可能会以其他语言编写,或可能具有使用非标准记法编写的空间坐标。 下面将更详细地介绍受支持的坐标格式,以及自定义这些坐标的评估方式的过程。

坐标选项卡还允许您指定与空间坐标关联的坐标系。 默认情况下,会像在基于 GCS_WGS_1984 坐标系中定义的坐标那样处理文档中找到的坐标。 如果您知道坐标是基于不同坐标系进行收集的,请单击选择坐标系按钮 选择坐标系 并单击正确的坐标系。

处理输入文档中的所有空间坐标,直到文档结束或达到可提取的位置数限制。

了解限制提取要素的数量

访问“坐标”选项卡

  1. 提取位置窗格中,单击属性选项卡。
  2. 访问坐标选项卡。
    • 单击选项选项卡 选项,然后单击坐标开关旁边的箭头 跳转到选项
    • 单击提取位置选项卡 提取位置,然后单击坐标选项卡。

打开或关闭坐标开关

  1. 提取位置窗格中,单击属性选项卡。
  2. 打开或关闭坐标开关。
    • 单击选项选项卡 选项,然后单击坐标开关。
    • 单击提取位置选项卡 提取位置,单击坐标选项卡,然后单击通过坐标创建要素开关。

X Y 格式

如果启用了候选空间坐标,则将它们与以下坐标格式进行比较。 当候选项匹配其中一种格式时,会在输出要素类中创建一个位置。 原始坐标的格式将在输出要素类中指定为 x,y。

默认情况下,不将 x,y 坐标格式作为一个整体启用。 在使用这些格式时,坐标将表示为一对数字,用以指示采用指定坐标系单位的测量值。 它们可能产生误报位置,因为它们与不包含空间关系的数字序列或测量值十分相似。 另外,当发现文本与这些坐标格式匹配时,如果将所生成的位置与错误的坐标系相关联,则这些位置将不正确。

  • 带单位文本的 X Y - 字母数字文本在具有以下结构时将被识别为位置:71.2071779dd 46.8075410dd630084m 4833438m。 系统将设置单位以匹配输入文档的坐标系,但可对其进行更改以识别其他单位或文档中存在的相同单位的其他记法。 如果坐标系对于找到的坐标而言是正确的,则这些格式不太可能生成误报位置。 默认情况下,会启用该选项。
  • 不带单位文本的 X Y - 字母数字文本在具有以下结构时将被识别为位置:630084 4833438235407.742 900560.004。 此坐标格式和十进制度坐标格式不带符号的 X Y 都将检查成对的数字,且两种格式都可以找到相同 x,y 坐标对的匹配项。 同时启用两种格式时,系统将显示一条警告,提示存在冲突。 如果两种格式均启用且都找到了匹配项,则十进制度结果将用作输出位置。 在指定投影坐标系时,这两种格式不太可能产生冲突。 默认情况下,会启用该选项。

如果选中了记录无效坐标,则任何具有无效值或落在所定义的坐标系之外的候选空间坐标都将在日志文件中记录为无效。 当过程完成时,您可以查看此日志文件。 默认情况下会记录无效的坐标。

设置坐标单位

您可以更改与 x,y 格式相关联的单位,以根据输入文档中包含的信息生成准确的位置。

  1. 访问“坐标”选项卡
  2. 打开坐标
  3. 单击坐标系下拉列表或选择坐标系按钮 选择坐标系,然后单击与输入文档中的空间坐标关联的坐标系。 例如,指定投影坐标系。
  4. 选中 X Y 格式选项。
  5. 单击以展开与带单位文本的 X Y 格式相关联的选项。

    该单位默认设置为与坐标系的单位相匹配。 例如,基于单位“美制英尺”的坐标系会将单位设置为 ftUS

  6. 单击设置单位按钮 铅笔 以更改将在文档中识别为单位的符号。

    将弹出允许的单位对话框。

  7. 单击从列表添加按钮 从列表添加 在适当的情况下将熟知的预定义测量单位添加到列表中。
  8. 如果适用,将自定义单位添加到列表中。
    1. 在位于表格底部的新行中,单击单位文本列,然后键入应被识别为此测量单位表示的字符。 例如,键入 ft (US) 以将其识别为表示 ftUS 单位的另一种方式。
    2. 指定与此测量单位相关联的距离(以米为单位)。
    3. 单击确定
  9. 单击以展开与不带单位文本的 X Y 格式相关联的选项。
  10. 单击设置单位按钮 铅笔 以更改将与文档中找到的任何坐标对相关联的单位。

    将弹出默认单位对话框。

  11. 单击单位名称下拉列表,然后单击列表中定义的任一国际公认单位,或键入列表中未出现的另一种距离测量单位的名称。

    当您在列表中选择一个单位时,与所选测量单位关联的距离(以米为单位)将显示在米/单位文本框中。

  12. 如果您将自定义测量单位的名称输入到单位名称文本框中,则请将其表示的米数输入到米/单位文本框中。
  13. 单击确定

DD 格式

如果启用了候选空间坐标,则将它们与以下坐标格式进行比较。 当候选项匹配其中一种格式时,会在输出要素类中创建一个位置。 原始坐标的格式将在输出要素类中指定为十进制度。

  • 纬度和经度 - 字母数字文本在具有以下结构时将被识别为位置:38.8N 77.035WW77N38.88909。 这些格式不太可能产生误报位置。 默认情况下,会启用该选项。
  • 带有度数符号的 X Y - 字母数字文本在具有以下结构时将被识别为位置:38.8° -77.035°-077d+38.88909d。 这些格式不太可能产生误报位置。 默认情况下,会启用该选项。
  • 不带符号的 X Y - 字母数字文本在具有以下结构时将被识别为位置:38.8 -77.035-077.0, +38.88909。 这些格式很可能产生误报位置,因为它们与不包含数字关系的数字序列十分相似。 这些格式也可能类似于定义投影坐标系中空间位置的数字 - 当此格式与不带单位文本的 X Y 选项均处于启用状态时,系统将显示一条警告,提示存在冲突。 默认情况下,会启用该选项。

如果选中了记录无效坐标,则与任何启用的格式都不匹配的候选空间坐标将在日志文件中记录为无效。 当过程完成时,您可以查看此日志文件。 默认情况下会记录无效的坐标。

DM 格式

如果启用了候选空间坐标,则将它们与以下坐标格式进行比较。 当候选项匹配其中一种格式时,会在输出要素类中创建一个位置。 原始坐标的格式将在输出要素类中指定为十进制度分。

  • 纬度和经度 - 字母数字文本在具有以下结构时将被识别为位置:3853.3N 7702.100WW7702N3853.3458。 这些格式不太可能产生误报位置。 默认情况下,会启用该选项。
  • 带分符号的 X Y - 字母数字文本在具有以下结构时将被识别为位置:3853' -7702.1'-07702m+3853.3458m。 这些格式不太可能产生误报位置。 默认情况下,会启用该选项。

如果选中了记录无效坐标,则与任何启用的格式都不匹配的候选空间坐标将在日志文件中记录为无效。 当过程完成时,您可以查看此日志文件。 默认情况下会记录无效的坐标。

DMS 格式

如果启用了候选空间坐标,则将它们与以下坐标格式进行比较。 当候选项匹配其中一种格式时,会在输出要素类中创建一个位置。 原始坐标的格式将在输出要素类中指定为度分秒。

  • 纬度和经度 - 字母数字文本在具有以下结构时将被识别为位置:385320.7N 770206.000WW770206N385320.76。 这些格式不太可能产生误报位置。 默认情况下,会启用该选项。
  • 带秒符号的 X Y - 字母数字文本在具有以下结构时将被识别为位置:385320" -770206.0"-0770206.0s+355320.76s。 这些格式不太可能产生误报位置。 默认情况下,会启用该选项。
  • 带分隔符的 X Y - 字母数字文本在具有以下结构时将被识别为位置:38:53:20 -77:2:6.0-077/02/06/, +38/53/20.76。 这些格式有时会产生误报的位置,因为它们类似于其他类型的格式化数字,例如日期和时间。 默认情况下,会启用该选项。

如果选中了记录无效坐标,则与任何启用的格式都不匹配的候选空间坐标将在日志文件中记录为无效。 当过程完成时,您可以查看此日志文件。 默认情况下会记录无效的坐标。

UTM 格式

如果启用了候选空间坐标,则将它们与以下坐标格式进行比较。 当候选项匹配其中一种格式时,会在输出要素类中创建一个位置。 原始坐标的格式将在输出要素类中指定为通用横轴墨卡托。

  • 通用横轴墨卡托 - 字母数字文本在具有以下结构时将被识别为位置:18S 323503 430643818 north 323503.25 4306438.39。 这些格式不太可能产生误报位置。 默认情况下,会启用该选项。
  • UPS 北极 - 字母数字文本在具有以下结构时将被识别为位置:Y 2722399 2000000north 2711399 2000000。 这些格式不太可能产生误报位置,但在通常的文档中这些坐标并不常见。 默认情况下,不启用该选项。
  • UPS 南极 - 字母数字文本在具有以下结构时将被识别为位置:A 2000000 3168892south 2000000 3168892。 这些格式不太可能产生误报位置,但在通常的文档中这些坐标并不常见。 默认情况下,不启用该选项。

MGRS 格式

如果启用了候选空间坐标,则将它们与以下坐标格式进行比较。 当候选项匹配其中一种格式时,会在输出要素类中创建一个位置。 原始坐标的格式将在输出要素类中指定为军事格网参考系。

  • 军事格网参考系 - 字母数字文本在具有以下结构时将被识别为位置:18S UJ 13503 0643818SUJ0306。 这些格式不太可能产生误报位置。 默认情况下,会启用该选项。
  • 北极 - 字母数字文本在具有以下结构时将被识别为位置:Y TG 56814 69009YTG5669。 这些格式不太可能产生误报位置,但在通常的文档中这些坐标并不常见。 默认情况下,不启用该选项。
  • 南极 - 字母数字文本在具有以下结构时将被识别为位置:A TN 56814 30991ATN5630。 这些格式有时会产生误报位置,因为它们可能与常规数字相似。 默认情况下,不启用该选项。

如果选中了记录无效坐标,则与任何启用的格式都不匹配的候选空间坐标将在日志文件中记录为无效。 当过程完成时,您可以查看此日志文件。 默认情况下会记录无效的坐标。

自定义空间坐标的识别方式

您要使用的文档可能包含使用标准坐标格式设置无法检测到的空间坐标。 例如,文档的作者可能没有经历过 GIS 培训,并以非标准的方式编写了空间坐标。 一个常见的例子就是在纬度值和经度值之间添加额外的文本。 例如在文本 +45.56° and -69.66° 中,多余的单词 and 将阻止系统将文本识别为空间坐标。

同样,如果您要分析的文档是用多种语言编写的,则在默认情况下,文本将仅被识别为以英语编写的文档的空间坐标,或方向符号使用英文单词或缩写情况下的空间坐标。 例如,如果文档中的文本为法语,且在空间坐标中的方向表示法是使用 O 来表示 Ouest(例如 60.91°N, 147.34°O),而非使用英语 W 来表示 West,则文本将不会识别为空间坐标。 可以自定义坐标格式,以识别用作对英语的补充或替代的其他语言的格式,具体取决于您要处理文档的方式。

您可以使用自定义对话框来自定义在文档中识别空间坐标的方式。 提供了某些语言的默认设置 - 在设置选项卡上选择文档的语言。 在亚洲语言文档中,使用亚洲字符和全角印度-阿拉伯数字(例如,北緯51.50°、西経175.63°)目前未被识别为空间坐标。

  1. 访问“坐标”选项卡
  2. 打开坐标
  3. 单击位于空间坐标格式列表顶部的自定义按钮 自定义
  4. 如果文档是用其他语言编写的,且可以在自定义对话框中的设置选项卡上对该语言进行设置,则单击列表中的该语言。
  5. 将所选语言的设置添加到自定义对话框。
    • 单击替换设置以仅使用与所选语言相关联的设置来扫描文档。 如果当前语言为英语,且所选语言为法语,则将对话框中的英语设置替换为法语设置后,将在文档中仅识别以法语格式编写的空间坐标。
    • 单击合并设置以使用当前语言以及其他语言的设置来扫描文档。 如果当前语言为英语,且所选语言为法语,则将法语设置合并到对话框中的设置之后,将在文档中识别使用英语和法语格式编写的空间坐标。
  6. 空间坐标具有许多组件,其中包括一些特定于一组语言的组件。 在坐标标题下选择一个与空间坐标的组件相关联的选项卡,例如纬度/经度之间
  7. 修改此组件的术语列表,以包括要扫描的文档中使用的符号。
    1. 单击术语文本列中位于格网底部的新行。
    2. 键入显示在文档中的、应识别为空间坐标组件的适当值。 例如,将拼写错误 Nort 添加到选项卡上的术语列表中(如果这对于一组文档而言是通用的)。 将 and 添加到纬度/经度之间选项卡上的术语列表,以解释此额外的文本出现在纬度值和经度值之间的文档。
    3. Enter 键。
  8. 如果在自定义对话框中的多个选项卡上输入了相同的术语,则将显示警告。 尽管可以重复使用术语,但这会降低在文档中识别位置的准确性。 移除所有对于将文本识别为位置的过程不重要的重复术语。
    1. 单击其中的一个受影响的选项卡。
    2. 单击格网中的一行以选择不应使用的重复术语。
    3. 单击移除按钮 移除 以从格网中移除所选行。

    如果保留重复术语,则警告消息将出现在提取位置窗格底部的提取按钮旁边。

  9. 单击确定

下次从一组文档中提取位置时,将使用自定义定义来评估文本并确定其是否表示空间坐标。

使用逗号作为小数分隔符

默认情况下,将扫描文档中是否包含使用句点 (.) 或中点 (·) 作为小数分隔符的坐标,例如:Lat 01° 10·80’ N Long 103° 28·60’ E。 如果您正在使用的文档中,数字使用逗号作为小数分隔符(例如 52° 8′ 32,14″ N; 5° 24′ 56,09″ E),则应该选中选项使用逗号作为小数分隔符

此设置仅控制如何评估字母数字文本以确定它是否为空间坐标。 此设置不会影响文本的评估方式,以确定文本是表示自定义位置还是匹配应存储在自定义属性中的关键字。 也就是说,此设置没有提供用于指示文本是以欧洲语言(例如法语)书写的快捷方式,其中数字经常使用逗号作为小数点分隔符。 计算机的区域设置不会用于控制此设置。

解释为经度、纬度

当提供了没有符号或方向符号的坐标对时,如果一个数字介于 0 和 90 之间而另一个数字介于 90 和 180 之间,则可能产生正确的空间位置。 如果两个数字都在 0 到 90 之间,则更难确定正确的位置。

由于纬度-经度在地理上是优先级更高的惯例,因此,默认情况下会以这种方式评估两个数字均在 0 和 90 之间的坐标对,换句话说,第一个数字是 y 轴上的值,第二个数字是 x 轴上的值。 然而,坐标对在其他学科(例如数学)中通常以 x,y 组合的方式提供。

如果您希望将这些模糊坐标对评估为 x,y 组合,请选中解释为经度、纬度选项,即第一个数字是经度,而第二个数字是纬度。

确定坐标的评估方式

必须打开坐标以更改检查文档时空间坐标的评估方式。

  1. 访问“坐标”选项卡
  2. 打开坐标
  3. 单击坐标系下拉列表或选择坐标系按钮 选择坐标系,然后单击与输入文档中的空间坐标关联的坐标系。
  4. 选中要用于评估候选空间坐标的坐标格式。 取消选中您不想使用的坐标格式。
  5. 指定在评估文本以确定其是否代表空间坐标时应使用的所有自定义项。
  6. 选中或取消选中记录无效坐标选项以使用日志文件评估结果。
  7. 如果输入文档的内容中指定的空间坐标使用逗号作为小数分隔符,请选中使用逗号作为小数分隔符
  8. 如果输入文档内容中的空间坐标指定为经度-纬度坐标,而不是纬度-经度坐标,请选中解释为经度、纬度

下一次提取位置时,这些坐标设置将用于评估候选空间坐标并确定输出要素类中包含哪些位置。

使用模糊匹配识别自定义位置

启用自定义位置后,会将正在扫描的文档中的内容与自定义位置文件中指定的地名进行比较。 默认情况下,内容必须与指定的地名之一完全匹配才能在输出要素类中创建位置。

启用模糊匹配时,将使用近似匹配将文档的内容与指定的地名进行比较。 如果输入内容与地名字符匹配度达 70%,则会在输出要素类中创建位置。 这样可以容许一些拼写错误以及变形,例如在地名中使用单词的复数形式代替单数形式。 70% 的匹配度评估严格依据匹配的字母数进行计算;不会使用词干等自然语言处理算法来确定文档中的单词是否匹配自定义位置。

一个有效的工作流是首先在关闭模糊匹配的情况下提取位置,然后再打开模糊匹配重新尝试以发现其他地名。 随后即可比较这些结果以确定最佳结果。 虽然在某些情况下此设置可帮助您找到原本可能遗漏的其他位置,但文档中的内容也可能与地名匹配错误,从而导致误报位置。

模糊匹配仅用于自定义位置。 如果关闭自定义位置开关,则打开模糊匹配开关会没有效果。 例如,此选项不会更改文档内容与自定义属性文件中指定的关键字的比较方式。

打开或关闭模糊匹配开关

  1. 提取位置窗格中,单击属性选项卡。
  2. 打开或关闭模糊匹配开关。
    • 单击选项选项卡 选项,然后单击模糊匹配开关。
    • 单击提取位置选项卡 提取位置,单击自定义位置选项卡,然后单击使用模糊匹配开关。

日期

日期选项卡可确定扫描输入文档时将考虑的日期格式。 将检查字母数字组合以查看它们是否与启用的日期格式相匹配。 将按照以下指定的顺序检查所有启用格式的日期候选项。 有时,常规数字会被错误地识别为日期;这些情况称为误报。

可以自定义受支持的日期格式,以符合一组文档的具体情况。 例如,文档可能会以其他语言编写,或可能具有使用非标准记法编写的日期。 下面将更详细地介绍日期格式,以及自定义这些日期的评估方式的过程。

处理输入文档中的所有日期,直到文档结束或达到可提取的日期数限制。

了解限制提取日期的数量

  • 所用月份名称 - 月份名称在文本中以全称或缩写形式拼写,例如 January 1, 20102 FEB 11。 在英语以外的其他语言中,严格来说,启用此选项后识别的日期可能不会使用月份名称,原因是月份可能由数字标识等等。 但是,使用此选项时标识的日期是以更传统的方式而非使用 ISO 8601 日期格式的变体编写的。 这些格式不太可能产生误报日期。 默认情况下,会启用该选项。
  • M/D/Y 和 D/M/Y - 日期格式为月日年或日月年,数值之间用分隔符隔开,例如 10/31/201728-2-11。 这些格式有时会产生误报日期。 当月和日都由小于或等于 12 的数字表示时,表示的实际日期是不明确的。 可以使用多个选项来选择发现不明确的日期时对它们的解释方式。 默认情况下,不明确时解释为 MDY 选项处于选中状态,且文本 03/02/2012 将被解释为 2012 年 3 月 2 日;当使用在美国创作的文档(默认日期格式为 MM/DD/YYYY)时,此选项将适用。 使用默认日期格式为 DD/MM/YYY 的其他国家/地区创作的文档时,请改为选择解释为 DMY;在这种情况下,文本 4-12-13 将被解释为 2013 年 12 月 4 日。 当月和日为一位数并且这些一位数具有前导零时,可以识别日期。 默认情况下,会启用该格式。
  • YYYYMMDD - 日期格式为年月日,例如 2015-06-0320140502。 在日期的不同部分之间使用分隔符时,将识别个位数的月和日值。 例如,2015-6-3 也将被识别为 2015 年 6 月 3 日,但 201452 将不会被识别为 2014 年 5 月 2 日。 当原始值是个位数且使用四位数的年份时,生成的标准化日期将在月和日中带有前导零。 这些格式有时会产生误报日期。 默认情况下,会启用该选项。
  • YYMMDD - 日期格式为年月日,例如 160722170304。 当月和日的值为一位数时,将添加前导零,年份为两位数。 这些格式可能会产生误报日期。 默认情况下,会启用该选项。
  • YYJJJ - 年份和儒略日期,使用数字 1-366 表示某一日在一年中的位置,如果日期为一位数或两位数,将添加前导零。 例如,1800119365。 此外,系统还支持格式 YYYYJJJ,其中年份完全限定;例如 2020060 代表 2020 年 2 月 29 日。 这些格式可能会产生误报日期。 默认情况下,会启用该选项。

只要日期位于正在评估的日期范围内,则将提取找到的第一个匹配项并将其存储在第一个日期列中的输入要素类的属性表中。 同样,所找到的最早日期将存储在最早日期列,所找到的最新日期将存储在最新日期列。 在文档中找到的所有日期都列在所有日期列,以逗号分隔,达到表格中允许的最大大小。 所有这些日期均以 YYYY-MM-DD 格式记录,而与原始文本中使用的格式无关。 相反,提取日期文本列将记录在文档中找到的被解释为日期的文本,而这些文本与在文档中找到的文本完全相同。

了解有关设置日期范围的信息

如果您知道您的文档只包含某些格式的日期,则可以禁用其他日期格式。 启用的日期格式较少时,文档的扫描时间会相对较短。

访问“日期”选项卡

  1. 提取位置窗格中,单击属性选项卡。
  2. 访问日期选项卡。
    • 单击选项选项卡 选项,然后单击日期开关旁边的箭头 跳转到选项
    • 单击提取属性选项卡 提取属性,然后单击日期选项卡。

打开或关闭日期开关

  1. 提取位置窗格中,单击属性选项卡。
  2. 打开或关闭日期开关。
    • 单击选项选项卡 选项,然后单击日期开关。
    • 单击提取属性选项卡 提取属性,单击日期选项卡,然后单击通过日期创建字段开关。

自定义日期的识别方式

您要使用的文档可能包含使用标准日期格式设置无法检测到的日期。 例如,如果所用月份名称选项处于启用状态,但一组文档的作者习惯性地将 February 错误拼写为 Febuary,则该文本将不会被识别为日期。

同样,如果您要分析的文档是用多种语言编写的,则在默认情况下,文本将仅被识别为以英语编写的文档的日期。 例如,通过所用月份名称选项,可识别英语日期 July 17, 2018。 但是,在法语文档中,默认情况下等效日期 17 juillet, 2018 不识别为日期。 可以自定义日期格式,以识别用作对英语的补充或替代的其他语言的格式,具体取决于您要处理文档的方式。

您可以使用自定义对话框来自定义在文档中识别日期的方式。 提供了某些语言的默认设置 - 在设置选项卡上选择文档的语言。 在亚洲语言文档中,在仅使用亚洲字符(例如平成三十年六月十八日),以及亚洲字符和全角印度-阿拉伯数字(例如,平成 2 8年 4月 14日)指定时,数字选项卡上的选项允许识别日期。

某些设置将控制是否将文档中出现的两位数和四位数识别为年份,而这会影响是否将文本识别为日期,进而影响该日期是否会落入要从文档中提取的可接受日期范围内。 当您使用历史文档或提供未来事件预测的文档的数字版本时,除了需要修改提取位置窗格输出选项卡上的将提取的日期限制在此范围内设置之外,您可能需要调整被识别为年份的数字范围,以符合这些文档的具体情况。

  1. 访问“日期”选项卡
  2. 打开日期开关
  3. 单击位于日期格式列表顶部的自定义按钮。
  4. 如果文档是用其他语言编写的,且可以在自定义对话框中的设置选项卡上对该语言进行设置,则单击列表中的该语言。
  5. 将所选语言的设置添加到自定义对话框。
    • 单击替换设置以仅使用与所选语言相关联的设置来扫描文档。 如果当前语言为英语,且所选语言为法语,则将对话框中的英语设置替换为法语设置后,将在文档中仅识别以法语格式编写的空间坐标。
    • 单击合并设置以使用当前语言以及其他语言的设置来扫描文档。 如果当前语言为英语,且所选语言为法语,则将法语设置合并到对话框中的设置之后,将在文档中识别使用英语和法语格式编写的空间坐标。
  6. 在写下日期时,日期中可能包含许多组件。 在日期标题下选择一个与日期的组件相关联的选项卡,例如 2 月
  7. 修改术语列表,以包括要扫描的文档中使用的符号。
    1. 单击术语文本列中位于格网底部的新行。
    2. 键入出现在文档中的适当值(例如拼写错误 Febuary),作为可以标识 2 月份的值之一。
    3. Enter 键。
  8. 如果在自定义对话框中的多个选项卡上输入了相同的术语,则将显示警告。 尽管可以重复使用术语,但这会降低在文档中识别日期的准确性。 移除所有对于将文本识别为日期的过程不重要的重复术语。
    1. 单击其中的一个受影响的选项卡。
    2. 单击格网中的一行以选择不应使用的重复术语。
    3. 单击移除按钮 移除 以从格网中移除所选行。

    如果保留重复术语,则警告消息将出现在提取位置窗格底部的提取按钮旁边。

  9. 年份范围选项卡上,在文档中指定要解释为年份的数字范围。
  10. 数字选项卡中,指定可以将哪些类型的字符识别为日期。
  11. 单击确定

确定日期的评估方式

必须打开日期开关以更改输入文档的日期评估方式,并将此信息包括在输出要素类中。

  1. 访问“日期”选项卡
  2. 打开日期开关
  3. 选中要用于评估候选日期的日期格式。 取消选中您不想使用的日期格式。
  4. 指定在评估文本以确定其是否代表日期时应使用的所有自定义项。

下次提取日期时,这些日期设置将用于评估候选日期并确定输出要素类属性表中包含哪些日期。

需要词内换行

需要词内换行设置将确定将文本视为单词的方式。 在使用欧洲语言时一旦需要词内换行,则如果文本以空格字符或标点字符为界,该文本将被视为单词。 例如,英文单词 Pacific 无法正确地产生文本 The City of Pacifica is located just 15 minutes south of San Francisco. 的匹配项。而通过文本 I flew to Tokyo 的日语版本 私は東京に飛んで,您将无法找到单词 Tokyo東京

如果关闭需要词内换行,则文本无需以空格字符或标点字符为界以匹配给定的一组文本。 例如,要寻找单词 Pacific 的自定义位置会错误地生成文本 The City of Pacifica is located just 15 minutes south of San Francisco. 的匹配项。但是,要寻找 Tokyo 一词的日语文本 東京 的自定义位置将成功生成 I flew to Tokyo 的日语文本 私は東京に飛んで 的匹配项。

此设置将影响扫描文档以查找与自定义位置、自定义属性、坐标和日期匹配的单词的方式。 根据文档中文本的语言,此设置可以生成频繁的误报或不频繁的误报。 最好分别处理用不同语言编写的文档,并视每种具体语言启用或禁用此项设置。

打开或关闭需要词内换行切换

  1. 提取位置窗格中,单击属性选项卡。
  2. 单击选项选项卡 选项
  3. 通过单击需要词内换行切换可打开或关闭该切换。

需要词内换行切换处于打开状态时,在下一次处理文档时,系统仅在文本以空格字符或标点字符为界的情况下将其视为单词。 当需要词内换行切换处于关闭状态时,在下一次处理文档时,与您要查找的文本匹配的任何文本都将被视为单词。

符号系统

您可以在创建输出地图图层时自定义用于表示在输入文档中找到的位置的符号。 以这种方式只能为地图图层指定一个符号。

  1. 打开提取位置窗格
  2. 提取位置窗格中,单击属性选项卡。
  3. 单击选项选项卡 选项
  4. 单击符号系统标题下的点符号,例如红色实心圆。

    格式化点符号面板出现在提取位置窗格中。

  5. 单击库中的点符号,或自定义符号属性并应用更改。 或者,单击返回按钮 后退 取消您的更改并返回选项选项卡。

下次提取位置并创建输出地图图层时,将使用指定的符号在地图上绘制位置。

按类别或数量符号化位置

从一组文档中提取位置后,您可以使用自定义属性来更改输出位置的符号化方式。 例如,您可以提供不同的符号来表示在每个位置找到的关键字。 下次使用相同的设置来提取位置时,可以将其追加到现有的地图图层中。 生成的点将自动以相同方式进行符号化。

如果以后要使用相同的“提取位置”模板来创建具有相同符号化的新地图图层,则需要先将原始地图图层的符号化捕获为仅方案图层包。 该图层包可用于创建新的要素类和随附的地图图层,您可以在该图层上追加一组新文档中的位置。

  1. 打开包含要重用其符号化的地图图层的地图。
  2. 根据现有地图图层创建仅方案图层包
  3. 将仅方案图层包添加到要在其中提取一组新位置的新地图。

    使用图层包中定义的方案,在工程的默认地理数据库中创建一个新要素类。 使用来自图层包的图层定义来创建新的地图图层。

    了解有关图层和图层包的详细信息

  4. 按照工作流将位置提取到上一步中创建的现有地图图层

提取到地图图层的位置将根据从文档和文本提取的自定义属性值自动进行符号化。

扫描文件

扫描文件选项卡 扫描文件 允许您控制扫描或跳过哪些文档。

扫描特定文件类型

这里所说的文件类型是指文件扩展名。 例如,如果是 table.txt 文件,则 TXT 就是其文件类型。 当您提供文件夹作为输入并且文件夹包含多个文件时,您可以通过指定要使用的一组文件类型来限制扫描的文件。 如果您知道哪些文件相关,哪些不相关,可以删除无关文件或将扫描对象限制为相关文件。

  1. 提取位置窗格中,单击属性选项卡。
  2. 单击扫描文件选项卡 扫描文件
  3. 单击文件类型标题。
  4. 选择扫描或跳过指定的文件类型。
    • 扫描除这些类型以外的所有文件 - 指定要跳过的文件类型。 这是默认选项。
    • 仅扫描这些文件类型 - 指定要扫描的文件类型。
  5. 将扩展名添加到文件类型列表。
    • 单击添加扩展名 添加扩展模块。 在添加扩展名对话框中,在扩展名文本框中输入一个或多个文件扩展名。 如果输入多个文件扩展名,请仅使用空格分隔;不要在扩展名后面加逗号。 例如,输入 txt doc csv。 可根据需要在文件扩展名前面加句点。 单击确定
    • 将文件从 Windows 资源管理器拖放到文件类型列表中。

    指定的文件扩展名将添加到文件类型列表中。

如果计算机识别文件扩展名,则 Windows 资源管理器中用于表示该文件类型的图标和类型字符串将包含在列表中。 例如,如果您提供的文件扩展名是 .docx,则计算机上用于表示这些文件的文件扩展名 .DOCX 和图标将显示在列表中的扩展名列。 类型列中将包含值 Microsoft Word Document

跳过特定文件和文件夹

扫描包含多个文件的文件夹或磁盘时,可以避免逐个扫描文件或文件夹。 这样,扫描可以更快完成,包含的误报位置也更少。 例如,包含财务报告的文件夹可能包含类似于空间坐标的数字。

扫描磁盘时,请考虑排除包含已安装软件、操作系统文件、硬件驱动程序等内容的文件夹。 默认情况下,将跳过隐藏文件和系统文件(通常不会显示在 Windows 资源管理器中),但如果有特殊需要,可以取消选中这些选项。

  1. 提取位置窗格中,单击属性选项卡。
  2. 单击扫描文件选项卡 扫描文件
  3. 单击跳过类型标题。
  4. 如果适用,可在文件属性标题下取消选中隐藏系统
  5. 将应跳过的文件和文件夹添加到文件和文件夹列表。
    • 单击添加文件和文件夹 添加文件和文件夹。 随即显示添加文件和文件夹对话框。 浏览并选择应跳过的文件和文件夹,然后单击打开
    • 将文件和文件夹从 Windows 资源管理器拖动到文件和文件夹列表。

    指定的文件和文件夹将添加到列表中。

Windows 资源管理器中用于表示项目及其名称的图标将显示在名称列中。 路径列显示文件或文件夹的路径。

某些文件将不会处理

文档的处理方法与 Windows 搜索用于检查计算机文件的方法相同 - 即使用称为 Ifilter 的插件。 提取位置窗格及其相关工具不使用 Windows 搜索;它们使用计算机已有的 Ifilter 插件来检查输入文档和文本。

一些 IFilter 包括在 Microsoft Windows 操作系统中,可以处理文本文件、HTML 文件、一些 Microsoft Office 文档等等。 不同的操作系统可用的 Ifilter 也有所不同。 计算机上安装的其他应用程序可能提供其他 IFilter,用于处理其处理的文件。 例如,当您安装 Adobe Acrobat Reader DCAdobe Acrobat 时,它可能会提供一个可用于处理 PDF 文件内容的 IFilter。 扫描文件是,如果有特定该文件类型的 Ifilter,则将使用该 Ifilter;否则将使用标准 Ifilter 扫描文件并提取尽可能多的信息。

由于 AllSource 是一个 64 位应用程序,因此它只能使用 64 位 Ifilter 来处理输入文档和文本。 32 位应用程序通常只提供 32 位 Ifilter,用于处理其文档;AllSource 无法使用这些 IFilter。

如果并未设置要跳过的特定文件类型(如 PDF 文件),但是在明明知道存在位置的文件中却无法提取位置,请确保计算机上安装的是正确的 64 位 IFilter。

Windows 10 中,应该提供 AllSource 可用于处理 PDF 文件的 IFilter。 对于其他版本的 Windows,如果安装了 32 位版本的 Adobe Reader,则可能无法使用 64 位 IFilter 来处理 PDF 文档。 无法使用标准 Windows Ifilter 从 PDF 文档中提取内容。 您可以从 Adobe 网站下载 64 位 PDF IFilter。

输出

输出选项卡 输出 允许您控制从文档中提取的内容并将其存储在输出要素类中。

文档限制

可以对从输入文档中提取的位置和日期进行限制。 当您第一次扫描一组输入文档时,您可能会遇到一个文件,其中包含大量类似空间坐标但不是空间坐标的数字,或者其中一系列数字看起来像日期但实际上是不同的数据类型。 默认情况下,会对从输入文档中提取的要素和日期数量进行限制。 这可以防止您错误地生成数百万个点,或防止您在属性表中存储许多无意义的日期。 在评估输出位置和存储在其属性中的日期之后,您可以选择禁用此限制或在再次扫描文档之前更改限制。

有时,您对正在扫描的文档一无所知。 而其他时候,您可能会定期扫描半结构化文档,例如报表。 报表通常以编制报表的日期和位置开头;但是报表主题所涉及的事件发生于与之不同的日期和位置。 在处理这些文档时,您可以选择跳过开头的位置和日期数量,这样您的输出要素类就可以捕捉该兴趣的内容。

您可以对要素和日期的数量以及将从输入文档中提取的要素和日期进行限制。 这些限制如下所示:

  • 要素限制
    • 限制每个文档的要素数 - 默认情况下,仅提取文档中找到的前 3,000 个位置并将其存储在输出要素类中。 选中此选项后,您可以增加或减少从单个文档中提取的要素数量限制。 取消选中此选项可评估文档中的所有候选空间坐标和自定义位置,并提取找到的所有要素。 默认情况下,会启用该选项。
    • 忽略每个文档的第一个要素数 - 默认情况下,将评估在输入文档中找到的第一个候选空间坐标或自定义位置,然后评估所有其他候选坐标和自定义位置,直到达到要素限制或文档末尾。 选中此选项后,您可以跳过文档开头的指定要素数,然后提取所有后续要素,直至达到限制;默认情况下,只会跳过第一个要素,但如果适用,您可以增加此数字。 取消选中此选项可评估所有候选空间坐标和自定义位置,直至达到限制。 默认情况下,不启用该选项。
  • 日期限制
    • 限制每个文档的日期数 - 默认情况下,仅提取文档中找到的前 30 个日期并将其存储在输出要素类的属性表中。 选中此选项后,您可以增加或减少从单个文档中提取的日期数限制。 取消选中此选项可评估文档中的所有候选日期并提取找到的所有日期。 默认情况下,会启用该选项。
    • 忽略每个文档的第一个日期数 - 默认情况下,将评估输入文档中找到的第一个候选日期,然后评估所有其他候选日期,直到达到日期限制或文档末尾。 选中此选项后,您可以跳过文档开头的指定日期数,然后提取所有后续日期,直至达到限制;默认情况下,只会跳过第一个日期,但如果适用,您可以增加此数字。 取消选中此选项可评估所有候选日期,直至达到限制。 默认情况下,不启用该选项。
  1. 提取位置窗格中,单击属性选项卡。
  2. 单击输出选项卡 输出
  3. 单击文档限制标题。
  4. 根据需要选中或取消选中用于限制提取要素和日期数量的选项。
  5. 单击启用的要素日期文本框,输入相应的数字,表示应提取的最大要素或日期数量。
  6. 选中或取消选中选项,以根据需要跳过输入文档或文本开头的给定数量的要素和日期。
  7. 单击启用的要素日期文本框,输入相应数字,表示在提取其他要素或日期之前应跳过多少要素或日期。

文本前和文本后限制

从文档中提取空间坐标或自定义位置并将其存储在输出要素类中时,会在输出要素类的属性表中存储多条信息,以帮助您稍后评估这些位置。 位于该位置之前的文档摘录存储在要素类属性表中的前文本字段中。 位于该位置之后的文档摘录存储在要素类属性表中的后文本字段中。 这些属性可以帮助您建立位置的语境 - 它是否是一个真实的位置,如果是,在该位置发生了什么,该事件与您的分析是否相关?

提取并存储在要素类中的位置周围的文本量由以下设置决定:

  • 前文本 - 默认情况下,该位置前的 254 个字符将从文本中提取出来并存储在前文本字段中。 您可以根据需要增加或减少此值。
  • 后文本 - 默认情况下,该位置后的 254 个字符将从文本中提取出来并存储在后文本字段中。 您可以根据需要增加或减少此值。
  1. 提取位置窗格中,单击属性选项卡。
  2. 单击输出选项卡 输出
  3. 单击前文本和后文本限制标题。
  4. 单击前文本文本框,输入相应数字,表示从输入文档提取的位置之前的最大字符数。
  5. 单击后文本文本框,输入相应数字,表示从输入文档提取的位置之后的最大字符数。

其他文本字段限制

除了前文本后文本字段之外,各种信息还将记录在输出要素类的属性表中,这些信息可帮助您评估提取的位置和日期。 您可以定制这些字段的大小,以容纳更多或更少的信息,使其符合当前文档集合中的内容。

存储在要素类中的文本量由以下设置决定:

  • 名称 - 默认情况下,名称字段中可以存储 50 个文本字符,以表示在其中找到位置的文件名。 您可以根据需要增加或减少此值。
  • 已提取文本 - 默认情况下,已提取文本字段中可以存储 120 个文本字符,以表示找到的空间坐标或自定义位置。 您可以根据需要增加或减少此值。
  • 已提取类型 - 默认情况下,已提取类型字段中可以存储 50 个文本字符,以表示找到的空间坐标类型或自定义位置。 您可以根据需要增加或减少此值。
  • 所有日期 - 默认情况下,代表文档中找到的日期的 254 个文本字符可以存储在所有日期字段中。 这些日期将以 yyyy-mm-dd 格式标准化。 您可以根据需要增加或减少此值。
  • 提取的日期文本 - 默认情况下,代表文档中找到的日期的 254 个文本字符可以存储在提取的日期文本字段中。 将提取并记录从原始文档中被识别为日期的文本。 您可以根据需要增加或减少此值。
  • 文件名 - 默认情况下,文件名字段中可以存储 254 个文本字符,以表示在其中找到位置的文件的完整路径。 您可以根据需要增加或减少此值。
  • 文件类型 - 默认情况下,文件类型字段中可以存储 10 个文本字符,以表示已处理文件的类型。 您可以根据需要增加或减少此值。

了解有关输出要素类的字段的详细信息

  1. 提取位置窗格中,单击属性选项卡。
  2. 单击输出选项卡 输出
  3. 单击其他文本字段限制标题。
  4. 单击字段文本框,键入相应数字,以表示每个字段中可以记录的最大字符数。

日期范围

有些数字可能与空间坐标和日期很类似。 默认情况下,如果日期与所选日期格式其中之一相匹配,且生成的日期位于指定日期范围内,则将仅从输入文档提取日期。 这可以减少提取误报日期的可能性。 默认日期范围是 1985 年 1 月 1 日到 2030 年 12 月 31 日。 即使在输入文档中找到日期,如果它超出指定的日期范围,也不会将其提取并存储在输出要素类的属性表中。

取消选中将提取的日期限制在此范围内从输入文档中提取任何可能的日期。 这将增加评估文档内容所需的时间,因为必须根据所选日期格式评估所有数字。

如果您只对在给定时间段内发生的事件感兴趣,请选中将提取的日期限制在此范围内选项并调整日期范围以更紧密地匹配这些事件发生的时间段。

  • - 默认情况下为 1985 年 1 月 1 日。 单击下拉菜单,然后单击日历控件上有效日期范围的开始日期。
  • - 默认情况下为 2030 年 12 月 31 日。单击下拉菜单,然后单击日历控件上有效日期范围的结束日期。

日历控件一次可以访问一个月。 使用上方的箭头可以访问上一月或下一月。 单击日历顶部的月份和年份以查看月份列表。 单击月份列表顶部的年份可以访问年份列表。 使用上方的箭头可以访问上一年或下一年。

如果您使用的是历史文档,则自定义对话框中的年份范围选项卡上的其他设置会影响是否将文本识别为日期以及将提取的日期限制在此范围内设置的工作原理。 年份范围选项卡设置可确定是否将两位数和四位数解释为年份。 在确定与年份相邻的文本是否为日期之前,将进行此评估。

默认情况下,系统会将 1900 与 2099 之间的四位数识别为年份。 只要将提取的日期限制在此范围内设置的年份位于此范围内,系统就将有效地限制所找到的四位数年份的任何日期。 如果您要处理已以数字形式提供的历史文档,则必须同时调整输出选项卡上的将提取的日期限制在此范围内设置以及自定义对话框的年份范围选项卡上的四位数年份范围,以解释编写文档的时间段。

同样,在分析两位数以确定其是否表示年份时,默认情况下将使用从 1970 年开始的 100 年窗口。 只要将提取的日期限制在此范围内设置的年份位于此范围内,系统就将有效地限制所找到的两位数年份的任何日期。 但是,如果您要使用有关未来预测的历史文档或报表,则可能需要调整自定义对话框中年份范围选项卡上的 100 年窗口以及输出选项卡上的将提取的日期限制在此范围内设置,以解释文档的时间段。

了解有关自定义如何将文本识别为日期的详细信息

  1. 提取位置窗格中,单击属性选项卡。
  2. 单击输出选项卡 输出
  3. 单击日期范围标题。
  4. 根据需要选中或取消选中将提取的日期限制在此范围内选项。
  5. 如果启用该选项,请单击下拉箭头,浏览并选择要提取的日期范围的开始日期。
  6. 如果启用该选项,请单击下拉箭头,浏览并选择要提取的日期范围的结束日期。
  7. 指定在评估文本以确定其是否代表日期时应使用的所有自定义项。

标准化坐标

从文档中提取空间坐标或自定义位置并将其存储在输出要素类中时,会在输出要素类的属性表中存储多条信息,以帮助您稍后评估这些位置。 表示位置的文档的原始文本存储在属性表的 Extracted Text 字段,找到的位置类型记录在 Extracted Type 字段。

此外,发现的所有位置的一致表示存储在标准化坐标字段中,别名 Stand. Coord.。 与点要素关联的 x、y 坐标以按照标准化坐标选项指定的格式记录。

从以下选项中选择符合要求的坐标格式。 例如,当选择每种坐标格式时,输入文档中找到的坐标(例如 117.1717550°W 34.0552456°N)将显示在如下所示的标准化坐标字段中。

  • DD - 十进制度 - 34.055246N 117.171755W(默认选择)
  • DM - 十进制分 - 34 03.3147N 117 10.3053W
  • DMS - 度分秒 - 34 03 18.88N 117 10 18.32W
  • UTM - 通用横轴墨卡托 - 11S 484149 3768294
  • MGRS - 军事格网参考系 - 11SMT8414968295

  1. 提取位置窗格中,单击属性选项卡。
  2. 单击输出选项卡 输出
  3. 单击标准化坐标标题
  4. 单击下拉列表,然后单击记录提取位置使用的坐标格式。