ArcGIS LocateXT 扩展模块允许您使用提取位置窗格搜索非结构化数据的空间位置,并生成表示这些位置的点要素。
非结构化数据是指一切文本或文档,其中包括但不限于 web 页面、报表、电子邮件和社交媒体内容。 Microsoft Office 文档(Word、PowerPoint 和 Excel)、Adobe PDF 文档、文本文件均可处理。 可以一次性处理提取位置窗格中的多个文件夹和文件,或扫描整个磁盘。 您也可以将文本从电子邮件或网页拖到要分析的窗格上。
输出要素类中的每个点都包含属性表中用于指示找到的空间位置所在文件的内容。 从原始文档中提取空间位置周围的文本并存储在属性中,以提供该位置的上下文。 还可以提取与位置相关联的日期和关键字。 提取位置窗格不会自动识别将地址表示为空间位置的文本,因此无法使用定位器生成表示位置的点。
提取位置窗格提供的功能也可以通过从文档中提取位置和从文本中提取位置地理处理工具来使用。
自由形式的文本示例
例如,如果您正在查看有关阿拉斯加地震的新闻文章,并想在地图上查看文章中提到的每个位置,则可以直接将下面的示例输入文本复制到窗格中。
输入文本
阿拉斯加平均每天发生 100 次地震。 该地区的地质构造以太平洋和北美板块的相互作用为主。 这种相互作用已经造成了历史记录中最大的三次地震。 最大的一次是 1964 年 3 月 28 日发生在威廉王子湾 (60.91°N,147.34°W) 的里氏 9.2 级的大地震。 阿拉斯加的第二大地震,震级为 8.7,于 1965 年 2 月 4 日发生在拉特群岛 (51.25°N,178.72°E) 附近。 第三大地震,震级为 8.6,于 1957 年 3 月 9 日发生在安德烈亚诺夫群岛 (51.50°N,175.63°W) 附近。
输出要素
从输入文本中提取了三次地震的位置后,输出要素类就会显示在内容窗格中,且这些点在活动地图中可见。
默认情况下,系统还将提取在输入文本中找到的相对较近时间段内的一切日期,并将其记录在输出要素类的属性表中。 但是,上述输入文本中的日期不在默认日期范围内。
注:
默认情况下,当某些国际空间坐标格式和国际日期格式出现在输入文本中时,系统不会识别它们。 例如,这包括空间坐标使用的方向缩写被翻译成英语以外的其他语言,以及日期未以 ISO 格式提供但以英语以外的其他语言编写等情况。 可对此设置进行自定义,以正确识别使用其他(代替英语或在英语之外补充的)语言编写的坐标和日期。
半结构化文本示例
除了识别空间坐标,还可以定义自定义位置,从而将地点与空间坐标相关联。 例如,如果可在文档中的任何位置找到词 Portland,则表示城市中某个位置的点可以与该词相关联。 类似地,如果可找到机场代码,则表示机场位置的点可以与该代码相关联。
某些文件有一定数量的结构。 如果已有一个包含出行表单的文件夹,则可以从中提取信息并将其存储在输出要素类属性表的自定义属性中。 例如,对于包含以下输入文本的文档,可以定义自定义属性,以提取标注 Name、Address 和 Purpose 之后的文本。 稍后,可以使用 ArcGIS AllSource 中提供的其他工具处理属性。
输入文本
Name: Doe, Jane
Address: 380 New York St, Redlands, CA, 92373
Date: 2019-03-14
Destination: PDX
Purpose: Meet with the team at the Esri R&D Center at 309 SW 6th Ave #600, Portland, OR, 97204.
输出要素
从输入文本中提取了波特兰的自定义位置后,输出要素类就会显示在内容窗格中,且这些点在活动地图中可见。 单击要素以浏览从文档中提取的信息。 对于此示例,将提取日期并将其存储在属性表中。 自定义属性还用于提取从标注末尾到行尾之间的文本,并将内容存储在表示出行者姓名和地址以及出行原因的字段中。 另一自定义属性用于查找文档中存在的关键字,并将其存储在其他字段中。
可以使用其他工具对输出要素类属性表中 Address 字段的内容进行地理编码;无法自动进行地理编码。 类似地,存储在用于描述出行目的的自由形式文本中的地址,不会自动识别为地址和地理编码。
注:
如果已有结构化文本数据,例如以逗号分隔的文本文件,其中 x 和 y 坐标存储在表的单独列中,请使用 XY 表转点工具创建表示这些位置的点要素。