Извлечь элементы при помощи глубокого обучения (GeoAI)

Краткая информация

Запускает обученную модель распознавания именованных элементов в текстовых файлах в папке, чтобы извлечь элементы и местоположения (такие, как адреса, имена людей или названия мест, даты и денежные суммы). Если извлеченные элементы содержат адреса, инструмент геокодирует их с использованием специального локатора и создает выходной класс пространственных объектов.

Более подробно о том, как работает Распознавание записей

Использование

  • Для этого инструмента требуются установленные системы глубокого изучения. Чтобы настроить компьютер на работу в среде глубокого обучения в ArcGIS AllSource, см. раздел Установка сред глубокого обучения для ArcGIS.

  • Для этого инструмента требуется файл определения модели, содержащий обученную информацию о модели. Модель можно обучить при помощи инструмента Обучение модели классификации текста. Значением параметра Входной файл определения модели может быть файл JSON определения модели Esri (.emd) или пакет модели глубокого обучения (.dlpk). Файлы модели должны быть сохранены локально.

  • Этот инструмент можно запускать на центральном или графическом процессоре. Однако глубокое обучение является интенсивным вычислительным процессом, поэтом рекомендуется использовать именно графический процессор. Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.

  • Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.

Параметры

ПодписьОписаниеТип данных
Входная папка

Папка, содержащая текстовые файлы, в которых будут распознаваться названные элементы.

Folder
Выходная таблица

Выходная таблица или класс объектов, где будут содержаться извлеченные элементы. Если указан локатор, и модель извлекает адреса, будет создан класс объектов, в котором будут содержаться геокодированные адреса.

Feature Class; Table
Входной файл определения модели

Обученная модель, которая будет использоваться для классификации. Файлом определения модели может быть файл JSON определения модели Esri (.emd) или пакет модели глубокого обучения (.dlpk), который хранится локально.

File
Аргументы модели
(Дополнительный)

Дополнительные аргументы, такие как порог достоверности, которые будут использоваться для настройки чувствительности модели.

Названия аргументов будут заполнены инструментом.

Value Table
Размер пакета
(Дополнительный)

Количество обучающих выборок, которые будут обрабатываться за один раз. Значение, предлагаемое по умолчанию, равно 4.

Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета.

Double
Зона местоположений
(Дополнительный)

Географические регионы или зоны, где предположительно будут располагаться извлеченные адреса. Указанный текст будет добавлен к адресу, извлеченному в модели.

Локатор использует информацию о зоне местоположений для идентификации региона или географической области, в которой находятся эти адреса, что позволяет получить более точные результаты.

String
Входной локатор
(Дополнительный)

Локатор, который будет использован для геокодирования адресов, найденных в текстовых документах. Для каждого успешно геокодированного адреса создается точка, которая сохраняется в выходном классе объектов.

Address Locator

arcpy.geoai.ExtractEntitiesUsingDeepLearning(in_folder, out_table, in_model_definition_file, {model_arguments}, {batch_size}, {location_zone}, {in_locator})
ИмяОписаниеТип данных
in_folder

Папка, содержащая текстовые файлы, в которых будут распознаваться названные элементы.

Folder
out_table

Выходная таблица или класс объектов, где будут содержаться извлеченные элементы. Если указан локатор, и модель извлекает адреса, будет создан класс объектов, в котором будут содержаться геокодированные адреса.

Feature Class; Table
in_model_definition_file

Обученная модель, которая будет использоваться для классификации. Файлом определения модели может быть файл JSON определения модели Esri (.emd) или пакет модели глубокого обучения (.dlpk), который хранится локально.

File
model_arguments
[model_arguments,...]
(Дополнительный)

Дополнительные аргументы, такие как порог достоверности, которые будут использоваться для настройки чувствительности модели.

Названия аргументов будут заполнены инструментом.

Value Table
batch_size
(Дополнительный)

Количество обучающих выборок, которые будут обрабатываться за один раз. Значение, предлагаемое по умолчанию, равно 4.

Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета.

Double
location_zone
(Дополнительный)

Географические регионы или зоны, где предположительно будут располагаться извлеченные адреса. Указанный текст будет добавлен к адресу, извлеченному в модели.

Локатор использует информацию о зоне местоположений для идентификации региона или географической области, в которой находятся эти адреса, что позволяет получить более точные результаты.

String
in_locator
(Дополнительный)

Локатор, который будет использован для геокодирования адресов, найденных в текстовых документах. Для каждого успешно геокодированного адреса создается точка, которая сохраняется в выходном классе объектов.

Address Locator

Пример кода

ExtractEntitiesUsingDeepLearning, (окно Python)

Пример скрипта в окне Python для использования функции ExtractEntitiesUsingDeepLearning.

# Name: ExtractEntities.py
# Description: Extract useful entities like "Address", "Date" from text.  
#
# Requirements: ArcGIS Pro Advanced license

# Import system modules
import arcpy
import os

arcpy.env.workspace = "C:/textanalysisexamples/data"
dbpath = "C:/textanalysisexamples/Text_analysis_tools.gdb"

# Set local variables
in_folder = 'test_data'
out_table = os.path.join(dbpath, "ExtractedEntities")

pretrained_model_path_emd = "c:\\extractentities\\EntityRecognizer.emd"

# Run Extract Entities Using Deep Learning
arcpy.geoai.ExtractEntitiesUsingDeepLearning(in_folder, out_table, pretrained_model_path_emd)

Параметры среды