Извлечь местоположения из документа (Конвертация)

Доступно с лицензией LocateXT.

Краткая информация

Анализирует документы, содержащие неструктурированный или полуструктурированный текст, например сообщения электронной почты, путевые бланки и т.д., и извлекает местоположения в точечный класс пространственных объектов.

Инструмент анализирует и обрабатывает входные документы следующим образом:

  • Распознает пространственные координаты, указанные в документе, и создает точки, представляющие эти местоположения. Распознаются следующие форматы координат: десятичные градусы, градусы десятичные минуты, градусы минуты секунды, Universal Transverse Mercator и Military Grid Reference System.
  • Распознает имена мест в содержимом документа, определенных в пользовательском файле местоположений, и создает точки, представляющие эти местоположения. Пользовательский файл местоположений связывает название места с пространственной координатой, представляющей это местоположение.
  • Распознает интересующий текст, извлекает эту информацию из документа и записывает ее в поля таблицы атрибутов выходного класса пространственных объектов.

Этот инструмент поддерживает все документы Microsoft Office (Word, PowerPoint и Excel); документы Adobe PDF; текст с разметкой, например, документы XML и HTML; и любые файлы, содержащие простой текст, например текстовые файлы (.txt).

Использование

  • Значения параметров по умолчанию предназначены для оптимизации определения координат и дат. Для каждого параметра значения по умолчанию можно изменить. Чем меньше параметров изменено, тем быстрее будет работать инструмент.

  • По умолчанию включены все форматы координат. Если вы хотите извлечь только пользовательские местоположения и не хотите извлекать пространственные координаты, выключите параметры формата координат.

  • Если в качестве входных данных предоставлен документ Adobe PDF, и он содержит пространственные координаты в формате, который включен, а выходной класс объектов не содержит объект, представляющий координаты, на вашем компьютере может отсутствовать компонент, необходимый для обработки PDF-документов.

    Подробнее о сканированных файлах

  • Если вы используете файл пользовательских местоположений для извлечения названий мест, рекомендуется указывать меньшее количество названий мест в файле. Например, если вы конвертируете класс объектов, представляющий все места в мире, в файл пользовательских местоположений, обработка может занять много времени из-за поиска местоположений, которые не нужны, или поиска в областях мира, которые не интересны для вашего анализа.

    Более подробно о файлах пользовательских местоположений

  • Если интересующие вас названия мест могут быть написаны с ошибками или иметь известные варианты, вы, как правило, получите лучшие результаты, указав распространенные орфографические ошибки и альтернативные названия мест в файле пользовательских местоположений вместо использования неточного совпадения. Если неточное совпадение включено, вы получите выходное местоположение, если 70 процентов символов в названии места совпадают с содержанием входных данных. Оно приведет в большему числу ложно-положительных результатов, чем если бы вы указали известные варианты и орфографические ошибки.

    Практичный рабочий процесс для неточного сопоставления заключается в том, чтобы сначала запустить инструмент с отключенным нечетким совпадением. Затем запустить инструмент снова с включенным неточным совпадением и проверить результаты. Это поможет вам найти варианты написания, которые можно добавить в файл пользовательских местоположений.

    Более подробно о неточном совпадении

Параметры

ПодписьОписаниеТип данных
Входной файл

Входной файл, который будет сканироваться для поиска местоположений (координат или пользовательских местоположений), дат и пользовательских атрибутов; или папка, все файлы которой будут сканироваться для поиска местоположений.

File
Выходной класс объектов

Класс пространственных объектов, содержащий точечные объекты, представляющие найденные местоположения.

Feature Class
Входной шаблон
(Дополнительный)

Файл шаблона (*.lxttmpl), определяющий настройки, используемые для каждого параметра инструмента. При предоставлении файла шаблона все значения, указанные для других параметров, будут проигнорированы, за исключением тех, что определяют входное содержание, которое будет обработано, и выходной класс пространственных объектов.

Некоторые настройки, имеющиеся на панели Извлечь местоположения доступны для этого инструмента только когда настройки сохранены в файл шаблона, в этом параметре указана ссылка на файл шаблона. Это следующие настройки:

  • Пространственные координаты в формате x,y — Позволяет распознавать два последовательных числа, таких как 630084 4833438 или 981075.652ftUS 607151.272ftUS, как координаты, когда они являются допустимыми для плоскостной системы координат, связанной с входными документами. Можно указать будут ли распознаваться как координаты только числа с единицами измерения и без них, или только числа с единицами измерения.
  • Пользовательские форматы координат и даты — Позволяет настроить, как текст распознается в качестве пространственных координат или даты, особенно когда он написан на языке, отличном от английского, или использует формат, не принятый в США. Например, пространственная координата, записанная как 30 20 10 N x 060 50 40 W, может быть распознана с помощью настройки для распознавания символа x как допустимого текста между широтой и долготой. Координаты и даты, такие как 60.91°N, 147.34°O и 17 juillet, 2018, могут быть распознаны, если заданы настройки с учетом языка документов, в данном случае французского. Также, когда используется двухзначное обозначение лет, вы можете управлять диапазоном лет, которым они соответствуют.
  • Предпочтения для некоторых неоднозначных дат — Даты, такие как 10/12/2019 являются неоднозначными, так как их можно интерпретировать и как 12 октября 2019 года, и как 10 декабря 2019 года. Некоторые страны использую в качестве стандарта формат даты м/д/гг, другие - формат д/м/гг. Предпочтения можно задать для того, как интерпретировать такие неоднозначные даты: или как м/д/гг, или как д/м/гг, в зависимости от страны происхождения документа.
  • Длина полей выходного класса объектов — Можно указать длину полей, содержащих текст, окружающий пространственные координаты, которые извлекаются из документа, при помощи параметров Длина поля предварительного текста (pre_text_length in Python) и Длина поля завершающего текста (post_text_length в Python). Панель Извлечь местоположения позволяет управлять длиной нескольких дополнительных полей в таблице атрибутов, включая поля, содержащие даты, извлеченные из документа, исходный текст, конвертированный в даты, имя файла, откуда была извлечена информация, и т.д.

File
Широта и долгота
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных в десятичных градусах, отформатированных как широта и долгота (редкие ложные срабатывания). Примеры: 33.8N 77.035W и W77N38.88909.

  • Отмечено — Инструмент выполнит поиск координат в десятичных градусах, отформатированных как широта и долгота. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в десятичных градусах, отформатированных как широта и долгота.
Boolean
X Y с символами градуса
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных в десятичных градусах, отформатированных как X Y с символами градуса (редкие ложные срабатывания). Примеры: 38.8° -77.035° и -077d+38.88909d.

  • Отмечено — Инструмент выполнит поиск координат в десятичных градусах, отформатированных как X Y с символами градуса. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в десятичных градусах, отформатированных как X Y с символами градуса.
Boolean
X Y без символов
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных в десятичных градусах, отформатированных как X Y без символов (редкие ложные срабатывания). Примеры: 38.8 -77.035 и -077.0, +38.88909.

  • Отмечено — Инструмент выполнит поиск координат в десятичных градусах, отформатированных как X Y без символов (редкие ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в десятичных градусах, отформатированных как X Y без символов.
Boolean
Широта и долгота
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы с десятичными минутами, отформатированных как широта и долгота (редкие ложные срабатывания). Примеры: 3853.3N 7702.100W и W7702N3853.3458.

  • Отмечено — Инструмент выполнит поиск координат в градусах с десятичными минутами, отформатированных как широта и долгота. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах с десятичными минутами, отформатированных как широта и долгота.
Boolean
X Y с символами минут
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы с десятичными минутами, отформатированных как X Y с символами минут (редкие ложные срабатывания). Примеры: 3853' -7702.1' и -07702m+3853.3458m.

  • Отмечено — Инструмент выполнит поиск координат в градусах с десятичными минутами, отформатированных как X Y с символами минут. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах с десятичными минутами, отформатированных как X Y с символами минут.
Boolean
Широта и долгота
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы минуты секунды, отформатированных как широта и долгота (редкие ложные срабатывания). Примеры: 385320.7N 770206.000W и W770206N385320.76.

  • Отмечено — Инструмент выполнит поиск координат в градусах минутах секундах, отформатированных как широта и долгота. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах минутах секундах, отформатированных как широта и долгота.
Boolean
X Y с символами секунд
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы минуты секунды, отформатированных как X Y с символами секунд (редкие ложные срабатывания). Примеры: 385320" -770206.0" и -0770206.0s+385320.76s.

  • Отмечено — Инструмент выполнит поиск координат в градусах минутах секундах, отформатированных как X Y с символами секунд. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах минутах секундах, отформатированных как X Y с символами секунд.
Boolean
X Y с разделителями
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы минуты секунды, отформатированных как X Y с разделителями (умеренные ложные срабатывания). Примеры: 38:53:20 -77:2:6.0 и -077/02/06/+38/53/20.76.

  • Отмечено — Инструмент выполнит поиск координат в градусах минутах секундах, отформатированных как X Y с разделителями. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах минутах секундах, отформатированных как X Y с разделителями.
Boolean
Universal Transverse Mercator
(Дополнительный)

Указывает, будет ли выполняться поиск координат в Универсальной поперечной проекции Меркатора (UTM) (редкие ложные срабатывания). Примеры: 18S 323503 4306438 и 18 north 323503.25 4306438.39.

  • Отмечено — Инструмент выполнит поиск координат UTM. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат UTM.
Boolean
UPS North Polar
(Дополнительный)

Указывает, будет ли выполняться поиск координат в Универсальной полярной стереографической проекции в северной полярной области (редкие ложные срабатывания). Примеры: Y 2722399 2000000 и north 2722399 2000000.

  • Отмечено — Инструмент выполнит поиск координат UPS в северной полярной области. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат UPS в северной полярной области.
Boolean
UPS South Polar
(Дополнительный)

Указывает, будет ли выполняться поиск координат в Универсальной полярной стереографической проекции в южной полярной области (редкие ложные срабатывания). Примеры: A 2000000 3168892 и south 2000000 3168892.

  • Отмечено — Инструмент выполнит поиск координат UPS в южной полярной области. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат UPS в южной полярной области.
Boolean
Military Grid Reference System
(Дополнительный)

Указывает, будет ли выполняться поиск координат Military Grid Reference System (MGRS) (редкие ложные срабатывания). Примеры: 18S UJ 13503 06438 и 18SUJ0306.

  • Отмечено — Инструмент выполнит поиск координат MGRS. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат MGRS.
Boolean
North Polar
(Дополнительный)

Указывает, будет ли выполняться поиск координат Military Grid Reference System (MGRS) в северной полярной области (редкие ложные срабатывания). Примеры: Y TG 56814 69009 и YTG5669.

  • Отмечено — Инструмент выполнит поиск координат MGRS в северной полярной области. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат MGRS в северной полярной области.
Boolean
South Polar
(Дополнительный)

Указывает, будет ли выполняться поиск координат Military Grid Reference System (MGRS) в южной полярной области (умеренные ложные срабатывания). Примеры: A TN 56814 30991 и ATN5630.

  • Отмечено — Инструмент выполнит поиск координат MGRS в южной полярной области. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат MGRS в южной полярной области.
Boolean
Использовать запятую как разделитель десятичных знаков
(Дополнительный)

Указывает, будет ли запятая (,) распознаваться как разделитель десятичных знаков. По умолчанию, ресурсы, которые сканируются на наличие пространственных координат, заданных числами, используют в качестве разделителя десятичных знаков точку (.) или среднюю точку (·), например: Lat 01° 10·80’ N Long 103° 28·60’ E. Если вы работаете с ресурсом, в котором пространственные координаты заданы числами, использующими в качестве разделителя десятичных знаков запятую (,) например: 52° 8′ 32,14″ N; 5° 24′ 56,09″ E, настройте этот параметр для распознавания запятой как разделителя. Этот параметр не задается автоматически на основании региональных установок операционной системы вашего компьютера.

  • Отмечено — Запятая будет распознаваться как разделитель десятичных знаков.
  • Не отмечено — Точка или средняя точка будет распознаваться как разделитель десятичных знаков. Это значение по умолчанию
Boolean
Интерпретировать как долготу, широту
(Дополнительный)

Указывает, будут ли координаты x,y интерпретированы как долгота-широта Когда числа похожи на координаты x,y, оба меньше 90, но нет символов или обозначений, указывающих, что из них представляет широту или долготу, могут получиться неопределенные результаты. Интерпретировать числа как координаты долготы- широты (x,y), вместо широты-долготы (y,x).

  • Отмечено — Координаты x,y будут интерпретированы как долгота-широта.
  • Не отмечено — Координаты x,y будут интерпретированы как широта-долгота. Это значение по умолчанию
Boolean
Входная система координат
(Дополнительный)

Система координат, которая будет использоваться для интерпретации пространственных координат, заданных во входных данных. GCS-WGS-84 - значение по умолчанию.

Spatial Reference
Входные пользовательские местоположения
(Дополнительный)

Файл пользовательских местоположений (.lxtgaz), который будет использоваться при сканировании входных данных. Создается точка, представляющая каждое упоминание каждого названия места в файле пользовательских местоположений в пределах, установленных другими параметрами инструмента.

File
Использовать неточное совпадение
(Дополнительный)

Указывает, будет ли использоваться неточное совпадение при сравнении входных данных с названиями мест, заданных в файле пользовательских местоположений.

  • Отмечено - неточное совпадение будет использоваться при поиске в файле пользовательских местоположений.
  • Отмечено - точное совпадение будет использоваться при поиске в файле пользовательских местоположений. Это значение по умолчанию
Boolean
Максимальное число извлеченных объектов
(Дополнительный)

Максимальное число объектов, которые можно извлечь. Инструмент прекратит сканирование входного ресурса на наличие местоположений, когда будет достигнуто максимальное число. При запуске в качестве сервиса геообработки, сервис и сервер могут иметь раздельные ограничения на допустимое число объектов.

Long
Игнорировать это первое число объектов
(Дополнительный)

Число объектов, выявленных и проигнорированных до извлечения всех остальных объектов. Этот параметр можно использовать для фокусировки поиска на определенной части данных.

Long
Использованное имя месяца
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых встречается название месяца (редкие ложные срабатывания). 12 May 2003 и January 15, 1997 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых встречается название месяца. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых встречается название месяца.
Boolean
М/Д/Г и Д/М/Г
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате М/Д/Г или Д/М/Г (умеренные ложные срабатывания). 5/12/03 и 1-15-1997 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых числа находятся в формате М/Д/Г или Д/М/Г (умеренные ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых числа находятся в формате М/Д/Г или Д/М/Г.
Boolean
ГГГГММДД
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате ГГГГММДД (умеренные ложные срабатывания). 20030512 и 19970115 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых числа находятся в формате ГГГГММДД (умеренные ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых числа находятся в формате ГГГГММДД.
Boolean
ГГММДД
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате ГГММДД (частые ложные срабатывания). 030512 и 970115 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых числа находятся в формате ГГММДД (частые ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых числа находятся в формате ГГММДД.
Boolean
YYJJJ
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате YYJJJ или YYYYJJJ (частые ложные срабатывания). 03132 и 97015 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых числа находятся в формате YYJJJ или YYYYJJJ (частые ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых числа находятся в формате YYJJJ или YYYYJJJ.
Boolean
Максимальное число извлеченных дат
(Дополнительный)

Максимальное число дат, которые будут извлечены.

Long
Игнорировать это первое число дат
(Дополнительный)

Количество дат, выявленных и проигнорированных до извлечения всех остальных дат.

Long
Самая ранняя дата допустимого диапазона дат
(Дополнительный)

Самая ранняя допустимая дата для извлечения. Будут извлечены обнаруженные даты, соответствующие этому значению или более поздние.

Date
Самая поздняя дата допустимого диапазона дат
(Дополнительный)

Самая поздняя допустимая дата для извлечения. Будут извлечены обнаруженные даты, соответствующие этому значению или более ранние.

Date
Входные пользовательские атрибуты
(Дополнительный)

Файл пользовательских атрибутов (.lxtca), который будет использоваться при сканировании входных данных. Для всех пользовательских атрибутов, определенных в файле, будут созданы поля в таблице атрибутов выходного класса объектов. Когда входное содержание будет отсканировано, оно будет проверено на наличие текста, связанного со всеми пользовательскими атрибутами, указанными в файле. Если совпадение найдено, соответствующий текст извлекается из входных данных и сохраняется в соответствующем поле.

File
Текст ссылки на входной файл
(Дополнительный)

Путь к файлу, который будет использоваться как имя файла в выходных данных, когда параметр Входной файл (in_file в Python) передается на сервер. Если этот параметр не задан, будет использован путь к Входному файлу, который может быть недоступной папкой на сервере. Этот параметр ни на что не влияет, если не указан Входной файл.

String
Дата и время входного файла
(Дополнительный)

Дата и время UTC, когда был изменен файл, будут использоваться как атрибут изменения в выходных данных, когда параметр Входной файл (in_file в Python) передается на сервер. Если параметр не указан, будет использовано текущее время изменения входного файла. Этот параметр ни на что не влияет, если не указан Входной файл.

Date
Длина поля предварительного текста
(Дополнительный)

Содержание, извлеченное из входного документа, для обеспечения контекста найденного местоположения. Этот параметр задает максимальное число символов, которые будут извлечены перед текстом, определяющим местоположение. Извлеченный текст хранится в поле Pre-Text в атрибутивной таблице выходного класса объектов. По умолчанию - 254. Тип данных поля Pre-Text также будет иметь такую длину. Для текстового поля в шейп-файле ограничена 254 символами. Если выходными данными является шейп-файл, большее число символов будет сокращено до 254.

Long
Длина поля завершающего текста
(Дополнительный)

Содержание, извлеченное из входного документа, для обеспечения контекста найденного местоположения. Этот параметр задает максимальное число символов, которые будут извлечены после текста, определяющего местоположение. Извлеченный текст хранится в поле Post-Text в атрибутивной таблице выходного класса объектов. По умолчанию - 254. Тип данных поля Post-Text также будет иметь такую длину. Для текстового поля в шейп-файле ограничена 254 символами. Если выходными данными является шейп-файл, большее число символов будет сокращено до 254.

Long
Формат координат
(Дополнительный)

Указывает формат координат, который будет использован для хранения координатного местоположения. Стандартное представление пространственных координат, определяющих точечный объект, записывается в поле таблицы атрибутов.

  • DD – Десятичные градусыКоординатное местоположение записывается в формате десятичных градусов. Это значение по умолчанию
  • DM – Градусы с десятичными минутамиКоординатное местоположение записывается в формате градусов с десятичными минутами.
  • DMS – Градусы Минуты СекундыКоординатное местоположение записывается в формате градусы минуты секунды.
  • UTM – Универсальная поперечная проекция МеркатораКоординатное местоположение записывается в формате Universal Transverse Mercator.
  • MGRS – Военная система прямоугольных координат СШАКоординатное местоположение записывается в формате Military Grid Reference System.
String
Необходимы разделители слов
(Дополнительный)

Указывает, будет ли поиск текста использовать разделители слов. Разрыв слова происходит, когда слова (текст) разделены пробелами или знаками препинания, как в европейских языках.

Эта настройка может давать как частые, так и редкие ложные срабатывания, в зависимости от языка, на котором написан текст. Например, если разделители слов не заданы, текст на английском Bernard приведет к совпадению с текстом San Bernardino, то, скорее всего, был бы расценен как ложное срабатывание. Однако если текст написан на языке, не использующем разделители слов, вы не сможете найти слова, когда необходимы разделители слов. Например, в тексте I flew to Tokyo на японском, 私は東京に飛んで, вы сможете найти слово Tokyo, 東京, только если разделители слов не требуются.

  • Отмечено — Инструмент выполнит поиск слов, ограниченных пробелами или символами пунктуации. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск слов, ограниченных пробелами или символами пунктуации.
Boolean

arcpy.conversion.ExtractLocationsDocument(in_file, out_feature_class, {in_template}, {coord_dd_latlon}, {coord_dd_xydeg}, {coord_dd_xyplain}, {coord_dm_latlon}, {coord_dm_xymin}, {coord_dms_latlon}, {coord_dms_xysec}, {coord_dms_xysep}, {coord_utm}, {coord_ups_north}, {coord_ups_south}, {coord_mgrs}, {coord_mgrs_northpolar}, {coord_mgrs_southpolar}, {comma_decimal}, {coord_use_lonlat}, {in_coor_system}, {in_custom_locations}, {fuzzy_match}, {max_features_extracted}, {ignore_first_features}, {date_monthname}, {date_m_d_y}, {date_yyyymmdd}, {date_yymmdd}, {date_yyjjj}, {max_dates_extracted}, {ignore_first_dates}, {date_range_begin}, {date_range_end}, {in_custom_attributes}, {file_link}, {file_mod_datetime}, {pre_text_length}, {post_text_length}, {std_coord_fmt}, {req_word_breaks})
ИмяОписаниеТип данных
in_file

Входной файл, который будет сканироваться для поиска местоположений (координат или пользовательских местоположений), дат и пользовательских атрибутов; или папка, все файлы которой будут сканироваться для поиска местоположений.

File
out_feature_class

Класс пространственных объектов, содержащий точечные объекты, представляющие найденные местоположения.

Feature Class
in_template
(Дополнительный)

Файл шаблона (*.lxttmpl), определяющий настройки, используемые для каждого параметра инструмента. При предоставлении файла шаблона все значения, указанные для других параметров, будут проигнорированы, за исключением тех, что определяют входное содержание, которое будет обработано, и выходной класс пространственных объектов.

Некоторые настройки, имеющиеся на панели Извлечь местоположения доступны для этого инструмента только когда настройки сохранены в файл шаблона, в этом параметре указана ссылка на файл шаблона. Это следующие настройки:

  • Пространственные координаты в формате x,y — Позволяет распознавать два последовательных числа, таких как 630084 4833438 или 981075.652ftUS 607151.272ftUS, как координаты, когда они являются допустимыми для плоскостной системы координат, связанной с входными документами. Можно указать будут ли распознаваться как координаты только числа с единицами измерения и без них, или только числа с единицами измерения.
  • Пользовательские форматы координат и даты — Позволяет настроить, как текст распознается в качестве пространственных координат или даты, особенно когда он написан на языке, отличном от английского, или использует формат, не принятый в США. Например, пространственная координата, записанная как 30 20 10 N x 060 50 40 W, может быть распознана с помощью настройки для распознавания символа x как допустимого текста между широтой и долготой. Координаты и даты, такие как 60.91°N, 147.34°O и 17 juillet, 2018, могут быть распознаны, если заданы настройки с учетом языка документов, в данном случае французского. Также, когда используется двухзначное обозначение лет, вы можете управлять диапазоном лет, которым они соответствуют.
  • Предпочтения для некоторых неоднозначных дат — Даты, такие как 10/12/2019 являются неоднозначными, так как их можно интерпретировать и как 12 октября 2019 года, и как 10 декабря 2019 года. Некоторые страны использую в качестве стандарта формат даты м/д/гг, другие - формат д/м/гг. Предпочтения можно задать для того, как интерпретировать такие неоднозначные даты: или как м/д/гг, или как д/м/гг, в зависимости от страны происхождения документа.
  • Длина полей выходного класса объектов — Можно указать длину полей, содержащих текст, окружающий пространственные координаты, которые извлекаются из документа, при помощи параметров Длина поля предварительного текста (pre_text_length in Python) и Длина поля завершающего текста (post_text_length в Python). Панель Извлечь местоположения позволяет управлять длиной нескольких дополнительных полей в таблице атрибутов, включая поля, содержащие даты, извлеченные из документа, исходный текст, конвертированный в даты, имя файла, откуда была извлечена информация, и т.д.

File
coord_dd_latlon
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных в десятичных градусах, отформатированных как широта и долгота (редкие ложные срабатывания). Примеры: 33.8N 77.035W и W77N38.88909.

  • FIND_DD_LATLONИнструмент выполнит поиск координат в десятичных градусах, отформатированных как широта и долгота. Это значение по умолчанию
  • DONT_FIND_DD_LATLONИнструмент не будет выполнять поиск координат в десятичных градусах, отформатированных как широта и долгота.
Boolean
coord_dd_xydeg
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных в десятичных градусах, отформатированных как X Y с символами градуса (редкие ложные срабатывания). Примеры: 38.8° -77.035° и -077d+38.88909d.

  • FIND_DD_XYDEGИнструмент выполнит поиск координат в десятичных градусах, отформатированных как X Y с символами градуса. Это значение по умолчанию
  • DONT_FIND_DD_XYDEGИнструмент не будет выполнять поиск координат в десятичных градусах, отформатированных как X Y с символами градуса.
Boolean
coord_dd_xyplain
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных в десятичных градусах, отформатированных как X Y без символов (редкие ложные срабатывания). Примеры: 38.8 -77.035 и -077.0, +38.88909.

  • FIND_DD_XYPLAINИнструмент выполнит поиск координат в десятичных градусах, отформатированных как X Y без символов (редкие ложные срабатывания). Это значение по умолчанию
  • DONT_FIND_DD_XYPLAINИнструмент не будет выполнять поиск координат в десятичных градусах, отформатированных как X Y без символов.
Boolean
coord_dm_latlon
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы с десятичными минутами, отформатированных как широта и долгота (редкие ложные срабатывания). Примеры: 3853.3N 7702.100W и W7702N3853.3458.

  • FIND_DM_LATLONИнструмент выполнит поиск координат в градусах с десятичными минутами, отформатированных как широта и долгота. Это значение по умолчанию
  • DONT_FIND_DM_LATLONИнструмент не будет выполнять поиск координат в градусах с десятичными минутами, отформатированных как широта и долгота.
Boolean
coord_dm_xymin
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы с десятичными минутами, отформатированных как X Y с символами минут (редкие ложные срабатывания). Примеры: 3853' -7702.1' и -07702m+3853.3458m.

  • FIND_DM_XYMINИнструмент выполнит поиск координат в градусах с десятичными минутами, отформатированных как X Y с символами минут. Это значение по умолчанию
  • DONT_FIND_DM_XYMINИнструмент не будет выполнять поиск координат в градусах с десятичными минутами, отформатированных как X Y с символами минут.
Boolean
coord_dms_latlon
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы минуты секунды, отформатированных как широта и долгота (редкие ложные срабатывания). Примеры: 385320.7N 770206.000W и W770206N385320.76.

  • FIND_DMS_LATLONИнструмент выполнит поиск координат в градусах минутах секундах, отформатированных как широта и долгота. Это значение по умолчанию
  • DONT_FIND_DMS_LATLONИнструмент не будет выполнять поиск координат в градусах минутах секундах, отформатированных как широта и долгота.
Boolean
coord_dms_xysec
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы минуты секунды, отформатированных как X Y с символами секунд (редкие ложные срабатывания). Примеры: 385320" -770206.0" и -0770206.0s+385320.76s.

  • FIND_DMS_XYSECИнструмент выполнит поиск координат в градусах минутах секундах, отформатированных как X Y с символами секунд. Это значение по умолчанию
  • DONT_FIND_DMS_XYSECИнструмент не будет выполнять поиск координат в градусах минутах секундах, отформатированных как X Y с символами секунд.
Boolean
coord_dms_xysep
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы минуты секунды, отформатированных как X Y с разделителями (умеренные ложные срабатывания). Примеры: 8:53:20 -77:2:6.0 и -077/02/06/+38/53/20.76.

  • FIND_DMS_XYSEPИнструмент выполнит поиск координат в градусах минутах секундах, отформатированных как X Y с разделителями. Это значение по умолчанию
  • DONT_FIND_DMS_XYSEPИнструмент не будет выполнять поиск координат в градусах минутах секундах, отформатированных как X Y с разделителями.
Boolean
coord_utm
(Дополнительный)

Указывает, будет ли выполняться поиск координат в Универсальной поперечной проекции Меркатора (UTM) (редкие ложные срабатывания). Примеры: 18S 323503 4306438 и 18 north 323503.25 4306438.39.

  • FIND_UTM_MAINWORLDИнструмент выполнит поиск координат UTM. Это значение по умолчанию
  • DONT_FIND_UTM_MAINWORLDИнструмент не будет выполнять поиск координат UTM.
Boolean
coord_ups_north
(Дополнительный)

Указывает, будет ли выполняться поиск координат в Универсальной полярной стереографической проекции в северной полярной области (редкие ложные срабатывания). Примеры: Y 2722399 2000000 и north 2722399 2000000.

  • FIND_UTM_NORTHPOLARИнструмент выполнит поиск координат UPS в северной полярной области. Это значение по умолчанию
  • DONT_FIND_UTM_NORTHPOLARИнструмент не будет выполнять поиск координат UPS в северной полярной области.
Boolean
coord_ups_south
(Дополнительный)

Указывает, будет ли выполняться поиск координат в Универсальной полярной стереографической проекции в южной полярной области (редкие ложные срабатывания). Примеры: A 2000000 3168892 и south 2000000 3168892.

  • FIND_UTM_SOUTHPOLARИнструмент выполнит поиск координат UPS в южной полярной области. Это значение по умолчанию
  • DONT_FIND_UTM_SOUTHPOLARИнструмент не будет выполнять поиск координат UPS в южной полярной области.
Boolean
coord_mgrs
(Дополнительный)

Указывает, будет ли выполняться поиск координат Military Grid Reference System (MGRS) (редкие ложные срабатывания). Примеры: 18S UJ 13503 06438 и 18SUJ0306.

  • FIND_MGRS_MAINWORLDИнструмент выполнит поиск координат MGRS. Это значение по умолчанию
  • DONT_FIND_MGRS_MAINWORLDИнструмент не будет выполнять поиск координат MGRS.
Boolean
coord_mgrs_northpolar
(Дополнительный)

Указывает, будет ли выполняться поиск координат Military Grid Reference System (MGRS) в северной полярной области (редкие ложные срабатывания). Примеры: Y TG 56814 69009 и YTG5669.

  • FIND_MGRS_NORTHPOLARИнструмент выполнит поиск координат MGRS в северной полярной области. Это значение по умолчанию
  • DONT_FIND_MGRS_NORTHPOLARИнструмент не будет выполнять поиск координат MGRS в северной полярной области.
Boolean
coord_mgrs_southpolar
(Дополнительный)

Указывает, будет ли выполняться поиск координат Military Grid Reference System (MGRS) в южной полярной области (умеренные ложные срабатывания). Примеры: A TN 56814 30991 и ATN5630.

  • FIND_MGRS_SOUTHPOLARИнструмент выполнит поиск координат MGRS в южной полярной области. Это значение по умолчанию
  • DONT_FIND_MGRS_SOUTHPOLARИнструмент не будет выполнять поиск координат MGRS в южной полярной области.
Boolean
comma_decimal
(Дополнительный)

Указывает, будет ли запятая (,) распознаваться как разделитель десятичных знаков. По умолчанию, ресурсы, которые сканируются на наличие пространственных координат, заданных числами, используют в качестве разделителя десятичных знаков точку (.) или среднюю точку (·), например: Lat 01° 10·80’ N Long 103° 28·60’ E. Если вы работаете с ресурсом, в котором пространственные координаты заданы числами, использующими в качестве разделителя десятичных знаков запятую (,) например: 52° 8′ 32,14″ N; 5° 24′ 56,09″ E, настройте этот параметр для распознавания запятой как разделителя. Этот параметр не задается автоматически на основании региональных установок операционной системы вашего компьютера.

  • USE_COMMA_DECIMAL_MARKЗапятая будет распознаваться как разделитель десятичных знаков.
  • USE_DOT_DECIMAL_MARKТочка или средняя точка будет распознаваться как разделитель десятичных знаков. Это значение по умолчанию
Boolean
coord_use_lonlat
(Дополнительный)

Когда числа похожи на координаты x,y, оба меньше 90, но нет символов или обозначений, указывающих, что из них представляет широту или долготу, могут получиться неопределенные результаты. Интерпретировать числа как координаты долготы- широты (x,y), вместо широты-долготы (y,x).

  • PREFER_LONLATкоординаты x,y будут интерпретированы как долгота-широта
  • PREFER_LATLONкоординаты x,y будут интерпретированы как широта-долгота Это значение по умолчанию
Boolean
in_coor_system
(Дополнительный)

Система координат, которая будет использоваться для интерпретации пространственных координат, заданных во входных данных. GCS-WGS-84 - значение по умолчанию.

Spatial Reference
in_custom_locations
(Дополнительный)

Файл пользовательских местоположений (.lxtgaz), который будет использоваться при сканировании входных данных. Создается точка, представляющая каждое упоминание каждого названия места в файле пользовательских местоположений в пределах, установленных другими параметрами инструмента.

File
fuzzy_match
(Дополнительный)

Указывает, будет ли использоваться неточное совпадение при поиске в файле пользовательских местоположений.

  • USE_FUZZYНеточное совпадение будет использоваться при поиске в файле пользовательских местоположений.
  • DONT_USE_FUZZYТочное совпадение будет использоваться при поиске в файле пользовательских местоположений. Это значение по умолчанию
Boolean
max_features_extracted
(Дополнительный)

Максимальное число объектов, которые можно извлечь. Инструмент прекратит сканирование входного ресурса на наличие местоположений, когда будет достигнуто максимальное число. При запуске в качестве сервиса геообработки, сервис и сервер могут иметь раздельные ограничения на допустимое число объектов.

Long
ignore_first_features
(Дополнительный)

Число объектов, выявленных и проигнорированных до извлечения всех остальных объектов. Этот параметр можно использовать для фокусировки поиска на определенной части данных.

Long
date_monthname
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых встречается название месяца (редкие ложные срабатывания). 12 May 2003 и January 15, 1997 являются примерами.

  • FIND_DATE_MONTHNAMEИнструмент выполнит поиск дат, в которых встречается название месяца. Это значение по умолчанию
  • DONT_FIND_DATE_MONTHNAMEИнструмент не будет выполнять поиск дат, в которых встречается название месяца.
Boolean
date_m_d_y
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате М/Д/Г или Д/М/Г (умеренные ложные срабатывания). 5/12/03 и 1-15-1997 являются примерами.

  • FIND_DATE_M_D_YИнструмент выполнит поиск дат, в которых числа находятся в формате М/Д/Г или Д/М/Г (умеренные ложные срабатывания). Это значение по умолчанию
  • DONT_FIND_DATE_M_D_YИнструмент не будет выполнять поиск дат, в которых числа находятся в формате М/Д/Г или Д/М/Г.
Boolean
date_yyyymmdd
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате ГГГГММДД (умеренные ложные срабатывания). 20030512 и 19970115 являются примерами.

  • FIND_DATE_YYYYMMDDИнструмент выполнит поиск дат, в которых числа находятся в формате ГГГГММДД (умеренные ложные срабатывания). Это значение по умолчанию
  • DONT_FIND_DATE_YYYYMMDDИнструмент не будет выполнять поиск дат, в которых числа находятся в формате ГГГГММДД.
Boolean
date_yymmdd
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате ГГММДД (частые ложные срабатывания). 030512 и 970115 являются примерами.

  • FIND_DATE_YYMMDDИнструмент выполнит поиск дат, в которых числа находятся в формате ГГММДД (частые ложные срабатывания). Это значение по умолчанию
  • DONT_FIND_DATE_YYMMDDИнструмент не будет выполнять поиск дат, в которых числа находятся в формате ГГММДД.
Boolean
date_yyjjj
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате YYJJJ или YYYYJJJ (частые ложные срабатывания). 03132 и 97015 являются примерами.

  • FIND_DATE_YYJJJИнструмент выполнит поиск дат, в которых числа находятся в формате YYJJJ или YYYYJJJ (частые ложные срабатывания). Это значение по умолчанию
  • DONT_FIND_DATE_YYJJJИнструмент не будет выполнять поиск дат, в которых числа находятся в формате YYJJJ или YYYYJJJ.
Boolean
max_dates_extracted
(Дополнительный)

Максимальное число дат, которые будут извлечены.

Long
ignore_first_dates
(Дополнительный)

Количество дат, выявленных и проигнорированных до извлечения всех остальных дат.

Long
date_range_begin
(Дополнительный)

Самая ранняя допустимая дата для извлечения. Будут извлечены обнаруженные даты, соответствующие этому значению или более поздние.

Date
date_range_end
(Дополнительный)

Самая поздняя допустимая дата для извлечения. Будут извлечены обнаруженные даты, соответствующие этому значению или более ранние.

Date
in_custom_attributes
(Дополнительный)

Файл пользовательских атрибутов (.lxtca), который будет использоваться при сканировании входных данных. Для всех пользовательских атрибутов, определенных в файле, будут созданы поля в таблице атрибутов выходного класса объектов. Когда входное содержание будет отсканировано, оно будет проверено на наличие текста, связанного со всеми пользовательскими атрибутами, указанными в файле. Если совпадение найдено, соответствующий текст извлекается из входных данных и сохраняется в соответствующем поле.

File
file_link
(Дополнительный)

Путь к файлу, который будет использоваться как имя файла в выходных данных, когда параметр Входной файл (in_file в Python) передается на сервер. Если этот параметр не задан, будет использован путь к Входному файлу, который может быть недоступной папкой на сервере. Этот параметр ни на что не влияет, если не указан Входной файл.

String
file_mod_datetime
(Дополнительный)

Дата и время UTC, когда был изменен файл, будут использоваться как атрибут изменения в выходных данных, когда параметр Входной файл (in_file в Python) передается на сервер. Если параметр не указан, будет использовано текущее время изменения входного файла. Этот параметр ни на что не влияет, если не указан Входной файл.

Date
pre_text_length
(Дополнительный)

Содержание, извлеченное из входного документа, для обеспечения контекста найденного местоположения. Этот параметр задает максимальное число символов, которые будут извлечены перед текстом, определяющим местоположение. Извлеченный текст хранится в поле Pre-Text в атрибутивной таблице выходного класса объектов. По умолчанию - 254. Тип данных поля Pre-Text также будет иметь такую длину. Для текстового поля в шейп-файле ограничена 254 символами. Если выходными данными является шейп-файл, большее число символов будет сокращено до 254.

Long
post_text_length
(Дополнительный)

Содержание, извлеченное из входного документа, для обеспечения контекста найденного местоположения. Этот параметр задает максимальное число символов, которые будут извлечены после текста, определяющего местоположение. Извлеченный текст хранится в поле Post-Text в атрибутивной таблице выходного класса объектов. По умолчанию - 254. Тип данных поля Post-Text также будет иметь такую длину. Для текстового поля в шейп-файле ограничена 254 символами. Если выходными данными является шейп-файл, большее число символов будет сокращено до 254.

Long
std_coord_fmt
(Дополнительный)

Указывает формат координат, который будет использован для хранения координатного местоположения. Стандартное представление пространственных координат, определяющих точечный объект, записывается в поле таблицы атрибутов.

  • STD_COORD_FMT_DDКоординатное местоположение записывается в формате десятичных градусов. Это значение по умолчанию
  • STD_COORD_FMT_DMКоординатное местоположение записывается в формате градусов с десятичными минутами.
  • STD_COORD_FMT_DMSКоординатное местоположение записывается в формате градусы минуты секунды.
  • STD_COORD_FMT_UTMКоординатное местоположение записывается в формате Universal Transverse Mercator.
  • STD_COORD_FMT_MGRSКоординатное местоположение записывается в формате Military Grid Reference System.
String
req_word_breaks
(Дополнительный)

Указывает, будет ли поиск текста использовать разделители слов. Разрыв слова происходит, когда слова (текст) разделены пробелами или знаками препинания, как в европейских языках.

Эта настройка может давать как частые, так и редкие ложные срабатывания, в зависимости от языка, на котором написан текст. Например, если разделители слов не заданы, текст на английском Bernard приведет к совпадению с текстом San Bernardino, то, скорее всего, был бы расценен как ложное срабатывание. Однако если текст написан на языке, не использующем разделители слов, вы не сможете найти слова, когда необходимы разделители слов. Например, в тексте I flew to Tokyo на японском, 私は東京に飛んで, вы сможете найти слово Tokyo, 東京, только если разделители слов не требуются.

  • REQ_WORD_BREAKSИнструмент выполнит поиск слов, ограниченных пробелами или символами пунктуации. Это значение по умолчанию
  • DONT_REQ_WORD_BREAKSИнструмент не будет выполнять поиск слов, ограниченных пробелами или символами пунктуации.
Boolean

Пример кода

ExtractLocationsFromDocument, пример (окно Python)

Пример скрипта окна Python для использования функции ExtractLocationsFromDocument в режиме прямого запуска.

import arcpy
arcpy.env.workspace = "c:/data"
arcpy.conversion.ExtractLocationsFromDocument("wells.docx", "water.gdb/wells")

Связанные разделы