Настройка способа извлечения местоположений и атрибутов

Доступно с лицензией LocateXT.

После сканирования набора документов или текста и оценки результатов вам может потребоваться настроить способ извлечения и оценки содержания. Если у вас есть множество документов в различных форматах, подход будет отличаться от случая, когда у вас множество документов с известным форматом, содержащих частично структурированную информацию.

На панели Извлечь местоположения находятся различные настройки, предназначенные для распознавания наиболее частых местоположений и поддерживающие извлечение свежих дат. Когда вы лучше ознакомитесь с содержанием документов или текста, вы сможете изменить настройки и оптимизировать извлекаемую информацию. Эти параметры настраиваются на вкладке Свойства.

Коллекция параметров, используемых по умолчанию, связана с шаблоном Неструктурированные данные по умолчанию. Когда вы определите настройки, лучше всего подходящие к документам или определенным форматам текста, вы можете сохранить их в пользовательском шаблоне. Используйте шаблон, когда получаете пакет документов в коллекции или похожий текст.

Более подробно о шаблонах для извлечения местоположений

Опции

По умолчанию, когда вы щелкаете вкладку Свойства, выбирается вкладка Опции Параметры. Она позволяет включать или выключать переключатели, связанные с категориями информации, которая может быть извлечена из входных документов или текста, и настраивать способ обработки информации. Она также позволяет задавать символ, который будет использоваться выходным слоем карты.

  • Извлечь местоположения
    • Координаты – переключатель Координаты по умолчанию включен. При сканировании документов, они исследуются на пространственные координаты. Для каждого найденного местоположения в выходном классе объектов создается точка.
    • Пользовательские местоположения – переключатель Пользовательские местоположения по умолчанию выключен. При сканировании документов они изучаются на наличие названий местоположений, заданных в пользовательском файле местоположений. Пользовательский файл местоположений связывает название места с пространственными координатами. Для каждого найденного местоположения в выходном классе объектов создается точка.
    • Нечеткое сопоставление – переключатель Нечеткое сопоставление по умолчанию выключен. Когда вы ищете пользовательские местоположения, неточное совпадение может использоваться для сравнения содержания входных документов с пользовательскими местоположениями, например, для учета ошибок в написании.
  • Извлечь атрибуты
    • Даты – переключатель Даты по умолчанию включен. При сканировании документов, они исследуются на свежие даты. Найденные даты извлекаются и сохраняются в атрибутивной таблице выходного класса объектов.
    • Пользовательские атрибуты – переключатель Пользовательские атрибуты по умолчанию выключен. При сканировании документов они изучаются на наличие ключевых слов, заданных в пользовательском файле атрибутов. Пользовательский атрибутивный файл определяет искомые ключевые слова и текст, извлекаемый при их нахождении, он задает пользовательское поле, которое будет создаваться в атрибутивной таблице выходного класса объектов для хранения извлеченных данных.
  • Элемент управления поиском
    • Необходимы разделители слов – переключатель Необходимы разделители слов по умолчанию включен. Когда документы сканируются, они проверяются на наличие слов, где слово представляет собой текст, ограниченный пробелами или знаками препинания, как это принято в европейских языках. Этот параметр влияет на способ идентификации слов при поиске пользовательских положений и пользовательских атрибутов в документе. Он также влияет на способ определения координат и дат, например, в случае, когда текст, который может представлять собой координату или дату, окружен другими символами.
  • Символы – по умолчанию используется красный круг с заливкой. При создании выходного слоя карты, точки в выходном классе объектов будут обозначаться указанным символом.

Рядом с некоторыми переключателями находятся кнопки со стрелками Перейти к опции. Эти кнопки позволяют перейти на следующую вкладку панели Извлечь местоположения, где вы можете настроить способ оценки и извлечения координат, пользовательских местоположений, дат или пользовательских атрибутов.

На панели Извлечь местоположения также доступны следующие опции, которые могут использоваться для настройки обрабатываемых файлов, извлекаемых ресурсов и типов выходных данных. Однако эти опции не представлены переключателями, как на вкладке Опции.

  • Сканировать файлы – позволяет выбирать сканируемые файлы.
  • Выходные данные – управляет количеством оцениваемых объектов и дат, а также ресурсами, которые попадают в атрибутивную таблицу выходного класса объектов.

Координаты

На вкладке Координаты задаются форматы координат при сканировании документов. Пары цифровых или буквенно-цифровых комбинаций изучаются на соответствие заданным форматам координат. Варианты пространственных координат проверяются на соответствие всем активным форматам:

  • Форматы X Y - координаты задаются, как значения x,y
  • Форматы DD - формат десятичных градусов
  • Форматы DM - формат градусов с десятичными минутами
  • Форматы DMS - формат градусов, минут и секунд
  • Форматы UTM - формат Universal Transverse Mercator
  • Форматы MGRS - формат Military Grid Reference System

В выходном классе объектов создается местоположение, соответствующее первым найденным координатам, совпадающем с заданным форматом.

Каждый формат координат связывается со своим набором опций, которые включены или выключены по умолчанию, что обеспечивает приемлемый набор выходных местоположений. Некоторые опции могут создавать выходные местоположения, если во входных документах содержится пара цифровых или буквенно-цифровых комбинаций, которые напоминают пространственные координаты, но не указывают местоположение на поверхности земли; они также называются ложно-положительными. Опции, которые по умолчанию отключены, могут вызывать ложно-положительные срабатывания. Однако если вы знаете, что в документах имеются координаты в таких форматах, следует включить эти опции. При включении меньшего числа форматов координат документы сканируются быстрее.

Поддерживаемые форматы координат могут быть настроены в соответствии с набором документов. К примеру, документы могут быть написаны на другом языке или могут иметь пространственные координаты, написанные с использованием нестандартных обозначений. Поддерживаемые форматы координат далее описываются более подробно - так же как и процедура настройки способа оценки этих координат.

На вкладке Координаты также можно задавать систему координат, с которой связаны пространственные координаты. По умолчанию, координаты, найденные в документах, обрабатываются, как если бы они основывались на системе координат GCS_WGS_1984. Если вы знаете, что координаты указаны в другой системе, щелкните кнопку Выбрать систему координат Выбрать систему координат и выберите соответствующую систему.

Все пространственные координаты во входных документах обрабатываются до достижении конца документа или лимита на число местоположений.

Более подробно об ограничении числа извлекаемых объектов

Доступ к вкладке Координаты

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Откройте вкладку Координаты.
    • Щелкните вкладку Опции Параметры, затем щелкните стрелку Перейти к опции рядом с переключателем Координаты.
    • Щелкните вкладку Извлечь местоположения Извлечь местоположения и выберите вкладку Координаты.

Включение или выключение переключателя координат

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Включите или выключите переключатель координат.
    • Щелкните вкладку Опции Параметры и щелкните переключатель Координаты.
    • Щелкните вкладку Извлечь местоположения Извлечь местоположения, выберите вкладку Координаты и щелкните переключатель Создать объекты по координатам.

Форматы X Y

Возможные координаты сравниваются со следующими форматами координат, если они включены. Если возможные координаты совпадают с одним из этих форматов, в выходном классе объектов создается местоположение. Формат исходных координат будет задан в выходном классе объектов в виде x,y.

По умолчанию форматы координат x, y, как целое, не включены. В этих форматах координаты представляются в виде пары чисел, которые указывают измерение в единицах указанной системы координат. Эти форматы приводят к частому появлению ложно-позитивных местоположений, т.к. они похожи на последовательности чисел или измерений без пространственного отношения. Кроме того, если находится текст, соответствующий этим форматам координат, созданные местоположения будут некорректными, если они связаны с неправильной системой координат.

  • X Y с текстом единиц - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 71.2071779dd 46.8075410dd либо 630084m 4833438m. Единицы измерения соответствуют системе координат входных документов, но их можно изменить для возможности распознавания других единиц или дополнительных обозначений для единиц, уже существующих в ваших документах. Эти форматы вряд ли будут давать ложные-позитивные местоположения, если система координат для найденных координат верна. Это свойство включено по умолчанию.
  • X Y без текста единиц - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 630084 4833438 или 235407.742 900560.004. Этот формат координат и формат координат в десятичных градусах X Y без символов проверяют пары чисел, и оба формата могут найти совпадение для одной и той же пары координат x, y. Появится предупреждение, указывающее на конфликт, если оба формата включены. Если оба активированы и оба находятся, в качестве выходного местоположения будет использоваться результат в десятичных градусах. Два формата с меньшей вероятностью приведут к конфликту, если указана система координат проекции. Это свойство включено по умолчанию.

Если включена опция Записывать недопустимые координаты, любые возможные координаты, не соответствующие ни одному из выбранных форматов, будут записываться в файл журнала как недопустимые. Вы можете просмотреть файл журнала когда процесс будет завершен. Недопустимые координаты по умолчанию записываются в журнал.

Установка единиц измерения координат

Вы можете изменить единицы измерения, связанные с форматами x, y, чтобы получить точные местоположения на основе информации, содержащейся во входных документах.

  1. Доступ к вкладке Координаты
  2. Включите Координаты
  3. Щелкните ниспадающий список Система координат или кнопку Выбрать систему координат Выбрать систему координат и выберите систему координат, связанную с пространственными координатами, имеющимися во входных документах. Например, задайте систему координат проекции.
  4. Поставьте отметку Форматы X Y.
  5. Щелкните, чтобы развернуть опции, связанные с форматом X Y с текстом единиц.

    Единицы задаются по умолчанию соответствующими единицам системы координат. Например, для системы координат, основанной на футах США, будут заданы единицы ftUS.

  6. Нажмите на кнопку Задать единицы Карандаш, чтобы изменить обозначения, которые в документах будут распознаваться в качестве единиц.

    Появится диалоговое окно Допустимые единицы.

  7. Щелкните кнопку Добавить из списка Добавить из списка, чтобы добавить известную, заданную единицу измерения в список, если это возможно.
  8. Добавьте в список пользовательскую единицу, если это необходимо.
    1. В новой строке в нижней части таблицы щелкните в столбце Текст единицы и введите символы, которые должны распознаваться как представление для этой единицы измерения. Например, введите ft (US), чтобы распознать это как дополнительный способ представления единиц ftUS.
    2. Задайте расстояние в метрах, связанное с этой единицей измерения.
    3. Нажмите OK.
  9. Щелкните, чтобы развернуть опции, связанные с форматом X Y без текста единиц.
  10. Нажмите на кнопку Задать единицы Карандаш, чтобы изменить обозначения, которые будут связываться с любыми найденными в документах парами координат.

    Появится диалоговое окно Единицы по умолчанию.

  11. Щелкните раскрывающийся список Имя единицы и щелкните одну из международно признанных единиц в списке, или введите название другой единицы измерения расстояния, которая не отображается в списке.

    При выборе единицы измерения в списке расстояние в метрах, связанное с выбранной единицей, отображается в текстовом поле Метры / Единицы измерения.

  12. Если вы ввели имя пользовательской единицы измерения в текстовое поле Имя единицы, введите число метров, которое ей соответствует, в текстовое поле Метры / Единицы измерения.
  13. Нажмите OK.

Форматы DD

Возможные координаты сравниваются со следующими форматами координат, если они включены. Если возможные координаты совпадают с одним из этих форматов, в выходном классе объектов создается местоположение. Формат исходных координат будет задан в выходном классе объектов в десятичных градусах.

  • Широта и долгота - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 38.8N 77.035W или W77N38.88909. Эти форматы редко приводят к появлению ложно-позитивных местоположений. Это свойство включено по умолчанию.
  • X Y с символами градусов - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 38.8° -77.035° или -077d+38.88909d. Эти форматы редко приводят к появлению ложно-позитивных местоположений. Это свойство включено по умолчанию.
  • X Y без символов - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 38.8 -77.035 или -077.0, +38.88909. Эти форматы приводят к частому появлению ложно-позитивных местоположений, т.к. они похожи на последовательности чисел без пространственного отношения. Эти форматы также могут напоминать числа, которые определяют пространственное положение в системе координат проекции - появится предупреждение, указывающее на конфликт, если этот формат и опция X Y без текста единицы включены. Это свойство включено по умолчанию.

Когда включена опция Записывать недопустимые координаты, любые возможные координаты, не соответствующие ни одному из выбранных форматов, будут записываться в файл журнала как недопустимые. Вы можете просмотреть файл журнала когда процесс будет завершен. Недопустимые координаты по умолчанию записываются в журнал.

Форматы DM

Возможные координаты сравниваются со следующими форматами координат, если они включены. Если возможные координаты совпадают с одним из этих форматов, в выходном классе объектов создается местоположение. Формат исходных координат будет задан в выходном классе объектов в градусах с десятичными минутами.

  • Широта и долгота - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 3853.3N 7702.100W или W7702N3853.3458. Эти форматы редко приводят к появлению ложно-позитивных местоположений. Это свойство включено по умолчанию.
  • X Y с символами минут - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 3853' -7702.1' или -07702m+3853.3458m. Эти форматы редко приводят к появлению ложно-позитивных местоположений. Это свойство включено по умолчанию.

Когда включена опция Записывать недопустимые координаты, любые возможные координаты, не соответствующие ни одному из выбранных форматов, будут записываться в файл журнала как недопустимые. Вы можете просмотреть файл журнала когда процесс будет завершен. Недопустимые координаты по умолчанию записываются в журнал.

Форматы DMS

Возможные координаты сравниваются со следующими форматами координат, если они включены. Если возможные координаты совпадают с одним из этих форматов, в выходном классе объектов создается местоположение. Формат исходных координат будет задан в выходном классе объектов в градусах, минутах и секундах.

  • Широта и долгота - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 385320.7N 770206.000W или W770206N385320.76. Эти форматы редко приводят к появлению ложно-позитивных местоположений. Это свойство включено по умолчанию.
  • X Y с символами секунд - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 385320" -770206.0" или -0770206.0s+355320.76s. Эти форматы редко приводят к появлению ложно-позитивных местоположений. Это свойство включено по умолчанию.
  • X Y с разделителями - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 38:53:20 -77:2:6.0 или -077/02/06/, +38/53/20.76. Эти форматы иногда приводят к появлению ложно-позитивных местоположений, поскольку они напоминают другие типы числовых форматов, такие как даты и время. Это свойство включено по умолчанию.

Когда включена опция Записывать недопустимые координаты, любые возможные координаты, не соответствующие ни одному из выбранных форматов, будут записываться в файл журнала как недопустимые. Вы можете просмотреть файл журнала когда процесс будет завершен. Недопустимые координаты по умолчанию записываются в журнал.

Форматы UTM

Возможные координаты сравниваются со следующими форматами координат, если они включены. Если возможные координаты совпадают с одним из этих форматов, в выходном классе объектов создается местоположение. Формат исходных координат будет задан в выходном классе объектов как Universal Transverse Mercator.

  • Universal Transverse Mercator - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 18S 323503 4306438 или 18 north 323503.25 4306438.39. Эти форматы редко приводят к появлению ложно-позитивных местоположений. Это свойство включено по умолчанию.
  • UPS north polar - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: Y 2722399 2000000 или north 2711399 2000000. Эти форматы редко приводят к появлению ложно-позитивных местоположений, но такие координаты редко встречаются в обычных документах. По умолчанию выключено.
  • UPS south polar - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: A 2000000 3168892 или south 2000000 3168892. Эти форматы редко приводят к появлению ложно-позитивных местоположений, но такие координаты редко встречаются в обычных документах. По умолчанию выключено.

Форматы MGRS

Возможные координаты сравниваются со следующими форматами координат, если они включены. Если возможные координаты совпадают с одним из этих форматов, в выходном классе объектов создается местоположение. Формат исходных координат будет задан в выходном классе объектов как Military Grid Reference System.

  • Military Grid Reference System - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: 18S UJ 13503 06438 или 18SUJ0306. Эти форматы редко приводят к появлению ложно-позитивных местоположений. Это свойство включено по умолчанию.
  • North polar - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: Y TG 56814 69009 или YTG5669. Эти форматы редко приводят к появлению ложно-позитивных местоположений, но такие координаты редко встречаются в обычных документах. По умолчанию выключено.
  • South polar - буквенно-цифровая строка распознается как местоположение, если она имеет следующую структуру: A TN 56814 30991 или ATN5630. Эти форматы иногда приводят к появлению ложно-позитивных местоположений, поскольку они напоминают обычные числа. По умолчанию выключено.

Когда включена опция Записывать недопустимые координаты, любые возможные координаты, не соответствующие ни одному из выбранных форматов, будут записываться в файл журнала как недопустимые. Вы можете просмотреть файл журнала когда процесс будет завершен. Недопустимые координаты по умолчанию записываются в журнал.

Настройка распознавания пространственных координат

Документы, с которыми вы работаете, могут содержать пространственные координаты, которые невозможно определить с помощью стандартных настроек форматов координат. Например, автор документов, возможно, не проходил обучение в области ГИС и задал пространственные координаты нестандартным способом. Типичным примером является добавление дополнительного текста между значениями широты и долготы. Например, в тексте +45.56° and -69.66° дополнительное слово and не позволяет распознавать текст в качестве пространственных координат.

Точно так же, если анализируемые вами документы были написаны на разных языках, по умолчанию текст будет распознаваться в качестве пространственных координат только для документов, написанных на английском языке, или в тех случаях, когда в обозначениях направления (стороны света) используются английские слова или сокращения. Например, если текст документа на французском, а направление задано пространственными координатами с помощью O для Ouest, как в 60.91°N, 147.34°O, вместо использования английской W для West, текст не будет распознан в качестве пространственных координат. Форматы координат могут быть настроены для возможности распознавания форматов, используемых в других языках - в дополнение к английскому или вместо него, - в зависимости от того, как вы хотите обрабатывать документы.

Вы можете настроить способ распознавания пространственных координат в документах с помощью диалогового окна Настройка. Настройки по умолчанию предусмотрены для некоторых языков: выберите язык ваших документов на вкладке Настройки. В документе на азиатском языке пространственные координаты определяются с помощью комбинации азиатских символов и полноразмерных индуистско-арабских цифр, таких как 北緯51 .50°、西経175.63 °, они в настоящее время не распознаются как пространственные координаты.

  1. Доступ к вкладке Координаты
  2. Включите Координаты
  3. Щелкните кнопку Настройка Настройка в верхней части списка форматов пространственных координат.
  4. Если документы написаны на другом языке, и настройки для этого языка доступны на вкладке Настройки диалогового окна Настройка, выберите язык в списке.
  5. Добавьте настройки выбранного языка в диалоговом окне Настройка.
    • Нажмите Заменить настройки, чтобы отсканировать документы, используя только настройки, связанные с выбранным языком. Если текущим языком является английский, а выбран французский язык, после замены английских настроек в диалоговом окне на французские в документах будут распознаваться только пространственные координаты, записанные во французском формате.
    • Нажмите Настройки слияния, чтобы отсканировать документы, используя настройки текущего, а также дополнительного языка. Если текущим языком является английский, а выбран французский язык, после слияния французских настроек с настройками в диалоговом окне в документах будут распознаваться пространственные координаты, записанные с использованием и английского, и французского форматов.
  6. Пространственная координата состоит из ряда компонентов, в том числе нескольких, которые являются специфическими для группы языков. Выберите вкладку под заголовком Координаты, связанным с одним компонентом пространственной координаты, например, Север или Между Широтой / Долготой.
  7. Измените список терминов для этого компонента, чтобы добавить обозначения, используемые в сканируемых документах.
    1. Щелкните в новой строке внизу таблицы в столбце Текст термина.
    2. Введите значение, содержащееся в документах, которое должно распознаваться в качестве компонента пространственной координаты. Например, добавьте ошибочное Nort в список терминов на вкладке Север, если оно встречается в группе документов. Добавьте и в список терминов на вкладке Между широтой / долготой, чтобы работать с документами, в которых между значениями широты и долготы отображается этот дополнительный текст.
    3. Нажмите Enter.
  8. Если один и тот же термин был введен на нескольких вкладках диалогового окна Настройка, появится предупреждение. Хотя термины могут дублироваться, это снизит точность распознавания местоположений в документах. Удалите все повторяющиеся термины, которые не являются необходимыми для процесса распознавания текста в качестве местоположения.
    1. Щёлкните одну из затронутых вкладок.
    2. Нажмите строку таблицы, чтобы выбрать дубликат, который не следует использовать.
    3. Щелкните кнопку Удалить Удалить, чтобы удалить выбранную строку таблицы.

    При наличии дубликатов терминов в нижней части панели Извлечь местоположения рядом с кнопкой Извлечь появится сообщение с предупреждением.

  9. Нажмите OK.

Во время следующего извлечения местоположений из набора документов пользовательские определения будут использоваться для оценки текста и определения того, является ли он пространственной координатой.

Использование запятой в качестве десятичного разделителя

По умолчанию документы сканируются на предмет наличия координат, использующих в качестве десятичных знаком точки (.) и символы (·), например, Lat 01° 10·80’ N Long 103° 28·60’ E. Если вы работаете с документами, где в качестве десятичных разделителей используются запятые, например, 52° 8′ 32,14″ N; 5° 24′ 56,09″ E, следует выбрать опцию Использовать запятую в качестве десятичного разделителя.

Этот параметр управляет только оценкой буквенно-цифрового текста для определения того, является ли он пространственными координатами. Этот параметр не влияет на оценку текста для определения, является ли он пользовательским местоположением, или на соответствие ключевому слову, которое имеется в пользовательских атрибутах. То есть этот параметр не предоставляет метки для указания того, что текст написан на европейском языке, например на французском, где числа часто используют запятые в качестве десятичного разделителя. Региональные настройки компьютера не используются для настройки этого параметра.

Интерпретировать как долготу, широту

Если координатные пары указываются без символов или обозначений направления, правильное пространственное местоположение скорее всего будет создано, если одно из чисел находится в диапазоне от 0 до 90, а другое - от 90 до 180. Если оба числа находятся в диапазоне от 0 до 90, определить правильное положение сложнее.

Поскольку в географии принята последовательность «широта-долгота», пары координат, где оба числа находятся в пределах от 0 до 90 оцениваются по умолчанию именно так, другими словами, первое число соответствует значению по оси y, второе - по оси x. Однако координатные пары в других дисциплинах, например, в математике часто представляются в виде комбинации x,y.

Включите опцию Интерпретировать как долготу, широту, если вы предпочитаете определять пары координат как комбинацию x,y, т.е., когда первое число является долготой, а второе - широтой.

Определение способа оценки координат

Для изменения способа оценки координат при изучении документов опция Координаты должна быть включена.

  1. Доступ к вкладке Координаты
  2. Включите Координаты
  3. Щелкните ниспадающий список Система координат или кнопку Выбрать систему координат Выбрать систему координат и выберите систему координат, связанную с пространственными координатами, имеющимися во входных документах.
  4. Отметьте форматы координат, которые вы хотите использовать для оценки возможных пространственных координат. Снимите отметки с тех форматов, которые вы не будете использовать.
  5. Укажите любые настройки, которые следует использовать при оценке текста, чтобы определить, содержит ли он пространственные координаты.
  6. Включите или выключите опции Записывать недопустимые координаты, чтобы использовать файлы журналов для оценки результатов.
  7. Отметьте Использовать запятую в качестве десятичного разделителя, если входные документы содержат пространственные координаты, заданные с использованием запятых в качестве десятичных разделителей.
  8. Отметьте Интерпретировать как долготу, широту, если входные документы содержат пространственные координаты, заданные в виде долготы-широты, вместо широты-долготы.

При следующем извлечении местоположений, эти настройки координат будут использованы для оценки возможных пространственных координат и определения местоположений, которые будут включены в выходной класс объектов.

Идентификация пользовательских местоположений с неточным совпадением

Когда включены пользовательские местоположения, данные из сканируемых документов сравниваются с названиями мест, заданных в пользовательском файле местоположений. По умолчанию, данные должны точно соответствовать указанным названиям для создания местоположения в выходном классе объектов.

При включении неточного совпадения, используется приблизительное соответствие для сравнения данных документа с заданными названиями. Местоположение создается в классе объектов, если входные данные совпадают с названием места на 70 процентов. Это также помогает обойти ошибки написания и такие вариации, как использование множественного числа в названии, вместо единственного. 70-процентное соответствие основано на количестве совпадающих букв; алгоритмы лингвистической обработки, такие как алгоритм стемминга, не применяются для определения соответствия слова названию пользовательского местоположения.

Удобнее сначала извлечь местоположения с выключенным неточным совпадением, затем повторить попытку с включенным, для поиска дополнительных названий. Затем результаты можно сравнить, чтобы определить наилучшие. Хотя в некоторых случаях этот параметр позволяет находить дополнительные местоположения, которые иначе могут быть пропущены, данные документа могут оказаться сопоставленными с неверным местоположением, что приведет к появлению ложно-положительных местоположений.

Неточное соответствие используется только с пользовательскими местоположениями. Если пользовательские местоположения выключены, включение неточного соответствия не будет иметь эффекта. Эта опция не влияет на способ сравнения данных из документа с ключевыми словами, заданными в пользовательском файле атрибутов, например.

Включение или выключение неточного соответствия

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Включите или выключите переключатель неточного соответствия.
    • Щелкните вкладку Опции Параметры, затем щелкните переключатель Неточное соответствие.
    • Щелкните вкладку Извлечь местоположения Извлечь местоположения, выберите вкладку Пользовательские местоположения и щелкните переключатель Использовать неточное соответствие.

Даты

На вкладке Даты задаются форматы дат, используемые при сканировании документов. Буквенно-цифровые комбинации изучаются на соответствие включенным форматам дат. Возможные даты сравниваются со всеми включенными форматами, в порядке, заданном ниже. Иногда обычные числа неверно идентифицируются как даты; они называются ложно-позитивными.

Поддерживаемые форматы дат можно также настроить в соответствии с набором документов. К примеру, документы могут быть написаны на другом языке или могут содержать даты, написанные с использованием нестандартных обозначений. Поддерживаемые форматы дат далее описываются более подробно - так же как и процедура настройки способа оценки этих дат.

Все даты во входных документах обрабатываются до достижении конца документа или лимита на число дат.

Более подробно об ограничении числа извлекаемых дат

  • Используемое название месяца - в тексте указывается название месяца, полное или сокращенное, например, January 1, 2010 или 2 FEB 11. На языках, отличных от английского, даты, распознаваемые при включении этой опции, могут, строго говоря, не использовать названия месяцев, поскольку месяцы могут обозначаться номерами. Тем не менее даты, определяемые при использовании этой опции, являются датами, написанными более традиционным способом - вместо использования разными форматами даты ISO 8601. Эти форматы редко приводят к появлению ложно-позитивных дат. Это свойство включено по умолчанию.
  • M/D/Y и D/M/Y - используется формат месяц, день, год, или день, месяц, год, с разделителями между значениями, например, 10/31/2017 или 28-2-11. Эти форматы иногда приводят к появлению ложно-позитивных дат. Но фактическая дата может однозначно не определиться, если и месяц, и день представлены числами, меньшими или равными 12. Доступны варианты, позволяющие выбрать, как будут интерпретироваться неоднозначные даты, если они появятся. По умолчанию выбран параметр Интерпретировать как MDY при неоднозначности, и поэтому текст 03/02/2012 будет интерпретироваться как 2 марта 2012 г .; эта опция подходит при работе с документами, созданными в США, где используемый по умолчанию формат даты - ММ / ДД / ГГГГ. При работе с документами, созданными в стране, где формат даты по умолчанию - ДД / ММ / ГГГ, вместо этой опции выберите Интерпретировать как ДМГ, и в этом случае текст 4-12-13 будет интерпретирован как 4 декабря 2013 года. Даты распознаются и в случае, когда месяц и день обозначены одной цифрой, так и в случае, когда перед ними используются нули. По умолчанию включен этот формат.
  • YYYYMMDD - формат год, месяц, день, например, 2015-06-03 или 20140502. При использовании разделителей между частями даты будут распознаваться состоящие из одного знака обозначения месяца и дня. Например, текст 2015-6-3 будет также распознан, как 3 июня 2015 года, но при этом текст 201452 не будет распознан, как 2 мая 2014 г. Созданная стандартизированная дата будет дополнена начальными нулями для месяца и дня в случае, если день и месяц состоят из одной цифры а год - четырехзначный. Эти форматы иногда приводят к появлению ложно-позитивных дат. Это свойство включено по умолчанию.
  • YYYYMMDD - формат год, месяц, день, например, 160722 или 170304. Если значение месяца и дня представлены одним числом, к ним будет добавлен ноль, год представлен двумя цифрами. Эти форматы часто приводят к появлению ложно-позитивных дат. Это свойство включено по умолчанию.
  • YYJJJ - год и юлианская дата, т.е. число, соответствующее номеру дня в годе, от 1 до 366, с предваряющим нулем, если число состоит из одной или двух цифр. Например, 18001 или 19365. Поддерживается также формат YYYYJJJ, где год задается целиком, например, 2020060 означает 29 февраля 2020 г. Эти форматы часто приводят к появлению ложно-позитивных дат. Это свойство включено по умолчанию.

Первое найденное соответствие извлекается и сохраняется в атрибутивной таблице выходного класса объектов в столбце Первая дата, если дата укладывается в соответствующий диапазон. Аналогично, самая старая найденная дата хранится в столбце Самая ранняя дата, а самая последняя найденная дата-в столбце Самая последняя дата. Все даты, найденные в документе, перечислены в столбце Все даты, они разделены запятыми и записаны до максимального количества символов, разрешенного в таблице. Все эти даты записаны в формате ГГГГ-ММ-ДД, независимо от исходного формата. Напротив, в столбце Извлеченный текст даты записывается текст, найденный в документе, который был интерпретирован как дата, точно так же, как он был найден в документе.

Более подробно о задании диапазона дат

Если вы знаете, что документы содержат даты только в определенных форматах, другие форматы можно отключить. При включении меньшего числа форматов дат, документы сканируются быстрее.

Доступ к вкладке Даты

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Откройте вкладку Даты.
    • Щелкните вкладку Опции Параметры, затем щелкните стрелку Перейти к опции рядом с переключателем Даты.
    • Щелкните вкладку Извлечь атрибуты Извлечь атрибуты и выберите вкладку Даты.

Включение или выключение переключателя Даты

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Включите или выключите переключатель Даты.
    • Щелкните вкладку Опции Параметры и щелкните переключатель Даты.
    • Щелкните вкладку Извлечь атрибуты Извлечь атрибуты, выберите вкладку Даты и щелкните переключатель Создать объекты по датам.

Настройка порядка распознавания дат

Документы, с которыми вы работаете, могут содержать даты, которые невозможно определить с помощью стандартных настроек форматов дат. Например, если включена опция Используемое название месяца, а автор набора документов периодически неправильно пишет «феваль» вместо «февраль», то такой ошибочный текст не будет распознаваться как дата.

Точно так же, если анализируемые вами документы были написаны на разных языках, по умолчанию текст будет распознаваться в качестве пространственных координат только для документов, написанных на английском языке. Например, с включенной опцией Используемое название месяца будет распознана дата в английском формате July 17, 2018. Однако во французском документе соответствующая дата 17 juillet, 2018 по умолчанию не будет распознаваться в качестве даты. Форматы даты могут быть настроены на распознавание форматов, используемых в других языках - в дополнение к английскому или вместо него, - в зависимости от того, как вы хотите обрабатывать документы.

Вы можете настроить способ распознавания дат в документах с помощью диалогового окна Настройка. Настройки по умолчанию предусмотрены для некоторых языков: выберите язык ваших документов на вкладке Настройки. В документе на азиатском языке параметры на вкладке Цифры позволяют распознавать даты, если они заданы только с использованием азиатских символов, таких как 平成三十年六月十八日, и комбинации азиатских символов и полноразмерных индуистско-арабских цифр, таких как 平成 2 8年 4月 14日.

Некоторые параметры определяют, будут ли двузначные и четырехзначные числа, встречающиеся в документе, распознаваться как год, что влияет на то, распознается ли текст как дата и, в свою очередь, попадает ли он в допустимый диапазон дат для его извлечения из документов. Если вы работаете с цифровыми версиями исторических документов или документов, которые прогнозируют будущие события, вам может потребоваться изменить диапазон чисел, которые будут считаться годами, в соответствии с этими документами - в дополнение к изменению параметра Ограничить извлекаемые даты этим диапазоном на вкладке Выходные данные панели Извлечь местоположения.

  1. Доступ к вкладке Даты
  2. Включите переключатель Даты.
  3. Щелкните кнопку Настройка в верхней части списка форматов даты.
  4. Если документы написаны на другом языке и настройки для этого языка доступны на вкладке Настройки диалогового окна Настройка, выберите язык в списке.
  5. Добавьте настройки выбранного языка в диалоговом окне Настройка.
    • Нажмите Заменить настройки, чтобы отсканировать документы, используя только настройки, связанные с выбранным языком. Если текущим языком является английский, а выбран французский язык, после замены английских настроек в диалоговом окне на французские в документах будут распознаваться только пространственные координаты, записанные во французском формате.
    • Нажмите Настройки слияния, чтобы отсканировать документы, используя настройки текущего, а также дополнительного языка. Если текущим языком является английский, а выбран французский язык, после слияния французских настроек с настройками в диалоговом окне в документах будут распознаваться пространственные координаты, записанные с использованием и английского, и французского форматов.
  6. При написании даты у нее может быть несколько компонентов. Выберите вкладку под заголовком Даты, связанным с одним компонентом даты, например, Февраль.
  7. Измените список терминов, чтобы включить в него обозначения, используемые в сканируемых документах.
    1. Щелкните в новой строке внизу таблицы в столбце Текст термина.
    2. Введите соответствующее значение, которое появляется в документах, например, текст с орфографической ошибкой Febuary , в качестве одного из значений, которые могут идентифицироваться в качестве месяца февраля.
    3. Нажмите Enter.
  8. Если один и тот же термин был введен на нескольких вкладках диалогового окна Настройка, появится предупреждение. Хотя термины могут дублироваться, это снизит точность распознавания дат в документах. Удалите все повторяющиеся термины, которые не являются необходимыми для процесса распознавания текста в качестве даты.
    1. Щёлкните одну из затронутых вкладок.
    2. Нажмите строку таблицы, чтобы выбрать дубликат, который не следует использовать.
    3. Щелкните кнопку Удалить Удалить, чтобы удалить выбранную строку таблицы.

    При наличии дубликатов терминов в нижней части панели Извлечь местоположения рядом с кнопкой Извлечь появится сообщение с предупреждением.

  9. На вкладке Диапазоны лет укажите диапазон чисел, которые вы хотите интерпретировать как годы в ваших документах.
  10. На вкладке Цифры укажите, какие типы символов могут быть распознаны в качестве даты.
  11. Нажмите OK.

Определение способа оценки дат

Для изменения способа оценки входных документов на наличие дат и записи информации в выходной класс объектов, переключатель Даты должен быть включен.

  1. Доступ к вкладке Даты
  2. Включите переключатель Даты.
  3. Отметьте форматы дат, которые вы хотите использовать для оценки возможных дат. Снимите отметки с тех форматов, которые вы не будете использовать.
  4. Задайте любые настройки, которые следует использовать при оценке текста, чтобы определить, содержит ли он дату.

При следующем извлечении дат эти настройки будут использованы для оценки возможных дат и определения тех дат, которые будут включены в атрибутивную таблицу выходного класса объектов.

Необходимы разделители слов

Настройка Необходимы разделители слов определяет, как текст воспринимается в качестве слов. Если требуются разрывы слов, текст считается словом, когда он ограничен пробелами или знаками препинания, как в европейских языках. К примеру, английское слово Pacific не распознается корректно в тексте The City of Pacifica is located just 15 minutes south of San Francisco.. А в тексте I flew to Tokyo на японском 私は東京に飛んで вы не сможете найти слово Tokyo, 東京.

Если опция Необходимы разделители слов выключена, текст не обязательно должен быть ограничен пробелами или знаками препинания для соответствия заданному. Например, пользовательское местоположение, которое искало слово Pacific, привело бы к некорректному сопоставлению с текстом The City of Pacifica is located just 15 minutes south of San Francisco.. Однако пользовательское местоположение, которое искало японский текст для Tokyo, 東京, успешно нашло бы японский текст для строки I flew to Tokyo, 私は東京に飛んで.

Этот параметр влияет на то, как документы сканируются на наличие слов, соответствующих пользовательским местоположениям, атрибутам, координатам и датам. В зависимости от языка текста в документах этот параметр может давать как частые, так и редкие ложные срабатывания. Лучше всего обрабатывать документы, написанные на разных языках, по отдельности, при этом этот параметр включается или выключается в зависимости от языка.

Включение и выключение переключателя необходимости разделителей слов

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Щелкните вкладку Опции Параметры.
  3. Включайте и выключайте переключатель Необходимы разделители слов, щелкая по нему.

Если переключатель Необходимы разделители слов включен, при следующей обработке документов текст будет считаться словом только в том случае, если он ограничен пробелами или знаками препинания. Если переключатель Необходимы разделители слов выключен, при следующей обработке документов любой текст, соответствующий искомому, будет считаться словом.

Символы

Вы можете настроить символы, которые будут использоваться для обозначения местоположений, найденных в документах, при создании выходной карты. Этим способом можно задать для слоев карты только один символ.

  1. Откройте панель Извлечь местоположения.
  2. На панели Извлечь местоположения щелкните вкладку Свойства.
  3. Щелкните вкладку Опции Параметры.
  4. Щелкните символ точки, например, красный круг, под заголовком Символы.

    На панели Извлечь местоположения откроется панель Формат символа точки.

  5. Щелкните символ точки в галерее или настройте свойства символа и примените изменения. Или щелкните кнопку возврата Назад, чтобы отменить изменения и вернуться на вкладку Опции.

При следующем извлечении местоположений и создании выходного слоя карты указанный символ будет использоваться для отображения местоположений на карте.

Отображение местоположений символами по категориям или по количеству

После извлечения местоположений из набора документов можно использовать пользовательские атрибуты для изменения символов выходных местоположений. Например, можно указать различные символы для обозначения ключевых слов, найденных в каждом местоположении. В следующий раз, когда вы будете извлекать местоположения, используя те же настройки, вы сможете добавить их к существующему слою карты. Полученные точки будут автоматически обозначены точно так же.

Если позже вы захотите использовать тот же шаблон извлечения местоположений для создания нового слоя карты с такими же символами, вам сначала нужно сохранить символику исходного слоя карты, как пакет слоя только со схемой. Пакет слоя можно использовать для создания нового класса пространственных объектов и сопровождающего слоя карты, к которому можно добавлять местоположения из нового набора документов.

  1. Откройте карту, содержащую слой карты, символы которого вы хотите использовать повторно.
  2. Создайте пакет слоя, содержащий только схему из имеющегося слоя карты.
  3. Добавьте пакет слоя, содержащий только схему, на новую карту, на которую вы хотите извлечь новый набор местоположений.

    В базе геоданных проекта по умолчанию создается новый класс пространственных объектов с использованием схемы, заданной в пакете слоев. Создается новый слой карты на основе определения слоя из пакета.

    Более подробно о слоях и пакетах слоев

  4. Выполните рабочий процессизвлечения местоположений в имеющийся слой карты, созданный на предыдущем шаге.

Местоположения, извлеченные в слой карты, автоматически отображаются символами, основываясь на пользовательских значениях атрибутов, извлеченных из документов и текста.

Сканировать файлы

На вкладке Сканирование файлов Сканировать файлы можно выбирать сканируемые или пропускаемые документы.

Сканирование определенных типов файлов

Под типом файла в данном случае понимается его расширение. Например, для файла table.txt типом будет TXT. Когда вы задаете входную папку, в которой содержится множество файлов, можно ограничить число сканируемых файлов, указав набор типов файлов для обработки. Вы можете либо убрать файлы, которые вам не подходят, или ограничить сканирование только необходимыми.

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Щелкните вкладку Сканировать файлы Сканировать файлы.
  3. Щелкните заголовок Типы файлов.
  4. Выберите сканирование или пропуск файлов определенных типов.
    • Сканировать все файлы, кроме этих типов - укажите пропускаемые файлы. Это является опцией по умолчанию.
    • Сканировать только эти типы файлов - укажите сканируемые типы файлов.
  5. Добавьте расширение к списку типов файлов.
    • Щелкните Добавить расширение Добавить расширения. В диалоговом окне Добавить расширение введите один или несколько типов файлов в поле Расширения. Если вы вводите несколько расширений, разделяйте их только пробелами; не ставьте запятую после расширения. Например, введите txt doc csv. При желании можно использовать точку перед расширением. Нажмите OK.
    • Перетащите файлы из Проводника Windows в список типов файлов.

    Выбранные расширения файлов будут добавлены к списку типов.

Если компьютер распознает расширение файла, для его обозначения в списке используется значок и строка, применяемые в Проводнике Windows. Например, если вы указали расширение файла .docx, расширение .DOCX и значок, используемый для обозначения этих файлов на вашем компьютере, появятся в списке столбца Расширение. В столбце Тип будет указано Документ Microsoft Word.

Пропуск определенных файлов и папок

При сканировании папки или диска, содержащего множество файлов, может быть удобно не сканировать отдельные файлы или папки. Сканирование будет завершено быстрее и будет содержать меньше ложно-положительных местоположений. Например, папки с финансовыми отчетами могут содержать числа, напоминающие пространственные координаты.

При сканировании дисков, рассмотрите возможность исключения папок, где находится установленное ПО, файлы ОС, драйвера оборудования и т.д. Скрытие и системный файлы, которые часто не отображаются в Проводнике Windows, по умолчанию пропускаются, но эту опцию можно отключить, если необходимо.

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Щелкните вкладку Сканировать файлы Сканировать файлы.
  3. Щелкните заголовок Пропустить типы.
  4. Снимите отметку Скрытые или Системные под заголовком Атрибуты файлов, если необходимо.
  5. Добавьте файлы и папки, которые должны быть пропущены, в список Файлы и папки.
    • Щелкните Добавить файлы и папки Добавить файлы и папки. Откроется диалоговое окно Добавить файлы и папки. Пролистайте и выберите файлы и папки, которые должны быть пропущены, затем щелкните Открыть.
    • Перетащите файлы и папки из Проводника Windows в список Файлы и папки.

    Указанные файлы и папки появятся в списке.

Значок, используемый в Проводнике Windows для обозначения элемента, и его имя появятся в списке в столбце Имя. В столбце Путь отображается путь к файлу или папке.

Некоторые файлы не обрабатываются

Документы обрабатываются с использованием той же технологии, которая применяется в Поиске Windows для изучения файлов на вашем компьютере - надстройки IFilter. Панель Извлечь местоположения и ее инструменты не используют Поиск Windows; они применяют надстройку IFilter, которая уже имеется на вашем компьютере для изучения входных документов и текста.

Отдельные плагины IFilter, встроенные в ОС Microsoft Windows, могут обрабатывать текстовые файлы, файлы HTML, некоторые документы Microsoft Office и т.д. Набор IFilter, доступных на разных ОС, отличается. Другие установленные приложения могут содержать дополнительные IFilter, которые используются для обработки их собственных документов. Например, когда вы устанавливаете Adobe Acrobat Reader DC или Adobe Acrobat, устанавливается IFilter, который используется для обработки содержания файлов PDF. При сканировании файлов, используется IFilter, предназначенный для файлов данного типа, если он доступен; иначе файлы сканируются с применением стандартного IFilter, при этом извлекается столько информации, сколько возможно.

Поскольку ArcGIS AllSource является 64-разрядным приложением, для обработки входящих документов и текста используются только 64-разрядные IFilter. Обычно 32-разрядные приложения предлагают только 32-разрядные IFilter, которые применяются для обработки собственных документов; ArcGIS AllSource не может использовать такие IFilter.

Если вы не задали пропуск файла определенного типа, например, PDF, но не можете извлечь местоположения из файлов, где они присутствуют, убедитесь что соответствующий 64-разрядный IFilter установлен на вашем компьютере.

В Windows 10 должен быть доступен IFilter, который ArcGIS AllSource может использовать для обработки файлов PDF. В других версиях Windows, если у вас установлен 32-разрядный Adobe Reader, 64-разрядный IFilter может оказаться не доступен для обработки документов PDF. Извлечь информацию из документов PDF, используя стандартные IFilter Windows, нельзя. Вы можете загрузить 64-разрядный IFilter PDF с http://ftp.adobe.com/pub/adobe/acrobat/win/11.x/PDFFilter64Setup.msi.

Выходные данные

На вкладке Выходные данные Выходные данные можно управлять информацией, извлекаемой из документов и сохраняющейся в выходном классе объектов.

Ограничения документа

Извлекаемые из документов местоположения и даты можно ограничивать. Когда вы сканируете набор входных документов в первый раз, вам может встретиться файл, содержащий большое количество чисел, напоминающих координаты, но не являющимися ими, или когда последовательность чисел похожа на даты, но означает что-то другое. По умолчанию, ограничения накладываются на количество извлекаемых из документов объектов и дат. Это позволит предотвратить создание миллионов ошибочных точек или запись ничего не значащих дат в атрибутивную таблицу. После оценки выходных местоположений и дат, сохраненных в атрибутах, вы можете отключить это ограничение или изменить его перед повторным сканированием документа.

Иногда у вас нет полной информации о сканируемых документах. Иногда вам нужно периодически сканировать частично структурированные документы, такие как отчеты. Отчеты часто начинаются с даты и места создания; однако тема отчета касается событий, которые происходили в другое время в другом месте. Вы можете выбрать пропуск первых обнаруженных дат и мест в таких документах, тогда в выходном классе объектов будут находиться только интересующие вас данные.

Вы можете ограничить количество объектов и дат, а также выбрать какие именно места и даты должны извлекаться из входных документов. Эти ограничения описаны ниже:

  • Ограничения количества объектов
    • Ограничить количество объектов на документ - по умолчанию, только первые 3000 мест, найденных в документе, извлекаются и сохраняются в выходном классе объектов. Когда эта опция включена, вы можете увеличить или уменьшить число объектов, извлекаемых из одного документа. Отключите эту опцию, чтобы оценить количество возможных пространственных координат и пользовательских местоположений в документе и извлечь все найденные объекты. Это свойство включено по умолчанию.
    • Игнорировать первые объекты в документе - по умолчанию, первые найденные возможные координаты или пользовательское местоположение оцениваются, так же, как все остальные координаты и местоположения пока не будет достигнуто ограничение по числу объектов или конец документа. Включив эту опцию можно пропустить заданное количество первых найденных в начале документа объектов, затем извлечь все последующие объекты до достижения ограничения; по умолчанию пропускается только первый объект, но вы можете увеличить это число, если необходимо. Отключите эту опцию, чтобы оценить все возможные пространственные координаты и пользовательские местоположения в документе в пределах ограничения. По умолчанию выключено.
  • Ограничения дат
    • Ограничить количество дат на документ - по умолчанию, только первые 30 дат, найденных в документе, извлекаются и сохраняются в атрибутивной таблице выходного класса объектов. Когда эта опция включена, вы можете увеличить или уменьшить число дат, извлекаемых из одного документа. Отключите эту опцию, чтобы оценить количество возможных дат в документе и извлечь все найденные. Это свойство включено по умолчанию.
    • Игнорировать первые даты в документе - по умолчанию, первые найденные возможные даты оцениваются, так же, как все остальные даты, пока не будет достигнуто ограничение по числу дат или конец документа. Включив эту опцию можно пропустить заданное количество первых найденных в начале документа дат, затем извлечь все последующие даты до достижения ограничения; по умолчанию пропускается только первая дата, но вы можете увеличить это число, если необходимо. Отключите эту опцию, чтобы оценить все возможные даты в документе в пределах ограничения. По умолчанию выключено.
  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Щелкните вкладку Выходные данные Выходные данные.
  3. Щелкните заголовок Ограничения документов.
  4. Включите или выключите опции ограничения числа извлекаемых объектов и дат, как необходимо.
  5. Щелкните в текстовых полях Объекты и Даты и введите число объектов, соответствующее максимальному числу извлекаемых объектов.
  6. Отметьте или снимите отметки у этих опций, чтобы пропустить заданное количество объектов и дат в начале документа или текста, если необходимо.
  7. Щелкните в текстовых полях Объекты и Даты и введите число, соответствующее количеству объектов, пропускаемых перед началом оценки остальных.

Ограничения текста до и текста после

Когда пространственные координаты или пользовательские местоположения извлекаются и документа и сохраняются в в выходном класс объектов, в атрибутивной таблице класса сохраняется дополнительная информация, которая позволяет оценить эти местоположения позже. Выдержка из документа, предшествующая сохраненному местоположению, сохраняется в поле Текст до в атрибутивной таблице класса объектов. Выдержка из документа после сохраненного местоположения сохраняется в поле Текст после в атрибутивной таблице класса объектов. Эти атрибуты помогают определить контекст местоположения - действительно ли это местоположение, и, если так, что оно означает и как соотносится с вашим анализом?

Объем извлекаемого и сохраняемого текста вокруг местоположения определяется следующими параметрами:

  • Текст до - по умолчанию, извлекается 254 символов текста перед местоположением, которые записываются в поле Текст до. Вы можете увеличить или уменьшить это значение, как необходимо.
  • Текст после - по умолчанию, извлекается 254 символов текста после местоположения, которые записываются в поле Текст после. Вы можете увеличить или уменьшить это значение, как необходимо.
  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Щелкните вкладку Выходные данные Выходные данные.
  3. Щелкните заголовок Ограничения текста до и текста после.
  4. Щелкните в поле Текст до и введите число, соответствующее максимальному количеству знаков, извлекаемому из документа перед местоположением.
  5. Щелкните в поле Текст после и введите число, соответствующее максимальному количеству знаков, извлекаемому из документа после местоположения.

Другие ограничения текстового поля

В таблице атрибутов выходного класса пространственных объектов записываются различные фрагменты информации, которые помогают вам оценить извлеченные местоположения и даты, в дополнение к полям Текст до и Текст после. Вы можете настроить размер этих полей так, чтобы они содержали больше или меньше информации в соответствии с содержимым текущего набора документов.

Объем сохраняемого в классе объектов текста определяется следующими параметрами:

  • Имя - по умолчанию 50 символов текста можно сохранить в поле Имя для хранения имени файла, в котором найдено местоположение. Вы можете увеличить или уменьшить это значение, как необходимо.
  • Извлеченный текст - по умолчанию в поле Извлеченный текст можно сохранить 120 символов текста для представления пространственной координаты или пользовательского местоположения. Вы можете увеличить или уменьшить это значение, как необходимо.
  • Извлеченный тип - по умолчанию 50 символов текста можно сохранить в поле Извлеченный тип для представления типа пространственной координаты или пользовательского местоположения. Вы можете увеличить или уменьшить это значение, как необходимо.
  • Все даты - по умолчанию 254 символа текста, представляющих даты, найденные в документе, могут быть сохранены в поле Все даты. Эти даты стандартизированы в формате yyyy-mm-dd. Вы можете увеличить или уменьшить это значение, как необходимо.
  • Текст извлеченной даты - по умолчанию в поле Извлеченный текст даты можно сохранить 254 символа текста, представляющего даты, найденные в документе. Текст из оригинального документа, который был распознан, как дата, извлекается и записывается. Вы можете увеличить или уменьшить это значение, как необходимо.
  • Имя файла - по умолчанию 254 символов текста можно сохранить в поле Имя файла для хранения имени файла, в котором найдено местоположение. Вы можете увеличить или уменьшить это значение, как необходимо.
  • Тип файла - по умолчанию 10 символов текста можно сохранить в поле Тип файла для представления типа обработанного файла. Вы можете увеличить или уменьшить это значение, как необходимо.

Подробнее о полях выходного класса объектов

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Щелкните вкладку Выходные данные Выходные данные.
  3. Щелкните заголовок Другие ограничения текстовых полей.
  4. Щелкните окошки текстовых полей и введите число, соответствующее максимальному количеству знаков, которые могут записываться в каждом поле.

Диапазон дат

Некоторые значения могут напоминать и координаты и даты. По умолчанию, даты извлекаются из входного документа только когда они соответствуют одному из выбранных форматов и если полученная дата укладывается в заданный диапазон. Это уменьшает количество ложно-положительных дат. По умолчанию применяется диапазон дат с 1 января 1985 по 31 декабря 2030. Даже если во входном документе найдена дата, если она находится вне пределов заданного диапазона, она не будет извлечена в атрибутивную таблицу выходного класса.

Снимите отметку Ограничить извлекаемые даты этим диапазоном, чтобы получить все возможные даты из входных документов. Это увеличит время обработки, т.к. все числа будут оцениваться на соответствие выбранным форматам даты.

Если вас интересуют только события, произошедшие в определенный интервал времени, отметьте опцию Ограничить извлекаемые даты этим диапазоном и настройте диапазон дат как можно ближе к интересующему вас диапазону.

  • С - по умолчанию, 1 января 1985. Щелкните ниспадающее меню и выберите в календаре дату начала диапазона.
  • По – по умолчанию, 31 декабря 2030. Щелкните ниспадающее меню и выберите в календаре дату окончания диапазона.

Управление календарем предоставляет доступ к одному месяцу. Используйте стрелки в углах наверху, чтобы выбрать предыдущий или следующий месяц. Щелкните месяц и год вверху календаря, чтобы увидеть список месяцев. Щелкните год вверху календаря, чтобы открыть список годов. Используйте стрелки в углах наверху, чтобы выбрать предыдущий или следующий год.

Если вы работаете с историческими документами, дополнительные параметры на вкладке Диапазоны года в диалоговом окне Настройка влияют на то, распознается ли текст как дата и как работает настройка Ограничение извлечения дат для этого диапазона. Настройки вкладки Диапазоны года определяют, интерпретируются ли двух- и четырехзначные числа как годы. Эта оценка проводится до определения того, является ли текст, примыкающий к году, датой.

По умолчанию четырехзначные числа между 1900 и 2099 годами считаются годами. До тех пор пока годы для настройки Ограничить извлекаемые даты этим диапазоном попадают в этот диапазон, она будет эффективно ограничивать любые даты соответствующими четырехзначными годами. Если вы работаете с историческими документами, которые стали доступны в цифровом виде, вы должны отрегулировать как настройку Ограничить извлекаемые даты этим диапазоном на вкладке Выходные данные, так и диапазон четырехзначных годов на вкладке Диапазоны года в диалоговом окне Настройка, чтобы учесть период времени, в который документы были написаны.

Аналогичным образом, при анализе двузначных чисел на предмет определения того, обозначают ли они год, используется 100-летнее окно, которое по умолчанию начинается с 1970 года. До тех пор пока годы для настройки Ограничить извлекаемые даты этим диапазоном попадают в этот диапазон, она будет эффективно ограничивать любые даты соответствующими четырехзначными годами. Однако если вы работаете с историческими документами или отчетами, касающимися прогнозов на будущее, вам может потребоваться настроить 100-летнее окно на вкладке Диапазоны года в диалоговом окне Настройка, а также параметром Ограничить извлекаемые даты этим диапазоном на вкладке Выходные данные для задания периода времени документов.

Подробнее о настройке того, как текст воспринимается в качестве даты

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Щелкните вкладку Выходные данные Выходные данные.
  3. Щелкните заголовок Диапазон дат.
  4. Отметьте или снимите отметку с опции Ограничить извлекаемые даты этим диапазоном, как необходимо.
  5. Если опция включена, щелкните ниспадающий список С и выберите дату начала диапазона извлекаемых дат.
  6. Если опция включена, щелкните ниспадающий список По и выберите дату окончания диапазона извлекаемых дат.
  7. Задайте любые настройки, которые следует использовать при оценке текста, чтобы определить, содержит ли он дату.

Стандартизированные координаты

Когда пространственные координаты или пользовательские местоположения извлекаются и документа и сохраняются в в выходном класс объектов, в атрибутивной таблице класса сохраняется дополнительная информация, которая позволяет оценить эти местоположения позже. Исходный текст документа, предоставляющего местоположение, сохраняется в атрибутивной таблице в поле Extracted Text, а тип найденного местоположения записывается в поле Extracted Type.

Дополнительно, соответствующее представление всех найденных местоположений сохраняется в поле стандартизированных координат с псевдонимом Stand. Coord.. Координаты x,y, связанные с точечным объектом, сохраняются в формате, заданном опцией Стандартизированные координаты.

Выберите формат стандартизированных координат, который соответствует вашим требованиям, из следующих вариантов. Например, координаты вида 117.1717550°W 34.0552456°N, найденные в исходном документе, будут записаны в поле стандартизированных координат как указано ниже, при выборе соответствующего формата.

  • DD - десятичные градусы - 34.055246N 117.171755W (выбрано по умолчанию)
  • DM – Десятичные минуты34 03.3147N 117 10.3053W
  • DMS – Градусы Минуты Секунды34 03 18.88N 117 10 18.32W
  • UTM - Universe Transverse Mercator11S 484149 3768294
  • MGRS - Military Grid Reference System11SMT8414968295

  1. На панели Извлечь местоположения щелкните вкладку Свойства.
  2. Щелкните вкладку Выходные данные Выходные данные.
  3. Щелкните заголовок Стандартизированные координаты
  4. Щелкните ниспадающий список и выберите формат координат, в котором будут записываться извлеченные местоположения.