Настройка входных данных

ArcGIS Velocity получает данные для анализа больших данных анализа в реальном времени, используя каналы или источники данных. Канал - это поток данных в реальном времени; источник данных загружает статические данные или данные почти в реальном времени, когда запускается аналитика в реальном времени, что делает ее доступной для быстрого соединения, обогащения и геозонирования. Дополнительные сведения см. в разделах Работа с каналами и Работа с источниками данных.

Канал следует использовать для использования данных в реальном времени или в качестве данных соединения для аналитических инструментов в аналитике в реальном времени.

Velocity обеспечивает оптимизированный и контекстный рабочий процесс для оптимизации взаимодействия с пользователем при настройке входных данных из канала или источника данных. Этот рабочий процесс настройки аналогичен для разных типов каналов и источников.

Задать параметры подключения и конфигурации

Первым шагом при настройке любого канала или источника данных является определение необходимых параметров подключения и конфигурации, чтобы Velocity мог подключиться к данным. Доступные параметры зависят от типа канала или источника данных.

Например, при настройке канала Kafka заполните параметры Broker и Topic, чтобы подключиться к данным. При настройке источника данных Amazon S3 вы должны предоставить все соответствующие значения параметров соединения, чтобы установить успешное соединение.

Параметры конфигурации

Далее Velocity проверяет соединение, используя предоставленные параметры конфигурации. Затем Velocity пытается сделать выборку данных и получить схему данных. Если не удалось подключиться и получить данные, обновите параметры конфигурации и попробуйте еще раз.

Подтвердить схему

Шаг Подтвердить схему отображает возвращенную схему, а также образец данных. В зависимости от формата данных доступны дополнительные параметры для настройки синтаксического анализа данных в допустимую схему.

На этапе Подтвердить схему вы можете проверить и исправить имена полей, типы полей и форматы данных. Кроме того, вы можете получить данные снова, чтобы получить новые образцы или получить схему после корректировки формата данных или параметров формата данных. Это гарантирует, что Velocity сможет определить формат данных, принимаемых каналом или источником данных.

Этап подтверждения схемы HTTP-опроса

Автоматическая выборка и получение схемы

На этапе Подтвердить схему Velocity подключается к указанному каналу или источнику данных, используя параметры подключения и конфигурации, которые вы установили на предыдущем шаге, и извлекает образцы данных.

Из образцов данных Velocity автоматически выводит формат данных и схему, которая состоит из имен полей и типов полей. Для некоторых форматов данных также определены такие ключевые поля, как geometry, date и time.

Изменение типов полей и имен полей

Velocity отображает типы полей и имена полей, определенные в схеме на основе полученного образца данных.

В полученную схему можно внести следующие изменения:

  • Изменение типов поля
    • Используйте стрелку ниспадающего списка рядом с именем поля, чтобы изменить тип поля.
    • Вы не можете изменять типы полей при использовании определенных типов каналов или источников данных, таких как каналы векторных слоев или источники данных.
    • Будьте осторожны при изменении типа поля по следующим причинам:
      • Любой тип поля может быть изменен на поле строкового типа; однако, если вы попытаетесь изменить поле строкового типа, содержащее буквы, на поле целочисленного типа, во время приема данных произойдет ошибка.
      • Изменение типа поля с float (Float32 или Float64) на integer (Int32 или Int64) не рекомендуется. Изменение типов полей не предназначено для конвертации числовых значений «на лету». Для некоторых форматов переключение с float на integer может привести к тому, что какое-либо значение будет пропущено.
  • Изменение имен полей
    • Если необходимо, измените имя поля.
  • Отключение полей
    • Для отключения поля снимите отметку рядом с типом поля. Поле будет пропущено при получении данных из источника.
    • Рекомендуется отключить все ненужные поля для ускорения работы с используемым объемом данных.

Примечание:

Измените параметры формата данных и измените выборку для схемы перед настройкой типов полей и имен полей. Если формат данных или параметры формата данных меняются, и требуется получение схемы, любые сделанные изменения будут перезаписаны.

Изменение формата данных и параметров формата данных

Velocity может использовать данные из различных типов каналов и источников данных в разнообразных форматах данных. Некоторые типы каналов и источников данных, такие как HTTP-Опрос, могут использовать данные в различных форматах. Другие типы каналов и источников данных, такие как Векторный слой, имеют четко зафиксированный формат данных.

Поддерживаются следующие форматы данных:

  • Текст с разделителями
  • JSON
  • GeoJSON
  • EsriJSON
  • RSS
  • GeoRSS
  • Шейп-файл (только аналитика больших данных)
  • Parquet (только аналитика больших данных)

Velocity автоматически пытается определить формат данных. Однако вы можете изменить полученный формат данных, если необходимо.

Кроме того, некоторые форматы данных имеют параметры, которые можно настроить в зависимости от того, как Velocity разбирает данные в схему. Например, формат данных с разделителями имеет два параметра: field delimiter и header row.

Подробнее о различных форматах и параметрах, связанных с каждым форматом данных, см. в разделе Поддерживаемые форматы данных.

Изменение параметров формата данных и получение схемы

Используя образец полученных данных, Velocity пытается определить формат, схему и параметры данных.

Вы можете изменить параметры формата данных или указать другой формат данных. Для этого измените свойство формата данных и щелкните Получить схему, чтобы снова получить данные в соответствии с внесенными вами изменениями. Параметры обновляются соответствующим образом на основе полученных данных.

Например, если вы подключаетесь к источнику JSON с многоуровневым вложенным JSON и хотите собирать данные только с определенного узла JSON или хотите сгладить многоуровневый JSON для получения всех значений атрибутов, вы можете использовать параметры root node и flatten для настройки Velocity для непосредственного взаимодействия с данными JSON.

Данные выборки не возвращаются

Если выборочные данные не возвращаются в Velocity, попробуйте любой из следующих вариантов:

  • Убедитесь, что параметры подключения и конфигурации верны.
  • Щелкните Получить схему для повторной выборки, когда данные поступают или доступны.
  • Предоставьте свои собственные образцы, скопировав записи. Образцы могут быть проверены на предмет их формата данных и с целью получения правильной схемы.
  • Вручную определите формат и схему данных.

Определение ключевых полей

Следующим шагом в настройке входных данных для нового канала или источника данных является определение ключевых полей. Ключевые поля используются для синтаксического анализа геометрии объекта из полей, построения дат из строк, указания полей времени начала и окончания и обозначения поля как Track ID.

Местоположение

Для многих типов каналов и источников данных необходимо определить, как Velocity определяет геометрию объектов из наблюдений или записей. Геометрия может быть определена с помощью единого поля геометрии или полей X/Y. В качестве альтернативы вы можете загружать табличные данные без местоположения и не указывать поля геометрии.

Подробнее о настройке параметров местоположения см. Параметры местоположения.

Дата и время

Для объектов в канале или источнике данных могут быть доступны поля даты и времени. Если вы указываете, что данные содержат поля даты, вам также может потребоваться указать формат даты. Есть два варианта: Значения эпохи или Прочее (Строка). Если вы выберете Прочее (Строка), вы должны указать строковое значение Форматирование даты, чтобы Velocity мог преобразовать строку в дату.

Кроме того, вы можете выбрать значение ключевого поля Start Time. Вам не нужно устанавливать время начала или время окончания для анализа и обработки данных. Однако некоторые инструменты анализа в реальном времени и аналитике больших данных требуют определения времени начала или времени начала и времени окончания для выполнения временного анализа.

Дополнительные сведения о настройке параметров даты и времени см. в разделе Параметры даты и времени.

Отслеживание

Ключевое поле Track ID – это уникальный идентификатор в данных, который связывает объекты с определенными сущностями. Например, грузовик может быть идентифицирован по номеру автомобиля, или самолету присвоен номер рейса. Эти идентификаторы могут использоваться в качестве Track ID для отслеживания объектов, связанных с конкретным объектом реального мира или набором инцидентов.

Вам не нужно устанавливать поле Track ID для анализа и обработки данных. Однако некоторые инструменты анализа в реальном времени и аналитике больших данных требуют, чтобы Track ID был идентифицирован для канала или источника данных.

Запланировать интервал опроса

Хотя многие каналы являются каналами потоковой передачи данных, некоторые типы каналов требуют, чтобы данные извлекались через регулярные промежутки времени. Заданный интервал определяет, как часто канал подключается к источнику для получения данных. Вы можете установить интервал опроса для следующих типов каналов:

Для получения подробной информации о настройке и факторах интервала опроса канала см. раздел Запланировать интервал опроса канала.

Сохранить

Последний шаг - указать название канала и, при желании, краткую информацию о канале; затем сохраните канал.