Анализ больших данных

Аналитика больших данных выполняет пакетный анализ и обработку хранящихся данных, таких как данные в векторном слое или в облачных хранилищах больших данных, таких как Amazon S3 и Azure Blob Store. Аналитика больших данных обычно используется для суммирования наблюдений, выполнения анализа выявления закономерностей и обогащения данных. Для проведения анализа используются инструменты из следующих категорий инструментов Velocity:

  • Анализ закономерностей
  • Обогащение данных
  • Найти местоположения
  • Управление данными
  • Суммировать данные
  • Использовать близость

Примеры

  • Как ученый-эколог вы можете определить время и местоположение высоких уровней содержания озона по всей стране в наборе данных миллионов статических датчиков.
  • Как аналитик сферы розничной торговли, вы можете обрабатывать местоположения миллионов анонимных сотовых телефонов за определенный промежуток времени, чтобы определить количество своих потенциальных клиентов, находящихся на определенном расстоянии от магазинов.
  • Как ГИС-аналитик, вы можете запускать постоянно выполняемый анализ больших данных, который каждые пять минут проверяет источник данных на наличие новых объектов и отправляет уведомление, если будут найдены определенные атрибуты или выполнены пространственные условия.

Компоненты аналитики больших данных

Есть три компонента аналитики больших данных:

  • Источники
    • Источник данных используется для загрузки статических данных или данных, близких к данным в реальном времени, в аналитике больших данных. Есть много доступных типов источников данных. Для получения подробной информации об источниках и доступных их типах см. раздел Что такое источник данных?
    • Аналитика может пользоваться несколькими источниками данных.
  • Инструменты
    • Инструменты обрабатывают и используют данные, загружаемые из источников.
    • В аналитике больших данных может быть много инструментов.
    • Одни инструменты могут быть связаны с другими, причем выходные данные одного инструмента становятся входными для другого.
  • Выходные данные
    • Выходные данные определяют, что вы будете делать с результатами аналитической обработки больших данных.
    • Доступно множество вариантов выходных данных, включая сохранение объектов в новом или существующем слое объектов, запись объектов в облачный слой Amazon S3 или Azure Blob Storage и др. Дополнительные сведения см. в разделе Введение в выходные данные и Основы выходных данных аналитики.
    • Результат работы инструмента или источника может быть отправлен в несколько выходных данных.

Работа с выходными данными

Когда выполняется анализ данных в реальном времени или больших данных, может быть сгенерирован один или несколько наборов выходных данных. В зависимости от типа настроенных выходных данных, существует несколько способов осуществления доступа к выходным данным и взаимодействия с ними в ArcGIS Velocity.

Выходной векторный слой и потоковый слой ArcGIS

Когда аналитика данных в режиме реального времени или больших данных генерирует выходной векторный слой или потоковый слой, в Velocity можно взаимодействовать с этими выходными слоями. Обратите внимание, что эти методы недоступны, если аналитика еще не была запущена.

Работа с выходным векторном слоем и потоковом слоем в аналитике

При редактировании аналитики, которая была запущена и успешно создала выходные слои, щелкните правой кнопкой объект или узел потокового слоя в редакторе аналитики, чтобы просмотреть доступные параметры, включая доступ к свойствам узла, изменение подписи узла, просмотр сведений об элементе, открытие слоя во вьюере карт или вьюере сцен, выборку данных узла, удаление узла и т.д.

Работа с векторным или потоковом слоем на странице Слои

Все векторные слои, слои изображений карты и потоковые слои, созданные в результате выполнения анализа данных в реальном времени и больших данных, появятся на странице Слои Velocity. Отсюда вы можете редактировать существующие слои, просматривать эти слои во вьюере карт, получать доступ и просматривать сведения об элементе, открывать слой в REST Services Directory, а также удалять и публиковать слои.

Выходные данные Amazon S3 и Azure Blob Store

Аналитика больших данных может выполнять запись выходных объектов в облачные хранилища Amazon S3 или Azure Blob Store. По окончании выполнения анализа больших данных данные станут доступными в соответствующем облачном местоположении. Если вы не видите ожидаемые выходные данные, проверьте журналы анализа на вкладке Журналы.

Все остальные выходные данные

Среди других типов выходных данных аналитики больших данных - Email и Kafka. С помощью этих выходных данных Velocity устанавливает соединение с выбранными выходными данными и отправляет данные о событии на выход.

Запуск аналитики больших данных (расписание)

Аналитика больших данных может быть настроена на запуск одним из двух способов: однократный запуск и запуск по расписанию. При внесении изменений в параметры запуска не забудьте нажать Применить, чтобы сохранить изменения в аналитике больших данных.

Однократный запуск

Аналитика больших данных, настроенная на однократный запуск, запускается только тогда, когда вы запускаете аналитику больших данных. Аналитика выполняет обработку и анализ в соответствии с установками, а после завершения возвращается в состояние «остановлено». В этом заключается отличие от каналов, аналитики в реальном времени и запланированной аналитики больших данных, которые после запуска продолжают работать. Однократный запуск применяется для аналитики больших данных по умолчанию.

Кнопка Расписание с настройкой однократного запуска

Запланировано

Аналитика больших данных может запускаться периодически (например, каждые пять минут) или в одно и то же время (например, ежедневно в 4 часа утра).

Кнопка Расписание с настройкой периодического запуска каждые 5 минут

Если аналитика больших данных настроена на выполнение по расписанию, то после запуска аналитики она останется запущенной, пока не будет принудительно остановлена. В отличие от аналитики в реальном времени, запланированный запуск аналитики больших данных будет потреблять ресурсы только во время выполнения анализа. Например, если аналитику больших данных планируется запускать каждый час, а анализ занимает четыре минуты, аналитика больших данных будет потреблять ресурсы, необходимые для выполнения анализа, в течение четырех минут каждый час.

Для получения дополнительной информации о том, как запланировать анализ больших данных, см. Расписание повторяющегося анализа больших данных.

Выполнение анализа «почти в реальном времени»

Запланированный запуск аналитики больших данных может использоваться для выполнения анализа «почти в реальном времени», когда аналитика больших данных обрабатывает только последние со времени его последнего запуска объекты, добавленные в векторный слой. Для получения дополнительной информации о случаях использования и параметрах настройки анализа «почти в реальном времени» см. раздел Выполнение анализа «почти в реальном времени».

Создание современных информационных продуктов

В качестве альтернативы, запланированный запуск аналитики больших данных может использоваться для создания современных информационных продуктов с заданным пользователем интервалом. Для получения дополнительной информации и изучения примеров использования и опций таких рабочих процессов см. раздел Создание современных информационных продуктов.

Параметры запуска

Аналитика больших данных позволяет настраивать Параметры запуска. Эти настройки управляют распределением ресурсов, предоставляемым развертыванием Velocity для обработки аналитики. Не забудьте сохранить аналитику после внесения изменений в параметры запуска.

В общем, чем больше ресурсов предоставляется для анализа, тем быстрее будет завершена обработка и получены результаты. При работе с большими наборами данных или со сложным анализом, рекомендуется и часто необходимо увеличивать ресурсы, выделяемые для аналитики.

Соответственно, при простом анализе небольшого количества объектов, который успешно работает с настройкой Средний (по умолчанию), можно уменьшить ресурсы, перейдя на план Малый. Это позволит запустить больше каналов, аналитики в реальном времени и аналитики больших данных в развертывании Velocity.

Настройка распределения ресурсов для запуска аналитики больших данных

Советы и ограничения

При использовании аналитики больших данных нужно иметь в виду следующее:

  • Анализ больших данных оптимизирован для работы с большими объемами данных и суммирования шаблонов и трендов, обычно приводящей к сокращению набора выходных объектов или записей по сравнению с числом входных объектов.
  • Аналитика больших данных не лучшим образом подходит для загрузки или записи огромных объемов объектов за один запуск. Запись десятков миллионов и большего числа объектов при выполнении аналитики больших данных может привести к более длительному времени выполнения.
  • Рекомендуется использовать аналитику больших данных для суммирования и анализа, а не для копирования данных.
  • Настройка Большой, доступная для лицензий Standard и Advanced ArcGIS Velocity, может использоваться только с настройкой однократный запуск.