Разработка аналитики больших данных

Шаги в этом уроке описывают, как создавать аналитику больших данных с использованием ArcGIS Velocity. В примере рассматривается роль специалиста по планированию перевозок, который стремится лучше понять дорожно-транспортные происшествия с участием велосипедистов за многолетний период. Полученные результаты помогут определить, где строительство новой инфраструктуры, удобной для велосипедистов, такой как велосипедные дорожки или ограждения, окажет наибольшее влияние на безопасность велосипедистов.

Пройдя все этапы этого урока вы создадите новую аналитику больших данных, настроите источник данных, сконфигурируете инструменты и создадите выходной векторный слой, содержащий аналитические результаты, которые можно просмотреть на веб-карте.

Это упражнение подходит для начинающих. У вас должна быть учетная запись ArcGIS Online с доступом к Velocity. Примерное время выполнения этого простого урока - 30 минут.

Создать аналитику больших данных

Для начала выполните следующие действия:

  1. Откройте ArcGIS Velocity в веб-браузере и авторизуйтесь с помощью учетной записи ArcGIS Online, которая имеет лицензию Velocity.

    Для лучшей производительности используйте Google Chrome или Mozilla Firefox.

    Примечание:

    Если при входе в систему у вас возникнут проблемы, обратитесь к администратору ArcGIS вашей организации. Может потребоваться назначить вам роль ArcGIS Online с правом использования ArcGIS Velocity.

    Более подробно о создании ролей и назначении пользователей.

    Появится Главная страница.

  2. Щелкните вкладку Большие данные в разделе Аналитика , чтобы перейти на страницу Аналитика больших данных.
    Подсказка:

    В разделе Начало работы на Главной странице есть кнопка быстрого доступа Создать аналитику больших данных в разделе Аналитика больших данных.

    На странице Аналитика больших данных вы можете выполнить следующие действия с существующей аналитикой больших данных:

    • Просмотр
    • Создание
    • Начало
    • Остановка
    • Проверьте статус
    • Редактировать
    • Клонировать
    • Удалить
  3. Щелкните Создать аналитику больших данных.

    Откроется мастер настройки, и на экране появятся опции типа источника данных.

Вы вошли в Velocity и запустили процесс создания аналитики больших данных с помощью мастера настройки. Следующий шаг — настроить источник данных.

Настройка источника данных

Данные, использованные в этом уроке, можно загрузить с сайта New York City (NYC) OpenData, Полный набор данных из более 1,5 миллионов записей был загружен с этого сайта в формате CSV. Для этого урока файл CSV был размещен в общедоступном бакете Amazon S3 с информацией о подключении, описанной ниже.

Для аналитики больших данных требуется источник данных. Выполните следующие шаги для настройки источника данных:

  1. На шаге Выбрать тип источника данных щелкните Смотреть все в категории Облако.
    Тип облачного источника данных
    Примечание:

    Вся аналитика больших данных должна иметь хотя бы один источник данных в качестве входных данных.

  2. В разделе Опции облака, выберите Amazon S3.
    Опции источника облачных данных

    Подробнее о Azure Blob Store, Azure Cosmos DB или Amazon S3.

  3. В диалоговом окне Настроить Amazon S3 в шаге Настроить бакет Amazon S3 задайте параметры следующим образом:
    1. Для Режима доступа выберите Общий.
    2. Для Имени бакета введите arcgis-velocity-public.
    3. Для Региона выберите US West (Oregon).
    4. Для Путь к папке (дополнительно) введите /nyc-motor-vehicle-collisions.
    5. Для Набор данных введите NYPD_Motor_Vehicle_Collisions.csv.
    Шаг мастера настройки источника данных Amazon S3
  4. Щелкните Далее, чтобы применить параметры бакета Amazon S3.

    Источник данных проверяет и возвращает выборочные данные о событиях для проверки. Следующий шаг - подтвердить схему данных.

Подтверждение схемы данных

Задав параметры бакета Amazon S3, вы можете подтвердить схему данных. При настройке источника данных важно определить схему данных, которые вы загружаете. Velocity определяет схему при выборке исходных данных, включая значения опций Формат данных, Разделитель полей, Тип поля и Имя поля.

  1. В шаге Подтвердить схему проверьте и убедитесь, что схема данных аналогична той, которая показана на рисунке:
    Подтвердите схему источника данных
    .

    Velocity проверил соединение с источником данных, отобрал первые несколько записей данных и интерпретировал схему данных на основе выбранных записей. При необходимости вы можете изменить значения Формат данных, Разделитель полей, Тип поля и Имя поля, чтобы настроить корректную схему. Для целей этого урока примите параметры схемы по умолчанию.

  2. Нажмите Далее, чтобы подтвердить схему из примера.

Мастер настройки переходит к следующему шагу.

Определение ключевых полей

На этом этапе задаются поля для пространственных и временных возможностей путем выбора значений параметров Местоположение, Дата и время и Отслеживание, чтобы Velocity смог правильно построить геометрию, информацию о датах и уникальный идентификатор для данных.

Выполните следующие шаги для определения ключевых полей:

  1. Для Типа местоположения выберите Поля X/Y.
  2. Для X (долгота) выберите Longitude.
  3. Для Y (широта) выберите Latitude.
  4. Для Z (высота) выберите Нет.
  5. Для параметра Пространственная привязка оставьте значение по умолчанию GCS WGS 1984.
  6. Для Есть ли в ваших данных поля даты? выберите Нет.

    Этот параметр можно использовать для выбора дат начала и окончания или поля даты/времени в источнике данных. Если входные данные содержат информацию о дате в строковом формате, тогда требуется формат даты. Для целей этого урока информация о дате или времени не указывается.

    Подробнее о параметрах даты и времени

  7. Для ID трека выберите Данные не имеют ID трека.

    Этот параметр можно использовать для назначения поля ID трека в источнике данных. В этом уроке не задавайте ID трека.

    Определение ключевых полей в источнике данных
  8. Щелкните Завершить, чтобы создать новый источник данных.

Новый источник данных Amazon S3 добавляется в редактор аналитики.

Создание аналитики больших данных

Теперь, когда источник данных добавлен в редактор аналитики, вы можете создать аналитику больших данных.

  1. На странице Новая аналитика больших данных щелкните Создать аналитику.

    Откроется диалоговое окно Создать аналитику.

  2. Для Заголовок введите NYC Cyclist Accidents.
  3. В Краткой информации введите Обработка дорожно-транспортных происшествий с целью выявления и анализа тех, в которых участвуют велосипедисты.
  4. В качестве Папки выберите папку, в которой вы хотите создать аналитику больших данных.
    Диалоговое окно Создать аналитику
  5. Щелкните Создать аналитику, чтобы создать новую аналитику.

На панели инструментов снова появится редактор аналитики с дополнительными опциями.

Добавление инструментов в аналитику

Создав новую аналитику, вы можете добавить в нее инструменты, которые будут выполнять анализ больших данных по данным об авариях велосипедистов в Нью-Йорке. Velocity позволяет настроить конвейер аналитики.

Сначала вы добавите инструмент Вычислить поле, а затем добавите поле TotalCyclistCasualties, которое суммирует значения в полях NUMBER_CYCLIST_INJURED и NUMBER_CYCLIST_KILLED для каждой отдельной записи из источника данных.

Настройте последовательные инструменты для лучшего понимания дорожно-транспортных происшествий, связанных с травмами велосипедистов.

  1. В меню Добавить узел щелкните Управление данными и выберите инструмент Вычислить поле.
    Инструмент Вычислить поле в папке Управление данными

    Инструмент Вычислить поле добавлен в редактор аналитики.

  2. Подключите источник данных Amazon S3 к инструменту Вычислить поле.
    Источник данных Amazon S3, подключенный к инструменту Вычислить поле

    При необходимости измените положение инструмента и источника данных в редакторе аналитики, чтобы упростить подключение. Подключение гарантирует, что инструмент Вычислить поле знает, какой источник данных следует использовать.

  3. Дважды щелкните инструмент Вычислить поле для доступа к его свойствам.
  4. Щелкните Добавить вычисление поля и выберите Новое поле.
  5. Для Поле введите TotalCyclistCasualties.
  6. Щелкните стрелку ниспадающего меню Тип и выберите Int64.

    Это определяет, что тип поля должен быть 64-битный целочисленный.

  7. Щелкните Настроить выражение Arcade, чтобы открыть диалоговое окно Настроить выражение Arcade.
    1. Используйте конструктор выражений Arcade и тип $feature.NUMBER_CYCLIST_INJURED+$feature.NUMBER_CYCLIST_KILLED.
    2. Щелкните Запустить, чтобы запустить выражение Arcade.

      Результат должен соответствовать следующей иллюстрации:

      Диалоговое окно Настроить выражение Arcade.
    3. Щелкните OK, чтобы сохранить выражение.
    4. Щелкните Добавить вычисление поля, чтобы добавить новое вычисление поля в инструмент Вычислить поле.
      Подсказка:

      При необходимости вы можете добавить дополнительные вычисления поля. В этом уроке используется одно.

      Настроенный инструмент Вычислить поле с выражением Arcade
    5. Щелкните Применить, чтобы применить вычисление к свойствам инструмента Вычислить поле.

    Инструмент Вычислить поле настроен и подключен к источнику данных Amazon S3. Затем для идентификации ДТП, приведших к травме или смерти велосипедиста, с корректными координатами местоположения, вы можете отфильтровать данные о ДТП в Нью-Йорке.

  8. В редакторе аналитики щелкните Сохранить, чтобы сохранить конфигурацию аналитики больших данных.
  9. В меню Добавить узел щелкните Управление данными и выберите инструмент Фильтр по выражению.

    Инструмент Фильтр по выражению добавлен в редактор аналитики.

  10. Перетащите инструмент Фильтр по выражению после инструмента Вычислить поле и соедините два узла.
    Инструмент Фильтр по выражению добавляется в модель
  11. Дважды щелкните инструмент Фильтр по выражению, чтобы открыть его свойства, и настройте параметры следующим образом:
    1. Щелкните Настроить выражение Arcade, чтобы открыть диалоговое окно Настроить выражение Arcade.
    2. Используйте конструктор выражений Arcade или введите $feature.TotalCyclistCasualties>0&$feature.LATITUDE>0.

      В этом наборе данных есть записи с недопустимыми координатами. Эти записи можно игнорировать, отфильтровав те записи, где значение широты меньше или равны 0.

    3. Щелкните Запустить, чтобы запустить выражение Arcade.

      Результат должен соответствовать следующей иллюстрации:

      Диалоговое окно Настроить выражение Arcade с помощью выражения.
    4. Щелкните OK, чтобы вернуться к свойствам инструмента Фильтровать по выражению.
    5. Щелкните Применить, чтобы применить выражение.

      Фильтр добавлен Затем вы добавите инструмент Агрегировать точки, который будет агрегировать точки в пространстве для представления количества несчастных случаев, связанных с травмой или смертью велосипедиста, в виде обычных гексагональных бинов.

  12. В меню Добавить узел щелкните Суммировать данные и выберите инструмент Агрегировать точки.

    Инструмент Агрегировать точки добавлен в редактор аналитики.

  13. В редакторе аналитики щелкните Сохранить, чтобы сохранить обновленную конфигурацию аналитики больших данных.
  14. Перетащите инструмент Агрегировать точки после инструмента Фильтр по выражению и соедините два узла.
    Инструмент Фильтр по выражению добавляется в модель
  15. Дважды щелкните инструмент Агрегировать точки, чтобы открыть его свойства, и настройте параметры следующим образом:
    1. Для Агрегировать точки в выберите Бины.
    2. Для Типа бина выберите Гексагон.
    3. Для параметра Размер бина введите 250 , а в качестве единиц измерения оставьте Метры.
    4. Оставьте раздел Временной шаг без изменений, а в разделе Поле суммирования нажмите Добавить поле суммирования.

      Появится панель свойств.

    5. Для параметра Атрибут выберите TotalCyclistCasualties.
    6. Для Статистики, выберите Сумма.
    7. Для Имя выходного поля оставьте по умолчанию TotalCyclistCasualties_Sum.
    8. Для того, чтобы добавить поле суммирования, щелкните Добавить поле суммирования.
      Панель инструмента Агрегировать точки
    9. Щелкните Применить, чтобы применить свойства инструмента.

Вы успешно добавили три аналитических инструмента, которые будут обрабатывать данные об авариях. Далее вы добавите результат.

Добавление результата в аналитику

После создания инструментов источника данных и аналитики, следующим шагом в этом уроке будет добавление выходных данных, которые будут отправлять обработанные данные событий в векторный слой, доступный для визуализации на веб-карте.

Для того, чтобы добавить выходные данные, выполните следующие шаги:

  1. В меню Добавить узел щелкните Выходные данные и выберите Векторный слой (новый).

    Появится диалоговое окно Настроить векторный слой (новый).

  2. В шаге Настроить векторный слой настройте свойства следующим образом:
    1. Включите опцию Хранение данных в пространственно-временном слое.
    2. В Методе хранения данных выберите Добавить все новые объекты.

      Если вы работаете с источником данных, для которого определен track ID, то вы будете использовать метод Сохранять только последний объект для каждого значения Track ID. При таком способе хранения каждый раз, когда для определенного Track ID принимается новый объект, сохраненный объект, связанный с этим Track ID, будет заменен новым объектом.

    3. В Каждый раз, когда запускается аналитика выберите Заменять существующие объекты и схему.
      Свойства нового выходного векторного слоя

      Когда выбрана опция Заменять существующие объекты и схему, при каждом запуске аналитики больших данных объекты и схемы в выходном слое объектов будут перезаписываться. Это может быть полезно, когда вы создаете аналитику больших данных и добавляете, удаляете или меняете инструменты в промежутке между запуском аналитики. В качестве альтернативы можно использовать опцию Сохранить существующие объекты и схему, если вы хотите присоединять записи при каждом запуске аналитики больших данных.

  3. Щелкните Далее.
  4. В шаге Сохранить для Имени векторного слоя введите Cyclist_Accident_Aggregation.
  5. В Краткая информация о векторном слое введите NYC cyclist accident aggregated feature layer.
  6. Для Папки выберите папку, в которую нужно сохранить векторный слой.
    Сохранение нового векторного слоя с результатами
  7. Щелкните Готово, чтобы сохранить новые выходные данные.

    Новый результат Cyclist_Accident_Aggregation добавлен в редактор аналитики.

  8. Перетащите результат Cyclist_Accident_Aggregation после инструмента Агрегировать точки и соедините два узла.
    Подсказка:

    Вы можете перенести узлы, чтобы модель визуально стала более понятной.

    Итоговая настройка аналитики больших данных
  9. Щелкните Сохранить, чтобы сохранить новую аналитику больших данных NYC Cyclist Accidents.

Запуск аналитики больших данных

Теперь, когда вы успешно настроили аналитику больших данных со всеми необходимыми узлами, вы можете запустить аналитику. Аналитика загрузит более 1,5 миллионов записей из CSV-файла с использованием заданной схемы, обработает данные о событиях с помощью различных инструментов и запишет результаты анализа в новый векторный слой.

Выполните следующие шаги для однократного запуска аналитики:

  1. В редакторе аналитики щелкните Пуск, чтобы запустить аналитику больших данных NYC Cyclist Accidents.
    Запуск аналитики больших данных

    Кнопка Пуск становится кнопкой Остановить инициализацию, а затем кнопкой Стоп, указывающей на то, что аналитика запущена и работает.

    Примечание:

    Каналы и аналитика в реальном времени в Velocity остаются работающими после их запуска. С другой стороны, аналитика больших данных выполняется до завершения анализа и затем автоматически останавливается. Аналитика больших данных может быть настроена на регулярный запуск с помощью опций, доступных в ниспадающем меню Расписание в редакторе аналитики. Опции включают возможность запуска аналитики один раз, периодически или в повторяющееся время.

    Подробнее о расписании повторяющейся аналитики больших данных

  2. Контролируйте аналитику, пока кнопка Стоп не переключится обратно на Пуск.

    Это указывает на то, что аналитика была запущена, и теперь она завершена и больше не работает. Кроме того, вы можете отслеживать состояние аналитики больших данных со страницы Анализ больших данных.

Исследуйте результаты аналитики на веб-карте

Когда вы начали анализ больших данных в предыдущем разделе, был создан выходной векторный слой. Теперь вы откроете этот выходной векторный слой на веб-карте и просмотрите результаты анализа больших данных по данным об авариях велосипедистов в Нью-Йорке.

  1. Для того чтобы открыть страницу Слои, в главном меню в разделе Выходные данные щелкните Слои.
  2. Чтобы просмотреть слой на веб-карте, найдите в списке векторный слой Cyclist_Accident_Aggregation и щелкните иконку Открыть во вьюере карт.
    Открыть векторный слой в вьюере карт
    Примечание:

    Выходные векторные слои, созданные аналитикой в реальном времени и аналитикой больших данных, не отображаются на странице Слои, пока аналитика не будет запущена и не сгенерирован результат.

  3. Для просмотра векторного слоя Cyclist_Accident_Aggregation в Map Viewerщелкните Открыть в Map Viewer в верхней части Map Viewer Classic. Открыть в Map Viewer
  4. Увеличьте масштаб, чтобы сфокусироваться на данных для Нью-Йорка, США.
  5. На панели инструментов Содержание (темная) щелкните Базовая карта и измените базовую карту на Тёмно-серое полотно.
  6. В векторном слое Cyclist_Accident_Aggregation нажмите Стили.
  7. В разделе Выбрать атрибуты выберите Количество из ниспадающего меню и щелкните Добавить.
  8. При необходимости в разделе Выбрать стиль выберите Числа и количества (цвет) и щелкните Опции стиля.
  9. В разделе Опции стиля щелкните Стиль символа. В разделе Цвета измените цветовую шкалу на Красные и желтые. После настройки цвета щелкните Готово и закройте панель стиль символа.
  10. Для того, чтобы сгруппировать данные и выделить области с более высоким уровнем травматизма велосипедистов, прокрутите Опции стиля до конца и переключите кнопку Классифицировать данные.
  11. Щелкните стрелку ниспадающего меню Метод под кнопкой переключения Классификация данных. Выберите Стандартное отклонение и установите 1 для размера класса стандартного отклонения.
  12. Примите другие свойства по умолчанию и нажмите Готово.
    Векторный слой добавляется и для него настроены условные знаки на веб-карте

Веб-карта настроена и ее можно просматривать. Вы можете перемещаться и изменять масштаб на веб-карте, чтобы исследовать результаты анализа больших данных и определить районы с большим количеством травм и смертей велосипедистов, а также районы с меньшим их числом.

Дополнительные ресурсы

На этом уроке вы создали и запустили аналитику больших данных, которая проанализировала миллионы несчастных случаев с участием велосипедистов, чтобы выявить районы в Нью-Йорке с наибольшим количеством таких случаев. Благодаря этим результатам вы теперь можете принимать более обоснованные решения о том, где новая велосипедная инфраструктура может оказать наибольшее влияние.

Дополнительные ресурсы станут доступны, когда вы продолжите работу с Velocity, в том числе: