Разработка аналитики больших данных

В этом уроке вы узнаете, как создавать аналитику больших данных с использованием ArcGIS Velocity. Вы возьмете на себя роль планировщика перевозок, стремясь лучше понять, где происходят автомобильные аварии с участием велосипедистов в течение многолетнего периода. Ваши результаты будут использованы для определения того, где строительство новой, удобной для велосипедистов инфраструктуры, такой как велосипедные дорожки или дорожные барьеры, может оказать наибольшее влияние на безопасность велосипедистов.

Данные, использованные в этом уроке, можно загрузить с сайта New York City (NYC) OpenData, Полный набор данных из более 1,5 миллионов записей был загружен с этого сайта в формате CSV. Для этого урока файл CSV был размещен в общедоступном бакете Amazon S3 с информацией о подключении, описанной ниже.

Пройдя все этапы этого урока вы создадите новую аналитику больших данных и источник данных, настроите различные инструменты и создадите выходной векторный слой, содержащий аналитические результаты, которые можно просматривать на веб-карте.

Это упражнение подходит для начинающих. У вас должна быть учетная запись ArcGIS Online с доступом к ArcGIS Velocity. Примерное время выполнения этого простого урока - 30 минут.

Создать аналитику больших данных

Для начала вы создадите аналитику больших данных в ArcGIS Velocity.

  1. В веб-браузере откройте ArcGIS Velocity и войдите с учетными данными ArcGIS Online.

    Для лучшей производительности используйте Google Chrome или Mozilla Firefox.

    Примечание:

    Если вы столкнулись с проблемами при входе, свяжитесь с вашим администратором ArcGIS Online. Может потребоваться назначить вам роль ArcGIS Online с правом использования ArcGIS Velocity. Дополнительные сведения см. в разделе Создание ролей и назначение пользователей.

  2. В главном меню щелкните Большие данные в разделе ANALYTICS, чтобы перейти на страницу Аналитика больших данных.

    На странице Аналитика больших данных вы можете просматривать существующие и создавать новые аналитики больших данных, а также запускать и останавливать, проверять статус выполнения, редактировать существующие данные, клонировать и удалять свою аналитику больших данных.

  3. Щелкните Создать аналитику больших данных, чтобы открыть мастер конфигурации.

Настройка источника данных

При настройке аналитики больших данных сначала нужно выбрать тип источника данных.

  1. В окне Выбрать тип источника данных щелкните Увидеть все в категории Облако.

    Окно Выберите тип источника данных

    Примечание:

    Вся аналитика больших данных должна иметь хотя бы один источник данных в качестве входных данных.

  2. В разделе Опции облака, выберите Amazon S3.

    Опции источника облачных данных

    Подробнее об облачных провайдерах см. веб-сайт провайдеров Azure Blob Store, Azure Cosmos DB или Amazon S3.

  3. В окне Настроить Amazon S3 в шаге Настроить бакет Amazon S3 задайте параметры следующим образом:
    1. Для Режима доступа выберите Общий.
    2. Для Имени бакета введите arcgis-velocity-public.
    3. Для Регион выберите US West (Oregon).
    4. Для Путь к папке (дополнительно) введите /nyc-motor-vehicle-collisions.
    5. Для Набор данных введите NYPD_Motor_Vehicle_Collisions.csv.

    Мастер настройки источника данных Amazon S3

  4. Щелкните Далее, чтобы применить параметры бакета Amazon S3.

    Источник данных проверяет и возвращает выборочные данные о событиях, которые вы просмотрите и подтвердите в следующем разделе.

Подтверждение схемы данных

Установив свойства бакета Amazon S3, вы теперь подтвердите схему данных. При настройке источника данных важно определить схему данных, которые вы загружаете. Velocity определяет схему при выборке данных, включая формат данных, разделителя полей, типа поля и имени поля.

  1. В шаге Подтвердить схему проверьте и убедитесь, что схема данных похожа на ту, которая показана на рисунке ниже.

    Подтверждение схемы источника данных

    Velocity проверил соединение с источником данных, отобрал первые несколько записей данных и интерпретировал схему данных на основе выбранных записей. Сейчас вы можете поменять форматы данных, разделитель полей, типы и имена полей, чтобы настроить корректную схему. Однако в этом уроке вы примете параметры схему по умолчанию.

  2. Нажмите Далее, чтобы подтвердить схему из примера.

Определение ключевых полей

Далее вы настроите ключевые поля, чтобы Velocity мог корректно построить геометрию, информацию о датах и уникальный идентификатор для данных.

  1. В шаге Определение ключевых полей настройте параметры Местоположения, Дата и время и Отслеживание следующим образом:
    1. Для Типа местоположения выберите Поля X/Y.
    2. Для X (долгота) выберите LONGITUDE.
    3. Для Y (Широта) выберите LATITUDE.
    4. Для Z (высота) выберите Нет.
    5. Для параметра Пространственная привязка примите значение по умолчанию GCS WGS 1984.
    6. Для Есть ли в ваших данных поля даты? выберите Нет.

      Этот параметр можно использовать для выбора дат начала и окончания или поля даты/времени в источнике данных. Если входные данные содержат информацию о дате в строковом формате, тогда требуется формат даты. Более подробно см. Параметры даты и времени. В этом уроке вы не будете указывать информацию о дате или времени.

    7. Для ID трека выберите Данные не имеют ID трека.

      Этот параметр можно использовать для обозначения поля Track ID в источнике данных. Для получения дополнительной информации см. Track ID. В этом уроке вы не будете задавать Track ID.

      Определение ключевых полей в источнике данных

  2. Щелкните Завершить, чтобы создать новый источник данных.

    Новый источник данных Amazon S3 добавляется в редактор аналитики.

Создание аналитики больших данных

Теперь, когда источник данных добавлен в редактор аналитики, вы создадите аналитику больших данных.

  1. На странице Новая аналитика больших данных щелкните Создать аналитику.
  2. В окне Создать аналитику для Заголовок введите NYC Cyclist Accidents.
  3. В Краткой информации введите Обработка дорожно-транспортных происшествий с целью выявления и анализа тех, в которых участвуют велосипедисты.
  4. В качестве Папки выберите папку, в которой создается аналитика больших данных.

    Окно Создать аналитику

  5. Щелкните Создать аналитику, чтобы создать новую аналитику.

    После создания аналитики на панели инструментов в верхней части редактора аналитики отобразятся дополнительные опции и элементы управления для сохранения, запуска, планирования, а также настройки запуска для аналитики.

Добавление инструментов в аналитику

Создав новую аналитику, вы добавите в аналитику инструменты, которые будут выполнять анализ больших данных для данных об авариях велосипедистов NYC. С помощью Velocity вы настраиваете конвейер анализа, в котором выходные данные одного шага являются входными для следующего. Вы будете настраивать последовательные инструменты для лучшего понимания дорожно-транспортных происшествий, связанных с травмами велосипедистов.

Сначала вы добавите инструмент Вычислить поле вы добавите поле с именем TotalCyclistCasualties, которое суммирует значения в полях NUMBER_CYCLIST_INJURED и NUMBER_CYCLIST_KILLED для каждой отдельной записи из источника данных.

  1. В меню Добавить узел слева щелкните папку Управление данными и выберите инструмент Вычислить поле.

    Инструмент Вычислить поле в папке Управление данными

    Инструмент Вычислить поле добавляется в редактор аналитики.

  2. Подключите источник данных Amazon S3 к инструменту Вычислить поле.

    Источник данных Amazon S3 подключен к инструменту Вычислить поле.

    Вы должны подключить два узла, чтобы инструмент Вычислить поле знал источник данных, с которым он будет работать в следующем шаге.

  3. Дважды щелкните инструмент Вычислить поле для доступа к его свойствам.
  4. Настройте инструмент Вычислить поле следующим образом:
    1. Убедитесь, что выбрана опция Новое поле.
    2. В столбце Поле введите TotalCyclistCasualties.
    3. В столбце Тип щелкните ниспадающее меню и выберите Int64.

      Это определяет, что тип поля должен быть 64-битный целочисленный.

    4. Щелкните кнопку Настроить выражение Arcade, чтобы открыть окно Настроить выражение Arcade.
    5. На левой панели используйте конструктор выражений Arcade или введите $feature.NUMBER_CYCLIST_INJURED+$feature.NUMBER_CYCLIST_KILLED.
    6. Щелкните Запустить, чтобы запустить выражение Arcade.

      Результат запуска должен выглядеть примерно так, как показано на следующей иллюстрации.

      Окно Настроить выражение Arcade

    7. Щелкните OK, чтобы сохранить выражение.
    8. В столбце Добавить вычисление поля щелкните Добавить, чтобы добавить новое поле.

      Настроенный инструмент Вычислить поле

    9. Щелкните Применить, чтобы применить свойства.

      С настроенным инструментом аналитики Вычислить поле, который подключен к источнику данных Amazon S3 вы будете фильтровать данные ДТП в Нью-Йорке, чтобы идентифицировать ДТП с корректными координатами местоположения, приведшие к травме или смерти велосипедиста.

  5. В редакторе аналитики щелкните Сохранить, чтобы сохранить текущую конфигурацию аналитики больших данных.
  6. В меню Добавить узел щелкните папку Управление данными и выберите инструмент Фильтр по выражению.

    Новый инструмент Фильтр по выражению добавляется в редактор аналитики.

  7. Перетащите инструмент Фильтр по выражению справа от инструмента Вычислить поле и соедините два узла.

    Инструмент Фильтр по выражению добавляется в модель

  8. Дважды щелкните инструмент Фильтр по выражению, чтобы открыть его свойства, и настройте следующие параметры:
    1. Щелкните кнопку Настроить выражение Arcade, чтобы открыть окно Настроить выражение Arcade.
    2. На панели слева используйте конструктор выражений Arcade или введите $feature.TotalCyclistCasualties>0&$feature.LATITUDE>0.

      В этом наборе данных есть записи с недопустимыми координатами. Эти записи можно игнорировать, отфильтровав те записи, где значение широты меньше или равны 0.

    3. Щелкните Запустить, чтобы запустить выражение Arcade.

      Результат запуска должен выглядеть примерно так, как показано на следующей иллюстрации.

      Окно Настроить выражение Arcade

    4. Щелкните OK, чтобы вернуться к свойствам инструмента Фильтровать по выражению.
    5. Щелкните Применить, чтобы применить выражение.

    С добавленным фильтром вы добавите еще один инструмент Агрегировать точки, который будет агрегировать точки в пространстве, чтобы представлять количество несчастных случаев, связанных с травмой или смертью велосипедиста, в виде обычных гексагональных бинов.

  9. В меню Добавить узел щелкните папку Суммировать данные и выберите инструмент Агрегировать точки.

    Инструмент Агрегировать точки добавляется в редактор аналитики.

  10. В редакторе аналитики щелкните Сохранить, чтобы сохранить обновленную конфигурацию аналитики больших данных.
  11. Перетащите инструмент Агрегировать точки справа от инструмента Фильтр по выражению и соедините два узла.

    Инструмент Фильтр по выражению добавляется в модель

  12. Дважды щелкните инструмент Агрегировать точки, чтобы открыть его свойства, и настройте следующие параметры:
    1. Для Агрегировать точки в выберите Бины.
    2. Для Типа бина выберите Гексагон.
    3. Для параметра Размер бина введите 250 , а в качестве единиц измерения оставьте Метры.
    4. В разделе Поля суммирования для параметра Атрибут выберите TotalCyclistCasualties.
    5. Для Статистики, выберите Сумма.
    6. Для Имя выходного поля оставьте по умолчанию TotalCyclistCasualties_Sum.
    7. Щелкните Добавить, чтобы добавить это поле суммирования.

      Свойства инструмента Агрегировать точки

    8. Щелкните Применить, чтобы применить свойства.

      Вы успешно добавили три аналитических инструмента, которые будут обрабатывать данные об авариях. Далее вы добавите результат.

Добавление результата в аналитику

После того, как созданы инструменты источника данных и аналитики, следующим шагом будет добавление результата, который будет отправлять обработанные данные событий в векторный слой, доступный для визуализации на веб-карте.

  1. В меню Добавить узел щелкните папку Выходные данные и выберите Векторный слой (новый).

    Откроется окно Настроить векторный слой (новый).

  2. В шаге Настроить векторный слой настройте свойства следующим образом:
    1. Для опции Хранение данных в пространственно-временном векторном слое включите переключатель.
    2. В Методе хранения данных выберите Добавить все новые объекты.

      Если вы работаете с источником данных, для которого определен Track ID, то вы будете использовать метод Сохранять только последний объект для каждого значения Track ID. При таком способе хранения каждый раз, когда для определенного Track ID принимается новый объект, сохраненный объект, связанный с этим Track ID, будет заменен новым объектом.

    3. В Каждый раз, когда запускается аналитика выберите Заменять существующие объекты и схему.

      Настройте новый выходной векторный слой

      Когда выбрана опция Заменять существующие объекты и схему, при каждом запуске аналитики больших данных объекты и схемы в выходном слое объектов будут перезаписываться. Это может быть полезно, когда вы создаете аналитику больших данных и добавляете, удаляете или меняете инструменты в промежутке между запуском аналитики. В качестве альтернативы можно использовать опцию Сохранить существующие объекты и схему, если вы хотите присоединять записи при каждом запуске аналитики больших данных.

  3. Щелкните Далее.
  4. В шаге Сохранить для Имени векторного слоя введите Cyclist_Accident_Aggregation.
  5. Для Краткая информация о векторном слое введите NYC cyclist accident aggregated feature layer.
  6. Для Папки выберите папку, в которую нужно сохранить векторный слой.

    Сохранение нового векторного слоя с результатами

  7. Щелкните Готово, чтобы сохранить новые выходные данные.

    Новый результат Cyclist_Accident_Aggregation добавлен в редактор аналитики.

  8. Перетащите результат Cyclist_Accident_Aggregation справа от инструмента Агрегировать точки и соедините два узла.

    Вы можете перенести узлы, чтобы модель визуально стала более понятной.

    Итоговая настройка аналитики больших данных
  9. Щелкните Сохранить, чтобы сохранить новую аналитику больших данных NYC Cyclist Accidents.

Запуск аналитики больших данных

Теперь, когда вы успешно настроили аналитику больших данных со всеми необходимыми узлами, вы запустите аналитику и она отработает один раз. Аналитика загрузит более 1,5 миллионов записей из CSV-файла с использованием заданной схемы, обработает данные о событиях с помощью различных инструментов и запишет результаты анализа в новый векторный слой.

  1. В редакторе аналитики щелкните Пуск, чтобы запустить аналитику больших данных NYC Cyclist Accidents.

    Запуск аналитики больших данных

    Кнопка Пуск переходит в Инициализацию, а затем в Остановить, указывая на то, что аналитика запущена и работает.

    Примечание:

    Каналы и аналитика в реальном времени в Velocity остаются работающими после их запуска. С другой стороны, аналитика больших данных выполняется до завершения анализа и затем автоматически останавливается. Аналитика больших данных может быть настроена на регулярный запуск с помощью опций, доступных в ниспадающем меню Расписание в редакторе аналитики. Опции включают возможность запуска аналитики один раз, периодически или в повторяющееся время. Подробнее о планировании аналитики больших данных см. в разделе Запланированный периодический запуск анализа больших данных.

  2. Контролируйте аналитику, пока кнопка Стоп не изменится на Пуск.

    Кнопка Стоп, измененная на Пуск, указывает, что аналитика была запущена, и теперь она завершена и больше не работает. Кроме того, вы можете отслеживать состояние аналитики больших данных со страницы Анализ больших данных.

Исследуйте результаты аналитики на веб-карте

Когда вы начали анализ больших данных в предыдущем разделе, был создан выходной векторный слой. Теперь вы откроете этот выходной векторный слой на веб-карте и просмотрите результаты анализа больших данных по данным об авариях велосипедистов в Нью-Йорке.

  1. В главном меню щелкните Слои под OUTPUT, чтобы открыть страницу Слои.
  2. Найдите в списке векторный слой Cyclist_Accident_Aggregation и щелкните Открыть во вьюере карт, чтобы просмотреть слой на веб-карте.

    Открыть векторный слой в вьюере карт

    Примечание:

    Выходные векторные слои, созданные аналитикой в реальном времени и аналитикой больших данных, не отображаются на странице Слои, пока аналитика не будет запущена и не сгенерирован результат.

  3. Приблизьтесь к экстенту данных в районе Нью-Йорка.
  4. Измените базовую карту на Темно-серое полотно.
  5. Для слоя Cyclist Accident Aggregation щелкните кнопку Изменить стиль, и для шага Выберите атрибут для отображения выберите COUNT в раскрывающемся списке.
  6. Для Выберите стиль отображения выберите Числа и количества (цвет) и щелкните Опции.
  7. Щелкните Символы и измените цветовую шкалу на Красный/Оранжевый/Белый и щелкните ОК.
  8. Отметьте Классифицировать данные.
  9. В раскрывающемся списке Использовать выберите Стандартное отклонение и установите для размера класса стандартное отклонение 1.
  10. Примите другие свойства по умолчанию и нажмите OK, а затем Готово.

    Векторный слой добавляется и для него настроены условные знаки на веб-карте

  11. Перемещайте и масштабируйте веб-карту, чтобы изучить результаты анализа больших данных. Определите районы, где было больше травм и смертей, связанных с велосипедистами, и где их было меньше.

Что дальше

На этом уроке вы создали и запустили аналитику больших данных, которая проанализировала миллионы несчастных случаев с участием велосипедистов, чтобы выявить районы в Нью-Йорке с наибольшим количеством таких случаев. Благодаря этим результатам вы теперь можете принимать более обоснованные решения о том, где новая велосипедная инфраструктура может оказать наибольшее влияние.

Дополнительные ресурсы станут доступны, когда вы продолжите работу с ArcGIS Velocity, в том числе Что нового в последней версии, Основные термины ArcGIS Velocity, Анализ больших данных, Анализ в режиме реального времени и Использование выражений Arcade.