Concevoir une analyse Big Data

Cette leçon montre comment créer une analyse Big Data à l’aide de ArcGIS Velocity. Vous allez endosser le rôle d’un planificateur de transports qui s’intéresse aux accidents de véhicules à moteur impliquant des cyclistes sur une période de plusieurs années. Vos conclusions permettront d’identifier les endroits où l’installation d’infrastructures adaptées à l’usage du vélo, telles que des pistes cyclables ou séparateurs de voies, permettra d’améliorer de la meilleure façon la sécurité des cyclistes.

Les données utilisées dans cette leçon peuvent être téléchargées sur le site New York City (NYC) OpenData. Le jeu de données complet, comportant plus de 1,5 million d’enregistrements, a été téléchargé à partir de ce site au format CSV. Pour cette leçon, le fichier CSV est hébergé dans un paquet Amazon S3 public, dont les informations de connexion sont décrites dans les étapes ci-après.

Au cours des étapes de cette leçon, vous allez créer une analyse Big Data et une source de données, configurer divers outils et générer une couche d’entités en sortie contenant des résultats d’analyse pouvant être affichés dans une carte Web.

Ce cours s’adresse aux débutants. Vous devez disposer d’un compte ArcGIS Online avec accès à ArcGIS Velocity. La durée estimée de cette leçon est de 30 minutes.

Créer une analyse Big Data

Pour commencer, vous allez créer une analyse Big Data dans ArcGIS Velocity.

  1. Dans un navigateur Web, ouvrez l'application ArcGIS Velocity et connectez-vous avec vos identifiants de connexion ArcGIS Online.

    Pour une expérience optimale, utilisez Google Chrome ou Mozilla Firefox.

    Remarque :

    En cas de problème lors de la connexion, adressez-vous à votre administrateur ArcGIS Online. Vous devrez peut-être disposer d’un rôle ArcGIS Online doté de privilèges pour utiliser ArcGIS Velocity.

  2. Dans le menu principal, cliquez sur Big Data (Big Data), sous ANALYTICS (ANALYSES), pour accéder à la page Big Data Analytics (Analyses Big Data).

    Vous pouvez créer de nouvelles analyses Big Data et afficher des analyses existantes, ainsi que lancer et arrêter des analyses, vérifier leur validité et leur statut d’exécution, les modifier, les cloner et les supprimer.

    Page Analyses Big Data

  3. Cliquez sur Create big data analytic (Créer une analyse Big Data) pour sélectionner un type de source de données.

Configurer la source de données

Lorsque vous configurez une analyse Big Data, vous devez d’abord configurer une source de données que vous utiliserez pour charger les données à analyser.

  1. Dans la fenêtre Select a type of data source (Sélectionner un type de source de données), cliquez sur See all (Afficher tout) sous la catégorie Cloud (Cloud).

    Fenêtre Select a type of data source (Sélectionner un type de source de données)

    Remarque :

    Au moins une source de données en entrée doit être indiquée pour toutes les analyses Big Data.

  2. Sous Cloud options (Options Cloud), sélectionnez Amazon S3.

    Options de source de données Cloud

    Pour des détails sur les fournisseurs cloud, visitez les sites Web des fournisseurs Stockage d’objets Blob Azure, Base de données Azure Cosmos ou Amazon S3.

  3. Dans la fenêtre Configure Amazon S3 (Configurer Amazon S3), à l’étape Configure Amazon S3 Bucket (Configurer le paquet Amazon S3), définissez les paramètres comme suit :
    1. Pour Access mode (Mode d’accès), sélectionnez Public.
    2. Pour Bucket name (Nom du paquet), saisissez arcgis-velocity-public.
    3. Pour Region (Région), sélectionnez US West (Oregon) (Ouest EU (Oregon)).
    4. Pour Folder path (optional) [Chemin d’accès au dossier (facultatif)] , saisissez /nyc-motor-vehicle-collisions.
    5. Pour Dataset (Jeu de données), saisissez NYPD_Motor_Vehicle_Collisions.csv.
    6. Cliquez sur Next (Suivant) pour appliquer les paramètres de paquet Amazon S3.

    Assistant de configuration de source de données

    La source de données est validée.

Vérifier la structure des données

Une fois les paramètres du paquet Amazon S3 définis, vous devez confirmer la structure des données. Lors de la configuration d’une source de données, il est important de définir la structure des données que vous recevez. Velocity définit la structure lorsqu’il échantillonne les données, en estimant le format des données, le délimiteur de champ, les types de champ et les noms de champ.

  1. À l’étape Confirm Schema (Confirmer la structure), vérifiez et confirmez la structure des données.

    Vérification de la structure de la source de données

    Velocity a testé la connexion à la source de données, échantillonné les premiers enregistrements de données et interprété la structure des données en fonction des enregistrements échantillonnés. À ce stade, vous pouvez modifier les formats de données, le délimiteur de champ, les types de champ et les noms de champ pour définir une structure valide. Dans cette leçon, vous allez accepter les propriétés par défaut de la structure.

  2. Cliquez sur Next (Suivant) pour valider la structure telle qu’échantillonnée.

Identifier les champs clés

Vous allez maintenant configurer les champs clés pour que Velocity puisse créer correctement la géométrie, les données de date et un identifiant unique pour les données.

  1. À l’étape Identify Key Fields (Identifier les champs clés), configurez les paramètres Location (Emplacement) comme suit :
    1. Pour Location type (Type d’emplacement), sélectionnez X/Y fields (Champs X/Y).
    2. Pour X (longitude) (X (longitude)), sélectionnez LONGITUDE (LONGITUDE).
    3. Pour Y (latitude) (Y (latitude)), sélectionnez LATITUDE (LATITUDE).
    4. Pour Z (altitude) (Z (altitude)), sélectionnez None (Aucune).
    5. Pour Spatial reference (Référence spatiale), sélectionnez GCS WGS 1984.
    6. Pour Does your data have date fields (Vos données comportent-elles des champs de date), sélectionnez No (Non).

      Ce paramètre peut être utilisé pour définir un champ de date ou de date/heure de début et de fin dans la source de données. Si les données en entrée comportent des dates au format chaîne, un format de date est requis. Pour plus de détails, voir Définir les propriétés de date et d’heure. Pour cette leçon, vous n’indiquerez aucune information de date et d’heure.

    7. Pour Track ID (ID de suivi), sélectionnez Data does not have a Track ID (Les données ne comportent pas d’ID de suivi).

      Ce paramètre permet de désigner un champ d’ID de trace dans la source de données. Pour plus d’informations, voir ID de suivi. Pour cette leçon, vous ne définirez pas d’ID de trace.

      Identifier les champs clés dans la source de données

  2. Cliquez sur Complete (Terminé) pour créer la source de données.

Créer l’analyse Big Data

Une fois la source de données Amazon S3 configurée, l’éditeur d’analyse s’ouvre. Dans l’éditeur d’analyse, vous pouvez ajouter des outils, des sources de données et des sorties pouvant être utilisés pour définir le flux et les analyses à exécuter sur les données. Vous allez maintenant créer l'analyse Big Data.

  1. Sur la page New Big Data Analytic (Nouvelle analyse Big Data), cliquez sur Create analytic (Créer une analyse).
  2. EnDans la fenêtre Create analytic (Créer une analyse), pour Title (Titre), saisissez NYC Cyclist Accidents (Accidents impliquant des cyclistes à NYC).
  3. Pour Summary (Synthèse), saisissez Process motor vehicle accidents to identify and analyze those involving cyclists (Examiner les accidents de véhicules à moteur pour identifier et analyser ceux qui impliquent des cyclistes).

    Title (Titre) et Summary (Synthèse) dans la fenêtre Create analytic (Créer une analyse)

  4. Cliquez sur Create analytic (Créer une analyse) pour créer l'analyse.

    Une fois que l’analyse a été créée, la barre d’outils située en haut de l’éditeur d’analyse propose des options et des commandes d’enregistrement, de démarrage et de planification supplémentaires. Vous pouvez également définir les paramètres d’exécution de l’analyse.

Ajouter des outils à l’analyse et les configurer

Une fois la nouvelle analyse créée, vous allez ajouter à celle-ci des outils permettant d’effectuer une analyse Big Data sur les données des accidents impliquant des cyclistes à NYC. Velocity permet de configurer un pipeline d’analyse dans lequel la sortie d’une étape constitue l’entrée de la suivante. Vous allez configurer des outils séquentiels permettant de mieux comprendre les accidents de véhicules à moteur dans lesquels des cyclistes ont été blessés.

Tout d’abord, vous allez ajouter un champ nommé TotalCyclistCasualties, qui additionne les valeurs des champs NUMBER OF CYCLIST INJURED et NUMBER OF CYCLIST KILLED pour chaque enregistrement individuel de la source de données.

  1. Dans le dossier Manage Data (Gérer les données), sélectionnez l’outil Calculate Field (Calculer un champ).

    Sélectionner l'outil Calculate Field (Calculer un champ)

  2. Configurez l’outil Calculer un champ comme suit :
    1. Sélectionnez New field (Nouveau champ).
    2. Pour Field (Champ), saisissez :

      TotalCyclistCasualties

    3. Pour Type, sélectionnez Int32.

      Ceci indique que le champ sera champ entier à 32 bits.

    4. Cliquez sur le bouton Configure Arcade expression (Configurer l’expression Arcade) pour ouvrir la fenêtre Configure an Arcade expression (Configurer une expression Arcade).
    5. Dans la fenêtre Expression (Expression), saisissez :

      $feature["NUMBER OF CYCLIST INJURED"] + $feature["NUMBER OF CYCLIST KILLED"]

      Le résultat doit être similaire à celui de l'illustration ci-après.

      Fenêtre Configurer une expression Arcade

    6. Cliquez sur OK pour enregistrer l’expression.
    7. Dans la colonne Add field calculation (Ajouter un calcul de champ), cliquez sur Add (Ajouter) pour ajouter le nouveau champ.

      Outil Calculer un champ configuré

    8. Cliquez sur Appliquer pour enregistrer l’outil Calculer un champ.

      L’outil Calculate Field (Calculer un champ) sera ajouté à l’analyse après la source de données Amazon S3 que vous avez configurée précédemment.

    Une fois que l’outil Calculate Field (Calculer un champ) a été ajouté, filtrez les données des accidents impliquant des véhicules à moteur à New York pour identifier les accidents dont les coordonnées d’emplacement sont valides ayant entraîné des blessures ou la mort de cyclistes.

  3. Dans le dossier Manage Data (Gérer les données), sélectionnez l’outil Filter By Expression (Filtrer par expression) et configurez-le comme suit :
    1. Cliquez sur le bouton Configure un Arcade expression (Configurer une expression Arcade) pour ouvrir la fenêtre Configure an Arcade expression (Configurer une expression Arcade).
    2. Dans la fenêtre Expression (Expression), saisissez :

      $feature.TotalCyclistCasualties > 0 & $feature.LATITUDE > 0

      Des enregistrements présentant des coordonnées non valides existent dans ce jeu de données. Pour les ignorer, filtrez les enregistrements pour lesquels la valeur de latitude est inférieure ou égale à 0.

    3. Cliquez sur OK (OK) pour retourner à l'assistant de configuration de l’outil Filter by Expression (Filtrer par expression).
    4. Cliquez sur Apply (Appliquer) pour appliquer l’expression.

      Outil Filter by Expression (Filtrer par expression) ajouté

      L’outil Filtrer par expression est ajouté à l’éditeur d’analyse après l’outil Calculer un champ que vous avez créé précédemment.

    Après avoir ajouté le filtre, vous allez ajouter un autre outil pour agréger les points dans l’espace afin de représenter le nombre d’accidents ayant occasionné des blessures ou la mort de cyclistes sous forme de groupes hexagonaux standard.

  4. Dans le dossier Summarize Data (Synthétiser les données), sélectionnez l’outil Aggregate Points (Agréger des points) et configurez-le comme suit :
    1. Pour Aggregate points into (Agréger des points dans), sélectionnez Bins (Groupes).
    2. Pour Bin type (Type de groupe), sélectionnez Hexagon (Hexagone).
    3. Pour Bin size (Taille du groupe), entrez 250. Pour l’unité de mesure, conservez la valeur Meters (Mètres).
    4. Cliquez sur Advanced options (Options avancées).
    5. Dans la section Summary Fields (Champs de synthèse), pour Attribute (Attribut), sélectionnez TotalCyclistCasualties.
    6. Pour Statistic (Statistique), choisissez Sum (Somme).
    7. Pour Output field name (Nom de champ en sortie) conservez la valeur par défaut TotalCyclistCasualties_Sum.
    8. Cliquez sur Add (Ajouter) pour ajouter le champ de synthèse.

      Outil Agréger des points configuré

    9. Cliquez sur Apply (Appliquer) pour appliquer les paramètres de l’outil.

      L’outil Agréger des points est ajouté à l’éditeur d’analyse après l’outil Filtrer par expression que vous avez configuré à l’étape précédente.

Configurer une sortie

Après avoir configuré une source de données et un pipeline d’outils d’analyse, vous allez ajouter une sortie pour pouvoir visualiser les résultats de l’analyse Big Data dans une carte Web. Vous allez écrire la sortie dans une nouvelle couche d’entités que vous créerez en suivant la procédure ci-dessous.

  1. Dans l’éditeur d’analyse, cliquez sur Add output (Ajouter une sortie) pour sélectionner une sortie.
  2. Cliquez sur See all (Tout afficher) sous la catégorie ArcGIS.
  3. Sélectionnez Feature Layer (Couche d’entités), puis Feature Layer (new) [Couche d’entités (nouvelle)].
  4. Dans la fenêtre Configure Feature Layer (new) [Configurer une couche d’entités (nouvelle)], à l’étape Configure Feature Layer (Configurer une couche d’entités), définissez les paramètres suivants :
    1. Pour Data storage method (Méthode de stockage de données), sélectionnez Add new features (Ajouter de nouvelles entités).

      Si un ID de trace était défini pour la source de données que vous utilisez, vous utiliserez la méthode Keep Latest Feature (Conserver la dernière entité). Avec cette méthode de stockage, dès qu’une nouvelle entité est reçue pour un ID de trace donné, l’entité stockée associée à cet ID de trace est remplacée par la nouvelle entité.

    2. Pour Each time the analytic runs (À chaque exécution de l’analyse), sélectionnez Replace existing features and schema (Remplacer les entités et la structure existantes).

      Configuration de la nouvelle couche d’entités en sortie

      Lorsque vous utilisez Replace existing features and schema (Remplacer les entités et la structure existantes), à chaque exécution de l’analyse Big Data, les entités et la structure de la couche d’entités en sortie sont écrasées. Cela peut être utile si vous développez une analyse Big Data et ajoutez, supprimez ou modifiez des outils entre les exécutions de l’analyse. Au contraire, l’option Keep existing features and schema (Conserver les entités et la structure existantes) permet d’ajouter des enregistrements supplémentaires à chaque exécution de l’analyse Big Data.

  5. Cliquez sur Next (Suivant).
  6. À l'étape Save (Enregistrer), pour Feature layer name (Nom de la couche d’entités), saisissez NYC_Cyclist_Accident_Aggregation.
  7. Cliquez sur Complete (Terminé) pour enregistrer la nouvelle sortie.

    Nom de la couche d’entités en sortie

    La nouvelle sortie Feature Layer (new) (Couche d’entités [nouvelle]) est ajoutée après l’outil Agréger des points que vous avez ajouté précédemment.

  8. En haut de l’application Velocity, cliquez sur Save (Enregistrer) pour enregistrer l’analyse Big Data NYC Cyclist Accidents (Accidents impliquant des cyclistes à New York).

Démarrage de l’analyse Big Data

Vous avez configuré avec succès une analyse Big Data. Cette analyse va charger des millions d’enregistrements à partir d’un fichier de texte délimité selon une structure définie, traiter les enregistrements d’événement à l’aide de divers outils, puis écrire le résultat de l’analyse dans une nouvelle couche d’entités. Vous allez maintenant démarrer l’analyse Big Data NYC Cyclist Accidents (Accidents impliquant des cyclistes à NYC).

  1. En haut de l’application Velocity, cliquez sur Start (Démarrer) pour lancer l’analyse NYC Cyclist Accidents (Accidents impliquant des cyclistes à NYC).

    Démarrage de l’analyse Big Data

    Le bouton Start (Démarrer) devient Stop Initialization (Arrêter l’initialisation), puis Stop (Arrêter), ce qui indique que l’analyse a commencé et est en cours d’exécution.

    Remarque :

    Une fois lancés, les flux et les analyses temps réel Velocity continuent de s’exécuter. Les analyses Big Data s’exécutent jusqu’à la fin, puis elles s’arrêtent automatiquement une fois terminées. Vous pouvez configurer les analyses Big Data pour qu’elles s’exécutent régulièrement à l’aide des options disponibles dans le menu déroulant Schedule (Planifier). Les analyses Big Data peuvent s’exécuter toutes les n minutes ou heures, certains jours de la semaine, ou à certains moments de la journée. Pour des détails sur la planification d'une analyse Big Data, reportez-vous à la rubrique Programmer une analyse Big Data récurrente.

  2. Surveillez l’analyse jusqu’à ce que l’intitulé du bouton Stop (Arrêter) redevienne Start (Démarrer).

    Lorsque l’intitulé du bouton Stop (Arrêter) redevient Start (Démarrer), cela signifie que l’analyse s’est exécutée et qu’elle est terminée. Vous pouvez également surveiller le statut des analyses Big Data à partir de la page Big Data Analytics (Analyses Big Data) dans l'application Velocity.

Explorer les résultats de l’analyse dans une carte Web

Lorsque vous avez lancé l’analyse Big Data dans la section précédente, une couche d’entités en sortie a été créée. À présent, vous allez ouvrir cette couche d’entités en sortie sur une carte Web et afficher les résultats de l’analyse Big Data portant sur les données des accidents impliquant des cyclistes à New York.

  1. Dans le menu principal, cliquez sur Layers (Couches) sous OUTPUT (SORTIE) pour ouvrir la page Layers (Couches).
  2. Localisez la couche d’entités NYC_Cyclist_Accident_Aggregation dans la liste et cliquez sur Open in map viewer (Ouvrir dans Map Viewer) pour afficher la couche dans une carte Web.

    Ouvrir une couche d’entités dans Map Viewer

    Remarque :

    Les couches en sortie créées par les analyses temps réel ou Big Data ne s’affichent pas dans la page Layers (Couches) tant que les analyses ne sont pas terminées et n’ont pas généré de sortie.

  3. Effectuez un zoom avant sur l’étendue des données de la région de New York City.
  4. Changez le fond de carte en Dark Gray Canvas (Nuances de gris foncé).
  5. Dans la couche, cliquez sur le bouton Change Style (Modifier le style), puis, à l’étape Choose an attribute to show (Choisir un attribut à afficher), sélectionnez Count (Total) dans le menu déroulant.
  6. À l’étape Select a drawing style (Sélectionner un style de dessin), sélectionnez Counts and Amounts (Color) [Totaux et montants (Couleur)], puis cliquez sur Options.
  7. Cliquez sur Symbols (Symboles), modifiez le dégradé de couleurs en Rouge/Orange/Blanc, puis cliquez sur OK.
  8. Cochez la case Classify Data (Classer les données).
  9. Dans le menu déroulant Using (À l’aide de), sélectionnez Standard Deviation (Écart type) et définissez la taille de la classe sur 1 écart type.
  10. Acceptez les autres propriétés par défaut, cliquez sur OK, puis sur Done (Terminé).

    Résultats de l’analyse Big Data dans une carte Web

  11. Déplacez la carte Web et effectuez des zooms pour explorer les résultats de l’analyse Big Data. Identifiez les zones dans lesquelles les accidents ayant entraîné des blessures ou la mort de cyclistes ont été les plus, ou les moins nombreux.

Etapes suivantes

Au cours de cette leçon, vous avez créé et exécuté une analyse Big Data portant sur des millions d’accidents impliquant des cyclistes afin d’identifier les zones de la ville de New York où ces accidents ont été les plus nombreux. Ces résultats vont vous permettre de déterminer dans quelles zones l’installation de nouvelles infrastructures adaptées à l’usage du vélo serait le plus bénéfique.

Consultez les ressources suivantes en continuant d’utiliser Velocity : Vocabulaire essentiel de ArcGIS Velocity, Exécuter une analyse Big Data et Utiliser des expressions Arcade.