Concevoir une analyse Big Data

Les étapes de cette leçon expliquent comment créer une analyse Big Data avec ArcGIS Velocity. L’exemple utilise le rôle d’un planificateur de transports qui cherche à mieux comprendre les accidents de véhicules à moteur impliquant des cyclistes sur une période de plusieurs années. Les conclusions permettent d’identifier les endroits où l’installation d’infrastructures adaptées à l’usage du vélo, telles que des pistes cyclables ou séparateurs de voies, permettra d’améliorer de façon optimale la sécurité des cyclistes.

Au cours des étapes de cette leçon, vous allez créer une analyse Big Data, configurer sa source de données, configurer des outils et générer une couche d’entités en sortie contenant des résultats d’analyse pouvant être affichés sur une carte Web.

Ce cours s’adresse aux débutants. Vous devez disposer d’un compte ArcGIS Online avec accès à Velocity. La durée estimée de cette leçon est de 30 minutes.

Créer une analyse Big Data

Avant de commencer, procédez comme suit :

  1. Ouvrez ArcGIS Velocity dans un navigateur Web et connectez-vous avec un compte ArcGIS Online doté d’une licence Velocity.

    Pour une expérience optimale, utilisez Google Chrome ou Mozilla Firefox.

    Remarque :

    Si vous rencontrez des problèmes de connexion, contactez l’administrateur de votre organisation ArcGIS. Vous devrez peut-être disposer d’un rôle ArcGIS Online doté de privilèges pour utiliser ArcGIS Velocity.

    En savoir plus sur la création des rôles et l’attribution des utilisateurs

    La page Home (Accueil) s’affiche.

  2. Cliquez sur l’onglet Big Data sous Analytics (Analyse) pour accéder à la page Big Data Analytics (Analyses Big Data).
    Conseil :

    La section Getting Started (Prise en main) sur la page Home (Accueil) présente un bouton de raccourci Create big data analytic (Créer une analyse Big Data) sous Big Data Analytic (Analyses Big Data).

    Sur la page Big Data Analytics (Analyses Big Data), vous pouvez appliquer les actions suivantes aux analyses Big Data existantes :

    • Analyser
    • Créer
    • Départ
    • Arrêter
    • Vérifier le statut
    • Modifier
    • Clone
    • Suppr
  3. Cliquez sur Create big data analytic (Créer une analyse Big Data).

    L’assistant de configuration s’ouvre et les options relatives au type de source de données apparaissent.

Vous vous êtes connecté à Velocity et vous avez démarré la création d’une analyse Big Data dans un assistant de configuration. L’étape suivante consiste à configurer sa source de données.

Configurer la source de données

Les données utilisées dans cette leçon peuvent être téléchargées sur le site New York City (NYC) OpenData. Le jeu de données complet, comportant plus de 1,5 million d’enregistrements, a été téléchargé à partir de ce site au format CSV. Pour cette leçon, le fichier CSV est hébergé dans un paquet Amazon S3 public, dont les informations de connexion sont décrites dans les étapes ci-après.

Une analyse Big Data requiert une source de données. Procédez comme suit pour configurer une source de données :

  1. À l’étape Select a type of data source (Sélectionner un type de source de données), cliquez sur See all (Afficher tout) dans la catégorie Cloud.
    Type de source de données Cloud
    Remarque :

    Au moins une source de données en entrée doit être indiquée pour toutes les analyses Big Data.

  2. Sous Cloud options (Options Cloud), sélectionnez Amazon S3.
    Options de source de données Cloud

    En savoir plus sur le stockage Blob Azure, Azure Cosmos DB ou Amazon S3.

  3. Dans la boîte de dialogue Configure Amazon S3 (Configurer Amazon S3), à l’étape Configure Amazon S3 Bucket (Configurer le compartiment Amazon S3), définissez les paramètres comme suit :
    1. Pour Access mode (Mode d’accès), sélectionnez Public.
    2. Pour Bucket name (Nom du paquet), saisissez arcgis-velocity-public.
    3. Pour Region (Région), sélectionnez US West (Oregon) (Ouest des États-Unis [Oregon]).
    4. Pour Folder path (optional) [Chemin d’accès au dossier (facultatif)] , saisissez /nyc-motor-vehicle-collisions.
    5. Pour Dataset (Jeu de données), saisissez NYPD_Motor_Vehicle_Collisions.csv.
    Étape concernant la source de données Amazon S3 dans l’assistant de configuration
  4. Cliquez sur Next (Suivant) pour appliquer les paramètres de paquet Amazon S3.

    La source de données valide et renvoie les données d’événement échantillonnées à examiner. L’étape suivante consiste à vérifier la structure des données.

Vérifier la structure des données

Une fois les paramètres du compartiment Amazon S3 définis, vous pouvez vérifier la structure des données. Lors de la configuration d’une source de données, il est important de définir la structure des données chargées. Velocity définit la structure lorsqu’il échantillonne les données sources, notamment les valeurs des options Data Format (Format des données), Field delimiter (Délimiteur de champ), Field Type (Type de champ) et Field Name (Nom du champ).

  1. À l’étape Confirm Schema (Confirmer la structure), examinez la structure des données et vérifiez qu’elle est similaire à celle de l’illustration ci-après :
    Vérification de la structure de la source de données

    Velocity a testé la connexion à la source de données, échantillonné les premiers enregistrements de données et interprété la structure des données en fonction des enregistrements échantillonnés. Vous pouvez modifier les valeurs Data format (Format de données), Field delimiter (Délimiteur de champ), Field Type (Type de champ) et Field Name (Nom du champ) si besoin pour garantir la validité de la structure. Dans le cadre de cette leçon, acceptez les paramètres par défaut de la structure.

  2. Cliquez sur Next (Suivant) pour valider la structure telle qu’échantillonnée.

L’assistant de configuration passe à l’étape suivante.

Identifier les champs clés

Dans cette étape, vous spécifiez les champs pour les fonctionnalités spatiales et temporelles en sélectionnant les valeurs des paramètres Location (Localisation), Date and Time (Date et heure) et Tracking (Suivi) afin que Velocity puisse construire correctement la géométrie, les données de date et un identifiant unique pour les données.

Procédez comme suit pour identifier les champs clés :

  1. Pour Location type (Type d’emplacement), sélectionnez X/Y fields (Champs X/Y).
  2. Pour X (longitude), sélectionnez Longitude.
  3. Pour Y (latitude), sélectionnez Latitude.
  4. Pour Z (altitude), sélectionnez None (Aucune).
  5. Pour Spatial reference (Référence spatiale), laissez la valeur par défaut GCS WGS 1984.
  6. Pour Does your data have date fields? (Vos données comportent-elles des champs de date ?), sélectionnez No (Non).

    Ce paramètre peut être utilisé pour définir un champ de date ou de date/heure de début et de fin dans la source de données. Si les données en entrée comportent des dates au format chaîne, un format de date est requis. Dans le cadre de cette leçon, aucune information de date ou d’heure n’est spécifiée.

    En savoir plus sur les paramètres de date et d’heure

  7. Pour Track ID (ID de suivi), sélectionnez Data does not have a Track ID (Les données ne comportent pas d’ID de suivi).

    Ce paramètre permet de désigner un champ d’ID de suivi dans la source de données. Pour cette leçon, ne définissez pas d’ID de suivi.

    Identifier les champs clés dans la source de données
  8. Cliquez sur Complete (Terminé) pour créer la source de données.

La nouvelle source de données Amazon S3 (Amazon S3) est ajoutée à l’éditeur d’analyse.

Créer l’analyse Big Data

Maintenant que la source de données a été ajoutée à l’éditeur d’analyse, vous pouvez créer l’analyse Big Data.

  1. Sur la page New Big Data Analytic (Nouvelle analyse Big Data), cliquez sur Create analytic (Créer une analyse).

    La boîte de dialogue Create Analytic (Créer une analyse) s’affiche.

  2. Pour Title (Titre), saisissez NYC Cyclist Accidents (Accidents impliquant des cyclistes à NYC).
  3. Pour Summary (Synthèse), saisissez Process motor vehicle accidents to identify and analyze those involving cyclists (Examiner les accidents de véhicules à moteur pour identifier et analyser ceux qui impliquent des cyclistes).
  4. Pour Folder (Dossier), sélectionnez le dossier dans lequel créer l’analyse Big Data.
    Boîte de dialogue Créer une analyse
  5. Cliquez sur Create analytic (Créer une analyse) pour créer l'analyse.

L’éditeur d’analyse réapparaît avec plus d’options dans la barre d’outils.

Ajouter des outils à l’analyse

Une fois la nouvelle analyse créée, vous pouvez lui ajouter des outils qui réalisent une analyse Big Data sur les données des accidents impliquant des cyclistes à NYC. Velocity permet de configurer un pipeline d’analyse.

Vous allez d’abord ajouter l’outil Calculer un champ, puis un champ TotalCyclistCasualties qui additionne les valeurs des champs NUMBER_CYCLIST_INJURED et NUMBER_CYCLIST_KILLED pour chaque enregistrement individuel de la source de données.

Procédez comme suit pour configurer des outils séquentiels permettant de mieux comprendre les accidents de véhicules à moteur dans lesquels des cyclistes ont été blessés :

  1. Dans le menu Add Node (Ajouter un nœud), cliquez sur Manage Data (Gérer les données) et sélectionnez l’outil Calculate Field (Calculer un champ).
    Outil Calculer un champ dans le dossier Gérer les données

    L’outil Calculate Field (Calculer un champ) est ajouté à l’éditeur d’analyse.

  2. Connectez la source de données Amazon S3 à l’outil Calculate Field (Calculer un champ).
    Source de données Amazon S3 connectée à l’outil Calculer un champ

    Le cas échéant, repositionnez l’outil et la source de données dans l’éditeur d’analyse pour faciliter une connexion. Une connexion permet à l’outil Calculate Field (Calculer un champ) de savoir quelle source de données utiliser.

  3. Double-cliquez sur l’outil Calculate Field (Calculer un champ) pour accéder à ses propriétés.
  4. Cliquez sur Add field calculation (Ajouter un calcul de champ) et sélectionnez New field (Nouveau champ).
  5. Pour Field (Champ), saisissez TotalCyclistCasualties.
  6. Cliquez sur la flèche de la liste déroulante Type et sélectionnez Int64 (Entier 64 bits).

    Le type de champ spécifié est ainsi un champ entier de 64 bits.

  7. Cliquez sur Configure an Arcade expression (Configurer une expression Arcade) pour ouvrir la boîte de dialogue Configure an Arcade expression (Configurer une expression Arcade).
    1. Utilisez le générateur d’expressions Arcade et saisissez $feature.NUMBER_CYCLIST_INJURED+$feature.NUMBER_CYCLIST_KILLED.
    2. Cliquez sur Run (Exécuter) pour exécuter l’expression Arcade.

      Le résultat doit ressembler à l’illustration suivante :

      Boîte de dialogue Configurer une expression Arcade
    3. Cliquez sur OK pour enregistrer l’expression.
    4. Cliquez sur Add field calculation (Ajouter un calcul de champ) pour ajouter le nouveau calcul de champ à l’outil Calculate Field (Calculer un champ).
      Conseil :

      Vous pouvez ajouter d’autres calculs de champ en fonction de vos besoins. Cette leçon n’utilise que celui-ci.

      Outil Calculer un champ configuré avec une expression Arcade
    5. Cliquez sur Apply (Appliquer) pour appliquer le calcul aux propriétés de l’outil Calculate Field (Calculer un champ).

    L’outil Calculate Field (Calculer un champ) est configuré et connecté à la source de données Amazon S3. Vous pouvez ensuite filtrer les données des accidents impliquant des véhicules à moteur à NYC pour identifier les accidents (dont les coordonnées de localisation sont valides) ayant entraîné des blessures ou des décès de cyclistes.

  8. Dans l’éditeur d’analyse, cliquez sur Save (Enregistrer) pour enregistrer la configuration de l’analyse Big Data.
  9. Dans le menu Add Node (Ajouter un nœud), cliquez sur Manage Data (Gérer les données) et sélectionnez l’outil Filter by Expression (Filtrer par expression).

    Un outil Filtrer par expression est ajouté à l’éditeur d’analyse.

  10. Faites glisser l’outil Filter by Expression (Filtrer par expression) après l’outil Calculate Field (Calculer un champ) et connectez les deux nœuds.
    Outil Filter by Expression (Filtrer par expression) ajouté au modèle
  11. Double-cliquez sur l’outil Filter by Expression (Filtrer par expression) pour ouvrir les propriétés et les configurer comme suit :
    1. Cliquez sur Configure an Arcade expression (Configurer une expression Arcade) pour ouvrir la boîte de dialogue Configure an Arcade expression (Configurer une expression Arcade).
    2. Utilisez le générateur d’expressions Arcade ou saisissez $feature.TotalCyclistCasualties>0 && $feature.LATITUDE>0.

      Des enregistrements présentant des coordonnées non valides existent dans ce jeu de données. Pour les ignorer, filtrez les enregistrements pour lesquels la valeur de latitude est inférieure ou égale à 0.

    3. Cliquez sur Run (Exécuter) pour exécuter l’expression Arcade.

      Le résultat doit ressembler à l’illustration suivante :

      Boîte de dialogue Configurer une expression Arcade avec une expression
    4. Cliquez sur OK (OK) pour retourner aux propriétés de l’outil Filter by Expression (Filtrer par expression).
    5. Cliquez sur Apply (Appliquer) pour appliquer l’expression.

      Le filtre est ajouté. Vous allez ensuite ajouter l’outil Aggregate Points (Agréger les points) pour agréger les points spatialement et représenter le nombre d’accidents ayant occasionné des blessures ou des décès de cyclistes sous forme de groupes hexagonaux standard.

  12. Dans le menu Add Node (Ajouter un nœud), cliquez sur Summarize Data (Synthétiser les données) et sélectionnez l’outil Aggregate Points (Agréger les points).

    L’outil Aggregate Points (Agréger les points) est ajouté à l’éditeur d’analyse.

  13. Dans l’éditeur d’analyse, cliquez sur Save (Enregistrer) pour enregistrer la configuration mise à jour de l’analyse Big Data.
  14. Faites glisser l’outil Aggregate Points (Agréger les points) après l’outil Filter by Expression (Filtrer par expression) et connectez les deux nœuds.
    Outil Filter by Expression (Filtrer par expression) ajouté au modèle
  15. Double-cliquez sur l’outil Aggregate Points (Agréger les points) pour ouvrir ses propriétés et les configurer comme suit :
    1. Pour Aggregate points into (Agréger des points dans), sélectionnez Bins (Groupes).
    2. Pour Bin type (Type de groupe), sélectionnez Hexagon (Hexagone).
    3. Pour Bin size (Taille du groupe), saisissez 250 et conservez l’unité de mesure Meters (Mètres).
    4. Laissez la section Time step (Intervalle temporel) telle quelle et dans la section Summary fields (Champs de récapitulation), cliquez sur Add summary field (Ajouter un champ de récapitulation).

      La fenêtre de propriétés apparait.

    5. Pour Attribute (Attribut), sélectionnez TotalCyclistCasualties.
    6. Pour Statistic (Statistique), choisissez Sum (Somme).
    7. Pour Output field name (Nom de champ en sortie) conservez la valeur par défaut TotalCyclistCasualties_Sum.
    8. Cliquez sur Add summary field (Ajouter un champ de récapitulation) pour ajouter le champ de récapitulation.
      Fenêtre des propriétés de l’outil Agréger des points
    9. Cliquez sur Apply (Appliquer) pour appliquer les propriétés de l’outil.

Vous avez ajouté trois outils d’analyse qui traiteront les données sur les accidents. Vous allez maintenant ajouter une sortie.

Ajouter une sortie à l’analyse

La source de données et les outils d’analyse ayant été créés, la dernière étape de cette leçon consiste à ajouter une sortie qui enverra les données d’événement traitées à une couche d’entités pouvant être visualisée sur une carte Web.

Procédez comme suit pour ajouter une sortie :

  1. Dans le menu Add Node (Ajouter un nœud), cliquez sur Outputs (Sorties) et sélectionnez Feature Layer (new) (Couche d’entités [nouvelle]).

    La boîte de dialogue Configure Feature Layer (new) (Configurer une couche d’entités [nouvelle]) apparaît.

  2. À l’étape Configure Feature Layer (Configurer une couche d’entités), configurez les propriétés comme suit :
    1. Activez l’option Store data in spatiotemporal feature layer (Stocker les données dans la couche d’entités spatio-temporelle).
    2. Pour Data storage method (Méthode de stockage de données), sélectionnez Add all new features (Ajouter toutes les nouvelles entités).

      Si une valeur Track ID (ID de suivi) est définie pour la source de données active, utilisez la méthode Keep only latest feature for each Track ID value (Conserver uniquement la dernière entité pour chaque valeur d’ID de suivi). Avec cette méthode de stockage, dès qu’une nouvelle entité est reçue pour un ID de trace donné, l’entité stockée associée à cet ID de trace est remplacée par la nouvelle entité.

    3. Pour Each time the analytic runs (À chaque exécution de l’analyse), sélectionnez Replace existing features and schema (Remplacer les entités et la structure existantes).
      Propriétés de la nouvelle couche d’entités en sortie

      Si vous avez sélectionné Replace existing features and schema (Remplacer les entités et la structure existantes), à chaque exécution de l’analyse Big Data, les entités et la structure de la couche d’entités en sortie sont écrasées. Cette fonction est utile si vous créez une analyse Big Data et que vous ajoutez, supprimez ou modifiez des outils entre chaque exécution. Au contraire, l’option Keep existing features and schema (Conserver les entités et la structure existantes) permet d’ajouter des enregistrements supplémentaires à chaque exécution de l’analyse Big Data.

  3. Cliquez sur Next (Suivant).
  4. À l’étape Save (Enregistrer), pour Feature layer name (Nom de la couche d’entités), saisissez Cyclist_Accident_Aggregation.
  5. Pour Feature layer summary (Synthèse de la couche d’entités), saisissez NYC cyclist accident aggregated feature layer (Couche d’entités agrégée des accidents impliquant des cyclistes à NYC).
  6. Pour Folder (Dossier), sélectionnez le dossier dans lequel la couche d’entités doit être enregistrée.
    Enregistrer la nouvelle sortie de couche d’entités
  7. Cliquez sur Complete (Terminé) pour enregistrer la nouvelle sortie.

    La nouvelle sortie Cyclist_Accident_Aggregation est ajoutée à l’éditeur d’analyse.

  8. Faites glisser la sortie Cyclist_Accident_Aggregation après l’outil Aggregate Points (Agréger des points) et connectez les deux nœuds.
    Conseil :

    Vous pouvez déplacer les nœuds pour rendre le modèle visuellement plus attrayant.

    Analyse Big Data finale configurée
  9. Cliquez sur Save (Enregistrer) pour enregistrer l’analyse Big Data NYC Cyclist Accidents (Accidents impliquant des cyclistes à New York).

Démarrage de l’analyse Big Data

Maintenant que vous avez configuré une analyse Big Data avec les nœuds nécessaires, vous pouvez la lancer. Cette analyse va charger plus de 1,5 million d’enregistrements à partir du fichier CSV selon une structure définie, traiter les données d’événement à l’aide de divers outils, puis écrire le résultat de l’analyse dans une nouvelle couche d’entités.

Procédez comme suit pour exécuter l’analyse une seule fois :

  1. Dans l’éditeur d’analyse, cliquez sur Start (Démarrer) pour lancer l’analyse Big Data NYC Cyclist Accidents (Accidents impliquant des cyclistes à New York).
    Démarrage de l’analyse Big Data

    Le bouton Start (Démarrer) se transforme en bouton Stop Initialization (Arrêter l’initialisation), puis en bouton Stop (Arrêter), ce qui indique que l’analyse a commencé et est en cours d’exécution.

    Remarque :

    Une fois lancés, les flux et les analyses en temps réel de Velocity continuent d’être exécutés. Les analyses Big Data, par contre, sont exécutées jusqu’à la fin et s’arrêtent automatiquement. Vous pouvez configurer les analyses Big Data pour qu’elles soient exécutées régulièrement à l’aide des options disponibles dans le menu déroulant Schedule (Planifier) de l’éditeur d’analyse. Ces options permettent notamment d’exécuter l’analyse une fois, de manière périodique ou à une heure récurrente.

    En savoir plus sur la planification d’une analyse Big Data récurrente

  2. Surveillez l’analyse jusqu’à ce que l’intitulé du bouton Stop (Arrêter) redevienne Start (Démarrer).

    Cela signifie que l’analyse s’est exécutée une fois et qu’elle est à présent terminée. Vous pouvez également surveiller le statut des analyses Big Data à partir de la page Big Data Analytics (Analyses Big Data).

Explorer les résultats de l’analyse dans une carte Web

Lorsque vous avez lancé l’analyse Big Data dans la section précédente, une couche d’entités en sortie a été créée. À présent, vous allez ouvrir cette couche d’entités en sortie sur une carte Web et examiner les résultats de l’analyse Big Data portant sur les données des accidents impliquant des cyclistes à NYC.

  1. Dans le menu principal, sous Output (Sortie), cliquez sur l’onglet Layers (Couches) pour ouvrir la page Layers (Couches).
  2. Recherchez la couche d’entités Cyclist_Accident_Aggregation dans la liste et cliquez sur l’icône Open in Map Viewer (Ouvrir dans Map Viewer) pour l’examiner dans une carte Web.
    Ouvrir une couche d’entités dans Map Viewer
    Remarque :

    Les couches en sortie créées par les analyses en temps réel ou Big Data ne s’affichent pas dans la page Layers (Couches) tant que l’analyse n’a pas été exécutée et qu’elle n’a pas généré de sortie.

  3. Cliquez sur Open in Map Viewer (Ouvrir dans Map Viewer) en haut de Map Viewer Classic pour afficher la couche d’entités Cyclist_Accident_Aggregation dans Map Viewer. Ouvrir dans Map Viewer
  4. Effectuez un zoom avant sur les données de la ville de New York, aux États-Unis.
  5. Sur la barre d’outils Content (Contenu) (foncée), cliquez sur Basemap (Fond de carte) et définissez le fond de carte sur Dark Gray Canvas (Nuances de gris foncé).
  6. Pour la couche d’entités Cyclist_Accident_Aggregation, cliquez sur Styles.
  7. Pour Choose attributes (Choisir des attributs), sélectionnez Count (Nombre) dans le menu déroulant et cliquez sur Add (Ajouter).
  8. Pour Pick a style (Sélectionner un style), sélectionnez Counts and Amounts (color) (Totaux et quantités (couleur)) si nécessaire, puis cliquez sur Style options (Options de style).
  9. Dans Style options (Options de style), cliquez sur Symbols style (Style de symbole). Pour Colors (Couleurs), définissez le dégradé de couleurs sur Rouges et jaunes. Une fois la couleur ajustée, cliquez sur Done (Terminé) et fermez la section Style de symbole.
  10. Accédez au bas de la fenêtre Style options (Options de style) et activez le bouton Classify Data (Classer les données) pour regrouper les données et mettre en évidence les zones dans lesquelles les accidents ayant entraîné des blessures de cyclistes ont été les plus nombreux.
  11. Cliquez sur la flèche de la liste déroulante Method (Méthode) sous le bouton bascule Classify Data (Classer les données). Sélectionnez Standard Deviation (Écart type) et définissez la taille de la classe sur 1 écart type.
  12. Acceptez les autres propriétés par défaut et cliquez sur Done (Terminé).
    Couche d’entités ajoutée et symbolisée sur une carte Web

La carte Web est configurée et peut être examinée. Vous pouvez vous déplacer et zoomer sur la carte Web afin d’explorer les résultats de l’analyse Big Data et d’identifier les zones dans lesquelles les accidents ayant entraîné des blessures et des décès de cyclistes ont été les plus nombreux, ainsi que celles où ils ont été les moins nombreux.

Ressources supplémentaires

Au cours de cette leçon, vous avez créé et exécuté une analyse Big Data portant sur environ 1,5 million d’accidents impliquant des cyclistes afin d’identifier les zones de la ville de New York où ces accidents ont été les plus nombreux. Ces résultats vont vous permettre de mieux déterminer dans quelles zones l’installation de nouvelles infrastructures adaptées à l’usage du vélo serait le plus bénéfique.

Vous trouverez des ressources supplémentaires si vous continuez d’utiliser Velocity et notamment les rubriques suivantes :