Concevoir une analyse Big Data

Cette leçon montre comment créer une analyse Big Data à l’aide de ArcGIS Velocity. Vous allez endosser le rôle d’un planificateur de transports qui s’intéresse aux accidents de véhicules à moteur impliquant des cyclistes sur une période de plusieurs années. Vos conclusions permettront d’identifier les endroits où l’installation d’infrastructures adaptées à l’usage du vélo, telles que des pistes cyclables ou séparateurs de voies, permettra d’améliorer de la meilleure façon la sécurité des cyclistes.

Les données utilisées dans cette leçon peuvent être téléchargées sur le site New York City (NYC) OpenData. Le jeu de données complet, comportant plus de 1,5 million d’enregistrements, a été téléchargé à partir de ce site au format CSV. Pour cette leçon, le fichier CSV est hébergé dans un paquet Amazon S3 public, dont les informations de connexion sont décrites dans les étapes ci-après.

Au cours des étapes de cette leçon, vous allez créer une analyse Big Data et une source de données, configurer divers outils et générer une couche d’entités en sortie contenant des résultats d’analyse pouvant être affichés sur une carte Web.

Ce cours s’adresse aux débutants. Vous devez disposer d’un compte ArcGIS Online avec accès à ArcGIS Velocity. La durée estimée de cette leçon est de 30 minutes.

Créer une analyse Big Data

Pour commencer, vous allez créer une analyse Big Data dans ArcGIS Velocity.

  1. Dans un navigateur Web, ouvrez ArcGIS Velocity et connectez-vous avec vos identifiants de connexion ArcGIS Online.

    Pour une expérience optimale, utilisez Google Chrome ou Mozilla Firefox.

    Remarque :

    En cas de problème lors de la connexion, adressez-vous à votre administrateur ArcGIS Online. Vous devrez peut-être disposer d’un rôle ArcGIS Online doté de privilèges pour utiliser ArcGIS Velocity. Pour plus d’informations sur la création de rôles et l’attribution d’utilisateurs, reportez-vous à la rubrique Créer des rôles et attribuer des utilisateurs.

  2. Dans le menu principal, cliquez sur Big Data (Big Data), sous ANALYTICS (ANALYSES), pour accéder à la page Big Data Analytics (Analyses Big Data).

    Dans la page Big Data Analytics (Analyses Big Data), vous pouvez afficher des analyses Big Data existantes et en créer, mais également en démarrer et en arrêter, vérifier leur statut, en mettre à jour, en cloner et en supprimer.

  3. Cliquez sur Create big data analytic (Créer une analyse Big Data) pour ouvrir l’assistant de configuration et créer des analyses Big Data.

Configurer la source de données

Lorsque vous configurez une analyse Big Data, vous devez au préalable sélectionner le type de source de données.

  1. Dans la fenêtre Select a type of data source (Sélectionner un type de source de données), cliquez sur See all (Afficher tout) sous la catégorie Cloud (Cloud).

    Fenêtre Select a type of data source (Sélectionner un type de source de données)

    Remarque :

    Au moins une source de données en entrée doit être indiquée pour toutes les analyses Big Data.

  2. Sous Cloud options (Options Cloud), sélectionnez Amazon S3.

    Options de source de données Cloud

    Pour des détails sur les fournisseurs cloud, visitez les sites Web des fournisseurs Stockage d’objets Blob Azure, Base de données Azure Cosmos ou Amazon S3.

  3. Dans la fenêtre Configure Amazon S3 (Configurer Amazon S3), à l’étape Configure Amazon S3 Bucket (Configurer le paquet Amazon S3), définissez les paramètres comme suit :
    1. Pour Access mode (Mode d’accès), sélectionnez Public.
    2. Pour Bucket name (Nom du paquet), saisissez arcgis-velocity-public.
    3. Pour Region (Région), sélectionnez US West (Oregon) (Ouest EU (Oregon)).
    4. Pour Folder path (optional) [Chemin d’accès au dossier (facultatif)] , saisissez /nyc-motor-vehicle-collisions.
    5. Pour Dataset (Jeu de données), saisissez NYPD_Motor_Vehicle_Collisions.csv.

    Assistant de configuration de source de données Amazon S3

  4. Cliquez sur Next (Suivant) pour appliquer les paramètres de paquet Amazon S3.

    La source de données valide et renvoie les données d’événement échantillonnées que vous examinerez et confirmerez dans la prochaine section.

Vérifier la structure des données

Une fois les paramètres du paquet Amazon S3 définis, vous devez confirmer la structure des données. Lors de la configuration d’une source de données, il est important de définir la structure des données chargées. Velocity définit la structure lorsqu’il échantillonne les données source, notamment le format des données, le délimiteur de champ, les types de champ et les noms de champ.

  1. À l’étape Confirm Schema (Confirmer la structure), examinez la structure et vérifiez qu’elle est similaire à celle de l’illustration ci-après.

    Vérification de la structure de la source de données

    Velocity a testé la connexion à la source de données, échantillonné les premiers enregistrements de données et interprété la structure des données en fonction des enregistrements échantillonnés. À ce stade, vous pouvez éventuellement modifier le format des données, le délimiteur de champ, les types de champ et les noms de champ pour que la structure soit valide. Toutefois, dans cette leçon, vous allez accepter les paramètres par défaut de la structure.

  2. Cliquez sur Next (Suivant) pour valider la structure telle qu’échantillonnée.

Identifier les champs clés

Vous allez maintenant configurer les champs clés pour que Velocity puisse créer correctement la géométrie, les données de date et un identifiant unique pour les données.

  1. À l’étape Identify Key Fields (Identifier les champs clés), configurez les paramètres Location (Emplacement), Date and Time (Date et heure) et Tracking (Suivi) comme suit :
    1. Pour Location type (Type d’emplacement), sélectionnez X/Y fields (Champs X/Y).
    2. Pour X (longitude), sélectionnez LONGITUDE.
    3. Pour Y (latitude), sélectionnez LATITUDE.
    4. Pour Z (altitude), sélectionnez None (Aucune).
    5. Pour Spatial reference (Référence spatiale), acceptez la valeur par défaut GCS WGS 1984 (GCS WGS 1984).
    6. Pour Does your data have date fields? (Vos données comportent-elles des champs de date ?), sélectionnez No (Non).

      Ce paramètre peut être utilisé pour définir un champ de date ou de date/heure de début et de fin dans la source de données. Si les données en entrée comportent des dates au format chaîne, un format de date est requis. Pour plus d’informations, reportez-vous à la rubrique Paramètres de date et d’heure. Pour cette leçon, vous n’indiquerez aucune information de date et d’heure.

    7. Pour Track ID (ID de suivi), sélectionnez Data does not have a Track ID (Les données ne comportent pas d’ID de suivi).

      Ce paramètre permet de désigner un champ Track ID (ID de trace) dans la source de données. Pour plus d’informations sur les ID de trace, reportez-vous à la rubrique ID de trace. Pour cette leçon, vous ne définirez pas d’ID de trace.

      Identifier les champs clés dans la source de données

  2. Cliquez sur Complete (Terminé) pour créer la source de données.

    La nouvelle source de données Amazon S3 (Amazon S3) est ajoutée à l’éditeur d’analyse.

Créer l’analyse Big Data

La source de données ayant été ajoutée à l’éditeur d’analyse, vous allez maintenant créer l’analyse Big Data.

  1. Sur la page New Big Data Analytic (Nouvelle analyse Big Data), cliquez sur Create analytic (Créer une analyse).
  2. EnDans la fenêtre Create analytic (Créer une analyse), pour Title (Titre), saisissez NYC Cyclist Accidents (Accidents impliquant des cyclistes à NYC).
  3. Pour Summary (Synthèse), saisissez Process motor vehicle accidents to identify and analyze those involving cyclists (Examiner les accidents de véhicules à moteur pour identifier et analyser ceux qui impliquent des cyclistes).
  4. Pour Folder (Dossier), sélectionnez le dossier dans lequel l’analyse Big Data doit être créée.

    Fenêtre Créer une analyse

  5. Cliquez sur Create analytic (Créer une analyse) pour créer l'analyse.

    Une fois que l’analyse a été créée, la barre d’outils située en haut de l’éditeur d’analyse propose des options et des commandes d’enregistrement, de démarrage et de planification supplémentaires. Vous pouvez également définir les paramètres d’exécution de l’analyse.

Ajouter des outils à l’analyse

Une fois la nouvelle analyse créée, vous allez ajouter à celle-ci des outils permettant d’effectuer une analyse Big Data sur les données des accidents impliquant des cyclistes à NYC. Velocity permet de configurer un pipeline d’analyse dans lequel la sortie d’une étape constitue l’entrée de la suivante. Vous allez à présent configurer des outils séquentiels permettant de mieux comprendre les accidents de véhicules à moteur dans lesquels des cyclistes ont été blessés.

Vous allez ajouter l’outil Calculate Field (Calculer un champ), puis vous ajouterez un champ nommé TotalCyclistCasualties, qui additionne les valeurs des champs NUMBER_CYCLIST_INJURED et NUMBER_CYCLIST_KILLED pour chaque enregistrement individuel de la source de données.

  1. Dans le menu Add Node (Ajouter un nœud) de gauche, cliquez sur le dossier Manage Data (Gérer les données) et sélectionnez l’outil Calculate Field (Calculer un champ).

    Outil Calculate Field (Calculer un champ) dans le dossier Manage Data (Gérer les données)

    L’outil Calculate Field (Calculer un champ) est ajouté à l’éditeur d’analyse.

  2. Connectez la source de données Amazon S3 (Amazon S3) à l’outil Calculate Field (Calculer un champ).

    Source de données Amazon S3 (Amazon S3) connectée à l’outil Calculate Field (Calculer un champ)

    Vous devez connecter les deux nœuds afin que l’outil Calculate Field (Calculer un champ) connaisse les données source qu’il utilisera à l’étape suivante.

  3. Double-cliquez sur l’outil Calculate Field (Calculer un champ) pour accéder aux propriétés.
  4. Configurez l’outil Calculer un champ comme suit :
    1. Vérifiez que l’option New field (Nouveau champ) est sélectionnée.
    2. Dans la colonne Field (Champ), saisissez TotalCyclistCasualties.
    3. Dans la colonne Type (Type), cliquez sur la liste déroulante, puis sélectionnez Int64 (Int64).

      Le type de champ spécifié est ainsi un champ entier de 64 bits.

    4. Cliquez sur le bouton Configure un Arcade expression (Configurer une expression Arcade) pour ouvrir la fenêtre Configure an Arcade expression (Configurer une expression Arcade).
    5. Dans la fenêtre de gauche, utilisez le générateur d’expressions Arcade ou saisissez $feature.NUMBER_CYCLIST_INJURED+$feature.NUMBER_CYCLIST_KILLED.
    6. Cliquez sur Run (Exécuter) pour exécuter l’expression Arcade.

      Le résultat de l’exécution doit être similaire à celui de l’illustration ci-après.

      Fenêtre Configurer une expression Arcade

    7. Cliquez sur OK pour enregistrer l’expression.
    8. Dans la colonne Add field calculation (Ajouter un calcul de champ), cliquez sur Add (Ajouter) pour ajouter le nouveau champ.

      Outil Calculer un champ configuré

    9. Cliquez sur Apply (Appliquer) pour appliquer les propriétés.

      L’outil Calculate Field (Calculer un champ) étant à présent configuré et connecté à la source de données Amazon S3 (Amazon S3), vous allez maintenant filtrer les données des accidents impliquant des véhicules à moteur à New York pour identifier les accidents dont les coordonnées d’emplacement sont valides ayant entraîné des blessures ou la mort de cyclistes.

  5. Dans l’éditeur d’analyse, cliquez sur Save (Enregistrer) pour enregistrer la configuration actuelle de l’analyse Big Data.
  6. Dans le menu Add Node (Ajouter un nœud), cliquez sur le dossier Manage Data (Gérer les données) et sélectionnez l’outil Filter By Expression (Filtrer par expression).

    Un nouvel outil Filter by Expression (Filtrer par expression) est ajouté à l’éditeur d’analyse.

  7. Faites glisser l’outil Filter By Expression (Filtrer par expression) à droite de l’outil Calculate Field (Calculer un champ) et connectez les deux nœuds.

    Outil Filter by Expression (Filtrer par expression) ajouté au modèle

  8. Double-cliquez sur l’outil Filter By Expression (Filtrer par expression) pour ouvrir les propriétés et les configurer comme suit :
    1. Cliquez sur le bouton Configure un Arcade expression (Configurer une expression Arcade) pour ouvrir la fenêtre Configure an Arcade expression (Configurer une expression Arcade).
    2. Dans la fenêtre de gauche, utilisez le générateur d’expressions Arcade ou saisissez $feature.TotalCyclistCasualties>0&$feature.LATITUDE>0.

      Des enregistrements présentant des coordonnées non valides existent dans ce jeu de données. Pour les ignorer, filtrez les enregistrements pour lesquels la valeur de latitude est inférieure ou égale à 0.

    3. Cliquez sur Run (Exécuter) pour exécuter l’expression Arcade.

      Le résultat de l’exécution doit être similaire à celui de l’illustration ci-après.

      Fenêtre Configure Arcade expression (Configurer une expression Arcade)

    4. Cliquez sur OK (OK) pour retourner aux propriétés de l’outil Filter by Expression (Filtrer par expression).
    5. Cliquez sur Apply (Appliquer) pour appliquer l’expression.

    Après avoir ajouté le filtre, vous allez ajouter un autre outil, Aggregate Points (Agréger les points) pour agréger les points dans l’espace afin de représenter le nombre d’accidents ayant occasionné des blessures ou la mort de cyclistes sous forme de groupes hexagonaux standard.

  9. Dans le menu Add Node (Ajouter un nœud), cliquez sur le dossier Summarize Data (Synthétiser les données) et sélectionnez l’outil Aggregate Points (Agréger les points).

    L’outil Aggregate Points (Agréger les points) est ajouté à l’éditeur d’analyse.

  10. Dans l’éditeur d’analyse, cliquez sur Save (Enregistrer) pour enregistrer la configuration mise à jour de l’analyse Big Data.
  11. Faites glisser l’outil Aggregate Points (Agréger les points) à droite de l’outil Filter By Expression (Filtrer par expression) et connectez les deux nœuds.

    Outil Filter by Expression (Filtrer par expression) ajouté au modèle

  12. Double-cliquez sur l’outil Aggregate Points (Agréger les points) pour ouvrir les propriétés et les configurer comme suit :
    1. Pour Aggregate points into (Agréger des points dans), sélectionnez Bins (Groupes).
    2. Pour Bin type (Type de groupe), sélectionnez Hexagon (Hexagone).
    3. Pour Bin size (Taille du groupe), saisissez 250 et conservez l’unité de mesure Meters (Mètres).
    4. Pour Summary fields (Champs de synthèse), pour Attribute (Attribut), sélectionnez TotalCyclistCasualties.
    5. Pour Statistic (Statistique), choisissez Sum (Somme).
    6. Pour Output field name (Nom de champ en sortie) conservez la valeur par défaut TotalCyclistCasualties_Sum.
    7. Cliquez sur Add (Ajouter) pour ajouter le champ de synthèse.

      Propriétés de l’outil Aggregate Points (Agréger des points)

    8. Cliquez sur Apply (Appliquer) pour appliquer les propriétés.

      Vous avez ajouté trois outils d’analyse qui traiteront les données sur les accidents. Vous allez maintenant ajouter une sortie.

Ajouter une sortie à l’analyse

La source de données et les outils d’analyse ayant été créés, la dernière étape consiste à ajouter une sortie qui enverra les données d’événement traitées à une couche d’entités pouvant être visualisée sur une carte Web.

  1. Dans le menu Add Node (Ajouter un nœud), cliquez sur le dossier Outputs (Sorties) et sélectionnez la sortie Feature Layer (new) (Couche d’entités (nouvelle)).

    La fenêtre Configure Feature Layer (new) (Configurer une couche d’entités (nouvelle)) s’ouvre.

  2. À l’étape Configure Feature Layer (Configurer une couche d’entités), configurez les propriétés comme suit :
    1. Pour l’option Store data in spatiotemporal feature layer (Stocker les données dans la couche d’entités spatio-temporelle), activez la bascule.
    2. Pour Data storage method (Méthode de stockage de données), sélectionnez Add all new features (Ajouter toutes les nouvelles entités).

      Si un Track ID (ID de trace) est défini pour la source de données que vous utilisez, utilisez la méthode Keep only latest feature for each Track ID value (Conserver uniquement la dernière entité pour chaque valeur d’ID de trace). Avec cette méthode de stockage, dès qu’une nouvelle entité est reçue pour un ID de trace donné, l’entité stockée associée à cet ID de trace est remplacée par la nouvelle entité.

    3. Pour Each time the analytic runs (À chaque exécution de l’analyse), sélectionnez Replace existing features and schema (Remplacer les entités et la structure existantes).

      Configurer une nouvelle sortie de couche d’entités

      Si vous avez sélectionné Replace existing features and schema (Remplacer les entités et la structure existantes), à chaque exécution de l’analyse Big Data, les entités et la structure de la couche d’entités en sortie sont écrasées. Cette fonction est utile si vous créez une analyse Big Data et que vous ajoutez, supprimez ou modifiez des outils entre chaque exécution. Au contraire, l’option Keep existing features and schema (Conserver les entités et la structure existantes) permet d’ajouter des enregistrements supplémentaires à chaque exécution de l’analyse Big Data.

  3. Cliquez sur Next (Suivant).
  4. À l’étape Save (Enregistrer), pour Feature layer name (Nom de la couche d’entités), saisissez Cyclist_Accident_Aggregation.
  5. Pour Feature layer summary (Synthèse de la couche d’entités), saisissez Couche d’entités agrégée des accidents impliquant des cyclistes à NYC.
  6. Pour Folder (Dossier), sélectionnez le dossier dans lequel la couche d’entités doit être enregistrée.

    Enregistrer la nouvelle sortie de couche d’entités

  7. Cliquez sur Complete (Terminé) pour enregistrer la nouvelle sortie.

    La nouvelle sortie Cyclist_Accident_Aggregation est ajoutée à l’éditeur d’analyse.

  8. Faites glisser la sortie Cyclist_Accident_Aggregation à droite de l’outil Aggregate Points (Agréger des points) et connectez les deux nœuds.

    Vous pouvez déplacer les nœuds pour rendre le modèle visuellement plus attrayant.

    Analyse Big Data finale configurée
  9. Cliquez sur Save (Enregistrer) pour enregistrer l’analyse Big Data NYC Cyclist Accidents (Accidents impliquant des cyclistes à New York).

Démarrage de l’analyse Big Data

Maintenant que vous venez de configurer avec succès une analyse Big Data avec tous les nœuds nécessaires, vous allez la démarrer et l’exécuter une fois. Cette analyse va charger plus de 1,5 million d’enregistrements à partir du fichier CSV selon une structure définie, traiter les données d’événement à l’aide de divers outils, puis écrire le résultat de l’analyse dans une nouvelle couche d’entités.

  1. Dans l’éditeur d’analyse, cliquez sur Start (Démarrer) pour lancer l’analyse Big Data NYC Cyclist Accidents (Accidents impliquant des cyclistes à New York).

    Démarrage de l’analyse Big Data

    Le bouton Start (Démarrer) devient Initializing (Initialisation), puis Stop (Arrêter), ce qui indique que l’analyse a commencé et qu’elle est en cours d’exécution.

    Remarque :

    Une fois lancés, les flux et les analyses en temps réel de Velocity continuent d’être exécutés. Les analyses Big Data, par contre, sont exécutées jusqu’à la fin et s’arrêtent automatiquement. Vous pouvez configurer les analyses Big Data pour qu’elles soient exécutées régulièrement à l’aide des options disponibles dans le menu déroulant Schedule (Planifier) de l’éditeur d’analyse. Ces options permettent notamment d’exécuter l’analyse une fois, de manière périodique ou à une heure récurrente. Pour plus d’informations sur la planification des analyses de Big Data, consultez la rubrique Programmer une analyse Big Data récurrente.

  2. Surveillez l’analyse jusqu’à ce que l’intitulé du bouton Stop (Arrêter) devienne Start (Démarrer).

    Si l’intitulé du bouton Stop (Arrêter) devient Start (Démarrer), cela signifie que l’analyse a été exécutée et qu’elle est à présent terminée. Vous pouvez également surveiller le statut des analyses Big Data à partir de la page Big Data Analytics (Analyses Big Data).

Explorer les résultats de l’analyse dans une carte Web

Lorsque vous avez lancé l’analyse Big Data dans la section précédente, une couche d’entités en sortie a été créée. À présent, vous allez ouvrir cette couche d’entités en sortie sur une carte Web et afficher les résultats de l’analyse Big Data portant sur les données des accidents impliquant des cyclistes à New York.

  1. Dans le menu principal, cliquez sur Layers (Couches) sous OUTPUT (SORTIE) pour ouvrir la page Layers (Couches).
  2. Recherchez la couche d’entités Cyclist_Accident_Aggregation dans la liste et cliquez sur Open in map viewer (Ouvrir dans Map Viewer) pour afficher la couche d’entités sur une carte Web.

    Ouvrir une couche d’entités dans Map Viewer

    Remarque :

    Les couches en sortie créées par les analyses en temps réel ou Big Data ne s’affichent pas dans la page Layers (Couches) tant que l’analyse n’a pas été exécutée et qu’elle n’a pas généré de sortie.

  3. Effectuez un zoom avant sur l’étendue des données de la ville de New York, aux États-Unis.
  4. Changez le fond de carte en Dark Gray Canvas (Nuances de gris foncé).
  5. Dans la couche Cyclist_Accident_Aggregation, cliquez sur Change Style (Modifier le style), puis, pour Choose an attribute to show (Choisir un attribut à afficher), sélectionnez COUNT dans le menu déroulant.
  6. Pour Select a drawing style (Sélectionner un style de dessin), sélectionnez Counts and Amounts (Color) (Totaux et montants (Couleur)), puis cliquez sur OPTIONS.
  7. Cliquez sur Symbols (Symboles), modifiez le dégradé de couleurs en Rouge/Orange/Blanc, puis cliquez sur OK (OK).
  8. Cochez la case Classify Data (Classer les données).
  9. Dans le menu déroulant Using (À l’aide de), sélectionnez Standard Deviation (Écart type) et définissez la taille de la classe sur 1 écart type.
  10. Acceptez les autres propriétés par défaut et cliquez sur OK (OK), puis sur DONE (Terminé).

    Couche d’entités ajoutée et symbolisée sur une carte Web

  11. Déplacez la carte Web et effectuez des zooms pour explorer les résultats de l’analyse Big Data. Identifiez les zones dans lesquelles les accidents ayant entraîné des blessures ou la mort de cyclistes ont été les plus, ou les moins nombreux.

Étapes suivantes

Au cours de cette leçon, vous avez créé et exécuté une analyse Big Data portant sur environ 1,5 million d’accidents impliquant des cyclistes afin d’identifier les zones de la ville de New York où ces accidents ont été les plus nombreux. Ces résultats vont vous permettre de mieux déterminer dans quelles zones l’installation de nouvelles infrastructures adaptées à l’usage du vélo serait le plus bénéfique.

Vous trouverez des ressources supplémentaires si vous continuez d’utiliser ArcGIS Velocity et notamment les rubriques suivantes : Nouveautés de la dernière version, Vocabulaire essentiel de ArcGIS Velocity, Analyse Big Data, Analyse en temps réel et Utiliser des expressions Arcade.