Utiliser ArcGIS Data Pipelines—ArcGIS Data Pipelines

Les pipelines de données que vous créez dans l’application ArcGIS Data Pipelines sont stockés sous forme d’éléments dans votre contenu. Vous allez utiliser l’éditeur de Data Pipelines pour créer et modifier des pipelines de données. Les sections ci-après décrivent l’éditeur de pipeline de données et expliquent comment créer et exécuter un pipeline de données dans l’éditeur.

Éléments de pipelines de données

Les éléments suivants constituent un pipeline de données :

Entrées
- Une entrée sert à charger les données dans un pipeline de données pour le traitement en aval. Il existe de nombreux types de sources de données. Pour plus d’informations sur les sources et les types de source, reportez-vous à la rubrique Configuration du jeu de données.
- Plusieurs sources de données peuvent figurer dans un seul pipeline de données. Le processus du pipeline de données exige au moins une source de données.
Outils
- Les outils traitent les données chargées à partir des sources de données en entrée.
- Un seul pipeline de données peut comporter plusieurs outils.
- Les outils peuvent être connectés les uns aux autres si la sortie d’un outil représente l’entrée de l’outil suivant.
- Pour en savoir plus sur les outils disponibles et leur mode d’utilisation, reportez-vous à la rubrique Traitement des données.
Sorties
- Les sorties définissent à quoi doivent servir les résultats du pipeline de données.
- Vous pouvez écrire les résultats du pipeline de données dans une nouvelle couche d’entités, remplacer les données dans une couche d’entités existante ou bien mettre à jour les données existantes dans une couche d’entités et leur ajouter les résultats.
- Un seul pipeline de données peut comporter plusieurs sorties.
- Vous pouvez configurer plusieurs sorties pour le résultat d’un seul outil ou un seul jeu de données en entrée. Au moins une sortie est requise pour exécuter un pipeline de données.
- Pour en savoir plus sur l’écriture des résultats, consultez Couche d’entités.

Processus du pipeline de données

Le processus du pipeline de données se compose des éléments décrits ci-dessus : connectez-vous aux données existantes, effectuez l’ingénierie des données et écrivez les données qui viennent d’être préparées. Lorsqu’un pipeline de données est exécuté, il génère une ou plusieurs sorties. Tous les résultats en sortie sont disponibles dans votre contenu.

Se connecter aux données

La première étape de la création d’un pipeline de données consiste à se connecter aux données. Dans la barre d’outils Éditeur, sous Inputs (Entrées), choisissez le type de source auquel établir la connexion. Par exemple, sélectionnez Feature layer (Couche d’entités) et accédez à la couche ou sélectionnez Amazon S3 et accédez à l’élément du data store représentant le compartiment et le dossier contenant le jeu de données. Pour en savoir plus sur la connexion aux données et la manière d’optimiser les performances de lecture, reportez-vous à la rubrique Configuration du jeu de données.

Effectuer le traitement des données

La deuxième étape consiste à traiter les données en entrée. Dans la barre d’outils Éditeur, cliquez sur Tools (Outils) et choisissez le traitement à appliquer au jeu de données. Par exemple, pour calculer les localisations des données CSV et filtrer les localisations d’une zone d’intérêt spécifique, vous pouvez utiliser les outils Create geometry (Créer une géométrie) et Filter by extent (Filtrer selon l’étendue).

Pour spécifier le jeu de données à utiliser en entrée dans un outil, effectuez l’une des opérations suivantes :

Tracez une ligne en faisant glisser le pointeur depuis le connecteur d’un élément à l’autre.
Utilisez le paramètre du jeu de données en entrée pour identifier le jeu de données en entrée.

Le traitement des données est facultatif. Après vous êtes connecté au jeu de données, vous pouvez l’écrire sous forme d’une couche d’entités sans le moindre traitement.

Pour améliorer les performances du traitement du pipeline de données, vous pouvez limiter la quantité de données que vous utilisez à l’aide de l’un des outils suivants ou d’une combinaison de ceux-ci :

Sélectionner des champs - Conserve uniquement les champs d’intérêt. Par exemple, vous possédez un jeu de données de recensement avec des champs portant sur les années 2000 et 2010, mais seule l’année 2010 vous intéresse. Sélectionnez exclusivement les champs représentant les valeurs de l’année 2010.
Filtrer par attribut - conserve un sous-ensemble d’enregistrements contenant certaines valeurs attributaires. Par exemple, filtrez un jeu de données concernant des séismes pour ne garder que les séismes dont la magnitude est supérieure à 5,5.
Filtrer selon l’étendue - conserve un sous-ensemble d’enregistrements dans une certaine étendue spatiale. Par exemple, filtrez un jeu de données de zones à risque d’inondation aux États-Unis selon l’étendue d’un autre jeu de données correspondant aux limites d’un État.

Prévisualiser les éléments de pipelines de données

Utilisez l’aperçu pour étudier les données à n’importe quel stade du processus. L’aperçu inclut les méthodes suivantes pour l’inspection des données :

Table preview (Aperçu de la table) : affichez une représentation tabulaire des données.
Map preview (Aperçu de la carte) : affichez les localisations du jeu de données sur une carte. Dans l’aperçu de la carte, vous pouvez zoomer, vous déplacer et inspecter des attributs.
Schema (Structure) : affichez la structure du jeu de données.
Messages : consultez les messages renvoyés par l’action de prévisualisation.

Les aperçus affichent jusqu’à 8 000 enregistrements de données.

Lorsque vous prévisualisez des champs de date/heure, les valeurs sont affichées dans le fuseau horaire du navigateur. Lorsque vous écrivez les valeurs dans une couche d’entités, elles sont stockées en temps universel coordonné (UTC).

La prévisualisation de jeux de données avec des géométries complexes peut entraîner l’utilisation d’une importante quantité de la mémoire disponible. Si les seuils de mémoire sont dépassés, il se peut que les aperçus de la carte ne soient pas rendus ou que le statut indique une opération de reconnexion lors de la récupération. Pour améliorer les performances de l’aperçu, vous pouvez effectuer les opérations suivantes :

Pour tous les types de géométrie, ajoutez un filtre au jeu de données à l’aide de l’outil Filtrer par attribut ou de l’outil Filtrer selon l’étendue.
Dans le cas de géométries de type polygone, pensez à généraliser les géométries à l’aide de l’outil Simplifier la géométrie.

Pour écrire la totalité du jeu de données dans une couche d’entités, veillez à supprimer l’outil de filtrage ou de simplification avant d’exécuter le pipeline de données.

Exécuter un pipeline de données

Utilisez le bouton Run (Exécuter) de la barre d’actions de la zone d’affichage pour exécuter les traitements configurés. Pour exécuter un pipeline de données, au moins un élément de couche d’entités en sortie doit être configuré. Les résultats et les messages de l’exécution sont accessibles à partir de la console des détails de la dernière exécution en cliquant sur le bouton Run details (Détails de l’exécution) . Vous pouvez cliquer sur un résultat pour ouvrir la page de l’élément.

Pour exécuter un pipeline de données selon une planification automatisée, vous pouvez créer une tâche. Pour en savoir plus sur la création de tâches planifiées pour des pipelines de données, reportez-vous à la rubrique Planifier une tâche de pipeline de données.

Ajouter des notes à un pipeline de données

Ajoutez des notes pour documenter votre processus. Vous pouvez ajouter une note à un élément spécifique dans la zone d’affichage ou à l’ensemble du pipeline de données.

Pour ajouter une note à un élément spécifique, sélectionnez l’élément et cliquez sur le bouton Notes Notes dans la barre d’actions de l’élément. Après avoir ajouté une note d’élément, vous pouvez cliquer sur le bouton Notes à nouveau pour afficher ou mettre à jour la note. Pour afficher toutes les notes d’élément, cliquez sur le bouton Notes dans la barre d’outils de l’éditeur et sélectionnez Element notes (Notes des éléments). Ici, vous pouvez supprimer une note d’élément ou cliquez sur une note pour l’ouvrir dans la zone d’affichage, où vous pouvez la consulter ou la mettre à jour. Il ne peut y avoir qu’une note par élément. Les notes d’élément sont limitées à 16 000 caractères.

Pour ajouter une note à l’ensemble du pipeline de données, cliquez sur le bouton Notes Notes dans la barre d’outils de l’éditeur et sélectionnez General notes (Notes générales). Ici, vous pouvez créer, afficher, mettre à jour ou supprimer une note générale. Il ne peut y avoir qu’une note générale par pipeline de données. Les notes générales sont limitées à 16 000 caractères.

Lorsqu’un élément est copié, les notes qui l’accompagnent ne le sont pas.

Lorsque vous enregistrez un pipeline de données existant avec des notes en tant que nouvel élément, les notes sont enregistrées avec le nouvel élément.

Vous avez un commentaire à formuler concernant cette rubrique ?