Les pipelines de données que vous créez dans l’application ArcGIS Data Pipelines sont stockés sous forme d’éléments dans votre contenu. Vous allez utiliser l’éditeur de Data Pipelines pour créer et modifier des pipelines de données. Les sections ci-après décrivent l’éditeur de pipeline de données et expliquent comment créer et exécuter un pipeline de données dans l’éditeur.
Éléments de pipelines de données
Les éléments suivants sont les trois éléments constituant un pipeline de données :
- Entrées
- Une entrée sert à charger les données dans un pipeline de données pour le traitement en aval. Il existe de nombreux types de sources de données. Pour plus d’informations sur les sources et les types de source, reportez-vous à la rubrique Configuration du jeu de données.
- Plusieurs sources de données peuvent figurer dans un seul pipeline de données. Le processus du pipeline de données exige au moins une source de données.
- Outils
- Les outils traitent les données chargées à partir des sources de données en entrée.
- Un seul pipeline de données peut comporter plusieurs outils.
- Les outils peuvent être connectés les uns aux autres si la sortie d’un outil représente l’entrée de l’outil suivant.
- Pour en savoir plus sur les outils disponibles et leur mode d’utilisation, reportez-vous à la rubrique Traitement des données.
- Sorties
- Les sorties définissent à quoi doivent servir les résultats du pipeline de données.
- Vous pouvez écrire les résultats du pipeline de données dans une nouvelle couche d’entités, remplacer les données dans une couche d’entités existante ou bien mettre à jour les données existantes dans une couche d’entités et leur ajouter les résultats.
- Un seul pipeline de données peut comporter plusieurs sorties.
- Vous pouvez configurer plusieurs sorties pour le résultat d’un seul outil ou un seul jeu de données en entrée. Au moins une sortie est requise pour exécuter un pipeline de données.
- Pour en savoir plus sur l’écriture des résultats, consultez Couche d’entités.
Processus du pipeline de données
Le processus du pipeline de données se compose des trois étapes décrites ci-dessus : se connecter aux données existantes, effectuer l’ingénierie des données et écrire les données qui viennent d’être préparées. Lorsqu’un pipeline de données est exécuté, il génère une ou plusieurs sorties. Tous les résultats en sortie sont disponibles dans votre contenu.
Se connecter aux données
La première étape de la création d’un pipeline de données consiste à se connecter aux données. Dans la barre d’outils Éditeur, sous Inputs (Entrées), choisissez le type de source auquel établir la connexion. Par exemple, sélectionnez Feature layer (Couche d’entités) et accédez à la couche ou sélectionnez Amazon S3 et accédez à l’élément du data store représentant le compartiment et le dossier contenant le jeu de données. Pour en savoir plus sur la connexion aux données et la manière d’optimiser les performances de lecture, reportez-vous à la rubrique Configuration du jeu de données.
Effectuer le traitement des données
La deuxième étape consiste à traiter les données en entrée. Dans la barre d’outils Éditeur, cliquez sur Tools (Outils) et choisissez le traitement à appliquer au jeu de données. Par exemple, pour calculer les localisations des données CSV et filtrer les localisations d’une zone d’intérêt, vous pouvez utiliser les outils Créer une géométrie et Filtrer selon l’étendue.
Pour spécifier le jeu de données à utiliser en entrée dans un outil, effectuez l’une des opérations suivantes :
- Tracez une ligne en faisant glisser le pointeur depuis le connecteur d’un élément à l’autre.
- Utilisez le paramètre du jeu de données en entrée pour identifier le jeu de données en entrée.
Le traitement des données est facultatif. Après vous êtes connecté au jeu de données, vous pouvez l’écrire sous forme d’une couche d’entités sans le moindre traitement.
Pour améliorer les performances du traitement du pipeline de données, vous pouvez limiter la quantité de données que vous utilisez à l’aide de l’un des outils suivants ou d’une combinaison de ceux-ci :
- Sélectionner des champs - Conserve uniquement les champs d’intérêt. Par exemple, vous possédez un jeu de données de recensement avec des champs portant sur les années 2000 à 2010, mais seule l’année 2010 vous intéresse. Sélectionnez exclusivement les champs représentant les valeurs de l’année 2010.
- Filtrer par attribut - conserve un sous-ensemble d’enregistrements contenant certaines valeurs attributaires. Par exemple, filtrez un jeu de données concernant des séismes pour ne garder que les séismes dont la magnitude est supérieure à 5,5.
- Filtrer selon l’étendue - conserve un sous-ensemble d’enregistrements dans une certaine étendue spatiale. Par exemple, filtrez un jeu de données de zones à risque d’inondation aux États-Unis selon l’étendue d’un autre jeu de données correspondant aux limites d’un État.
Prévisualiser les éléments de pipelines de données
Utilisez l’aperçu pour étudier vos données à n’importe quel stade du processus. L’aperçu présente les méthodes suivantes pour étudier les données :
- Table preview (Aperçu de la table) : affichez une représentation tabulaire des données.
- Map preview (Aperçu de la carte) : affichez les localisations du jeu de données sur une carte. Dans l’aperçu de la carte, vous pouvez zoomer, vous déplacer et inspecter des attributs.
- Schema (Structure) : affichez la structure du jeu de données.
- Messages : consultez les messages renvoyés par l’action de prévisualisation.
Les aperçus permettent de visualiser 8 000 enregistrements de données.
Lorsque vous prévisualisez des champs de date/heure, les valeurs sont affichées dans le fuseau horaire du navigateur. Lorsque vous écrivez des valeurs dans une couche d’entités, elles sont stockées en temps universel coordonné (UTC).
La prévisualisation de jeux de données avec des géométries complexes peut entraîner l’utilisation d’une importante quantité de la mémoire disponible. Si les seuils de mémoire sont dépassés, il se peut que les aperçus de la carte ne soient pas rendus ou que le statut indique une opération de reconnexion lors de la récupération. Pour améliorer les performances de l’aperçu, prenez en compte les points suivants :
- Pour tous les types de géométrie, ajoutez un filtre au jeu de données à l’aide de l’outil Filtrer par attribut ou de l’outil Filtrer selon l’étendue.
- Dans le cas de géométries de type polygone, pensez à généraliser les géométries à l’aide de l’outil Simplifier la géométrie.
Pour écrire la totalité du jeu de données dans une couche d’entités, veillez à supprimer l’outil de filtrage ou de simplification avant d’exécuter le pipeline de données.
Exécuter un pipeline de données
Utilisez le bouton Run (Exécuter) de la barre d’actions de la zone d’affichage pour exécuter les traitements configurés. Pour exécuter un pipeline de données, au moins un élément de couche d’entités en sortie doit être configuré. Les résultats et les messages de la tâche sont accessibles à partir de la console des détails de la dernière exécution. Vous pouvez cliquer sur un résultat pour ouvrir la page de l’élément.
Pour exécuter un pipeline de données selon une planification automatisée, vous pouvez créer une tâche. Pour en savoir plus sur la création de tâches planifiées pour des pipelines de données, reportez-vous à la rubrique Planifier une tâche de pipeline de données.
Vous avez un commentaire à formuler concernant cette rubrique ?