Voici les questions fréquemment posées concernant ArcGIS Data Pipelines, ainsi que leurs réponses.
- Présentation de ArcGIS Data Pipelines
- Est-ce que Data Pipelines facture des crédits ?
- Data Pipelines est-il disponible dans ArcGIS Enterprise ?
- Comment accéder à Data Pipelines ?
- Comment utiliser pour la première fois Data Pipelines ?
- Quelles données puis-je utiliser dans Data Pipelines ?
- Puis-je utiliser les couches ArcGIS Living Atlas en entrée pour mon pipeline de données ?
- Puis-je me connecter à mes jeux de données sur la plateforme Google Cloud ?
- Mes données ont été mises à jour dans leur emplacement source. Comment synchroniser mon jeu de données dans mon pipeline de données ?
- Où puis-je stocker mes résultats Data Pipelines ? Puis-je les stocker dans Amazon S3 ?
- Combien d’entités puis-je écrire dans une table ou une couche d’entités avec Data Pipelines ?
- Est-ce que je peux géocoder des adresses à l’aide de Data Pipelines ?
- Quels outils sont prévus dans les futures versions ?
- Comment partager un pipeline de données ?
- Existe-t-il un moyen d’annuler ou rétablir une action dans l’éditeur Data Pipelines.
- Est-il possible de copier et coller les éléments dans un diagramme ?
- Puis-je planifier une exécution de pipeline de données ?
- En quoi Data Pipelines est-il différent de ArcGIS Velocity ?
- En quoi Data Pipelines est-il différent de ArcGIS Data Interoperability ?
- En quoi Data Pipelines diffère-t-il de ModelBuilder ? Data Pipelines est-il similaire à ModelBuilder mais conçu pour ArcGIS Online ?
Data Pipelines est une application ArcGIS Online qui permet de se connecter aux données provenant de différentes sources, de les traiter et de les intégrer. Vous pouvez effectuer la préparation des données et enregistrer les résultats dans votre SIG Web pour réaliser les processus de votre organisation. Tout se joue dans une interface intuitive dans laquelle vous pouvez créer, exécuter, enregistrer, partager et reproduire vos processus de préparation des données.
Oui. La consommation de crédits est basée sur le temps d’utilisation des ressources de calcul. Pour plus d’informations, reportez-vous à la rubrique Ressources de calcul.
Des crédits sont utilisés lorsqu’une ressource de calcul est active. Des ressources de calcul sont actives et des crédits sont consommés dans les scénarios suivants :
- Mode interactif – Dans l’éditeur, des crédits sont utilisés si le statut de connexion est Connected (Connecté). Aucun crédit n’est utilisé si le statut est Disconnected (Déconnecté). Si le statut est Reconnecting (Reconnexion), la ressource de calcul est active, mais aucun crédit n’est utilisé pour la période de reconnexion si la reconnexion échoue. Si plusieurs onglets de navigateur affichent l’éditeur ouvert, vous n’êtes pas facturé pour chaque onglet. Le montant facturé correspond à la durée de connexion d’au moins l’un d’entre eux. Des pipelines de données peuvent être connectés même si aucun jeu de données en entrée, outil ou sortie ne sont configurés.
- Mode planifié – Dans le cas des tâches planifiées de pipeline de données, des crédits sont utilisés lorsque le pipeline de données est en cours d’exécution. Les crédits sont facturés par exécution en fonction de sa durée.
- Lorsque l’utilisateur clique sur le bouton Disconnect all (Déconnecter tout) dans la boîte de dialogue des détails de la connexion. Cette action déconnecte tous les éditeurs connectés et aucun crédit n’est consommé tant qu’au moins un éditeur n’est pas reconnecté.
- Lorsque tous les onglets de navigateur avec des éditeurs connectés sont fermés pendant au moins 10 minutes. Aucun crédit n’est consommé pendant ces 10 minutes.
- Après 30 minutes d’inactivité dans tous les onglets de navigateur ouverts sur l’éditeur. Le statut est alors Disconnected (Déconnecté).
- Lorsque l’exécution d’une tâche planifiée de pipeline de données est terminée.
Vous pouvez accéder à Data Pipelines en utilisant le lanceur d’applications et en sélectionnant Data Pipelines.
Pour que vous puissiez accéder à Data Pipelines, votre compte d’utilisateur doit disposer des privilèges requis. Reportez-vous à la rubrique Conditions requises pour en savoir plus sur les privilèges requis pour accéder à Data Pipelines.
Si vous ignorez si votre organisation ou votre compte remplit les conditions requises mentionnées ci-dessus, contactez l’administrateur de votre organisation.
Pour prendre en main Data Pipelines, reportez-vous à Didacticiel : créer un pipeline de données. Le didacticiel présente les processus clés qui permettent d’utiliser Data Pipelines, notamment la connexion aux données et le traitement de ces dernières, l’exécution d’un pipeline de données, et bien d’autres opérations.
Pour accéder à davantage de ressources de prise en main, reportez-vous aux billets de blog de Data Pipelines Community.
Les types de données suivants sont pris en charge en entrée :
- Amazon S3
- Couches d’entités
- Fichiers provenant d’URL publiques
- Fichiers téléchargés dans le contenu
- Google BigQuery
- Microsoft Azure Storage
- Snowflake
Lisez la documentation sur les types de données en entrée pour obtenir des informations sur les types de fichiers pris en charge et les modalités de connexion à un jeu de données en entrée.
Oui. Vous pouvez utiliser les couches d’entités ArcGIS Living Atlas en entrée. Pour ajouter une couche à un diagramme, reportez-vous à la rubrique Couche d’entités. Par défaut, la boîte de dialogue Parcourir de la couche d’entités ouvre My Content (Mon contenu). Pour rechercher une couche dans ArcGIS Living Atlas, basculez vers Living Atlas dans la boîte de dialogue.
Non, pas encore. Des types de sources de données externes supplémentaires seront pris en charge dans les versions à venir. :
- Plateforme Google Cloud
- Microsoft Azure Cosmos DB for PostgreSQL
- Données renvoyées par des requêtes API
Nous ne garantissons pas que les sources de données figurant dans cette liste soient incluses dans une version donnée ; des sources de données absentes de cette liste peuvent également être ajoutées. Si vous avez des suggestions de sources de données susceptibles d’améliorer les processus, faites-nous le savoir en laissant un commentaire dans les forums Data Pipelines Community.
Mes données ont été mises à jour dans leur emplacement source. Comment synchroniser mon jeu de données dans mon pipeline de données ?
Si les données sont régulièrement mises à jour dans l’emplacement source et que vous souhaitez les utiliser dans un pipeline de données, il est recommandé de ne pas utiliser le paramètre Use caching (Utiliser la mise en cache) pour les entrées. Si vous n’utilisez pas la mise en cache, Data Pipelines lit les données les plus récentes chaque fois que vous demandez un aperçu ou procédez à l’exécution. Si vous activez l’option de mise en cache, seules les données disponibles au moment de la mise en cache sont utilisées.
Si vous avez créé une couche d’entités en sortie et que vous devez la mettre à jour avec les données les plus récentes, utilisez l’option Replace (Remplacer) ou Add and update (Ajouter et mettre à jour) dans l’outil Feature layer (Couche d’entités) et exécutez à nouveau le pipeline de données. Vous pouvez automatiser la réexécution d’un pipeline de données en planifiant une tâche pour l’élément de pipeline de données. Pour en savoir plus sur l’automatisation des processus de pipeline de données, reportez-vous à la rubrique Planifier une tâche de pipeline de données.
Non. Le seul format en sortie actuellement pris en charge par Data Pipelines est une couche d’entités. Vous ne pouvez pas écrire les résultats dans d’autres formats ou sur d’autres conteneurs de stockage, Amazon S3 inclus. Data Pipelines peut uniquement lire à partir du compartiment S3.
En savoir plus sur les couches d’entités en sortie dans Data Pipelines
Les outils suivants devraient être inclus dans des versions ultérieures :
- Rechercher et remplacer : rechercher des valeurs spécifiques et les remplacer par une nouvelle valeur.
- Géocoder des adresses : utiliser les adresses de type chaîne à partir d’un fichier ou d’une table afin de renvoyer des résultats géocodés.
Nous ne garantissons pas que les outils figurant dans cette liste soient inclus dans une version ; des outils absents de cette liste peuvent également être ajoutés. Si vous avez des suggestions d’outils susceptibles d’améliorer les processus, faites-nous le savoir en laissant un commentaire dans les forums Data Pipelines Community.
Oui. Vous pouvez partager les éléments de pipeline de données avec des groupes de votre organisation ou avec le public. Seul le propriétaire de lʼélément peut modifier les éléments de pipeline de données. Utilisez les groupes de mise à jour partagée pour que tous les membres du groupe puissent mettre à jour et enregistrer le pipeline de données. Si un pipeline de données est partagé avec un groupe qui n’est pas doté des fonctions de mise à jour partagée, vous pouvez enregistrer le pipeline de données sous forme d’une copie modifiable dans votre contenu via l’option Save As (Enregistrer sous) de la barre d’outils Éditeur.
Oui. Vous pouvez créer des tâches pour des éléments de pipeline de données afin de planifier l’exécution des processus. Pour en savoir plus sur la création de tâches de pipeline de données, reportez-vous à la rubrique Planifier un pipeline de données.
Il existe certaines similitudes entre Data Pipelines et Velocity dans ArcGIS Online. Les deux applications permettent de se connecter à des sources de données externes et d’importer les données dans ArcGIS Online afin de les utiliser dans tout le système ArcGIS. Elles ont cependant des finalités distinctes. Velocity est spécifiquement conçu pour le traitement des Big Data et en temps réel et gère de manière efficace les flux de données haut débit issus de capteurs et de sources similaires. Il est également axé sur l’analyse, comme le suivi d’appareils, la détection d’incidents et l’analyse de modèle. Data Pipelines est principalement une application d’intégration de données qui se concentre sur des tâches d’ingénierie des données, particulièrement pour les flux de données ne provenant pas de capteurs. Tandis que Velocity est utilisé pour le traitement des données en temps réel, Data Pipelines permet de gérer et d’optimiser les données qui n’ont pas besoin d’être mises à jour aussi fréquemment.
Les deux sont des outils d’extraction, de transformation et de chargement (ETL) sans code pour ArcGIS, qui prennent en charge l’intégration, la transformation et le nettoyage des données. Ils sont toutefois très différents car Data Pipelines est une application Web disponible immédiatement dans ArcGIS Online, tandis que Data Interoperability est une extension de ArcGIS Pro, qui nécessite une licence et une installation séparées. Data Pipelines est axé sur l’intégration des données pour ArcGIS Online, les résultats étant écrits dans une couche d’entités hébergée, tandis que Data Interoperability prend en charge un vaste ensemble d’entrées et de types de fichiers pris en charge et est capable d’écrire les résultats dans la source.
En quoi Data Pipelines diffère-t-il de ModelBuilder ? Data Pipelines est-il similaire à ModelBuilder mais conçu pour ArcGIS Online ?
ModelBuilder et Data Pipelines sont similaires dans le sens où ils proposent tous les deux une expérience utilisateur de création de processus reproductibles par glisser-déposer nécessitant peu de code. Il existe cependant quelques différences essentielles :
- ModelBuilder est une fonctionnalité incluse dans ArcGIS Pro alors que Data Pipelines est une fonctionnalité incluse dans ArcGIS Online.
- ModelBuilder peut être utilisé pour automatiser ou rationaliser des processus d’analyse à l’aide des outils de géotraitement disponibles dans ArcGIS Pro alors que Data Pipelines peut être utilisé pour automatiser ou rationaliser des processus de préparation et d’intégration de données et inclut plusieurs outils dédiés conçus pour nettoyer, mettre en forme et préparer les données en vue de leur consultation et de leur analyse.
Vous avez un commentaire à formuler concernant cette rubrique ?