Skip To Content

Utiliser des enregistrements Microsoft Azure Storage

Utilisez des enregistrements à partir de fichiers stockés dans un conteneur Microsoft Azure Storage en entrée pour ArcGIS Data Pipelines.

Remarques sur l’utilisation

Gardez les points suivants à l’esprit lorsque vous utilisez Microsoft Azure Storage :

  • Pour utiliser un jeu de données issu de Azure Storage, vous devez d’abord créer un élément de data store. Les éléments de data store stockent de manière sécurisée les identifiants et les informations de connexion qui permettent à Data Pipelines de lire les données. Pour créer un data store, suivez la procédure décrite dans la section Se connecter à Azure Storage ci-dessous.
  • Pour modifier l’élément de data store que vous avez configuré, utilisez le paramètre Data store item (Élément de data store) pour supprimer l’élément actuellement sélectionné et choisissez l’une des options suivantes :
    • Add data store (Ajouter un data store) – Créez un nouvel élément de data store.
    • Select item (Sélectionner un élément) – Accédez à du contenu pour sélectionner un élément de data store existant.
  • Utilisez le paramètre Dataset path (Chemin du jeu de données) pour spécifier le nom du jeu de données ou le nom du dossier qui contient le jeu de données. Par exemple, vous pouvez spécifier des chemins de jeux de données en procédant comme suit :
    • Faites référence à un seul fichier en indiquant le chemin de ce fichier, tel que Hurricanes.shp ou CustomerInfo.csv.
    • Faites référence à un dossier qui contient plusieurs jeux de données en spécifiant un chemin tel que MyFolder/. Tous les fichiers dans un dossier doivent avoir la même structure et être du même type.
    • Faites référence à des types de fichiers spécifiques dans un dossier qui contient plusieurs fichiers et formats en spécifiant un chemin tel que MyFolder/*.parquet. Dans cet exemple, seuls les fichiers Parquet sont lus. Tous les fichiers Parquet dans le dossier doivent avoir la même structure.
    • Faites référence à plusieurs fichiers et dossiers imbriqués qui utilisent des modèles globaux en spécifiant un chemin tel que MyFolder/**/*.geojson. Dans cet exemple, tous les sous-dossiers de MyFolder et tous les fichiers GeoJSON de ces sous-dossiers sont chargés.

    Le chemin du jeu de données doit également être relatif au conteneur et au dossier spécifiés lors de la création de l’élément de data store. Par exemple, si le chemin complet du jeu de données est https://myaccount.blob.core.windows.net/my-container/my-folder/my-subfolder/file.csv et que l’élément de data store indique my-container pour le conteneur et my-folder pour le dossier, le chemin du jeu de données doit être my-subfolder/file.csv.

  • Utilisez le paramètre File format (Format de fichier) pour indiquer le format de fichier du jeu de données spécifié dans le paramètre Dataset path (Chemin du jeu de données). Les options de format disponibles sont les suivantes :
    • CSV or delimited (CSV ou délimité) (par exemple, .csv, .tsv ou .txt)
    • Parquet (.parquet)
    • GeoParquet (.geoparquet)
    • JSON (par exemple, un fichier .json ou un fichier .txt contenant des données au format JSON)
    • GeoJSON (par exemple, .json et .geojson ou fichier .txt contenant des données au format GeoJSON)
    • Shapefile (.shp)
    • File Geodabase (Géodatabase fichier) (.gdb)
    • ORC (.orc)
  • Si l’option de format CSV or delimited (CSV ou délimité) est spécifiée, les paramètres de définition de jeu de données suivants sont disponibles :
    • Delimiter (Délimiteur) - délimiteur utilisé pour fractionner les valeurs de champ (ou de colonne) et d’enregistrement (ou de ligne). La virgule (,) est le délimiteur par défaut. Les autres formats de délimiteur incluent, sans que cela soit exhaustif, les tabulations (\t), les points-virgules (;) et les barres verticales (|), ainsi que les barres obliques et barres obliques inverses (/ et \).
    • Has header row (Comporte une ligne d’en-tête) - Indique si le jeu de données contient une ligne d’en-tête. Par défaut, la valeur est définie sur true (vrai). Si la valeur est définie que false (faux), la première ligne du jeu de données est considérée comme un enregistrement.
    • Has multiline data (Comporte des données multilignes) - Indique si le jeu de données a des enregistrements contenant des caractères de nouvelle ligne. Par défaut, cette propriété est définie sur faux. Si la valeur est définie sur true (vrai), les données contiennent des données multilignes lues et mises en forme comme il convient.
    • Character encoding (Encodage des caractères) – Type d’encodage utilisé pour lire le jeu de données spécifié. La valeur par défaut est UTF-8. Vous pouvez choisir parmi les options d’encodage disponibles ou indiquez un type d’encodage. Les espaces ne sont pas pris en charge dans les valeurs d’encodage. Par exemple, la spécification d’une valeur ISO 8859-8 est incorrecte ; la valeur doit plutôt être spécifiée comme ISO-8859-8.
  • L’option Fields (Champs) est disponible pour la configuration des noms et des types de champs lorsque le format des données a pour valeur CSV or delimited (CSV ou délimité). Le bouton Configure schema (Configurer la structure) ouvre une boîte de dialogue qui contient les champs de jeu de données avec les options suivantes :
    • Include or drop fields (Inclure ou supprimer des champs) – Vous pouvez supprimer des champs en cochant la case en regard du champ concerné. Par défaut, tous les champs sont inclus.
    • Field name (Nom de champ) - Nom du champ tel qu’il sera utilisé dans Data Pipelines. Cette valeur peut être modifiée. Par défaut, cette valeur sera identique à celle du champ dans le jeu de données source sauf si le nom source contient des caractères non valides ou est un mot réservé. Les caractères non valides seront remplacés par un trait de soulignement (_) et les mots réservés se verront ajouter un trait de soulignement (_) en préfixe.
    • Field type (Type de champ) – Type de champ tel qu’il est utilisé dans Data Pipelines. Cette valeur peut être modifiée.
    Le tableau suivant décrit les types de champ disponibles :

    Type de champDescription

    Chaîne

    Les champs de type chaîne prennent en charge une chaîne de caractères de texte.

    Entier petit

    Les champs de type entier petit prennent en charge les nombres entiers compris entre -32768 et 32767.

    Entier

    Les champs de type entier prennent en charge les nombres entiers compris entre -2147483648 et 2147483647.

    Entier très grand

    Les champs de type entier très grand prennent en charge les nombres entiers compris entre -9223372036854776000 et 9223372036854776000.

    Flottant

    Les champs de type flottant prennent en charge les nombres fractionnels compris approximativement entre -3,4E38 et 3,4E38.

    Double

    Les champs de type double prennent en charge les nombres fractionnels compris approximativement entre -2,2E308 et 1,8E308.

    Date

    Les champs de type date prennent en charge les valeurs au format yyyy-MM-dd HH:mm:ss, par exemple, la valeur 2022-12-31 13:30:30. Si les valeurs de date sont stockées dans un format différent, utilisez l’outil Créer un champ de date/heure pour calculer un champ de date.

    Booléen

    Les champs de type booléen prennent en charge les valeurs True et False. Si un champ contient des représentations entières de valeurs booléennes (0 et 1), utilisez l’outil Mettre à jour des champs pour convertir les entiers en valeurs booléennes à la place.

  • Si l’option de format JSON est spécifiée, le paramètre Root property (Propriété racine) est disponible. Vous pouvez utiliser ce paramètre pour spécifier une propriété dans le fichier JSON à partir duquel les données sont lues. Vous pouvez référencer des propriétés imbriquées à l’aide d’un séparateur décimal entre chaque propriété, par exemple, property.subProperty. Par défaut, le fichier JSON entier est lu.
  • Si l’option de format GeoJSON est spécifiée, le paramètre Geometry type (Type de géométrie) est disponible. Ce paramètre est facultatif. Par défaut, le type de géométrie dans le fichier GeoJSON est utilisé. Si le fichier GeoJSON contient plusieurs types de géométrie, vous devez indiquer la valeur de ce paramètre. Les types de géométrie mixtes ne sont pas pris en charge et seul le type spécifié est utilisé. Les options sont Point, Multipoint, Polyline (Polyligne) et Polygon (Polygone). Un champ de géométrie contenant les localisations des données GeoJSON est automatiquement calculé et ajouté au jeu de données en entrée. Le champ de géométrie peut être utilisé en entrée pour les opérations spatiales ou permet d’activer la géométrie sur le résultat en sortie.
  • Si l’option de format File Geodatabase (Géodatabase fichier) est spécifiée, le paramètre Feature class or table name (Nom de la table ou classe d’entités) est disponible. Utilisez ce paramètre pour spécifier le nom de la classe d’entités ou de la table à utiliser comme entrée. Seules les tables et les classes d’entités ponctuelles, multi-points, polylignes et surfaciques sont prises en charge. Les jeux de données tels que notamment les jeux de données raster, mosaïque et de trajectoire ne sont pas pris en charge. Les types d’entité avancés tels que les entités de réseau géométrique ne sont pas pris en charge.
  • Pour améliorer les performances de lecture des jeux de données en entrée, vous pouvez utiliser les options suivantes :
    • Utilisez le paramètre Use caching (Utiliser la mise en cache) pour stocker une copie du jeu de données. La copie en cache est conservée uniquement si au moins un onglet de navigateur ouvert sur l’éditeur est connecté. Cela peut accélérer l’accès aux données lors du traitement. Si les données sources ont été mises à jour depuis leur mise en cache, désélectionnez ce paramètre et prévisualisez ou exécutez à nouveau l’outil.
    • Après avoir configuré un jeu de données en entrée, configurez l’un des outils suivants pour limiter la quantité de données traitées :

Se connecter à Azure Storage

Pour utiliser des données stockées dans Azure Storage, suivez la procédure ci-après afin de créer un élément de data store dans l’éditeur Data Pipelines :

  1. Dans la barre d’outils de l’éditeur Data Pipelines, cliquez sur Inputs (Entrées) et sélectionnez Microsoft Azure Storage.

    La boîte de dialogue Select a data store connection (Sélectionner une connexion à un data store) s’affiche.

  2. Sélectionnez Add a new data store (Ajouter un nouveau data store).
  3. Cliquez sur Next (Suivant).

    La boîte de dialogue Add a connection to a data store (Ajouter une connexion à un data store) apparaît.

  4. Sélectionnez le type d’authentification utilisé pour accéder aux données.
  5. Indiquez les valeurs d’authentification.

    Les valeurs d’authentification varient en fonction du type d’authentification sélectionné.

  6. Indiquez le nom du conteneur dans lequel les données sont stockées.
  7. Vous pouvez également indiquer le chemin d’un dossier au sein du conteneur pour l’inscrire.
  8. Cliquez sur Next (Suivant).

    La fenêtre des détails des éléments s’ouvre.

  9. Indiquez un titre pour le nouvel élément de data store.

    Ce titre apparaîtra dans votre contenu. Vous pouvez également stocker l’élément dans un dossier spécifique et indiquer des balises d’élément ou un résumé.

  10. Cliquez sur Create connection (Créer une connexion) pour créer l’élément de data store.

    Un élément Microsoft Azure Storage que vous pouvez configurer pour un jeu de données spécifique est ajouté dans la zone d’affichage.

Limitations

Les limitations connues sont les suivantes :

  • Vos informations d’identification doivent disposer au moins des autorisations READ et LIST. Ces autorisations permettent d’accéder au conteneur spécifié et de lire les jeux de données qu’il contient.
  • Si vous spécifiez un dossier qui contient plusieurs fichiers représentant un seul jeu de données, tous les fichiers identifiés dans le dossier Azure Storage doivent avoir la même structure et le même type de géométrie.
  • Les fichiers compressés (.zip) ne sont pas pris en charge.
  • Les fichiers JSON Esri (.esrijson) ne sont pas pris en charge.
  • Le paramètre Enable soft delete for blobs (Activer la suppression réversible pour les objets blob) doit être désactivé pour les données Azure indiquées en entrée dans Data Pipelines.
  • Si le jeu de données inclut des noms de champ comportant des espaces ou des caractères non valides, les noms sont automatiquement mis à jour pour utiliser des traits de soulignement à la place. Ainsi, un champ nommé Population 2022 est renommé en Population_2022 et un champ nommé %Employed est renommé en _Employed.
  • Pour utiliser un élément de data store afin de vous connecter à des sources de données externes, vous devez être le propriétaire de l’élément du data store. Les éléments de data store qui sont partagés avec vous ne sont pas pris en charge en entrée.

Licences requises

Les licences et configurations suivantes sont requises :

  • Type d’utilisateur Creator ou Professional
  • Rôle d’éditeur, de facilitateur ou d’administrateur, ou rôle personnalisé équivalent

Afin d’en savoir plus sur la configuration requise pour Data Pipelines, reportez-vous à la rubrique Conditions requises.