Concepts de l’espace de travail de chargement des données

L’outil Créer un espace de travail de chargement des données crée un espace de travail de chargement des données, un classeur de référence des données et des classeurs d’appariement.

Espace de travail de chargement des données

L’espace de travail de chargement des données contient des dossiers, des classeurs Microsoft Excel et d’autres éléments pour aider à l’appariement des données depuis une structure source vers une structure cible. Vous trouverez ci-après une description de la structure des dossiers d’un espace de travail de chargement des données.

  • Le dossier Data Mapping contient les dossiers suivants, en fonction des données source :
    • Points : contient des classeurs pour chaque jeu de données ponctuelles source qui a été apparié.
    • Polygons : contient des classeurs pour chaque jeu de données surfaciques source qui a été apparié.
    • Poylines : contient des classeurs pour chaque jeu de données polylignes source qui a été apparié.
    • Table : contient des classeurs pour chaque jeu de données tabulaires source qui a été apparié.
    • GlobalLookup : contient le classeur GlobalLookup.xlsx, qui peut servir à créer des tables de correspondance à utiliser dans tous les classeurs d’appariement.
  • Le dossier Scripts contient les fichiers de script suivants, que vous pouvez utiliser pour traiter des données à l’aide de fonctions personnalisées. Ces fonctions peuvent être utilisées dans la colonne Expression des classeurs d’appariement.
    • base.py : utilisez les fonctions de base de ce fichier dans les classeurs d’appariement.
    • shape_operations.py : utilisez les fonctions de manipulation de formes de ce fichier dans les classeurs d’appariement.
    • user.py : utilisez ce fichier pour des fonctions personnalisées.
  • Le dossier Domains contient des classeurs avec des informations de structure pour tous les domaines dans l’espace de travail source et cible.
  • Le fichier DataReference.xlsx contient les chemins d’accès aux classeurs source, cible et d’appariement, ainsi que les paramètres de chargement des données.

Classeur de référence des données

Le classeur de référence des données contient les chemins d’accès aux classeurs source, cible et d’appariement. Si l’emplacement de l’un de ces éléments change, vous pouvez mettre à jour les chemins d’accès manuellement. Des colonnes supplémentaires déterminent le mode de chargement des données source dans la cible, notamment certains paramètres d’environnement de géotraitement.

Les définitions de colonne sont présentées ci -après.

  • Source : emplacement du jeu de données source.
  • SourceDefinitionQuery : écriture d’une requête SQL pour sélectionner un sous-ensemble d’un jeu de données source à apparier au jeu de données cible. Par exemple, utilisez Type = 0 pour sélectionner uniquement les enregistrements où le type d’attribut est égal à 0 en vue de les charger dans le jeu de données cible.
  • Target : emplacement du jeu de données cible.
  • TargetDeleteQuery : écriture d’une requête SQL pour choisir les données du jeu de données cible à supprimer avant le chargement. Par exemple, 1=1 supprime toutes les données existantes dans le jeu de données cible.
  • MappingWorkbook : lien vers l’emplacement du classeur d’appariement des données dans l’espace de travail de chargement des données.
  • Enabled : valeur True ou False indiquant si le classeur d’appariement sera traité ou ignoré lors du processus de chargement des données. La valeur par défaut est True.
  • MaintainAttachments : valeur True ou False indiquant si les pièces jointes seront conservées lors du processus de chargement des données. La valeur par défaut est True.
  • PreserveGlobalIds : valeur True ou False indiquant si les ID globaux seront conservés lors du processus de chargement des données. La valeur par défaut est False. Les identifiants globaux ne peuvent pas être conservés lors du chargement dans un service.
  • GeographicTransformations : définit les transformations géographiques à utiliser lors du chargement des données.

Classeurs d’appariement des données

Les classeurs d’appariement des données se trouvent dans le dossier Data Mapping et sont organisés par type de géométrie. Chaque classeur d’appariement des données correspond à l’une des paires source et cible définies dans le classeur de référence des données. Utilisez ces classeurs pour définir le mode d’appariement des données de la source à la cible à l’aide des options décrites ci-dessous.

Feuille de calcul d’appariement

Utilisez cette feuille de calcul pour définir l’appariement de champs. La feuille de calcul est mise en surbrillance en vert dans le classeur.

Les définitions de colonne sont présentées ci -après.

  • TargetField : champs du jeu de données cible.
  • FieldType : type de chaque champ dans le jeu de données cible.
  • Expression : appariez directement les champs en sélectionnant un champ dans le menu déroulant, ou écrivez une expressionPython. Par exemple, cela peut faire référence à une fonction Python externe ou une valeur constante comme un nombre ou une chaîne.
  • LookupSheet : indiquez une feuille de calcul Correspondance. Elle doit être utilisée avec les colonnes LookupKeys et LookupValue.
  • LookupKeys : spécifiez une ou plusieurs colonnes de la feuille de calcul Correspondance à utiliser en tant que clés. Pour utiliser plusieurs colonnes, séparez-les par une virgule.
  • LookupValue : spécifiez une colonne de la feuille de calcul Correspondance à utiliser en tant que valeur cible.
  • LookupDefault : lorsque vous utilisez une feuille de calcul Correspondance, ce champ permet de définir une valeur par défaut. Cette valeur sera affectée aux valeurs nulles et à celles qui ne sont pas appariées dans la feuille de calcul Correspondance. Cette colonne est facultative et peut rester vide si aucune valeur par défaut n’est utilisée.

Feuille de calcul Correspondance.

Utilisez des feuilles de calcul Correspondance pour définir l’appariement de valeurs source à cible. Elles sont utilisées dans la feuille de calcul d’appariement en tant que clés et valeurs de correspondance. Une feuille est automatiquement créée pour tous les domaines de valeurs précodées dans les données source, avec des colonnes contenant les codes et descriptions de domaine. Des colonnes supplémentaires représentant des champs dans les données source peuvent être ajoutées manuellement pour prendre en charge la correspondance de plusieurs valeurs. Ces feuilles de calcul sont mises en surbrillance en bleu dans le classeur.

Si le paramètre Options d’appariement de champ prédictif de l’outil Créer un espace de travail de chargement des données est défini sur Similarité de descriptions de valeurs précodées de domaine, une feuille de calcul Correspondance sera automatiquement générée entre les domaines source et cible. Les colonnes de données source seront d’abord ajoutées, puis les colonnes de données cible correspondantes.

Feuille de calcul Structure

Utilisez ces feuilles de calcul pour afficher les informations de structure relatives aux jeux de données source et cible. Elles sont utilisées lors de la création d’un espace de travail d’appariement, mais ne le sont pas pendant le traitement. Ces feuilles de calcul sont mises en surbrillance en jaune dans le classeur.

Feuille de calcul Infos

Utilisez cette feuille de calcul pour définir éventuellement la valeur de sous-type source. La feuille de calcul est mise en surbrillance en orange dans le classeur.

Options d’appariement des données

Il existe de nombreuses options permettant d’apparier les données dans les classeurs d’appariement des données. Les colonnes Lookup ou Expression peuvent être utilisées, mais une seule méthode peut être utilisée par champ cible. Passez en revue toutes les options pour déterminer la mieux adaptée au processus de chargement des données. Les options décrites ci-dessous sont configurées dans la feuille de calcul d’appariement.

Expression

La colonne Expression peut être utilisée pour apparier directement des champs à des types de données compatibles. Certains champs source et cible sont automatiquement appariés s’ils portent le même nom. Passez en revue les champs appariés automatiquement pour vérifier que les types de données source et cible correspondent et que les valeurs sont équivalentes, en cas de présence de domaines codés.

La colonne Expression peut également être personnalisée pour utiliser une expression Python écrite directement dans Excel ou pour appeler une fonction dans le dossier Scripts. Voici les scénarios dans lesquels il s’agit de la meilleure option :

  • Conversion d’une valeur de champ en type de données différent
  • Appariement de toutes les valeurs source à une valeur cible
  • Création d’un identifiant unique global (GUID)
  • Manipulation de formes en vue d’une conversion entre types de géométrie