Extraire les emplacements des documents et du texte

En tant que partie intégrante de l’extension ArcGIS LocateXT, la fenêtre ArcGIS AllSource Extract Locations (Extraire les emplacements) permet d’analyser des documents et du texte en vue de rechercher des coordonnées spatiales et des emplacements personnalisés. Ouvrez la carte à laquelle vous voulez ajouter les emplacements détectés. Les points représentant les emplacements sont stockés dans une classe d’entités et sont ajoutés sous forme d’une couche dans la carte active.

Ouvrir la fenêtre Extraire les emplacements

Une carte doit être active dans ArcGIS AllSource pour ouvrir la fenêtre Extract Locations (Extraire les emplacements).

  1. Créez ou ouvrez une carte. Par exemple, sous l’onglet Map (Carte), dans le groupe Insert (Insérer), cliquez sur New Map (Nouvelle carte).
  2. Sur l’onglet Data (Données), dans le groupe Import (Importer), cliquez sur Extract Locations (Extraire les emplacements) Extract Locations (Extraire les emplacements).

    La fenêtre Extract Locations (Extraire les emplacements) apparaît.

Extraire des emplacements

Dans la fenêtre Extract Locations (Extraire les emplacements), l’onglet Extract (Extraire) permet de spécifier les éléments suivants :

  • Les fichiers, les dossiers ou le texte à analyser pour rechercher les emplacements
  • Le nom de la couche de carte et de la classe d’entités en sortie à créer ou à mettre à jour
  • Le système de coordonnées de la classe d’entités en sortie, lorsqu’une classe est créée

Chaque fois que vous extrayez des emplacements de documents ou de textes, vous pouvez choisir s’il convient de créer une classe d’entités et d’ajouter une nouvelle couche à la carte active, de mettre à jour une couche de carte et une classe d’entités existantes ou encore de remplacer une classe d’entités existante.

Ajouter une nouvelle couche à la carte

Une classe d’entités est créée pour conserver les emplacements extraits. Une couche de carte est créée dans la carte active pour afficher le contenu de la classe d’entités.

  1. Ouvrez la fenêtre Extract Locations (Extraire les emplacements).
  2. Donnez un nom à la nouvelle couche de carte et à la nouvelle classe d’entités qui seront créées en procédant de l’une des manières suivantes :
    • Saisissez un nom pour la nouvelle couche de carte et la nouvelle classe d’entités dans la zone de texte Name (Nom). Une nouvelle classe d’entités est créée avec ce nom dans la géodatabase par défaut du projet.
    • Cliquez sur le bouton Browse (Parcourir) Parcourir, puis dans la boîte de dialogue New Feature Class (Nouvelle classe d’entités), accédez à l’emplacement où vous voulez créer une classe d’entités ou un shapefile. Saisissez un nom pour le nouvel élément dans la zone de texte Name (Nom), puis cliquez sur Save (Enregistrer).
      Attention :

      Si au lieu de saisir un nom pour la nouvelle classe d’entités, vous sélectionnez une classe d’entités existante, un message d’avertissement s’affiche dans la fenêtre Extract Locations (Extraire les emplacements). La classe d’entités existante est supprimée et une nouvelle classe d’entités portant le même nom est créée. D’autres cartes peuvent être affectées.

  3. Cliquez sur la liste déroulante Coordinate System (Système de coordonnées) ou le bouton Select coordinate system (Sélectionner un système de coordonnées) Système de coordonnées et cliquez sur le système de coordonnées à utiliser pour la classe d’entités en sortie.

    Le système de coordonnées des entités en entrée est spécifié indépendamment sur l’onglet Coordinates (Coordonnées) et dans le fichier d’emplacements personnalisés. Les emplacements trouvés sont transformés dans le système de coordonnées de la classe d’entités en sortie.

  4. Cliquez sur l’onglet Files and Folders (Fichiers et dossiers) et spécifiez les éléments à analyser pour rechercher les emplacements.
    • Faites glisser les fichiers et les dossiers depuis l’Explorateur Windows dans l’onglet.
    • Cliquez sur Browse (Parcourir), puis dans la boîte de dialogue Add Files and Folders (Ajouter des fichiers et des dossiers), accédez aux fichiers ou aux dossiers appropriés, sélectionnez-les et cliquez sur OK. Cliquez sur Add More (Ajouter plus) pour insérer les fichiers et les dossiers dans la liste.
  5. Cliquez sur l’onglet Text (Texte) et spécifiez le texte dans lequel rechercher des emplacements.
    • Copiez le texte d’un document, d’un message électronique ou d’une page web et copiez-le dans l’onglet.
    • Sélectionnez le texte à analyser dans un document, un e-mail ou une page Web et faites-le glisser dans ArcGIS AllSource et sur l’onglet.
  6. Au moins un fichier ou un dossier, ou du texte, doit être spécifié en entrée. Tous ces éléments peuvent être analysés en une seule fois, si nécessaire.
  7. Cliquez sur Extract (Extraire).

Vous pouvez annuler le traitement à tout moment. Un message s’affiche en bas de la fenêtre à la fin du traitement pour indiquer qu’il s’est bien déroulé.

La classe d’entités spécifiée est créée et les emplacements trouvés sont stockés dans la classe d’entités en tant que points. Une couche de carte référençant la classe d’entités est ajoutée à la carte active. Si aucun emplacement n’est trouvé dans les documents et le texte, la classe d’entités et la couche de carte sont vides.

Remarque :

Si vous avez choisi de remplacer une couche d’entités existante ayant été ajoutée précédemment à la carte, une nouvelle couche de carte est créée et ajoutée à la carte qui accède à la nouvelle classe d’entités.

Pour extraire les emplacements d’un autre jeu de documents ou d’un texte capturé d’un emplacement différent, cliquez sur Clear All Input (Annuler toutes les entrées) figurant en bas de l’onglet Extract (Extraire). Tous les fichiers sont retirés de la liste figurant sous l’onglet Files and Folders (Fichiers et dossiers) et tout le texte est effacé de l’onglet Text (Texte). Indiquez le nouvel ensemble à traiter.

Mettre à jour une couche existante dans la carte

Vous pouvez ajouter progressivement des emplacements dans une classe d’entités existante. Imaginons, par exemple, que vous traitez chaque semaine un nouveau jeu de rapports et ajoutez les emplacements trouvés dans ces fichiers au jeu qui existe déjà. Ou encore, imaginons qu’après avoir traité un échantillon de documents, vous êtes satisfait des résultats et souhaitez traiter des documents supplémentaires et ajouter les emplacements à la classe d’entités existante.

  1. Ouvrez la fenêtre Extract Locations (Extraire les emplacements).
  2. Cliquez sur la liste déroulante Name (Nom) et sur la couche de carte existante à mettre à jour.

    Les emplacements extraits des documents ou du texte seront ajoutés à la classe d’entités existante référencée par la couche de carte. Les contrôles utilisés pour spécifier le système de coordonnées de la classe d’entités en sortie seront désactivés.

  3. Cliquez sur l’onglet Files and Folders (Fichiers et dossiers) et spécifiez les éléments à analyser pour rechercher les emplacements.
  4. Cliquez sur l’onglet Text (Texte) et spécifiez le texte dans lequel rechercher des emplacements.
  5. Cliquez sur Extract (Extraire).

    Le volet Field Matching (Appariement de champ) apparaît dans la fenêtre Extract Locations (Extraire les emplacements).

  6. Spécifiez le champ dans la table attributaire de la couche existante où stocker les informations extraites des documents et du texte.

    Le jeu complet de champs susceptibles d’être renseignés dans la classe d’entités en sortie est décrit ci-dessous.

  7. Si aucun champ dans la classe d’entités existante ne peut stocker les informations extraites, cliquez sur Back (Retour) Précédent et sélectionnez une autre couche en sortie ou bien créez une couche.
  8. Lorsque vous êtes satisfait de l’appariement entre les champs de la couche existante et les champs d’information extraits des documents et du texte, cliquez sur OK.

Vous pouvez annuler le traitement à tout moment. Un message s’affiche en bas de la fenêtre à la fin du traitement pour indiquer qu’il s’est bien déroulé.

Si des emplacements sont trouvés au cours de l’analyse des documents et du texte, ces emplacements sont ajoutés à la classe d’entités spécifiée. La couche de carte existante et sa table attributaire sont mises à jour pour prendre en compte des nouveaux emplacements.

Examiner les emplacements extraits

Une fois que les documents et le texte ont été analysés et que la classe d’entités en sortie a été créée, la couche de carte en sortie est ajoutée à la carte et sélectionnée dans la fenêtre Contents (Contenu). Cliquez sur un emplacement trouvé pour en savoir plus à son sujet. La fenêtre contextuelle montre l’emplacement qui a été extrait, le document duquel il provient et les informations extraites du document qui se trouvent à proximité de l’emplacement et servent de contexte. Ouvrez la table attributaire de la couche pour comparer tous les emplacements trouvés. Lors de l’évaluation des données, vous pouvez supprimer des emplacements qui sortent de votre périmètre de recherche actuel ou exporter un sous-ensemble d’emplacements qui vous intéressent au premier chef.

La fenêtre Extract Locations (Extraire les emplacements) utilise différents paramètres par défaut pour reconnaître les emplacements les plus courants. Lorsque vous appréhendez mieux les emplacements présents dans les données, vous pouvez ajuster ces paramètres dans l’onglet Properties (Propriétés) pour extraire des emplacements supplémentaires ou des informations plus ciblées dans les champs en sortie.

En savoir plus sur les paramètres utilisés pour extraire les emplacements et les attributs

Définitions des champs en sortie

Lorsqu’une classe d’entités en sortie est créée afin de stocker les emplacements extraits, la classe d’entités comportera les champs par défaut et tout autre champ défini par un fichier d’attributs personnalisés :

En savoir plus sur les fichiers d’attributs personnalisés

Nom du champAlias du champType de donnéesDescription

Name

Nom

Texte : 50 caractères, par défaut

Nom du fichier qui a été traité ou Text indiquant que du texte a été traité. La taille du texte est contrôlée par les paramètres figurant sous l’onglet Output (Sortie).

Pre_Text

Avant le texte

Texte—254 caractères, par défaut

Extrait du fichier ou du texte précédant l’emplacement qui a été trouvé. La taille du texte est contrôlée par les paramètres figurant sous l’onglet Output (Sortie).

Ext_Text

Texte extrait

Texte : 120 caractères, par défaut

Emplacement qui a été trouvé comme s’il se trouvait dans le fichier ou le texte. Par exemple, 52.825°N, 169.944°W pour des coordonnées spatiales ou LAX pour un emplacement personnalisé associant un code d’aéroport à des coordonnées spatiales. La taille du texte est contrôlée par les paramètres figurant sous l’onglet Output (Sortie).

Ext_Type

Type extrait

Texte : 50 caractères, par défaut

Type d’emplacement trouvé, par exemple, des coordonnées en degrés décimaux (DD). Lorsqu’un emplacement personnalisé est trouvé, l’emplacement défini dans le fichier d’emplacements personnalisés apparié est enregistré. La taille du texte est contrôlée par les paramètres figurant sous l’onglet Output (Sortie).

Post_Text

Après le texte

Texte—254 caractères, par défaut

Extrait du fichier ou du texte suivant l’emplacement qui a été trouvé. La taille du texte est contrôlée par les paramètres figurant sous l’onglet Output (Sortie).

Precision

Précision (m)

Long

Pour les coordonnées spatiales, niveau de précision du sol sur lequel l’emplacement se trouve exactement (exprimé en mètre). Par exemple, des coordonnées en degrés décimaux comportant un grand nombre de chiffres après la virgule sont plus exactes et indiquent une distance plus petite.

Pour les emplacements personnalisés, nombre de lettres qui ne correspondaient pas lors de la comparaison entre le texte d’origine et l’emplacement apparié. Si l’appariement flou est désactivé, un appariement exact s’impose et la valeur est égale à 0. S’il est activé et que l’emplacement mal orthographié Redalnds est apparié à Redlands, la valeur est égale à 2.

Std_Coord

Standards Coordonnées

Texte—30 caractères

Version normalisée de l’emplacement extrait. Par exemple : 52.825000N 169.944000W. Le format de ces coordonnées est contrôlé par les paramètres figurant sous l’onglet Output (Sortie).

First_Date

Première date

Date

Première date trouvée dans le fichier ou le texte, si des dates sont extraites. Dans les autres cas, le champ contient des valeurs nulles. Les dates sont seulement extraites si elles sont comprises dans la plage spécifiée dans l’onglet Output (Sortie), si la date n’est pas configurée pour être ignorée et si la limite du nombre de dates extraites n’est pas atteinte.

Early_Date

Date la plus ancienne

Date

Date la plus ancienne trouvée dans le fichier ou le texte, si des dates sont extraites. Dans les autres cas, le champ contient des valeurs nulles. Les dates sont seulement extraites si elles sont comprises dans la plage spécifiée dans l’onglet Output (Sortie), si la date n’est pas configurée pour être ignorée et si la limite du nombre de dates extraites n’est pas atteinte.

Late_Date

Date la plus récente

Date

Date la plus récente trouvée dans le fichier ou le texte, si des dates sont extraites. Dans les autres cas, le champ contient des valeurs nulles. Les dates sont seulement extraites si elles sont comprises dans la plage spécifiée dans l’onglet Output (Sortie), si la date n’est pas configurée pour être ignorée et si la limite du nombre de dates extraites n’est pas atteinte.

All_Dates

Toutes les dates

Texte—254 caractères, par défaut

Liste de dates séparées par une virgule, trouvées dans le texte, si des dates sont extraites. Dans les autres cas, le champ contient des valeurs nulles. Toutes les dates sont normalisées au format aaaa-mm-jj. Les dates sont seulement extraites si elles sont comprises dans la plage spécifiée dans l’onglet Output (Sortie), si la date n’est pas configurée pour être ignorée et si la limite du nombre de dates extraites n’est pas atteinte. Si la liste de dates séparées par une virgule est trop longue pour la taille de ce champ, la liste est tronquée. La taille du texte est contrôlée par les paramètres figurant sous l’onglet Output (Sortie).

ExDateText

Date extraite d’un texte

Texte—254 caractères, par défaut

Les dates trouvées, telles qu’elles ont été trouvées dans le fichier ou le texte. Par exemple : 18 août 2019 ou 2/3/2020. Si la liste de dates séparées par une virgule est trop longue pour la taille de ce champ, la liste est tronquée. La taille du texte est contrôlée par les paramètres figurant sous l’onglet Output (Sortie).

Filename

Nom de fichier

Texte—254 caractères, par défaut

Chemin d’accès complet au fichier traité ou valeur nulle si du texte a été traité. Vous pouvez choisir les fichiers à traiter ou à ignorer. La taille du texte est contrôlée par les paramètres figurant sous l’onglet Output (Sortie).

File_Type

Type de fichier

Texte : 10 caractères, par défaut

Format du fichier traité ou valeur nulle si du texte a été traité. Vous pouvez choisir de traiter certains types de fichier particuliers. La taille du texte est contrôlée par les paramètres figurant sous l’onglet Output (Sortie).

Modified

Modifié (UTC)

Texte—20 caractères

Date et heure auxquelles le fichier a été modifié en dernier, au format aaaa-mm-jj hh:mm:ss.

Scanned

Analysé (UTC)

Texte—20 caractères

Date et heure auxquelles le fichier a été traité, au format aaaa-mm-jj hh:mm:ss.

Evaluer les résultats

La première fois que vous analysez un document, il arrive que vous n’obteniez pas les emplacements que vous escomptiez. Deux fichiers journaux peuvent être créés en plus de la couche de carte en sortie et de la classe d’entités : un journal d’analyse et un journal de coordonnées non valides. Si vous avez fourni un document en entrée et que vous connaissez son contenu et si le nombre d’emplacements créés dans la classe d’entités en sortie ne correspond pas au nombre prévu, les fichiers journaux peuvent vous aider à évaluer les résultats.

Après l’analyse des documents et du texte et la création de la classe d’entités en sortie, un message apparaît en bas de la fenêtre Extract Locations (Extraire les emplacements) pour signaler que le processus s’est déroulé correctement. Le message inclut des liens renvoyant aux fichiers journaux qui sont provisoires. Pour les conserver afin de les consulter ultérieurement, ouvrez les fichiers et enregistrez-les dans un emplacement permanent tel que le dossier d’accueil du projet. Ajoutez, par exemple, le nom de la couche de carte ou la classe d’entités à laquelle le fichier journal est associé.

Journal d’analyse

Cliquez sur le lien View scan log (Afficher le journal d’analyse) dans le message figurant en bas de la fenêtre Extract Locations (Extraire les emplacements) pour ouvrir le fichier journal d’analyse. Pour chaque document analysé, le journal indique les informations suivantes :

  • Le nom de fichier du document et son emplacement sur l’ordinateur local ou le réseau
  • Un message indiquant qu’un problème a eu lieu pendant l’analyse du document, le cas échéant
  • Le nombre d’emplacements potentiels trouvés
  • Le nombre de dates uniques trouvées

Un emplacement potentiel désigne le texte trouvé dans le contenu du document qui ressemble à des coordonnées spatiales ou un emplacement personnalisé. Lorsque du texte est fourni en entrée, aucun nom de fichier et aucun emplacement ne sont indiqués dans le journal d’analyse, mais le reste des informations du fichier journal est identique.

Si vous attendiez l’extraction de neuf emplacements, mais que six seulement ont été créés en sortie, par exemple, vous trouverez des explications dans le journal d’analyse. Le journal peut indiquer que seulement six emplacements ont été trouvés pour les paramètres actuels figurant dans la fenêtre Extract Locations (Extraire les emplacements). Le journal peut également indiquer que plus de dates que prévu ont été trouvées, ce qui indique que des coordonnées ont été interprétées comme une date. Ajustez les paramètres avant de tenter d’extraire de nouveau les emplacements du document.

Journal de coordonnées non valides

Un journal de coordonnées non valide est créé si l’analyse a évalué un emplacement potentiel et l’a jugé non valide. Cliquez sur View bad coordinates log (Afficher le journal des coordonnées erronées) pour l’ouvrir.

Le journal des coordonnées non valides indique les éléments suivants :

  • Le document dans lequel l’emplacement a été trouvé
  • Le texte d’origine qui a été déterminé comme un emplacement potentiel
  • Le format de coordonnées utilisé pour évaluer l’emplacement

Si, par exemple, des coordonnées de latitude et de longitude ont été trouvées mais que la latitude des coordonnées est supérieure à 90 degrés, les coordonnées sont considérées non valides. Il arrive que les emplacements potentiels dans le document soient évalués à l’aide d’un format de coordonnées différent de celui prévu. Ajustez les paramètres avant de tenter d’extraire de nouveau les emplacements du document.

Si le journal de coordonnées non valides ne vous est d’aucune aide, vous pouvez décocher la case Log invalid coordinates (Consigner les coordonnées non valides) sous l’onglet Coordinates (Coordonnées) afin que les coordonnées non valides ne soient pas consignées pour les formats de coordonnées spatiales que vous utilisez.