Ajuster la façon dont les emplacements et les attributs sont extraits—ArcGIS AllSource

Disponible avec une licence LocateXT.

Après l’analyse d’un ensemble de documents ou d’un texte et l’évaluation des résultats, il se peut que vous vouliez ajuster les éléments extraits et la façon dont le contenu est évalué. Si vous possédez un grand éventail de documents aux formats divers, votre approche sera différente de celle adoptée lorsque vous possédez plusieurs ensembles de documents de format connu contenant des informations semi-structurées.

La fenêtre Extract Locations (Extraire les emplacements) utilise différents paramètres par défaut conçus pour reconnaître les emplacements les plus courants et prendre en charge l’extraction des dates récentes. Lorsque vous avez acquis une meilleure compréhension du contenu de vos documents ou de votre texte, vous pouvez ajuster ces paramètres et optimiser les informations qui sont extraites. Ces paramètres sont ajustés sur l’onglet Properties (Propriétés).

L’ensemble des paramètres par défaut est associé au modèle Default Unstructured Data (Données non structurées par défaut). Lorsque vous avez déterminé les paramètres les plus adaptés à un ensemble de documents ou un format de texte particulier, vous pouvez les enregistrer dans un modèle personnalisé. Appliquez ce modèle lorsque vous recevez un nouveau lot de documents issu de l’ensemble ou un texte similaire.

En savoir plus sur les modèles en vue de l’extraction des emplacements

Options

Par défaut, lorsque vous cliquez sur l’onglet Properties (Propriétés), l’onglet Options Options est sélectionné. Il permet d’activer ou de désactiver les boutons à bascule associés aux catégories d’information extraites des documents ou du texte en entrée et la manière dont ces informations sont traitées. Il permet également de spécifier le symbole qui sera utilisé par la couche de carte en sortie.

Extraire des emplacements
- Coordinates (Coordonnées) : ce bouton à bascule est activé par défaut. Lorsque des documents sont analysés, ils sont examinés en termes de coordonnées spatiales. Un point est créé dans la classe d’entités en sortie pour représenter chaque emplacement trouvé.
- Custom locations (Emplacements personnalisés) : ce bouton à bascule est activé par défaut. Lorsque des documents sont analysés, ils sont examinés afin de rechercher les noms des lieux spécifiés dans le fichier d’emplacements personnalisés. Les fichiers d’emplacements personnalisés associent un nom de lieu à une paire de coordonnées spatiales. Un point est créé dans la classe d’entités en sortie pour représenter chaque emplacement trouvé.
- Fuzzy match (Appariement flou) : ce bouton à bascule est activé par défaut. Lorsque vous recherchez des emplacements personnalisés, un appariement flou permet de comparer le contenu des documents en entrée aux emplacements personnalisés pour tenir compte des fautes d’orthographe, par exemple.
Extraire les attributs
- Dates : ce bouton à bascule est activé par défaut. Lorsque des documents sont analysés, ils sont examinés en termes de dates récentes. Les dates trouvées sont extraites et stockées dans les champs de la table attributaire de la classe d’entités en sortie.
- Custom attributes (attributs personnalisés) : ce bouton à bascule est activé par défaut. Lorsque des documents sont analysés, ils sont examinés en vue de rechercher les mots-clés spécifiés dans le fichier d’attributs personnalisés. Le fichier d’attributs personnalisés détermine les mots-clés que vous recherchez et le texte qui est extrait lorsque les mots-clés sont détectés ; il définit également un champ personnalisé qui est créé dans la table attributaire de la classe d’entités en sortie pour conserver le contenu extrait.
Contrôler la recherche
- Require word breaks (Demander des césures de mots) : ce bouton de bascule est activé par défaut. Lorsque des documents sont analysés, une recherche est effectuée sur les mots liés au texte par un espace ou des caractères de ponctuation, comme dans les langues européennes. Ce paramètre affecte le mode d’identification des mots lors de la recherche d’emplacements et d’attributs personnalisés dans un document. Il détermine également le mode d’identification des coordonnées et des dates, par exemple lorsqu’un texte susceptible de représenter des coordonnées ou une date est entouré par d’autres caractères.
Symbology (Symbologie) : le symbole par défaut est un cercle rouge uni. Lorsque la couche de carte en sortie est créée, les points figurant dans la classe d’entités en sortie s’affichent à l’aide du symbole spécifié.

Des boutons fléchés Jump To Option (Passer à Option) se trouvent à côté de certains boutons à bascule. Le bouton fléché permet d’accéder à un autre onglet dans la fenêtre Extract Locations (Extraire les emplacements) dans lequel vous pouvez personnaliser la façon dont les coordonnées, les emplacements personnalisés, les dates ou les attributs personnalisés sont évalués et extraits.

Les options suivantes sont également disponibles dans la fenêtre Extract Locations (Extraire les emplacements) et permettent de personnaliser les fichiers à traiter, le contenu à extraire et la sortie à créer. Toutefois, ces options ne sont pas représentées par des boutons à bascule sous l’onglet Options.

Scan files (Analyser les fichiers) : permet de contrôler les fichiers qui sont analysés.
Output (Sortie) : permet de contrôler le nombre d’entités et de dates évaluées, ainsi que le contenu inclus dans la table attributaire de la classe d’entités en sortie.

Coordonnées

L’onglet Coordinates (Coordonnées) détermine les formats de coordonnées qui seront pris en compte au moment de l’analyse des documents en entrée. Des paires de nombres et de combinaisons alphanumériques sont examinées pour voir si elles correspondent aux formats de coordonnées activés. Les coordonnées spatiales candidates sont examinées par rapport à tous les formats activés :

X Y formats (Formats X Y) : coordonnées spécifiées sous la forme de valeurs x,y.
DD formats (Formats DD) : format degrés décimaux
DM formats (Formats DM) : format degrés minutes décimales
DMS formats (Formats DMS) : format degrés minutes et secondes
UTM formats (Formats UTM) : format Universal Transverse Mercator
MGRS formats (Formats MGRS) : format du système de référence de carroyage militaire

Un emplacement est créé dans la classe d’entités en sortie pour représenter le premier appariement de format de coordonnées qui est trouvé.

Chaque format de coordonnées est associé à un ensemble différent d’options activées ou désactivées par défaut afin de fournir un ensemble raisonnable d’emplacements en sortie. Certaines options produisent des emplacements en sortie si les documents en entrée contiennent des paires de nombres et de combinaisons alphanumériques ressemblant à des coordonnées spatiales sans décrire un emplacement au sol ; il s’agit de faux positifs. Les options désactivées par défaut sont plus susceptibles de produire des faux positifs. Toutefois, si vous savez que vos documents contiennent des emplacements dans ces formats, ces options doivent être activées. Lorsqu’un plus petit nombre de formats de coordonnées est activé, les documents sont analysés en moins de temps.

Il est possible de personnaliser les formats de coordonnées pris en charge pour s’adapter à un ensemble de documents. Ainsi, les documents peuvent être écrits dans des langues différentes ou contenir des coordonnées spatiales rédigées avec une notation non standard. Les formats de coordonnées pris en charge sont décrits ci-dessous de manière plus détaillée, ainsi que la procédure de personnalisation de l’évaluation des coordonnées.

L’onglet Coordinates (Coordonnées) permet de spécifier le système de coordonnées auquel les coordonnées spatiales sont associées. Par défaut, les coordonnées trouvées dans les documents sont gérées comme si elles étaient définies selon le système de coordonnées GCS_WGS_1984. Si vous savez que les coordonnées ont été collectées selon un autre système de coordonnées, cliquez le bouton Select coordinate system (Sélectionner un système de coordonnées) et sur le système de coordonnées approprié.

Toutes les coordonnées spatiales dans les documents en entrée sont traitées jusqu’à la fin du document ou lorsque la limite du nombre d’emplacements qu’il est possible d’extraire est atteinte.

En savoir plus sur la limitation du nombre d’entités à extraire

Accéder à l’onglet Coordinates (Coordonnées)

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Accédez à l’onglet Coordinates (Coordonnées).
- Cliquez sur l’onglet Options et sur la flèche figurant à côté du bouton à bascule Coordinates (Coordonnées).
- Cliquez sur l’onglet Extract Locations (Extraire les emplacements) , puis sur l’onglet Coordinates (Coordonnées).

Activer ou désactiver le bouton à bascule des coordonnées

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Activez ou désactivez le bouton à bascule des coordonnées.
- Cliquez sur l’onglet Options , puis sur le bouton à bascule Coordinates (Coordonnées).
- Cliquez sur l’onglet Extract locations (Extraire les emplacements) , sur l’onglet Coordinates (Coordonnées) et sur le bouton à bascule Create features from coordinates (Créer des entités à partir de coordonnées).

Formats X Y

Les coordonnées spatiales candidates sont comparées aux formats de coordonnées suivants si ces derniers sont activés. Lorsqu’un candidat correspond à l’un de ces formats, un emplacement est créé dans la classe d’entités en sortie. Le format des coordonnées d’origine est spécifié sous la forme x,y dans la classe d’entités en sortie.

Par défaut, les formats de coordonnées x,y dans leur ensemble ne sont pas activés. Ces formats représentent les coordonnées sous forme de paires de nombres indiquant une mesure dans les unités du système de coordonnées spécifié. Ils peuvent produire des emplacements qui constituent des faux positifs étant donné qu’ils s’apparentent à des séquences de nombres ou des mesures sans relation spatiale. En outre, lorsqu’un texte correspond à ces formats de coordonnées, les emplacements générés sont incorrects s’ils sont associés au mauvais système de coordonnées.

X Y with unit text (X Y avec texte d’unité) : un texte alphanumérique est reconnu comme un emplacement s’il possède la structure suivante : 71.2071779dd 46.8075410dd ou 630084m 4833438m. Les unités sont définies pour correspondre au système de coordonnées des documents en entrée, mais il est possible de les modifier pour reconnaître d’autres unités ou des notations supplémentaires de ces mêmes unités qui existeraient dans vos documents. Il est improbable que ces formats produisent des emplacements qui constitueraient des faux positifs si le système de coordonnées est correct pour les coordonnées détectées. Cette propriété est activée par défaut.
X Y without unit text (X Y sans texte d’unité) : le texte alphanumérique est reconnu comme un emplacement s’il possède la structure suivante : 630084 4833438 ou 235407.742 900560.004. Ce format de coordonnées et le format de coordonnées en degrés décimaux X Y with no symbols (X Y sans symbole) vérifient tous deux les paires de nombres ; ces deux formats pourraient trouver une correspondance pour la même paire de coordonnées x,y. Un avertissement apparaît indiquant la présence d’un conflit lorsque ces deux formats sont activés. Si ces deux formats sont activés et qu’ils trouvent tous les deux une correspondance, le résultat en degrés décimaux est utilisé comme emplacement en sortie. Il est moins probable que ces deux formats entraînent un conflit lorsqu’un système de coordonnées projetées est spécifié. Cette propriété est activée par défaut.

Lorsque le paramètre Log invalid coordinates (Consigner les coordonnées non valides) est coché, toute coordonnée spatiale candidate possédant des valeurs non valides ou ne correspondant pas au système de coordonnées défini est enregistrée comme non valide dans un fichier journal. Vous pouvez examiner ce fichier journal à l’issue du processus. Les coordonnées non valides sont enregistrées par défaut.

Définir les unités des coordonnées

Vous pouvez modifier les unités associées aux formats x,y pour produire des emplacements exacts en fonction des informations contenues dans les documents en entrée.

Accédez à l’onglet Coordinates (Coordonnées).
Activez les coordonnées.
Cliquez sur la liste déroulante Coordinate System (Système de coordonnées) ou sur le bouton Select coordinate system (Sélectionner un système de coordonnées) et sélectionnez le système de coordonnées associé aux coordonnées spatiales figurant dans les documents en entrée. Indiquez, par exemple, un système de coordonnées projetées.
Cochez l’option X Y formats (Formats X Y).
Cliquez pour développer les options associées au format X Y with unit text (X Y avec texte d’unité).
Les unités sont définies par défaut pour correspondre aux unités du système de coordonnées. Ainsi, les unités d’un système de coordonnées basé sur les unités US Feet (Pieds américains) sont définies sur ftUS.
Cliquez sur le bouton Set Units (Définir les unités) pour modifier les notations reconnues en tant qu’unités dans les documents.
La boîte de dialogue Allowed Units (Unités autorisées) apparaît.
Cliquez sur le bouton Add From List (Ajouter depuis la liste) pour ajouter une unité de mesure prédéfinie bien connue à la liste, le cas échéant.
Ajoutez une unité personnalisée à la liste, le cas échéant.
1. Dans la nouvelle ligne en bas de la table, cliquez sur la colonne Unit Text (Texte d’unité) et saisissez les caractères qui devraient être reconnus comme représentation de cette unité de mesure. Vous pouvez, par exemple, saisir ft (US) pour faire reconnaître cette indication supplémentaire des unités ftUS.
2. Spécifiez la distance en mètres associée à cette unité de mesure.
3. Cliquez sur OK.
Cliquez pour développer les options associées au format X Y without unit text (X Y sans texte d’unité).
Cliquez sur le bouton Set Units (Définir les unités) pour modifier les unités associées à n’importe quelle paire de coordonnées trouvée dans les documents.
La boîte de dialogue Default Units (Unités par défaut) apparaît.
Cliquez sur la liste déroulante Unit Name (Nom d’unité) et sélectionnez l’une des unités reconnues internationalement définies dans la liste ou saisissez le nom d’une autre unité de mesure de distance qui ne figure pas dans la liste.
Lorsque vous sélectionnez une unité dans la liste, la distance en mètres associée à l’unité de mesure sélectionnée apparaît dans la zone de texte Meters/Unit (Mètres/Unité).
Si vous avez indiqué le nom d’une unité de mesure personnalisée dans la zone de texte Unit Name (Nom d’unité), saisissez le nombre de mètres qu’elle représente dans la zone de texte Meters/Unit (Mètres/Unité).
Cliquez sur OK.

Formats DD

Les coordonnées spatiales candidates sont comparées aux formats de coordonnées suivants si ces derniers sont activés. Lorsqu’un candidat correspond à l’un de ces formats, un emplacement est créé dans la classe d’entités en sortie. Le format de la coordonnée d’origine est spécifié en degrés décimaux dans la classe d’entités en sortie.

Latitude and longitude (Latitude et longitude) : un texte alphanumérique est reconnu comme emplacement lorsqu’il possède la structure suivante : 38.8N 77.035W ou W77N38.88909. Il est improbable que ces formats produisent des emplacements qui constitueraient des faux positifs. Cette propriété est activée par défaut.
X Y with degree symbols (X Y avec symboles de degrés) : un texte alphanumérique est reconnu comme emplacement s’il possède la structure suivante : 38.8° -77.035° ou -077d+38.88909d. Il est improbable que ces formats produisent des emplacements qui constitueraient des faux positifs. Cette propriété est activée par défaut.
X Y with no symbols (X Y sans symbole) : un texte alphanumérique est reconnu comme emplacement lorsqu’il possède la structure suivante : 38.8 -77.035 ou -077.0, +38.88909. Il est probable que ces formats produisent des emplacements qui constituent des faux positifs étant donné qu’ils s’apparentent à des séquences de nombres sans relation spatiale. Ces formats peuvent également ressembler à des nombres qui définissent un emplacement spatial dans un système de coordonnées projetées ; un avertissement indique alors la présence d’un conflit lorsque ce format et l’option X Y without unit text (X Y sans texte d’unité) sont tous deux activés. Cette propriété est activée par défaut.

Lorsque Log invalid coordinates (Consigner les coordonnées non valides) est coché, toute coordonnée spatiale candidate ne correspondant pas à l’un des formats sélectionnés est enregistrée comme non valide dans un fichier journal. Vous pouvez examiner ce fichier journal à l’issue du processus. Les coordonnées non valides sont enregistrées par défaut.

Formats DM

Les coordonnées spatiales candidates sont comparées aux formats de coordonnées suivants si ces derniers sont activés. Lorsqu’un candidat correspond à l’un de ces formats, un emplacement est créé dans la classe d’entités en sortie. Le format de la coordonnée d’origine est spécifié en degrés minutes décimales dans la classe d’entités en sortie.

Latitude and longitude (Latitude et longitude) : un texte alphanumérique est reconnu comme emplacement lorsqu’il possède la structure suivante : 3853.3N 7702.100W ou W7702N3853.3458. Il est improbable que ces formats produisent des emplacements qui constitueraient des faux positifs. Cette propriété est activée par défaut.
X Y with minutes symbols (X Y avec symboles de minutes) : un texte alphanumérique est reconnu comme emplacement lorsqu’il possède la structure suivante : 3853' -7702.1' ou -07702m+3853.3458m. Il est improbable que ces formats produisent des emplacements qui constitueraient des faux positifs. Cette propriété est activée par défaut.

Formats DMS

Les coordonnées spatiales candidates sont comparées aux formats de coordonnées suivants si ces derniers sont activés. Lorsqu’un candidat correspond à l’un de ces formats, un emplacement est créé dans la classe d’entités en sortie. Le format de la coordonnée d’origine est spécifié en degrés, minutes et secondes dans la classe d’entités en sortie.

Latitude and longitude (Latitude et longitude) : un texte alphanumérique est reconnu comme emplacement lorsqu’il possède la structure suivante : 385320.7N 770206.000W ou W770206N385320.76. Il est improbable que ces formats produisent des emplacements qui constitueraient des faux positifs. Cette propriété est activée par défaut.
X Y with seconds symbols (X Y avec symboles de secondes) : un texte alphanumérique est reconnu comme emplacement s’il possède la structure suivante : 385320" -770206.0" ou -0770206.0s+355320.76s. Il est improbable que ces formats produisent des emplacements qui constitueraient des faux positifs. Cette propriété est activée par défaut.
X Y with separators (X Y avec séparateurs) : un texte alphanumérique est reconnu comme emplacement s’il possède la structure suivante : 38:53:20 -77:2:6.0 ou -077/02/06/, +38/53/20.76. Ces formats aboutissent parfois à des emplacements constituant des faux positifs étant donné qu’ils ont l’apparence d’autres types de nombres mis en forme comme des dates ou des heures. Cette propriété est activée par défaut.

Formats UTM

Les coordonnées spatiales candidates sont comparées aux formats de coordonnées suivants si ces derniers sont activés. Lorsqu’un candidat correspond à l’un de ces formats, un emplacement est créé dans la classe d’entités en sortie. Le format de la coordonnée d’origine est spécifié au format Universal Transverse Mercator transverse dans la classe d’entités en sortie.

Universal Transverse Mercator : un texte alphanumérique est reconnu comme emplacement s’il possède la structure suivante : 18S 323503 4306438 ou 18 north 323503.25 4306438.39. Il est improbable que ces formats produisent des emplacements qui constitueraient des faux positifs. Cette propriété est activée par défaut.
UPS north polar (UPS Polaire Nord) : un texte alphanumérique est reconnu comme emplacement s’il possède la structure suivante : Y 2722399 2000000 ou north 2711399 2000000. Ces formats produisent rarement des emplacements qui s’avèrent être des faux positifs, mais il est courant de retrouver ces coordonnées dans des documents standard. Cette option n’est pas activée par défaut.
UPS south polar (UPS Polaire Sud) : un texte alphanumérique est reconnu comme emplacement s’il possède la structure suivante : A 2000000 3168892 ou south 2000000 3168892. Ces formats produisent rarement des emplacements qui s’avèrent être des faux positifs, mais il est courant de retrouver ces coordonnées dans des documents standard. Cette option n’est pas activée par défaut.

Formats MGRS

Les coordonnées spatiales candidates sont comparées aux formats de coordonnées suivants si ces derniers sont activés. Lorsqu’un candidat correspond à l’un de ces formats, un emplacement est créé dans la classe d’entités en sortie. Le format de la coordonnée d’origine est spécifié dans le système de référence de carroyage militaire, dans la classe d’entités en sortie.

Military Grid Reference System : un texte alphanumérique est reconnu comme emplacement s’il possède la structure suivante : 18S UJ 13503 06438 ou 18SUJ0306. Il est improbable que ces formats produisent des emplacements qui constitueraient des faux positifs. Cette propriété est activée par défaut.
North polar (Polaire Nord) : un texte alphanumérique est reconnu comme emplacement s’il possède la structure suivante : Y TG 56814 69009 ou YTG5669. Ces formats produisent rarement des emplacements qui s’avèrent être des faux positifs, mais il est courant de retrouver ces coordonnées dans des documents standard. Cette option n’est pas activée par défaut.
South polar (Polaire Sud) : un texte alphanumérique est reconnu comme emplacement s’il possède la structure suivante : A TN 56814 30991 ou ATN5630. Ces formats aboutissent parfois à des emplacements constituant des faux positifs étant donné qu’ils ont l’apparence de nombres ordinaires. Cette option n’est pas activée par défaut.

Personnaliser le mode de reconnaissance des coordonnées spatiales

Les documents que vous utilisez sont susceptibles de contenir des coordonnées spatiales qui ne peuvent pas être détectées avec les paramètre de format de coordonnées standard. Ainsi, l’auteur des documents peut ne pas avoir suivi de formation sur les SIG et avoir écrit les coordonnées spatiales de manière non standard. Il est, par exemple, courant d’ajouter du texte supplémentaire entre les valeurs de latitude et de longitude. Ainsi, dans le texte +45.56° and -69.66°, le mot supplémentaire and empêche la reconnaissance du texte en tant que coordonnées spatiales.

De même, si les documents que vous analysez ont été écrits dans plusieurs langues, le texte est par défaut reconnu en tant que coordonnées spatiales uniquement dans le cas de documents en anglais, ou lorsque les notations de direction utilisent des termes ou des abréviations en anglais. Par exemple, si le texte du document est en français et qu’une direction est représentée dans les coordonnées spatiales par la lettre O pour Ouest (60.91°N, 147.34°O) et non par la lettre W pour l’anglais West, le texte n’est pas reconnu en tant que coordonnées spatiales. Il est possible de personnaliser les formats des coordonnées de sorte que les formats employés dans d’autres langues en plus ou à la place de l’anglais soient reconnus, selon le mode de traitement des documents.

Vous pouvez personnaliser le mode de reconnaissance des coordonnées spatiales dans les documents via la boîte de dialogue Customize (Personnaliser). Des paramètres par défaut sont fournis pour certaines langues (sélectionnez la langue de vos documents dans l’onglet Settings (Paramètres)). Dans un document en langue asiatique, les coordonnées spatiales définies à l’aide d’une combinaison de caractères asiatiques et de chiffres indo-arabes pleine largeur tels que 北緯５１．５０°、西経１７５．６３° ne sont pour l’instant pas reconnus comme coordonnée spatiale.

Accédez à l’onglet Coordinates (Coordonnées).
Activez les coordonnées.
Cliquez sur le bouton Customize (Personnaliser) situé en haut de la liste des formats de coordonnées spatiales.
Si les documents ont été écrits dans une autre langue et que des paramètres sont disponibles pour cette langue dans l’onglet Settings (Paramètres) de la boîte de dialogue Customize (Personnaliser), cliquez sur la langue figurant dans la liste.
Ajoutez les paramètres de la langue sélectionnée dans la boîte de dialogue Customize (Personnaliser).
- Cliquez sur Replace Settings (Remplacer les paramètres) pour analyser les documents uniquement avec les paramètres associés à la langue sélectionnée. Si la langue en cours est l’anglais et que la langue sélectionnée est le français, lorsque vous remplacez les paramètres English (Anglais) dans la boîte de dialogue par les paramètres French (Français), seules les coordonnées spatiales rédigées selon un format français sont reconnues dans les documents.
- Cliquez sur Merge Settings (Fusionner les paramètres) pour analyser les documents avec les paramètres de la langue en cours, ainsi que ceux de la langue supplémentaire. Si la langue en cours est l’anglais et que la langue sélectionnée est le français, et que vous fusionnez les paramètres du français avec les paramètres de la boîte de dialogue, les coordonnées spatiales écrites dans les formats anglais et français sont reconnues dans les documents.
Les coordonnées spatiales comportent de nombreux composants, plusieurs d’entre eux étant propres à un groupe de langues. Sélectionnez un onglet sous l’en-tête Coordinates (Coordonnées) associé à un composant de coordonnées spatiales, par exemple, North (Nord) ou Between Latitude/Longitude (Sélectionner la latitude/longitude).
Modifiez la liste des termes de ce composant de sorte à inclure les notations employées dans les documents analysés.
1. Cliquez sur la nouvelle ligne en bas de la grille dans la colonne Term Text (Texte de l’expression).
2. Saisissez la valeur appropriée qui apparaît dans les documents devant être reconnus en tant que composant de coordonnées spatiales. Ajoutez, par exemple, le mot mal orthographié Nor à la liste des termes sur l’onglet North (Nord) s’il est commun à un groupe de documents. Ajoutez and (et) à la liste des termes sur l’onglet Between Latitude/Longitude (Sélectionner la latitude/longitude) pour tenir compte des documents dans lesquels ce texte supplémentaire apparaît entre les valeurs de latitude et de longitude.
3. Appuyez sur la touche Entrée.
Des avertissements s’affichent si le même terme est saisi sur plusieurs onglets de la boîte de dialogue Customize (Personnaliser). Ces termes pouvant être dupliqués, cela affecte l’exactitude selon laquelle les emplacements sont reconnus dans les documents. Retirez les termes en double qui ne sont pas essentiels lors de la reconnaissance du texte en tant qu’emplacement.
1. Cliquez sur l’un des onglets concernés.
2. Cliquez sur une ligne dans la grille pour sélectionner le terme en double qui ne doit pas être utilisé.
3. Cliquez sur le bouton Remove (Retirer) pour retirer la ligne sélectionnée de la grille.
Si les termes en double sont conservés, un message d’avertissement apparaît en bas de la fenêtre Extract Locations (Extraire les emplacements) à côté du bouton Extract (Extraire).
Cliquez sur OK.

Lors de l’extraction suivante des emplacements à partir d’un ensemble de documents, les définitions personnalisées sont utilisées lors de l’évaluation du texte et permettent de déterminer si ce dernier représente une coordonnée spatiale.

Utiliser la virgule comme séparateur décimal

Par défaut, l’analyse des documents recherche des coordonnées utilisant un point (.) ou un point médian (·) comme séparateur décimal, par exemple : Lat 01° 10·80’ N Long 103° 28·60’ E. Si vous utilisez des documents dans lesquels les nombres recourent à la virgule comme séparateur décimal (par exemple, 52° 8′ 32,14″ N; 5° 24′ 56,09″ E), cochez l’option Use comma as decimal separator (Utiliser la virgule comme séparateur décimal).

Ce paramètre contrôle uniquement la manière dont le texte alphanumérique est évalué pour déterminer s’il s’agit d’une coordonnée spatiale. Ce paramètre n’a pas d’incidence sur la manière dont le texte est évalué afin de déterminer s’il représente un emplacement personnalisé ou s’il correspond à un mot-clé à stocker dans un attribut personnalisé. En d’autres termes, ce paramètre ne fournit pas de raccourci pour indiquer que le texte est écrit dans une langue européenne telle que le français où, dans les nombres, la virgule désigne souvent le séparateur décimal. Les paramètres régionaux de l’ordinateur ne sont pas utilisés pour contrôler ce paramètre.

Interpréter comme longitude, latitude

Lorsque les paires de coordonnées sont fournies sans symbole, ni indication de direction, l’emplacement spatial correct est susceptible d’être formé d’un nombre compris entre 0 et 90 et d’un autre nombre compris entre 90 et 180. Si les deux nombres sont compris entre 0 et 90, il est plus difficile de déterminer l’emplacement correct.

Du fait que le couple latitude-longitude forme une convention quasi unanime en géographie, les paires de coordonnées dans lesquelles les deux nombres figurent entre 0 et 90 sont évaluées par défaut de cette manière. Ainsi, le premier nombre est une valeur sur l’axe y et le deuxième nombre une valeur de l’axe x. Néanmoins, les paires de coordonnées sont souvent fournies sous forme de combinaisons x,y dans d’autres disciplines, comme en mathématiques.

Cochez l’option Interpret as longitude, latitude (Interpréter comme longitude, latitude) si vous préférez que ces paires de coordonnées ambiguës soient évaluées comme des combinaisons x,y dans lesquelles le premier nombre est une longitude et le deuxième nombre une latitude.

Déterminer la façon dont les coordonnées sont évaluées

Les coordonnées doivent être activées pour modifier le mode d’évaluation des coordonnées spatiales lors de l’examen des documents.

Accédez à l’onglet Coordinates (Coordonnées).
Activez les coordonnées.
Cliquez sur la liste déroulante Coordinate System (Système de coordonnées) ou sur le bouton Select coordinate system (Sélectionner un système de coordonnées) et sélectionnez le système de coordonnées associé aux coordonnées spatiales figurant dans les documents en entrée.
Cochez les formats de coordonnées que vous souhaitez utiliser pour évaluer les coordonnées spatiales candidates. Décochez les formats de coordonnées qui ne vous intéressent pas.
Indiquez les personnalisations à employer lors de l’évaluation d’un texte visant à déterminer s’il représente une coordonnée spatiale.
Cochez ou décochez les options Log invalid coordinates (Consigner les coordonnées non valides) pour utiliser les fichiers journaux afin d’évaluer les résultats.
Cochez Use comma as decimal separator (Utiliser la virgule comme séparateur décimal) si les documents en entrée incluent du contenu dans lequel les coordonnées spatiales sont spécifiées à l’aide de virgules en guise de séparateur décimal.
Cochez Interpret as longitude, latitude (Interpréter comme longitude, latitude) si les documents en entrée incluent du contenu dans lequel les coordonnées spatiales sont spécifiées sous forme de coordonnées longitude-latitude plutôt que des coordonnées latitude-longitude.

À la prochaine extraction des emplacements, ces paramètres de coordonnées seront utilisés pour évaluer les coordonnées spatiales candidates et déterminer les emplacements qui sont inclus dans la classe d’entités en sortie.

Identifier les emplacements personnalisés par un appariement flou

Lorsque les emplacements personnalisés sont activés, le contenu figurant dans les documents qui sont analysés est comparé aux noms des lieux spécifiés dans le fichier d’emplacements personnalisés. Par défaut, le contenu doit correspondre exactement à celui des noms des lieux spécifiés pour créer un emplacement dans la classe d’entités en sortie.

Lorsque l’appariement flou est activé, une correspondance approximative est utilisée pour comparer le contenu du document aux noms de lieux spécifiés. Un emplacement est créé dans la classe d’entités en sortie si le contenu en entrée correspond à 70 % des caractères formant le nom d’un lieu. Cela permet de prendre en compte certaines orthographes erronées ainsi que des variantes telles que la forme plurielle d’un mot dans le nom du lieu plutôt que la forme au singulier. Le taux de 70 % s’appuie strictement sur le décompte du nombre de lettres devant correspondre ; les algorithmes traitant la langue naturelle tels que la racinisation de la langue ne sont pas utilisés pour déterminer si un mot figurant dans un document correspond à un emplacement personnalisé.

Une bonne pratique consiste à extraire d’abord les emplacements avec l’appariement flou désactivé, puis de relancer la recherche en activant l’appariement flou de manière à trouver des noms de lieux supplémentaires. Les résultats sont ensuite comparés afin de déterminer les meilleurs résultats. Bien que dans certaines situations, ce paramètre facilite la recherche d’autres emplacements qui ne seraient pas trouvés autrement, le contenu figurant dans les documents peut également être apparié de façon erronée avec un nom de lieu. L’emplacement obtenu est alors un faux positif.

L’appariement flou est seulement utilisé pour les emplacements personnalisés. Si le bouton à bascule des emplacements personnalisés est désactivé, le fait d’activer le bouton à bascule de l’appariement flou n’a aucun effet. Cette option ne change pas la façon dont le contenu d’un document est comparé aux mots-clés spécifiés dans un fichier d’attributs personnalisés.

Activer ou désactiver le bouton à bascule d’appariement flou

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Activez ou désactivez le bouton à bascule d’appariement flou.
- Cliquez sur l’onglet Options , puis sur le bouton à bascule Fuzzy match (Appariement flou).
- Cliquez sur l’onglet Extract locations (Extraire les emplacements) , sur l’onglet Custom Locations (Emplacements personnalisés) et sur le bouton à bascule Use fuzzy matching (Utiliser l’appariement flou).

Dates

L’onglet Dates détermine les formats de date qui seront pris en compte au moment de l’analyse des documents en entrée. Les combinaisons alphanumériques sont examinées pour déterminer si elles correspondent aux formats de date activés. Les dates candidates sont comparées aux formats activés dans l’ordre spécifié ci-dessous. Il arrive parfois que des nombres ordinaires soient identifiés à tort comme formant une date ; on les appelle des faux positifs.

Il est possible de personnaliser les formats de date pris en charge en fonction d’un ensemble de documents. Ainsi, il se peut que les documents aient été écrits dans une autre langue ou qu’ils contiennent des dates utilisant une notation non standard. Les formats de date et la procédure de personnalisation de l’évaluation de ces dates sont décrits de manière détaillée ci-dessous.

Toutes les dates des documents en entrée sont traitées jusqu’à la fin du document ou jusqu’à la limite du nombre de dates qu’il est possible d’extraire.

En savoir plus sur la limitation du nombre de dates extraites

Month name used (Nom de mois utilisé) : le nom du mois est indiqué en toutes lettres ou sous forme abrégée. Exemple : January 1, 2010 ou 2 FEB 11. Dans les langues autres que l’anglais, les dates reconnues lorsque cette option est activée ne peuvent pas, au sens strict du terme, utiliser un nom de mois car les mois sont parfois identifiés par un nombre. Cependant, les dates identifiées lorsque cette option est activée sont celles qui sont rédigées de manière plus traditionnelle et qui n’utilisent pas les formats de date ISO 8601. Il est peu probable que ces formats produisent des dates constituant des faux positifs. Cette propriété est activée par défaut.
M/D/Y and D/M/Y (M/J/A et J/M/A) : le format de date indique le mois, le jour et l’année ou le jour, le mois et l’année avec des séparateurs entre les valeurs. Exemple : 10/31/2017 ou 28-2-11. Ces formats aboutissent parfois à des faux positifs. La date réelle représentée est ambiguë si le mois et le jour sont indiqués par des nombres inférieurs ou égaux à 12. Des options permettent d’indiquer la façon dont les dates ambiguës sont interprétées lorsqu’elles sont détectées. Par défaut, l’option Interpret as MDY when ambiguous (Interpréter comme MJA en cas d’ambiguïté) est sélectionnée et le texte 03/02/2012 est interprété sous comme étant la date du 2 mars 2012 ; cette option convient si vous utilisez des documents autorisés aux États-Unis, où le format de date par défaut est MM/JJ/AAAA. Si vous utilisez des documents créés dans un autre pays où le format de date par défaut est JJ/MM/AAAA, sélectionnez à la place Interpret as DMY (Interpréter comme JMA en cas d’ambiguïté) ; dans ce cas, le texte 4-12-13 est interprété comme étant la date du 4 décembre 2013. Les dates sont reconnues lorsque le mois et le jour sont des chiffres ou lorsque ces chiffres comportent des zéros de début. Ce format est activé par défaut.
YYYYMMDD (AAAAMMJJ) : le format de date est année, mois, jour. Exemple : 2015-06-03 ou 20140502. Si des séparateurs sont employés entre les différentes parties de la date, les valeurs du mois et du jour à un seul chiffre sont reconnues. Ainsi, 2015-6-3 est aussi reconnu comme étant la date du 3 juin 2015, mais 201452 n’est pas reconnu comme étant la date du 2 mai 2014. La date standardisée générée comporte des zéros de début pour le mois et le jour si la valeur d’origine n’a qu’un seul chiffre, l’année est indiquée avec quatre chiffres. Ces formats aboutissent parfois à des faux positifs. Cette propriété est activée par défaut.
YYMMDD (AAMMJJ) : le format de date est année, mois, jour. Exemple : 160722 ou 170304. Le mois et le jour comportent des zéros de début lorsque leur valeur correspond à un chiffre avec une année sous forme de deux chiffres. Il est probable que ces formats produisent des dates constituant des faux positifs. Cette propriété est activée par défaut.
YYJJJ (AADDD) : année et date du calendrier julien correspondant à un nombre représentant le jour selon sa position dans l’année sous forme d’un nombre compris entre 1 et 366 avec un zéro de début lorsque le jour est un nombre à un ou deux chiffres. Par exemple, 18001 ou 19365. Le format AAAAJJJ est également pris en charge lorsque l’année est complète ; par exemple, 2020060 représente la date du 29 février 2020. Il est probable que ces formats produisent des dates constituant des faux positifs. Cette propriété est activée par défaut.

Le premier appariement qui est trouvé est extrait et stocké dans la table attributaire de la classe d’entités en sortie dans la colonne First Date (Première date) si la date figure dans la plage de dates en cours d’évaluation. De même, la date la plus ancienne trouvée est stockée dans la colonne Earliest Date (Date la plus ancienne), et la date la plus récente dans la colonne Latest Date (Date la plus récente). Toutes les dates trouvées dans le document sont répertoriées dans la colonne All Dates (Toutes les dates) et séparées par une virgule, en fonction de la taille maximale autorisée dans la table. Toutes ces dates sont enregistrées au format AAAA-MM-JJ, quel que soit le format utilisé dans le texte initial. En contraste, la colonne Extracted Date Text (Texte de date extrait) enregistre le texte ayant été trouvé dans le document et interprété en tant que date, exactement tel qu’il a été trouvé dans le document.

En savoir plus sur la définition de la plage de dates

Si vous savez que vos documents ne contiennent que des dates présentées dans certains formats, vous pouvez désactiver les autres formats de date. Lorsqu’un plus petit nombre de formats de dates est activé, les documents sont analysés en moins de temps.

Accéder à l’onglet Dates

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Accédez à l’onglet Dates.
- Cliquez sur l’onglet Options et sur la flèche figurant à côté du bouton à bascule Dates.
- Cliquez sur l’onglet Extract attributes (Extraire les attributs) , puis sur l’onglet Dates.

Activer ou désactiver le bouton à bascule des dates

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Activez ou désactivez le bouton à bascule des dates.
- Cliquez sur l’onglet Options , puis sur le bouton à bascule Dates.
- Cliquez sur l’onglet Extract attributes (Extraire les attributs), sur l’onglet Dates et sur le bouton à bascule Create fields from dates (Créer des champs à partir de dates).

Personnaliser le mode de reconnaissance des dates

Les documents que vous utilisez peuvent contenir des dates qui ne peuvent pas être détectées avec les paramètres de format de date standard. Par exemple, si l’option Month name used (Nom de mois utilisé) est activée, mais que l’auteur d’un ensemble de documents a mal orthographié février en févier dans tous les documents, ce texte n’est pas reconnu comme une date.

De même, si les documents que vous analysez ont été écrits avec plusieurs langues, le texte est, par défaut, uniquement reconnu comme étant une date dans les documents rédigés en anglais. Par exemple, si l’option Month name used (Nom de mois utilisé) est activée, la date anglaise July 17, 2018 est reconnue. Toutefois, dans un document fançais, la date équivalente 17 juillet, 2018 n’est, par défaut, pas reconnue comme étant une date. Il est possible de personnaliser les formats de date de sorte que les formats utilisés dans d’autres langues soient reconnus en plus ou à la place du format de date anglais, selon le mode de traitement des documents.

Vous pouvez personnaliser le mode de reconnaissance des dates dans les documents grâce à la boîte de dialogue Customize (Personnaliser). Des paramètres par défaut sont fournis pour certaines langues (sélectionnez la langue de vos documents dans l’onglet Settings (Paramètres)). Dans un document en langue asiatique, les options de l’onglet Numerals (Chiffres) permettent aux dates d’être reconnues lorsqu’elles ne sont spécifiées qu’avec des caractères asiatiques tels que 平成三十年六月十八日, et avec une combinaison de caractères asiatiques et de chiffres hindo-arabes pleine largeur tels que 平成 2 ８年４月１４日.

Certains paramètres indiquent si les nombres à deux et à quatre chiffres qui figurent dans un document sont reconnus comme étant une date qui figure à son tour dans la plage acceptable de dates à extraire à partir de documents. Si vous utilisez des versions numériques de documents historiques ou des documents qui représentent une projection d’événements futurs, vous pouvez avoir besoin d’ajuster la plage des nombres reconnus comme année en fonction de ces documents et de modifier le paramètre Limit extracted dates to this range (Limiter les dates extraites à cette plage) sur l’onglet Output (Sortie) de la fenêtre Extract Locations (Extraire les emplacements).

Accédez à l’onglet Dates.
Activez le bouton à bascule des dates.
Cliquez sur le bouton Customize (Personnaliser) en haut de la liste des formats de date.
Si les documents sont écrits dans une autre langue et que les paramètres sont disponibles pour cette langue sur l’onglet Settings (Paramètres) de la boîte de dialogue Customize (Personnaliser), cliquez sur cette langue dans la liste.
Ajoutez les paramètres de la langue sélectionnée dans la boîte de dialogue Customize (Personnaliser).
- Cliquez sur Replace Settings (Remplacer les paramètres) pour analyser les documents uniquement avec les paramètres associés à la langue sélectionnée. Si la langue en cours est l’anglais et que la langue sélectionnée est le français, lorsque vous remplacez les paramètres English (Anglais) dans la boîte de dialogue par les paramètres French (Français), seules les coordonnées spatiales rédigées selon un format français sont reconnues dans les documents.
- Cliquez sur Merge Settings (Fusionner les paramètres) pour analyser les documents avec les paramètres de la langue en cours, ainsi que ceux de la langue supplémentaire. Si la langue en cours est l’anglais et que la langue sélectionnée est le français, et que vous fusionnez les paramètres du français avec les paramètres de la boîte de dialogue, les coordonnées spatiales écrites dans les formats anglais et français sont reconnues dans les documents.
Une date peut inclure de nombreux composants lorsqu’elle est écrite. Sélectionnez un onglet sous l’en-tête Dates associé à un composant de date, par exemple, February (Février).
Modifiez la liste des termes à inclure dans les notations employées dans les documents analysés.
1. Cliquez sur la nouvelle ligne en bas de la grille dans la colonne Term Text (Texte de l’expression).
2. Saisissez la valeur appropriée qui apparaît dans les documents, par exemple, le terme mal orthographié Febuary (Févier), comme l’une des valeurs susceptible d’identifier le mois de février.
3. Appuyez sur la touche Entrée.
Des avertissements s’affichent si le même terme est saisi sur plusieurs onglets de la boîte de dialogue Customize (Personnaliser). Les termes pouvant être dupliqués, cela affecte l’exactitude avec laquelle les dates sont reconnues dans les documents. Retirez les termes en double qui ne sont pas essentiels à la reconnaissance de texte en tant que date.
1. Cliquez sur l’un des onglets concernés.
2. Cliquez sur une ligne dans la grille pour sélectionner le terme en double qui ne doit pas être utilisé.
3. Cliquez sur le bouton Remove (Retirer) pour retirer la ligne sélectionnée de la grille.
Si les termes en double sont conservés, un message d’avertissement apparaît en bas de la fenêtre Extract Locations (Extraire les emplacements) à côté du bouton Extract (Extraire).
Dans l’onglet Year Ranges (Plages des années), spécifiez une plage de nombres que vous souhaitez interpréter en tant qu’années au sein de vos documents.
Dans l’onglet Numerals (Chiffres), indiquez quels types de caractères peuvent être reconnus en tant que date.
Cliquez sur OK.

Déterminer la façon dont les dates sont évaluées

Le bouton à bascule des dates doit être activé pour changer la façon dont les documents en entrée sont évalués en ce qui concerne les dates ainsi que pour inclure ces informations dans la classe d’entités en sortie.

Accédez à l’onglet Dates.
Activez le bouton à bascule des dates.
Cochez les formats de dates que vous souhaitez utiliser pour évaluer les dates candidates. Décochez les formats de date qui ne vous intéressent pas.
Indiquez les personnalisations à employer lors de l’évaluation d’un texte visant à déterminer si ce dernier représente une date.

À la prochaine extraction des dates, ces paramètres de dates seront utilisés pour évaluer les dates candidates et déterminer les dates qui sont incluses dans la table attributaire de la classe d’entités en sortie.

Demander des césures de mots

Le paramètre Require word breaks (Demander des césures de mots) détermine la façon dont un texte est considéré comme un mot. Lorsque des césures de mots sont demandées, le texte est considéré comme un mot s’il est précédé ou suivi d’un espace ou de caractères de ponctuation, comme dans les langues européennes. Ainsi, le mot anglais Pacific ne génère pas de correspondance dans le cas du texte The City of Pacifica is located just 15 minutes south of San Francisco., ce qui est correct. Toutefois, dans le cas du texte I flew to Tokyo (J’ai pris l’avion pour Tokyo) en japonais, 私は東京に飛んで, vous ne pouvez pas distinguer le mot Tokyo, 東京.

Si l’option Require word breaks (Demander des césures de mots) est désactivée, le texte ne doit pas être nécessairement précédé ou suivi d’un espace ou de caractères de ponctuation pour correspondre à un ensemble de texte donné. Par exemple, un emplacement personnalisé qui recherche le mot Pacific génère à tort une correspondance dans le cas du texte The City of Pacifica is located just 15 minutes south of San Francisco. Cependant, un emplacement personnalisé qui recherche le mot Tokyo, 東京, dans le texte en japonais génère avec succès une correspondance pour I flew to Tokyo (J’ai pris l’avion pour Tokyo), 私は東京に飛んで.

Ce paramètre affecte la manière dont les documents sont analysés dans le cas de la recherche de mots correspondant à des emplacements personnalisés, des attributs personnalisés, des coordonnées et des dates. En fonction de la langue du texte dans les documents, ce paramètre peut générer des faux positifs fréquents ou des faux positifs rares. Il est conseillé de traiter les documents rédigés dans différentes langues séparément en activant ou en désactivant ce paramètre de manière appropriée pour chaque langue.

Activer ou désactiver le bouton de bascule Require word breaks (Demander des césures de mots)

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Cliquez sur l’onglet Options .
Pour activer ou désactiver le bouton de bascule Require word breaks (Demander des césures de mots), cliquez sur ce dernier.

Lorsque le bouton de bascule Require word breaks (Demander des césures de mots) est activé et que les documents sont traités, le texte est considéré comme un mot uniquement s’il est précédé ou suivi d’un espace ou de caractères de ponctuation. Lorsque le bouton de bascule Require word breaks (Demander des césures de mots) est désactivé et que les documents sont traités, n’importe quel texte correspondant au texte recherché est considéré comme un mot.

Symbologie

Vous pouvez personnaliser le symbole utilisé pour représenter les emplacements trouvés dans les documents en entrée lorsqu’une couche de carte en sortie est créée. Il n’est possible de spécifier qu’un seul symbole pour les couches de carte de cette manière.

Ouvrez la fenêtre Extract Locations (Extraire les emplacements).
Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Cliquez sur l’onglet Options .
Cliquez sur le symbole ponctuel et choisissez, par exemple, le cercle rouge uni, sous l’en-tête Symbology (Symbologie).
Le volet Format Point Symbol (Formater le symbole ponctuel) apparaît dans la fenêtre Extract Locations (Extraire les emplacements).
Cliquez sur un symbole ponctuel dans la bibliothèque ou personnalisez les propriétés du symbole et appliquez vos modifications. Ou, cliquez sur le bouton de retour pour annuler vos modifications et revenir à l’onglet Options.
En savoir plus sur la symbolisation des couches d’entités

Lors de la prochaine extraction des emplacements et de la création d’une couche de carte en sortie, le symbole spécifié sera utilisé pour représenter les emplacements sur la carte.

Symboliser les emplacements par catégorie ou par quantité

Après avoir extrait les emplacements d’un ensemble de documents, vous pouvez utiliser les attributs personnalisés pour modifier la façon dont les emplacements en sortie sont symbolisés. Par exemple, vous pouvez choisir différents symboles pour représenter les mots-clés trouvés au niveau de chaque emplacement. La prochaine fois que vous procéderez à l’extraction d’emplacements avec les mêmes paramètres, vous pourrez les ajouter à la couche cartographique existante. Les points obtenus seront automatiquement symbolisés de la même manière.

Si vous souhaitez ultérieurement utiliser le même modèle Extract Locations (Extraire les emplacements) pour créer une nouvelle couche cartographique avec la même symbolisation, vous devez d’abord capturer la symbolisation de la couches cartographique d’origine en tant que paquetage de couche de structure uniquement. Le paquetage de couche peut être utilisé pour créer une nouvelle classe d’entités et la couche cartographique d’accompagnement à laquelle vous pouvez ajouter des emplacements à partir d’un nouvel ensemble de documents.

Ouvrez la carte contenant la couche cartographique dont vous souhaitez réutiliser la symbolisation.
Créez un paquetage de couches de structure uniquement à partir de la couche cartographique existante.
Ajoutez le paquetage de couche de structure uniquement à la nouvelle carte vers laquelle vous souhaitez extraire un nouvel ensemble d’emplacements.
Une nouvelle classe d’entités est créée dans la géodatabase par défaut du projet grâce à la structure définie dans le paquetage de couche. Une nouvelle couche cartographique est créée avec la définition de couche du paquetage de couche.
En savoir plus sur les couches et sur les paquetages de couche
Suivez le processus pour extraire les emplacements vers la couche cartographique existante créée à l’étape précédente.

Les emplacements extraits vers la couche cartographique sont automatiquement symbolisés en fonction des valeurs attributaires personnalisées extraites à partir des documents et du texte.

Analyser des fichiers

L’onglet Scan files (Analyser les fichiers) permet de contrôler le type de documents qui sont analysés ou ignorés.

Analyser des types de fichiers spécifiques

Dans ce contexte, un type de fichier désigne l’extension de nom de fichier. Par exemple, si vous possédez un fichier table.txt, le type de fichier est TXT. Lorsque vous indiquez un dossier en entrée et que le dossier contient de nombreux fichiers, vous pouvez limiter les fichiers à analyser en précisant l’ensemble de types de fichiers à utiliser. Vous pouvez éliminer les fichiers qui ne sont pas pertinents ou restreindre votre analyse aux fichiers dont vous avez établi la pertinence.

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Cliquez sur l’onglet Scan files (Analyser les fichiers) .
Cliquez sur l’en-tête File types (Types de fichier).
Choisissez d’analyser ou d’ignorer les types de fichiers spécifiés.
- Scan all files except these types (Analyser tous les fichiers à l’exception de ces types) : spécifiez les types de fichiers à ignorer. Il s'agit de l'option par défaut.
- Scan only these file types (Analyser uniquement ces types de fichiers) : spécifiez les types de fichiers à analyser.
Ajoutez des extensions à la liste des types de fichiers.
- Cliquez sur Add extensions (Ajouter des extensions) . Dans la boîte de dialogue Add Extensions (Ajouter des extensions), tapez une ou plusieurs extensions de fichier dans la zone de texte Extensions. Si vous saisissez de nombreuses extensions, séparez-les par des espaces uniquement ; n’insérez pas de virgule après l’extension de fichier. Vous tapez ainsi txt doc csv. Un point peut être introduit avant l’extension de fichier, si vous le souhaitez. Cliquez sur OK.
- Faites glisser les fichiers depuis l’Explorateur Windows dans la liste des types de fichiers.
Les extensions de fichiers spécifiées sont ajoutées à la liste.

Si l’ordinateur reconnaît une extension de fichier, l’icône et la chaîne du type utilisées dans l’Explorateur Windows pour représenter ce type de fichier sont incluses dans la liste. Si, par exemple, vous indiquez l’extension de fichier .docx, l’extension .DOCX et l’icône représentant ces fichiers sur l’ordinateur apparaissent dans la liste, dans la colonne Extension. La colonne Type comportera la valeur Document Microsoft Word.

Ignorer certains fichiers et dossiers

Lorsque vous analysez un dossier ou un disque contenant de nombreux fichiers, il peut être utile d’éviter d’analyser des fichiers ou des dossiers individuels. L’analyse s’effectue plus rapidement et inclut moins de faux positifs d’emplacement. Par exemple, les dossiers contenant des bilans financiers sont susceptibles de contenir des nombres ressemblant à des coordonnées spatiales.

Lors de l’analyse de disques, envisagez d’exclure les dossiers contenant les logiciels installés, les fichiers du système d’exploitation, les pilotes matériels, etc. Les fichiers masqués et les fichiers système, généralement non visibles dans l’Explorateur Windows, sont ignorés par défaut. Vous pouvez toutefois décocher ces options si votre scénario l’exige.

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Cliquez sur l’onglet Scan files (Analyser les fichiers) .
Cliquez sur l’en-tête Skip types (Ignorer les types).
Décochez Hidden (Masqué) ou System (Système) sous l’en-tête File attributes (Attributs de fichier), le cas échéant.
Ajoutez les fichiers et les dossiers à ignorer dans la liste Files and folders (Fichiers et dossiers).
- Cliquez sur Add files and folders (Ajouter des fichiers et des dossiers) . La boîte de dialogue Add Files and Folders (Ajouter des fichiers et des dossiers) apparaît. Accédez aux fichiers et dossiers à ignorer et sélectionnez-les, puis cliquez sur Open (Ouvrir).
- Faites glisser les fichiers et les dossiers depuis l’Explorateur Windows dans la liste Files and folders (Fichiers et dossiers).
Les fichiers et dossiers spécifiés sont ajoutés à la liste.

L’icône utilisée dans l’Explorateur Windows représentant l’élément et son nom apparaissent dans la liste, à la colonne Name (Nom). La colonne Path (Chemin) affiche le chemin d’accès au fichier ou au dossier.

Certains fichiers ne sont pas traités

Les documents sont traités au moyen de la même technologie que la recherche Windows utilise pour examiner les fichiers de l’ordinateur : un plug-in connu sous le nom de IFilter. La fenêtre Extract Locations (Extraire les emplacements) et ses outils associés ne recourent pas à la fonction de recherche de Windows ; ils utilisent les plug-in IFilter qui se trouvent déjà sur l’ordinateur pour examiner les documents et le texte en entrée.

Plusieurs IFilters sont inclus dans le système d’exploitation Microsoft Windows et peuvent notamment traiter des fichiers texte, des fichiers HTML et certains documents Microsoft Office. Les IFilters disponibles varient selon les systèmes d’exploitation. D’autres applications installées sur l’ordinateur peuvent fournir d’autres IFilters ; ceux-ci sont en mesure de traiter les documents qu’elles gèrent. Par exemple, lorsque vous installez Adobe Acrobat Reader DC ou Adobe Acrobat, ce programme peut fournir un IFilter permettant de traiter le contenu des fichiers PDF. Lorsque les fichiers sont analysés, un IFilter propre à ce type de fichier est utilisé s’il est disponible. Sinon, les fichiers sont analysés à l’aide des IFilters standard et le maximum d’informations possible est extrait.

Comme AllSource est une application 64 bits, elle peut seulement utiliser les IFilters 64 bits pour traiter les documents et le texte en entrée. Une application 32 bits propose généralement des IFilters 32 bits permettant de traiter ses propres documents ; AllSource ne peut pas utiliser ces IFilters.

Si vous n’avez pas indiqué de fichiers spécifiques à ignorer (les fichiers PDF, par exemple), mais ne parvenez pas à extraire des emplacements à partir de fichiers dans lesquels vous savez pertinemment qu’ils existent, assurez-vous qu’un filtre 64 bits est installé sur l’ordinateur.

Sous Windows 10, un IFilter utilisable par AllSource pour traiter les fichiers PDF doit être disponible. Dans d’autres versions de Windows, si vous avez installé la version 32 bits d’Adobe Reader, un IFilter 64 bits peut ne pas être disponible pour le traitement des documents PDF. Le contenu ne peut pas être extrait des documents PDF par l’intermédiaire des IFilters standard de Windows. Vous pouvez télécharger un IFilter 64 bits à partir du site web d’Adobe.

Sortie

L’onglet Output (Sortie) permet de contrôler le contenu extrait des documents et conservé dans la classe d’entités en sortie.

Limites de document

Il est possible de fixer une limite aux emplacements et dates extraits des documents en entrée. Lorsque vous analysez un ensemble de documents en entrée pour la première fois, vous pouvez trouver un fichier contenant une grande quantité de nombres ayant faussement l’apparence de coordonnées spatiales ou encore une séquence de nombres ressemblant à une date mais désignant un tout autre type de données. Par défaut, les limites établissent le nombre d’entités et de dates à extraire des documents en entrée. Cela permet évite de générer des millions de points par erreur ou de stocker des dates sans intérêt dans la table attributaire. Après avoir évalué les emplacements et les dates en sortie qui sont stockés dans leurs attributs, vous pouvez décider de désactiver cette limite ou de la modifier avant d’analyser de nouveau les documents.

Parfois, vous ignorez tout des documents que vous analysez. Dans d’autres cas, vous pouvez analyser des ensembles de documents semi-structurés, tels que des rapports. Les rapports commencent par la date à laquelle le rapport a été rédigé et l’emplacement dans lequel cette opération a eu lieu. Cependant, l’objet du rapport concerne des événements qui se sont produits un autre jour dans un autre emplacement. Vous pouvez décider d’ignorer le premier nombre d’emplacements et de dates lors du traitement de ces documents de sorte de votre classe d’entités en sortie capture un contenu présentant un intérêt.

Vous pouvez fixer des limites en matière de nombre d’entités et de dates et de type d’entité et de date à extraire des documents en entrée. Ces limites sont décrites ci-dessous :

Limites d'entités
- Limit number of features per document (Limiter le nombre d’entités par document) : par défaut, seuls les 3 000 premiers emplacements trouvés dans un document sont extraits et stockés dans la classe d’entités en sortie. Lorsque cette option est activée, vous pouvez augmenter ou diminuer la limite du nombre d’entités extraites d’un seul document. Désactivez cette option pour évaluer toutes les coordonnées spatiales candidates et tous les emplacements personnalisés dans un document et extraire toutes les entités trouvées. Cette propriété est activée par défaut.
- Ignore first number of features per document (Ignorer le premier nombre d’entités par document) : par défaut, la première coordonnée spatiale ou le premier emplacement personnalisé trouvé dans un document en entrée est évalué, puis c’est au tour des autres coordonnées spatiales candidates et emplacements personnalisés et ce jusqu’à ce que la limite d’entités ou la fin du document soit atteinte. Lorsque cette option est activée, vous pouvez ignorer le nombre spécifié d’entités au début d’un document, puis extraire les entités suivantes jusqu’à la limite fixée ; par défaut, seule la première entité est ignorée, mais vous êtes libre d’augmenter ce nombre, si nécessaire. Désactivez cette option pour évaluer toutes les coordonnées spatiales candidates et tous les emplacements personnalisés jusqu’à la limite fixée. Cette option n’est pas activée par défaut.
Limites de date
- Limit number of dates per document (Limiter le nombre de dates par document) : par défaut, seules les 30 premières dates trouvées dans un document sont extraites et stockées dans la table attributaire de la classe d’entités en sortie. Lorsque cette option est activée, vous pouvez augmenter ou diminuer la limite du nombre de dates extraites d’un seul document. Désactivez cette option pour évaluer toutes les dates candidates dans un document et extraire toutes les dates trouvées. Cette propriété est activée par défaut.
- Ignore first number of dates per document (Ignorer le premier nombre de dates par document) : par défaut, la première date trouvée dans un document en entrée est évaluée, puis c’est au tour des autres dates candidates et ce jusqu’à ce que la limite des dates ou la fin du document soit atteinte. Lorsque cette option est activée, vous pouvez ignorer le nombre spécifié de dates au début d’un document, puis extraire les dates suivantes jusqu’à la limite fixée ; par défaut, seule la première date est ignorée, mais vous êtes libre d’augmenter ce nombre, si nécessaire. Désactivez cette option pour évaluer toutes les dates candidates jusqu’à la limite fixée. Cette option n’est pas activée par défaut.

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Cliquez sur l’onglet Output (Sortie) .
Cliquez sur l’en-tête Document limits (Limites de document).
Cochez ou décochez les options pour limiter le nombre d’entités et de dates à extraire, comme il convient.
Cliquez dans les zones de texte Features (Entités) et Dates activées et saisissez le nombre représentant le nombre maximum d’entités ou de dates qu’il est nécessaire d’extraire.
Cochez ou décochez les options pour ignorer un nombre donné d’entités et de dates au début du document ou du texte en entrée, comme il convient.
Cliquez dans les zones de texte Features (Entités) et Dates activées et saisissez le nombre représentant le nombre d’entités ou de dates qu’il est nécessaire d’ignorer avant d’extraire toute autre entité ou date présente.

Limites avant le texte et après le texte

Lorsqu’une coordonnée spatiale ou un emplacement personnalisé est extrait du document et stocké dans la classe d’entités en sortie, plusieurs informations sont stockées dans la table attributaire de la classe d’entités en sortie afin de vous aider à évaluer ces emplacements par la suite. Un extrait du document qui précède l’emplacement est placé dans un champ Pre-Text (Avant le texte) dans la table attributaire de la classe d’entités. Un extrait du document qui suit l’emplacement est placé dans un champ Post-Text (Après le texte) dans la table attributaire de la classe d’entités. Ces attributs aident à établir le contexte de l’emplacement, c’est-à-dire son emplacement réel, et si tel est le cas, ce qui s’est produit à cet endroit et la pertinence de cette information pour votre analyse.

Le volume de texte entourant un emplacement qui est extrait et stocké dans la classe d’entités est déterminé par les paramètres suivants :

Pre-Text (Avant le texte) : par défaut, les 254 caractères de texte figurant avant l’emplacement sont extraits du document et stockés dans le champ Pre-Text (Avant le texte). Vous pouvez augmenter ou diminuer cette valeur, selon le cas.
Post-Text (Après le texte) : par défaut, les 254 caractères de texte figurant après l’emplacement sont extraits du document et stockés dans le champ Post-Text (Après le texte). Vous pouvez augmenter ou diminuer cette valeur, selon le cas.

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Cliquez sur l’onglet Output (Sortie) .
Cliquez sur l’en-tête Pre-Text and Post-Text limits (Limites avant le texte et après le texte).
Cliquez dans la zone de texte Pre-Text (Avant le texte) et tapez le nombre désignant le nombre maximum de caractères précédant un emplacement à extraire du document en entrée.
Cliquez dans la zone de texte Post-Text (Après le texte) et tapez le nombre désignant le nombre maximum de caractères suivant un emplacement à extraire u document en entrée.

Autres limites liées aux champs de texte

Différentes informations sont enregistrées dans la table attributaire de la classe d’entités en sortie. Ces informations vous aident à évaluer les dates et les emplacements extraits, en plus des champs Pre-Text (Avant le texte) et Post-Text (Après le texte). Vous pouvez personnaliser la taille de ces champs pour faire en sorte qu’ils contiennent plus ou moins d’informations et vous adapter au contenu de l’ensemble actuel de documents.

Le volume de texte stocké dans la classe d’entités est déterminé par les paramètres suivants :

Name (Nom) : le champ Name (Nom) peut stocker par défaut 50 caractères de texte pour représenter le nom du fichier dans lequel l’emplacement a été trouvé. Vous pouvez augmenter ou diminuer cette valeur, selon le cas.
Extracted Text (Texte extrait) : le champ Extracted Text (Texte extrait) peut stocker par défaut 120 caractères de texte pour représenter la coordonnée spatiale ou l’emplacement personnalisé trouvé. Vous pouvez augmenter ou diminuer cette valeur, selon le cas.
Extracted Type (Type extrait) : le champ Extracted Type (Type extrait) peut stocker par défaut 50 caractères de texte pour représenter le type de coordonnée spatiale ou d’emplacement personnalisé trouvé. Vous pouvez augmenter ou diminuer cette valeur, selon le cas.
All Dates (Toutes les dates) : le champ All Dates (Toutes les dates) peut stocker par défaut 254 caractères de texte représentant les dates trouvées dans le document. Ces dates sont standardisées au format aaaa-mm-jj. Vous pouvez augmenter ou diminuer cette valeur, selon le cas.
Extracted Date Text (Texte de date extrait) : le champ Extracted Date Text (Texte de date extrait) peut stocker par défaut 254 caractères de texte représentant les dates trouvées dans le document. Le texte issu du document d’origine reconnu en tant date est extrait et enregistré. Vous pouvez augmenter ou diminuer cette valeur, selon le cas.
Filename (Nom de fichier) : le champ Filename (Nom de fichier) peut stocker par défaut 254 caractères de texte pour représenter le chemin complet du fichier dans lequel l’emplacement a été trouvé. Vous pouvez augmenter ou diminuer cette valeur, selon le cas.
File Type (Type de fichier) : le champ File Type (Type de fichier) peut stocker par défaut 10 caractères de texte pour représenter le type de fichier traité. Vous pouvez augmenter ou diminuer cette valeur, selon le cas.

En savoir plus sur les champs de la classe d’entités en sortie

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Cliquez sur l’onglet Output (Sortie) .
Cliquez sur l’en-tête Other text field limits (Autres limites liées aux champs de texte).
Cliquez dans les zones de texte des champs et saisissez le nombre représentant le nombre maximal de caractères pouvant être enregistré dans chaque champ.

Plage de dates

Certains nombre ressemblent à la fois à des coordonnées spatiales et à des dates. Par défaut, les dates sont seulement extraites d’un document en entrée si elles correspondent à l’un des formats de date sélectionnés et si cette date est comprise dans la plage de dates spécifiée. Cela réduit le risque d’extraire une date qui soit un faux positif. La plage de dates par défaut s’étend du 1er janvier 1985 au 31 décembre 2030. Même si une date est trouvée dans un document en entrée, si elle se trouve hors de la plage de dates spécifiée, elle ne sera pas extraite et stockée dans la table attributaire de la classe d’entités en sortie.

Désactivez Limit extracted dates to this range (Limiter les dates extraites à cette plage) pour extraire toutes les dates possibles des documents en entrée. Cette option augmente la durée de l’évaluation du contenu d’un document, car tous les nombres doivent être évalués par rapport aux formats de date sélectionnés.

Si vous ne vous intéressez qu’aux événements qui ont eu lieu au cours d’un intervalle de temps donné, cochez l’option Limit extracted dates to this range (Limiter les dates extraites à cette plage) et ajustez la plage de dates pour définir plus finement la période au cours de laquelle ces événements se sont produits.

From (Du) : 1er janvier 1985, par défaut. Cliquez sur le menu déroulant et cliquez sur la date de début de la plage de dates valide du contrôle du calendrier.
To (Au) : 31 décembre 2030, par défaut. Cliquez sur le menu déroulant et cliquez sur la date de fin de la plage de dates valide du contrôle du calendrier.

Le contrôle du calendrier donne accès à un mois à la fois. Utilisez les flèches dans les coins supérieurs pour accéder au mois précédent ou suivant. Cliquez sur le mois et l’année en haut du calendrier pour afficher la liste des mois. Cliquez sur l’année en haut de la liste des mois pour afficher la liste des années. Utilisez les flèches dans les coins supérieurs pour accéder à l’année précédente ou suivante.

Si vous utilisez des documents historiques, des paramètres supplémentaires sur l’onglet Year Ranges (Plages des années) de la boîte de dialogue Customize (Personnaliser) permettent d’indiquer si le texte est reconnu en tant que date et comment le paramètre Limit extracted dates to this range (Limiter les dates extraites à cette plage) fonctionne. L’onglet Year Ranges (Plages des années) détermine si les nombres à deux et à quatre chiffres sont interprétés comme des années. Cette appréciation intervient avant l’évaluation permettant de savoir si le texte adjacent à l’année est une date.

Par défaut, les nombres à quatre chiffres compris entre 1900 et 2099 sont reconnus en tant qu’année. Tant que les années indiquées dans Limit extracted dates to this range (Limiter les dates extraites à cette plage) figurent dans cette plage, ce paramètre restreint avec succès les dates trouvées comportant une année à quatre chiffres. Si vous utilisez des documents historiques qui deviennent disponibles au format numérique, vous devez ajuster à la fois le paramètre Limit extracted dates to this range (Limiter les dates extraites à cette plage) sur l’onglet Output (Sortie) et la plages des années à quatre chiffres sur l’onglet Year Ranges (Plages des années) dans la boîte de dialogue Customize (Personnaliser) pour tenir compte de la période à laquelle les documents ont été rédigés.

De même, lorsque vous analysez des nombres à deux chiffres pour déterminer s’il représentent une année, une fenêtre de 100 ans, commençant par défaut en 1970, est utilisée. Tant que les années indiquées dans Limit extracted dates to this range (Limiter les dates extraites à cette plage) figurent dans cette plage, ce paramètre restreint avec succès les dates trouvées comportant une année à deux chiffres. Toutefois, si vous utilisez des rapports ou des documents historiques liés à des projections pour l’avenir, il se peut que vous deviez ajuster la fenêtre de 100 ans sur l’onglet Year Ranges (Plages des années) de la boîte de dialogue Customize (Personnaliser), ainsi que le paramètre Limit extracted dates to this range (Limiter les dates extraites à cette plage) sur l’onglet Output (Sortie) pour tenir compte de la période des documents.

En savoir plus sur la personnalisation de la reconnaissance de texte en tant que date

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Cliquez sur l’onglet Output (Sortie) .
Cliquez sur l’en-tête Date range (Plage de dates).
Cochez ou décochez l’option Limit extracted dates to this range (Limiter les dates extraites à cette plage), selon le cas.
Si l’option est activée, cliquez sur la flèche de la liste déroulante From (Du), accédez à la date de début de la plage à extraire et sélectionnez-la.
Si l’option est activée, cliquez sur la flèche de la liste déroulante To (Au), accédez à la date de fin de la plage à extraire et sélectionnez-la.
Indiquez les personnalisations à employer lors de l’évaluation d’un texte visant à déterminer si ce dernier représente une date.

Coordonnées standardisées

Par ailleurs, une représentation cohérente de tous les emplacements trouvés est stockée dans le champ de coordonnées standardisées ayant pour alias Stand. Coord.. Les coordonnées x,y associées aux entités ponctuelles sont enregistrées au format spécifié par l’option Standardized coordinate (Coordonnées standardisées).

Définissez le format de coordonnées répondant aux critères requis à partir des options suivantes. Par exemple, les coordonnées d’un document en entrée telles que 117.1717550°W 34.0552456°N apparaissent dans le champ de coordonnées standardisées comme indiqué ci-dessous lorsque chaque format de coordonnées est sélectionné.

DD - Decimal Degrees (DD - Degrés décimaux) - 34.055246N 117.171755W (option sélectionnée par défaut)
DM - Decimal Minutes (DM - Minutes décimales) - 34 03.3147N 117 10.3053W
DMS - Degrees Minutes Seconds (DMS - Degrés minutes secondes) - 34 03 18.88N 117 10 18.32W
UTM - Universe Transverse Mercator -11S 484149 3768294
MGRS - Military Grid Reference System (MGRS - Système de référence de carroyage militaire) - 11SMT8414968295

Dans la fenêtre Extract Locations (Extraire les emplacements), cliquez sur l’onglet Properties (Propriétés).
Cliquez sur l’onglet Output (Sortie) .
Cliquez sur l’en-tête Standardized coordinate (Coordonnées standardisées)
Cliquez sur la liste déroulante et sur le format des coordonnées dans lequel vous voulez enregistrer les emplacements extraits.

Vous avez un commentaire à formuler concernant cette rubrique ?