Étiquette | Explication | Type de données |
Fichier en entrée | Fichier en entrée numérisé pour les emplacements (coordonnées ou emplacements personnalisés), dates et attributs personnalisés ; ou un dossier dans lequel tous les fichiers vont être scannés pour emplacements. | File |
Classe d’entités en sortie | Classe d’entités contenant les entités ponctuelles qui représentent les localisations qui ont été trouvées. | Feature Class |
Modèle en entrée (Facultatif) | Fichier de modèle (*.lxttmpl) qui détermine la définition à utiliser pour chaque paramètre de l’outil. Lorsqu’un fichier de modèle est fourni, toutes les valeurs spécifiées pour d’autres paramètres sont ignorées, à l’exception de celles qui déterminent le contenu en entrée qui sera traité et la classe d’entités en sortie. Certains paramètres de la fenêtre Extract Locations (Extraire les localisations) ne sont disponibles avec cet outil que s’ils sont enregistrés dans un fichier de modèle et que ce dernier est référencé dans ce paramètre. Ces paramètres sont les suivants :
| File |
Latitude et longitude (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format latitude et longitude (faux positifs rares). Exemples : 33.8N 77.035W et W77N38.88909.
| Boolean |
X Y avec symboles de degrés (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format X Y avec symboles de degrés (faux positifs rares). Exemples : 38.8° -77.035° et -077d+38.88909d.
| Boolean |
X Y sans aucun symbole (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format X Y sans aucun symbole (faux positifs rares). Exemples : 38.8 -77.035 et -077.0, +38.88909.
| Boolean |
Latitude et longitude (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes décimales au format latitude et longitude (faux positifs rares). Exemples : 3853.3N 7702.100W et W7702N3853.3458.
| Boolean |
X Y avec symboles de minutes (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes décimales au format X Y avec symboles de degrés (faux positifs rares). Exemples : 3853' -7702.1' et -07702m+3853.3458m.
| Boolean |
Latitude et longitude (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format latitude et longitude (faux positifs rares). Exemples : 385320.7N 770206.000W et W770206N385320.76.
| Boolean |
X Y avec symboles de secondes (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format X Y avec symboles de secondes (faux positifs rares). Exemples : 385320" -770206.0" et -0770206.0s+385320.76s.
| Boolean |
X Y avec séparateurs (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format X Y avec séparateurs (faux positifs à fréquence modérée). Exemples : 38:53:20 -77:2:6.0 et -077/02/06/+38/53/20.76.
| Boolean |
Universal Transverse Mercator (Facultatif) | Spécifie s’il faut rechercher les coordonnées de projection transverse universelle de Mercator (UTM) (faux positifs modérés). Exemples : 18S 323503 4306438 et 18 north 323503.25 4306438.39.
| Boolean |
UPS Polaire Nord (Facultatif) | Spécifie s’il faut rechercher les coordonnées de projection stéréographique polaire universelle (UPS) dans la zone du pôle Nord (faux positifs rares). Exemples : Y 2722399 2000000 et north 2722399 2000000.
| Boolean |
UPS Polaire Sud (Facultatif) | Spécifie s’il faut rechercher les coordonnées de projection stéréographique polaire universelle (UPS) dans la zone du pôle Sud (faux positifs rares). Exemples : A 2000000 3168892 et south 2000000 3168892.
| Boolean |
Military Grid Reference System (Facultatif) | Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) (faux positifs rares). Exemples : 18S UJ 13503 06438 et 18SUJ0306.
| Boolean |
Polaire Nord (Facultatif) | Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) dans la zone du pôle Nord (faux positifs rares). Exemples : Y TG 56814 69009 et YTG5669.
| Boolean |
Polaire Sud (Facultatif) | Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) dans la zone du pôle Sud (faux positifs à fréquence modérée). Exemples : A TN 56814 30991 et ATN5630.
| Boolean |
Utiliser la virgule comme séparateur décimal (Facultatif) | Spécifie si une virgule (,) est reconnue comme séparateur décimal. Par défaut, l’analyse de contenu recherche des coordonnées spatiales définies par des nombres utilisant un point (.) ou un point médian (·) comme séparateur décimal, par exemple : Lat 01° 10·80’ N Long 103° 28·60’ E. Si dans le contenu sur lequel vous travaillez, les coordonnées spatiales sont définies par des nombres utilisant une virgule (,) comme séparateur décimal (52° 8′ 32,14″ N; 5° 24′ 56,09″ E, par exemple), définissez ce paramètre afin que la virgule, et non le point, soit reconnue comme séparateur décimal. Ce paramètre n’est pas défini automatiquement en fonction des paramètres régionaux du système d’exploitation de votre ordinateur.
| Boolean |
Interpréter comme longitude, latitude (Facultatif) | Spécifie si les coordonnées x,y sont interprétées comme longitude-latitude. Lorsque des nombres ressemblent à des coordonnées x,y, que les deux nombres sont inférieurs à 90 et qu’aucun symbole ou notation n’indique quel nombre représente la latitude ou la longitude, les résultats peuvent être ambigus. Ce paramètre permet d’interpréter les nombres comme une coordonnée de longitude-latitude (x,y) et non comme une coordonnée de latitude-longitude (y,x).
| Boolean |
Système de coordonnées en entrée (Facultatif) | Système de coordonnées utilisé pour interpréter les coordonnées spatiales définies dans l’entrée. GCS-WGS-84 est la valeur par défaut. | Spatial Reference |
Emplacements personnalisés en entrée (Facultatif) | Fichier de localisations personnalisées (.lxtgaz) utilisé pour analyser le contenu en entrée. Un point est créé pour représenter chaque occurrence de chaque nom de lieu dans le fichier de localisations, dans les limites définies par d’autres paramètres de l’outil. | File |
Utiliser l’appariement flou (Facultatif) | Spécifie si l’appariement flou est utilisé pour comparer le contenu en entrée aux noms de lieux indiqués dans le fichier de localisations.
| Boolean |
Nombre maximum d’entités extraites (Facultatif) | Nombre maximal d’entités pouvant être extraites. L’outil cesse l’analyse du contenu en entrée à la recherche de localisations lorsque le nombre maximal est atteint. Si l’outil est exécuté en tant que service de géotraitement, le service et le serveur peuvent avoir des limites distinctes quant au nombre d’entités autorisées. | Long |
Ignorer ce premier nombre d’entités (Facultatif) | Nombre d’entités détectées et ignorées avant d’extraire toutes les autres entités. Ce paramètre peut être utilisé pour cibler la recherche sur une portion spécifique des données. | Long |
Nom du mois utilisé (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles figure le nom du mois (faux positifs rares). Exemples : 12 May 2003 et January 15, 1997.
| Boolean |
M/J/A et J/M/A (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format M/J/AA ou J/M/AA (faux positifs à fréquence modérée). Exemples : 5/12/03 et 1-15-1997.
| Boolean |
AAAAMMJJ (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAAAMMJJ (faux positifs à fréquence modérée). Exemples : 20030512 et 19970115.
| Boolean |
AAMMJJ (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAMMJJ (faux positifs fréquents). Exemples : 030512 et 970115.
| Boolean |
AAJJJ (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAJJJ ou AAAAJJJ (faux positifs fréquents). Exemples : 03132 et 97015.
| Boolean |
Nombre maximum de dates extraites (Facultatif) | Nombre maximal de dates qui seront extraites. | Long |
Ignorer ce premier nombre de dates (Facultatif) | Nombre de dates qui sont détectées et ignorées avant d’extraire toutes les autres dates. | Long |
Date la plus ancienne de la plage de dates acceptables (Facultatif) | Date la plus ancienne acceptable à extraire. Les dates détectées correspondant à cette valeur ou à une valeur plus récente sont extraites. | Date |
Date la plus récente de la plage de dates acceptables (Facultatif) | Date la plus récente acceptable à extraire. Les dates détectées correspondant à cette valeur ou à une valeur plus ancienne sont extraites. | Date |
Attributs personnalisés en entrée (Facultatif) | Fichier attributaire personnalisé (.lxtca) utilisé pour analyser le contenu en entrée. Les champs sont créés dans la table attributaire de la classe d’entités en sortie pour tous les attributs personnalisés définis dans le fichier. Lors de l’analyse du contenu en entrée, l’examen vise à rechercher s’il contient du texte associé à tous les attributs personnalisés spécifiés dans le fichier. Lorsqu’une correspondance est trouvée, le texte concerné est extrait du contenu en entrée et stocké dans le champ approprié. | File |
Texte du lien du fichier en entrée (Facultatif) | Chemin d’accès au fichier utilisé comme nom du fichier dans les données en sortie lorsque le paramètre Input File (Fichier en entrée) (in_file dans Python) est transféré sur le serveur. Si ce paramètre n’est pas spécifié, le chemin du Input File (Fichier en entrée) est utilisé, mais il peut correspondre à un dossier inaccessible sur le serveur. Ce paramètre n’a aucun effet lorsque le champ Input File (Fichier en entrée) n’est pas renseigné. | String |
Date et heure de du fichier en entrée (Facultatif) | Date et heure UTC de modification du fichier, utilisées comme attribut modifié dans les données en sortie lorsque le paramètre Input File (Fichier en entrée) (in_file dans Python) est transféré sur le serveur. Si ce paramètre n’est pas spécifié, la date/heure actuelle de modification du fichier en entrée est utilisée. Ce paramètre n’a aucun effet lorsque le champ Input File (Fichier en entrée) n’est pas renseigné. | Date |
Longueur du champ avant le texte (Facultatif) | Le contenu est extrait du document en entrée afin de fournir le contexte de la localisation trouvée. Ce paramètre définit le nombre maximal de caractères qui sera extrait avant le texte qui définit la localisation. Le texte extrait est stocké dans le champ Pre-Text de la table attributaire de la classe d’entités en sortie. La valeur par défaut est 254. Le type de données du champ Pre-Text a également cette longueur. La longueur d’un champ de texte dans un shapefile est limitée à 254 caractères. Aussi, si la sortie est un shapefile et que le nombre de caractères dépasse cette limite, il est tronqué à 254. | Long |
Longueur du champ après le texte (Facultatif) | Le contenu est extrait du document en entrée afin de fournir le contexte de la localisation trouvée. Ce paramètre définit le nombre maximal de caractères qui sera extrait après le texte qui définit la localisation. Le texte extrait est stocké dans le champ Post-Text de la table attributaire de la classe d’entités en sortie. La valeur par défaut est 254. Le type de données du champ Post-Text a également cette longueur. La longueur d’un champ de texte dans un shapefile est limitée à 254 caractères. Aussi, si la sortie est un shapefile et que le nombre de caractères dépasse cette limite, il est tronqué à 254. | Long |
Format de coordonnées (Facultatif) | Spécifie le format de coordonnées utilisé pour stocker la localisation des coordonnées. Une représentation standard des coordonnées spatiales qui définissent l’entité ponctuelle est enregistrée dans un champ de la table attributaire.
| String |
Demander des césures de mots (Facultatif) | Spécifie s’il faut rechercher du texte à l’aide de la césure de mot. Une césure de mot se produit lorsqu’un mot (texte) est précédé ou suivi d’un espace ou d’un caractère de ponctuation, comme cela arrive dans les langues européennes. Ce paramètre peut générer des faux positifs rares ou fréquents, selon la langue du texte. Par exemple, si les césures de mots ne sont pas demandées, le texte en anglais Bernard sera une correspondance pour le texte San Bernardino, qui sera probablement considéré comme un faux positif. En revanche, lorsque le texte est rédigé dans une langue qui n’utilise pas les césures, vous ne pourrez pas trouver des mots si ces dernières sont demandées. Par exemple, dans le texte en japonais I flew to Tokyo (J’ai pris l’avion pour Tokyo), 私は東京に飛んで, seul le mot Tokyo, 東京, est trouvé si les césures ne sont pas demandées.
| Boolean |
Disponible avec une licence LocateXT.
Synthèse
Analyse les documents contenant un texte non-structuré ou semi-structuré, comme des messages électroniques, des formulaires de déplacement, etc. et extrait les emplacements vers une classe d’entités ponctuelles.
L’outil analyse et traite les documents en entrée comme suit :
- Il identifie les coordonnées spatiales spécifiques dans le contenu des documents et génère des points représentant ces emplacements. Les formats de coordonnées suivants sont reconnus : degrés décimaux, minutes décimales degrés, secondes minutes degrés, Universal Transverse Mercator et système de référence de carroyage militaire.
- Il identifie les noms de lieu précisés dans le contenu des documents définis dans un fichier d’emplacements personnalisés et génère des points représentant ces emplacements. Un fichier d’emplacements personnalisés associe un nom de lieu à des coordonnées spatiales représentant cet emplacement.
- Il identifie le texte d’intérêt, extrait ces informations depuis un document et les enregistre dans des champs dans la table attributaire de la classe d’entités en sortie.
Cet outil prend en charge tous les documents Microsoft Office (Word, PowerPoint et Excel) ; les documents Adobe PDF ; le texte balisé comme les documents XML et HTML ; et tout fichier contenant le texte brut comme les fichiers texte (.txt).
Utilisation
Les valeurs par défaut de paramètre sont conçues pour optimiser l’identification des coordonnées et des dates. Les valeurs par défaut peuvent être modifiées pour chaque paramètre. Moins vous modifiez de paramètre, plus l’exécution de l’outil est rapide.
Tous les formats de coordonnées sont activés par défaut. Si vous voulez n’extraire que des localisations personnalisées et pas de coordonnées spatiales, désactivez les paramètres de format de coordonnées.
Si un document PDF Adobe est fourni en entrée et que son contenu inclut une coordonnée spatiale dans un format activé, et si la classe d’entités en sortie ne contient pas d’entité représentant la coordonnée spatiale, votre ordinateur risque de ne pas disposer d’un composant obligatoire pour traiter les documents PDF.
Si vous utilisez un fichier de localisations personnalisées pour extraire des noms de lieux, la meilleure pratique consiste à spécifier moins de noms de lieux dans le fichier. Par exemple, si vous convertissez une classe d’entités représentant tous les lieux dans le monde en un fichier de localisations personnalisées, le traitement peut prendre énormément de temps à rechercher des lieux probablement absents ou qui se trouvent dans des parties du monde que vous ne souhaitez pas inclure dans votre analyse.
En savoir plus sur les fichiers de localisations personnalisées
Si les noms de lieux qui vous intéressent sont susceptibles d’être mal épelés ou ont des variantes connues, vous obtiendrez de meilleurs résultats en spécifiant les coquilles les plus répandues et le nom des variantes dans le fichier de localisations personnalisées qu’en utilisant l’appariement flou. Lorsque l’appariement flou est activé, vous obtenez une localisation en sortie s’il existe une correspondance dans le contenu en entrée pour 70 % des caractères d’un nom de lieu. Vous vous exposez ainsi plus à de faux positifs que si vous indiquez les fautes d’orthographe et les variantes de nom connues.
Si vous optez pour l’appariement flou, une bonne pratique consiste à commencer par exécuter l’outil avec cette fonctionnalité désactivée, puis à l’exécuter à nouveau en l’activant et à vérifier les résultats. Vous pouvez ainsi identifier plus facilement les variations orthographiques qui peuvent être ajoutées à vos fichiers de localisations personnalisées.
Paramètres
arcpy.conversion.ExtractLocationsDocument(in_file, out_feature_class, {in_template}, {coord_dd_latlon}, {coord_dd_xydeg}, {coord_dd_xyplain}, {coord_dm_latlon}, {coord_dm_xymin}, {coord_dms_latlon}, {coord_dms_xysec}, {coord_dms_xysep}, {coord_utm}, {coord_ups_north}, {coord_ups_south}, {coord_mgrs}, {coord_mgrs_northpolar}, {coord_mgrs_southpolar}, {comma_decimal}, {coord_use_lonlat}, {in_coor_system}, {in_custom_locations}, {fuzzy_match}, {max_features_extracted}, {ignore_first_features}, {date_monthname}, {date_m_d_y}, {date_yyyymmdd}, {date_yymmdd}, {date_yyjjj}, {max_dates_extracted}, {ignore_first_dates}, {date_range_begin}, {date_range_end}, {in_custom_attributes}, {file_link}, {file_mod_datetime}, {pre_text_length}, {post_text_length}, {std_coord_fmt}, {req_word_breaks})
Nom | Explication | Type de données |
in_file | Fichier en entrée numérisé pour les emplacements (coordonnées ou emplacements personnalisés), dates et attributs personnalisés ; ou un dossier dans lequel tous les fichiers vont être scannés pour emplacements. | File |
out_feature_class | Classe d’entités contenant les entités ponctuelles qui représentent les localisations qui ont été trouvées. | Feature Class |
in_template (Facultatif) | Fichier de modèle (*.lxttmpl) qui détermine la définition à utiliser pour chaque paramètre de l’outil. Lorsqu’un fichier de modèle est fourni, toutes les valeurs spécifiées pour d’autres paramètres sont ignorées, à l’exception de celles qui déterminent le contenu en entrée qui sera traité et la classe d’entités en sortie. Certains paramètres de la fenêtre Extract Locations (Extraire les localisations) ne sont disponibles avec cet outil que s’ils sont enregistrés dans un fichier de modèle et que ce dernier est référencé dans ce paramètre. Ces paramètres sont les suivants :
| File |
coord_dd_latlon (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format latitude et longitude (faux positifs rares). Exemples : 33.8N 77.035W et W77N38.88909.
| Boolean |
coord_dd_xydeg (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format X Y avec symboles de degrés (faux positifs rares). Exemples : 38.8° -77.035° et -077d+38.88909d.
| Boolean |
coord_dd_xyplain (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés décimaux au format X Y sans aucun symbole (faux positifs rares). Exemples : 38.8 -77.035 et -077.0, +38.88909.
| Boolean |
coord_dm_latlon (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes décimales au format latitude et longitude (faux positifs rares). Exemples : 3853.3N 7702.100W et W7702N3853.3458.
| Boolean |
coord_dm_xymin (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes décimales au format X Y avec symboles de degrés (faux positifs rares). Exemples : 3853' -7702.1' et -07702m+3853.3458m.
| Boolean |
coord_dms_latlon (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format latitude et longitude (faux positifs rares). Exemples : 385320.7N 770206.000W et W770206N385320.76.
| Boolean |
coord_dms_xysec (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format X Y avec symboles de secondes (faux positifs rares). Exemples : 385320" -770206.0" et -0770206.0s+385320.76s.
| Boolean |
coord_dms_xysep (Facultatif) | Spécifie s’il faut rechercher les coordonnées stockées sous forme de degrés minutes secondes au format X Y avec séparateurs (faux positifs à fréquence modérée). Exemples : 8:53:20 -77:2:6.0 et -077/02/06/+38/53/20.76.
| Boolean |
coord_utm (Facultatif) | Spécifie s’il faut rechercher les coordonnées de projection transverse universelle de Mercator (UTM) (faux positifs modérés). Exemples : 18S 323503 4306438 et 18 north 323503.25 4306438.39.
| Boolean |
coord_ups_north (Facultatif) | Spécifie s’il faut rechercher les coordonnées de projection stéréographique polaire universelle (UPS) dans la zone du pôle Nord (faux positifs rares). Exemples : Y 2722399 2000000 et north 2722399 2000000.
| Boolean |
coord_ups_south (Facultatif) | Spécifie s’il faut rechercher les coordonnées de projection stéréographique polaire universelle (UPS) dans la zone du pôle Sud (faux positifs rares). Exemples : A 2000000 3168892 et south 2000000 3168892.
| Boolean |
coord_mgrs (Facultatif) | Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) (faux positifs rares). Exemples : 18S UJ 13503 06438 et 18SUJ0306.
| Boolean |
coord_mgrs_northpolar (Facultatif) | Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) dans la zone du pôle Nord (faux positifs rares). Exemples : Y TG 56814 69009 et YTG5669.
| Boolean |
coord_mgrs_southpolar (Facultatif) | Spécifie s’il faut rechercher les coordonnées MGRS (Military Grid Reference System) dans la zone du pôle Sud (faux positifs à fréquence modérée). Exemples : A TN 56814 30991 et ATN5630.
| Boolean |
comma_decimal (Facultatif) | Spécifie si une virgule (,) est reconnue comme séparateur décimal. Par défaut, l’analyse de contenu recherche des coordonnées spatiales définies par des nombres utilisant un point (.) ou un point médian (·) comme séparateur décimal, par exemple : Lat 01° 10·80’ N Long 103° 28·60’ E. Si dans le contenu sur lequel vous travaillez, les coordonnées spatiales sont définies par des nombres utilisant une virgule (,) comme séparateur décimal (52° 8′ 32,14″ N; 5° 24′ 56,09″ E, par exemple), définissez ce paramètre afin que la virgule, et non le point, soit reconnue comme séparateur décimal. Ce paramètre n’est pas défini automatiquement en fonction des paramètres régionaux du système d’exploitation de votre ordinateur.
| Boolean |
coord_use_lonlat (Facultatif) | Lorsque des nombres ressemblent à des coordonnées x,y, que les deux nombres sont inférieurs à 90 et qu’aucun symbole ou notation n’indique quel nombre représente la latitude ou la longitude, les résultats peuvent être ambigus. Ce paramètre permet d’interpréter les nombres comme une coordonnée de longitude-latitude (x,y) et non comme une coordonnée de latitude-longitude (y,x).
| Boolean |
in_coor_system (Facultatif) | Système de coordonnées utilisé pour interpréter les coordonnées spatiales définies dans l’entrée. GCS-WGS-84 est la valeur par défaut. | Spatial Reference |
in_custom_locations (Facultatif) | Fichier de localisations personnalisées (.lxtgaz) utilisé pour analyser le contenu en entrée. Un point est créé pour représenter chaque occurrence de chaque nom de lieu dans le fichier de localisations, dans les limites définies par d’autres paramètres de l’outil. | File |
fuzzy_match (Facultatif) | Spécifie si l’appariement flou est utilisé pour effectuer des recherches dans le fichier de localisations.
| Boolean |
max_features_extracted (Facultatif) | Nombre maximal d’entités pouvant être extraites. L’outil cesse l’analyse du contenu en entrée à la recherche de localisations lorsque le nombre maximal est atteint. Si l’outil est exécuté en tant que service de géotraitement, le service et le serveur peuvent avoir des limites distinctes quant au nombre d’entités autorisées. | Long |
ignore_first_features (Facultatif) | Nombre d’entités détectées et ignorées avant d’extraire toutes les autres entités. Ce paramètre peut être utilisé pour cibler la recherche sur une portion spécifique des données. | Long |
date_monthname (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles figure le nom du mois (faux positifs rares). Exemples : 12 May 2003 et January 15, 1997.
| Boolean |
date_m_d_y (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format M/J/AA ou J/M/AA (faux positifs à fréquence modérée). Exemples : 5/12/03 et 1-15-1997.
| Boolean |
date_yyyymmdd (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAAAMMJJ (faux positifs à fréquence modérée). Exemples : 20030512 et 19970115.
| Boolean |
date_yymmdd (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAMMJJ (faux positifs fréquents). Exemples : 030512 et 970115.
| Boolean |
date_yyjjj (Facultatif) | Spécifie s’il faut rechercher les dates dans lesquelles les chiffres sont au format AAJJJ ou AAAAJJJ (faux positifs fréquents). Exemples : 03132 et 97015.
| Boolean |
max_dates_extracted (Facultatif) | Nombre maximal de dates qui seront extraites. | Long |
ignore_first_dates (Facultatif) | Nombre de dates qui sont détectées et ignorées avant d’extraire toutes les autres dates. | Long |
date_range_begin (Facultatif) | Date la plus ancienne acceptable à extraire. Les dates détectées correspondant à cette valeur ou à une valeur plus récente sont extraites. | Date |
date_range_end (Facultatif) | Date la plus récente acceptable à extraire. Les dates détectées correspondant à cette valeur ou à une valeur plus ancienne sont extraites. | Date |
in_custom_attributes (Facultatif) | Fichier attributaire personnalisé (.lxtca) utilisé pour analyser le contenu en entrée. Les champs sont créés dans la table attributaire de la classe d’entités en sortie pour tous les attributs personnalisés définis dans le fichier. Lors de l’analyse du contenu en entrée, l’examen vise à rechercher s’il contient du texte associé à tous les attributs personnalisés spécifiés dans le fichier. Lorsqu’une correspondance est trouvée, le texte concerné est extrait du contenu en entrée et stocké dans le champ approprié. | File |
file_link (Facultatif) | Chemin d’accès au fichier utilisé comme nom du fichier dans les données en sortie lorsque le paramètre Input File (Fichier en entrée) (in_file dans Python) est transféré sur le serveur. Si ce paramètre n’est pas spécifié, le chemin du Input File (Fichier en entrée) est utilisé, mais il peut correspondre à un dossier inaccessible sur le serveur. Ce paramètre n’a aucun effet lorsque le champ Input File (Fichier en entrée) n’est pas renseigné. | String |
file_mod_datetime (Facultatif) | Date et heure UTC de modification du fichier, utilisées comme attribut modifié dans les données en sortie lorsque le paramètre Input File (Fichier en entrée) (in_file dans Python) est transféré sur le serveur. Si ce paramètre n’est pas spécifié, la date/heure actuelle de modification du fichier en entrée est utilisée. Ce paramètre n’a aucun effet lorsque le champ Input File (Fichier en entrée) n’est pas renseigné. | Date |
pre_text_length (Facultatif) | Le contenu est extrait du document en entrée afin de fournir le contexte de la localisation trouvée. Ce paramètre définit le nombre maximal de caractères qui sera extrait avant le texte qui définit la localisation. Le texte extrait est stocké dans le champ Pre-Text de la table attributaire de la classe d’entités en sortie. La valeur par défaut est 254. Le type de données du champ Pre-Text a également cette longueur. La longueur d’un champ de texte dans un shapefile est limitée à 254 caractères. Aussi, si la sortie est un shapefile et que le nombre de caractères dépasse cette limite, il est tronqué à 254. | Long |
post_text_length (Facultatif) | Le contenu est extrait du document en entrée afin de fournir le contexte de la localisation trouvée. Ce paramètre définit le nombre maximal de caractères qui sera extrait après le texte qui définit la localisation. Le texte extrait est stocké dans le champ Post-Text de la table attributaire de la classe d’entités en sortie. La valeur par défaut est 254. Le type de données du champ Post-Text a également cette longueur. La longueur d’un champ de texte dans un shapefile est limitée à 254 caractères. Aussi, si la sortie est un shapefile et que le nombre de caractères dépasse cette limite, il est tronqué à 254. | Long |
std_coord_fmt (Facultatif) | Spécifie le format de coordonnées utilisé pour stocker la localisation des coordonnées. Une représentation standard des coordonnées spatiales qui définissent l’entité ponctuelle est enregistrée dans un champ de la table attributaire.
| String |
req_word_breaks (Facultatif) | Spécifie s’il faut rechercher du texte à l’aide de la césure de mot. Une césure de mot se produit lorsqu’un mot (texte) est précédé ou suivi d’un espace ou d’un caractère de ponctuation, comme cela arrive dans les langues européennes. Ce paramètre peut générer des faux positifs rares ou fréquents, selon la langue du texte. Par exemple, si les césures de mots ne sont pas demandées, le texte en anglais Bernard sera une correspondance pour le texte San Bernardino, qui sera probablement considéré comme un faux positif. En revanche, lorsque le texte est rédigé dans une langue qui n’utilise pas les césures, vous ne pourrez pas trouver des mots si ces dernières sont demandées. Par exemple, dans le texte en japonais I flew to Tokyo (J’ai pris l’avion pour Tokyo), 私は東京に飛んで, seul le mot Tokyo, 東京, est trouvé si les césures ne sont pas demandées.
| Boolean |
Exemple de code
Le script de fenêtre Python ci-dessous illustre l'utilisation de la fonction ExtractLocationsFromDocument en mode immédiat.
import arcpy
arcpy.env.workspace = "c:/data"
arcpy.conversion.ExtractLocationsFromDocument("wells.docx", "water.gdb/wells")
Environnements
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?