Extraer ubicaciones de un documento (Conversión)

Disponible con licencia de LocateXT.

Resumen

Analiza documentos con texto sin estructurar o semiestructurado, como mensajes de correo electrónico, formularios de viaje, etc., y extrae las ubicaciones a una clase de entidad de punto.

La herramienta analiza y procesa los documentos de entrada de esta forma:

  • Reconoce coordenadas espaciales especificadas en el contenido de los documentos y crea puntos que representan estas ubicaciones. Se reconocen los siguientes formatos de coordenadas: grados decimales, grados minutos decimales, grados minutos segundos, proyección universal transversal de Mercator y Sistema de Referencia de Cuadrícula Militar.
  • Reconoce nombres de lugares especificados en el contenido de los documentos definidos en un archivo de ubicaciones personalizadas y crea puntos que representan estas ubicaciones. Un archivo de ubicaciones personalizadas asocia el nombre de un lugar con coordenadas espaciales que representan esa ubicación.
  • Reconoce texto de interés, extrae esa información de un documento y la registra en campos de la tabla de atributos de la clase de entidad de salida.

Esta herramienta admite todos los documentos de Microsoft Office (Word, PowerPoint y Excel), documentos de Adobe PDF; texto marcado como documentos XML y HTML, así como cualquier archivo con texto plano como archivos de texto (.txt).

Uso

  • Los valores predeterminados del parámetro están diseñados para optimizar la identificación de coordenadas y fechas. Los valores predeterminados de cada parámetro pueden modificarse. Cuantos menos parámetros se modifican, más rápido se ejecuta la herramienta.

  • Todos los formatos de coordenadas están activos de forma predeterminada. Si desea extraer ubicaciones personalizadas solamente, pero no quiere extraer coordenadas espaciales, desactive los parámetros de formato de coordenadas.

  • Si se proporciona un documento PDF de Adobe como entrada y su contenido incluye una coordenada espacial en un formato que está activado, y la clase de entidades de salida no contiene una entidad que represente la coordenada espacial, es posible que su equipo tenga un componente que se necesite para procesar documentos PDF.

    Más información sobre el escaneo de archivos

  • Cuando utiliza un archivo de ubicaciones personalizadas para extraer nombres de lugares, resulta una práctica adecuada especificar menos nombres de lugares en el archivo. Por ejemplo, si convierte una clase de entidad que representa todos los lugares del mundo en un archivo de ubicaciones personalizadas, el proceso puede tardar mucho en realizarse cuando se trata de lugares que es poco probable que estén presentes o se encuentren en zonas del mundo que no le interesan a la hora de hacer el análisis.

    Más información sobre los archivos de ubicaciones personalizadas

  • Cuando los nombres de lugares en los que está interesado pueden deletrearse de manera incorrecta o tienen variaciones conocidas, se suelen obtener mejores resultados si se especifican los errores ortográficos habituales y los nombres de lugares alternativos en el archivo de ubicaciones personalizadas en lugar de utilizar la coincidencia aproximada. Cuando la coincidencia aproximada está activada, se obtiene una ubicación de salida si el 70 por ciento de los caracteres del nombre del lugar tienen una coincidencia con el contenido de entrada. Este puede dar lugar a más falsos positivos que si proporciona alternativas conocidas y errores ortográficos.

    Un flujo de trabajo útil para la coincidencia aproximada consiste en ejecutar primero la herramienta con la coincidencia aproximada desactivada. Luego, hay que ejecutar la herramienta otra vez con la coincidencia aproximada activada y comprobar los resultados. Esto puede ayudar a identificar las variaciones ortográficas que se pueden agregar a los archivos de ubicaciones personalizadas.

    Más información sobre la coincidencia aproximada

Parámetros

EtiquetaExplicaciónTipo de datos
Archivo de entrada

El archivo de entrada que se escaneará en busca de ubicaciones (coordenadas o ubicaciones personalizadas), fechas y atributos personalizados, o una carpeta cuyos archivos se escanearán en su totalidad en busca de ubicaciones.

File
Clase de entidad de salida

Clase de entidad que contiene entidades de punto que representan las ubicaciones que se encuentran.

Feature Class
Plantilla de entrada
(Opcional)

Archivo de plantilla (*.lxttmpl) que determina la configuración que se va a utilizar en cada parámetro de la herramienta. Cuando se proporciona un archivo de plantilla, todos los valores especificados para otros parámetros se ignorarán, excepto los que determinan el contenido de entrada que se procesará y la clase de entidad de salida.

Algunos ajustes que están disponibles en el panel Extraer ubicaciones solo están a disposición de esta herramienta cuando la configuración se guarda en un archivo de plantilla y el archivo de plantilla se menciona en este parámetro. Estos ajustes son los siguientes:

  • Coordenadas espaciales en formato x, y: permite reconocer como coordenadas dos números consecutivos, como 630084 4833438 o 981075.652ftUS 607151.272ftUS, cuando son válidos para un sistema de coordenadas planas asociado con los documentos de entrada. Puede especificar si se reconocen como coordenadas los números con o sin unidades, o solo los números con unidades de medida.
  • Formatos de fecha y coordenadas personalizados: permite personalizar cómo se reconoce el texto como una coordenada espacial o una fecha, en particular cuando se escribe en un idioma distinto del inglés o que utiliza un formato que no es común en Estados Unidos. Por ejemplo, una coordenada espacial escrita como 30 20 10 N x 060 50 40 W puede reconocerse con una personalización con el fin de reconocer el carácter x como texto válido entre la longitud y la latitud. Las coordenadas y las fechas como 60.91°N, 147.34°O y 17 juillet, 2018 pueden reconocerse cuando se especifican personalizaciones para adaptar el idioma de los documentos, en este caso, francés. Asimismo, cuando se utilizan años de dos cifras, puede controlar el intervalo de años con los que se establecen coincidencias.
  • Preferencias de algunas fechas ambiguas: fechas como 10/12/2019 son ambiguas porque pueden interpretarse como 12 de octubre de 2019 o 10 de diciembre de 2019. Algunos países utilizan el formato de fecha m/d/aa como estándar, mientras que otros usan el formato d/m/aa. Se puede establecer una preferencia en cuanto a la forma de interpretar estas fechas ambiguas, ya sea como m/d/aa o d/m/aa, para adecuarse al país de origen de los documentos.
  • Longitud de los campos de la clase de entidad de salida: puede especificar la longitud de los campos que contienen coordenadas espaciales en torno al texto que se extraen de un documento que utiliza los parámetros Longitud de campo pre-texto pre_text_length (en Python) y Longitud de campo post-texto (post_text_length en Python). El panel Extraer ubicaciones permite controlar la longitud de varios campos adicionales de la tabla de atributos, incluidos los campos que contienen las fechas extraídas del documento, el texto original que se ha convertido en fechas, el nombre de archivo del que se extrae la información, etc.

File
Latitud y longitud
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados decimales con formato de latitud y longitud (falsos positivos poco frecuentes). Los ejemplos son: 33.8N 77.035W y W77N38.88909.

  • Activado: la herramienta buscará coordenadas en grados decimales formateadas como latitud y longitud. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados decimales formateadas como latitud y longitud.
Boolean
X Y con símbolos de grado
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados decimales formateados como X Y con símbolos de grados (falsos positivos poco frecuentes). Los ejemplos son: 38.8° -77.035° y -077d+38.88909d.

  • Activado: la herramienta buscará coordenadas en grados decimales formateadas como X Y con símbolos de grados. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados decimales formateadas como X Y con símbolos de grados.
Boolean
X Y sin símbolos
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados decimales formateados como X Y sin símbolos (falsos positivos frecuentes). Los ejemplos son: 38.8 -77.035 y -077.0, +38.88909.

  • Activado: la herramienta buscará coordenadas en grados decimales formateadas como X Y sin símbolos (falsos positivos frecuentes). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados decimales formateadas como X Y sin símbolos.
Boolean
Latitud y longitud
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como minutos grados decimales con formato de latitud y longitud (falsos positivos poco frecuentes). Los ejemplos son: 3853.3N 7702.100W y W7702N3853.3458.

  • Activado: la herramienta buscará coordenadas en minutos grados decimales formateadas como latitud y longitud. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en minutos grados decimales formateadas como latitud y longitud.
Boolean
X Y con símbolos de minutos
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como minutos grados decimales con formato X Y con símbolos de minutos (falsos positivos poco frecuentes). Los ejemplos son: 3853' -7702.1' y -07702m+3853.3458m.

  • Activado: la herramienta buscará coordenadas en minutos grados decimales con formato X Y con símbolos de minutos. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en minutos grados decimales con formato X Y con símbolos de minutos.
Boolean
Latitud y longitud
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados minutos segundos con formato de latitud y longitud (falsos positivos poco frecuentes). Los ejemplos son: 385320.7N 770206.000W y W770206N385320.76.

  • Activado: la herramienta buscará coordenadas en grados minutos segundos formateadas como latitud y longitud. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados minutos segundos formateadas como latitud y longitud.
Boolean
X Y con símbolos de segundos
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados minutos segundos con formato X Y con símbolos de segundos (falsos positivos poco frecuentes). Los ejemplos son: 385320" -770206.0" y -0770206.0s+385320.76s.

  • Activado: la herramienta buscará coordenadas en grados minutos segundos con formato X Y con símbolos de segundos. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados minutos segundos con formato X Y con símbolos de segundos.
Boolean
X Y con separadores
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados minutos segundos con formato X Y con separadores (falsos positivos moderados). Los ejemplos son: 38:53:20 -77:2:6.0 y -077/02/06/+38/53/20.76.

  • Activado: la herramienta buscará coordenadas en grados minutos segundos con formato X Y con separadores. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados minutos segundos con formato X Y con separadores.
Boolean
Proyección universal transversal de Mercator
(Opcional)

Especifica si se debe buscar coordenadas de la proyección universal transversal de Mercator (UTM) (falsos positivos poco frecuentes). Los ejemplos son: 18S 323503 4306438 y 18 north 323503.25 4306438.39.

  • Activado: la herramienta buscará coordenadas UTM. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas UTM.
Boolean
UPS del Polo Norte
(Opcional)

Especifica si se debe buscar coordenadas de la proyección estereográfica polar universal (falsos positivos poco frecuentes). Los ejemplos son: Y 2722399 2000000 y north 2722399 2000000.

  • Activado: la herramienta buscará coordenadas UPS en el norte polar. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas UPS en el norte polar.
Boolean
UPS del Polo Sur
(Opcional)

Especifica si se debe buscar coordenadas de la proyección estereográfica polar universal en el sur polar (falsos positivos poco frecuentes). Los ejemplos son: A 2000000 3168892 y south 2000000 3168892.

  • Activado: la herramienta buscará coordenadas UPS en el sur polar. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas UPS en el sur polar.
Boolean
Sistema de Referencia de Cuadrícula Militar de EE.UU.
(Opcional)

Especifica si se debe buscar coordenadas del sistema de referencia de cuadrícula militar (MGRS) (falsos positivos poco frecuentes). Los ejemplos son: 18S UJ 13503 06438 y 18SUJ0306.

  • Activado: la herramienta buscará coordenadas MGRS. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas MGRS.
Boolean
Polar norte
(Opcional)

Especifica si se debe buscar coordenadas del sistema de referencia de cuadrícula militar (MGRS) en el norte polar (falsos positivos poco frecuentes). Los ejemplos son: Y TG 56814 69009 y YTG5669.

  • Activado: la herramienta buscará coordenadas MGRS en el norte polar. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas MGRS en el norte polar.
Boolean
Polar sur
(Opcional)

Especifica si se debe buscar coordenadas del sistema de referencia de cuadrícula militar (MGRS) en el norte polar (falsos positivos poco moderados). Los ejemplos son: A TN 56814 30991 y ATN5630.

  • Activado: la herramienta buscará coordenadas MGRS en el sur polar. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas MGRS en el sur polar.
Boolean
Usar coma como separador decimal
(Opcional)

Especifica si se reconocerá la coma (,) como separador decimal. De forma predeterminada, el contenido se escanea en busca de coordenadas espaciales definidas por números que utilicen un punto (.) o un punto medio (·) como separador decimal, por ejemplo: Lat 01° 10·80’ N Long 103° 28·60’ E. Si trabaja con contenido en el que las coordenadas espaciales están definidas por números que utilizan una coma (,) como separador decimal (por ejemplo, 52° 8′ 32,14″ N; 5° 24′ 56,09″ E), configure este parámetro para reconocer una coma como separador decimal en su lugar. Este parámetro no se configura automáticamente en función de la configuración regional del sistema operativo de su equipo.

  • Activado: se reconocerá la coma como separador decimal.
  • Desactivado: no se reconocerá el punto o el punto medio como separador decimal. Esta es la opción predeterminada.
Boolean
Interpretar como longitud, latitud
(Opcional)

Especifica si las coordenadas x,y se interpretarán como longitud-latitud. Cuando los números se asemejen a coordenadas x,y, ambos números sean inferiores a 90 y no haya ni símbolos ni notaciones que indiquen qué número representa la latitud o la longitud, los resultados pueden ser ambiguos. Interprete los números como coordenada de longitud-latitud (x,y) en lugar de latitud-longitud (y,x).

  • Activado: las coordenadas x,y se interpretarán como longitud-latitud.
  • Desactivado: las coordenadas x,y se interpretarán como latitud-longitud. Esta es la opción predeterminada.
Boolean
Sistema de coordenadas de entrada
(Opcional)

El sistema de coordenadas se utilizará para interpretar las coordenadas espaciales definidas en la entrada. GCS-WGS-84 es el valor predeterminado.

Spatial Reference
Ubicaciones personalizadas de entrada
(Opcional)

Archivo de ubicaciones personalizadas (.lxtgaz) que se utilizará al escanear el contenido de entrada. Se crea un punto para representar cada repetición del nombre de cada lugar en el archivo de ubicaciones personalizadas hasta los límites establecidos por otros parámetros de la herramienta.

File
Usar coincidencia aproximada
(Opcional)

Especifica si la coincidencia aproximada se utilizará al comparar el contenido de entrada con los nombres de lugares especificados en el archivo de ubicaciones personalizadas.

  • Activado: la coincidencia aproximada se utilizará al hacer búsquedas en el archivo de ubicaciones personalizadas.
  • Desactivado: al hacer búsquedas en el archivo de ubicaciones personalizadas se utilizará la coincidencia exacta. Esta es la opción predeterminada.
Boolean
Máximo de entidades extraídas
(Opcional)

Número máximo de entidades que pueden extraerse. La herramienta dejará de buscar ubicaciones en el contenido de entrada cuando se alcance el número máximo. Cuando se ejecute como servicio de geoprocesamiento, el servicio y el servidor podrían tener límites separados en cuanto al número de entidades permitido.

Long
Ignorar este primer número de entidades
(Opcional)

Número de entidades detectadas e ignoradas antes de extraer las demás entidades. Este parámetro puede utilizarse para centrar la búsqueda en partes concretas de los datos.

Long
Nombre de mes utilizado
(Opcional)

Especifica si se deben buscar fechas en las que aparece el nombre del mes (falsos positivos poco frecuentes). 12 May 2003 y January 15, 1997 son ejemplos.

  • Activado: la herramienta buscará fechas en las que aparezca el nombre del mes. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que aparezca el nombre del mes.
Boolean
M/D/A y D/M/A
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato M/D/A o D/M/A (falsos positivos moderados). 5/12/03 y 1-15-1997 son ejemplos.

  • Activado: la herramienta buscará fechas en las que los números estén en formato M/D/A o D/M/A (falsos positivos moderados). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que los números estén en formato M/D/A o D/M/A.
Boolean
AAAAMMDD
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato AAAAMMDD (falsos positivos moderados). 20030512 y 19970115 son ejemplos.

  • Activado: la herramienta buscará fechas en las que los números estén en formato AAAAMMDD (falsos positivos moderados). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que los números estén en formato AAAAMMDD.
Boolean
AAMMDD
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato AAMMDD (falsos positivos frecuentes). 030512 y 970115 son ejemplos.

  • Activado: la herramienta buscará fechas en las que los números estén en formato AAMMDD (falsos positivos frecuentes). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que los números estén en formato AAMMDD.
Boolean
YYJJJ
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato AAJJJ o AAAAJJJ (falsos positivos frecuentes). 03132 y 97015 son ejemplos.

  • Activado: la herramienta buscará fechas en las que los números estén en formato AAJJJ o AAAAJJJ (falsos positivos frecuentes). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que los números estén en formato AAJJJ o AAAAJJJ.
Boolean
Máximo de fechas extraídas
(Opcional)

Número máximo de fechas que se extraerá.

Long
Ignorar este primer número de fechas
(Opcional)

Número de fechas que se detectarán e ignorarán antes de extraer las demás fechas.

Long
Fecha más temprana del rango de fechas aceptable
(Opcional)

Fecha más temprana aceptable que se va a extraer. Se extraerán las fechas detectadas que coincidan con este valor o posteriores.

Date
Fecha más tardía del rango de fechas aceptable
(Opcional)

Última fecha aceptable que se va a extraer. Se extraerán las fechas detectadas que coincidan con este valor o anteriores.

Date
Atributos personalizados de entrada
(Opcional)

Archivo de atributos personalizados (.lxtca) que se utilizará al escanear el contenido de entrada. En la tabla de atributos de la clase de entidad de salida se crearán campos para todos los atributos personalizados definidos en el archivo. Cuando se escanea el contenido de entrada, se examinará para determinar si contiene texto asociado con todos los atributos personalizados especificados en el archivo. Cuando se encuentra una coincidencia, se extrae el texto adecuado del contenido de entrada y se almacena en el campo apropiado.

File
Texto de vínculo del archivo de entrada
(Opcional)

La ruta del archivo se utilizará como nombre de archivo en los datos de salida cuando el parámetro Archivo de entrada (in_file en Python) se transfiere al servidor. Si no se especifica este parámetro, se utilizará la ruta del archivo de entrada, que puede ser una carpeta no accesible de un servidor. Este parámetro no surte efecto si no se especifica el archivo de entrada.

String
Fecha y hora del archivo de entrada
(Opcional)

La fecha y la hora UTC en la que se modifica el archivo se utilizará como atributo modificado en los datos de salida cuando el parámetro Archivo de entrada (in_file en Python) se transfiere al servidor. Si no se especifica este parámetro, se utilizará la hora de modificación real del archivo de entrada. Este parámetro no surte efecto si no se especifica el archivo de entrada.

Date
Longitud del campo de texto previo
(Opcional)

El contenido se extrae del documento de entrada para proporcionar contexto para la ubicación que se ha encontrado. Este parámetro define el número máximo de caracteres que se extraerá y que precede al texto que define la ubicación. El texto extraído se almacena en el campo Pre-Text de la tabla de atributos de la clase de entidad de salida. El valor predeterminado es 254. El tipo de datos del campo Pre-Text también tendrá esta longitud. La longitud de un campo de texto de un shapefile se limita a 254 caracteres; la longitud se truncará según este valor cuando se supere el número de caracteres.

Long
Longitud del campo de texto posterior
(Opcional)

El contenido se extrae del documento de entrada para proporcionar contexto para la ubicación que se ha encontrado. Este parámetro define el número máximo de caracteres que se extraerá y que sigue al texto que define la ubicación. El texto extraído se almacena en el campo Post-Text de la tabla de atributos de la clase de entidad de salida. El valor predeterminado es 254. El tipo de datos del campo Post-Text también tendrá esta longitud. La longitud de un campo de texto de un shapefile se limita a 254 caracteres; la longitud se truncará según este valor cuando se supere el número de caracteres.

Long
Formato de coordenadas
(Opcional)

Especifica el formato de coordenadas que se utilizará para almacenar la ubicación de las coordenadas. La representación de la coordenada espacial que define la entidad de punto queda registrada en un campo de la tabla de atributos.

  • DD - Grados decimalesLa ubicación de las coordenadas se registra en formato de grados decimales. Esta es la opción predeterminada.
  • DM - Grados minutos decimalesLa ubicación de las coordenadas se registra en formato de minutos grados decimales.
  • DMS - Grados minutos segundosLa ubicación de las coordenadas se registra en formato de grados minutos segundos.
  • UTM - Proyección universal transversal de MercatorLa ubicación de las coordenadas se registra en formato de proyección universal transversa de Mercator.
  • MGRS - Sistema de Referencia de Cuadrícula MilitarLa ubicación de las coordenadas se registra en formato del sistema de referencia de cuadrícula militar.
String
Se requieren guiones de separación de palabras
(Opcional)

Especifica si se debe buscar texto mediante el uso de guiones de separación de palabras. El guion de separación de palabras se usa cuando las palabras (texto) están delimitadas por caracteres de espacios en blanco o puntuación, como en los idiomas europeos.

Esta configuración puede producir falsos positivos frecuentes o falsos positivos infrecuentes dependiendo del idioma del texto. Por ejemplo, cuando no se requieran guiones de separación de palabras, el texto inglés Bernard generará una coincidencia con el texto San Bernardino, lo que probablemente se considere un falso positivo. Sin embargo, cuando el texto se escribe con un idioma que no utiliza guiones de separación de palabras, no es posible encontrar palabras si se requieren estos guiones. Por ejemplo, con el texto Viajé a Tokio en japonés, 私は東京に飛んで, solo podría encontrar la palabra Tokio, 東京, cuando no se requieren guiones de separación de palabras.

  • Activado: la herramienta buscará palabras que están delimitadas por caracteres de espacios en blanco o puntuación. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará palabras que están delimitadas por caracteres de espacios en blanco o puntuación.
Boolean

arcpy.conversion.ExtractLocationsDocument(in_file, out_feature_class, {in_template}, {coord_dd_latlon}, {coord_dd_xydeg}, {coord_dd_xyplain}, {coord_dm_latlon}, {coord_dm_xymin}, {coord_dms_latlon}, {coord_dms_xysec}, {coord_dms_xysep}, {coord_utm}, {coord_ups_north}, {coord_ups_south}, {coord_mgrs}, {coord_mgrs_northpolar}, {coord_mgrs_southpolar}, {comma_decimal}, {coord_use_lonlat}, {in_coor_system}, {in_custom_locations}, {fuzzy_match}, {max_features_extracted}, {ignore_first_features}, {date_monthname}, {date_m_d_y}, {date_yyyymmdd}, {date_yymmdd}, {date_yyjjj}, {max_dates_extracted}, {ignore_first_dates}, {date_range_begin}, {date_range_end}, {in_custom_attributes}, {file_link}, {file_mod_datetime}, {pre_text_length}, {post_text_length}, {std_coord_fmt}, {req_word_breaks})
NombreExplicaciónTipo de datos
in_file

El archivo de entrada que se escaneará en busca de ubicaciones (coordenadas o ubicaciones personalizadas), fechas y atributos personalizados, o una carpeta cuyos archivos se escanearán en su totalidad en busca de ubicaciones.

File
out_feature_class

Clase de entidad que contiene entidades de punto que representan las ubicaciones que se encuentran.

Feature Class
in_template
(Opcional)

Archivo de plantilla (*.lxttmpl) que determina la configuración que se va a utilizar en cada parámetro de la herramienta. Cuando se proporciona un archivo de plantilla, todos los valores especificados para otros parámetros se ignorarán, excepto los que determinan el contenido de entrada que se procesará y la clase de entidad de salida.

Algunos ajustes que están disponibles en el panel Extraer ubicaciones solo están a disposición de esta herramienta cuando la configuración se guarda en un archivo de plantilla y el archivo de plantilla se menciona en este parámetro. Estos ajustes son los siguientes:

  • Coordenadas espaciales en formato x, y: permite reconocer como coordenadas dos números consecutivos, como 630084 4833438 o 981075.652ftUS 607151.272ftUS, cuando son válidos para un sistema de coordenadas planas asociado con los documentos de entrada. Puede especificar si se reconocen como coordenadas los números con o sin unidades, o solo los números con unidades de medida.
  • Formatos de fecha y coordenadas personalizados: permite personalizar cómo se reconoce el texto como una coordenada espacial o una fecha, en particular cuando se escribe en un idioma distinto del inglés o que utiliza un formato que no es común en Estados Unidos. Por ejemplo, una coordenada espacial escrita como 30 20 10 N x 060 50 40 W puede reconocerse con una personalización con el fin de reconocer el carácter x como texto válido entre la longitud y la latitud. Las coordenadas y las fechas como 60.91°N, 147.34°O y 17 juillet, 2018 pueden reconocerse cuando se especifican personalizaciones para adaptar el idioma de los documentos, en este caso, francés. Asimismo, cuando se utilizan años de dos cifras, puede controlar el intervalo de años con los que se establecen coincidencias.
  • Preferencias de algunas fechas ambiguas: fechas como 10/12/2019 son ambiguas porque pueden interpretarse como 12 de octubre de 2019 o 10 de diciembre de 2019. Algunos países utilizan el formato de fecha m/d/aa como estándar, mientras que otros usan el formato d/m/aa. Se puede establecer una preferencia en cuanto a la forma de interpretar estas fechas ambiguas, ya sea como m/d/aa o d/m/aa, para adecuarse al país de origen de los documentos.
  • Longitud de los campos de la clase de entidad de salida: puede especificar la longitud de los campos que contienen coordenadas espaciales en torno al texto que se extraen de un documento que utiliza los parámetros Longitud de campo pre-texto pre_text_length (en Python) y Longitud de campo post-texto (post_text_length en Python). El panel Extraer ubicaciones permite controlar la longitud de varios campos adicionales de la tabla de atributos, incluidos los campos que contienen las fechas extraídas del documento, el texto original que se ha convertido en fechas, el nombre de archivo del que se extrae la información, etc.

File
coord_dd_latlon
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados decimales con formato de latitud y longitud (falsos positivos poco frecuentes). Los ejemplos son: 33.8N 77.035W y W77N38.88909.

  • FIND_DD_LATLONLa herramienta buscará coordenadas en grados decimales formateadas como latitud y longitud. Esta es la opción predeterminada.
  • DONT_FIND_DD_LATLONLa herramienta no buscará coordenadas en grados decimales formateadas como latitud y longitud.
Boolean
coord_dd_xydeg
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados decimales formateados como X Y con símbolos de grados (falsos positivos poco frecuentes). Los ejemplos son: 38.8° -77.035° y -077d+38.88909d.

  • FIND_DD_XYDEGLa herramienta buscará coordenadas en grados decimales formateadas como X Y con símbolos de grados. Esta es la opción predeterminada.
  • DONT_FIND_DD_XYDEGLa herramienta no buscará coordenadas en grados decimales formateadas como X Y con símbolos de grados.
Boolean
coord_dd_xyplain
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados decimales formateados como X Y sin símbolos (falsos positivos frecuentes). Los ejemplos son: 38.8 -77.035 y -077.0, +38.88909.

  • FIND_DD_XYPLAINLa herramienta buscará coordenadas en grados decimales formateadas como X Y sin símbolos (falsos positivos frecuentes). Esta es la opción predeterminada.
  • DONT_FIND_DD_XYPLAINLa herramienta no buscará coordenadas en grados decimales formateadas como X Y sin símbolos.
Boolean
coord_dm_latlon
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como minutos grados decimales con formato de latitud y longitud (falsos positivos poco frecuentes). Los ejemplos son: 3853.3N 7702.100W y W7702N3853.3458.

  • FIND_DM_LATLONLa herramienta buscará coordenadas en minutos grados decimales formateadas como latitud y longitud. Esta es la opción predeterminada.
  • DONT_FIND_DM_LATLONLa herramienta no buscará coordenadas en minutos grados decimales formateadas como latitud y longitud.
Boolean
coord_dm_xymin
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como minutos grados decimales con formato X Y con símbolos de minutos (falsos positivos poco frecuentes). Los ejemplos son: 3853' -7702.1' y -07702m+3853.3458m.

  • FIND_DM_XYMINLa herramienta buscará coordenadas en minutos grados decimales con formato X Y con símbolos de minutos. Esta es la opción predeterminada.
  • DONT_FIND_DM_XYMINLa herramienta no buscará coordenadas en minutos grados decimales con formato X Y con símbolos de minutos.
Boolean
coord_dms_latlon
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados minutos segundos con formato de latitud y longitud (falsos positivos poco frecuentes). Los ejemplos son: 385320.7N 770206.000W y W770206N385320.76.

  • FIND_DMS_LATLONLa herramienta buscará coordenadas en grados minutos segundos formateadas como latitud y longitud. Esta es la opción predeterminada.
  • DONT_FIND_DMS_LATLONLa herramienta no buscará coordenadas en grados minutos segundos formateadas como latitud y longitud.
Boolean
coord_dms_xysec
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados minutos segundos con formato X Y con símbolos de segundos (falsos positivos poco frecuentes). Los ejemplos son: 385320" -770206.0" y -0770206.0s+385320.76s.

  • FIND_DMS_XYSECLa herramienta buscará coordenadas en grados minutos segundos con formato X Y con símbolos de segundos. Esta es la opción predeterminada.
  • DONT_FIND_DMS_XYSECLa herramienta no buscará coordenadas en grados minutos segundos con formato X Y con símbolos de segundos.
Boolean
coord_dms_xysep
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados minutos segundos con formato X Y con separadores (falsos positivos moderados). Los ejemplos son: 8:53:20 -77:2:6.0 y -077/02/06/+38/53/20.76.

  • FIND_DMS_XYSEPLa herramienta buscará coordenadas en grados minutos segundos con formato X Y con separadores. Esta es la opción predeterminada.
  • DONT_FIND_DMS_XYSEPLa herramienta no buscará coordenadas en grados minutos segundos con formato X Y con separadores.
Boolean
coord_utm
(Opcional)

Especifica si se debe buscar coordenadas de la proyección universal transversal de Mercator (UTM) (falsos positivos poco frecuentes). Los ejemplos son: 18S 323503 4306438 y 18 north 323503.25 4306438.39.

  • FIND_UTM_MAINWORLDLa herramienta buscará coordenadas UTM. Esta es la opción predeterminada.
  • DONT_FIND_UTM_MAINWORLDLa herramienta no buscará coordenadas UTM.
Boolean
coord_ups_north
(Opcional)

Especifica si se debe buscar coordenadas de la proyección estereográfica polar universal (falsos positivos poco frecuentes). Los ejemplos son: Y 2722399 2000000 y north 2722399 2000000.

  • FIND_UTM_NORTHPOLARLa herramienta buscará coordenadas UPS en el norte polar. Esta es la opción predeterminada.
  • DONT_FIND_UTM_NORTHPOLARLa herramienta no buscará coordenadas UPS en el norte polar.
Boolean
coord_ups_south
(Opcional)

Especifica si se debe buscar coordenadas de la proyección estereográfica polar universal en el sur polar (falsos positivos poco frecuentes). Los ejemplos son: A 2000000 3168892 y south 2000000 3168892.

  • FIND_UTM_SOUTHPOLARLa herramienta buscará coordenadas UPS en el sur polar. Esta es la opción predeterminada.
  • DONT_FIND_UTM_SOUTHPOLARLa herramienta no buscará coordenadas UPS en el sur polar.
Boolean
coord_mgrs
(Opcional)

Especifica si se debe buscar coordenadas del sistema de referencia de cuadrícula militar (MGRS) (falsos positivos poco frecuentes). Los ejemplos son: 18S UJ 13503 06438 y 18SUJ0306.

  • FIND_MGRS_MAINWORLDLa herramienta buscará coordenadas MGRS. Esta es la opción predeterminada.
  • DONT_FIND_MGRS_MAINWORLDLa herramienta no buscará coordenadas MGRS.
Boolean
coord_mgrs_northpolar
(Opcional)

Especifica si se debe buscar coordenadas del sistema de referencia de cuadrícula militar (MGRS) en el norte polar (falsos positivos poco frecuentes). Los ejemplos son: Y TG 56814 69009 y YTG5669.

  • FIND_MGRS_NORTHPOLARLa herramienta buscará coordenadas MGRS en el norte polar. Esta es la opción predeterminada.
  • DONT_FIND_MGRS_NORTHPOLARLa herramienta no buscará coordenadas MGRS en el norte polar.
Boolean
coord_mgrs_southpolar
(Opcional)

Especifica si se debe buscar coordenadas del sistema de referencia de cuadrícula militar (MGRS) en el norte polar (falsos positivos poco moderados). Los ejemplos son: A TN 56814 30991 y ATN5630.

  • FIND_MGRS_SOUTHPOLARLa herramienta buscará coordenadas MGRS en el sur polar. Esta es la opción predeterminada.
  • DONT_FIND_MGRS_SOUTHPOLARLa herramienta no buscará coordenadas MGRS en el sur polar.
Boolean
comma_decimal
(Opcional)

Especifica si se reconocerá la coma (,) como separador decimal. De forma predeterminada, el contenido se escanea en busca de coordenadas espaciales definidas por números que utilicen un punto (.) o un punto medio (·) como separador decimal, por ejemplo: Lat 01° 10·80’ N Long 103° 28·60’ E. Si trabaja con contenido en el que las coordenadas espaciales están definidas por números que utilizan una coma (,) como separador decimal (por ejemplo, 52° 8′ 32,14″ N; 5° 24′ 56,09″ E), configure este parámetro para reconocer una coma como separador decimal en su lugar. Este parámetro no se configura automáticamente en función de la configuración regional del sistema operativo de su equipo.

  • USE_COMMA_DECIMAL_MARKSe reconocerá la coma como separador decimal.
  • USE_DOT_DECIMAL_MARKNo se reconocerá el punto o el punto medio como separador decimal. Esta es la opción predeterminada.
Boolean
coord_use_lonlat
(Opcional)

Cuando los números se asemejen a coordenadas x,y, ambos números sean inferiores a 90 y no haya ni símbolos ni notaciones que indiquen qué número representa la latitud o la longitud, los resultados pueden ser ambiguos. Interprete los números como coordenada de longitud-latitud (x,y) en lugar de latitud-longitud (y,x).

  • PREFER_LONLATLas coordenadas x,y se interpretarán como longitud-latitud.
  • PREFER_LATLONLas coordenadas x,y se interpretarán como latitud-longitud. Esta es la opción predeterminada.
Boolean
in_coor_system
(Opcional)

El sistema de coordenadas se utilizará para interpretar las coordenadas espaciales definidas en la entrada. GCS-WGS-84 es el valor predeterminado.

Spatial Reference
in_custom_locations
(Opcional)

Archivo de ubicaciones personalizadas (.lxtgaz) que se utilizará al escanear el contenido de entrada. Se crea un punto para representar cada repetición del nombre de cada lugar en el archivo de ubicaciones personalizadas hasta los límites establecidos por otros parámetros de la herramienta.

File
fuzzy_match
(Opcional)

Especifica si la coincidencia aproximada se utilizará al hacer búsquedas en el archivo de ubicaciones personalizadas.

  • USE_FUZZYLa coincidencia aproximada se utilizará al hacer búsquedas en el archivo de ubicaciones personalizadas.
  • DONT_USE_FUZZYAl hacer búsquedas en el archivo de ubicaciones personalizadas se utilizará la coincidencia exacta. Esta es la opción predeterminada.
Boolean
max_features_extracted
(Opcional)

Número máximo de entidades que pueden extraerse. La herramienta dejará de buscar ubicaciones en el contenido de entrada cuando se alcance el número máximo. Cuando se ejecute como servicio de geoprocesamiento, el servicio y el servidor podrían tener límites separados en cuanto al número de entidades permitido.

Long
ignore_first_features
(Opcional)

Número de entidades detectadas e ignoradas antes de extraer las demás entidades. Este parámetro puede utilizarse para centrar la búsqueda en partes concretas de los datos.

Long
date_monthname
(Opcional)

Especifica si se deben buscar fechas en las que aparece el nombre del mes (falsos positivos poco frecuentes). 12 May 2003 y January 15, 1997 son ejemplos.

  • FIND_DATE_MONTHNAMELa herramienta buscará fechas en las que aparezca el nombre del mes. Esta es la opción predeterminada.
  • DONT_FIND_DATE_MONTHNAMELa herramienta no buscará fechas en las que aparezca el nombre del mes.
Boolean
date_m_d_y
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato M/D/A o D/M/A (falsos positivos moderados). 5/12/03 y 1-15-1997 son ejemplos.

  • FIND_DATE_M_D_YLa herramienta buscará fechas en las que los números estén en formato M/D/A o D/M/A (falsos positivos moderados). Esta es la opción predeterminada.
  • DONT_FIND_DATE_M_D_YLa herramienta no buscará fechas en las que los números estén en formato M/D/A o D/M/A.
Boolean
date_yyyymmdd
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato AAAAMMDD (falsos positivos moderados). 20030512 y 19970115 son ejemplos.

  • FIND_DATE_YYYYMMDDLa herramienta buscará fechas en las que los números estén en formato AAAAMMDD (falsos positivos moderados). Esta es la opción predeterminada.
  • DONT_FIND_DATE_YYYYMMDDLa herramienta no buscará fechas en las que los números estén en formato AAAAMMDD.
Boolean
date_yymmdd
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato AAMMDD (falsos positivos frecuentes). 030512 y 970115 son ejemplos.

  • FIND_DATE_YYMMDDLa herramienta buscará fechas en las que los números estén en formato AAMMDD (falsos positivos frecuentes). Esta es la opción predeterminada.
  • DONT_FIND_DATE_YYMMDDLa herramienta no buscará fechas en las que los números estén en formato AAMMDD.
Boolean
date_yyjjj
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato AAJJJ o AAAAJJJ (falsos positivos frecuentes). 03132 y 97015 son ejemplos.

  • FIND_DATE_YYJJJLa herramienta buscará fechas en las que los números estén en formato AAJJJ o AAAAJJJ (falsos positivos frecuentes). Esta es la opción predeterminada.
  • DONT_FIND_DATE_YYJJJLa herramienta no buscará fechas en las que los números estén en formato AAJJJ o AAAAJJJ.
Boolean
max_dates_extracted
(Opcional)

Número máximo de fechas que se extraerá.

Long
ignore_first_dates
(Opcional)

Número de fechas que se detectarán e ignorarán antes de extraer las demás fechas.

Long
date_range_begin
(Opcional)

Fecha más temprana aceptable que se va a extraer. Se extraerán las fechas detectadas que coincidan con este valor o posteriores.

Date
date_range_end
(Opcional)

Última fecha aceptable que se va a extraer. Se extraerán las fechas detectadas que coincidan con este valor o anteriores.

Date
in_custom_attributes
(Opcional)

Archivo de atributos personalizados (.lxtca) que se utilizará al escanear el contenido de entrada. En la tabla de atributos de la clase de entidad de salida se crearán campos para todos los atributos personalizados definidos en el archivo. Cuando se escanea el contenido de entrada, se examinará para determinar si contiene texto asociado con todos los atributos personalizados especificados en el archivo. Cuando se encuentra una coincidencia, se extrae el texto adecuado del contenido de entrada y se almacena en el campo apropiado.

File
file_link
(Opcional)

La ruta del archivo se utilizará como nombre de archivo en los datos de salida cuando el parámetro Archivo de entrada (in_file en Python) se transfiere al servidor. Si no se especifica este parámetro, se utilizará la ruta del archivo de entrada, que puede ser una carpeta no accesible de un servidor. Este parámetro no surte efecto si no se especifica el archivo de entrada.

String
file_mod_datetime
(Opcional)

La fecha y la hora UTC en la que se modifica el archivo se utilizará como atributo modificado en los datos de salida cuando el parámetro Archivo de entrada (in_file en Python) se transfiere al servidor. Si no se especifica este parámetro, se utilizará la hora de modificación real del archivo de entrada. Este parámetro no surte efecto si no se especifica el archivo de entrada.

Date
pre_text_length
(Opcional)

El contenido se extrae del documento de entrada para proporcionar contexto para la ubicación que se ha encontrado. Este parámetro define el número máximo de caracteres que se extraerá y que precede al texto que define la ubicación. El texto extraído se almacena en el campo Pre-Text de la tabla de atributos de la clase de entidad de salida. El valor predeterminado es 254. El tipo de datos del campo Pre-Text también tendrá esta longitud. La longitud de un campo de texto de un shapefile se limita a 254 caracteres; la longitud se truncará según este valor cuando se supere el número de caracteres.

Long
post_text_length
(Opcional)

El contenido se extrae del documento de entrada para proporcionar contexto para la ubicación que se ha encontrado. Este parámetro define el número máximo de caracteres que se extraerá y que sigue al texto que define la ubicación. El texto extraído se almacena en el campo Post-Text de la tabla de atributos de la clase de entidad de salida. El valor predeterminado es 254. El tipo de datos del campo Post-Text también tendrá esta longitud. La longitud de un campo de texto de un shapefile se limita a 254 caracteres; la longitud se truncará según este valor cuando se supere el número de caracteres.

Long
std_coord_fmt
(Opcional)

Especifica el formato de coordenadas que se utilizará para almacenar la ubicación de las coordenadas. La representación de la coordenada espacial que define la entidad de punto queda registrada en un campo de la tabla de atributos.

  • STD_COORD_FMT_DDLa ubicación de las coordenadas se registra en formato de grados decimales. Esta es la opción predeterminada.
  • STD_COORD_FMT_DMLa ubicación de las coordenadas se registra en formato de minutos grados decimales.
  • STD_COORD_FMT_DMSLa ubicación de las coordenadas se registra en formato de grados minutos segundos.
  • STD_COORD_FMT_UTMLa ubicación de las coordenadas se registra en formato de proyección universal transversa de Mercator.
  • STD_COORD_FMT_MGRSLa ubicación de las coordenadas se registra en formato del sistema de referencia de cuadrícula militar.
String
req_word_breaks
(Opcional)

Especifica si se debe buscar texto mediante el uso de guiones de separación de palabras. El guion de separación de palabras se usa cuando las palabras (texto) están delimitadas por caracteres de espacios en blanco o puntuación, como en los idiomas europeos.

Esta configuración puede producir falsos positivos frecuentes o falsos positivos infrecuentes dependiendo del idioma del texto. Por ejemplo, cuando no se requieran guiones de separación de palabras, el texto inglés Bernard generará una coincidencia con el texto San Bernardino, lo que probablemente se considere un falso positivo. Sin embargo, cuando el texto se escribe con un idioma que no utiliza guiones de separación de palabras, no es posible encontrar palabras si se requieren estos guiones. Por ejemplo, con el texto Viajé a Tokio en japonés, 私は東京に飛んで, solo podría encontrar la palabra Tokio, 東京, cuando no se requieren guiones de separación de palabras.

  • REQ_WORD_BREAKSLa herramienta buscará palabras que están delimitadas por caracteres de espacios en blanco o puntuación. Esta es la opción predeterminada.
  • DONT_REQ_WORD_BREAKSLa herramienta no buscará palabras que están delimitadas por caracteres de espacios en blanco o puntuación.
Boolean

Muestra de código

Ejemplo de ExtractLocationsFromDocument (ventana de Python)

El siguiente script de la ventana de Python demuestra cómo utilizar la función ExtractLocationsFromDocument en modo inmediato.

import arcpy
arcpy.env.workspace = "c:/data"
arcpy.conversion.ExtractLocationsFromDocument("wells.docx", "water.gdb/wells")

Temas relacionados