Ajustar la forma de extraer ubicaciones y atributos

Disponible con licencia de LocateXT.

Después de escanear un conjunto de documentos o texto y evaluar los resultados, es recomendable ajustar lo extraído y cómo se va a evaluar el contenido. Si dispone de una amplia gama de documentos de diferentes formatos, su enfoque será diferente que si dispone de diferentes colecciones de documentos con un formato conocido y que contienen información semiestructurada.

El panel Extraer ubicaciones usa distintas configuraciones predeterminadas diseñadas para reconocer las ubicaciones más comunes y permitir extraer las fechas recientes. Cuando comprenda mejor el contenido de sus documentos o texto, podrá ajustar estas configuraciones y optimizar la información extraída. Estas configuraciones se ajustan en la pestaña Propiedades.

La colección de configuraciones predeterminadas está asociada con la plantilla Datos no estructurados predeterminados. Una vez determinadas las configuraciones que funcionan mejor con una colección de documentos o un formato de texto específico, puede guardarlas en una plantilla personalizada. Utilice la plantilla cuando reciba un nuevo lote de documentos de la colección o texto similar.

Más información sobre plantillas para la extracción de ubicaciones

Opciones

De forma predeterminada, al hacer clic en la pestaña Propiedades se selecciona la pestaña Opciones Opciones. Permite activar o desactivar los botones de alternancia asociados con las categorías de información que se pueden extraer del texto o los documentos de entrada y la forma de procesar esa información. También permite especificar el símbolo que utilizará la capa del mapa de salida.

  • Extraer ubicaciones
    • Coordenadas: el botón de alternancia Coordenadas está activado de forma predeterminada. Al escanear los documentos, se examinan en busca de coordenadas espaciales. En la clase de entidad de salida se crea un punto para representar cada ubicación encontrada.
    • Ubicaciones personalizadas: el botón de alternancia Ubicaciones personalizadas está desactivado de forma predeterminada. Al escanear los documentos, se examinan en busca de los nombres de lugares especificados en un archivo de ubicaciones personalizadas. El archivo de ubicaciones personalizadas asocia un nombre de lugar con una coordenada espacial. En la clase de entidad de salida se crea un punto para representar cada ubicación encontrada.
    • Coincidencia aproximada: el botón de alternancia Coincidencia aproximada está desactivado de forma predeterminada. Al buscar ubicaciones personalizadas, se puede usar una coincidencia aproximada para comparar el contenido de los documentos de entrada con las ubicaciones personalizadas, por ejemplo, para tener en cuenta las faltas de ortografía.
  • Extraer atributos
    • Fechas: el botón de alternancia Fechas está activado de forma predeterminada. Al escanear los documentos, se examinan en busca de fechas recientes. Las fechas encontradas se extraen y almacenan en los campos de la tabla de atributos de la clase de entidad de salida.
    • Atributos personalizados: el botón de alternancia Atributos personalizados está desactivado de forma predeterminada. Al escanear los documentos, se examinan en busca de las palabras clave especificadas en un archivo de atributos personalizados. El archivo de atributos personalizados determina las palabras clave a buscar y el texto a extraer cuando se encuentran las palabras clave y define un campo personalizado que se crea en la tabla de atributos de la clase de entidad de salida para almacenar el contenido extraído.
  • Control de búsqueda
    • Se requieren guiones de separación de palabras: el botón de alternancia Se requieren guiones de separación de palabras está activado de forma predeterminada. Al escanear los documentos, se examinan en busca de palabras cuyo texto está delimitado por caracteres de espacios en blanco o puntuación, como en los idiomas europeos. Este ajuste afecta al modo en que se identifican las palabras al buscar ubicaciones y atributos personalizados en un documento. También afecta al modo en que se identifican las coordenadas y las fechas, por ejemplo, cuando un texto que podría representar una coordenada o una fecha está rodeado de otros caracteres.
  • Simbología: un círculo sólido rojo es el símbolo predeterminado. Al crear la capa de mapa de salida, los puntos de la clase de entidad de salida se muestran usando el símbolo especificado.

Junto a algunos botones de alternancia hay botones de flecha Opción Saltar a. El botón de flecha permite moverse a otra pestaña del panel Extraer ubicaciones, donde puede personalizar cómo se evalúan y extraen coordenadas, ubicaciones personalizadas, fechas o atributos personalizados.

Las siguientes opciones también están disponibles en el panel Extraer ubicaciones y se pueden usar para personalizar qué archivos se procesan, qué contenido se extrae y qué salida se crea. Sin embargo, estas opciones no están representadas por botones de alternancia en la pestaña Opciones.

  • Explorar archivos: permite controlar qué archivos se escanean.
  • Salida: permite controlar cuántas entidades y fechas se evalúan y qué contenido se incluye en la tabla de atributos de la clase de entidad de salida.

Coordenadas

La pestaña Coordenadas determina qué formatos de coordenadas se consideran al escanear los documentos de entrada. Se examinan pares de números y combinaciones alfanuméricas para ver si coinciden con los formatos de coordenadas habilitados. Las coordenadas espaciales candidatas se comparan con todos los formatos habilitados:

  • Formatos X Y: coordenadas especificadas como valores x, y
  • Formatos DD: formato de grados decimales
  • Formatos DM: formato de grados minutos decimales
  • Formatos DMS: formato de grados, minutos y segundos
  • Formatos UTM: formato de la Proyección Universal Transversa de Mercator
  • Formatos MGRS: formato del Sistema de Referencia de Cuadrícula Militar

Se crea una ubicación en la clase de entidad de salida para representar la primera coincidencia de formato de coordenadas encontrado.

Cada formato de coordenadas está asociado con un conjunto diferente de opciones que se activan o desactivan de manera predeterminada para proporcionar un conjunto razonable de ubicaciones de salida. Algunas opciones pueden producir ubicaciones de salida si los documentos de entrada contienen pares de números o combinaciones alfanuméricas que se asemejan a coordenadas espaciales, pero que en realidad no describen una ubicación real: se conocen como falsos positivos. Las opciones que están desactivadas de forma predeterminada tienen más probabilidades de producir falsos positivos. Sin embargo, si se sabe que los documentos contienen ubicaciones en estos formatos, estas opciones deben estar habilitadas. Al habilitar menos formatos de coordenadas, los documentos se escanean en menos tiempo.

Los formatos de coordenadas admitidos se pueden personalizar para adaptarlos a un conjunto de documentos. Por ejemplo, los documentos pueden estar escritos en un idioma diferente o pueden tener coordenadas espaciales escritas en una notación no estándar. Los formatos de coordenadas admitidos se describen con más detalle a continuación, junto con el procedimiento para personalizar cómo se evalúan dichas coordenadas.

La pestaña Coordenadas también permite especificar el sistema de coordenadas con el que están asociadas las coordenadas espaciales. De forma predeterminada, las coordenadas encontradas en los documentos se administran como si estuvieran definidas en base al sistema de coordenadas GCS_WGS_1984. Si sabe que las coordenadas se recopilaron en un sistema de coordenadas diferente, haga clic en el botón Seleccionar sistema de coordenadas Seleccionar sistema de coordenadas y haga clic en el sistema de coordenadas correcto.

Todas las coordenadas espaciales de los documentos de entrada se procesan hasta alcanzar el final del documento o el límite del número de ubicaciones a extraer.

Más información sobre cómo limitar la cantidad de entidades a extraer

Acceder a la pestaña Coordenadas

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Acceda a la pestaña Coordenadas.
    • Haga clic en la pestaña Opciones Opciones, y haga clic en la flecha Opción Saltar a junto al botón de alternancia Coordenadas.
    • Haga clic en la pestaña Extraer ubicaciones Extraer ubicaciones y haga clic en la pestaña Coordenadas.

Activar o desactivar el botón de alternancia Coordenadas

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Active o desactive el botón de alternancia Coordenadas.
    • Haga clic en la pestaña Opciones Opciones y haga clic en el botón de alternancia Coordenadas.
    • Haga clic en la pestaña Extraer ubicaciones Extraer ubicaciones, haga clic en la pestaña Coordenadas y haga clic en el botón de alternancia Crear entidades a partir de coordenadas.

Formatos X Y

Las coordenadas espaciales candidatas se comparan con los siguientes formatos de coordenadas, si están habilitados. Cuando una candidata coincide con uno de estos formatos, se crea una ubicación en la clase de entidad de salida. El formato de la coordenada original se especifica como x,y en la clase de entidad de salida.

De forma predeterminada, los formatos de coordenadas x,y en su conjunto no están habilitados. Con estos formatos, las coordenadas se representan como pares de números que indican una medición en las unidades del sistema de coordenadas especificado. Pueden producir ubicaciones que son falsos positivos, ya que se parecen mucho a secuencias de números o mediciones sin relación espacial. Asimismo, si se encuentra texto que se corresponde con estos formatos de coordenadas, las ubicaciones producidas serán incorrectas si están asociadas al sistema de coordenadas equivocado.

  • X Y con texto de unidad: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 71.2071779dd 46.8075410dd o 630084m 4833438m. Las unidades se definen de modo que coincidan con el sistema de coordenadas de los documentos de entrada, pero se pueden modificar para reconocer otras unidades o notaciones adicionales para las mismas unidades presentes en sus documentos. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos si el sistema de coordenadas es correcto para las coordenadas encontradas. Esta opción está habilitada por defecto.
  • X Y sin texto de unidad: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 630084 4833438 o 235407.742 900560.004. Este formato de coordenadas y el formato de coordenadas de grados decimales X Y sin símbolos comprueban pares de números y ambos formatos podrían encontrar una coincidencia para el mismo par de coordenadas x,y. Aparece una advertencia para indicar que existe un conflicto si ambos formatos están habilitados. Si ambos están habilitados y encuentran una coincidencia, el resultado de grados decimales se utilizará como ubicación de salida. Es menos probable que los dos formatos produzcan un conflicto si se especifica un sistema de coordenadas proyectadas. Esta opción está habilitada por defecto.

Si Registrar coordenadas no válidas está activado, cualquier coordenada espacial candidata que tenga valores no válidos o que no pertenezca al sistema de coordenadas definido se registra como no válida en un archivo de registro. Puede revisar este archivo de registro cuando finalice el proceso. Las coordenadas no válidas se registran de forma predeterminada.

Establecer unidades de coordenadas

Es posible cambiar las unidades asociadas a los formatos x,y para producir ubicaciones precisas basadas en la información contenida en los documentos de entrada.

  1. Acceda a la pestaña Coordenadas.
  2. Active las coordenadas.
  3. Haga clic en la lista desplegable Sistema de coordenadas o en el botón Seleccionar sistema de coordenadas Seleccionar sistema de coordenadas y haga clic en el sistema de coordenadas asociado con las coordenadas espaciales presentes en los documentos de entrada. Especifique, por ejemplo, un sistema de coordenadas proyectadas.
  4. Active la opción Formatos X Y.
  5. Haga clic para expandir las opciones asociadas al formato X Y con texto de unidad.

    Las unidades se establecen de forma predeterminada de modo que coincidan con las unidades del sistema de coordenadas. Por ejemplo, en un sistema de coordenadas basado en las unidades pies EE. UU., las unidades se establecerán en ftUS.

  6. Haga clic en el botón Definir unidades Lápiz para cambiar las notaciones que se reconocerán como unidades en los documentos.

    Aparece el cuadro de diálogo Unidades permitidas.

  7. Haga clic en el botón Agregar desde lista Agregar desde lista para agregar una unidad de medida predefinida conocida a la lista, si procede.
  8. Agregue una unidad personalizada a la lista, si procede.
    1. En la nueva fila al final de la tabla, haga clic en la columna Texto de unidad y escriba los caracteres que deben reconocerse como una representación de esta unidad de medida. Por ejemplo, escriba ft (US) para reconocer este texto como una forma adicional de representar las unidades ftUS.
    2. Especifique la distancia en metros asociada a esta unidad de medida.
    3. Haga clic en Aceptar.
  9. Haga clic para expandir las opciones asociadas al formato X Y sin texto de unidad.
  10. Haga clic en el botón Definir unidades Lápiz para cambiar las unidades que se asociarán a todos los pares de coordenadas encontrados en los documentos.

    Aparece el cuadro de diálogo Unidades predeterminadas.

  11. Haga clic en la lista desplegable Nombre de unidad y seleccione una de las unidades reconocidas internacionalmente definidas en la lista, o escriba el nombre de otra unidad de medida de distancia que no aparezca en la lista.

    Al seleccionar una unidad de la lista, la distancia en metros asociada a la unidad de medida seleccionada aparece en el cuadro de texto Metros/unidad.

  12. Si escribió el nombre de una unidad de medida personalizada en el cuadro de texto Nombre de unidad, escriba el número de metros que representa en el cuadro de texto Metros/unidad.
  13. Haga clic en Aceptar.

Formatos DD

Las coordenadas espaciales candidatas se comparan con los siguientes formatos de coordenadas, si están habilitados. Cuando una candidata coincide con uno de estos formatos, se crea una ubicación en la clase de entidad de salida. El formato de la coordenada original se especifica como grados decimales en la clase de entidad de salida.

  • Latitud y longitud: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 38.8N 77.035W o W77N38.88909. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos. Esta opción está habilitada por defecto.
  • X Y con símbolos de grado: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 38.8° -77.035° o -077d+38.88909d. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos. Esta opción está habilitada por defecto.
  • X Y sin símbolos: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 38.8 -77.035 o -077.0, +38.88909. Es muy probable que estos formatos produzcan ubicaciones que sean falsos positivos ya que se parecen mucho a secuencias de números sin relación espacial. Estos formatos también pueden parecerse a números que definen una ubicación espacial en un sistema de coordenadas proyectadas; aparece una advertencia para indicar que existe un conflicto si este formato y la opción X Y sin texto de unidad están habilitados. Esta opción está habilitada por defecto.

Si Registrar coordenadas no válidas está activado, cualquier coordenada espacial candidata que no coincida con ninguno de los formatos habilitados se registra como no válida en un archivo de registro. Puede revisar este archivo de registro cuando finalice el proceso. Las coordenadas no válidas se registran de forma predeterminada.

Formatos DM

Las coordenadas espaciales candidatas se comparan con los siguientes formatos de coordenadas, si están habilitados. Cuando una candidata coincide con uno de estos formatos, se crea una ubicación en la clase de entidad de salida. El formato de la coordenada original se especifica como grados minutos decimales en la clase de entidad de salida.

  • Latitud y longitud: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 3853.3N 7702.100W o W7702N3853.3458. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos. Esta opción está habilitada por defecto.
  • X Y con símbolos de minutos: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 3853' -7702.1' o -07702m+3853.3458m. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos. Esta opción está habilitada por defecto.

Si Registrar coordenadas no válidas está activado, cualquier coordenada espacial candidata que no coincida con ninguno de los formatos habilitados se registra como no válida en un archivo de registro. Puede revisar este archivo de registro cuando finalice el proceso. Las coordenadas no válidas se registran de forma predeterminada.

Formatos DMS

Las coordenadas espaciales candidatas se comparan con los siguientes formatos de coordenadas, si están habilitados. Cuando una candidata coincide con uno de estos formatos, se crea una ubicación en la clase de entidad de salida. El formato de la coordenada original se especifica como grados, minutos y segundos en la clase de entidad de salida.

  • Latitud y longitud: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 385320.7N 770206.000W o W770206N385320.76. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos. Esta opción está habilitada por defecto.
  • X Y con símbolos de segundos: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 385320" -770206.0" o -0770206.0s+355320.76s. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos. Esta opción está habilitada por defecto.
  • X Y con separadores: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 38:53:20 -77:2:6.0 o -077/02/06/, +38/53/20.76. Estos formatos a veces producen ubicaciones que son falsos positivos, ya que se parecen a otros tipos de números con formato, como fechas y horas. Esta opción está habilitada por defecto.

Si Registrar coordenadas no válidas está activado, cualquier coordenada espacial candidata que no coincida con ninguno de los formatos habilitados se registra como no válida en un archivo de registro. Puede revisar este archivo de registro cuando finalice el proceso. Las coordenadas no válidas se registran de forma predeterminada.

Formatos UTM

Las coordenadas espaciales candidatas se comparan con los siguientes formatos de coordenadas, si están habilitados. Cuando una candidata coincide con uno de estos formatos, se crea una ubicación en la clase de entidad de salida. El formato de la coordenada original se especifica como Proyección Universal Transversa de Mercator en la clase de entidad de salida.

  • Proyección Universal Transversa de Mercator: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 18S 323503 4306438 o 18 north 323503.25 4306438.39. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos. Esta opción está habilitada por defecto.
  • Polar norte de UPS: un texto alfanumérico se reconoce como ubicación si presenta las estructuras Y 2722399 2000000 o north 2711399 2000000. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos, ya que no es común encontrar estas coordenadas en documentos corrientes. Esta opción no está habilitada de forma predeterminada.
  • Polar sur de UPS: un texto alfanumérico se reconoce como ubicación si presenta las estructuras A 2000000 3168892 o south 2000000 3168892. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos, ya que no es común encontrar estas coordenadas en documentos corrientes. Esta opción no está habilitada de forma predeterminada.

Formatos MGRS

Las coordenadas espaciales candidatas se comparan con los siguientes formatos de coordenadas, si están habilitados. Cuando una candidata coincide con uno de estos formatos, se crea una ubicación en la clase de entidad de salida. El formato de la coordenada original se especifica como Sistema de Referencia de Cuadrícula Militar en la clase de entidad de salida.

  • Sistema de Referencia de Cuadrícula Militar: un texto alfanumérico se reconoce como ubicación si presenta las estructuras 18S UJ 13503 06438 o 18SUJ0306. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos. Esta opción está habilitada por defecto.
  • Polar norte: un texto alfanumérico se reconoce como ubicación si presenta las estructuras Y TG 56814 69009 o YTG5669. Es poco probable que estos formatos produzcan ubicaciones que sean falsos positivos, ya que no es común encontrar estas coordenadas en documentos corrientes. Esta opción no está habilitada de forma predeterminada.
  • Polar sur: un texto alfanumérico se reconoce como ubicación si presenta las estructuras A TN 56814 30991 o ATN5630. Estos formatos a veces producen ubicaciones que son falsos positivos, ya que pueden parecerse a los números normales. Esta opción no está habilitada de forma predeterminada.

Si Registrar coordenadas no válidas está activado, cualquier coordenada espacial candidata que no coincida con ninguno de los formatos habilitados se registra como no válida en un archivo de registro. Puede revisar este archivo de registro cuando finalice el proceso. Las coordenadas no válidas se registran de forma predeterminada.

Personalizar cómo se reconocen las coordenadas espaciales

Es posible que los documentos con los que trabaja contengan coordenadas espaciales que no se puedan detectar con la configuración de formato de coordenadas estándar. Por ejemplo, puede que el autor de los documentos no haya recibido una formación en SIG y que escribiera coordenadas espaciales de un modo no estándar. Un ejemplo típico es agregar texto adicional entre los valores de latitud y longitud. Por ejemplo, en el texto +45.56° and -69.66°, la palabra adicional and impide que el texto se reconozca como una coordenada espacial.

Del mismo modo, si los documentos que está analizando se escribieron en una mezcla de idiomas, de forma predeterminada, el texto solo se reconocerá como coordenada espacial en documentos escritos en inglés o cuando las notaciones direccionales utilicen palabras o abreviaturas en inglés. Por ejemplo, si el texto del documento está en francés y se representa una dirección en la coordenada espacial utilizando una O de Ouest, como 60.91°N, 147.34°O, en lugar de utilizar la W de West del inglés, el texto no se reconocerá como coordenada espacial. Los formatos de coordenadas se pueden personalizar para que reconozcan los formatos utilizados en otros idiomas además o en lugar del inglés, en función de cómo desee procesar los documentos.

Puede personalizar el modo en que se reconocen las coordenadas espaciales en los documentos mediante el cuadro de diálogo Personalizar. Se proporciona una configuración predeterminada en algunas lenguas: seleccione la lengua de sus documentos en la pestaña Configuración. En un documento en una lengua asiática, las coordenadas espaciales que se definan usando una combinación de caracteres asiáticos y números indoarábigos de anchura completa, como 北緯51.50°、西経175.63°, no se reconocen como coordenadas espaciales en este momento.

  1. Acceda a la pestaña Coordenadas.
  2. Active las coordenadas.
  3. Haga clic en el botón Personalizar Personalizar situado en la parte superior de la lista de formatos de coordenadas espaciales.
  4. Si los documentos están escritos en otro idioma y hay ajustes disponibles para ese idioma en la pestaña Configuración del cuadro de diálogo Personalizar, haga clic en el idioma en la lista.
  5. Agregue la configuración para el idioma seleccionado al cuadro de diálogo Personalizar.
    • Haga clic en Reemplazar configuración para escanear los documentos utilizando solamente la configuración asociada al idioma seleccionado. Si el idioma actual es el inglés y el idioma seleccionado es el francés, después de reemplazar en el cuadro de diálogo la configuración de inglés por la configuración de francés, solo se reconocerán en los documentos coordenadas espaciales escritas en un formato francés.
    • Haga clic en Fusionar configuración para escanear los documentos utilizando la configuración tanto del idioma actual como del idioma adicional. Si el idioma actual es el inglés y el idioma seleccionado es el francés, después de fusionar la configuración de francés con la configuración del cuadro de diálogo, se reconocerán en los documentos coordenadas espaciales escritas en los formatos inglés y francés.
  6. Una coordenada espacial tiene muchos componentes, incluidos varios específicos para un grupo de idiomas. Elija una pestaña del encabezado Coordenadas asociada a un componente de una coordenada espacial, por ejemplo, Norte o Entre latitud/longitud.
  7. Modifique la lista de términos de este componente para incluir las notaciones utilizadas en los documentos que se van a escanear.
    1. Haga clic en la nueva fila al final de la cuadrícula, en la columna Texto de término.
    2. Escriba el valor adecuado que aparece en los documentos que deba reconocerse como componente de una coordenada espacial. Por ejemplo, agregue el término mal escrito Nort a la lista de términos de la pestaña Norte, si se repite en un grupo de documentos. Agregue and a la lista de términos de la pestaña Entre latitud/longitud para tener en cuenta documentos en los que este texto adicional aparezca entre los valores de latitud y longitud.
    3. Pulse Intro.
  8. Aparecerán advertencias si se ha introducido el mismo término en varias pestañas del cuadro de diálogo Personalizar. Aunque es posible duplicar términos, la precisión con la que se reconocen las ubicaciones en los documentos se verá reducida. Elimine los términos duplicados que no sean esenciales para el proceso de reconocer texto como una ubicación.
    1. Haga clic en una de las pestañas afectadas.
    2. Haga clic en una fila de la cuadrícula para seleccionar el término duplicado que no debería usarse.
    3. Haga clic en el botón Eliminar Eliminar para eliminar la fila seleccionada de la cuadrícula.

    Si se dejan los términos duplicados, aparecerá un mensaje de advertencia en la parte inferior del panel Extraer ubicaciones, junto al botón Extraer.

  9. Haga clic en Aceptar.

La próxima vez que se extraigan ubicaciones de un conjunto de documentos, se utilizarán las definiciones personalizadas para evaluar el texto y determinar si representa una coordenada espacial.

Usar coma como separador decimal

De forma predeterminada, los documentos se escanean en busca de coordenadas que utilicen un punto (.) o un punto medio (·) como separador decimal, por ejemplo: Lat 01° 10·80’ N Long 103° 28·60’ E. Si trabaja con documentos en los que los números usan comas como separador decimal, por ejemplo, 52° 8′ 32,14″ N; 5° 24′ 56,09″ E, debe activar en su lugar la opción Usar coma como separador decimal.

Esta configuración solo controla cómo se evalúa el texto alfanumérico para determinar si es una coordenada espacial. Esta configuración no afecta a la manera en que se evalúa el texto para determinar si representa una ubicación personalizada o si coincide con una palabra clave que debe almacenarse en un atributo personalizado. Es decir, esta configuración no proporciona un acceso directo para indicar que el texto está escrito en una lengua europea, como el francés, en la que los números suelen llevar comas como separador decimal. La configuración regional del equipo no se usa para controlar esta configuración.

Interpretar como longitud, latitud

Cuando se proporcionan pares de coordenadas sin símbolos ni notaciones direccionales, es probable que se produzca la ubicación espacial correcta si un número está entre 0 y 90 y el otro número entre 90 y 180. Si ambos números están entre 0 y 90, es más difícil determinar la ubicación correcta.

Debido a que la latitud-longitud es una convención firme en geografía, los pares de coordenadas donde ambos números están entre 0 y 90 se evalúan de esta manera de forma predeterminada, es decir, donde el primer número es un valor del eje y, y el segundo número es un valor del eje x. Sin embargo, los pares de coordenadas a menudo se proporcionan como combinaciones de x e y en otras disciplinas, como las matemáticas.

Active la opción Interpretar como longitud, latitud si prefiere que estos pares de coordenadas ambiguos se evalúen como combinaciones de x e y en su lugar, es decir, donde el primer número es una longitud y el segundo número es una latitud.

Determinar la forma de evaluar las coordenadas

Las coordenadas deben activarse para cambiar la forma en que se evalúan las coordenadas espaciales cuando se examinan los documentos.

  1. Acceda a la pestaña Coordenadas.
  2. Active las coordenadas.
  3. Haga clic en la lista desplegable Sistema de coordenadas o en el botón Seleccionar sistema de coordenadas Seleccionar sistema de coordenadas y haga clic en el sistema de coordenadas asociado con las coordenadas espaciales presentes en los documentos de entrada.
  4. Active los formatos de coordenadas que desea utilizar para evaluar las coordenadas espaciales candidatas. Desactive los formatos de coordenadas que no quiera usar.
  5. Especifique cualquier personalización que deba usarse al evaluar el texto para determinar si representa una coordenada espacial.
  6. Active o desactive las opciones de Registrar coordenadas no válidas para utilizar archivos de registro para evaluar los resultados.
  7. Active Usar coma como separador decimal si los documentos de entrada tienen contenido en el que las coordenadas espaciales se especifican utilizando comas como separador decimal.
  8. Active Interpretar como longitud, latitud si los documentos de entrada tienen contenido en el que las coordenadas espaciales se especifican como coordenadas de longitud-latitud en lugar de coordenadas de latitud-longitud.

La próxima vez que se extraigan ubicaciones, se utilizarán estas configuraciones de coordenadas para evaluar las coordenadas espaciales candidatas y determinar las ubicaciones que se incluyen en la clase de entidad de salida.

Identificar ubicaciones personalizadas con una coincidencia aproximada

Cuando se activan las ubicaciones personalizadas, el contenido de los documentos que se escanean se compara con los nombres de lugares especificados en el archivo de ubicaciones personalizadas. De forma predeterminada, el contenido debe coincidir exactamente con uno de los nombres de lugares especificados para crear una ubicación en la clase de entidad de salida.

Cuando la coincidencia aproximada está activada, se usa una coincidencia cercana para comparar el contenido del documento con los nombres de lugares especificados. Si el contenido de entrada coincide en un 70 por ciento con los caracteres del nombre del lugar, se crea una ubicación en la clase de entidad de salida. Esto puede considerar algunas faltas de ortografía y también variaciones, como el uso de la forma plural de la palabra de un nombre de lugar en vez de la forma singular. La evaluación del 70 por ciento se basa estrictamente en un recuento del número de letras que coinciden. Los algoritmos de procesamiento de lenguaje natural, como la derivación, no se utilizan para determinar si una palabra de un documento coincide con una ubicación personalizada.

Un flujo de trabajo útil es extraer primero las ubicaciones con la coincidencia aproximada desactivada y, a continuación, intentarlo nuevamente con la coincidencia aproximada activada para encontrar nombres de lugares adicionales. Los resultados se pueden comparar para determinar los mejores. Aunque en algunos casos esta configuración ayuda a encontrar ubicaciones adicionales que se perderían en caso contrario, el contenido de los documentos también puede coincidir incorrectamente con el nombre de un lugar, lo que da como resultado una ubicación que es un falso positivo.

La coincidencia aproximada solo se usa con ubicaciones personalizadas. Si la ubicación personalizada está desactivada, activar la coincidencia aproximada no tiene ningún efecto. Esta opción no cambia la forma en que se compara el contenido de un documento con las palabras clave especificadas en un archivo de atributos personalizados, por ejemplo.

Activar o desactivar la alternancia de coincidencia aproximada

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Active o desactive la alternancia de coincidencia aproximada.
    • Haga clic en la pestaña Opciones Opciones y haga clic en el botón de alternancia Coincidencia aproximada.
    • Haga clic en la pestaña Extraer ubicaciones Extraer ubicaciones, haga clic en la pestaña Ubicaciones personalizadas y haga clic en el botón de alternancia Usar coincidencia aproximada.

Fechas

La pestaña Fechas determina qué formatos de fecha se consideran al escanear los documentos de entrada. Se examinan combinaciones alfanuméricas para ver si coinciden con los formatos de fecha habilitados. Las fechas candidatas se comprueban con todos los formatos habilitados en el orden especificado a continuación. A veces se identifican números normales erróneamente como fechas: estos se conocen como falsos positivos.

Los formatos de fecha admitidos se pueden personalizar para adaptarlos a un conjunto de documentos. Por ejemplo, los documentos pueden estar escritos en un idioma diferente o pueden tener fechas escritas en una notación no estándar. Los formatos de fecha se describen con más detalle a continuación, junto con el procedimiento para personalizar cómo se evalúan dichas fechas.

Todas las fechas de los documentos de entrada se procesan hasta alcanzar el final del documento o el límite del número de fechas a extraer.

Más información sobre cómo limitar la cantidad de fechas a extraer

  • Nombre de mes utilizado: el nombre del mes está escrito en el texto, ya sea en su totalidad o como una abreviatura, por ejemplo, January 1, 2010 o 2 FEB 11. En idiomas distintos del inglés, es posible que las fechas reconocidas cuando esta opción está habilitada no utilicen, en sentido estricto, un nombre de mes, ya que los meses pueden estar identificados con un número, por ejemplo. Sin embargo, las fechas identificadas cuando se utiliza esta opción son las que están escritas de una manera más tradicional, en lugar de usar una variación de los formatos de fecha ISO 8601. Es poco probable que estos formatos produzcan fechas que sean falsos positivos. Esta opción está habilitada por defecto.
  • M/D/A y D/M/A: el formato de fecha es mes, día y año, o día, mes y año, con separadores entre los valores, por ejemplo, 10/31/2017 o 28-2-11. Estos formatos a veces producen fechas que son falsos positivos. La fecha real representada es ambigua cuando el mes y el día se representan con números inferiores o iguales que 12. Existen opciones para elegir cómo se interpretan las fechas ambiguas cuando se encuentran. De forma predeterminada, la opción Interpretar como MDA en caso de ambigüedad está seleccionada y el texto 03/02/2012 se interpretará como 2 de marzo de 2012; esta opción es adecuada cuando se trabaja con documentos creados en los EE. UU., donde el formato de fecha predeterminado es MM/DD/AAAA. Cuando se trabaja con documentos creados en otro país donde el formato de fecha predeterminado es DD/MM/AAAA, seleccione en su lugar Interpretar como DMA; en este caso, el texto 4-12-13 se interpretará como 4 de diciembre de 2013. Las fechas se reconocen tanto cuando el mes y el día son dígitos únicos como cuando esos dígitos tienen ceros a la izquierda. Este formato está habilitado de forma predeterminada.
  • AAAAMMDD: el formato de fecha es año, mes, día, por ejemplo, 2015-06-03 o 20140502. Cuando se utilizan separadores entre las distintas partes de la fecha, se reconocen valores de mes y día de un solo dígito. Por ejemplo, 2015-6-3 también se reconocería como 3 de junio de 2015, pero 201452 no se reconocería como 2 de mayo de 2014. La fecha estandarizada que se produce tendrá ceros iniciales para el mes y el día cuando el valor original sea un solo dígito, con un año de cuatro dígitos. Estos formatos a veces producen fechas que son falsos positivos. Esta opción está habilitada por defecto.
  • AAMMDD: el formato de fecha es año, mes, día, por ejemplo, 160722 o 170304. El mes y el día tendrán ceros iniciales cuando el valor sea un solo dígito, con un año de dos dígitos. Es muy probable que estos formatos produzcan fechas que sean falsos positivos. Esta opción está habilitada por defecto.
  • AAJJJ: el año y la fecha juliana, que es un número que representa el día como una posición en el año utilizando un número del 1 al 366 con ceros iniciales cuando el día es un número de uno o dos dígitos. Por ejemplo, 18001 o 19365. El formato AAAAJJJ también se admite, donde el año es totalmente calificado; por ejemplo, 2020060 representa el 29 de febrero de 2020. Es muy probable que estos formatos produzcan fechas que sean falsos positivos. Esta opción está habilitada por defecto.

La primera coincidencia encontrada se extrae y almacena en la tabla de atributos de la clase de entidad de salida, en la columna Primera fecha, siempre que la fecha se encuentre dentro del rango de fechas que se está evaluando. Asimismo, la fecha más antigua encontrada se almacena en la columna Fecha más temprana y la fecha más reciente encontrada se almacena en la columna Fecha más tardía. Todas las fechas encontradas en el documento se enumeran en la columna Todas las fechas separadas por comas al máximo tamaño permitido en la tabla. Todas las fechas se registran en el formato AAAA-MM-DD, independientemente del formato utilizado en el texto original. En cambio, la columna Texto de fecha extraído registra el texto que se ha encontrado en el documento que fue interpretado como una fecha, tal y como se encontró en el documento.

Más información sobre la configuración del rango de fechas

Si sabe que sus documentos solo contienen fechas en ciertos formatos, los otros formatos de fecha se pueden desactivar. Al habilitar menos formatos de fechas, los documentos se escanean en menos tiempo.

Acceder a la pestaña Fechas

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Acceda a la pestaña Fechas.
    • Haga clic en la pestaña Opciones Opciones y haga clic en la flecha Opción Saltar a junto al botón de alternancia Fechas.
    • Haga clic en la pestaña Extraer atributos Extraer atributos y haga clic en la pestaña Fechas.

Activar o desactivar el botón de alternancia Fechas

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Active o desactive el botón de alternancia Fechas.
    • Haga clic en la pestaña Opciones Opciones y haga clic en el botón de alternancia Fechas.
    • Haga clic en la pestaña Extraer atributos Extraer atributos, haga clic en la pestaña Fechas y haga clic en el botón de alternancia Crear campos a partir de fechas.

Personalizar cómo se reconocen las fechas

Es posible que los documentos con los que trabaja contengan fechas que no se puedan detectar con la configuración de formato de fecha estándar. Por ejemplo, si la opción Nombre de mes utilizado está habilitada, pero el autor de un conjunto de documentos escribe habitualmente mal el mes de febrero, ese texto no se reconocerá como fecha.

Del mismo modo, si los documentos que está analizando se escribieron en una mezcla de idiomas, de forma predeterminada, el texto solo se reconocerá como fecha en documentos escritos en inglés. Por ejemplo, con la opción Nombre de mes utilizado, se reconoce la fecha en inglés July 17, 2018. Sin embargo, en un documento en francés, la fecha equivalente 17 juillet, 2018 no se reconoce como fecha de forma predeterminada. Los formatos de fecha se pueden personalizar para que reconozcan los formatos utilizados en otros idiomas además o en lugar del inglés, en función de cómo desee procesar los documentos.

Puede personalizar el modo en que se reconocen las fechas en los documentos mediante el cuadro de diálogo Personalizar. Se proporciona una configuración predeterminada en algunas lenguas: seleccione la lengua de sus documentos en la pestaña Configuración. En un documento en una lengua asiática, las opciones de la pestaña Números permiten reconocer fechas cuando se especifican usando únicamente caracteres asiáticos, como 平成三十年六月十八日, y una combinación de caracteres asiáticos y números indoarábigos de anchura completa, como 平成 2 8年 4月 14日.

Algunas configuraciones controlan si los números de dos o cuatro dígitos que aparecen en un documento se reconocen como año, lo que afecta a si el texto se reconoce como fecha y, a su vez, si se incluye en el rango aceptable de fechas que se extraen de los documentos. Cuando trabaja con versiones digitales de documentos históricos o documentos que proporcionan una proyección de eventos futuros, puede que necesite ajustar el rango de números reconocidos como año para adaptarlo a esos documentos, además de modificar el ajuste Limitar fechas extraídas a este rango en la pestaña Salida del panel Extraer ubicaciones.

  1. Acceda a la pestaña Fechas.
  2. Active el botón de alternancia Fechas.
  3. Haga clic en el botón Personalizar situado en la parte superior de la lista de formatos de fecha.
  4. Si los documentos están escritos en otro idioma y hay ajustes disponibles para ese idioma en la pestaña Configuración del cuadro de diálogo Personalizar, haga clic en ese idioma en la lista.
  5. Agregue la configuración para el idioma seleccionado al cuadro de diálogo Personalizar.
    • Haga clic en Reemplazar configuración para escanear los documentos utilizando solamente la configuración asociada al idioma seleccionado. Si el idioma actual es el inglés y el idioma seleccionado es el francés, después de reemplazar en el cuadro de diálogo la configuración de inglés por la configuración de francés, solo se reconocerán en los documentos coordenadas espaciales escritas en un formato francés.
    • Haga clic en Fusionar configuración para escanear los documentos utilizando la configuración tanto del idioma actual como del idioma adicional. Si el idioma actual es el inglés y el idioma seleccionado es el francés, después de fusionar la configuración de francés con la configuración del cuadro de diálogo, se reconocerán en los documentos coordenadas espaciales escritas en los formatos inglés y francés.
  6. Una fecha puede tener muchos componentes cuando se escribe. Elija una pestaña del encabezado Fechas asociada a un componente de una fecha, por ejemplo, Febrero.
  7. Modifique la lista de términos para incluir las notaciones utilizadas en los documentos que se van a escanear.
    1. Haga clic en la nueva fila al final de la cuadrícula, en la columna Texto de término.
    2. Escriba el valor adecuado que aparece en los documentos, por ejemplo, el término mal escrito Febuary, como uno de los valores que pueden identificar el mes de febrero.
    3. Pulse Intro.
  8. Aparecerán advertencias si se ha introducido el mismo término en varias pestañas del cuadro de diálogo Personalizar. Aunque es posible duplicar términos, la precisión con la que se reconocen las fechas en los documentos se verá reducida. Elimine los términos duplicados que no sean esenciales para el proceso de reconocer texto como una fecha.
    1. Haga clic en una de las pestañas afectadas.
    2. Haga clic en una fila de la cuadrícula para seleccionar el término duplicado que no debería usarse.
    3. Haga clic en el botón Eliminar Eliminar para eliminar la fila seleccionada de la cuadrícula.

    Si se dejan los términos duplicados, aparecerá un mensaje de advertencia en la parte inferior del panel Extraer ubicaciones, junto al botón Extraer.

  9. En la pestaña Rangos de año, especifique un rango de números que desee interpretar como años dentro de sus documentos.
  10. En la pestaña Números, especifique qué tipo de caracteres se pueden reconocer como una fecha.
  11. Haga clic en Aceptar.

Determinar la forma de evaluar las fechas

La alternancia de fechas debe estar activada para cambiar la forma en que se evalúan los documentos de entrada con respecto a las fechas, e incluir esta información en la clase de entidad de salida.

  1. Acceda a la pestaña Fechas.
  2. Active el botón de alternancia Fechas.
  3. Active los formatos de fecha que desea utilizar para evaluar las fechas candidatas. Desactive los formatos de fecha que no quiera usar.
  4. Especifique cualquier personalización que deba usarse al evaluar el texto para determinar si representa una fecha.

La próxima vez que se extraigan fechas, se utilizarán estas configuraciones de fechas para evaluar las fechas candidatas y determinar las fechas que se incluyen en la tabla de atributos de la clase de entidad de salida.

Se requieren guiones de separación de palabras

El ajuste Se requieren guiones de separación de palabras determina cómo un texto se considera una palabra. Cuando se requieren guiones de separación de palabras, un texto se considera una palabra si está delimitado por caracteres de espacios en blanco o puntuación, como en los idiomas europeos. Por ejemplo, la palabra inglesa Pacific no producirá correctamente una coincidencia respecto al texto The City of Pacifica is located just 15 minutes south of San Francisco.. Sin embargo, con el texto Viajé a Tokio en japonés, 私は東京に飛んで, no podría encontrar la palabra Tokio, 東京.

Con la opción Se requieren guiones de separación de palabras desactivada, el texto no tiene que estar delimitado por caracteres de espacios en blanco ni de puntuación para que coincida con un conjunto de textos determinado. Por ejemplo, una ubicación personalizada que buscara la palabra Pacific produciría incorrectamente una coincidencia respecto al texto The City of Pacifica is located just 15 minutes south of San Francisco.. Sin embargo, una ubicación personalizada que buscara el texto japonés equivalente a Tokio, 東京, produciría correctamente una coincidencia respecto al texto japonés equivalente a Viajé a Tokio, 私は東京に飛んで.

Este ajuste afecta al modo en que se escanean los documentos en busca de palabras que coincidan con ubicaciones personalizadas, atributos personalizados, coordenadas y fechas. En función del idioma del texto de los documentos, este ajuste puede producir falsos positivos frecuentes o falsos positivos infrecuentes. Sería preferible procesar documentos escritos en distintos idiomas por separado, con este ajuste activado o desactivado según proceda para cada idioma.

Activar o desactivar el botón de alternancia Se requieren guiones de separación de palabras

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Haga clic en la pestaña Opciones Opciones.
  3. Active o desactive el botón de alternancia Se requieren guiones de separación de palabras haciendo clic en él.

Con el botón de alternancia Se requieren guiones de separación de palabras activado, la próxima vez que se procesen documentos, el texto solo se considerará una palabra si está delimitado por caracteres de espacios en blanco o puntuación. Con el botón de alternancia Se requieren guiones de separación de palabras desactivado, la próxima vez que se procesen documentos, cualquier texto que coincida con el texto que está buscando se considerará una palabra.

Simbología

El símbolo que se utiliza para representar las ubicaciones encontradas en los documentos de entrada al crear una capa de mapa de salida se puede personalizar. Solo se puede especificar un único símbolo para las capas de mapa de esta manera.

  1. Abra el panel Extraer ubicaciones.
  2. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  3. Haga clic en la pestaña Opciones Opciones.
  4. Haga clic en el símbolo de punto, por ejemplo, el círculo sólido rojo bajo el encabezado Simbología.

    Aparece el panel Dar formato al símbolo de punto en el panel Extraer ubicaciones.

  5. Haga clic en un símbolo de punto de la galería o personalice las propiedades del símbolo y aplique los cambios. O, haga clic en el botón Atrás Atrás para cancelar los cambios y volver a la pestaña Opciones.

La próxima vez que se extraigan ubicaciones y se cree una capa de mapa de salida, se utilizará el símbolo especificado para dibujar las ubicaciones en el mapa.

Simbolizar ubicaciones por categoría o cantidad

Después de extraer las ubicaciones de un conjunto de documentos, puede usar los atributos personalizados para cambiar la forma de simbolizar las ubicaciones de salida. Por ejemplo, puede proporcionar diferentes símbolos para representar las palabras clave encontradas en cada ubicación. La próxima vez que extraiga ubicaciones con la misma configuración, puede incorporarlas a la capa de mapa existente. Los puntos resultantes se simbolizarán automáticamente de la misma manera.

Si más adelante desea usar la misma plantilla Extraer ubicaciones para crear una nueva capa de mapa con la misma simbolización, debe capturar primero la simbolización de la capa de mapa original como paquete de capas solo de esquema. El paquete de capas se puede utilizar para crear una nueva clase de entidad y una capa de mapa complementaria a las que puede incorporar ubicaciones desde un nuevo conjunto de documentos.

  1. Abra el mapa que contiene la capa de mapa cuya simbolización desea reutilizar.
  2. Cree un paquete de capas solo de esquema desde la capa de mapa existente.
  3. Agregue el paquete de capas solo de esquema al nuevo mapa en el que desea extraer un nuevo conjunto de ubicaciones.

    Se crea una nueva clase de entidad en la geodatabase predeterminada del proyecto con el esquema definido en el paquete de capas. Se crea una nueva capa de mapa con la definición de capa del paquete de capas.

    Más información sobre las capas y paquetes de capas

  4. Siga el flujo de trabajo para extraer ubicaciones a la capa de mapa existente creada en el paso anterior.

Las ubicaciones extraídas a la capa de mapa se simbolizan automáticamente según los valores de atributo personalizados que se extrajeron de los documentos y el texto.

Explorar archivos

La pestaña Explorar archivos Explorar archivos le permite controlar qué documentos se escanean o se omiten.

Escanear tipos de archivos específicos

Un tipo de archivo en este contexto es la extensión de nombre de archivo. Por ejemplo, si tiene un archivo table.txt, el tipo de archivo es TXT. Cuando proporciona una carpeta como entrada y la carpeta contiene muchos archivos, puede limitar los archivos a escanear especificando el conjunto de tipos de archivos con los que trabajar. Puede eliminar los archivos que sabe que no son relevantes o restringir el escaneo a los archivos relevantes.

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Haga clic en la pestaña Explorar archivos Explorar archivos.
  3. Haga clic en el encabezado Tipos de archivo.
  4. Elija si escanear u omitir los tipos de archivos especificados.
    • Explorar todos los archivos excepto estos tipos: especifique los tipos de archivos a omitir. Ésta es la opción predeterminada.
    • Examinar solo estos tipos de archivo: especifique los tipos de archivo a escanear.
  5. Agregar extensiones a la lista de tipos de archivos.
    • Haga clic en Agregar extensiones Agregar extensiones. En el cuadro de diálogo Agregar extensiones escriba una o más extensiones de archivo en el cuadro de texto Extensiones. Si escribe muchas extensiones de archivo, sepárelas solo con espacios; no ponga una coma después de la extensión de archivo. Por ejemplo, escriba txt doc csv. Se puede usar un punto antes de la extensión de archivo si se desea. Haga clic en Aceptar.
    • Arrastre los archivos desde el Explorador de Windows a la lista de tipos de archivos.

    Las extensiones de archivo especificadas se agregan a la lista de tipos de archivos.

Si el equipo reconoce una extensión de archivo, el icono y la cadena de tipo que se utilizan en el Explorador de Windows para representar ese tipo de archivo se incluyen en la lista. Por ejemplo, si proporciona la extensión del archivo .docx, la extensión de archivo .DOCX y el icono utilizado para representar estos archivos en su equipo aparecen en la lista de la columna Extensión. La columna Tipo contendrá el valor Documento de Microsoft Word.

Omitir archivos y carpetas específicos

Al escanear una carpeta o un disco que contiene muchos archivos, puede ser útil evitar escanear archivos o carpetas individuales. El escaneo finalizará más rápido e incluirá menos ubicaciones de falsos positivos. Por ejemplo, las carpetas que contienen informes financieros pueden contener números que se parecen a coordenadas espaciales.

Al escanear discos, considere excluir las carpetas que contienen software instalado, archivos de sistema operativo, controladores de hardware, etc. Los archivos ocultos y los archivos del sistema, que a menudo no aparecen en el Explorador de Windows, se omitirán de forma predeterminada, pero puede desactivar estas opciones si es los adecuado para su escenario.

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Haga clic en la pestaña Explorar archivos Explorar archivos.
  3. Haga clic en el encabezado Omitir tipos.
  4. Desactive Oculto o Sistema bajo el encabezado Atributos de archivo, cuando corresponda.
  5. Agregue los archivos y carpetas que deben omitirse a la lista Archivos y carpetas.
    • Haga clic en Agregar archivos y carpetas Agregar archivos y carpetas. Aparece el cuadro de diálogo Agregar archivos y carpetas. Busque y seleccione los archivos y carpetas que deben omitirse y haga clic en Abrir.
    • Arrastre los archivos y carpetas desde el Explorador de Windows a la lista Archivos y carpetas.

    Los archivos y carpetas especificados se agregan a la lista.

El icono utilizado en el Explorador de Windows para representar el elemento y su nombre aparecen en la lista en la columna Nombre. La columna Ruta muestra la ruta al archivo o carpeta.

Algunos archivos no se procesan

Los documentos se procesan con la misma tecnología que la búsqueda de Windows utiliza para examinar los archivos del equipo, un plug-in conocido como IFilter. El panel Extraer ubicaciones y sus herramientas asociadas no usan la búsqueda de Windows; utilizan los plug-ins IFilter que ya están disponibles en el equipo para examinar los documentos y el texto de entrada.

Se incluyen varios IFilters con sistemas operativos Microsoft Windows que pueden procesar archivos de texto, archivos HTML, algunos documentos Microsoft Office, etc. Los IFilters disponibles son diferentes en los distintos sistemas operativos. Otras aplicaciones instaladas en el equipo pueden proporcionar IFilters adicionales que se pueden usar para procesar los documentos que administran. Por ejemplo, al instalar Adobe Acrobat Reader DC o Adobe Acrobat, se puede proporcionar un IFilter que se puede utilizar para procesar el contenido de los archivos PDF. Al escanear los archivos, se utiliza un IFilter específico para ese tipo de archivo si hay uno disponible, de lo contrario, los archivos se escanean utilizando los IFilters estándar y se extrae la mayor cantidad de información posible.

Debido a que AllSource es una aplicación de 64 bits, solo se pueden usar IFilters de 64 bits para procesar los documentos y el texto de entrada. Una aplicación de 32 bits normalmente solo proporciona IFilters de 32 bits para procesar sus documentos; AllSource no puede utilizar estos IFilters.

Si no ha configurado el tipo de archivo específico a omitir, como archivos PDF, pero no puede extraer ubicaciones de los archivos en los que sabe que existen, asegúrese de tener instalado el IFilter de 64 bits adecuado en su equipo.

Con Windows 10, debería estar disponible un IFilter que AllSource pueda usar para procesar archivos PDF. Con otras versiones de Windows, si tiene instalada la versión de 32 bits de Adobe Reader, es posible que no haya disponible un IFilter de 64 bits para procesar documentos PDF. Utilizando los IFilters estándar de Windows no se puede extraer contenido de los documentos PDF. Puede descargar un IFilter de 64 bits para PDF desde el sitio web de Adobe.

Salida

La pestaña Salida Salida permite controlar qué contenido se extrae de los documentos y se almacena en la clase de entidad de salida.

Límites de documentos

En las ubicaciones y fechas que se extraen de los documentos de entrada se pueden colocar límites. Al escanear un conjunto de documentos de entrada por primera vez, puede encontrarse con un archivo que contenga un gran conjunto de números que se parecen, pero no son coordenadas espaciales, o una secuencia de números que se parece a una fecha, pero en realidad es un tipo diferente de datos. De forma predeterminada, se colocan límites sobre cuántas entidades y fechas se extraen de los documentos de entrada, lo que evita generar millones de puntos de error o almacenar muchas fechas sin sentido en la tabla de atributos. Después de evaluar las ubicaciones de salida y las fechas almacenadas en sus atributos, puede elegir deshabilitar esta limitación o cambiar el límite antes de escanear los documentos nuevamente.

A veces no se sabe nada sobre los documentos que se escanean. En otras ocasiones, se pueden escanear periódicamente conjuntos de documentos semiestructurados, como los informes. Los informes a menudo comienzan con la fecha y la ubicación en la que se escribió el informe, sin embargo, el tema del informe se refiere a eventos que ocurrieron en un día diferente en una ubicación diferente. Puede elegir omitir el primer número de ubicaciones y fechas al procesar estos documentos para que la clase de entidad de salida capture el contenido de interés.

Se pueden establecer límites en el número y el tipo de entidades y fechas que se extraen de los documentos de entrada. Estos límites se describen a continuación:

  • Límites de entidades
    • Limitar el número de entidades por documento: de forma predeterminada, solo las primeras 3.000 ubicaciones encontradas en un documento se extraen y almacenan en la clase de entidad de salida. Con esta opción activada se puede aumentar o disminuir el límite del número de entidades extraídas de un solo documento. Desactive esta opción para evaluar todas las coordenadas espaciales candidatas y ubicaciones personalizadas de un documento y extraer todas las entidades encontradas. Esta opción está habilitada por defecto.
    • Ignorar primer número de entidades de cada documento: de forma predeterminada, la primera coordenada espacial candidata o ubicación personalizada que se encuentra en un documento de entrada se evalúa, seguida por todas las demás posibles coordenadas y ubicaciones hasta que se alcanza el límite de la entidad o el final del documento. Con esta opción activada se puede omitir un número específico de entidades al principio de un documento y luego extraer todas las entidades subsiguientes hasta el límite. De forma predeterminada, solo se omite la primera entidad, pero se puede aumentar este número, si procede. Desactive esta opción para evaluar todas las coordenadas espaciales candidatas y ubicaciones personalizadas hasta el límite. Esta opción no está habilitada de forma predeterminada.
  • Límites de fecha
    • Número límite de fechas por documento: de forma predeterminada, solo las primeras 30 fechas encontradas en un documento se extraen y almacenan en la tabla de atributos de la clase de entidad de salida. Con esta opción activada se puede aumentar o disminuir el límite en la cantidad de fechas extraídas de un solo documento. Desactive esta opción para evaluar todas las fechas candidatas de un documento y extraer todas las fechas encontradas. Esta opción está habilitada por defecto.
    • Ignorar primer número de fechas por documento: de forma predeterminada, se evalúa la primera posible fecha encontrada en un documento de entrada, seguida de todas las demás fechas candidatas hasta alcanzar el límite de fechas o el final del documento. Con esta opción activada se puede omitir un número específico de fechas al principio de un documento y luego extraer todas las fechas subsiguientes hasta el límite. De forma predeterminada, solo se omite la primera fecha, pero se puede aumentar este número, si procede. Desactive esta opción para evaluar todas las fechas candidatas hasta el límite. Esta opción no está habilitada de forma predeterminada.
  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Haga clic en la pestaña Salida Salida.
  3. Haga clic en el encabezado Límites de documentos.
  4. Active o desactive las opciones para limitar la cantidad de entidades y fechas que se extraen, según corresponda.
  5. Haga clic en los cuadros de texto habilitados Entidades y Fechas y escriba el número que representa el máximo de entidades o fechas a extraer.
  6. Active o desactive las opciones para omitir un número determinado de entidades y fechas al comienzo del documento o texto de entrada, según corresponda.
  7. Haga clic en los cuadros de texto habilitados Entidades y Fechas y escriba el número que representa cuántas entidades o fechas se deben omitir antes de extraer las entidades o fechas adicionales presentes.

Límites de texto previo y texto posterior

Cuando se extrae una coordenada espacial o una ubicación personalizada del documento y se almacena en la clase de entidad de salida, numerosos datos de información se almacenan en la tabla de atributos de la clase de entidad de salida para ayudar a evaluar esas ubicaciones más adelante. Un extracto del documento que precede a la ubicación se almacena en el campo Texto previo en la tabla de atributos de la clase de entidad. Un extracto del documento que sigue a la ubicación se almacena en el campo Texto posterior en la tabla de atributos de la clase de entidad. Estos atributos ayudan a establecer el contexto de la ubicación: ¿es una ubicación real? En caso afirmativo, ¿qué sucedió allí?, ¿es relevante para el análisis?

La siguiente configuración determina la cantidad de texto que rodea a una ubicación y que se extrae y almacena en la clase de entidad:

  • Texto previo: de forma predeterminada, los 254 caracteres de texto anteriores a la ubicación se extraen del documento y se almacenan en el campo Texto previo. Este valor se puede aumentar o disminuir según corresponda.
  • Texto posterior: de forma predeterminada, los 254 caracteres de texto posteriores a la ubicación se extraen del documento y se almacenan en el campo Texto posterior. Este valor se puede aumentar o disminuir según corresponda.
  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Haga clic en la pestaña Salida Salida.
  3. Haga clic en el encabezado Límites de texto previo y texto posterior.
  4. Haga clic en el cuadro de texto Texto previo y escriba el número que representa el número máximo de caracteres anteriores a una ubicación que se extraen del documento de entrada.
  5. Haga clic en el cuadro de texto Texto posterior y escriba el número que representa el número máximo de caracteres posteriores a una ubicación que se extraen del documento de entrada.

Otros límites de campo de texto

En la tabla de atributos de la clase de entidad de salida se registran distintos tipos de información que le ayudan a evaluar las ubicaciones y fechas extraídas, además de los campos Texto previo y Texto posterior. Puede ajustar el tamaño de estos campos para que contengan más o menos información y adaptarlos al contenido de la colección actual de documentos.

Los siguientes ajustes determinan la cantidad de texto almacenado en la clase de entidad:

  • Nombre: de forma predeterminada, se pueden almacenar 50 caracteres de texto en el campo Nombre para representar el nombre del archivo en el que se encontró la ubicación. Este valor se puede aumentar o disminuir según corresponda.
  • Texto extraído: de forma predeterminada, se pueden almacenar 120 caracteres de texto en el campo Texto extraído para representar la coordenada espacial o la ubicación personalizada encontradas. Este valor se puede aumentar o disminuir según corresponda.
  • Tipo extraído: de forma predeterminada, se pueden almacenar 50 caracteres de texto en el campo Tipo extraído para representar el tipo de coordenada espacial o ubicación personalizada encontrado. Este valor se puede aumentar o disminuir según corresponda.
  • Todas las fechas: de forma predeterminada, se pueden almacenar en el campo Todas las fechas 254 caracteres de texto que representen las fechas encontradas en el documento. Estas fechas están estandarizadas en el formato aaaa-mm-dd. Este valor se puede aumentar o disminuir según corresponda.
  • Texto de fecha extraído: de forma predeterminada, se pueden almacenar en el campo Texto de fecha extraído 254 caracteres de texto que representen las fechas encontradas en el documento. Se extrae y se registra el texto del documento original que se reconoció como fecha. Este valor se puede aumentar o disminuir según corresponda.
  • Nombre de archivo: de forma predeterminada, se pueden almacenar 254 caracteres de texto en el campo Nombre de archivo para representar la ruta completa del archivo en el que se encontró la ubicación. Este valor se puede aumentar o disminuir según corresponda.
  • Tipo de archivo: de forma predeterminada, se pueden almacenar 10 caracteres de texto en el campo Tipo de archivo para representar el tipo de archivo procesado. Este valor se puede aumentar o disminuir según corresponda.

Más información sobre los campos de la clase de entidad de salida

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Haga clic en la pestaña Salida Salida.
  3. Haga clic en el encabezado Otros límites de campo de texto.
  4. Haga clic en los cuadros de texto de campo y escriba el número que represente el número máximo de caracteres que se pueden registrar en cada campo.

Rango de fechas

Algunos números pueden parecerse tanto a coordenadas espaciales como a fechas. De forma predeterminada, las fechas solo se extraen de un documento de entrada si coinciden con uno de los formatos de fecha seleccionados y si la fecha resultante se encuentra dentro de un rango de fechas específico. Esto reduce la posibilidad de extraer una fecha que sea un falso positivo. El rango de fechas predeterminado abarca del 1 de enero de 1985 al 31 de diciembre de 2030. Aunque se encuentre una fecha en un documento de entrada, si la fecha se encuentra fuera del rango de fechas especificado, no se extrae ni se almacena en la tabla de atributos de la clase de entidad de salida.

Desactive Limitar fechas extraídas a este rango para extraer cualquier fecha posible de los documentos de entrada. Aumentará el tiempo que lleva evaluar el contenido de un documento, ya que se deben evaluar todos los números en relación con los formatos de fecha seleccionados.

Si solo está interesado en eventos que tuvieron lugar durante un periodo de tiempo determinado, seleccione la opción Limitar fechas extraídas a este rango y ajuste el rango de fechas para que coincida más estrechamente con el periodo de tiempo en que ocurrieron los eventos.

  • Desde: de forma predeterminada, 1 de enero de 1985. Haga clic en el menú desplegable y haga clic en la fecha de inicio del rango de fechas válido en el control de calendario.
  • Hasta: de forma predeterminada, 31 de diciembre de 2030. Haga clic en el menú desplegable y haga clic en la fecha final del rango de fechas válido en el control de calendario.

El control de calendario proporciona acceso a un mes a la vez. Use las flechas de las esquinas superiores para acceder a un mes anterior o posterior. Haga clic en el mes y año de la parte superior del calendario para ver la lista de meses. Haga clic en el año de la parte superior de la lista de meses para acceder a la lista de años. Use las flechas de las esquinas superiores para acceder a un año anterior o posterior.

Si trabaja con documentos históricos, la configuración adicional de la pestaña Rangos de año del cuadro de diálogo Personalizar influye en si el texto se reconoce como fecha y en cómo funciona el ajuste Limitar fechas extraídas a este rango. La configuración de la pestaña Rangos de año determina si los números de dos y cuatro dígitos se interpretan como años. Esta evaluación se produce antes de determinar si el texto adyacente al año es una fecha.

De forma predeterminada, los números de cuatro dígitos entre 1900 y 2099 se reconocen como años. Siempre que los años del ajuste Limitar fechas extraídas a este rango estén dentro de este rango, funcionará eficazmente para restringir cualquier fecha encontrada con un año de cuatro dígitos. Si trabaja con documentos históricos que han pasado a estar disponibles digitalmente, debe ajustar tanto el ajuste Limitar fechas extraídas a este rango de la pestaña Salida como el rango de años de cuatro dígitos de la pestaña Rangos de año del cuadro de diálogo Personalizar para tener en cuenta el periodo de tiempo en el que se escribieron los documentos.

Del mismo modo, al analizar números de dos dígitos para determinar si representan un año, se utiliza una ventana de 100 años que empieza de forma predeterminada por el año 1970. Siempre que los años del ajuste Limitar fechas extraídas a este rango estén dentro de este rango, funcionará eficazmente para restringir cualquier fecha encontrada con un año de dos dígitos. Sin embargo, si trabaja con documentos históricos o informes relacionados con proyecciones para el futuro, es posible que tenga que ajustar la ventana de 100 años en la pestaña Rangos de año del cuadro de diálogo Personalizar, así como el ajuste Limitar fechas extraídas a este rango de la pestaña Salida, para tener en cuenta el periodo de tiempo de los documentos.

Más información sobre cómo personalizar el modo en que el texto se reconoce como fecha

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Haga clic en la pestaña Salida Salida.
  3. Haga clic en el encabezado Rango de fechas.
  4. Active o desactive la opción Limitar fechas extraídas a este rango, según corresponda.
  5. Si la opción está habilitada, haga clic en la flecha desplegable de Desde y busque y seleccione la fecha de inicio del rango de fechas a extraer.
  6. Si la opción está habilitada, haga clic en la flecha desplegable de Hasta y busque y seleccione la fecha final del rango de fechas a extraer.
  7. Especifique cualquier personalización que deba usarse al evaluar el texto para determinar si representa una fecha.

Coordenada estandarizada

Cuando se extrae una coordenada espacial o una ubicación personalizada del documento y se almacena en la clase de entidad de salida, numerosos datos de información se almacenan en la tabla de atributos de la clase de entidad de salida para ayudar a evaluar esas ubicaciones más adelante. El texto original del documento que representa la ubicación se almacena en la tabla de atributos en el campo Extracted Text y el tipo de ubicación encontrado se registra en el campo Extracted Type.

Además, se almacena una representación de todas las ubicaciones encontradas en el campo de coordenadas estandarizado, que tiene el alias Stand. Coord.. Las coordenadas x,y asociadas con la entidad de punto se registran en el formato especificado por la opción Coordenada estandarizada.

Elija el formato de coordenadas que cumpla con sus requisitos entre las siguientes opciones. Por ejemplo, una coordenada encontrada en un documento de entrada como 117.1717550°W 34.0552456°N aparecerá en el campo de coordenadas estandarizadas como se especifica a continuación al seleccionar cada uno de los formatos de coordenadas.

  • DD - Grados decimales: 34.055246N 117.171755W (seleccionado de forma predeterminada)
  • DM - Minutos decimales: 34 03.3147N 117 10.3053W
  • DMS - Grados minutos segundos: 34 03 18.88N 117 10 18.32W
  • UTM - Proyección Universal Transversa de Mercator: 11S 484149 3768294
  • MGRS - Sistema de Referencia de Cuadrícula Militar: 11SMT8414968295

  1. En el panel Extraer ubicaciones, haga clic en la pestaña Propiedades.
  2. Haga clic en la pestaña Salida Salida.
  3. Haga clic en el encabezado Coordenada estandarizada.
  4. Haga clic en la lista desplegable y haga clic en el formato de coordenadas en el que se registrarán las ubicaciones extraídas.