260014: No se admite el formato de entrada.

Descripción

Los archivos del directorio de entrada no son de ningún tipo compatible.

Solución

Utilice uno de los siguientes formatos compatibles:

  • Clase de entidad o tabla que contiene un campo de texto con el texto de entrada para el modelo y las entidades etiquetadas en las que el campo de texto seleccionado se utilizará como texto de entrada del modelo. Los campos restantes se tratarán como etiquetas de entidades con nombre.
  • Carpeta que contiene datos de entrenamiento en forma de datasets estándar para tareas NER. Los datos de entrenamiento deben estar en archivos .json o .csv. El formato de archivo determina el tipo de dataset de la entrada.
    • Cuando la entrada es una carpeta, se admiten los tipos de datasets siguientes:
      • ner_json: la carpeta de datos de entrenamiento debe contener un archivo .json con texto y las entidades etiquetadas formateadas utilizando el formato de entrenamiento JSON de spaCy.
      • IOB: el formato IOB (etiquetas dentro, fuera, principio) descrito en Text Chunking using Transformation-Based Learning.

        La carpeta de datos de entrenamiento debe contener los dos siguientes archivos .csv:

        • tokens.csv: contiene texto como fragmentos de entrada
        • tags.csv: contiene etiquetas IOB para los fragmentos de texto
      • BILUO: extensión del formato IOB que contiene las etiquetas L (último) y U (unidad).

        La carpeta de datos de entrenamiento debe contener los dos siguientes archivos .csv:

        • tokens.csv: contiene texto como fragmentos de entrada
        • tags.csv: contiene etiquetas BILUO para los fragmentos de texto

Para obtener más información sobre estos formatos y datos de etiquetado en estos formatos, consulte la guía sobre cómo etiquetar con Doccano.