Descripción
Los archivos del directorio de entrada no son de ningún tipo compatible.
Solución
Utilice uno de los siguientes formatos compatibles:
- Clase de entidad o tabla que contiene un campo de texto con el texto de entrada para el modelo y las entidades etiquetadas en las que el campo de texto seleccionado se utilizará como texto de entrada del modelo. Los campos restantes se tratarán como etiquetas de entidades con nombre.
- Carpeta que contiene datos de entrenamiento en forma de datasets estándar para tareas NER. Los datos de entrenamiento deben estar en archivos .json o .csv. El formato de archivo determina el tipo de dataset de la entrada.
- Cuando la entrada es una carpeta, se admiten los tipos de datasets siguientes:
- ner_json: la carpeta de datos de entrenamiento debe contener un archivo .json con texto y las entidades etiquetadas formateadas utilizando el formato de entrenamiento JSON de spaCy.
- IOB: el formato IOB (etiquetas dentro, fuera, principio) descrito en Text Chunking using Transformation-Based Learning.
La carpeta de datos de entrenamiento debe contener los dos siguientes archivos .csv:
- tokens.csv: contiene texto como fragmentos de entrada
- tags.csv: contiene etiquetas IOB para los fragmentos de texto
- BILUO: extensión del formato IOB que contiene las etiquetas L (último) y U (unidad).
La carpeta de datos de entrenamiento debe contener los dos siguientes archivos .csv:
- tokens.csv: contiene texto como fragmentos de entrada
- tags.csv: contiene etiquetas BILUO para los fragmentos de texto
- Cuando la entrada es una carpeta, se admiten los tipos de datasets siguientes:
Para obtener más información sobre estos formatos y datos de etiquetado en estos formatos, consulte la guía sobre cómo etiquetar con Doccano.