Description
Le type des fichiers du répertoire en entrée n’est pas pris en charge.
Solution
Utilisez l’un des formats pris en charge suivants :
- Une table ou une classe d’entités contenant un champ de texte avec le texte en entrée pour le modèle et les entités étiquetées où le champ de texte sélectionné sera utilisé comme texte en entrée pour le modèle. Les champs restants seront traités comme des étiquettes d’entités nommées.
- Dossier contenant des données d’entraînement sous la forme de jeux de données standard pour les tâches de reconnaissance d’entités nommées (NER). Les données d’entraînement doivent se trouver dans des fichiers .json ou .csv. Le format de fichier détermine le type de jeu de données de l’entrée.
- Lorsque l’entrée est un dossier, les types de jeux de données suivants sont pris en charge :
- ner_json : le dossier de données d’entraînement doit contenir un fichier .json avec le texte et les entités étiquetées au au format d’entraînement JSON spaCy.
- IOB : format IOB (balises I - inside, O - outside, B - beginning) décrit dans le document Text Chunking using Transformation-Based Learning.
Le dossier de données d’entraînement doit contenir les deux fichiers .csv suivants :
- tokens.csv : contient du texte sous forme de blocs en entrée
- tags.csv : contient des balises IOB pour les blocs en entrée
- BILUO : extension du format IOB qui contient en plus les balises L (last) et U (unit).
Le dossier de données d’entraînement doit contenir les deux fichiers .csv suivants :
- tokens.csv : contient du texte sous forme de blocs en entrée
- tags.csv : contient des balises BILUO pour les blocs en entrée
- Lorsque l’entrée est un dossier, les types de jeux de données suivants sont pris en charge :
Pour plus d’informations sur ces formats et sur l’étiquetage des données dans ces formats, reportez-vous au guide sur l’étiquetage de texte avec Doccano.
Vous avez un commentaire à formuler concernant cette rubrique ?