Beschreibung
Die Dateien im Eingabeverzeichnis weisen keinen unterstützten Typ auf.
Lösung
Verwenden Sie eines der folgenden unterstützten Formate:
- Eine Feature-Class oder Tabelle, die ein Textfeld mit dem Eingabetext für das Modell und die beschrifteten Entitäten enthält, wobei das ausgewählte Textfeld als Eingabetext für das Modell verwendet wird. Die übrigen Felder werden als Beschriftungen für benannte Entitäten verwendet.
- Ein Ordner, der Trainingsdaten in Form von Standard-Datasets für NER-Tasks enthält. Die Trainingsdaten müssen in .json- oder .csv-Dateien vorliegen. Das Dateiformat bestimmt den Dataset-Typ der Eingabe.
- Wenn die Eingabe ein Ordner ist, werden die folgenden Dataset-Typen unterstützt:
- ner_json: Der Ordner mit den Trainingsdaten muss eine .json-Datei mit Text und den beschrifteten Entitäten enthalten, die mithilfe des spaCy-JSON-Trainingsformats formatiert sind.
- IOB: Das in Text Chunking using Transformation-Based Learning beschriebene IOB-Format: I – "inside" (innerhalb), O – "outside" (außerhalb), B – "beginning" (Anfang).
Der Ordner mit den Trainingsdaten muss die beiden folgenden .csv-Dateien enthalten:
- tokens.csv: Enthält Text als Eingabe-Chunks.
- tags.csv: Enthält IOB-Tags für die Text-Chunks.
- BILUO: Eine Erweiterung des IOB-Formats, das zusätzlich die folgenden Tags enthält: L – "last" (letztes), und U – "unit" (Einheit).
Der Ordner mit den Trainingsdaten muss die beiden folgenden .csv-Dateien enthalten:
- tokens.csv: Enthält Text als Eingabe-Chunks.
- tags.csv: Enthält BILUO-Tags für die Text-Chunks.
- Wenn die Eingabe ein Ordner ist, werden die folgenden Dataset-Typen unterstützt:
Weitere Informationen zu diesen Formaten und zum Beschriften von Daten in diesen Formaten finden Sie in den Anweisungen zum Beschriften von Text mit Doccano.