Описание
Файлы во входной директории не являются поддерживаемым типом.
Решение
Используйте один из следующих поддерживаемых форматов:
- Класс пространственных объектов или таблица, содержащая текстовое поле с входным текстом для модели и помеченные элементы, где выбранное текстовое поле будет использоваться в качестве входного текста для модели. Остальные поля будут обрабатываться как надписи именованных элементов.
- Папка, содержащая обучающие данные в формате стандартных наборов данных для задач NER. Обучающие данные должны быть в файле .json или .csv. Формат файла определяет тип набора данных входных данных.
- Если входными данными является папка, поддерживаются следующие типы наборов данных:
- ner_json — папка обучающих данных должна содержать файл .json с текстом и помеченными элементами, форматированными с использованием обучающего формата spaCy JSON.
- IOB — формат IOB (теги I - inside, O - outside, B - beginning), описанный в статье Text Chunking using Transformation-Based Learning.
Папка обучающих данных должна содержать следующие два файла .csv:
- tokens.csv — содержит текст в виде входных фрагментов
- tags.csv — содержит теги IOB для текстовых фрагментов
- BILUO — расширение формата IOB, которое дополнительно содержит теги L - last и U - unit.
Папка обучающих данных должна содержать следующие два файла .csv:
- tokens.csv — содержит текст в виде входных фрагментов
- tags.csv — содержит теги BILUO для текстовых фрагментов
- Если входными данными является папка, поддерживаются следующие типы наборов данных:
Для получения дополнительной информации об этих форматах и данных маркировки в этих форматах см. Текст маркировки с использованием руководства Doccano.