Описание
Файлы во входной директории должны быть одного из следующих поддерживаемых типов:
- ner_json
- IOB
- BILOU
Решение
Укажите путь к директории для параметра Входная папка, содержащей поддерживаемые файлы. Поддерживаемые форматы файлов - JSON или CSV. Ниже приведены поддерживаемые типы наборов данных:
- ner_json — папка должна содержать файл .json с текстом и помеченными элементами.
- IOB — этот формат содержит следующие теги: B - 'beginning' (в начале), I - 'inside' (внутри), O - 'outside' (извне). Папка должна содержать следующие два файла .csv:
- token.csv — содержит текст в виде входных фрагментов
- tags.csv — содержит теги IOB для текстовых фрагментов
- BILUO — этот формат содержит следующие теги: B - 'beginning' (в начале), I - 'inside' (внутри), L - 'last' (последний), O - 'outside' (извне), U -'unit (секция). Папка должна содержать следующие два файла .csv:
- token.csv — содержит текст в виде входных фрагментов
- tags.csv — содержит теги IOB для текстовых фрагментов
Для получения дополнительной информации об этих форматах и данных маркировки в этих форматах см. Текст маркировки с использованием руководства Doccano.