260014: Формат входных данных не поддерживается.

AllSource 1.3    |

Описание

Файлы во входной директории не являются поддерживаемым типом.

Решение

Используйте один из следующих поддерживаемых форматов:

  • Класс пространственных объектов или таблица, содержащая текстовое поле с входным текстом для модели и помеченные элементы, где выбранное текстовое поле будет использоваться в качестве входного текста для модели. Остальные поля будут обрабатываться как надписи именованных элементов.
  • Папка, содержащая обучающие данные в формате стандартных наборов данных для задач NER. Обучающие данные должны быть в файле .json или .csv. Формат файла определяет тип набора данных входных данных.
    • Если входными данными является папка, поддерживаются следующие типы наборов данных:
      • ner_json — папка обучающих данных должна содержать файл .json с текстом и помеченными элементами, форматированными с использованием обучающего формата spaCy JSON.
      • IOB — формат IOB (теги I - inside, O - outside, B - beginning), описанный в статье Text Chunking using Transformation-Based Learning.

        Папка обучающих данных должна содержать следующие два файла .csv:

        • tokens.csv — содержит текст в виде входных фрагментов
        • tags.csv — содержит теги IOB для текстовых фрагментов
      • BILUO — расширение формата IOB, которое дополнительно содержит теги L - last и U - unit.

        Папка обучающих данных должна содержать следующие два файла .csv:

        • tokens.csv — содержит текст в виде входных фрагментов
        • tags.csv — содержит теги BILUO для текстовых фрагментов

Для получения дополнительной информации об этих форматах и данных маркировки в этих форматах см. Текст маркировки с использованием руководства Doccano.