260014: 输入格式不受支持。

AllSource 1.3    |

描述

输入目录中的文件类型不受支持。

解决方案

请使用以下受支持的格式之一:

  • 一个要素类或表,其中包含一个文本字段,该文本字段包含模型的输入文本和带标注的实体,其中选定的文本字段将用作模型的输入文本。 其余字段将被视为命名实体标注。
  • 一个文件夹,其中包含用于 NER 任务的标准数据集形式的训练数据。 训练数据必须位于 .json.csv 文件中。 文件格式确定输入的数据集类型。
    • 当输入为文件夹时,支持以下数据集类型:
      • ner_json - 训练数据文件夹应包含一个 .json 文件,该文件包含使用 spaCy JSON 训练格式进行格式化的文本和标注实体。
      • IOB - Text Chunking using Transformation-Based Learning 中介绍的 IOB(I - 内部、O - 外部、B - 开头标签)格式。

        训练数据文件夹应包含以下两个 .csv 文件:

        • tokens.csv - 包含文本作为输入区段
        • tags.csv - 包含文本区段的 IOB 标签
      • BILUO - IOB 格式的扩展,额外包含 L 和 U 标签(L - 结尾、U - 单位)。

        训练数据文件夹应包含以下两个 .csv 文件:

        • tokens.csv - 包含文本作为输入区段
        • tags.csv - 包含文本区段的 BILUO 标签

有关这些格式和以这些格式标注数据的详细信息,请参阅使用 Doccano 指南标注文本