説明
入力ディレクトリ内のファイルは、サポートされているタイプではありません。
解決策
サポートされている以下の形式のいずれかを使用します。
- モデルの入力テキストとラベル付きエンティティのテキスト フィールドを含むフィーチャクラスまたはテーブル。ここで、選択したテキスト フィールドはモデルの入力テキストとして使用されます。 残りのフィールドは名前付きエンティティのラベルとして扱われます。
- NER タスクの標準データセット形式のトレーニング データを含むフォルダー。 トレーニング データは .json または .csv ファイルの形式でなければなりません。 ファイル形式によって入力のデータセット タイプが決まります。
- 入力がフォルダーの場合、次のデータセット タイプがサポートされます。
- ner_json - トレーニング データ フォルダーには、テキストとラベル付きエンティティを spaCy JSON トレーニング形式でフォーマットした .json ファイルが含まれている必要があります。
- IOB - Text Chunking using Transformation-Based Learning で説明されている IOB (I - inside タグ、O - outside タグ、B - beginning タグ) 形式。
トレーニング データ フォルダーには、次の 2 つの .csv ファイルが含まれている必要があります。
- tokens.csv - 入力チャンクとしてテキストが含まれています。
- tags.csv - テキスト チャンクの IOB タグが含まれています。
- BILUO - IOB 形式のエクステンションであり、Last の L、Unit の U のタグが追加で含まれます。
トレーニング データ フォルダーには、次の 2 つの .csv ファイルが含まれている必要があります。
- tokens.csv - 入力チャンクとしてテキストが含まれています。
- tags.csv - テキスト チャンクの BILUO タグが含まれています。
- 入力がフォルダーの場合、次のデータセット タイプがサポートされます。
これらの形式と、これらの形式のラベリング データの詳細については、「Doccano を使用したラベリング テキスト ガイド」をご参照ください。