Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築
言語処理学会第31回年次大会 (NLP2025) · March 2025
大規模言語モデルの学習には高品質なコーパスが不可欠だが、日本語では特に教育的価値の高いテキストデータが不足している。本研究では、ウェブから収集した日本語テキストに対して教育的価値を評価し、高品質なコーパスを構築する手法を提案する。FastTextとLLMを組み合わせた効率的なフィルタリングパイプラインを開発し、3540億トークンから精選した350億トークンのSwallowコーパスv2を構築した。本コーパスで学習したモデルは、既存の日本語ベンチマークで優れた性能を示し、特に推論・知識タスクで顕著な改善を達成した。
BibTeX
@inproceedings{maeda2025swallow,
title={Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築},
author={服部 翔 and 岡崎 直観 and 水木 栄 and 藤井 一喜 and 中村 泰士 and 大井 聖也 and 塩谷 泰平 and 齋藤 幸史郎 and Youmi Ma and 前田 航希 and 岡本 拓己 and 石田 茂樹 and 横田 理央 and 高村 大也},
booktitle={言語処理学会第31回年次大会 (NLP2025)},
year={2025},
address={長崎}
}