新聞記事からつくる時事と社会に強い日本語LLM
言語処理学会第31回年次大会 (NLP2025) · March 2025
大規模言語モデル(LLM)の学習データは主にウェブから収集されるため、時事問題や社会的な知識の習得に課題がある。本研究では、新聞記事データを活用してLLMを継続事前学習することで、時事・社会問題に関する知識と理解力を向上させる手法を提案する。具体的には、朝日新聞社の記事データを用いてLLMを継続学習し、時事問題に関するベンチマークで既存モデルを上回る性能を達成した。また、新聞特有の文体や表現を適切に扱うための前処理手法も開発した。
BibTeX
@inproceedings{maeda2025news,
title={新聞記事からつくる 時事と社会に強い日本語LLM},
author={服部 翔 and 水木 栄 and 藤井 一喜 and 中村 泰士 and 塩谷 泰平 and 植木 快 and 新妻 巧朗 and 川畑 輝 and 田森 秀明 and Youmi Ma and 前田 航希 and 大井 聖也 and 齋藤 幸史郎 and 岡本 拓己 and 石田 茂樹 and 横田 理央 and 高村 大也 and 岡崎 直観},
booktitle={言語処理学会第31回年次大会 (NLP2025)},
year={2025},
address={長崎}
}