新聞記事からつくる時事と社会に強い日本語LLM

服部, 翔, 水木, 栄, 藤井, 一喜, 中村, 泰士, 塩谷, 泰平, 植木, 快, 新妻, 巧朗, 川畑, 輝, 田森, 秀明, Youmi Ma, 前田, 航希, 大井, 聖也, 齋藤, 幸史郎, 岡本, 拓己, 石田, 茂樹, 横田, 理央, 高村, 大也, 岡崎, 直観

言語処理学会第31回年次大会 (NLP2025) · March 2025

大規模言語モデル(LLM)の学習データは主にウェブから収集されるため、時事問題や社会的な知識の習得に課題がある。本研究では、新聞記事データを活用してLLMを継続事前学習することで、時事・社会問題に関する知識と理解力を向上させる手法を提案する。具体的には、朝日新聞社の記事データを用いてLLMを継続学習し、時事問題に関するベンチマークで既存モデルを上回る性能を達成した。また、新聞特有の文体や表現を適切に扱うための前処理手法も開発した。

BibTeX

@inproceedings{maeda2025news,
  title={新聞記事からつくる 時事と社会に強い日本語LLM},
  author={服部 翔 and 水木 栄 and 藤井 一喜 and 中村 泰士 and 塩谷 泰平 and 植木 快 and 新妻 巧朗 and 川畑 輝 and 田森 秀明 and Youmi Ma and 前田 航希 and 大井 聖也 and 齋藤 幸史郎 and 岡本 拓己 and 石田 茂樹 and 横田 理央 and 高村 大也 and 岡崎 直観},
  booktitle={言語処理学会第31回年次大会 (NLP2025)},
  year={2025},
  address={長崎}
}

PDF