LLM-jp-3 VILA: 日本語マルチモーダルデータセット及び強力な日本語マルチモーダルモデルの構築

笹川, 慶人, 前田, 航希, 杉浦, 一瑳, 栗田, 修平, 岡崎, 直観, 河原, 大輔

言語処理学会第31回年次大会 (NLP2025) · March 2025

非英語圏における視覚言語モデル(VLM)の開発は、高品質なマルチモーダルデータセットの不足により大きく制限されている。本研究では、日本語VLMの迅速な開発を可能にする包括的なマルチモーダルデータセット構築手法を提案する。ウェブアーカイブから600万件の日本語画像-テキストペアを抽出し、既存VLMを活用して画像から直接36.9万件の指示データを生成した。構築したLLM-jp-3 VILA 14Bは、日本語マルチモーダルベンチマークにおいて最先端の性能を達成し、機械翻訳データに頼る従来手法の限界を克服した。

BibTeX

@inproceedings{sasagawa2025llmjp3vila_domestic,
  author = {笹川 慶人 and 前田 航希 and 杉浦 一瑳 and 栗田 修平 and 岡崎 直観 and 河原 大輔},
  title = {LLM-jp-3 VILA: 日本語マルチモーダルデータセット及び強力な日本語マルチモーダルモデルの構築},
  booktitle = {言語処理学会第31回年次大会 (NLP2025)},
  year = {2025},
  month = mar,
  address = {長崎}
}

PDF