LLM-jp-3 VILA: 日本語マルチモーダルデータセット及び強力な日本語マルチモーダルモデルの構築
言語処理学会第31回年次大会 (NLP2025) · March 2025
非英語圏における視覚言語モデル(VLM)の開発は、高品質なマルチモーダルデータセットの不足により大きく制限されている。本研究では、日本語VLMの迅速な開発を可能にする包括的なマルチモーダルデータセット構築手法を提案する。ウェブアーカイブから600万件の日本語画像-テキストペアを抽出し、既存VLMを活用して画像から直接36.9万件の指示データを生成した。構築したLLM-jp-3 VILA 14Bは、日本語マルチモーダルベンチマークにおいて最先端の性能を達成し、機械翻訳データに頼る従来手法の限界を克服した。
BibTeX
@inproceedings{sasagawa2025llmjp3vila_domestic,
author = {笹川 慶人 and 前田 航希 and 杉浦 一瑳 and 栗田 修平 and 岡崎 直観 and 河原 大輔},
title = {LLM-jp-3 VILA: 日本語マルチモーダルデータセット及び強力な日本語マルチモーダルモデルの構築},
booktitle = {言語処理学会第31回年次大会 (NLP2025)},
year = {2025},
month = mar,
address = {長崎}
}