日本語視覚言語モデルのタスク横断評価と実証的分析

前田, 航希, 杉浦, 一瑳, 小田, 悠介, 栗田, 修平, 岡崎, 直観

自然言語処理 · June 2026

日本語に対応する VLM の能力を総合的・体系的に測る評価基盤 llm-jp-eval-mm を構築し、日本語 10 種・英語 9 種のデータセットを統合した一貫評価プロトコルで国内外 32 種の VLM を実証分析した。

BibTeX

@article{maeda2026jnlp_evalmm,
  author = {前田 航希 and 杉浦 一瑳 and 小田 悠介 and 栗田 修平 and 岡崎 直観},
  title = {日本語視覚言語モデルのタスク横断評価と実証的分析},
  journal = {自然言語処理},
  volume = {33},
  number = {2},
  pages = {509--536},
  year = {2026},
  doi = {10.5715/jnlp.33.509}
}

PDF

Abstract

視覚言語モデル (VLM) の日本語評価がタスクや領域ごとに散在している課題に対し、本研究では日本語対応 VLM の能力を総合的に評価する基盤 llm-jp-eval-mm を構築した。日本語 10 種・英語 9 種の既存データセットを統合し、定義した能力軸に沿った一貫プロトコルで国内外 32 種の VLM を評価することで、国内開発 VLM の弱点領域と英日間の性能相関を分析している。