日本語視覚言語モデルのタスク横断評価と実証的分析
自然言語処理 · June 2026
日本語に対応する VLM の能力を総合的・体系的に測る評価基盤 llm-jp-eval-mm を構築し、日本語 10 種・英語 9 種のデータセットを統合した一貫評価プロトコルで国内外 32 種の VLM を実証分析した。
BibTeX
@article{maeda2026jnlp_evalmm,
author = {前田 航希 and 杉浦 一瑳 and 小田 悠介 and 栗田 修平 and 岡崎 直観},
title = {日本語視覚言語モデルのタスク横断評価と実証的分析},
journal = {自然言語処理},
volume = {33},
number = {2},
pages = {509--536},
year = {2026},
doi = {10.5715/jnlp.33.509}
}
Abstract
視覚言語モデル (VLM) の日本語評価がタスクや領域ごとに散在している課題に対し、本研究では日本語対応 VLM の能力を総合的に評価する基盤 llm-jp-eval-mm を構築した。日本語 10 種・英語 9 種の既存データセットを統合し、定義した能力軸に沿った一貫プロトコルで国内外 32 種の VLM を評価することで、国内開発 VLM の弱点領域と英日間の性能相関を分析している。