視覚的文脈を利用した視覚言語モデルによる画像キャプション生成自動評価手法

前田, 航希; 栗田, 修平; 宮西, 大樹; 岡崎, 直観

視覚的文脈を利用した視覚言語モデルによる画像キャプション生成自動評価手法

前田, 航希, 栗田, 修平, 宮西, 大樹, 岡崎, 直観

言語処理学会第30回年次大会 (NLP2024) · March 2024

画像キャプション生成の自動評価において、従来手法は画像と生成キャプションの意味的整合性のみを考慮し、文脈情報を無視していた。本研究では、視覚言語モデルを用いて画像の視覚的文脈を考慮した新たな自動評価手法を提案する。提案手法は、画像中の物体間の関係性や空間的配置、シーンの文脈を理解し、それらを評価に反映させることで、人間の評価により近い結果を実現する。実験により、提案手法が既存の評価指標よりも人間の判断との相関が高いことを示した。

PDF Code

BibTeX

@inproceedings{maeda2024visual,
  title={視覚的文脈を利用した視覚言語モデルによる画像キャプション生成自動評価手法},
  author={前田 航希 and 栗田 修平 and 宮西 大樹 and 岡崎 直観},
  booktitle={言語処理学会第30回年次大会 (NLP2024)},
  pages={1996--2001},
  year={2024},
  address={東京}
}

PDF