QuIC-360◦: 360◦ 画像に対するクエリ指向画像説明文生成のためのデータセット構築

前田, 航希, 栗田, 修平, 宮西, 大樹

言語処理学会第29回年次大会 (NLP2023) · March 2023

360◦ 画像は一般的な画像と比較して,撮影者による情報の取捨選択が行われないため,多くのコンテクストを同時に含む.既存の画像説明文生成では,コンテクストを画像情報のみから読み取るが,360◦ 画像に対しては,画像に加えて補助的な情報を付加することで,記述するコンテクストを指定することが必要になる.本研究では,画像に加えて言語情報(クエリ)を与えることで説明文生成を制御するクエリ指向説明文生成を提案し,そのためのデータセットとして 5,800 枚の 360◦ 画像と 22,956 文の説明文からなる QuIC-360◦ を構築した.QuIC-360◦ による再学習で,360◦ 画像に対してクエリを用いることで説明文生成の制御性・多様性が高まることが確認された.

BibTeX

@inproceedings{maeda2023quic360,
  title={QuIC-360◦: 360◦ 画像に対するクエリ指向画像説明文生成のためのデータセット構築},
  author={前田 航希 and 栗田 修平 and 宮西 大樹},
  booktitle={言語処理学会第29回年次大会 (NLP2023)},
  pages={3013--3018},
  year={2023},
  address={東京}
}

PDF