調理作業理解のための言語資源付き固定視点映像データセットの構築
2024年度人工知能学会全国大会(第38回) · May 2024
既存の調理映像データセットは主にウェブ動画や一人称視点に限定され、実際の調理環境の多様性を反映していない。本研究では、無編集の俯瞰視点調理映像と詳細な言語アノテーションを含む新たなデータセットCOM Kitchensを構築した。スマートフォンで撮影した多様な環境での調理映像に対し、視覚的行動グラフによる構造的アノテーションを付与し、オンラインレシピ検索と密な映像キャプション生成という2つの新しいタスクを提案。既存モデルによる評価実験により、本データセットが視覚言語理解の新たな課題を提供することを示した。
BibTeX
@inproceedings{hashimoto2024comkitchens,
  title={調理作業理解のための言語資源付き固定視点映像データセットの構築},
  author={橋本 敦史 and 前田 航希 and 平澤 寅庄 and 原島 純 and RYBICKI Leszek and 深澤 祐援 and 牛久 祥孝},
  booktitle={2024年度人工知能学会全国大会(第38回)},
  year={2024},
  address={浜松}
}