DueT: 視覚・言語のDual-adapter Tuningによる基盤モデル
言語処理学会第29回年次大会 (NLP2023) · March 2023
対照学習により構築する視覚・言語の基盤モデル CLIP の新たな転移学習方法として DueT を提案する.DueT は単一モーダルのコーパスで事前学習されたモデルにより画像・テキストエンコーダを初期化して固定し,両エンコーダに追加したゲート機構付のアダプタのみを学習する.英語・日本語ドメインの 0-shot 画像・テキスト検索において,単純な fine-tuning や画像エンコーダのみ転移・固定する従来手法に比べ,提案手法が精度やパラメータ効率性の観点で優れていたことを報告する.
BibTeX
@inproceedings{nishida2023duet,
  title={DueT: 視覚・言語のDual-adapter Tuningによる基盤モデル},
  author={西田 京介 and 長谷川 拓 and 前田 航希 and 齋藤 邦子},
  booktitle={言語処理学会第29回年次大会 (NLP2023)},
  pages={1586--1591},
  year={2023},
  address={東京}
}