Building instruction-tuning datasets from human-written instructions with open-weight large language models
The 2nd Conference on Language Modeling (COLM) · 2025
Doctoral student exploring multimodal vision-and-language systems, evaluation metrics, and context-aware captioning.
Peer-reviewed publications and presentations grouped by venue type. Each entry links to a detail page with metadata, abstract, and downloadable PDF.
The 2nd Conference on Language Modeling (COLM) · 2025
Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 3: System Demonstrations) · 2025
Methodology for quickly constructing multimodal datasets tailored for Japanese vision-language models.
Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) · 2025
Novel approach for visualizing complex legal document structures through diagram generation from text.
Proceedings of The 18th European Conference on Computer Vision (ECCV 2024) · 2024
Introducing a new vision-language dataset based on unedited overhead-view procedural cooking videos.
Findings of the Association for Computational Linguistics: EMNLP 2023 · 2023
A novel image captioning approach that leverages queries and multi-context 360-degree imagery.
Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023) · 2023
Vision-language models like CLIP show strong zero-shot performance but struggle when fine-tuned on downstream tasks due to overfitting. This paper proposes DueT (Dual-adapter Tuning), which uses separate adapters for uni-modal and cross-modal features to prevent overfitting while maintaining the pre-trained knowledge. The method introduces contrastive learning between adapted and original features, achieving state-of-the-art results on multiple vision-language benchmarks. DueT demonstrates significant improvements over existing adapter-based methods, particularly in few-shot scenarios where overfitting is most problematic.
Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022) · 2022
Proposal of a new impact-based metric for grammatical error correction using parallel datasets.
The 1st Workshop on Multilingual and Equitable Language Technologies (MELT) · 2025
言語処理学会第31回年次大会 (NLP2025) · 2025
Methodology for quickly constructing multimodal datasets tailored for Japanese vision-language models.
言語処理学会第31回年次大会 (NLP2025) · 2025
非英語圏における視覚言語モデル(VLM)の開発は、高品質なマルチモーダルデータセットの不足により大きく制限されている。本研究では、日本語VLMの迅速な開発を可能にする包括的なマルチモーダルデータセット構築手法を提案する。ウェブアーカイブから600万件の日本語画像-テキストペアを抽出し、既存VLMを活用して画像から直接36.9万件の指示データを生成した。構築したLLM-jp-3 VILA 14Bは、日本語マルチモーダルベンチマークにおいて最先端の性能を達成し、機械翻訳データに頼る従来手法の限界を克服した。
言語処理学会第31回年次大会 (NLP2025) · 2025
法的文書の理解には専門知識が必要であり、一般市民にとって大きな障壁となっている。本研究では、判例事実概要から法的関係性を抽出し、グラフとして可視化する手法を提案する。大規模言語モデルを活用して法的エンティティと関係性を抽出し、構造化されたグラフ表現に変換することで、複雑な法的関係を直感的に理解可能にする。多言語(日本語・英語)での評価実験により、提案手法が法的文書の構造を適切に把握し、可視化できることを確認した。法教育や法的アクセスの向上に貢献する技術として期待される。
言語処理学会第31回年次大会 (NLP2025) · 2025
大規模言語モデルの学習には高品質なコーパスが不可欠だが、日本語では特に教育的価値の高いテキストデータが不足している。本研究では、ウェブから収集した日本語テキストに対して教育的価値を評価し、高品質なコーパスを構築する手法を提案する。FastTextとLLMを組み合わせた効率的なフィルタリングパイプラインを開発し、3540億トークンから精選した350億トークンのSwallowコーパスv2を構築した。本コーパスで学習したモデルは、既存の日本語ベンチマークで優れた性能を示し、特に推論・知識タスクで顕著な改善を達成した。
言語処理学会第31回年次大会 (NLP2025) · 2025
大規模言語モデル(LLM)の学習データは主にウェブから収集されるため、時事問題や社会的な知識の習得に課題がある。本研究では、新聞記事データを活用してLLMを継続事前学習することで、時事・社会問題に関する知識と理解力を向上させる手法を提案する。具体的には、朝日新聞社の記事データを用いてLLMを継続学習し、時事問題に関するベンチマークで既存モデルを上回る性能を達成した。また、新聞特有の文体や表現を適切に扱うための前処理手法も開発した。
言語処理学会第31回年次大会 (NLP2025) · 2025
大規模言語モデル(LLM)の指示チューニングにおいて、高品質な指示応答データの作成は重要な課題である。本研究では、強力なLLMの出力を模倣することで、効率的に高品質な指示チューニングデータを構築する手法を提案する。具体的には、GPT-4等の先進的なモデルに対して多様な指示を与え、その応答を収集・精選することで、日本語LLMの性能向上を実現した。実験では、模倣学習により作成したデータで学習したモデルが、従来手法を上回る性能を示すことを確認した。
情報処理学会 第263回自然言語処理研究会 研究報告 (2024-NL-263) · 2024
視覚言語モデルにおける日本文化・日常生活知識理解を評価するための MECHA-Ja ベンチマークを提案。
2024年度人工知能学会全国大会(第38回) · 2024
既存の調理映像データセットは主にウェブ動画や一人称視点に限定され、実際の調理環境の多様性を反映していない。本研究では、無編集の俯瞰視点調理映像と詳細な言語アノテーションを含む新たなデータセットCOM Kitchensを構築した。スマートフォンで撮影した多様な環境での調理映像に対し、視覚的行動グラフによる構造的アノテーションを付与し、オンラインレシピ検索と密な映像キャプション生成という2つの新しいタスクを提案。既存モデルによる評価実験により、本データセットが視覚言語理解の新たな課題を提供することを示した。
言語処理学会第30回年次大会 (NLP2024) · 2024
画像キャプション生成の自動評価において、従来手法は画像と生成キャプションの意味的整合性のみを考慮し、文脈情報を無視していた。本研究では、視覚言語モデルを用いて画像の視覚的文脈を考慮した新たな自動評価手法を提案する。提案手法は、画像中の物体間の関係性や空間的配置、シーンの文脈を理解し、それらを評価に反映させることで、人間の評価により近い結果を実現する。実験により、提案手法が既存の評価指標よりも人間の判断との相関が高いことを示した。
言語処理学会第29回年次大会 (NLP2023) · 2023
360◦ 画像は一般的な画像と比較して,撮影者による情報の取捨選択が行われないため,多くのコンテクストを同時に含む.既存の画像説明文生成では,コンテクストを画像情報のみから読み取るが,360◦ 画像に対しては,画像に加えて補助的な情報を付加することで,記述するコンテクストを指定することが必要になる.本研究では,画像に加えて言語情報(クエリ)を与えることで説明文生成を制御するクエリ指向説明文生成を提案し,そのためのデータセットとして 5,800 枚の 360◦ 画像と 22,956 文の説明文からなる QuIC-360◦ を構築した.QuIC-360◦ による再学習で,360◦ 画像に対してクエリを用いることで説明文生成の制御性・多様性が高まることが確認された.
言語処理学会第29回年次大会 (NLP2023) · 2023
対照学習により構築する視覚・言語の基盤モデル CLIP の新たな転移学習方法として DueT を提案する.DueT は単一モーダルのコーパスで事前学習されたモデルにより画像・テキストエンコーダを初期化して固定し,両エンコーダに追加したゲート機構付のアダプタのみを学習する.英語・日本語ドメインの 0-shot 画像・テキスト検索において,単純な fine-tuning や画像エンコーダのみ転移・固定する従来手法に比べ,提案手法が精度やパラメータ効率性の観点で優れていたことを報告する.
言語処理学会第28回年次大会 (NLP2022) · 2022
文法誤り訂正(Grammatical Error Correction; GEC)の自動評価は,低コストかつ定量的な評価に不可欠である.しかし,既存の GEC 自動評価手法は評価時に複数の参照文を必要としたり,評価モデルの学習に特化した訓練データが必要になるなど,自動評価の実現のためのデータ作成コストが高いという難点がある.本稿では,誤文と正文の組からなるパラレルデータのみを用い,修正の影響度を考慮しながら GEC の評価尺度を学習する手法である IMPARA を提案する.提案手法は GEC の自動評価におけるデータ作成コストを大幅に軽減しつつ,人手評価との相関において既存手法と同等以上の性能を示した.また,評価尺度を学習するパラレルデータを変更することで,異なるドメインや訂正スタイルに適合した評価を実現できることを実験的に示した.