2024 – Present
Ph.D., Tokyo Institute of Technology
Vision and Language, Evaluation
Advisors: Naoaki Okazaki
Focusing on novel evaluation metrics for multimodal systems and cross-modal representation learning.
Doctoral student exploring multimodal vision-and-language systems, evaluation metrics, and context-aware captioning.
2024 – Present
Vision and Language, Evaluation
Advisors: Naoaki Okazaki
Focusing on novel evaluation metrics for multimodal systems and cross-modal representation learning.
2022 – 2024
Vision and Language: Image Captioning
Advisors: Naoaki Okazaki
Developed context-aware image captioning models that generate descriptions based on user preferences.
2018 – 2022
NLP: Grammatical Error Correction
Advisors: Naoaki Okazaki, Masahiro Kaneko (Mentor)
Created improved evaluation metrics for grammatical error correction systems.
The 2nd Conference on Language Modeling (COLM) · 2025
Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 3: System Demonstrations) · 2025
Methodology for quickly constructing multimodal datasets tailored for Japanese vision-language models.
Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) · 2025
Novel approach for visualizing complex legal document structures through diagram generation from text.
Proceedings of The 18th European Conference on Computer Vision (ECCV 2024) · 2024
Introducing a new vision-language dataset based on unedited overhead-view procedural cooking videos.
Findings of the Association for Computational Linguistics: EMNLP 2023 · 2023
A novel image captioning approach that leverages queries and multi-context 360-degree imagery.
Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023) · 2023
Vision-language models like CLIP show strong zero-shot performance but struggle when fine-tuned on downstream tasks due to overfitting. This paper proposes DueT (Dual-adapter Tuning), which uses separate adapters for uni-modal and cross-modal features to prevent overfitting while maintaining the pre-trained knowledge. The method introduces contrastive learning between adapted and original features, achieving state-of-the-art results on multiple vision-language benchmarks. DueT demonstrates significant improvements over existing adapter-based methods, particularly in few-shot scenarios where overfitting is most problematic.
The 1st Workshop on Multilingual and Equitable Language Technologies (MELT) · 2025
言語処理学会第31回年次大会 (NLP2025) · 2025
Methodology for quickly constructing multimodal datasets tailored for Japanese vision-language models.
言語処理学会第31回年次大会 (NLP2025) · 2025
非英語圏における視覚言語モデル(VLM)の開発は、高品質なマルチモーダルデータセットの不足により大きく制限されている。本研究では、日本語VLMの迅速な開発を可能にする包括的なマルチモーダルデータセット構築手法を提案する。ウェブアーカイブから600万件の日本語画像-テキストペアを抽出し、既存VLMを活用して画像から直接36.9万件の指示データを生成した。構築したLLM-jp-3 VILA 14Bは、日本語マルチモーダルベンチマークにおいて最先端の性能を達成し、機械翻訳データに頼る従来手法の限界を克服した。
言語処理学会第31回年次大会 (NLP2025) · 2025
法的文書の理解には専門知識が必要であり、一般市民にとって大きな障壁となっている。本研究では、判例事実概要から法的関係性を抽出し、グラフとして可視化する手法を提案する。大規模言語モデルを活用して法的エンティティと関係性を抽出し、構造化されたグラフ表現に変換することで、複雑な法的関係を直感的に理解可能にする。多言語(日本語・英語)での評価実験により、提案手法が法的文書の構造を適切に把握し、可視化できることを確認した。法教育や法的アクセスの向上に貢献する技術として期待される。
言語処理学会第31回年次大会 (NLP2025) · 2025
大規模言語モデルの学習には高品質なコーパスが不可欠だが、日本語では特に教育的価値の高いテキストデータが不足している。本研究では、ウェブから収集した日本語テキストに対して教育的価値を評価し、高品質なコーパスを構築する手法を提案する。FastTextとLLMを組み合わせた効率的なフィルタリングパイプラインを開発し、3540億トークンから精選した350億トークンのSwallowコーパスv2を構築した。本コーパスで学習したモデルは、既存の日本語ベンチマークで優れた性能を示し、特に推論・知識タスクで顕著な改善を達成した。
言語処理学会第31回年次大会 (NLP2025) · 2025
大規模言語モデル(LLM)の学習データは主にウェブから収集されるため、時事問題や社会的な知識の習得に課題がある。本研究では、新聞記事データを活用してLLMを継続事前学習することで、時事・社会問題に関する知識と理解力を向上させる手法を提案する。具体的には、朝日新聞社の記事データを用いてLLMを継続学習し、時事問題に関するベンチマークで既存モデルを上回る性能を達成した。また、新聞特有の文体や表現を適切に扱うための前処理手法も開発した。