Koki Maeda

Koki Maeda

Doctoral Student · Vision and Language Researcher

Exploring the intersection of computer vision and natural language processing, with a focus on multimodal evaluation metrics and context-aware image captioning.

Education

2024 – Present

Ph.D., Tokyo Institute of Technology

Vision and Language, Evaluation

Advisors: Naoaki Okazaki

Focusing on novel evaluation metrics for multimodal systems and cross-modal representation learning.

2022 – 2024

M.Eng., Tokyo Institute of Technology

Vision and Language: Image Captioning

Advisors: Naoaki Okazaki

Developed context-aware image captioning models that generate descriptions based on user preferences.

2018 – 2022

B.Eng., Tokyo Institute of Technology

NLP: Grammatical Error Correction

Advisors: Naoaki Okazaki, Masahiro Kaneko (Mentor)

Created improved evaluation metrics for grammatical error correction systems.

Recent Publications

International Conferences

Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model

Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 3: System Demonstrations) · 2025

Methodology for quickly constructing multimodal datasets tailored for Japanese vision-language models.

Keito Sasagawa, Koki Maeda, Issa Sugiura, Shuhei Kurita, Naoaki Okazaki, Daisuke Kawahara

LegalViz: Legal Text Visualization by Text To Diagram Generation

Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) · 2025

Novel approach for visualizing complex legal document structures through diagram generation from text.

Eri Onami, Taiki Miyanishi, Koki Maeda, Shuhei Kurita

DueT: Image-Text Contrastive Transfer Learning with Dual-adapter Tuning

Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023) · 2023

Vision-language models like CLIP show strong zero-shot performance but struggle when fine-tuned on downstream tasks due to overfitting. This paper proposes DueT (Dual-adapter Tuning), which uses separate adapters for uni-modal and cross-modal features to prevent overfitting while maintaining the pre-trained knowledge. The method introduces contrastive learning between adapted and original features, achieving state-of-the-art results on multiple vision-language benchmarks. DueT demonstrates significant improvements over existing adapter-based methods, particularly in few-shot scenarios where overfitting is most problematic.

Taku Hasegawa, Kyosuke Nishida, Koki Maeda, Kuniko Saito

Domestic Conferences

LLM-jp-3 VILA: 日本語マルチモーダルデータセット及び強力な日本語マルチモーダルモデルの構築

言語処理学会第31回年次大会 (NLP2025) · 2025

非英語圏における視覚言語モデル(VLM)の開発は、高品質なマルチモーダルデータセットの不足により大きく制限されている。本研究では、日本語VLMの迅速な開発を可能にする包括的なマルチモーダルデータセット構築手法を提案する。ウェブアーカイブから600万件の日本語画像-テキストペアを抽出し、既存VLMを活用して画像から直接36.9万件の指示データを生成した。構築したLLM-jp-3 VILA 14Bは、日本語マルチモーダルベンチマークにおいて最先端の性能を達成し、機械翻訳データに頼る従来手法の限界を克服した。

笹川 慶人, 前田 航希, 杉浦 一瑳, 栗田 修平, 岡崎 直観, 河原 大輔

多言語での判例事実概要からの法的関係性のグラフ可視化

言語処理学会第31回年次大会 (NLP2025) · 2025

法的文書の理解には専門知識が必要であり、一般市民にとって大きな障壁となっている。本研究では、判例事実概要から法的関係性を抽出し、グラフとして可視化する手法を提案する。大規模言語モデルを活用して法的エンティティと関係性を抽出し、構造化されたグラフ表現に変換することで、複雑な法的関係を直感的に理解可能にする。多言語(日本語・英語)での評価実験により、提案手法が法的文書の構造を適切に把握し、可視化できることを確認した。法教育や法的アクセスの向上に貢献する技術として期待される。

大南 英理, 宮西 大樹, 前田 航希, 栗田 修平

Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築

言語処理学会第31回年次大会 (NLP2025) · 2025

大規模言語モデルの学習には高品質なコーパスが不可欠だが、日本語では特に教育的価値の高いテキストデータが不足している。本研究では、ウェブから収集した日本語テキストに対して教育的価値を評価し、高品質なコーパスを構築する手法を提案する。FastTextとLLMを組み合わせた効率的なフィルタリングパイプラインを開発し、3540億トークンから精選した350億トークンのSwallowコーパスv2を構築した。本コーパスで学習したモデルは、既存の日本語ベンチマークで優れた性能を示し、特に推論・知識タスクで顕著な改善を達成した。

服部 翔, 岡崎 直観, 水木 栄, 藤井 一喜, 中村 泰士, 大井 聖也, 塩谷 泰平, 齋藤 幸史郎, Youmi Ma, 前田 航希, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也

新聞記事からつくる時事と社会に強い日本語LLM

言語処理学会第31回年次大会 (NLP2025) · 2025

大規模言語モデル(LLM)の学習データは主にウェブから収集されるため、時事問題や社会的な知識の習得に課題がある。本研究では、新聞記事データを活用してLLMを継続事前学習することで、時事・社会問題に関する知識と理解力を向上させる手法を提案する。具体的には、朝日新聞社の記事データを用いてLLMを継続学習し、時事問題に関するベンチマークで既存モデルを上回る性能を達成した。また、新聞特有の文体や表現を適切に扱うための前処理手法も開発した。

服部 翔, 水木 栄, 藤井 一喜, 中村 泰士, 塩谷 泰平, 植木 快, 新妻 巧朗, 川畑 輝, 田森 秀明, Youmi Ma, 前田 航希, 大井 聖也, 齋藤 幸史郎, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也, 岡崎 直観

Awards & Fellowships

  • Young Scientist Award, ANLP (2025)
  • Committee Special Awarded Paper, ANLP (2025, 2023)
  • Program for Development of Co-creative Experts towards Top-level AI Research (Science Tokyo BOOST) for Science and Engineering fields (2024–2027)
  • Awarded Paper, ANLP (2022)

Skills & Expertise

Programming

  • Python
  • PyTorch
  • Java

Research Areas

  • Computer Vision
  • Natural Language Processing
  • Multimodal Learning
  • Image Captioning
  • Evaluation Metrics

Languages

  • Japanese (Native)
  • English (Professional)