← Home

Koki Maeda

Doctoral Student · Vision and Language Researcher

Koki Maeda portrait

Research Focus

Exploring the intersection of computer vision and natural language processing, with a focus on multimodal evaluation metrics and context-aware image captioning.

  • Designing instruction-tuned multimodal LLMs and evaluation pipelines that balance academic rigor with deployability.
  • Building curated Japanese-language datasets for captioning, reasoning, and cultural understanding in vision-language systems.

Education

  • 2024 – Present

    Ph.D., Tokyo Institute of Technology

    Vision and Language, Evaluation

    Advisors: Naoaki Okazaki

    Focusing on novel evaluation metrics for multimodal systems and cross-modal representation learning.

  • 2022 – 2024

    M.Eng., Tokyo Institute of Technology

    Vision and Language: Image Captioning

    Advisors: Naoaki Okazaki

    Developed context-aware image captioning models that generate descriptions based on user preferences.

  • 2018 – 2022

    B.Eng., Tokyo Institute of Technology

    NLP: Grammatical Error Correction

    Advisors: Naoaki Okazaki, Masahiro Kaneko (Mentor)

    Created improved evaluation metrics for grammatical error correction systems.

Publications

International Conferences & Workshops

  1. Koshiro Saito, Sakae Mizuki, Masanari Ohi, Taishi Nakamura, Taihei Shiotani, Koki Maeda, Youmi Ma, Kakeru Hattori, Kazuki Fujii, Takumi Okamoto, Shigeki Ishida, Hiroya Takamura, Rio Yokota, Naoaki Okazaki. Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs · Montreal, Canada · October 2025 · The 1st Workshop on Multilingual and Equitable Language Technologies (MELT) · pages (to appear) · 21 pages · Double column
  2. Youmi Ma, Sakae Mizuki, Kazuki Fujii, Taishi Nakamura, Masanari Ohi, Hinari Shimada, Taihei Shiotani, Koshiro Saito, Koki Maeda, Kakeru Hattori, Takumi Okamoto, Shigeki Ishida, Rio Yokota, Hiroya Takamura, Naoaki Okazaki. Building instruction-tuning datasets from human-written instructions with open-weight large language models · Montreal, Canada · October 2025 · The 2nd Conference on Language Modeling (COLM) · pages (to appear) · 17 pages · Single column
  3. Keito Sasagawa, Koki Maeda, Issa Sugiura, Shuhei Kurita, Naoaki Okazaki, Daisuke Kawahara. Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model · 2025 · Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 3: System Demonstrations) · pages (to appear) · 15 pages · Double column
  4. Eri Onami, Taiki Miyanishi, Koki Maeda, Shuhei Kurita. LegalViz: Legal Text Visualization by Text To Diagram Generation · 2025 · Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) · 20 pages · Double column
  5. Koki Maeda, Tosho Hirasawa, Atsushi Hashimoto, Jun Harashima, Leszek Rybicki, Yusuke Fukasawa, Yoshitaka Ushiku. COM Kitchens: An Unedited Overhead-view Procedural Videos Dataset as a Vision-Language Benchmark · 2024 · Proceedings of The 18th European Conference on Computer Vision (ECCV 2024) · 22 pages · Single column
  6. Koki Maeda, Shuhei Kurita, Taiki Miyanishi, Naoaki Okazaki. Query-based Image Captioning from Multi-context 360-degree Images · 2023 · Findings of the Association for Computational Linguistics: EMNLP 2023 · pages 6940–6954 · 15 pages · Double column
  7. Koki Maeda, Masahiro Kaneko, Naoaki Okazaki. IMPARA: Impact-Based Metric for GEC Using Parallel Data · 2022 · Proceedings of the 29th International Conference on Computational Linguistics (COLING 2022) · pages 3578–3588 · 11 pages · Double column

Domestic Conferences

  1. 前田 航希, 杉浦 一瑳, 小田 悠介, 栗田 修平, 岡崎 直観. llm-jp-eval-mm: 日本語視覚言語モデルの自動評価基盤 · March 2025 · 言語処理学会第31回年次大会 (NLP2025) · 6 pages · Double column
  2. 前田 航希, 長谷川 騎平, 栗田 修平, 小田 悠介, 徳久 良子, 岡崎 直観. 日本の文化常識・日常生活知識理解のための視覚言語ベンチマーク MECHA-Ja の構築 · 2024 · 情報処理学会 第263回自然言語処理研究会 研究報告 (2024-NL-263) · pages 1–7 · 7 pages · Single column
  3. 笹川 慶人, 前田 航希, 杉浦 一瑳, 栗田 修平, 岡崎 直観, 河原 大輔. LLM-jp-3 VILA: 日本語マルチモーダルデータセット及び強力な日本語マルチモーダルモデルの構築 · March 2025 · 言語処理学会第31回年次大会 (NLP2025) · 6 pages · Double column
  4. 大南 英理, 宮西 大樹, 前田 航希, 栗田 修平. 多言語での判例事実概要からの法的関係性のグラフ可視化 · March 2025 · 言語処理学会第31回年次大会 (NLP2025) · 6 pages · Double column
  5. 服部 翔, 岡崎 直観, 水木 栄, 藤井 一喜, 中村 泰士, 大井 聖也, 塩谷 泰平, 齋藤 幸史郎, Youmi Ma, 前田 航希, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也. Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築 · March 2025 · 言語処理学会第31回年次大会 (NLP2025) · 6 pages · Double column
  6. 服部 翔, 水木 栄, 藤井 一喜, 中村 泰士, 塩谷 泰平, 植木 快, 新妻 巧朗, 川畑 輝, 田森 秀明, Youmi Ma, 前田 航希, 大井 聖也, 齋藤 幸史郎, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也, 岡崎 直観. 新聞記事からつくる時事と社会に強い日本語LLM · March 2025 · 言語処理学会第31回年次大会 (NLP2025) · 6 pages · Double column
  7. Youmi Ma, 水木 栄, 藤井 一喜, 中村 泰士, 大井 聖也, 島田 比奈理, 塩谷 泰平, 齋藤 幸史郎, 前田 航希, 服部 翔, 岡本 拓己, 石田 茂樹, 横田 理央, 高村 大也, 岡崎 直観. 模倣学習による大規模言語モデルの指示チューニング · March 2025 · 言語処理学会第31回年次大会 (NLP2025) · 6 pages · Double column
  8. 橋本 敦史, 前田 航希, 平澤 寅庄, 原島 純, RYBICKI Leszek, 深澤 祐援, 牛久 祥孝. 調理作業理解のための言語資源付き固定視点映像データセットの構築 · 2024 · 2024年度人工知能学会全国大会(第38回) · 4 pages · Double column
  9. 前田 航希, 栗田 修平, 宮西 大樹, 岡崎 直観. 視覚的文脈を利用した視覚言語モデルによる画像キャプション生成自動評価手法 · March 2024 · 言語処理学会第30回年次大会 (NLP2024) · pages 1996–2001 · 6 pages · Double column
  10. 前田 航希, 栗田 修平, 宮西 大樹. QuIC-360◦: 360◦ 画像に対するクエリ指向画像説明文生成のためのデータセット構築 · March 2023 · 言語処理学会第29回年次大会 (NLP2023) · pages 3013–3018 · 6 pages · Double column
  11. 前田 航希, 金子 正弘, 岡崎 直観. IMPARA: パラレルデータにおける修正の影響度に基づいた文法誤り訂正の自動評価法 · March 2022 · 言語処理学会第28回年次大会 (NLP2022) · pages 328–333 · 6 pages · Double column

Awards & Fellowships

  • Young Scientist Award, ANLP (2025)
  • Committee Special Awarded Paper, ANLP (2025, 2023)
  • Program for Development of Co-creative Experts towards Top-level AI Research (Science Tokyo BOOST) for Science and Engineering fields (2024–2027)
  • Awarded Paper, ANLP (2022)

Skills

  • Programming

    Python, PyTorch, Java
  • Research Areas

    Computer Vision, Natural Language Processing, Multimodal Learning, Image Captioning, Evaluation Metrics
  • Languages

    Japanese (Native), English (Professional)