Zixin Guo

I'm a fourth-year PhD student at Department of Computer Science, Aalto University. My current research interests include:

Multimodal Learning, advised by Prof. Jorma Laaksonen (Aalto University, Finland 🇫🇮), in close collaboration with Prof. Min Cao (Soochow University, China 🇨🇳).
Eye Tracking, led by Prof. Antti Oulasvirta (Aalto University, Finland 🇫🇮), in close collaboration with Prof. Yue Jiang (University of Utah, USA 🇺🇸) and Prof. Luis A. Leiva (University of Luxembourg, Luxembourg 🇱🇺).

Email / Scholar / Github / LinkedIn

Selected Publications

* = Equal contribution

Imagine How To Change: Explicit Procedure Modeling for Change Captioning
Jiayang Sun*, Zixin Guo*, Min Cao, Guibo Zhu, Jorma Laaksonen
ICLR, 2026
paper / code

SeekUI: Predicting Visual Search Behavior on Graphical User Interfaces with a Reward-Augmented Vision Language Model
Zixin Guo*, Yue Jiang*, Luis A. Leiva, Antti Oulasvirta
CHI, 2026
paper / code

Learning to Describe Implicit Changes: Noise-Robust Pre-training for Image Difference Captioning
Zixin Guo, Jiayang Sun, Tzu-Jui Julius Wang, Abduljalil Radman, Selen Pehlivan, Min Cao, Jorma Laaksonen
Findings of EMNLP, 2025
paper

Valor32k-AVQA v2.0: Open-Ended Audio-Visual Question Answering Dataset and Benchmark
Ines Riahi, Abduljalil Radman, Zixin Guo, Rachid Hedjam, Jorma Laaksonen
ACM MM, 2025
paper / code

EyeFormer: Predicting Personalized Scanpaths with Transformer-Guided Reinforcement Learning
Yue Jiang*, Zixin Guo*, Hamed Rezazadegan Tavakoli, Luis A. Leiva, Antti Oulasvirta
UIST, 2024
paper / code

PiTL: Cross-modal Retrieval with Weakly-supervised Vision-language Pre-training via Prompting
Zixin Guo, Tzu-Jui Julius Wang, Selen Pehlivan, Abduljalil Radman, Jorma Laaksonen
SIGIR, 2023 (Short Paper)
paper

CLIP4IDC: CLIP for Image Difference Captioning
Zixin Guo, Tzu-Jui Julius Wang, Jorma Laaksonen
AACL, 2022 (Short Paper)
paper / code

See Full List

Website template from Jon Barron.