👨‍🎓 About Me

I am a third-year Ph.D. student at Peking University, advised by Prof. Xuejun Yang and Prof. Wenjing Yang. I earned my B.S. degree at China University of Geosciences in 2023. Prior to that, I served for two years in the People’s Liberation Army.

My primary research interest focus on Foundation Models for Multimodal Learning. I am also interested in Causal Inference and Reinforcement Learning. My overarching research goal is to build reliable and generalizable multimodal intelligence, with a focus on developing principled methods that integrate vision, language, and structured reasoning under real-world conditions.

Currently I am working on Efficient Pre-training of Multimodal Large Language Models.

I am actively seeking research discussions and collaboration opportunities, so feel free to contact me! 😄

📝 Publications

* Equal Contribution, † Corresponding Author, ‡ Project Leader, # Core Contributor

BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents
Huanyao Zhang, Jiepeng Zhou, Bo Li, Bowen Zhou, Yanzhe Dan, Haishan Lu, Zhiyong Cao, Jiaoyang Chen, Yuqian Han, Zinan Sheng, Zhengwei Tao, Hao Liang, Jialong Wu, Yang Shi, Yuanpeng He, Jiaye Lin, Qintong Zhang, Guochen Yan, Runhao Zhao, Zhengpin Li, Xiaohan Yu, Lang Mei, Chong Chen, Wentao Zhang, Bin Cui
OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
Yue Ding, Yiyan Ji, Jungang Li, Xuyang Liu, Xinlong Chen, Junfei Wu, Bozhou Li, Bohan Zeng, Yang Shi, Yushuo Guan, Yuanxing Zhang, Jiaheng Liu, Qiang Liu, Pengfei Wan, Liang Wang
DiaDem: Advancing Dialogue Descriptions in Audiovisual Video Captioning for Multimodal Large Language Models
Xinlong Chen, Weihong Lin, Jingyun Hua, Linli Yao, Yue Ding, Bozhou Li, Bohan Zeng, Yang Shi, Qiang Liu, Yuanxing Zhang, Pengfei Wan, Liang Wang, Tieniu Tan
Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks
Bohan Zeng, Kaixin Zhu, Daili Hua, Bozhou Li, Chengzhuo Tong, Yuran Wang, Xinyi Huang, Yifan Dai, Zixiang Zhang, Yifan Yang, Zhou Liu, Hao Liang, Xiaochen Ma, Ruichuan An, Tianyi Bai, Hongcheng Gao, Junbo Niu, Yang Shi, Xinlong Chen, Yue Ding, Minglei Shi, Kai Zeng, Yiwen Tang, Yuanxing Zhang, Pengfei Wan, Xintao Wang, Wentao Zhang
CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
Chengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang
Towards Efficient Multimodal Large Language Models: A Survey on Token Compression
Linli Yao*, Long Xing*, Yang Shi*, Sida Li, Yuanxin Liu, Yuhao Dong, Yi-Fan Zhang, Lei Li, Qingxiu Dong, Xiaoyi Dong, Qidong Huang, Haotian Wang, Feng Wu, Yuanxing Zhang, Pengfei Wan, Zhouchen Lin†, Xu Sun†
GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models
Bozhou Li, Sihan Yang, Yushuo Guan, Ruichuan An, Xinlong Chen, Yang Shi, Pengfei Wan, Wentao Zhang, Yuanxing zhang
The Unseen Bias: How Norm Discrepancy in Pre-Norm MLLMs Leads to Visual Information Loss [ICLR 2026]
Bozhou Li, Xinda Xue, Sihan Yang, Yang Shi, Xinlong Chen, Yushuo Guan, Yuanxing Zhang, Wentao Zhang
Hybrid Attribution Priors for Explainable and Robust Model Training
Zhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong
Scone: Bridging Composition and Distinction in Subject-Driven Image Generation via Unified Understanding-Generation Modeling [CVPR 2026]
Yuran Wang*, Bohan Zeng*, Chengzhuo Tong, Wenxuan Liu, Yang Shi, Xiaochen Ma, Hao Liang, Yuanxing Zhang, Wentao Zhang†
Monet: Reasoning in Latent Visual Space Beyond Images and Language [CVPR 2026]
Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying†, Yisen Wang†
A Survey of Unified Multimodal Understanding and Generation: Advances and Challenges
Yan Yang*, Haochen Tian*, Yang Shi*, Wulin Xie*, Yi-Fan Zhang†, Yuhao Dong, Yibo Hu, Liang Wang, Ran He, Caifeng Shan, Chaoyou Fu†, Tieniu Tan
Detecting Unobserved Confounders: A Kernelized Regression Approach [AAAI 2026]
Yikai Chen, Yunxin Mao, Hao Zou, Chunyuan Zheng, Shanzhi Gu, Haotian Wang, Shixuan Liu, Yang Shi, Kun Kuang, Wenjing Yang
When Modalities Conflict: How Unimodal Reasoning Uncertainty Governs Preference Dynamics in MLLMs
Zhuoran Zhang, Tengyue Wang, Xilin Gong, Yang Shi, Haotian Wang, Di Wang, Lijie Hu
Transformers with Endogenous In-Context Learning: Bias Characterization and Mitigation [ICLR 2026]
Haotian Wang, Haoxuan Li, Hao Zou, Haoang Chi, Yang Shi, Yuanxing Zhang, Wenjing Yang, Xinwang Liu, Zhouchen Lin
MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning
Xukai Wang*, Xuanbo Liu*, Mingrui Chen*, Haitian Zhong*, Xuanlin Yang*, Bohan Zeng*, Jinbo Hu*, Hao Liang, Junbo Niu, Xuchen Li, Ruitao Wu, Ruichuan An, Yang Shi, Liu Liu, Xu-Yao Zhang, Qiang Liu, Zhouchen Lin, Wentao Zhang†, Bin Dong†
Identifying Outcome-Oriented Root Causes via Cross Regression
Haotian Wang, Hao Zou, Haoxuan Li, Yang Shi, Yuanxing Zhang, Kun Kuang, Wenjing Yang, Xinwang Liu, Peng Cui
Beyond Rational Illusion: Behaviorally Realistic Strategic Classification
Xinpeng Lv, Haotian Wang, Renzhe Xu, Yunxin Mao, Yang Shi, Siyang Gao, Xinwang Liu, Wenjing Yang
A Unified and Data-Efficient Framework for Out-of-Distribution and Generalization
Zhaohui Hu, Hongli Xiao, Yonglin Li, Chuan Li, Yang Shi, Mengzhu Wang, Haotian Wang, Long Lan
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration [ICLR 2026]
Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu†, Pengfei Wan, Liang Wang, Tieniu Tan
RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [CVPR 2026]
Yang Shi#, Yuhao Dong#‡, Yue Ding#, Yuran Wang#, Xuanyu Zhu#, Sheng Zhou#, Wenting Liu#, Haochen Tian#, Rundong Wang#, Huanqian Wang, Zuyan Liu, Bohan Zeng, Ruizhe Chen, Qixun Wang, Zhuoran Zhang, Xinlong Chen, Chengzhuo Tong, Bozhou Li, Chaoyou Fu, Qiang Liu, Haotian Wang†, Wenjing Yang, Yuanxing Zhang†, Pengfei Wan, Yi-Fan Zhang†, Ziwei Liu†
OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing
Zhihong Chen*, Xuehai Bai*, Yang Shi*, Chaoyou Fu, Huanyu Zhang, Haotian Wang, Xiaoyan Sun, Zhang Zhang, Liang Wang, Yuanxing Zhang†, Pengfei Wan, Yi-Fan Zhang†‡
BaseReward: A Strong Baseline for Multimodal Reward Model [ICLR 2026]
Yi-Fan Zhang*, Haihua Yang*‡, Huanyu Zhang, Yang Shi, Zezhou Chen, Haochen Tian, Chaoyou Fu†, Kai Wu, Bo Cui, Xu Wang, Jianfei Pan, Haotian Wang, Zhang Zhang†, Liang Wang
VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks [ICLR 2026]
Xinlong Chen, Yuanxing Zhang, Yushuo Guan, Bohan Zeng, Yang Shi, Sihan Yang, Pengfei Wan, Qiang Liu†, Liang Wang, Tieniu Tan
MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios [NeurIPS 2025]
Yang Shi#, Huanqian Wang#, Wulin Xie#, Huanyao Zhang#, Lijie Zhao#, YiFan Zhang#†, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yuanxing Zhang‡, Pengfei Wan, Haotian Wang†, Wenjing Yang†
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model [ACM MM 2025]
Yang Shi*, Jiaheng Liu*, Yushuo Guan*, Zhenhua Wu, Yuanxing Zhang†, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models [ICLR 2026]
Wulin Xie*, Yi-Fan Zhang*‡, Chaoyou Fu, Yang Shi, Bingyan Nie, Hongkai Chen, Zhang Zhang, Liang Wang, Tieniu Tan
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [ICML 2025]
Yi-Fan Zhang‡, Tao Yu, Haochen Tian, Chaoyou Fu†, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen†, Fan Yang, Zhang Zhang†, Tingting Gao, Di Zhang, Liang Wang, Rong Jin, Tieniu Tan
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents
Zhili Cheng‡, Yuge Tu#, Ran Li#, Shiqi Dai#, Jinyi Hu#‡, Shengding Hu, Jiahao Li, Yang Shi, Tianyu Yu, Weize Chen, Lei Shi, Maosong Sun†
Debiasing Multimodal Large Language Models via Penalization of Language Priors [ACM MM 2025]
YiFan Zhang*, Yang Shi*, Weichen Yu, Qingsong Wen†, Xue Wang, Wenjing Yang, Zhang Zhang, Liang Wang, Rong Jin

👨‍💻 Work Experience

Research Intern at Kling AI, Kuaishou Technology, 2025.02 - Present
Research Intern at THUNLP, Tsinghua University, 2023.11 - 2025.02

📚 Education

Ph.D. School of Computer Science, Peking University, 2023 - Present
B.S. School of Computer Science, China University of Geosciences, 2019 - 2023

🌟 Honors & Awards

Ruiming Alumni Scholarship, 1‰ , 2021
China National Scholarship, 0.2% , 2020

Yang Shi

👨‍🎓 About Me

📝 Publications

👨‍💻 Work Experience

📚 Education

🌟 Honors & Awards