Zhaoyang Wang

Blog

WebHarbor: Docking Real Websites for Evolving GUI Agent Environments

Zhaoyang Wang, Qianhui Wu, Shi Qiu, WebHarbor Team, and Contributors

Blog 2026.

Blog Code

ICML 2026

Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Zhaoyang Wang, Canwen Xu, Boyi Liu, Yite Wang, Siwei Han, Zhewei Yao, Huaxiu Yao, Yuxiong He

Proceedings of the 43rd International Conference on Machine Learning.

PDF Code

Preprint

WebXSkill: Skill Learning for Autonomous Web Agents

Zhaoyang Wang, Qianhui Wu, Xuchao Zhang, Chaoyun Zhang, Wenlin Yao, Fazle Elahi Faisal, Baolin Peng, Si Qin, Suman Nath, and et al.

Arxiv Preprint 2026.

PDF Code

ACL 2026

SynthAgent: Adapting Web Agents with Synthetic Supervision

Zhaoyang Wang, Yiming Liang, Xuchao Zhang, Qianhui Wu, Siwei Han, Anson Bastos, Ruijia Wang, Chetan Bansal, Baolin Peng, et al.

Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics.

PDF Code

Preprint

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Rui Yang, Qianhui Wu, Zhaoyang Wang, Hanyang Chen, Ke Yang, Hao Cheng, Huaxiu Yao, Baoling Peng, Huan Zhang, Jianfeng Gao, Tong Zhang

Arxiv Preprint 2026.

PDF Code

Preprint

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

Tianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov

Arxiv Preprint 2026.

PDF

ICLR 2026

ICPO: Provable and Practical In-Context Policy Optimization for Test-Time Scaling

Tianrun Yu, Yuxiao Yang, Zhaoyang Wang, Kaixiang Zhao, Porter Jenkins, Xuchao Zhang, Chetan Bansal, Huaxiu Yao, Weitong Zhang

Proceeding of the 14th International Conference on Learning Representations.

PDF

NeurIPS 2025 Workshop

Efficient Long CoT Reasoning in Small Language Models

Zhaoyang Wang, Jinqi Jiang, Tian Qiu, Hui Liu, Xianfeng Tang, Huaxiu Yao

NeurIPS 2025 Workshop on Efficient Reasoning.

PDF

EMNLP 2023

Democratizing Reasoning Ability: Tailored Learning from Large Language Model

Zhaoyang Wang, Shaohan Huang, Yuxuan Liu, Jiahai Wang, Minghui Song, Zihan Zhang, Haizhen Huang, Furu Wei, et al.

Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing.

PDF Code

ACL 2025

Synergistic Weak-Strong Collaboration by Aligning Preferences

Yizhu Jiao, Xuchao Zhang, Zhaoyang Wang, Yubo Ma, Zhun Deng, Rujia Wang, Chetan Bansal, Saravan Rajmohan, Jiawei Han, Huaxiu Yao

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics.

PDF Code

Neurips 2025 (Spotlight)

MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation

Haibo Tong, Zhaoyang Wang, Zhaorun Chen, Haonian Ji, Shi Qiu, Siwei Han, Kexin Geng, Zhongkai Xue, Yiyang Zhou, Peng Xia, et al.

The Thirty-Ninth Annual Conference on Neural Information Processing Systems.

PDF Code

ICLR 2025

AnyPrefer: An Automatic Framework for Preference Data Synthesis

Yiyang Zhou, Zhaoyang Wang, Tianle Wang, Shangyu Xing, Peng Xia, Bo Li, Kaiyuan Zheng, Zijian Zhang, Zhaorun Chen, et al.

Proceeding of the 13th International Conference on Learning Representations.

PDF

ICLR 2025

CREAM: Consistency Regularized Self-Rewarding Language Models

Zhaoyang Wang, Weilei He, Zhiyuan Liang, Xuchao Zhang, Chetan Bansal, Ying Wei, Weitong Zhang, Huaxiu Yao

Proceeding of the 13th International Conference on Learning Representations.

PDF Code

NAACL 2025

Verifiable Format Control for Large Language Model Generations

Zhaoyang Wang, Jinqi Jiang, Huichi Zhou, Wenhao Zheng, Xuchao Zhang, Chetan Bansal, Huaxiu Yao

Findings of 2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics.

PDF Code

NAACL 2025

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

Xiyao Wang, Jiuhai Chen, Zhaoyang Wang, Yuhang Zhou, Yiyang Zhou, Huaxiu Yao, Tianyi Zhou, Tom Goldstein, et al.

Findings of 2025 Annual Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics.

PDF Code

Zhaoyang Wang

About Me

Publications [ Google Scholar ] [ Full Publications ]

Agents

Reasoning

Alignment

Experiences

About Me

Publications [ Google Scholar ] [ Full Publications ]

▼ Agents

▶ Reasoning

▶ Alignment

Experiences

Agents

Reasoning

Alignment