Research

Search

Conference & Journals

Translate Policy to Language: Flow Matching Generated Rewards for LLM Explanations

Xinyi Yang, Liang Zeng, Heng Dong, Chao Yu, Xiaoran Wu, Huazhong Yang, Yu Wang, Milind Tambe, Tonghan Wang

The Fourteenth International Conference on Learning Representations (ICLR 2026) · 2026

AED: Automatic Discovery of Effective and Diverse Vulnerabilities for Autonomous Driving Policy with Large Language Models

Le Qiu, Zelai Xu, Qixin Tan, Wenhao Tang, Chao Yu, Yu Wang

The AAAI 2026 Bridge Program on Advancing Large Language Models and Multi-Agent Systems · 2026

VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yongji Wu, Chao Yu, Yu Wang

ICLR 2026 Oral · 2026

RE-PO: Robust Enhanced Policy Optimization as a General Framework for LLM Alignment

Xiaoyang Cao, Zelai Xu, Mo Guang, Kaiwen Long, Michiel A. Bakker, Yu Wang, Chao Yu

The Fourteenth International Conference on Learning Representations (ICLR 2026) · 2026

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Yixian Zhang, Shu’ang Yu, Tonghe Zhang, Mo Guang, Haojia Hui, Kaiwen Long, Yu Wang, Chao Yu, Wenbo Ding

ICLR 2026 · 2026

MARSHAL: Incentivizing Multi-Agent Reasoning via Self-Play with Strategic LLMs

Huining Yuan, Zelai Xu, Zheyue Tan, Xiangmin Yi, Mo Guang, Kaiwen Long, Haojia Hui, Boxun Li, Xinlei Chen, Bo Zhao, Xiao-Ping Zhang, Chao Yu, Yu Wang

The Fourteenth International Conference on Learning Representations (ICLR 2026) · 2026

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang

Preprint (2026) · 2026

RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI

Hongzhi Zang, Shu’ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang

arXiv preprint arXiv:2602.07837 · 2026

Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

Liangzhi Shi, Sheng Chen, Feng Gao, Yuhui Chen, Kang Chen, Tonghe Zhang, Hongzhi Zang, Weinan Zhang, Chao Yu, Yu Wang

arXiv preprint arXiv:2602.12628 · 2026

WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL

Zhennan Jiang, Shangqing Zhou, Yutong Jiang, Zefang Huang, Mingjie Wei, Yuhui Chen, Tianxing Zhou, Zhen Guo, Hao Lin, Quanlu Zhang, Yu Wang, Haoran Li, Chao Yu, Dongbin Zhao

arXiv preprint arXiv:2602.13977 · 2026

Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

Jiawei Chen, Simin Huang, Jiawei Du, Shuaihang Chen, Yu Tian, Mingjie Wei, Chao Yu, Zhaoxia Yin

Proceedings of the ACM Multimedia Conference (ACM MM 2026) · 2026

Few-shot In-context Preference Learning using Large Language Models

Chao Yu, Hong Lu, Jiaxuan Gao, Qixin Tan, Xinting Yang, Yu Wang, Yi Wu, Eugene Vinitsky

The Thirteenth International Conference on Learning Representations (ICLR 2025) · 2025

FlightBench: A Comprehensive Benchmark of Spatial Planning Methods for Quadrotors

Shu-Ang Yu, Chao Yu, Feng Gao, Yi Wu, Yu Wang

IEEE Robotics and Automation Letters (RA-L 2025) · 2025

Human-Robot Cooperative Distribution Coupling for Hamiltonian-Constrained Social Navigation

Weizheng Wang, Chao Yu, Yu Wang, Byung-Cheol Min

IEEE International Conference on Robotics and Automation (ICRA 2025) · 2025

Multi-UAV Behavior-based Formation with Static and Dynamic Obstacles Avoidance via Reinforcement Learning

Yuqing Xie, Chao Yu, Hongzhi Zang, Feng Gao, Wenhao Tang, Jingyi Huang, Jiayu Chen, Botian Xu, Yi Wu, Yu Wang

IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) · 2025

Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback

Feng Gao, Chao Yu, Yu Wang, Yi Wu

IEEE Robotics and Automation Letters (RA-L 2025) · 2025

Learning Global Nash Equilibrium in Team Competitive Games with Generalized Fictitious Cross-Play

Zelai Xu, Chao Yu, Yancheng Liang, Yi Wu, Yu Wang

Journal of Machine Learning Research, 26 (2025), 1–30 · 2025

Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network

Jijia Liu, Feng Gao, Qingmin Liao, Chao Yu, Yu Wang

Proceedings of the 42nd International Conference on Machine Learning (ICML 2025) · 2025

VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play

Zelai Xu, Ruize Zhang, Chao Yu, Huining Yuan, Xiangmin Yi, Shilong Ji, Chuqi Wang, Wenhao Tang, Feng Gao, Wenbo Ding, Xinlei Chen, Yu Wang

The Thirty-ninth Conference on Neural Information Processing Systems (NeurIPS 2025), Track on Datasets and Benchmarks · 2025

Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization

Zelai Xu, Wanjun Gu, Chao Yu, Yi Wu, Yu Wang

Proceedings of the 42nd International Conference on Machine Learning (ICML 2025) · 2025

Multi-Robot System for Cooperative Exploration in Unknown Environments: A Survey

Chuqi Wang, Chao Yu, Xin Xu, Yinuo Chen, Yuman Gao, Xinyi Yang, Wenhao Tang, Shu’ang Yu, Feng Gao, Zhuozhu Jian, Xinlei Chen, Fei Gao, Boyu Zhou, Yu Wang, Fellow, IEEE

Survey Paper (2025) · 2025

Hysteresis-Aware Neural Network Modeling and Whole-Body Reinforcement Learning Control of Soft Robots

Zongyuan Chen, Yan Xia, Jiayuan Liu, Jijia Liu, Wenhao Tang, Jiayu Chen, Feng Gao, Longfei Ma, Hongen Liao, Yu Wang, Chao Yu, Boyu Zhang, Fei Xing

Preprint (2025) · 2025

Mastering Multi-Drone Volleyball through Hierarchical Co-Self-Play Reinforcement Learning

Ruize Zhang, Sirui Xiang, Zelai Xu, Feng Gao, Shilong Ji, Wenhao Tang, Wenbo Ding, Chao Yu, Yu Wang

9th Conference on Robot Learning (CoRL 2025), Seoul, Korea · 2025

Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps

Ningyuan Yang, Jiaxuan Gao, Feng Gao, Yi Wu, Chao Yu

Preprint (2025) · 2025

Toward Real-World Cooperative and Competitive Soccer with Quadrupedal Robot Teams

Zhi Su, Yuman Gao, Emily Lukas, Yunfei Li, Jiaze Cai, Faris Tulbah, Fei Gao, Chao Yu, Zhongyu Li, Yi Wu, Koushil Sreenath

Conference on Robot Learning (CoRL 2025) · 2025

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Tonghe Zhang, Chao Yu, Shenzhi Su, Yu Wang

NeurIPS 2025 · 2025

What Can RL Bring to VLA Generalization? An Empirical Study

Jijia Liu, Feng Gao, Bingwen Wei, Xinlei Chen, Qingmin Liao, Yi Wu, Chao Yu, Yu Wang

NeurIPS 2025 · 2025

Exploring the Secondary Risks of Large Language Models

Jiawei Chen, Zhengwei Fang, Xiao Yang, Chao Yu, Zhaoxia Yin, Hang Su

arXiv preprint arXiv:2506.12382 · 2025

Online Planning for Multi-UAV Pursuit-Evasion in Unknown Environments Using Deep Reinforcement Learning

Jiayu Chen, Chao Yu, Guosheng Li, Wenhao Tang, Shilong Ji, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang

IEEE Robotics and Automation Letters (2025) · 2025

Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance

Songsheng Wang, Rucheng Yu, Zhihang Yuan, Chao Yu, Feng Gao, Yu Wang, Derek F. Wong

EMNLP 2025 Main Conference · 2025

D3P: Dynamic Denoising Diffusion Policy via Reinforcement Learning

Shu-Ang Yu, Feng Gao, Yi Wu, Chao Yu, Yu Wang

arXiv preprint arXiv:2508.06804 (2025) · 2025

RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation

Chao Yu, Yuanqing Wang, Zhen Guo, Hao Lin, Si Xu, Hongzhi Zang, Quanlu Zhang, Yongji Wu, Chunyang Zhu, Junhao Hu, Zixiao Huang, Mingjie Wei, Yuqing Xie, Ke Yang, Bo Dai, Zhexuan Xu, Jiakun Du, Xiangyuan Wang, Xu Fu, Letong Shi, Zhihao Liu, Kang Chen, Weilin Liu, Gang Liu, Boxun Li, Jianlei Yang, Zhi Yang, Guohao Dai, Yu Wang

arXiv preprint arXiv:2509.15965 (2025) · 2025

World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation

Zhennan Jiang, Kai Liu, Yuxin Qin, Shuai Tian, Yupeng Zheng, Mingcai Zhou, Chao Yu, Haoran Li, Dongbin Zhao

arXiv preprint arXiv:2509.19080 · 2025

JuggleRL: Mastering Ball Juggling with a Quadrotor via Deep Reinforcement Learning

Shilong Ji, Yinuo Chen, Chuqi Wang, Jiayu Chen, Ruize Zhang, Feng Gao, Wenhao Tang, Shu’ang Yu, Sirui Xiang, Xinlei Chen, Chao Yu, Yu Wang

arXiv preprint arXiv:2509.24892 · 2025

RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training

Hongzhi Zang, Mingjie Wei, Si Xu, Yongji Wu, Zhen Guo, Yuanqing Wang, Hao Lin, Liangzhi Shi, Yuqing Xie, Zhexuan Xu, Zhihao Liu, Kang Chen, Wenhao Tang, Quanlu Zhang, Weinan Zhang, Chao Yu, Yu Wang

arXiv preprint arXiv:2510.06710 · 2025

Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models

Yutao Ouyang, Jinhan Li, Yunfei Li, Zhongyu Li, Chao Yu, Koushil Sreenath, Yi Wu

IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) · 2025

πRL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models

Kang Chen, Zhihao Liu, Tonghe Zhang, Zhen Guo, Si Xu, Hao Lin, Hongzhi Zang, Xiang Li, Bingwen Wei, Jiakai Zhou, Quanlu Zhang, Zhaofei Yu, Guoliang Fan, Tiejun Huang, Yu Wang, Chao Yu

Preprint (2025) · 2025

Red Teaming Large Reasoning Models

Jiawei Chen, Yang Yang, Chao Yu, Yu Tian, Zhi Cao, Xue Yang, Linghao Li, Hang Su, Zhaoxia Yin

Preprint (2025) · 2025

RoboScape-R: Unified Reward-Observation World Models for Generalizable Robotics Training via RL

Yinzhou Tang, Yu Shang, Yinuo Chen, Bingwen Wei, Xin Zhang, Shu’ang Yu, Liangzhi Shi, Chao Yu, Chen Gao, Wei Wu, Yong Li

Preprint (2025) · 2025

Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game

Zelai Xu, Chao Yu, Fei Fang, Yu Wang, Yi Wu

Proceedings of the 41st International Conference on Machine Learning (ICML 2024) · 2024

MASP: Scalable Graph-based Planning towards Multi-Agent Navigation

Xinyi Yang, Xinting Yang, Chao Yu, Jiayu Chen, Wenbo Ding, Huazhong Yang, Yu Wang

IEEE Robotics and Automation Letters (RA-L 2024) · 2024

LLM-Powered Hierarchical Language Agent for Real-time Human-AI Coordination

Jijia Liu, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu, Yu Wang

Proc. of the 23rd International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2024) · 2024

Sharing Minds during MARL Training for Enhanced Cooperative LLM Agents

Jiaxuan Gao, Yule Wen, Chao Yu, Yi Wu

The Thirty-eighth Conference on Neural Information Processing Systems (NeurIPS 2024) · 2024

OmniDrones: An Efficient and Flexible Platform for Reinforcement Learning in Drone Control

Botian Xu, Feng Gao, Chao Yu, Ruize Zhang, Yi Wu, Yu Wang

IEEE Robotics and Automation Letters, 9(3): 2838–2844 (2024) · 2024

Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with Subgame Curriculum Learning

Jiayu Chen, Zelai Xu, Yunfei Li, Chao Yu, Jiaming Song, Huazhong Yang, Fei Fang, Yu Wang, Yi Wu

Proceedings of the AAAI Conference on Artificial Intelligence (AAAI 2024) · 2024

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, Yi Wu

Proceedings of the 41st International Conference on Machine Learning (ICML 2024) · 2024

LAGOON: Language-Guided Motion Control

Shusheng Xu, Huaijie Wang, Yutao Ouyang, Jiaxuan Gao, Zhiyu Mei, Chao Yu, Yi Wu

IEEE International Conference on Robotics and Automation (ICRA 2024) · 2024

CityLight: A Universal Model Towards Real-world City-scale Traffic Signal Control Coordination

Jinwei Zeng, Chao Yu, Xinyi Yang, Wenxuan Ao, Jian Yuan, Yong Li, Yu Wang, Huazhong Yang

Preprint (2024) · 2024

A Survey on Self-Play Methods in Reinforcement Learning

Ruize Zhang, Zelai Xu, Chengdong Ma, Chao Yu, Wei-Wei Tu, Wenhao Tang, Shiyu Huang, Deheng Ye, Wenbo Ding, Yaodong Yang, Yu Wang

Preprint (2024) · 2024

Reward-Robust RLHF in LLMs

Yuzi Yan, Xingzhou Lou, Jialian Li, Yiping Zhang, Jian Xie, Chao Yu, Yu Wang, Dong Yan, Yuan Shen

Preprint (2024) · 2024

SleepNetZero: Zero-Burden Zero-Shot Reliable Sleep Staging with Neural Networks Based on Ballistocardiograms

Shuzhen Li, Yuxin Chen, Xuesong Chen, Rong Gao, Yina Zhang, Chao Yu, Yu Li, Ziyi Ye, Wei Huang, Hui Yi, Jiaxuan Gao, Wenbo Ding, Yu Wang

Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies (PACM IMWUT 2024) · 2024

Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation

Xinyi Yang, Shiyu Huang, Yiwen Sun, Yuxiang Yang, Chao Yu, Wei-Wei Tu, Huazhong Yang, Yu Wang

Proceedings of the 22nd International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2023) · 2023

Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time Multi-Robot Cooperative Exploration

Chao Yu, Xinyi Yang, Jiaxuan Gao, Jiayu Chen, Yunfei Li, Jijia Liu, Yunfei Xiang, Ruixin Huang, Huazhong Yang, Yi Wu, Yu Wang

Proceedings of the 22nd International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2023) · 2023

Learning Zero-Shot Cooperation with Humans, Assuming Humans Are Biased

Chao Yu, Jiaxuan Gao, Weilin Liu, Botian Xu, Hao Tang, Jiaqi Yang, Yu Wang, Yi Wu

The Eleventh International Conference on Learning Representations (ICLR 2023) · 2023

Automatic Truss Design with Reinforcement Learning

Weihua Du, Jinglun Zhao, Chao Yu, Xingcheng Yao, Zimeng Song, Siyang Wu, Ruifeng Luo, Zhiyuan Liu, Xianzhong Zhao, Yi Wu

IJCAI 2023 · 2023

Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed Cooperative-Competitive Games

Zelai Xu, Yancheng Liang, Chao Yu, Yu Wang, Yi Wu

Proceedings of the 22nd International Conference on Autonomous Agents and Multiagent Systems (AAMAS 2023) · 2023

Active Neural Topological Mapping for Multi-Agent Exploration

Xinyi Yang, Yuxiang Yang, Chao Yu, Jiayu Chen, Jingchen Yu, Haibing Ren, Huazhong Yang, Yu Wang

Preprint (2023) · 2023

Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning

Wei Fu, Chao Yu, Zelai Xu, Jiaqi Yang, Yi Wu

Proceedings of the 39th International Conference on Machine Learning (ICML 2022) · 2022

VMAPD: Generate Diverse Solutions for Multi-Agent Games with Recurrent Trajectory Discriminators

Shiyu Huang, Chao Yu, Bin Wang, Dong Li, Yu Wang, Ting Chen, Jun Zhu

IEEE Conference on Games (CoG 2022) · 2022

SAVE: Spatial-Attention Visual Exploration

Xinyi Yang, Chao Yu, Jiaxuan Gao, Yu Wang, Huazhong Yang

IEEE International Conference on Image Processing (ICIP 2022) · 2022

Learning Efficient Multi-Agent Cooperative Visual Exploration

Chao Yu, Xinyi Yang, Jiaxuan Gao, Huazhong Yang, Yu Wang, Yi Wu

European Conference on Computer Vision (ECCV 2022) · 2022

A Benchmark of Planning-based Exploration Methods in Photo-Realistic 3D Simulator

Xuan Du, Xinyi Yang, Chao Yu, Jiaxuan Gao, Qingmin Liao, Huazhong Yang, Yu Wang

IEEE International Conference on Robotics and Biomimetics (ROBIO 2022) · 2022

The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games

Chao Yu, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen, Yi Wu

The Thirty-sixth Conference on Neural Information Processing Systems (NeurIPS 2022), Track on Datasets and Benchmarks · 2022

Discovering Diverse Multi-Agent Strategic Behavior via Reward Randomization

Zhenggang Tang, Chao Yu, Boyuan Chen, Huazhe Xu, Xiaolong Wang, Fei Fang, Simon Du, Yu Wang, Yi Wu

The Ninth International Conference on Learning Representations (ICLR 2021) · 2021

Unlocking the Potential of MAPPO with Asynchronous Optimization

Wei Fu, Chao Yu, Yunfei Li, Yi Wu

CAAI International Conference on Artificial Intelligence (2021) · 2021

Multi-Agent Vulnerability Discovery for Autonomous Driving with Hazard Arbitration Reward

Weilin Liu, Ye Mu, Chao Yu, Xuefei Ning, Zhong Cao, Yi Wu, Shuang Liang, Huazhong Yang, Yu Wang

Preprint (2021) · 2021

CNN-based Feature-point Extraction for Real-time Visual SLAM on Embedded FPGA

Zhilin Xu, Jincheng Yu, Chao Yu, Hao Shen, Yu Wang, Huazhong Yang

IEEE 28th Annual International Symposium on Field-Programmable Custom Computing Machines (FCCM 2020) · 2020

CNN-based Monocular Decentralized SLAM on Embedded FPGA

Jincheng Yu, Feng Gao, Jianfei Cao, Chao Yu, Zhaoliang Zhang, Zhengfeng Huang, Yu Wang, Huazhong Yang

IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW 2020) · 2020

INCA: INterruptible CNN Accelerator for Multi-tasking in Embedded Robots

Jincheng Yu, Zhilin Xu, Shulin Zeng, Chao Yu, Jiantao Qiu, Chaoyang Shen, Yuanfan Xu, Guohao Dai, Yu Wang, Huazhong Yang

57th ACM/IEEE Design Automation Conference (DAC 2020) · 2020

Learning Safety-Aware Policy with Imitation Learning for Context-Adaptive Navigation

Bo Xiong, Fangshi Wang, Chao Yu, Fei Qiao, Yi Yang, Qi Wei, Xinjun Liu

Workshop Paper / Technical Report (2019) · 2019

A DenseNet Feature-based Loop Closure Method for Visual SLAM System

Chao Yu, Zuxin Liu, Xin-Jun Liu, Fei Qiao, Yu Wang, Fugui Xie, Qi Wei, Yi Yang

2019 IEEE International Conference on Robotics and Biomimetics (ROBIO 2019) · 2019

Long-Sighted Imitation Learning for Partially Observable Control

Bo Xiong, Fangshi Wang, Chao Yu, Fei Qiao, Yi Yang, Qi Wei, Xinjun Liu

Proceedings of the 2019 2nd International Conference on Control and Robot Technology (ICCRT 2019) · 2019

DS-SLAM: A Semantic Visual SLAM towards Dynamic Environments

Chao Yu, Zuxin Liu, Xin-Jun Liu, Fugui Xie, Yi Yang, Qi Wei, Qiao Fei

IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2018) · 2018