_{RLinf: 为具身智能和智能体而生的强化学习框架}

RLinf 是一个灵活且可扩展的开源框架，专为具身智能和智能体而设计。名称中的 “inf” 既代表 Infrastructure，强调其作为新一代训练坚实基础的作用；也代表 Infinite，寓意其支持开放式学习、持续泛化以及智能发展的无限可能。

核心特性

RLinf具有高度灵活性，可支持多种强化学习训练工作流（PPO、GRPO、SAC等），同时隐藏了分布式编程的复杂性。用户无需修改代码即可轻松将强化学习训练扩展至大量GPU节点，满足强化学习训练日益增长的计算需求。

这种高灵活性使 RLinf 能够探索更高效的调度与执行模式。在具身强化学习中，混合执行模式的吞吐量可达现有框架的 2.434 倍。

多后端集成支持

FSDP + HuggingFace/SGLang/vLLM: 快速适配新模型与新算法，非常适合初学者和快速原型验证。
Megatron + SGLang/vLLM: 针对大规模训练进行了优化，为专家用户提供最大化效率。

具身智能

模拟器	真机	模型	算法
ManiSkill ✅ LIBERO ✅ RoboTwin ✅ RoboVerse BEHAVIOR ✅ MetaWorld ✅ IsaacLab ✅ RoboCasa ✅ Franka-Sim ✅ More...	Franka Arm ✅ More...	VLA 模型 π₀ ✅ π₀.₅ ✅ OpenVLA ✅ OpenVLA-OFT ✅ GR00T ✅ Dexbotic ✅ VLM 模型 Qwen2.5-VL ✅ 世界模型 OpenSora ✅ Wan ✅ 自定义模型 MLP-Policy ✅ CNN-Policy ✅	RL 算法 GRPO ✅ PPO ✅ DAPO ✅ Reinforce++ ✅ SAC ✅ CrossQ ✅ RLPD ✅ SAC-Flow ✅ DSRL ✅ SFT 全量微调 ✅ LoRA微调 ✅ VLM 模型微调 ✅

智能体强化学习

Single-Agent	Multi-Agent
SearchR1 ✅ Online Coder ✅ Math推理强化学习 ✅	WideSeek-R1

快速开始

安装步骤： 请参考我们的安装指南安装RLinf。鉴于具身强化学习的环境配置较为复杂，我们推荐直接使用我们提供的Docker镜像（即安装方法一：Docker镜像）。

运行简单示例： 环境配置完成后，用户可以参照该文档的内容，运行基于ManiSkill3模拟器的具身强化学习基础示例。

SOTA RL 训练复现： RLinf 提供了端到端的配置和脚本，可以直接运行，无需额外工程改造，即可复现业界领先的训练效果。请参考示例库了解更多细节。

持续集成测试状态

RLinf 具有全面的 CI 测试，涵盖核心组件（通过单元测试）和具身、智能体和推理场景的端到端 RL 训练工作流。以下是主分支 CI 测试状态的摘要：

测试名	状态
单元测试
智能体/推理端到端测试
具身智能端到端测试
调度器测试

贡献指南

我们欢迎对 RLinf 的贡献。在参与之前，请先阅读贡献指南。感谢以下贡献者，并诚邀更多开发者加入我们的开源项目，共建具身智能与强化学习系统。

引用与致谢

如果您觉得 RLinf 对您的研究或工作有所帮助，请引用以下论文：


@article{yu2025rlinf,
  title={RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation},
  author={Yu, Chao and Wang, Yuanqing and Guo, Zhen and Lin, Hao and Xu, Si and Zang, Hongzhi and Zhang, Quanlu and Wu, Yongji and Zhu, Chunyang and Hu, Junhao and others},
  journal={arXiv preprint arXiv:2509.15965},
  year={2025}
}

如果你在 RLinf 中使用了 RL+VLA，欢迎引用我们的算法技术报告和实证研究论文：


@article{zang2025rlinf,
  title={RLinf-VLA: A Unified and Efficient Framework for VLA+ RL Training},
  author={Zang, Hongzhi and Wei, Mingjie and Xu, Si and Wu, Yongji and Guo, Zhen and Wang, Yuanqing and Lin, Hao and Shi, Liangzhi and Xie, Yuqing and Xu, Zhexuan and others},
  journal={arXiv preprint arXiv:2510.06710},
  year={2025}
}


@article{liu2025can,
  title={What can rl bring to vla generalization? an empirical study},
  author={Liu, Jijia and Gao, Feng and Wei, Bingwen and Chen, Xinlei and Liao, Qingmin and Wu, Yi and Yu, Chao and Wang, Yu},
  journal={arXiv preprint arXiv:2505.19789},
  year={2025}
}


@article{chen2025pi_,
  title={$$\backslash$pi\_$\backslash$texttt $\{$RL$\}$ $: Online RL Fine-tuning for Flow-based Vision-Language-Action Models},
  author={Chen, Kang and Liu, Zhihao and Zhang, Tonghe and Guo, Zhen and Xu, Si and Lin, Hao and Zang, Hongzhi and Zhang, Quanlu and Yu, Zhaofei and Fan, Guoliang and others},
  journal={arXiv preprint arXiv:2510.25889},
  year={2025}
}

如果您使用了RLinf的真机在线学习系统，欢迎引用我们的文章：


@article{zang2026rlinfuser,
  title={RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI}, 
  author={Hongzhi Zang and Shu'ang Yu and Hao Lin and Tianxing Zhou and Zefang Huang and Zhen Guo and Xin Xu and Jiakai Zhou and Yuze Sheng and Shizhe Zhang and Feng Gao and Wenhao Tang and Yufeng Yue and Quanlu Zhang and Xinlei Chen and Chao Yu and Yu Wang},
  year={2026},
  journal={arXiv preprint arXiv:2602.07837},
  url={https://arxiv.org/abs/2602.07837}, 
}

如果您在 RLinf 中使用了 World Model + VLA + RL，欢迎引用我们的文章：


@article{jiang2026wovr,
  title={WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL}, 
  author={Zhennan Jiang and Shangqing Zhou and Yutong Jiang and Zefang Huang and Mingjie Wei and Yuhui Chen and Tianxing Zhou and Zhen Guo and Hao Lin and Quanlu Zhang and Yu Wang and Haoran Li and Chao Yu and Dongbin Zhao},
  year={2026},
  journal={arXiv preprint arXiv:2602.13977},
  url={https://arxiv.org/abs/2602.13977}, 
}

如果您在 RLinf 中使用了基于 RL 的仿真-真机协同训练，欢迎引用我们的文章：


@article{shi2026rlinf,
  title={Beyond Imitation: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models},
  author={Shi, Liangzhi and Chen, Shuaihang and Gao, Feng and Chen, Yinuo and Chen, Kang and Zhang, Tonghe and Zhang, Hongzhi and Zhang, Weinan and Yu, Chao and Wang, Yu},
  journal={arXiv preprint arXiv:2602.12628},
  year={2026},
  url={https://arxiv.org/abs/2602.12628},
}

致谢 RLinf 的灵感来源并受益于更广泛开源社区的思想与工具。我们特别感谢 VeRL、AReaL、Megatron-LM、SGLang 和 PyTorch Fully Sharded Data Parallel (FSDP) 的团队与贡献者。如果我们不慎遗漏了您的项目或贡献，请提交 issue 或 pull request，以便我们能够给予您应有的致谢。

联系方式： 我们欢迎博士后、博士/硕士研究生以及实习生的加入。诚邀您共同塑造强化学习基础设施与具身智能的未来！