Post-Training on PAI (1)：一文览尽开源强化学习框架在PAI平台的应用

2025-06-26 25

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，100CU*H 3个月

简介： Post-Training（即模型后训练）作为大模型落地的重要一环，能显著优化模型性能，适配特定领域需求。相比于 Pre-Training（即模型预训练），Post-Training 阶段对计算资源和数据资源需求更小，更易迭代，因此备受推崇。近期，我们将体系化地分享基于阿里云人工智能平台 PAI 在强化学习、模型蒸馏、数据预处理、SFT等方向的技术实践，旨在清晰地展现 PAI 在 Post-Training 各个环节的产品能力和使用方法，欢迎大家随时交流探讨。

DeepSeek-R1 通过 "Aha Moment" 场景的成功实践，充分验证了强化学习技术在大模型对齐领域的核心价值。这一突破推动开源社区迎来强化学习框架的创新热潮，各类工具如雨后春笋般涌现。

阿里云人工智能平台 PAI 深度拥抱开源生态，训练平台 PAI-DLC 全面整合主流强化学习框架与工具链，同时依托平台独有的大规模分布式训练能力，极致性能优化及企业级稳定性保障，为企业及开发者构建起高效的云上技术桥梁。通过 PAI 平台，用户可轻松实现强化学习技术与模型能力的深度融合，在对话交互、决策优化等多场景中释放技术潜力，加速 AI 应用的产业落地进程。

下面将分别介绍业内主流的强化学习开源框架，及其在 PAI-DLC 如何方便快捷的使用。

一、Cosmos-RL

Cosmos-RL 是 NVIDIA 提供一款全新的纯异步高鲁棒性的 LLM 强化学习训练框架 ¹ ，在训练效率和容错能力上相较目前主流的框架都有明显提升，其框架特点：

训练效率方面，主流的 colocated 结构的框架（如 VeRL，OpenRLHF 等）受限于在相同资源上进行 policy 和 rollout 切换，导致资源利用率低，GPU 等待时间长。Cosmos-RL 将 policy 训练，rollout 推理使用异构部署的方式组网，并通过 controller 调度分发请求来实现异步并行，在保障训练精度的前提下实现了全链路异步训练，训练速度是传统框架的2-3倍。
训练容错方面，Cosmos-RL 全新设计了训练集群的拓扑网络管理逻辑，policy 与 rollout 实例在训练过程中任一节点发生异常可以迅速重新组网并继续执行当前训练 step，不需要重启恢复等操作，提供了高鲁棒性。多 controller 的备份进一步提高系统稳定性，高容错设计同时也带来了动态扩缩容的特性，可以自由的增加或者减少训练节点。

Cosmos-RL on PAI

PAI-DLC 自研 Custom 类型任务，用户基于 Custom 类型自定义框架的角色类型（controller、policy 和 rollout）和资源配置，实现一键提交 Cosmos-RL 框架任务。

经过实测，Cosmos-RL， GPU 数量越多时 Throughput（samples per second）优势越明显，相比 VeRL 有2-3x 的效率提升。

传统⽂本任务（GSM8K数据集），以 Qwen2.5-32B-Instruct 为基座模型，训练1个 Epoch，rollout 的单个样本 generation number 设置为16，batch_size 为192，并严格对齐其他参数，采用相同的 rollout backend。分别使⽤16、32、64和128卡进⾏训练，通过 samples per second 计算量框架的吞吐（Throughput）。

二、Ray

Ray 是一个开源的分布式计算框架 ² ，集成了多个 AI 库，拥有丰富的生态系统，包括 Ray Tune（超参数调优）、Ray RLlib（强化学习）、Ray Serve（模型部署）、RaySGD 的分布式运行环境，提供了全面的AI解决方案，使得 AI 并行训练更容易和高效。其中，OpenAI 声明 Ray 为 ChatGPT 大模型训练的底层平台，也进一步表明其在 AI 训练场景的通用性。

Ray on PAI

针对 Ray，PAI-DLC 期望为用户提供一个简单易用的、Ray Native 的使用体验。 PAI-DLC 在任务类型（框架）推出 Ray 类型，用户可以将已有 Ray 训练脚本通过 DLC 直接提交，开发人员真正实现上手0成本。其次，PAI-DLC 作为云上 AI PaaS 平台，为用户提供 Serverless 的产品体验，进一步降低 Ray 使用门槛，PAI-DLC 上使用 Ray，用户无需关注 Ray 集群部署和运维，也无需关注底层 Kubernetes 复杂配置，一键提交 Ray 任务。

同时在 PAI-DLC 平台提交任务，支持单任务万卡级规模的调度和分布式计算能力。对 Ray 系统架构提供针对性的容错引擎优化，包括：

（1）Ray Head Node 故障自自愈，实现任务续跑;

（2）Ray 集群初始化智能诊断，解决 Ray Worker 容易 OOM 等框架级错误;

（3）基于 Ray Head Node 海量报错日志，智能解析快速精准锁定真实故障节点，实现分钟级自愈恢复能力。

在阿里内部的实践中，每周通过 PAI-DLC 提交数百个千卡级别任务（强化学习千卡规模 * 数天），故障识别率95%+，任务稳定运行超过一周。

三、VeRL

VeRL 是由字节跳动团队开源的强化学习与大模型对齐训练框架 ³，其采用混合编程模型，融合单控制器灵活性与多控制器高效性，解耦控制流和计算流，通过封装单模型分布式计算、统一数据切分、支持异步控制流等技术，为强化学习提供完整解决方案。

VeRL on PAI

VeRL 基于 Ray 分布式框架构建执行流程，借助其资源调度与任务管理能力，实现多节点、多 GPU 分布式计算，无缝集成 PyTorch 生态实现模型训练能力。在 PAI-DLC 上，用户可以通过提交 Ray 框架任务或者提交 PyTorch 框架任务，一键提交大规模的强化学习任务。

四、关于 PAI-DLC:阿里云分布训练平台

PAI-DLC 阿里云 PAI 平台提供的云原生的 AI 分布式训练平台，为开发者和企业提供灵活、稳定、易用和高性能的机器学习训练环境，支持多种算法框架，能够处理大规模的分布式深度学习任务，降低成本的同时提升训练效率。PAI-DLC 具备以下特性：

强大的分布式计算能力：自研统一调度引擎，网络拓扑感知、算力拓扑感知，提供智能、FIFO、遍历、均衡排队策略，多级 Quota 的共享、抢占调度机制，实现超大规模训练任务运行，实现 90%+ 整体算力利用率。
多种框架，一键拉起简单易用：无需搭建集群，一键提交训练任务；支持 Megatron、Deepspeed、Pytorch、MPI、Slurm 等10+业内主流 AI 训练框架，一份算力在多种 AI 场景切换和使用，免部署、免运维、上手 0 成本。
训练自愈，提供企业级高可用：自研 AIMaster 弹性容错引擎、节点自愈引擎和 EasyCKPT 大模型 CKPT 引擎，实现故障节点分钟级自愈，任务分钟级恢复、CKPT 秒级保存，保障大模型训练任务持续运行, 有效降低人力和避免算力的浪费。

五、结论

在大模型 PostingTraining 蓬勃发展的今天，开源的强化学习框架以灵活的算法实现、丰富的工具集和活跃的社区生态，为开发者提供低成本的实验环境，可以拓展云平台功能边界，激发创新活力。

阿里云 PAI-DLC，依托阿里云强大的基础设施，优化开源框架普遍存在大规模下性能和稳定性瓶颈，并且结合平台一站式全流程服务，简化开发流程，降低使用门槛。二者结合最终推动强化学习高速发展，助力大模型应用，为实现 AGI 贡献力量。

附：

[1]"cosmos-rl," GitHub repository, n.d. [Online]. Available: https://github.com/nvidia-cosmos/cosmos-rl.

[2]"ray-project," GitHub organization, n.d. [Online]. Available: https://github.com/ray-project.

[3]"verl," GitHub repository, n.d. [Online]. Available: https://github.com/volcengine/verl.

Post-Training on PAI (1)：一文览尽开源强化学习框架在PAI平台的应用

一、Cosmos-RL

Cosmos-RL on PAI

二、Ray

Ray on PAI

三、VeRL

VeRL on PAI

四、关于 PAI-DLC:阿里云分布训练平台

五、结论

人工智能平台PAI

热门文章

最新文章

相关电子书