蚂蚁与清华开源强化学习框架 AReaL-boba,数学推理能力达 SOTA 水平

摘要

高效低成本、全部开源!

3 月 31 日,蚂蚁集团与清华大学联合推出开源强化学习训练框架 AReaL-boba,研发团队采用该框架训练出数学推理能力达到业内领先水平(State-of-the-Art,SOTA)的 7B 推理模型,并以极低成本实现了 32B 推理大模型的高效复现。AReaL-boba 的框架代码、训练数据、模型权重及技术文档已在 inclusionAI 社区全部开源,开发者可直接复现 SOTA 推理模型。

AReaL(全称 Ant Reasoning RL)是国内首个完整开源的强化学习 (Reinforcement learning,RL) 项目。今年 2 月,AReaL 发布了第一个开源版本 AReaLv0.1,首次发布包含了基于 AReaL 系统的可复现实验,涵盖 1.5B 和 7B 参数的大推理模型,并在多种计算预算下进行了验证。一个月后,AReaLv0.2 版(即 AReaL-boba)便在上个版本上完成了重要更新,再次证明了 RL Scaling 的价值,加速了推理模型的能力发展。

AReaL-boba 通过优化训练流程,显著提升了推理模型训练速度。相比上一代框架,其在 1.5B、7B、32B 模型上的训练速度分别提升 35%、60%、73%。该框架支持大规模分布式训练,例如使用 128 张 H800 GPU 可在 1 天内完成 1.5B 模型训练,256 张 H800 GPU 可在 2 天内完成 7B 模型训练。此外,AReaL-boba 集成了被顶尖大模型 Grok2 采用的高性能推理框架 SGLang,进一步提升了推理效率。

AReaL-boba 的 7B 模型基于 Qwen-R1-Distill-7B 进行强化学习训练,在 AIME 2024 和 2025 测试中分别取得 61.9 分和 48.3 分,刷新了开源社区记录。通过数据蒸馏技术,AReaL-boba 低成本高效复现了接近 QwQ-32B 模型的效果(AIME 2024 得分 78.8 分,接近 QwQ-32B 的 78.9 分)。

AReaL-boba 的推出标志着强化学习训练框架在效率、性能和可扩展性上的突破,也为开发者提供了高效、低成本的解决方案,加速了推理模型的发展。

据了解,蚂蚁和清华组成的 AReal 研发团队计划持续开源训练代码、数据集及流程,并将优化异步训练、吞吐性能,升级数据集和算法,进一步提升框架能力。

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。