Heart of Machine报告主编:张倩 在LLM领域,扩展强化学习的计算能力正在成为一个重要的研究范式。然而,为了理解强化学习的缩放定律到底是什么,一些重要的问题仍然没有得到解答。什么是规模值? RL 真的能按预期扩展吗?为了回答这些问题,Meta 和其他机构的研究人员进行了看似昂贵的实验。换句话说,通过使用40万个GPU小时来运行RL训练“说明书”,强化学习后的训练不再是偶然的问题,训练效果是可预测的。作者表示,强化学习的最新进展主要来自对特定算法的个体研究和个体模型的训练报告。这些研究通常提供特定任务的解决方案,但没有提供一组可以通过计算能力扩展的通用技术。缺乏系统的标度理论严重限制了研究进展。在由于缺乏可靠的方法来先验地识别有前景的强化学习候选者,研究人员不得不诉诸大多数学术团队无法参与的昂贵的大规模实验。本研究旨在通过在预训练阶段利用已经成熟的“缩放法则”概念,为强化学习缩放奠定科学基础。虽然预训练领域已经开发出了稳定且可扩展的计算能力的算法范式,但强化学习领域缺乏明确的标准。因此,强化学习研究人员面临着许多设计选择,但两个最基本的问题很难回答:“我们如何扩展?”和“我们爬什么?”文章标题:LLM 强化学习计算的扩展艺术文章链接:https://arxiv.org/pdf/2510.13786 为了解决这个问题,作者提出了一个预测框架来表征 RL 性能和计算能力之间的关系,如方程(1)所示。设置于用于训练计算能力的相关协方差验证 (C)。曲线中的参数A代表渐近性能的上限,B代表算力效率,C_mid决定性能曲线的中点。图 3 描述了这些参数。等式(1)的框架允许研究人员基于小规模的实验结果来估计更高计算能力的性能,从而在不耗尽计算能力预算的情况下评估强化学习技术的可扩展性。在这个框架中,作者设计了 ScaleRL,这是一种 RL 训练方法,可以根据计算能力进行可预测的扩展。在一项耗时 100,000 个 GPU 小时的广泛实验中,我们验证了 ScaleRL 的性能与框架预测的曲线非常匹配(图 1)。更重要的是,从初始训练数据推断出的曲线也可以准确地预测最终性能,即使它只提供了一个好处。这表明该框架的预测能力具有非常大的计算能力。 ScaleRL 的设计基于超过 400,000 个 GPU 小时的系统实证研究(在 Nvidia GB200 GPU 上执行)。本研究考虑了 8B 参数比例模型的多种设计选项,每个实验使用大约 16,000 个 GPU 小时。这比全面实验便宜大约 6 倍。这项研究总结了三个关键原则: 限制 卓越的 RL 性能并不具有普遍性。计算功率缩放时,不同的方法有不同的性能限制(A 值)。该上限可以通过损失函数类型和批量大小等设计选项进行调整。接受“惨痛的教训”。在少量计算能力下运行良好的方法在扩展到大量计算能力时可能表现不佳(参见图 2)。通过在训练开始时使用方程的框架估计参数 A 和 B,可以提前确定真正可扩展的方法。重新审视一个常见的经验法则:许多被认为可以提高峰值性能的技术(丢失聚合、数据流、持续时间惩罚、边缘归一化等)主要影响计算效率 (B),而不是最终性能的上限。基于这种见解,ScaleRL 集成了现有的、经过验证的方法来实现可预测的扩展,而不是引入新的算法。具体来说,它结合了异步管道强化学习结构、生成长度中断机制、截断重要性采样强化学习损失(CISPO)、基于提示的损失平均、批量级域归一化、FP32精度logit、零方差过滤和非正重采样策略。每个组件的功能均通过“留一法”消融实验进行验证,每个实验需要大约 16,000 个 GPU 小时。 ScaleRL 不仅可以稳定扩展,而且在性能和效率方面优于现有的 RL 公式。此外,即使作者在多个训练维度上提高计算能力(例如,2.5倍批量大小、更长的生成持续时间、多RLitarea、更大的混合专家模型),ScaleRL仍然可以保持预测一致性并继续提高后续任务的性能。总的来说,这项研究建立了一种严格且可量化的方法,使研究人员能够以更具成本效益的方式预测新强化学习算法的可扩展性。本文是第一篇关于强化学习扩展到法学硕士的大规模开源系统研究。内容很详细,结论足以作为参考。因此,Ai2 科学家 Nathan Lambert 等人。该文件的详细内容如下。 RL 扩展的综合实验 作者使用密集 8B 模型对可测试的数学问题进行强化学习实验。如图3所示,计算缩放行为方面有几个设计维度。l预期,na仅是渐近性能效率(A)和计算效率(B)。异步强化学习设置 作者首先考虑一个离策略异步强化学习训练框架。这是因为离策略异步 RL 训练结构决定了训练稳定性和计算效率,并且通常独立于其他设计选择。具体来说,作者比较了两种离策略学习方法:PPO-off-policy-k 和 PipelineRL-k。如图4a所示,PipelineRL和off-policy PPO具有相似的最终性能限制(A),但PipelineRL显着提高了计算能力的效率(B)。这意味着您可以更快地达到 A 性能上限。这是因为 PipelineRL 减少了训练期间的 GPU 空闲时间。这种结构使我们能够用更少的代币获得稳定的利润,使我们能够在有限的算力预算下完成大规模的实验。作者还改变了最大的政策外参数er k 的 PipelineRL 发现当 k = 8 时实现最佳性能(见图 4b)。因此,我们使用PipelineRL-8作为后续实验的基本配置。算法设计选择 基于上述结果,作者确立 PipelineRL-8 作为新的参考方法,并进一步考虑了以下 6 个算法设计维度: 损失函数类型 精度校正 损失聚合方法 优点 归一化批量定义方法 数据课程策略 损失函数类型 图 5a 表明,GSPO 和 CISPO 的表现均明显优于 DAPO,最终批准 A 的比率显着提高。作者将 eliCISPO 基因作为 ScaleRL 的最佳损失类型,因为它在训练过程中具有增加的线性回报趋势,并且在后期略优于 GSPO。 LLM logit 的 FP32 精度如图 5b 所示。在logit层使用精度校正可以将最终性能A从0.52t显着提高0.61。为了实现这一明显的改进,作者将 FP32 精度修复纳入了 ScaleRL 配方中。损失聚合方法 作者比较了不同的损失聚合策略。结果表明,Boosted averaging 实现了最佳的最终性能(图 14a),因此 ScaleRL 采用该方法作为默认选项。主导标准化 作者比较了三种主导标准化策略:请求级别、批量级别和无标准化。图 14b 的结果表明,虽然三者的性能相似,但批量级归一化理论上更合理,并且略优于其他选项。在随后的大规模许可实验中,这一选择在没有实验的情况下得到了进一步验证。零方差过滤(Zero Variance Filtering) 图6a的结果表明,通过使用“高效批处理”(即过滤零奖励方差的样本)可以获得更好的最终性能,因此作者采用了这种ScaleRL 中的策略。自适应警报过滤 已经提出了几种数据流策略来提高采样效率。作者根据中心观察评估了简单的变化,即即使信号对于当前策略来说变得太容易了,但信号通常仍然很容易。这些提示仍然消耗计算能力,但最好从后续训练中删除,因为它们不再提供有价值的梯度信号。作者的实现保持了每个请求之前的批准率,并且如果请求的批准率大于或等于0.9,则在后续的训练周期中永久删除它。我们称这种策略为非正重采样。图 6b 显示,与传统的“对所有建议进行统一重采样”的方法相比,该课程策略可以显着提高 RL 的可扩展性和最终奖励 A。然后,我们将这些最优选择集成到一个统一的 RL 配方中,称为 ScaleRL(可扩展强化学习)和 p进行 16,000 GPU 小时规模的留一消融实验。 ScaleRL:强化学习的计算能力是否高效?可以预见地扩大。基于之前设计轴研究的结果,作者将最佳性能配置整合到一个统一的公式中,称为ScaleRL(Scalable RL)。 ScaleRL 是一种异步强化学习方案。其主要特点包括使用PipelineRL框架和建立8步策略。使用基于中断的长度控制策略实现序列截断。使用 FP32 精度进行 Logit 计算。 J_ScaleRL (θ) 优化损失函数。该损失函数结合了以下主要设计: 快速级别损失聚合 批量级别优势 归一化截断重要性采样 REINFORCE 损失(CISPO) 零方差过滤 无正重采样 为了验证上述设计组合后的有效性,作者进行了留一法(LOO)实验。钍实验结果(如图 7 所示,规模均为 16,000 GPU 小时)表明,ScaleRL 始终是所有设计轴上的最佳配置,并且在净效益和计算效率方面略胜于单一消除变体。跨不同计算维度的可预测强化学习回报缩放维度(例如上下文长度、批量大小、每个芯片的代数和模型大小)能否通过固定或增加的计算预算产生最可靠的性能增益?我们能多快预测这种回报?作者采取以下步骤来回答这个问题。我们在训练的早期阶段将每种配置的饱和幂律曲线拟合到方程(1)(更准确地说,使用目标计算预算的一半)。将此曲线推断为您的目标 IT 预算。继续训练以验证您的预测。在下面描述的所有尺度轴上,他们通过外推法观察到清晰且可预测的曲线拟合。经过长时间训练后,离子与实际轨迹吻合良好。这与作者在 100,000 小时的 GPU 训练期间观察到的行为(图 1)以及不同 RL 配方之间的比较实验(图 2)一致。模型大小 (MoE) 对于较大的模型,ScaleRL 是否可预测且稳定?当作者使用 ScaleRL 训练 MoE Scout Llama-4 17Bx16 模型时,结果显示与 8B 模型相同的可预测缩放行为、低截断率,并且没有训练不稳定问题。图 1 显示了训练曲线。通过扩展训练获得的额外数据点与初始拟合曲线一致,表明ScaleRL配方在模型尺度上具有模型尺度不变性。此外,大型 17B × 16 MoE 模型表现出无症状性能。otic RL 比密集 8B 模型大得多,仅使用后者 1/6 的 RL 训练计算能力。世代长度 增加世代长度从 14,000 个 token 到 32,000 个 token 会减慢训练初始阶段的进度(即 B 变小,C_mid 变高),但最终会增加调整曲线 A 的上限,从而在提供足够的计算能力后获得更高的最终性能(见图 9)。这表明长上下文强化学习是一种“提高性能天花板”的方法,而不仅仅是效率的权衡。根据初始训练拟合的外推曲线可以准确预测 32,000 个令牌训练扩展阶段的性能。全局批量大小 作者观察到,尽管分布内验证集的性能仍然有所提高,但小批量训练在tasks.s上过早停止。相反,随着批次的增长,性能 A 的上限稳步增加并防止这种停滞。图 10a 显示了中等规模实验的相同趋势。训练初期,小批量似乎工作得更好,但随着计算能力的增加,更大的批次最终会工作得更好。本文最重要的数学任务(参见图 1)是确定批量大小。增加到 2048 不仅可以稳定训练,还可以让我们准确地将拟合曲线从 50,000 GPU 小时推断到 100,000 小时的最终结果。如果每条消息的总批量大小是固定的,那么为每条消息分配更多的消息或更多的生成时间是更好吗?将每条消息生成的次数转换为: 结果表明,当我们通过在 8、16、24 和 32 之间设置并相应调整消息数量来设置总批量大小时,拟合的缩放曲线基本保持不变。这表明,对于中等批量大小,此分配对于性能 (A) 和效率 (B) 限制都是次要的。作者推测,随着批次的增加(例如大于 2000),差异可能会变得更加明显。这迪反应留待未来研究。更多详情请参阅原始文档。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易好社交平台用户上传发布。iales仅提供信息存储服务。