RL算法推导!PPO -> GRPO -> DAPO -> GSPO -> SAPO
RL算法推导PPO - GRPO - DAPO - GSPO - SAPO在小说阅读器中沉浸阅读原文https://zhuanlan.zhihu.com/p/1986141224588027138在DPO(Direct Policy Optimizatio)之后后续的典型工作发展路线为GRPO - DAPO - GSPO - SAPO在有PPO的理论推导基础后这些论文的理论推导过程就会容易很多。1. GRPO 相比PPO的改进有哪些首先PPO的优化目标为GRPO的优化目标其中其采用组采样的方式和基于规则的reward函数也能够像DPO仅加载两份模型即Actor和参考文献 Model从而在训练参数量比较大的模型时有效降低显存的占用好坏样本的覆盖程度则依赖于Rollout过程当Rollout采样的过程足够多时可以假设它能够覆盖大部分情况。从上述角度来讲想要覆盖大部分case的数据组织成本要比DPO小很多个人猜测是目前GRPO系列方法比较流行的一个原因该方法的核心在于组采样。但在实际训练时比较耗费时间的为Rollout阶段。2. DAPO 相比GRPO的改进有哪些其优化目标如下其中 和前面保持一致其不同地方则用红色显示如下为DAPO的具体改进点归一化系数对应论文中的Token-Level Policy Gradient Loss: 这里采用全局token系数进行归一化使得在处理组内长度回复差异较大时梯度会更稳定点。非对称裁剪对应论文中的Clip-Higher): 更精细地控制策略的更新程度。Dynamic Sampling: 直接丢弃掉采样后奖励值为0或1的样本 当组内所有采样结果相同时此时按照上式计算得到的优势为0即不能带来有效梯度更新。刚开始训练时会有较大可能出现组内奖励值全0的情况训练阶段后期则会有较大可能出现组内奖励值全1的情况为了提升Rollout阶段的采样效率直接选择丢弃奖励值为0或1的样本。Overlong Reward Shaping: 该改进并没有在DAPO的优化目标中体现在GRPO训练时可能会出现当Rollout输出达到预先设置的最大长度时仍没有输出有效结果此时计算的奖励值为0。为了降低模型输出时的思考长度则在输出长度方面增加一个对应软惩罚3. GSPO 相比GRPO有哪些改进优化目标如下其中该优化目标相比GRPO仅改变了重要性采样的系数其相比GRPO采样系数用的是整条句子的概率情况而不是单token概率这点对于MoE模型RL训练十分有帮助。对于单token概率可能存在Rollout Engine和 Model Engine选择的专家路由差异因此往往需要通过Routing Reply机制来确保两种Engine在同样的样本选择的路由保持一致。一个稍微有意思的点在LLM进行预训练时需要观察模型在训练预料的PPL(文本困惑度)是否呈现出下降趋势PPL的公式与上述公式极为相似对于一个序列其困惑度的定义如下将PPL的定义带入 则有 对于正样本希望 较大即对应到 减小 增大。4. SAPO 相比GRPO和GSPO有哪些改进其优化目标如下其中其相比GRPO将clip操作替换为上述软控制其具有如下特点• token级别的软信任区域token级别具有更细的控制力度。• 非对称温度设计对于正负token则采取不同的操作。Reference1. DeepSeekMath(GRPO): https://arxiv.org/pdf/2402.03300 2. DAPO: https://arxiv.org/pdf/2503.14476 3. GSPO: https://arxiv.org/abs/2507.18071 4. SAPO: http://arxiv.org/pdf/2511.20347

相关新闻

收藏!程序员必看:拥抱大模型,破解职业困境抢占高薪先机

收藏!程序员必看:拥抱大模型,破解职业困境抢占高薪先机

当下的程序员群体,正遭遇着前所未有的职业瓶颈与不确定性。行业格局的快速迭代,让不少从业者陷入了“不转型就淘汰”的焦虑之中。 就在近日,一位就职于一线互联网大厂的技术同仁,在行业交流社群中分享了一则扎心消息:…

2026/7/3 19:04:07 阅读更多 →
收藏!2026年普通人转大模型实战指南:避开坑、选对路、落地变现

收藏!2026年普通人转大模型实战指南:避开坑、选对路、落地变现

站在2025年的时间节点回望,AI大潮已澎湃两年。这期间,流量风口迭代不息,岗位JD频繁更新,各大厂商的大模型更是以日为单位迭代升级,但有一个核心事实始终未变:真正能落地产生价值的技术逻辑与岗位需求&#…

2026/7/3 19:04:09 阅读更多 →
【收藏级】AI Agent落地实战指南:三大核心技术+全流程拆解,程序员快速上手大模型应用

【收藏级】AI Agent落地实战指南:三大核心技术+全流程拆解,程序员快速上手大模型应用

本文系统拆解可靠高效AI Agent应用的构建逻辑,聚焦开发者必备的三大核心竞争力——提示词工程(系统提示词构建与精细化优化)、工作流设计(DSL结构化描述的优势及落地)、知识库构建(RAG技术与向量数据库实操…

2026/7/3 19:04:17 阅读更多 →

最新新闻

2026 最新 GPT 充值完整教程:从基础权益到 Pro 顶配升级,解锁全部 AI 高阶能力

2026 最新 GPT 充值完整教程:从基础权益到 Pro 顶配升级,解锁全部 AI 高阶能力

2026 最新 GPT 充值完整教程:从基础权益到 Pro 顶配升级,解锁全部 AI 高阶能力随着大模型技术持续迭代,GPT 全系功能不断更新,免费版本的算力配额、模型能力、使用场景限制越来越明显。无论是日常办公、文案创作、学术研究&#x…

2026/7/6 3:18:02 阅读更多 →
第五次作业提交

第五次作业提交

CSDN博客完整文章## 一、实验环境 远程连接工具:Xshell 操作系统:Ubuntu Linux 实验说明:所有命令均在Xshell终端实操,配套运行截图记录结果,梳理完整命令知识框架。 第一部分:Shell文本处理命令知识框架 1…

2026/7/6 3:18:02 阅读更多 →
密码学在区块链技术中的应用研究

密码学在区块链技术中的应用研究

开篇前言大家好,本次密码学与信息安全课程设计围绕密码学在区块链技术中的应用完成完整调研、方案设计与验证。很多人只知道区块链是分布式账本,却不知道整套区块链可信体系完全建立在各类密码学原语之上。 本文严格按照课程设计目录完整展开&#xff0c…

2026/7/6 3:18:02 阅读更多 →
Window11安装Wsl2及Ubuntu22.04

Window11安装Wsl2及Ubuntu22.04

建议所有安装下载的操作在运行代理时执行Win R 输入 optionalfeatures 勾选 [适用于Linux的Windows子系统] 和 [虚拟机平台]2. 重启3. Win X 打开管理员终端输入 wsl --install 安装 wsl此时执行wsl -l -o 可能无法看到 Ubuntu--22.04,只能看到Ubuntu,…

2026/7/6 3:16:02 阅读更多 →
UDS 29服务实战:CANoe 16.0配置PKI证书实现双向认证3步验证

UDS 29服务实战:CANoe 16.0配置PKI证书实现双向认证3步验证

UDS 29服务工程实践:基于CANoe 16.0的PKI双向认证全流程解析 在汽车电子诊断领域,随着车辆网联化程度不断提升,传统基于种子-密钥机制的安全认证方式已无法满足现代车辆的安全需求。ISO 14229-2020标准引入的29服务(Authenticatio…

2026/7/6 3:16:02 阅读更多 →
Linux内核模块与字符设备驱动开发入门:从Hello World到稳定运行

Linux内核模块与字符设备驱动开发入门:从Hello World到稳定运行

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 你有没有过这样的经历:想给一块新买的硬件写个驱动,翻遍了官方文档,却发现那些晦涩的内核API、复杂…

2026/7/6 3:16:02 阅读更多 →

日新闻

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2 与 MySQL 单元测试兼容性:5 个关键 SQL 语句差异与规避方案

H2与MySQL单元测试兼容性:5个关键SQL语句差异与规避方案1. 单元测试中的数据库兼容性挑战在Java开发领域,单元测试是保证代码质量的重要环节。当应用涉及数据库操作时,测试环境的搭建往往成为开发者的痛点。H2数据库因其轻量级、内存模式和快…

2026/7/6 0:01:17 阅读更多 →
Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘

Windows任务栏终极清理指南:用RBTray一键隐藏窗口到系统托盘 【免费下载链接】rbtray A fork of RBTray from http://sourceforge.net/p/rbtray/code/. 项目地址: https://gitcode.com/gh_mirrors/rb/rbtray 你是否厌倦了Windows任务栏上密密麻麻的图标&…

2026/7/6 0:01:17 阅读更多 →
Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C++ 运行时库一键安装终极指南:告别DLL缺失烦恼

Visual C 运行时库一键安装终极指南:告别DLL缺失烦恼 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的情况:下载了…

2026/7/6 0:05:19 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻