【算法详解】强化学习算法:GRPO
GRPO是一种为节省强化学习训练成本而采用的策略优化方法。它摒弃了通常与策略模型大小相同的评论家模型critic model而是通过对一组输出进行评分来估计基线baseline。其核心机制是通过生成多样化的候选输出然后使用预定义的奖励函数评估这些输出并选择高质量回答进行学习。与传统的强化学习方法相比,GRPO特别适合解决语言模型中的稀疏奖励问题,能更有效地探索输出空间。在DeepSeek-R1系列开发中,GRPO作为主要训练框架,促使模型逐步形成复杂的推理能力。GRPO的优势在于它允许模型在训练过程中自然发展推理行为,而不依赖于人工标注的推理链。具体来说,对于每个问题 q,GRPO从旧的策略πθold\pi_{\theta_{\text{old}}}πθold​​中采样一组输出{o1,o2,...,oG}\{o_1, o_2, ..., o_G\}{o1​,o2​,...,oG​}然后通过最大化以下目标函数来优化策略模型πθ\pi_{\theta}πθ​JGRPO(θ)Eq∼P(Q),{oi}i1G∼πθold(O∣q)[1G∑i1G(min⁡(πθ(oi∣q)πθold(oi∣q)Ai,clip(πθ(oi∣q)πθold(oi∣q),1−ϵ,1ϵ)Ai)−βDKL(πθ∣∣πref))] \mathcal{J}_{\text{GRPO}}(\theta) \mathbb{E}_{q \sim P(Q), \{o_i\}_{i1}^G \sim \pi_{\theta_{\text{old}}}(O|q)} \left[ \frac{1}{G} \sum_{i1}^{G} \left( \min\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}A_i, \text{clip}\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1-\epsilon, 1\epsilon\right)A_i\right) - \beta \mathbb{D}_{KL}(\pi_{\theta} || \pi_{\text{ref}}) \right) \right]JGRPO​(θ)Eq∼P(Q),{oi​}i1G​∼πθold​​(O∣q)​[G1​i1∑G​(min(πθold​​(oi​∣q)πθ​(oi​∣q)​Ai​,clip(πθold​​(oi​∣q)πθ​(oi​∣q)​,1−ϵ,1ϵ)Ai​)−βDKL​(πθ​∣∣πref​))]其中ϵ\epsilonϵ和β\betaβ是超参数,AiA_iAi​是优势函数advantage, 使用组内每个输出对应的奖励{r1,r2,...,rG}\{r_1, r_2, ..., r_G\}{r1​,r2​,...,rG​}计算得出Airi−mean(r1,r2,…,rG)std(r1,r2,…,rG) A_i \frac{r_i - \text{mean}(r_1, r_2, \dots, r_G)}{\text{std}(r_1, r_2, \dots, r_G)}Ai​std(r1​,r2​,…,rG​)ri​−mean(r1​,r2​,…,rG​)​KL散度惩罚项DKL\mathbb{D}_{KL}DKL​的计算方式如下DKL(πθ∣∣πref)πref(oi∣q)πθ(oi∣q)−log⁡πref(oi∣q)πθ(oi∣q)−1 \mathbb{D}_{KL}(\pi_{\theta}||\pi_{ref}) \frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)} - \log\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)} - 1DKL​(πθ​∣∣πref​)πθ​(oi​∣q)πref​(oi​∣q)​−logπθ​(oi​∣q)πref​(oi​∣q)​−1GRPO算法的完整流程如下首先对于给定的一个问题prompt当前策略模型会生成一组G个不同的候选输出。然后一个或多个预定义的奖励函数会分别评估这G个候选输出的质量并为每个输出给出一个奖励分数。接着利用同一组内的所有奖励分数计算出均值和标准差从而为每个候选输出计算出其标准化的“优势”Advantage这个值衡量了该输出相对于组内平均表现的好坏程度。最后根据这个优势信号GRPO算法会更新策略模型的参数目标是提高生成高奖励输出的概率同时通过KL散度惩罚项防止新策略与一个固定的参考策略偏离过远以保证训练的稳定性。无需额外的价值函数: GRPO使用组内平均奖励作为基线,避免了训练额外的价值函数,从而减少了内存和计算负担。与奖励模型的比较性质对齐: GRPO 使用组内相对奖励计算优势函数,这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符。KL 惩罚在损失函数中: GRPO直接将训练策略和参考策略之间的KL散度添加到损失中,而不是像 PPO 那样在奖励中添加KL惩罚项,从而避免了复杂化计算。

相关新闻

Pt-archiver清理Mariadb旧数据实践案例

Pt-archiver清理Mariadb旧数据实践案例

环境信息机器IP组件描述组件版本环境信息10.13.240.254pt-archiver3.6.0服务机10.13.222.3Mariadb10.6.21数据库安装pt-archiver # 安装 Percona 官方仓库 sudo yum install https://repo.percona.com/yum/percona-release-latest.noarch.rpm# 启用 Percona Toolkit 仓库 sudo …

2026/7/3 6:46:35 阅读更多 →
Oracle与MySQL数据库运行状态快速检查指南

Oracle与MySQL数据库运行状态快速检查指南

数据库运行状态检查不能只看“进程在不在”,而要从操作系统层面和数据库层面两方面综合判断。 操作系统正常,只能说明宿主环境基本可用;数据库查询正常,才能说明实例或服务真正处于可用状态。一、Oracle数据库正常吗?运…

2026/7/3 7:43:02 阅读更多 →
中年男人去哪都要开车?

中年男人去哪都要开车?

对于许多中年男人而言,车不仅仅是一个交通工具,更是一个移动的避难所,一个完全属于自己的私密空间,甚至是他们对抗生活重压的最后防线。通过网盘分享的文件:麒麟kylin linux 安装CDH v7.1指南链接:https://pan.baidu.c…

2026/5/17 8:03:52 阅读更多 →

最新新闻

Qwen3.5小模型全系实测:端侧可用、视觉通吃、推理可切的开源多模态方案

Qwen3.5小模型全系实测:端侧可用、视觉通吃、推理可切的开源多模态方案

1. 项目概述:为什么这次Qwen3.5小模型系列值得你立刻上手试一试?我用自己那台4060 8G显存锐龙7 8845HS24GB内存的笔记本,连续三天泡在LM Studio里,把Qwen3.5全系四款模型——0.8B、2B、4B、9B——从头到尾跑了个遍。不是简单点开对…

2026/7/3 7:42:06 阅读更多 →
简单粗暴地理解js原型链--js面向对象编程

简单粗暴地理解js原型链--js面向对象编程

人是人他妈生的,妖是妖他妈生的。人和妖都是对象实例,而人他妈和妖他妈就是原型。原型也是对象,叫原型对象。 2)人他妈和人他爸啪啪啪能生出一堆人宝宝、妖他妈和妖他爸啪啪啪能生出一堆妖宝宝,啪啪啪就是构造函数&…

2026/7/3 7:40:05 阅读更多 →
2026春招AI抢人大战:小白程序员如何抓住大模型红利,速收藏!

2026春招AI抢人大战:小白程序员如何抓住大模型红利,速收藏!

2026年春招AI岗位激增8.7倍,大厂纷纷抢占人才,AI科学家月薪破13万。文章分析了AI岗位暴涨的原因、大厂抢人策略及职场焦虑,指出AI能力已成为职场新技能,并探讨了AI人才抢夺战后的可能发展趋势。对于想要抓住AI红利的程序员&#x…

2026/7/3 7:40:05 阅读更多 →
从Unity场景搭建到IoT数据驱动:我的数字孪生入门路径分享

从Unity场景搭建到IoT数据驱动:我的数字孪生入门路径分享

本文分享一个非科班出身的开发者,如何在15天内走通数字孪生全流程,并附上技术栈拆解和学习建议。 写在前面 2026年,数字孪生赛道持续升温。全球市场规模预计达到339.7亿美元(Fortune Business Insights数据)&#xff0…

2026/7/3 7:38:04 阅读更多 →
Flash Attention 安装地狱六重崩溃:CUDA_HOME not set、undefined symbol、预编译轮子不兼容、pip 编译两小时失败——逐一击破

Flash Attention 安装地狱六重崩溃:CUDA_HOME not set、undefined symbol、预编译轮子不兼容、pip 编译两小时失败——逐一击破

Flash Attention 安装地狱六重崩溃:CUDA_HOME not set、undefined symbol、预编译轮子不兼容、pip 编译两小时失败——逐一击破 如果你在 pip install flash-attn 之后见过以下任何一条报错——这篇文章就是写给你的。Flash Attention 是 AI 推理加速最重要的依赖&a…

2026/7/3 7:38:04 阅读更多 →
B站缓存视频转换工具终极指南:3步拯救你的珍贵视频收藏

B站缓存视频转换工具终极指南:3步拯救你的珍贵视频收藏

B站缓存视频转换工具终极指南:3步拯救你的珍贵视频收藏 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾为B站缓存视频无法在…

2026/7/3 7:36:03 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻