【算法详解】强化学习算法:GRPO
GRPO是一种为节省强化学习训练成本而采用的策略优化方法。它摒弃了通常与策略模型大小相同的评论家模型critic model而是通过对一组输出进行评分来估计基线baseline。其核心机制是通过生成多样化的候选输出然后使用预定义的奖励函数评估这些输出并选择高质量回答进行学习。与传统的强化学习方法相比,GRPO特别适合解决语言模型中的稀疏奖励问题,能更有效地探索输出空间。在DeepSeek-R1系列开发中,GRPO作为主要训练框架,促使模型逐步形成复杂的推理能力。GRPO的优势在于它允许模型在训练过程中自然发展推理行为,而不依赖于人工标注的推理链。具体来说,对于每个问题 q,GRPO从旧的策略πθold\pi_{\theta_{\text{old}}}πθold​​中采样一组输出{o1,o2,...,oG}\{o_1, o_2, ..., o_G\}{o1​,o2​,...,oG​}然后通过最大化以下目标函数来优化策略模型πθ\pi_{\theta}πθ​JGRPO(θ)Eq∼P(Q),{oi}i1G∼πθold(O∣q)[1G∑i1G(min⁡(πθ(oi∣q)πθold(oi∣q)Ai,clip(πθ(oi∣q)πθold(oi∣q),1−ϵ,1ϵ)Ai)−βDKL(πθ∣∣πref))] \mathcal{J}_{\text{GRPO}}(\theta) \mathbb{E}_{q \sim P(Q), \{o_i\}_{i1}^G \sim \pi_{\theta_{\text{old}}}(O|q)} \left[ \frac{1}{G} \sum_{i1}^{G} \left( \min\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}A_i, \text{clip}\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{\text{old}}}(o_i|q)}, 1-\epsilon, 1\epsilon\right)A_i\right) - \beta \mathbb{D}_{KL}(\pi_{\theta} || \pi_{\text{ref}}) \right) \right]JGRPO​(θ)Eq∼P(Q),{oi​}i1G​∼πθold​​(O∣q)​[G1​i1∑G​(min(πθold​​(oi​∣q)πθ​(oi​∣q)​Ai​,clip(πθold​​(oi​∣q)πθ​(oi​∣q)​,1−ϵ,1ϵ)Ai​)−βDKL​(πθ​∣∣πref​))]其中ϵ\epsilonϵ和β\betaβ是超参数,AiA_iAi​是优势函数advantage, 使用组内每个输出对应的奖励{r1,r2,...,rG}\{r_1, r_2, ..., r_G\}{r1​,r2​,...,rG​}计算得出Airi−mean(r1,r2,…,rG)std(r1,r2,…,rG) A_i \frac{r_i - \text{mean}(r_1, r_2, \dots, r_G)}{\text{std}(r_1, r_2, \dots, r_G)}Ai​std(r1​,r2​,…,rG​)ri​−mean(r1​,r2​,…,rG​)​KL散度惩罚项DKL\mathbb{D}_{KL}DKL​的计算方式如下DKL(πθ∣∣πref)πref(oi∣q)πθ(oi∣q)−log⁡πref(oi∣q)πθ(oi∣q)−1 \mathbb{D}_{KL}(\pi_{\theta}||\pi_{ref}) \frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)} - \log\frac{\pi_{ref}(o_{i}|q)}{\pi_{\theta}(o_{i}|q)} - 1DKL​(πθ​∣∣πref​)πθ​(oi​∣q)πref​(oi​∣q)​−logπθ​(oi​∣q)πref​(oi​∣q)​−1GRPO算法的完整流程如下首先对于给定的一个问题prompt当前策略模型会生成一组G个不同的候选输出。然后一个或多个预定义的奖励函数会分别评估这G个候选输出的质量并为每个输出给出一个奖励分数。接着利用同一组内的所有奖励分数计算出均值和标准差从而为每个候选输出计算出其标准化的“优势”Advantage这个值衡量了该输出相对于组内平均表现的好坏程度。最后根据这个优势信号GRPO算法会更新策略模型的参数目标是提高生成高奖励输出的概率同时通过KL散度惩罚项防止新策略与一个固定的参考策略偏离过远以保证训练的稳定性。无需额外的价值函数: GRPO使用组内平均奖励作为基线,避免了训练额外的价值函数,从而减少了内存和计算负担。与奖励模型的比较性质对齐: GRPO 使用组内相对奖励计算优势函数,这与奖励模型通常在同一问题的不同输出之间进行比较的性质相符。KL 惩罚在损失函数中: GRPO直接将训练策略和参考策略之间的KL散度添加到损失中,而不是像 PPO 那样在奖励中添加KL惩罚项,从而避免了复杂化计算。

相关新闻

Pt-archiver清理Mariadb旧数据实践案例

Pt-archiver清理Mariadb旧数据实践案例

环境信息机器IP组件描述组件版本环境信息10.13.240.254pt-archiver3.6.0服务机10.13.222.3Mariadb10.6.21数据库安装pt-archiver # 安装 Percona 官方仓库 sudo yum install https://repo.percona.com/yum/percona-release-latest.noarch.rpm# 启用 Percona Toolkit 仓库 sudo …

2026/5/17 11:06:05 阅读更多 →
Oracle与MySQL数据库运行状态快速检查指南

Oracle与MySQL数据库运行状态快速检查指南

数据库运行状态检查不能只看“进程在不在”,而要从操作系统层面和数据库层面两方面综合判断。 操作系统正常,只能说明宿主环境基本可用;数据库查询正常,才能说明实例或服务真正处于可用状态。一、Oracle数据库正常吗?运…

2026/5/17 3:50:09 阅读更多 →
中年男人去哪都要开车?

中年男人去哪都要开车?

对于许多中年男人而言,车不仅仅是一个交通工具,更是一个移动的避难所,一个完全属于自己的私密空间,甚至是他们对抗生活重压的最后防线。通过网盘分享的文件:麒麟kylin linux 安装CDH v7.1指南链接:https://pan.baidu.c…

2026/5/17 8:03:52 阅读更多 →

最新新闻

泉州团建策划公司推荐:新中企全流程执行适合何种团队

泉州团建策划公司推荐:新中企全流程执行适合何种团队

泉州地区大型团建的执行难点与一站式服务价值在策划几十人甚至上百人的大型团队活动时,组织者的核心挑战往往不在于创意本身,而在于现场执行的颗粒度与多方资源的统筹能力。传统的碎片化服务模式中,企业需要分别对接场地、教练、餐饮及摄影摄…

2026/7/3 6:37:48 阅读更多 →
【新手友好 AI】 部署方案,OpenClaw v2.7.9 解压即用完整步骤(含安装包)

【新手友好 AI】 部署方案,OpenClaw v2.7.9 解压即用完整步骤(含安装包)

OpenClaw v2.7.9 图形化安装指南|Win10/11 64 位本地 AI 智能体搭建 适配系统范围 Windows 10、Windows 11 64 位操作系统,全系列版本均可兼容运行 工具介绍 OpenClaw v2.7.9 是面向 Windows 桌面端打造的本地 AI 智能工具,采用纯图形化安…

2026/7/3 6:35:47 阅读更多 →
深度实践:在Apple Silicon Mac上部署原生Android测试环境的完整解决方案

深度实践:在Apple Silicon Mac上部署原生Android测试环境的完整解决方案

深度实践:在Apple Silicon Mac上部署原生Android测试环境的完整解决方案 【免费下载链接】android-emulator-m1-preview 项目地址: https://gitcode.com/gh_mirrors/an/android-emulator-m1-preview 问题痛点分析:ARM架构迁移中的Android开发困境…

2026/7/3 6:35:47 阅读更多 →
Claude Code 的五级压缩流水线

Claude Code 的五级压缩流水线

Claude Code 的五级压缩流水线:由轻到重的上下文管理艺术 引言:每个 AI Agent 都绕不开的“桌面困境” 想象你有一张固定大小的办公桌(上下文窗口),随着工作时间拉长,各种文件、资料、草稿纸会不断堆上来&a…

2026/7/3 6:35:47 阅读更多 →
如何5分钟搭建个人网易云音乐API服务:完整指南与实战教程

如何5分钟搭建个人网易云音乐API服务:完整指南与实战教程

如何5分钟搭建个人网易云音乐API服务:完整指南与实战教程 【免费下载链接】NeteaseCloudMusicApiBackup https://www.npmjs.com/package/NeteaseCloudMusicApi 项目地址: https://gitcode.com/gh_mirrors/ne/NeteaseCloudMusicApiBackup 你是否曾经想要开发一…

2026/7/3 6:31:47 阅读更多 →
(bug)vscode的设置问题

(bug)vscode的设置问题

1.文件显示 问题:之前不小心修改了某些设置,导致只能显示单个文件。 方案:在设置界面,修改如下图所示的属性为multiple。2.ctrl无法跳转 问题:服务器ctrl左键无法跳转。 方案:通过下载如下的插件。3.服务器…

2026/7/3 6:29:47 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻