96SEO 2026-02-19 22:42 14
examples/ppo_trainer/README.md

近端策略优化(Proximal
Optimization,PPO)是一类用于强化学习的策略梯度方法,由
应用(包括大规模语言模型微调)中最广泛使用的算法之一。
像
使用一种裁剪后的替代目标函数来解决这个问题,该函数避免了过大的更新,同时不需要二阶导数。
关于
来计算优势值,这有助于在保持低偏差的同时减少策略梯度估计的方差。
的核心是通过裁剪后的替代目标函数实现的,该函数限制了策略更新。
src="https://github.com/user-attachments/assets/16aebad1-0da6-4eb3-806d-54a74e712c2d"
data.train_batch_size:用于生成一组采样轨迹/rolloutactor_rollout.ref.rollout.n。
actor_rollout_ref.actor.ppo_mini_batch_size:采样得到的轨迹集被分割成多个大小为ppo_mini_batch_size
的更新。
ppo_mini_batch_size
critic.ppo_mini_batch_size:采样得到的轨迹集被分割成多个大小为ppo_mini_batch_size
的更新。
ppo_mini_batch_size
actor_rollout_ref.actor.clip_ratio:PPOactor_rollout_ref.actor.ppo_epochs:在一组采样轨迹上对critic.ppo_epochs:在一组采样轨迹上对actor_rollout_ref.actor.ppo_epochs。
algorithm.gamma:折扣因子。algorithm.lam:在algorithm.adv_estimator:支持gae、grpo、reinforce_plus_plus、reinforce_plus_plus_baseline、rloo、rloo_vectorized(似乎
actor_rollout_ref.actor.use_kl_loss:是否在actor_rollout_ref.actor.kl_loss_coef:KLactor_rollout_ref.actor.kl_loss_type:支持kl(k1)、abs、mse(k2)、low_var_kl(k3)
进行无偏梯度估计(更多细节请参阅:https://github.com/volcengine/verl/pull/2953#issuecomment-3162113848)。
用于计算
散度的方法。
有关详细分析,请参阅此博客文章:http://joschu.net/blog/kl-approx.html。
algorithm.use_kl_in_reward:是否启用奖励内部的algorithm.kl_penalty:支持kl(k1)、abs、mse(k2)、low_var_kl(k3)
kl_penalty。
有关详细分析,请参阅此博客文章:http://joschu.net/blog/kl-approx.html。
algorithm.kl_ctrl.kl_coef:奖励内部algorithm.kl_ctrl.type:'fixed'algorithm.kl_ctrl.horizon:有关详细信息,请参阅algorithm.kl_ctrl.target_kl:有关详细信息,请参阅引入了一种方法,当优势小于零时,对策略比率应用一个下限,使得当比率乘以一个较大的数时,不超过指定的下限。
src="https://github.com/user-attachments/assets/fc232181-d8b0-4307-8dd2-4dc0a4c1c139"
actor_rollout_ref.actor.clip_ratio_c:双重裁剪\actor_rollout_ref.rollout.tensor_model_parallel_size=1
\critic.model.path=Qwen/Qwen2.5-0.5B-Instruct
\actor_rollout_ref.model.path=Qwen/Qwen2.5-0.5B-Instruct
\actor_rollout_ref.actor.ppo_mini_batch_size=64
\actor_rollout_ref.actor.ppo_micro_batch_size=2
examples/grpo_trainer/README.md
在强化学习中,像
这样的经典算法依赖于一个“评论家”模型来估计动作的价值,从而指导学习过程。
然而,训练这个评论家模型可能非常耗费资源。
GRPO
通过消除对单独评论家模型的需求来简化这个过程。
它的运作方式如下:
这种方法通过避免训练单独的价值估计模型来减少计算开销,使学习过程更加高效。
更多详情,请参考原始论文
rollout,而是为每个提示从当前策略生成多个补全(响应)。
这组补全被称为一个组。
src="https://github.com/user-attachments/assets/16aebad1-0da6-4eb3-806d-54a74e712c2d"
actor_rollout.ref.rollout.n:每个提示的采样次数。
默认为
data.train_batch_size:用于生成一组采样轨迹/rollout
actor_rollout.ref.rollout.n。
actor_rollout_ref.actor.ppo_mini_batch_size:采样得到的轨迹集被分割成多个大小为
ppo_mini_batch_size
的更新。
ppo_mini_batch_size
actor_rollout_ref.actor.ppo_epochs:在一组采样轨迹上对
actor_rollout_ref.actor.clip_ratio:GRPO
algorithm.adv_estimator:默认为
actor_rollout_ref.actor.loss_agg_mode:默认为
"token-mean"、"seq-mean-token-sum"、"seq-mean-token-mean"。
原始的
论文采用样本级损失(seq-mean-token-mean),这在长思维链场景中可能不稳定。
verl
actor_rollout_ref.actor.use_kl_loss:是否在
actor_rollout_ref.actor.kl_loss_coef:KL
actor_rollout_ref.actor.kl_loss_type:支持
kl(k1),'k3+')将应用直通(straight-through)技巧,无论
进行无偏梯度估计(更多细节请参阅:https://github.com/volcengine/verl/pull/2953#issuecomment-3162113848)。
用于计算
散度的方法。
有关详细分析,请参阅此博客文章:http://joschu.net/blog/kl-approx.html。
存在优化偏差,会导致人为地生成长响应,尤其是在输出不正确的情况下。
这种低效率源于
使用基于组的奖励归一化来计算优势的方式,这可能会无意中偏向更长、准确度较低的响应。
相反,DrGRPO
actor_rollout_ref.actor.loss_agg_mode:设置为"seq-mean-token-sum-norm",这会关闭序列维度的平均。
actor_rollout_ref.actor.loss_scale_factor:(可选)设置为一个常数整数(例如,最大响应长度),以确保在整个训练过程中归一化一致。如果未设置,则使用当前批次的响应长度。
actor_rollout_ref.actor.use_kl_loss:对于algorithm.norm_adv_by_std_in_grpo:设置为examples/grpo_trainer/run_qwen3-8b.sh
更多参考性能,请参阅:https://verl.read***docs.io/en/latest/algo/baseline.html
class="post-meta-container">
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback