百度SEO

百度SEO

Products

当前位置:首页 > 百度SEO >

山西大学在强化学习领域取得突破性进展了吗?

96SEO 2026-02-20 02:05 12


山西大学在强化学习领域取得突破性进展了吗?

style="text-align:

center">点击下方卡片,关注“CVer”公众号

style="text-align:

center">AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

style="text-align:

在离线强化学习研究中取得重要进展,相关成果以“Efficient

Offline

Constraint”为题于2026年1月被人工智能领域国际顶级会议International

Conference

是人工智能与机器学习领域的国际顶级学术会议,长期聚焦深度学习及表示学习的基础理论与方法创新,在全球学术界和工业界具有广泛而深远的影响力。

根据

Google

并称为机器学习领域的三大顶级会议。

据悉,ICLR

2026

28%,大会将于4月23日至4月27日在巴西里约热内卢举办。

该论文第一作者为中北大学张钰嘉博士,通讯作者为山西大学魏巍教授,同时得到了山西大学梁吉业教授的指导。

此外,山西大学李琳副教授,博士生吴建国以及马亿博士也为该研究做出了重要贡献。

论文链接:https://openreview.net/forum?id=bPWCIJyp1K

摘要

离线强化学习旨在从一份固定的离线数据集中学习最优策略,但由于学习策略与数据生成策略之间往往存在分布偏移,策略在真实环境中的效果容易出现显著退化。

现有方法通常通过行为策略正则化来约束新策略,使其尽量贴近数据分布;然而这类偏保守的约束在行为策略本身并不理想时,容易限制性能上限与泛化能力。

为此,本文提出同辈约束方法(Peer-Influenced

Constraint,

PIC),引入一种类似“同行评议”的决策约束机制:对当前状态,我们首先构建一组相似状态集合,并将这些相似状态下的历史动作作为候选动作集;随后从候选集中筛选更优动作,用以对策略更新施加约束。

该机制在近似保证策略仍处于数据分布支持范围的同时,帮助策略跳出局部最优,从而同时提升性能与泛化能力。

在此基础上,我们进一步提出集成同辈影响约束(Ensemble

Peer-Influenced

PIC,在保持较高训练效率的同时获得更强的整体表现。

此外,我们揭示了

PIC

与不确定性估计之间的“耦合效应”(Coupling

中约束机制与不确定性建模的交互关系提供了新的视角与启示。

我们在

D4RL

基准的经典连续控制任务上进行了系统评测,实验结果表明

PIC

均能取得与当前先进方法具有竞争力的性能表现。

贡献

  • style="text-align:

    left">提出了同辈约束,通过类似于“同行评议”机制构建候选动作集并选择最优动作以约束策略,有效提升了策略的泛化能力;

  • style="text-align:

    left">揭示了同辈约束与不确定性估计之间的耦合效应,进一步提出了集成同辈约束,在保持高效性的同时显著提高了策略性能;

  • style="text-align:

    方法在泛化能力和计算效率上的显著优势。

方法

Actor

的训练流程。

该流程共包括三个核心阶段:识别同辈状态、确定最优动作以及损失计算。

首先利用

KD-Tree

为给定状态识别同辈状态并从中确定最优动作,最后基于

PIC

同辈约束

受基于表征学习的强化学习和基于数据集约束的强化学习方法启发,这些方法通过将相似的状态或状态-动作对映射到相似的嵌入中来捕捉环境中的结构信息,而离线强化学习的数据集中通常包含丰富但未被有效利用的状态结构信息。

因此,引入数据集中的状态相似性来指导策略优化,成为提升策略泛化能力的关键。

为此,我们提出一种同辈约束机制,其核心思想类似于“同行评议”机制,通过构建同辈状态集合并从中动态选择最优动作,以显著提升策略泛化能力。

定义(同辈约束距离):对于数据集

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">中任意状态

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">以及待优化的策略

xmlns="http://www.w3.org/2000/svg"

-0.667ex;width:

scale(0.707)">

0)">

0)">,定义PIC距离为:

其中,

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

scale(0.707)">是从候选动作集

xmlns="http://www.w3.org/2000/svg"

-0.113ex;width:

scale(0.707)">中选择的最优动作。

最优动作

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

scale(0.707)">由下式确定:

其中,

xmlns="http://www.w3.org/2000/svg"

-0.579ex;width:

scale(0.707)">和

xmlns="http://www.w3.org/2000/svg"

-0.579ex;width:

scale(0.707)">分别由两个值函数网络估计的

值,这种双值函数结构有效避免了动作值估计中常见的高估问题。

具体地,候选动作集合

xmlns="http://www.w3.org/2000/svg"

-0.113ex;width:

scale(0.707)">由两部分构成:

  • style="text-align:

    xmlns="http://www.w3.org/2000/svg"

    -0.023ex;width:

    0)">在数据集中对应的动作集合;

  • style="text-align:

    xmlns="http://www.w3.org/2000/svg"

    -0.023ex;width:

    0)">最相似的

    xmlns="http://www.w3.org/2000/svg"

    0px;width:

    0)">个同辈状态对应的动作集合。

同辈状态的定义

xmlns="http://www.w3.org/2000/svg"

-0.666ex;width:

scale(0.707)">如下:

其中,

xmlns="http://www.w3.org/2000/svg"

-0.666ex;width:

0)">为已选择的

xmlns="http://www.w3.org/2000/svg"

-0.462ex;width:

0)">个同辈状态组成的集合。

由于数据集

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">中一个状态可能对应多个动作,因此候选动作集合

xmlns="http://www.w3.org/2000/svg"

-0.113ex;width:

scale(0.707)">的大小通常大于

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">。

通过上述构造方式,PIC充分挖掘了数据集中状态-动作之间的结构关联,突破了传统严格的一对一映射限制,使策略能够从更广泛的动作集合中选择最优动作,避免局部最优并有效提升泛化能力。

相比之下,TD3+BC\cite{TD3BC}则受限于严格状态-动作映射,易于陷入局部最优,泛化性不足。

算法具体实现:

/>PIC本质上是一个通用的离线强化学习组件,可灵活嵌入至任意的Actor-Critic类强化学习算法中。

为便于分析与验证,选择实现简单且实用的TD3作为基算法,提出了PIC-TD3算法。

/>具体的策略更新损失为:

其中,

xmlns="http://www.w3.org/2000/svg"

-0.667ex;width:

0)">,

xmlns="http://www.w3.org/2000/svg"

-1.655ex;width:

0)">为类似于TD3+BC中的自适应权重参数,其中超参数

xmlns="http://www.w3.org/2000/svg"

-0.025ex;width:

0)">控制强化学习目标与PIC约束项的权衡,

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">为PIC约束强度的调节系数。

该损失函数有效平衡了性能最大化与策略约束,实现了泛化的离线策略学习。

2.

集成同辈约束

尽管基于策略约束的方法计算高效,但基于不确定性估计的集成方法,如EDAC,在特定任务中往往表现更优。

然而,这类方法通常需要大量值函数网络,尤其在一些专家级数据集上。

因此,探索PIC与集成方法的结合,验证其对集成方法效率和泛化能力的提升具有一定意义。

为此,将PIC嵌入到EDAC中进行验证。

如图2所示,即使在集成规模较小时(如

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">,即最初的PIC-TD3形式),所提方法已取得良好性能,且随值函数数量

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">的增加,性能逐渐提升。

然而,当

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">过大(例如在hopper-medium环境中

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">或halfcheetah-expert中

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">)时,策略的收敛速度显著减慢,最终性能也有所下降。

此外,更高的PIC强度参数

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">能够有效降低达到相同性能所需的值函数数量,显著提升集成方法的计算效率。

/>

xmlns="http://www.w3.org/2000/svg"

0px;width:

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">对性能的影响

为了进一步分析上述现象,在hopper-medium-expert数据集中系统探究了不确定性度量指标与集成规模

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">及PIC强度

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">之间的关系。

具体地,在

hopper-medium-expert

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">下计算不确定性度量

xmlns="http://www.w3.org/2000/svg"

-0.439ex;width:

scale(0.707)">

xmlns="http://www.w3.org/2000/svg"

-0.439ex;width:

scale(0.707)">

xmlns="http://www.w3.org/2000/svg"

-0.65ex;width:

scale(0.707)">

0)">

scale(0.707)">

0)">

scale(0.707)">

随后,计算这些指标值并生成热力图,如图3所示。

/>

xmlns="http://www.w3.org/2000/svg"

0px;width:

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">对不确定性度量的影响

实验结果表明,固定集成规模

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">时,随着PIC强度

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">的增加,较小的集成规模能够维持对OOD动作的有效惩罚。

相反,在固定

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">时,增加值函数数量

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">也会提高不确定性。

对这一现象的分析表明,随着PIC强度增大,策略更多选择数据集中已有的动作,降低了动作值的高估现象,进一步导致

xmlns="http://www.w3.org/2000/svg"

-0.439ex;width:

scale(0.707)">

xmlns="http://www.w3.org/2000/svg"

-0.439ex;width:

scale(0.707)">下降,从而更有效地区分出OOD动作。

基于上述耦合效应,将

PIC

EDAC,提出了EPIC,该方法在保持高效计算的同时,生成了高性能且泛化的策略。

EPIC

的策略更新公式为:

其中,

xmlns="http://www.w3.org/2000/svg"

-0.566ex;width:

0)">为EDAC原始的策略损失:

xmlns="http://www.w3.org/2000/svg"

-0.7ex;width:

scale(0.707)">

0)">

0)">中的最优动作

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

scale(0.707)">为:

EPIC

EDAC

一致,在常规值函数更新公式中引入了集成相似性(Ensemble

Similarity,ES)项:

其中,

xmlns="http://www.w3.org/2000/svg"

-0.489ex;width:

0)">是超参数,

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">为集成规模。

ES

PIC的有效性,本文在大部分环境中统一设置

xmlns="http://www.w3.org/2000/svg"

-0.489ex;width:

0)">,未做特定环境的调节。

EPIC伪代码如下:

动作偏差对比

实验设置:PIC通过构建同辈状态动作候选集,能够选择潜在更优的动作。

为了评估不同方法与数据集中动作之间的差异,分别采样50万个随机的状态-动作对

xmlns="http://www.w3.org/2000/svg"

-0.566ex;width:

0)">,并计算各方法动作输出与数据集内动作之间的

距离

xmlns="http://www.w3.org/2000/svg"

-0.8ex;width:

scale(0.707)">

0)">

scale(0.707)">

实验结果如图4所示。

/>

实验结论:从实验结果可看出,PIC与EPIC的动作输出相比EDAC更加接近数据集中实际动作,有效抑制了OOD动作的产生。

同时,与CQL和PRDC方法相比,PIC和EPIC在降低动作偏差的基础上实现了更为多样化和潜在更优的动作选择,表现出更高的策略泛化性。

2.

D4RL基准上的性能对比

实验设置:分别在Gym-MuJoCo、AntMaze和Adroit三个经典D4RL离线强化学习任务集中,对PIC-TD3和EPIC算法进行了系统性的实验评估,各方法均训练100万步并记录其性能表现,对比结果如下表所示。

style="text-align:

任务上基于最终评估和五次实验的平均归一化得分

/>

实验结论:EPIC算法在绝大多数任务中显著优于各基线方法,表现出更快的收敛速度、更高的性能上限与泛化能力。

同时,PIC-TD3方法相较于非集成基线方法性能也明显更优,并与先进的集成方法(如EDAC)相当,这表明PIC机制本身具备强大的泛化性与稳定性。

3.

计算效率对比

center">图5:不同方法的训练时间对比

实验设置:计算效率是衡量离线强化学习算法实际应用价值的重要指标之一。

为评估

PIC-TD3、EPIC

所示。

实验结论:EPIC

通过利用同辈约束与集成方法的耦合效应,显著减少了所需值函数网络的数量,使其整体计算耗时与非集成的基线方法接近甚至更低。

4.

泛化性能对比

实验动机:PIC

算法的突出优势在于,通过充分挖掘数据集中状态间的相似性,能够利用相似状态(同辈状态)中的优质动作,引导策略学习到当前状态中未出现的潜在最优动作,从而实现更好的泛化性能。

为验证这一优势,我们设计了一个线性世界(Lineworld)环境,如图

/>

center">图6:线性世界示意图

Lineworld

环境与数据集设置:Lineworld

环境包含起始点

xmlns="http://www.w3.org/2000/svg"

-0.05ex;width:

0)">与目标点

xmlns="http://www.w3.org/2000/svg"

-0.05ex;width:

0)">

智能体在每个状态仅能选择两个动作:向左(动作值

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">)或向右(动作值

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">)。

只有持续向右移动才能到达目标并获得奖励。

为系统评估算法在不同数据分布下的泛化能力,我们构建了四个难度递增的数据集:

  • style="text-align:

    left">Lineworld-easy:动作

    xmlns="http://www.w3.org/2000/svg"

    -0.186ex;width:

    xmlns="http://www.w3.org/2000/svg"

    -0.186ex;width:

    xmlns="http://www.w3.org/2000/svg"

    -0.05ex;width:

    0)">;

  • style="text-align:

    left">Lineworld-random:动作

    xmlns="http://www.w3.org/2000/svg"

    -0.186ex;width:

    xmlns="http://www.w3.org/2000/svg"

    -0.186ex;width:

    0)">比例均衡;

  • style="text-align:

    left">Lineworld-medium:动作

    xmlns="http://www.w3.org/2000/svg"

    -0.186ex;width:

    xmlns="http://www.w3.org/2000/svg"

    -0.186ex;width:

    xmlns="http://www.w3.org/2000/svg"

    -0.05ex;width:

    0)">(分布偏向次优);

  • style="text-align:

    left">Lineworld-hard:除状态

    外,各状态动作

    xmlns="http://www.w3.org/2000/svg"

    -0.186ex;width:

    xmlns="http://www.w3.org/2000/svg"

    -0.186ex;width:

    xmlns="http://www.w3.org/2000/svg"

    -0.05ex;width:

    0)">(极度偏向次优),且状态

    仅包含动作

    xmlns="http://www.w3.org/2000/svg"

    -0.186ex;width:

    我们在上述数据集上对TD3+BC、BEAR、PRDC、PIC-TD3进行对比实验,结果见图7与表4。

/>

center">7:不同方法在四种线性世界数据集上的学习策略可视化

style="text-align:

center">表4:不同方法在四种自定义数据集上的表现对比。

style="text-align:

/>

实验结论:结果表明,在easy和random数据集中,各算法均能有效学习到最优策略。

但随着数据分布向次优倾斜(medium和hard),基于严格行为策略约束的TD3+BC和BEAR难以泛化到未出现的最优动作,泛化性能大幅下降。

相比之下,PIC-TD3通过从同辈状态集合中识别并学习潜在最优动作,成功跳出局部最优,展现出显著更强的泛化能力。

本工作得到了国家自然科学基金以及山西省基础研究计划项目的支持。

style="text-align:

right">本文系学术转载,如有侵权,请联系CVer小助手删文

style="text-align:

justify">何恺明在MIT授课的课件PPT下载

/>

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

style="text-align:

center">CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。

另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号:

CVer2233,进交流群

CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作!

▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看



SEO优化服务概述

作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。

百度官方合作伙伴 白帽SEO技术 数据驱动优化 效果长期稳定

SEO优化核心服务

网站技术SEO

  • 网站结构优化 - 提升网站爬虫可访问性
  • 页面速度优化 - 缩短加载时间,提高用户体验
  • 移动端适配 - 确保移动设备友好性
  • HTTPS安全协议 - 提升网站安全性与信任度
  • 结构化数据标记 - 增强搜索结果显示效果

内容优化服务

  • 关键词研究与布局 - 精准定位目标关键词
  • 高质量内容创作 - 原创、专业、有价值的内容
  • Meta标签优化 - 提升点击率和相关性
  • 内容更新策略 - 保持网站内容新鲜度
  • 多媒体内容优化 - 图片、视频SEO优化

外链建设策略

  • 高质量外链获取 - 权威网站链接建设
  • 品牌提及监控 - 追踪品牌在线曝光
  • 行业目录提交 - 提升网站基础权威
  • 社交媒体整合 - 增强内容传播力
  • 链接质量分析 - 避免低质量链接风险

SEO服务方案对比

服务项目 基础套餐 标准套餐 高级定制
关键词优化数量 10-20个核心词 30-50个核心词+长尾词 80-150个全方位覆盖
内容优化 基础页面优化 全站内容优化+每月5篇原创 个性化内容策略+每月15篇原创
技术SEO 基本技术检查 全面技术优化+移动适配 深度技术重构+性能优化
外链建设 每月5-10条 每月20-30条高质量外链 每月50+条多渠道外链
数据报告 月度基础报告 双周详细报告+分析 每周深度报告+策略调整
效果保障 3-6个月见效 2-4个月见效 1-3个月快速见效

SEO优化实施流程

我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:

1

网站诊断分析

全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。

2

关键词策略制定

基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。

3

技术优化实施

解决网站技术问题,优化网站结构,提升页面速度和移动端体验。

4

内容优化建设

创作高质量原创内容,优化现有页面,建立内容更新机制。

5

外链建设推广

获取高质量外部链接,建立品牌在线影响力,提升网站权威度。

6

数据监控调整

持续监控排名、流量和转化数据,根据效果调整优化策略。

SEO优化常见问题

SEO优化一般需要多长时间才能看到效果?
SEO是一个渐进的过程,通常需要3-6个月才能看到明显效果。具体时间取决于网站现状、竞争程度和优化强度。我们的标准套餐一般在2-4个月内开始显现效果,高级定制方案可能在1-3个月内就能看到初步成果。
你们使用白帽SEO技术还是黑帽技术?
我们始终坚持使用白帽SEO技术,遵循搜索引擎的官方指南。我们的优化策略注重长期效果和可持续性,绝不使用任何可能导致网站被惩罚的违规手段。作为百度官方合作伙伴,我们承诺提供安全、合规的SEO服务。
SEO优化后效果能持续多久?
通过我们的白帽SEO策略获得的排名和流量具有长期稳定性。一旦网站达到理想排名,只需适当的维护和更新,效果可以持续数年。我们提供优化后维护服务,确保您的网站长期保持竞争优势。
你们提供SEO优化效果保障吗?
我们提供基于数据的SEO效果承诺。根据服务套餐不同,我们承诺在约定时间内将核心关键词优化到指定排名位置,或实现约定的自然流量增长目标。所有承诺都会在服务合同中明确约定,并提供详细的KPI衡量标准。

SEO优化效果数据

基于我们服务的客户数据统计,平均优化效果如下:

+85%
自然搜索流量提升
+120%
关键词排名数量
+60%
网站转化率提升
3-6月
平均见效周期

行业案例 - 制造业

  • 优化前:日均自然流量120,核心词无排名
  • 优化6个月后:日均自然流量950,15个核心词首页排名
  • 效果提升:流量增长692%,询盘量增加320%

行业案例 - 电商

  • 优化前:月均自然订单50单,转化率1.2%
  • 优化4个月后:月均自然订单210单,转化率2.8%
  • 效果提升:订单增长320%,转化率提升133%

行业案例 - 教育

  • 优化前:月均咨询量35个,主要依赖付费广告
  • 优化5个月后:月均咨询量180个,自然流量占比65%
  • 效果提升:咨询量增长414%,营销成本降低57%

为什么选择我们的SEO服务

专业团队

  • 10年以上SEO经验专家带队
  • 百度、Google认证工程师
  • 内容创作、技术开发、数据分析多领域团队
  • 持续培训保持技术领先

数据驱动

  • 自主研发SEO分析工具
  • 实时排名监控系统
  • 竞争对手深度分析
  • 效果可视化报告

透明合作

  • 清晰的服务内容和价格
  • 定期进展汇报和沟通
  • 效果数据实时可查
  • 灵活的合同条款

我们的SEO服务理念

我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。

提交需求或反馈

Demand feedback