山西大学在强化学习领域取得突破性进展了吗？

style="text-align:

center">点击下方卡片，关注“CVer”公众号

style="text-align:

center">AI/CV重磅干货，第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

style="text-align:

在离线强化学习研究中取得重要进展，相关成果以“Efficient

Offline

Constraint”为题于2026年1月被人工智能领域国际顶级会议International

Conference

是人工智能与机器学习领域的国际顶级学术会议，长期聚焦深度学习及表示学习的基础理论与方法创新，在全球学术界和工业界具有广泛而深远的影响力。

根据

Google

并称为机器学习领域的三大顶级会议。

据悉，ICLR

2026

28%，大会将于4月23日至4月27日在巴西里约热内卢举办。

该论文第一作者为中北大学张钰嘉博士，通讯作者为山西大学魏巍教授，同时得到了山西大学梁吉业教授的指导。

此外，山西大学李琳副教授，博士生吴建国以及马亿博士也为该研究做出了重要贡献。

论文链接：https://openreview.net/forum?id=bPWCIJyp1K

摘要

离线强化学习旨在从一份固定的离线数据集中学习最优策略，但由于学习策略与数据生成策略之间往往存在分布偏移，策略在真实环境中的效果容易出现显著退化。

现有方法通常通过行为策略正则化来约束新策略，使其尽量贴近数据分布；然而这类偏保守的约束在行为策略本身并不理想时，容易限制性能上限与泛化能力。

为此，本文提出同辈约束方法（Peer-Influenced

Constraint,

PIC），引入一种类似“同行评议”的决策约束机制：对当前状态，我们首先构建一组相似状态集合，并将这些相似状态下的历史动作作为候选动作集；随后从候选集中筛选更优动作，用以对策略更新施加约束。

该机制在近似保证策略仍处于数据分布支持范围的同时，帮助策略跳出局部最优，从而同时提升性能与泛化能力。

在此基础上，我们进一步提出集成同辈影响约束（Ensemble

Peer-Influenced

PIC，在保持较高训练效率的同时获得更强的整体表现。

此外，我们揭示了

PIC

与不确定性估计之间的“耦合效应”（Coupling

中约束机制与不确定性建模的交互关系提供了新的视角与启示。

我们在

D4RL

基准的经典连续控制任务上进行了系统评测，实验结果表明

PIC

均能取得与当前先进方法具有竞争力的性能表现。

贡献

style="text-align:
left">提出了同辈约束，通过类似于“同行评议”机制构建候选动作集并选择最优动作以约束策略，有效提升了策略的泛化能力；
style="text-align:
left">揭示了同辈约束与不确定性估计之间的耦合效应，进一步提出了集成同辈约束，在保持高效性的同时显著提高了策略性能；
style="text-align:
方法在泛化能力和计算效率上的显著优势。

方法

Actor

的训练流程。

该流程共包括三个核心阶段：识别同辈状态、确定最优动作以及损失计算。

首先利用

KD-Tree

为给定状态识别同辈状态并从中确定最优动作，最后基于

PIC

同辈约束

受基于表征学习的强化学习和基于数据集约束的强化学习方法启发，这些方法通过将相似的状态或状态-动作对映射到相似的嵌入中来捕捉环境中的结构信息，而离线强化学习的数据集中通常包含丰富但未被有效利用的状态结构信息。

因此，引入数据集中的状态相似性来指导策略优化，成为提升策略泛化能力的关键。

为此，我们提出一种同辈约束机制，其核心思想类似于“同行评议”机制，通过构建同辈状态集合并从中动态选择最优动作，以显著提升策略泛化能力。

定义（同辈约束距离）：对于数据集

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">中任意状态

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">以及待优化的策略

xmlns="http://www.w3.org/2000/svg"

-0.667ex;width:

scale(0.707)">

0)">

0)">，定义PIC距离为：

其中，

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

scale(0.707)">是从候选动作集

xmlns="http://www.w3.org/2000/svg"

-0.113ex;width:

scale(0.707)">中选择的最优动作。

最优动作

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

scale(0.707)">由下式确定：

其中，

xmlns="http://www.w3.org/2000/svg"

-0.579ex;width:

scale(0.707)">和

xmlns="http://www.w3.org/2000/svg"

-0.579ex;width:

scale(0.707)">分别由两个值函数网络估计的

值，这种双值函数结构有效避免了动作值估计中常见的高估问题。

具体地，候选动作集合

xmlns="http://www.w3.org/2000/svg"

-0.113ex;width:

scale(0.707)">由两部分构成：

style="text-align:
xmlns="http://www.w3.org/2000/svg"
-0.023ex;width:
0)">在数据集中对应的动作集合；
style="text-align:
xmlns="http://www.w3.org/2000/svg"
-0.023ex;width:
0)">最相似的
xmlns="http://www.w3.org/2000/svg"
0px;width:
0)">个同辈状态对应的动作集合。

同辈状态的定义

xmlns="http://www.w3.org/2000/svg"

-0.666ex;width:

scale(0.707)">如下：

其中，

xmlns="http://www.w3.org/2000/svg"

-0.666ex;width:

0)">为已选择的

xmlns="http://www.w3.org/2000/svg"

-0.462ex;width:

0)">个同辈状态组成的集合。

由于数据集

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">中一个状态可能对应多个动作，因此候选动作集合

xmlns="http://www.w3.org/2000/svg"

-0.113ex;width:

scale(0.707)">的大小通常大于

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">。

通过上述构造方式，PIC充分挖掘了数据集中状态-动作之间的结构关联，突破了传统严格的一对一映射限制，使策略能够从更广泛的动作集合中选择最优动作，避免局部最优并有效提升泛化能力。

相比之下，TD3+BC\cite{TD3BC}则受限于严格状态-动作映射，易于陷入局部最优，泛化性不足。

算法具体实现：

/>PIC本质上是一个通用的离线强化学习组件，可灵活嵌入至任意的Actor-Critic类强化学习算法中。

为便于分析与验证，选择实现简单且实用的TD3作为基算法，提出了PIC-TD3算法。

/>具体的策略更新损失为：

其中，

xmlns="http://www.w3.org/2000/svg"

-0.667ex;width:

0)">，

xmlns="http://www.w3.org/2000/svg"

-1.655ex;width:

0)">为类似于TD3+BC中的自适应权重参数，其中超参数

xmlns="http://www.w3.org/2000/svg"

-0.025ex;width:

0)">控制强化学习目标与PIC约束项的权衡，

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">为PIC约束强度的调节系数。

该损失函数有效平衡了性能最大化与策略约束，实现了泛化的离线策略学习。

2.
集成同辈约束

尽管基于策略约束的方法计算高效，但基于不确定性估计的集成方法，如EDAC，在特定任务中往往表现更优。

然而，这类方法通常需要大量值函数网络，尤其在一些专家级数据集上。

因此，探索PIC与集成方法的结合，验证其对集成方法效率和泛化能力的提升具有一定意义。

为此，将PIC嵌入到EDAC中进行验证。

如图2所示，即使在集成规模较小时（如

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">，即最初的PIC-TD3形式），所提方法已取得良好性能，且随值函数数量

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">的增加，性能逐渐提升。

然而，当

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">过大（例如在hopper-medium环境中

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">或halfcheetah-expert中

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">）时，策略的收敛速度显著减慢，最终性能也有所下降。

此外，更高的PIC强度参数

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">能够有效降低达到相同性能所需的值函数数量，显著提升集成方法的计算效率。

xmlns="http://www.w3.org/2000/svg"

0px;width:

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">对性能的影响

为了进一步分析上述现象，在hopper-medium-expert数据集中系统探究了不确定性度量指标与集成规模

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">及PIC强度

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">之间的关系。

具体地，在

hopper-medium-expert

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">和

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">下计算不确定性度量

xmlns="http://www.w3.org/2000/svg"

-0.439ex;width:

scale(0.707)">、

xmlns="http://www.w3.org/2000/svg"

-0.439ex;width:

scale(0.707)">和

xmlns="http://www.w3.org/2000/svg"

-0.65ex;width:

scale(0.707)">

0)">

scale(0.707)">

0)">

scale(0.707)">。

随后，计算这些指标值并生成热力图，如图3所示。

xmlns="http://www.w3.org/2000/svg"

0px;width:

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">对不确定性度量的影响

实验结果表明，固定集成规模

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">时，随着PIC强度

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">的增加，较小的集成规模能够维持对OOD动作的有效惩罚。

相反，在固定

xmlns="http://www.w3.org/2000/svg"

-0.023ex;width:

0)">时，增加值函数数量

xmlns="http://www.w3.org/2000/svg"

0px;width:

0)">也会提高不确定性。

对这一现象的分析表明，随着PIC强度增大，策略更多选择数据集中已有的动作，降低了动作值的高估现象，进一步导致

xmlns="http://www.w3.org/2000/svg"

-0.439ex;width:

scale(0.707)">和

xmlns="http://www.w3.org/2000/svg"

-0.439ex;width:

scale(0.707)">下降，从而更有效地区分出OOD动作。

基于上述耦合效应，将

PIC

EDAC，提出了EPIC，该方法在保持高效计算的同时，生成了高性能且泛化的策略。

EPIC

的策略更新公式为：

其中，

xmlns="http://www.w3.org/2000/svg"

-0.566ex;width:

0)">为EDAC原始的策略损失：

xmlns="http://www.w3.org/2000/svg"

-0.7ex;width:

scale(0.707)">

0)">
0)">中的最优动作
xmlns="http://www.w3.org/2000/svg"
-0.023ex;width:
scale(0.707)">为：
EPIC
EDAC
一致，在常规值函数更新公式中引入了集成相似性（Ensemble
Similarity，ES）项：
其中，
xmlns="http://www.w3.org/2000/svg"
-0.489ex;width:
0)">是超参数，
xmlns="http://www.w3.org/2000/svg"
0px;width:
0)">为集成规模。
ES
PIC的有效性，本文在大部分环境中统一设置
xmlns="http://www.w3.org/2000/svg"
-0.489ex;width:
0)">，未做特定环境的调节。
EPIC伪代码如下：
动作偏差对比

实验设置：PIC通过构建同辈状态动作候选集，能够选择潜在更优的动作。

为了评估不同方法与数据集中动作之间的差异，分别采样50万个随机的状态-动作对

xmlns="http://www.w3.org/2000/svg"

-0.566ex;width:

0)">，并计算各方法动作输出与数据集内动作之间的

距离

xmlns="http://www.w3.org/2000/svg"

-0.8ex;width:

scale(0.707)">

0)">

scale(0.707)">。

实验结果如图4所示。

实验结论：从实验结果可看出，PIC与EPIC的动作输出相比EDAC更加接近数据集中实际动作，有效抑制了OOD动作的产生。

同时，与CQL和PRDC方法相比，PIC和EPIC在降低动作偏差的基础上实现了更为多样化和潜在更优的动作选择，表现出更高的策略泛化性。

2.
D4RL基准上的性能对比

实验设置：分别在Gym-MuJoCo、AntMaze和Adroit三个经典D4RL离线强化学习任务集中，对PIC-TD3和EPIC算法进行了系统性的实验评估，各方法均训练100万步并记录其性能表现，对比结果如下表所示。

style="text-align:

任务上基于最终评估和五次实验的平均归一化得分

实验结论：EPIC算法在绝大多数任务中显著优于各基线方法，表现出更快的收敛速度、更高的性能上限与泛化能力。

同时，PIC-TD3方法相较于非集成基线方法性能也明显更优，并与先进的集成方法（如EDAC）相当，这表明PIC机制本身具备强大的泛化性与稳定性。

3.

计算效率对比

center">图5：不同方法的训练时间对比

实验设置：计算效率是衡量离线强化学习算法实际应用价值的重要指标之一。

为评估

PIC-TD3、EPIC

所示。

实验结论：EPIC

通过利用同辈约束与集成方法的耦合效应，显著减少了所需值函数网络的数量，使其整体计算耗时与非集成的基线方法接近甚至更低。

4.
泛化性能对比

实验动机：PIC

算法的突出优势在于，通过充分挖掘数据集中状态间的相似性，能够利用相似状态（同辈状态）中的优质动作，引导策略学习到当前状态中未出现的潜在最优动作，从而实现更好的泛化性能。

为验证这一优势，我们设计了一个线性世界（Lineworld）环境，如图

center">图6：线性世界示意图

Lineworld

环境与数据集设置：Lineworld

环境包含起始点

xmlns="http://www.w3.org/2000/svg"

-0.05ex;width:

0)">与目标点

xmlns="http://www.w3.org/2000/svg"

-0.05ex;width:

0)">。

智能体在每个状态仅能选择两个动作：向左（动作值

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">）或向右（动作值

xmlns="http://www.w3.org/2000/svg"

-0.186ex;width:

0)">）。

只有持续向右移动才能到达目标并获得奖励。

为系统评估算法在不同数据分布下的泛化能力，我们构建了四个难度递增的数据集：

style="text-align:
left">Lineworld-easy：动作
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
xmlns="http://www.w3.org/2000/svg"
-0.05ex;width:
0)">；
style="text-align:
left">Lineworld-random：动作
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
0)">比例均衡；
style="text-align:
left">Lineworld-medium：动作
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
xmlns="http://www.w3.org/2000/svg"
-0.05ex;width:
0)">（分布偏向次优）；
style="text-align:
left">Lineworld-hard：除状态
外，各状态动作
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
xmlns="http://www.w3.org/2000/svg"
-0.05ex;width:
0)">（极度偏向次优），且状态
仅包含动作
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
我们在上述数据集上对TD3+BC、BEAR、PRDC、PIC-TD3进行对比实验，结果见图7与表4。

center">图7:不同方法在四种线性世界数据集上的学习策略可视化

style="text-align:

center">表4：不同方法在四种自定义数据集上的表现对比。

style="text-align:

实验结论：结果表明，在easy和random数据集中，各算法均能有效学习到最优策略。

但随着数据分布向次优倾斜（medium和hard），基于严格行为策略约束的TD3+BC和BEAR难以泛化到未出现的最优动作，泛化性能大幅下降。

相比之下，PIC-TD3通过从同辈状态集合中识别并学习潜在最优动作，成功跳出局部最优，展现出显著更强的泛化能力。

本工作得到了国家自然科学基金以及山西省基础研究计划项目的支持。

style="text-align:

right">本文系学术转载，如有侵权，请联系CVer小助手删文

style="text-align:

justify">何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

style="text-align:

center">CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。
另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号:
CVer2233，进交流群
CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号整理不易，请点赞和在看

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

百度SEO

山西大学在强化学习领域取得突破性进展了吗？

style="text-align:

style="text-align:

style="text-align:

Offline

Conference

Google

2026

摘要

Constraint,

Peer-Influenced

PIC

D4RL

PIC

贡献

style="text-align:

style="text-align:

style="text-align:

方法

Actor

KD-Tree

PIC

0px;width:

-0.023ex;width:

-0.667ex;width:

-0.023ex;width:

-0.113ex;width:

-0.023ex;width:

-0.579ex;width:

-0.579ex;width:

-0.113ex;width:

style="text-align:

-0.023ex;width:

style="text-align:

-0.023ex;width:

0px;width:

-0.666ex;width:

-0.666ex;width:

-0.462ex;width:

0px;width:

-0.113ex;width:

-0.186ex;width:

-0.667ex;width:

-1.655ex;width:

-0.025ex;width:

-0.023ex;width:

2.集成同辈约束

-0.186ex;width:

0px;width:

0px;width:

-0.186ex;width:

-0.186ex;width:

-0.023ex;width:

0px;width:

-0.023ex;width:

0px;width:

-0.023ex;width:

hopper-medium-expert

0px;width:

-0.023ex;width:

-0.439ex;width:

-0.439ex;width:

-0.65ex;width:

0px;width:

-0.023ex;width:

0px;width:

-0.023ex;width:

-0.023ex;width:

0px;width:

-0.439ex;width:

-0.439ex;width:

PIC

-0.566ex;width:

-0.7ex;width:

-0.023ex;width:

EDAC

-0.489ex;width:

0px;width:

-0.489ex;width:

2.
集成同辈约束

2.
D4RL基准上的性能对比

4.
泛化性能对比

仅包含动作
xmlns="http://www.w3.org/2000/svg"
-0.186ex;width:
我们在上述数据集上对TD3+BC、BEAR、PRDC、PIC-TD3进行对比实验，结果见图7与表4。