当前位置：首页 > 百度SEO >

《强化学习》笔记：如何有效提升决策能力？

96SEO 2026-02-20 08:38 8

动手学强化学习：https://hrl.boyuai.com/
inline">$s$)：
动作
inline">$a$)：
奖励
inline">$r$)：
智能体执行动作后，环境返回的即时标量反馈信号，表示动作的好坏。
策略
inline">$\pi$)：
inline">$G_t$)：
从时刻
inline">$V(s)$：
在状态
inline">$V(s)$.
color="blue">预测器，预测从现在开始一直到游戏结束，我总共能拿多少分
color="red">序列决策问题。
与监督学习不同，强化学习的样本不是独立同分布的，
color="blue">智能体的动作会改变环境的状态，进而影响未来的数据分布。
根拉杆（动作），每根拉杆后的奖励服从一个特定的概率分布。
智能体的目标是在
尝试拉动那些虽然目前平均奖励不高，但可能存在更大潜力的拉杆。
利用
inline">$\epsilon$-greedy
策略：
color="blue">不仅看平均奖励，还要看被探索的次数（探索越少，不确定性越大，加分越多）。
分布，维护该分布的参数。
每次采样时，从每个拉杆的分布中采样一个值，选择采样值最大的拉杆。
如果一个状态的未来只取决于当前状态，而与过去的历史无关，则该状态具有
inline">$\gamma$，就可以得到马尔可夫奖励过程（Markov
reward
process）。
一个马尔可夫奖励过程由构成，各个组成元素的含义如下所示。
inline">$P$是状态转移矩阵。
color="red">折扣因子（discount
inline">$[0,1)$。
引入折扣因子的理由为远期利益具有一定不确定性，有时我们更希望能够尽快获得一些奖励，所以我们需要对远期利益打一些折扣。
接近
color="blue">所有奖励的衰减之和称为回报
的期望回报（即从这个状态出发的未来累积奖励的期望）被称为这个状态的价值（value）。
所有状态的价值就组成了价值函数（value
function）：
&=r(s)+\gamma\sum_{s^\prime\in
\end{aligned}
\]

其中数学期望的计算公式：

class="math

color="red">贝尔曼方程（Bellman

是状态个数，因此这种方法只适用很小的马尔可夫奖励过程。
求解较大规模的马尔可夫奖励过程中的价值函数时，可以使用动态规划（dynamic
programming）算法、蒙特卡洛方法（Monte-Carlo
method）和时序差分（temporal
difference）.
马尔可夫过程和马尔可夫奖励过程都是自发改变的随机过程；而如果有一个
color="blue">外界的“刺激”来共同改变这个随机过程，就有了马尔可夫决策过程（Markov
decision
process，MDP）。
我们将这个来自外界的刺激称为
color="red">智能体（agent）的动作，
color="blue">在马尔可夫奖励过程（MRP）的基础上加入动作，就得到了
color="red">马尔可夫决策过程（MDP）。
马尔可夫决策过程中：
inline">$P(s^\prime|s,a)$
inline">$\pi(a|s)=P(A_t=a|S_t=s)$，表示在输入状态
inline">$\pi$，得到的期望回报：
&=r(s,a)+\gamma\sum_{s^\prime\in
\end{aligned}
\]

状态价值函数与动作价值函数的关系：

E[G_t|S_t=s]\approx\frac1N\sum^N_{i=1}G_t^{(i)}
inline">$V(s)=M(s)/N(s)$.
计算回报的期望时，除了可以把所有的回报加起来除以次数，还有一种增量更新的方法：
V(s)+\frac1{N(s)}(G-V(S))\).
inline">$V^\pi(s)$。
利用贝尔曼期望方程进行迭代更新，直到收敛：

不等待策略评估完全收敛，而是直接把策略提升融合进迭代步骤中。
利用
color="blue">价值迭代通常比策略迭代收敛得更快，因为它在每一步都进行了“截断”的策略优化。

蒙特卡洛方法必须要等整个序列结束之后才能计算得到这一次的回报，而时序差分方法只需要当前步结束即可进行计算。
TD
color="red">免模型
(Model-free)
inline">$r$，直接通过与环境交互产生的经验数据进行学习。
结合了蒙特卡洛（MC）和动态规划（DP）的思想。
(Bootstrapping)（利用后继状态的估计值更新当前状态，不需要等回合结束）。
inline">$s_t$，采取动作后获得了奖励
inline">$s_{t+1}$。
\underbrace{V(s_t)}_{\text{Current
Estimate
inline">$a'$。
更新公式：
inline">$\epsilon$-greedy，它在学习时会考虑到探索带来的风险（比如可能会掉进陷阱），因此它会避开危险区域。
时，不关心下一步实际做了什么，而是直接假设下一步采取了最优动作（max操作）。
Q-learning
display">\[Q(s_t,a_t)\leftarrow
Q(s_t,a_t)+\alpha[R_t+\gamma\max_aQ(s_{t+1},a_t)-Q(s_t,a_t)]
inline">$\epsilon$-greedy
策略根据
inline">$r,s^\prime$.
Q(s_t,a_t)+\alpha[R_t+\gamma\max_aQ(s_{t+1},a_t)-Q(s_t,a_t)]\)。
Model-based：利用真实经验学习环境模型
color="blue">在“思维”中模拟。
从模型中随机生成状态-动作对，模拟环境反馈，再次更新
inline">$\hat{a}$。
查询模型得到
的优势在于极大地提高了样本利用率，在与环境交互次数较少的情况下，通过“反思”（Planning）能更快收敛。
中随机采样一个小批量（Batch）数据进行梯度下降。
color="blue">打破了数据间的时序相关性，使样本满足独立同分布假设，且提高了数据利用率。
构建两个结构相同的网络：当前网络
color="blue">固定了优化的目标，避免“追逐移动目标”导致的训练发散。
的缺陷（如过估计、采样效率低等），后续衍生出一系列改进算法（统称
值被高估（Overestimation）。
使用当前网络选择动作：
class="math
使用目标网络评估动作：
class="math
color=red>状态价值函数</font>
<font
a)$：评估在该状态下采取某动作相对于平均表现的优势。
$A(s,
Q(s,
color="blue">这使得模型能更快地学习到某些状态下“做什么动作都不重要”这一事实。
id="83-优先经验回放-prioritized-experience-replay-per">8.3
优先经验回放
|\delta_i|^\alpha\)。
另外，为了抵消非均匀采样带来的偏差，更新参数时需乘以重要性采样权重
基于值函数的方法主要是学习值函数（如
inline">$\epsilon$-greedy）；而基于策略的方法则是直接显式地学习一个目标策略。
策略梯度是基于策略的方法的基础。
策略梯度方法
color="blue">直接对策略
inline">$\pi_\ta(a|s)$
color="blue">假设目标策略是一个随机性策略，并且处处可微。
我们可以用一个线性模型或者
color="blue">神经网络模型来为这样一个策略函数建模。
然后使用梯度上升，
color="blue">使用当前策略
采样得到的数据来计算策略的梯度，来最大化reward。
\mathbb{E}_{\pi_\ta}[G]\)。
利用梯度上升更新参数
Function)。
这个概念在Diffusion中也有用到。
\]

缺点：

color="blue">方差极大，收敛慢（因为

的方差，引入一个Critic来估计状态价值函数
inline">$\pi_\ta(a|s)$，负责输出动作。
inline">$V_w(s)$，负责评价动作的好坏。
inline">$\delta^2$。
0\)，说明动作比预期的好，增加其概率；反之减少。
难以确定。
步长太小收敛慢，步长太大可能导致策略剧烈变化，性能断崖式下跌且无法恢复。
目标：最大化代理目标函数（Surrogate
\frac{\pi_\ta(a|s)}{\pi_{\ta_{old}}(a|s)}
A_{\ta_{old}}(s,
D_{KL}(\pi_{\ta_{old}}(\cdot|s)
\pi_\ta(\cdot|s))
color="red">共轭梯度法来近似求解上述约束优化问题，计算复杂度较高。
“限制策略更新幅度”的思想，但抛弃了复杂的约束优化，转而使用
(Clipping)
inline">$r_t(\ta)$，表示在某个状态下，新策略采取动作
1\)，说明新策略比旧策略更倾向于该动作。
如果
1\)，说明新策略降低了该动作的概率。
color="red">Advantage)：
color="blue">在状态
inline">$a$，比该状态下的“平均表现”好多少？
0\)（动作好）：我们希望增加该动作的概率（即希望
0\)（动作差）：我们希望减小该动作的概率（即希望
1+\epsilon)\)：这是“安全锁”。
通常
\underbrace{V(s_t)}_{\text{预期表现}}\).
分作为权重去更新策略，网络会认为所有动作都好得不得了。
Network)：输出动作的概率分布。
使用上述的
inline">$V(s)$。
通常使用均方误差（MSE）损失函数：
class="math
\underbrace{L_t^{CLIP}(\ta)}_{\text{策略提升}}
c_1
\underbrace{L_t^{VF}(\ta)}_{\text{价值拟合}}
c_2
\underbrace{S[\pi_\ta](s_t)}_{\text{熵正则化(鼓励探索)}}
\]

id="13-ddpg-算法-deep-deterministic-policy-gradient">13.

DDPG

框架中，用于解决连续控制问题。

确定性策略：Actor
\]

由于策略是确定性的，必须手动添加噪声（如

Ornstein-Uhlenbeck

是目前公认的在连续控制任务中性能最强、最稳定的算法之一。

它引入了

color="red">最大熵强化学习

智能体的目标不仅是最大化累积奖励，还要最大化策略的熵
inline">$H(\pi)$：衡量策略的随机程度。
inline">$\alpha$：温度系数，控制熵的重要性。
color="blue">最大化熵鼓励智能体在获得高回报的同时，尽可能保持动作的多样性，从而大幅提升探索能力和鲁棒性。
Off-policy：可以使用
Replay
在很多任务中，设计一个完美的奖励函数非常困难（例如：教机器人“优雅”地走路）。
(Imitation
color="blue">专家示范（Expert
id="151-行为克隆-behavior-cloning-bc">15.1
行为克隆
color="red">行为克隆（Behavior
Cloning，简称
color="blue">让智能体（Agent）直接模仿专家（Expert）在特定状态（State）下执行的动作（Action），从而学习到完成任务所需的策略（Policy）。
a\)，最小化专家动作与策略输出动作的误差。
缺点：存在
color="red">复合误差（Compounding
Error）。
如果智能体在某个时刻产生了一点偏差，进入了专家未曾遇到过的状态（Out-of-Distribution），智能体不知所措，误差会迅速累积导致任务失败。
id="152-逆强化学习-inverse-rl-irl">15.2
逆强化学习
逻辑：假设专家的行为是基于某个未知的奖励函数
inline">$R^$，使得在该奖励下产生的策略与专家行为一致。
color="blue">一旦学到了奖励函数，就可以使用任何标准的
算法（如
inline">$\pi_\ta$。
(Discriminator)：试图区分
智能体的目标是欺骗判别器，使其认为自己的行为就是专家的行为。
判别器的输出直接作为奖励信号。
id="16-模型预测控制-model-predictive-control-mpc">16.
模型预测控制
主要用于控制领域，通常假设已知环境模型或已学到一个模型。
color="blue">每一步都进行在线规划。
inline">$a_t$。
循环：进入下一个状态
inline">$s_{t+1}$，重复上述步骤（Receding
Horizon
Method)：随机采样多条动作序列，挑选出表现最好的前
inline">$k\%$，计算它们的均值和方差，用新的高斯分布再次采样，迭代收敛。
学习模型：使用集成学习（Ensemble）训练多个神经网络动力学模型
inline">$P_\*ta(s'|s,a)$，利用它们之间预测的方差来评估
生成数据：利用学到的模型进行
策略更新：将真实环境数据和模型生成的“想象数据”混合，用来训练
SAC
的关键在于“不敢走太远”。
只在模型确信的范围内进行短途规划，避免模型误差的累积，从而在保证渐近性能的同时极大提高了采样效率。
inline">$D$（由其他策略产生），不能与环境交互，如何训练出一个强策略？
由于没有环境交互来修正这个错误，智能体会认为这个错误动作是“神之一手”，最终导致策略崩溃。
inline">$\pi_\beta(a|s)$（如
BCQ
color="red">下界，宁可低估也不高估。
我们希望智能体不仅能完成单一任务，而是能根据指令到达任意目标状态
问题：智能体尝试到达目标
inline">$A$，结果失败了，最后停在了状态
inline">$B$”这个目标来说，它是成功的！
操作：将这条轨迹存入回放池时，
inline">$B$，并修正奖励。
这样，每一次尝试（无论成败）都能提取出成功的经验。
环境中有多个智能体同时行动，共享环境或彼此竞争。
color="blue">马尔可夫性质在单一智能体视角下失效了。
color="blue">简单但不稳定，难以收敛。
完全中心化：将所有智能体视为一个超级智能体，输入联合状态，输出联合动作。
动作空间随智能体数量指数级爆炸，
color="red">集中式训练，去中心化执行
训练时：利用上帝视角（所有人的观测和动作）来训练
color="blue">只要整体利益最大化，个体的利益也倾向于最大化。
混合网络（Mixing
color="blue">所有智能体的状态和动作（集中式信息）。
Actor
这种方法允许智能体在复杂的博弈环境中学会合作或竞争。

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

百度SEO

《强化学习》笔记：如何有效提升决策能力？

动作

奖励

策略

从时刻

在状态

利用

策略：

reward

color="blue">所有奖励的衰减之和称为回报的期望回报（即从这个状态出发的未来累积奖励的期望）被称为这个状态的价值（value）。所有状态的价值就组成了价值函数（valuefunction）：&=r(s)+\gamma\sum_{s^\prime\in\end{aligned}\]

的期望回报（即从这个状态出发的未来累积奖励的期望）被称为这个状态的价值（value）。所有状态的价值就组成了价值函数（valuefunction）：&=r(s)+\gamma\sum_{s^\prime\in\end{aligned}\]

function）：

\end{aligned}

class="math

difference）.

decision

inline">\(\pi(a|s)=P(A_t=a|S_t=s)\)，表示在输入状态inline">\(\pi\)，得到的期望回报：&=r(s,a)+\gamma\sum_{s^\prime\in\end{aligned}\]

inline">\(\pi\)，得到的期望回报：&=r(s,a)+\gamma\sum_{s^\prime\in\end{aligned}\]

&=r(s,a)+\gamma\sum_{s^\prime\in\end{aligned}\]

\end{aligned}

蒙特卡洛方法必须要等整个序列结束之后才能计算得到这一次的回报，而时序差分方法只需要当前步结束即可进行计算。TDcolor="red">免模型

TD

(Model-free)

Estimate

更新公式：

Q-learning

策略根据

Q(s_t,a_t)+\alpha[R_t+\gamma\max_aQ(s_{t+1},a_t)-Q(s_t,a_t)]\)。

Model-based：利用真实经验学习环境模型color="blue">在“思维”中模拟。从模型中随机生成状态-动作对，模拟环境反馈，再次更新inline">\(\hat{a}\)。

color="blue">在“思维”中模拟。从模型中随机生成状态-动作对，模拟环境反馈，再次更新inline">\(\hat{a}\)。

inline">\(\hat{a}\)。

查询模型得到

color="blue">打破了数据间的时序相关性，使样本满足独立同分布假设，且提高了数据利用率。

color="blue">固定了优化的目标，避免“追逐移动目标”导致的训练发散。

class="math

class="math

<font

Q(s,

id="83-优先经验回放-prioritized-experience-replay-per">8.3优先经验回放|\delta_i|^\alpha\)。

优先经验回放

color="blue">直接对策略

color="blue">假设目标策略是一个随机性策略，并且处处可微。我们可以用一个线性模型或者color="blue">神经网络模型来为这样一个策略函数建模。然后使用梯度上升，

color="blue">使用当前策略

\mathbb{E}_{\pi_\***ta}[G]\)。利用梯度上升更新参数Function)。这个概念在Diffusion中也有用到。\]

Function)。这个概念在Diffusion中也有用到。\]

\]

inline">\(V_w(s)\)，负责评价动作的好坏。

A_{\***ta_{old}}(s,

\pi_\***ta(\cdot|s))

“限制策略更新幅度”的思想，但抛弃了复杂的约束优化，转而使用(Clipping)inline">\(r_t(\***ta)\)，表示在某个状态下，新策略采取动作1\)，说明新策略比旧策略更倾向于该动作。

(Clipping)

1\)，说明新策略比旧策略更倾向于该动作。

如果

color="blue">在状态

1+\epsilon)\)：这是“安全锁”。通常

分作为权重去更新策略，网络会认为所有动作都好得不得了。

inline">\(V(s)\)。通常使用均方误差（MSE）损失函数：class="math\underbrace{L_t^{CLIP}(\***ta)}_{\text{策略提升}}c_1\underbrace{L_t^{VF}(\***ta)}_{\text{价值拟合}}c_2\underbrace{S[\pi_\***ta](s_t)}_{\text{熵正则化(鼓励探索)}}\]

class="math

c_1

c_2

\]

DDPG

确定性策略：Actor\]

\]

Ornstein-Uhlenbeck

color="red">最大熵强化学习

inline">\(\alpha\)：温度系数，控制熵的重要性。

color="blue">最大化熵鼓励智能体在获得高回报的同时，尽可能保持动作的多样性，从而大幅提升探索能力和鲁棒性。

Replay

(Imitation

id="151-行为克隆-behavior-cloning-bc">15.1行为克隆color="red">行为克隆（BehaviorCloning，简称color="blue">让智能体（Agent）直接模仿专家（Expert）在特定状态（State）下执行的动作（Action），从而学习到完成任务所需的策略（Policy）。

行为克隆

Cloning，简称

逆强化学习

inline">\(R^*\)，使得在该奖励下产生的策略与专家行为一致。

color="blue">一旦学到了奖励函数，就可以使用任何标准的算法（如inline">\(\pi_\***ta\)。

算法（如

模型预测控制

inline">\(s_{t+1}\)，重复上述步骤（RecedingHorizonMethod)：随机采样多条动作序列，挑选出表现最好的前inline">\(k\%\)，计算它们的均值和方差，用新的高斯分布再次采样，迭代收敛。

color="blue">所有奖励的衰减之和称为回报
的期望回报（即从这个状态出发的未来累积奖励的期望）被称为这个状态的价值（value）。
所有状态的价值就组成了价值函数（value
function）：
&=r(s)+\gamma\sum_{s^\prime\in
\end{aligned}
\]

的期望回报（即从这个状态出发的未来累积奖励的期望）被称为这个状态的价值（value）。
所有状态的价值就组成了价值函数（value
function）：
&=r(s)+\gamma\sum_{s^\prime\in
\end{aligned}
\]

inline">\(\pi(a|s)=P(A_t=a|S_t=s)\)，表示在输入状态
inline">\(\pi\)，得到的期望回报：
&=r(s,a)+\gamma\sum_{s^\prime\in
\end{aligned}
\]

inline">\(\pi\)，得到的期望回报：
&=r(s,a)+\gamma\sum_{s^\prime\in
\end{aligned}
\]

&=r(s,a)+\gamma\sum_{s^\prime\in
\end{aligned}
\]

蒙特卡洛方法必须要等整个序列结束之后才能计算得到这一次的回报，而时序差分方法只需要当前步结束即可进行计算。
TD
color="red">免模型

Model-based：利用真实经验学习环境模型
color="blue">在“思维”中模拟。
从模型中随机生成状态-动作对，模拟环境反馈，再次更新
inline">\(\hat{a}\)。

color="blue">在“思维”中模拟。
从模型中随机生成状态-动作对，模拟环境反馈，再次更新
inline">\(\hat{a}\)。

id="83-优先经验回放-prioritized-experience-replay-per">8.3
优先经验回放
|\delta_i|^\alpha\)。

color="blue">假设目标策略是一个随机性策略，并且处处可微。
我们可以用一个线性模型或者
color="blue">神经网络模型来为这样一个策略函数建模。
然后使用梯度上升，

\mathbb{E}_{\pi_\***ta}[G]\)。
利用梯度上升更新参数
Function)。
这个概念在Diffusion中也有用到。
\]

Function)。
这个概念在Diffusion中也有用到。
\]

“限制策略更新幅度”的思想，但抛弃了复杂的约束优化，转而使用
(Clipping)
inline">\(r_t(\*ta)\)，表示在某个状态下，新策略采取动作
1\)，说明新策略比旧策略更倾向于该动作。**

1+\epsilon)\)：这是“安全锁”。
通常

inline">\(V(s)\)。
通常使用均方误差（MSE）损失函数：
class="math
\underbrace{L_t^{CLIP}(\ta)}_{\text{策略提升}}
c_1
\underbrace{L_t^{VF}(\ta)}_{\text{价值拟合}}
c_2
\underbrace{S[\pi_\***ta](s_t)}_{\text{熵正则化(鼓励探索)}}
\]

确定性策略：Actor
\]

id="151-行为克隆-behavior-cloning-bc">15.1
行为克隆
color="red">行为克隆（Behavior
Cloning，简称
color="blue">让智能体（Agent）直接模仿专家（Expert）在特定状态（State）下执行的动作（Action），从而学习到完成任务所需的策略（Policy）。

color="blue">一旦学到了奖励函数，就可以使用任何标准的
算法（如
inline">\(\pi_\***ta\)。

inline">\(s_{t+1}\)，重复上述步骤（Receding
Horizon
Method)：随机采样多条动作序列，挑选出表现最好的前
inline">\(k\%\)，计算它们的均值和方差，用新的高斯分布再次采样，迭代收敛。

由于没有环境交互来修正这个错误，智能体会认为这个错误动作是“神之一手”，最终导致策略崩溃。
inline">\(\pi_\beta(a|s)\)（如
BCQ
color="red">下界，宁可低估也不高估。