96SEO 2026-02-20 08:38 8

inline">\(s\)):
inline">\(a\)):
inline">\(r\)):
智能体执行动作后,环境返回的即时标量反馈信号,表示动作的好坏。
inline">\(\pi\)):
inline">\(G_t\)
):inline">\(V(s)\):
inline">\(V(s)\).
color="blue">预测器,预测从现在开始一直到游戏结束,我总共能拿多少分
color="red">序列决策问题。
与监督学习不同,强化学习的样本不是独立同分布的, color="blue">智能体的动作会改变环境的状态,进而影响未来的数据分布
根拉杆(动作),每根拉杆后的奖励服从一个特定的概率分布。
智能体的目标是在
尝试拉动那些虽然目前平均奖励不高,但可能存在更大潜力的拉杆。
inline">\(\epsilon\)
-greedycolor="blue">不仅看平均奖励,还要看被探索的次数(探索越少,不确定性越大,加分越多)。
分布,维护该分布的参数。
每次采样时,从每个拉杆的分布中采样一个值,选择采样值最大的拉杆。
如果一个状态的未来只取决于当前状态,而与过去的历史无关,则该状态具有 inline">\(\gamma\),就可以得到马尔可夫奖励过程(Markov process)。 一个马尔可夫奖励过程由构成,各个组成元素的含义如下所示。 inline">\(P\)是状态转移矩阵。 color="red">折扣因子(discount inline">\([0,1)\) 引入折扣因子的理由为远期利益具有一定不确定性,有时我们更希望能够尽快获得一些奖励,所以我们需要对远期利益打一些折扣。 接近 color="blue">所有奖励的衰减之和称为回报 的期望回报(即从这个状态出发的未来累积奖励的期望)被称为这个状态的价值(value)。 所有状态的价值就组成了价值函数(value &=r(s)+\gamma\sum_{s^\prime\in \] 其中数学期望的计算公式: color="red">贝尔曼方程reward
function):
\end{aligned}
class="math
是状态个数,因此这种方法只适用很小的马尔可夫奖励过程。
求解较大规模的马尔可夫奖励过程中的价值函数时,可以使用动态规划(dynamic
programming)算法、蒙特卡洛方法(Monte-Carlo
method)和时序差分(temporal
马尔可夫过程和马尔可夫奖励过程都是自发改变的随机过程;而如果有一个 color="blue">外界的“刺激”
process,MDP)。
我们将这个来自外界的刺激称为 color="red">智能体 color="blue">在马尔可夫奖励过程(MRP)的基础上加入动作 color="red">马尔可夫决策过程
马尔可夫决策过程中:
inline">\(P(s^\prime|s,a)\)
inline">\(\pi(a|s)=P(A_t=a|S_t=s)\)
,表示在输入状态inline">\(\pi\)
,得到的期望回报:&=r(s,a)+\gamma\sum_{s^\prime\in
\]
状态价值函数与动作价值函数的关系:
E[G_t|S_t=s]\approx\frac1N\sum^N_{i=1}G_t^{(i)}
inline">\(V(s)=M(s)/N(s)\)
.计算回报的期望时,除了可以把所有的回报加起来除以次数,还有一种增量更新的方法:
V(s)+\frac1{N(s)}(G-V(S))\).
inline">\(V^\pi(s)\)。
利用贝尔曼期望方程进行迭代更新,直到收敛:
不等待策略评估完全收敛,而是直接把策略提升融合进迭代步骤中。
利用
color="blue">价值迭代通常比策略迭代收敛得更快
,因为它在每一步都进行了“截断”的策略优化。蒙特卡洛方法必须要等整个序列结束之后才能计算得到这一次的回报,而时序差分方法只需要当前步结束即可进行计算。
TD
color="red">免模型
inline">\(r\),直接通过与环境交互产生的经验数据进行学习。
结合了蒙特卡洛(MC)和动态规划(DP)的思想。
(Bootstrapping)(利用后继状态的估计值更新当前状态,不需要等回合结束)。
inline">\(s_t\),采取动作后获得了奖励
inline">\(s_{t+1}\)
。\underbrace{V(s_t)}_{\text{Current
inline">\(a'\)。
更新公式:
inline">\(\epsilon\)-greedy,它在学习时会考虑到探索带来的风险(比如可能会掉进陷阱),因此它会避开危险区域。
时,不关心下一步实际做了什么,而是直接假设下一步采取了最优动作(max操作)。
Q-learning
display">\[Q(s_t,a_t)\leftarrow
Q(s_t,a_t)+\alpha[R_t+\gamma\max_aQ(s_{t+1},a_t)-Q(s_t,a_t)]
inline">\(\epsilon\)-greedy
inline">\(r,s^\prime\).
Q(s_t,a_t)+\alpha[R_t+\gamma\max_aQ(s_{t+1},a_t)-Q(s_t,a_t)]\)
。color="blue">在“思维”中模拟。
从模型中随机生成状态-动作对,模拟环境反馈,再次更新
inline">\(\hat{a}\)
。的优势在于极大地提高了样本利用率,在与环境交互次数较少的情况下,通过“反思”(Planning)能更快收敛。
中随机采样一个小批量(Batch)数据进行梯度下降。
color="blue">打破了数据间的时序相关性,使样本满足独立同分布假设,且提高了数据利用率
。color="blue">固定了优化的目标,避免“追逐移动目标”导致的训练发散。
的缺陷(如过估计、采样效率低等),后续衍生出一系列改进算法(统称
值被高估(Overestimation)。
color=red>状态价值函数</font>
a)$:评估在该状态下采取某动作相对于平均表现的优势。
$A(s,
color="blue">这使得模型能更快地学习到某些状态下“做什么动作都不重要”这一事实。
id="83-优先经验回放-prioritized-experience-replay-per">8.3
|\delta_i|^\alpha\)
。另外,为了抵消非均匀采样带来的偏差,更新参数时需乘以重要性采样权重
基于值函数的方法主要是学习值函数(如
inline">\(\epsilon\)
-greedy);而基于策略的方法则是直接显式地学习一个目标策略。策略梯度是基于策略的方法的基础。
策略梯度方法 inline">\(\pi_\***ta(a|s)\)color="blue">直接对策略
color="blue">假设目标策略是一个随机性策略,并且处处可微
我们可以用一个线性模型或者 color="blue">神经网络模型
然后使用梯度上升, 采样得到的数据来计算策略的梯度color="blue">使用当前策略
\mathbb{E}_{\pi_\***ta}[G]\)
。利用梯度上升更新参数
Function)。
这个概念在Diffusion中也有用到。
\]
缺点: color="blue">方差极大,收敛慢
的方差,引入一个Critic来估计状态价值函数
inline">\(\pi_\***ta(a|s)\)
,负责输出动作。inline">\(V_w(s)\)
inline">\(\delta^2\)。
0\),说明动作比预期的好,增加其概率;反之减少。
难以确定。
步长太小收敛慢,步长太大可能导致策略剧烈变化,性能断崖式下跌且无法恢复。
\frac{\pi_\***ta(a|s)}{\pi_{\***ta_{old}}(a|s)}
D_{KL}(\pi_{\***ta_{old}}(\cdot|s)
color="red">共轭梯度法来近似求解上述约束优化问题,计算复杂度较高。
“限制策略更新幅度”的思想,但抛弃了复杂的约束优化,转而使用 inline">\(r_t(\***ta)\),表示在某个状态下,新策略采取动作 1\)(Clipping)
1\),说明新策略降低了该动作的概率。
color="red">Advantage): inline">\(a\),比该状态下的“平均表现”好多少color="blue">在状态
0\)(动作好):我们希望增加该动作的概率(即希望
0\)
(动作差):我们希望减小该动作的概率(即希望1+\epsilon)\)
:这是“安全锁”。通常
\underbrace{V(s_t)}_{\text{预期表现}}\)
.分作为权重去更新策略,网络会认为所有动作都好得不得了。
Network):输出动作的概率分布。
使用上述的
inline">\(V(s)\)
。通常使用均方误差(MSE)损失函数: \underbrace{L_t^{CLIP}(\***ta)}_{\text{策略提升}} \underbrace{L_t^{VF}(\***ta)}_{\text{价值拟合}} \underbrace{S[\pi_\***ta](s_t)}_{\text{熵正则化(鼓励探索)}}class="math
c_1
c_2
\]
id="13-ddpg-算法-deep-deterministic-policy-gradient">13.
框架中,用于解决连续控制问题。
\]
由于策略是确定性的,必须手动添加噪声(如
是目前公认的在连续控制任务中性能最强、最稳定的算法之一。
它引入了
color="red">最大熵强化学习
智能体的目标不仅是最大化累积奖励,还要最大化策略的熵
inline">\(H(\pi)\):衡量策略的随机程度。
inline">\(\alpha\)
:温度系数,控制熵的重要性。color="blue">最大化熵鼓励智能体在获得高回报的同时,尽可能保持动作的多样性,从而大幅提升探索能力和鲁棒性
。在很多任务中,设计一个完美的奖励函数非常困难(例如:教机器人“优雅”地走路)。
color="blue">专家示范(Imitation
id="151-行为克隆-behavior-cloning-bc">15.1
color="red">行为克隆(Behavior
color="blue">让智能体(Agent)直接模仿专家(Expert)在特定状态(State)下执行的动作(Action),从而学习到完成任务所需的策略(Policy)。
a\),最小化专家动作与策略输出动作的误差。
color="red">复合误差
(CompoundingError)。
如果智能体在某个时刻产生了一点偏差,进入了专家未曾遇到过的状态(Out-of-Distribution),智能体不知所措,误差会迅速累积导致任务失败。
id="152-逆强化学习-inverse-rl-irl">15.2
inline">\(R^*\)
,使得在该奖励下产生的策略与专家行为一致。color="blue">一旦学到了奖励函数,就可以使用任何标准的
inline">\(\pi_\***ta\)。
(Discriminator):试图区分 智能体的目标是欺骗判别器,使其认为自己的行为就是专家的行为。 判别器的输出直接作为奖励信号。
id="16-模型预测控制-model-predictive-control-mpc">16.
主要用于控制领域,通常假设已知环境模型或已学到一个模型。
color="blue">每一步都进行在线规划。
inline">\(a_t\)。
inline">\(s_{t+1}\)
,重复上述步骤(RecedingMethod):随机采样多条动作序列,挑选出表现最好的前
inline">\(k\%\)
,计算它们的均值和方差,用新的高斯分布再次采样,迭代收敛。inline">\(P_\***ta(s'|s,a)\)
,利用它们之间预测的方差来评估的关键在于“不敢走太远”。
只在模型确信的范围内进行短途规划,避免模型误差的累积,从而在保证渐近性能的同时极大提高了采样效率。
inline">\(D\)(由其他策略产生),不能与环境交互,如何训练出一个强策略?
inline">\(\pi_\beta(a|s)\)(如
color="red">下界,宁可低估也不高估。
我们希望智能体不仅能完成单一任务,而是能根据指令到达任意目标状态
inline">\(A\)
,结果失败了,最后停在了状态inline">\(B\)
”这个目标来说,它是成功的!inline">\(B\)
,并修正奖励。环境中有多个智能体同时行动,共享环境或彼此竞争。
color="blue">马尔可夫性质在单一智能体视角下失效了。
color="blue">简单但不稳定,难以收敛。
动作空间随智能体数量指数级爆炸, color="red">集中式训练,去中心化执行
color="blue">只要整体利益最大化,个体的利益也倾向于最大化。
混合网络(Mixing
color="blue">所有智能体的状态和动作(集中式信息)。
class="post-meta-container">
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback