百度SEO

百度SEO

Products

当前位置:首页 > 百度SEO >

《强化学习》笔记:如何有效提升决策能力?

96SEO 2026-02-20 08:38 8


  • 动手学强化学习:https://hrl.boyuai.com/
  • 《强化学习》笔记:如何有效提升决策能力?

    inline">\(s\)):

  • 动作
  • inline">\(a\)):

  • 奖励
  • inline">\(r\)):

    智能体执行动作后,环境返回的即时标量反馈信号,表示动作的好坏。

  • 策略
  • inline">\(\pi\)):

    inline">\(G_t\)):

    从时刻

    inline">\(V(s)\):

    在状态

    inline">\(V(s)\).

    color="blue">预测器,预测从现在开始一直到游戏结束,我总共能拿多少分

    color="red">序列决策问题。

    与监督学习不同,强化学习的样本不是独立同分布的,

    color="blue">智能体的动作会改变环境的状态,进而影响未来的数据分布。

    根拉杆(动作),每根拉杆后的奖励服从一个特定的概率分布。

    智能体的目标是在

    尝试拉动那些虽然目前平均奖励不高,但可能存在更大潜力的拉杆。

  • 利用
  • inline">\(\epsilon\)-greedy

    策略:

    color="blue">不仅看平均奖励,还要看被探索的次数(探索越少,不确定性越大,加分越多)。

    分布,维护该分布的参数。

    每次采样时,从每个拉杆的分布中采样一个值,选择采样值最大的拉杆。

    如果一个状态的未来只取决于当前状态,而与过去的历史无关,则该状态具有

    inline">\(\gamma\),就可以得到马尔可夫奖励过程(Markov

    reward

    process)。

    一个马尔可夫奖励过程由构成,各个组成元素的含义如下所示。

      inline">\(P\)是状态转移矩阵。

    • color="red">折扣因子(discount

      inline">\([0,1)\)。

      引入折扣因子的理由为远期利益具有一定不确定性,有时我们更希望能够尽快获得一些奖励,所以我们需要对远期利益打一些折扣。

      接近

      color="blue">所有奖励的衰减之和称为回报

      的期望回报(即从这个状态出发的未来累积奖励的期望)被称为这个状态的价值(value)。

      所有状态的价值就组成了价值函数(value

      function):

      &=r(s)+\gamma\sum_{s^\prime\in

      \end{aligned}

      \]

    • 其中数学期望的计算公式:

      class="math

      color="red">贝尔曼方程(Bellman

      是状态个数,因此这种方法只适用很小的马尔可夫奖励过程。

      求解较大规模的马尔可夫奖励过程中的价值函数时,可以使用动态规划(dynamic

      programming)算法、蒙特卡洛方法(Monte-Carlo

      method)和时序差分(temporal

      difference).

      马尔可夫过程和马尔可夫奖励过程都是自发改变的随机过程;而如果有一个

      color="blue">外界的“刺激”来共同改变这个随机过程,就有了马尔可夫决策过程(Markov

      decision

      process,MDP)。

      我们将这个来自外界的刺激称为

      color="red">智能体(agent)的动作,

      color="blue">在马尔可夫奖励过程(MRP)的基础上加入动作,就得到了

      color="red">马尔可夫决策过程(MDP)。

      马尔可夫决策过程中:

        inline">\(P(s^\prime|s,a)\)

        inline">\(\pi(a|s)=P(A_t=a|S_t=s)\),表示在输入状态

        inline">\(\pi\),得到的期望回报:

        &=r(s,a)+\gamma\sum_{s^\prime\in

        \end{aligned}

        \]

        状态价值函数与动作价值函数的关系:

        E[G_t|S_t=s]\approx\frac1N\sum^N_{i=1}G_t^{(i)}

        inline">\(V(s)=M(s)/N(s)\).

        计算回报的期望时,除了可以把所有的回报加起来除以次数,还有一种增量更新的方法:

          V(s)+\frac1{N(s)}(G-V(S))\).

          inline">\(V^\pi(s)\)。

          利用贝尔曼期望方程进行迭代更新,直到收敛:

          不等待策略评估完全收敛,而是直接把策略提升融合进迭代步骤中。

          利用

          color="blue">价值迭代通常比策略迭代收敛得更快,因为它在每一步都进行了“截断”的策略优化。

          蒙特卡洛方法必须要等整个序列结束之后才能计算得到这一次的回报,而时序差分方法只需要当前步结束即可进行计算。

          TD

          color="red">免模型

          (Model-free)

          inline">\(r\),直接通过与环境交互产生的经验数据进行学习。

          结合了蒙特卡洛(MC)和动态规划(DP)的思想。

            (Bootstrapping)(利用后继状态的估计值更新当前状态,不需要等回合结束)。

            inline">\(s_t\),采取动作后获得了奖励

            inline">\(s_{t+1}\)。

            \underbrace{V(s_t)}_{\text{Current

            Estimate

            inline">\(a'\)。

            更新公式:

            inline">\(\epsilon\)-greedy,它在学习时会考虑到探索带来的风险(比如可能会掉进陷阱),因此它会避开危险区域。

            时,不关心下一步实际做了什么,而是直接假设下一步采取了最优动作(max操作)。

            Q-learning

            display">\[Q(s_t,a_t)\leftarrow

            Q(s_t,a_t)+\alpha[R_t+\gamma\max_aQ(s_{t+1},a_t)-Q(s_t,a_t)]

              inline">\(\epsilon\)-greedy

              策略根据

              inline">\(r,s^\prime\).

            • Q(s_t,a_t)+\alpha[R_t+\gamma\max_aQ(s_{t+1},a_t)-Q(s_t,a_t)]\)。

            • Model-based:利用真实经验学习环境模型

              color="blue">在“思维”中模拟。

              从模型中随机生成状态-动作对,模拟环境反馈,再次更新

              inline">\(\hat{a}\)。

            • 查询模型得到
            • 的优势在于极大地提高了样本利用率,在与环境交互次数较少的情况下,通过“反思”(Planning)能更快收敛。

              中随机采样一个小批量(Batch)数据进行梯度下降。

            • color="blue">打破了数据间的时序相关性,使样本满足独立同分布假设,且提高了数据利用率。

            • 构建两个结构相同的网络:当前网络

              color="blue">固定了优化的目标,避免“追逐移动目标”导致的训练发散。

            • 的缺陷(如过估计、采样效率低等),后续衍生出一系列改进算法(统称

              值被高估(Overestimation)。

              • 使用当前网络选择动作:

                class="math

              • 使用目标网络评估动作:

                class="math

                color=red>状态价值函数</font>

                <font

                a)$:评估在该状态下采取某动作相对于平均表现的优势。

                $A(s,

                Q(s,

                color="blue">这使得模型能更快地学习到某些状态下“做什么动作都不重要”这一事实。

                id="83-优先经验回放-prioritized-experience-replay-per">8.3

                优先经验回放

                |\delta_i|^\alpha\)。

              • 另外,为了抵消非均匀采样带来的偏差,更新参数时需乘以重要性采样权重

                基于值函数的方法主要是学习值函数(如

                inline">\(\epsilon\)-greedy);而基于策略的方法则是直接显式地学习一个目标策略。

                策略梯度是基于策略的方法的基础。

                策略梯度方法

                color="blue">直接对策略

                inline">\(\pi_\***ta(a|s)\)

                color="blue">假设目标策略是一个随机性策略,并且处处可微。

                我们可以用一个线性模型或者

                color="blue">神经网络模型来为这样一个策略函数建模。

                然后使用梯度上升,

                color="blue">使用当前策略

                采样得到的数据来计算策略的梯度,来最大化reward。

                \mathbb{E}_{\pi_\***ta}[G]\)。

                利用梯度上升更新参数

                Function)。

                这个概念在Diffusion中也有用到。

                \]

                缺点

                color="blue">方差极大,收敛慢(因为

                的方差,引入一个Critic来估计状态价值函数

                inline">\(\pi_\***ta(a|s)\),负责输出动作。

              • inline">\(V_w(s)\),负责评价动作的好坏。

              • inline">\(\delta^2\)。

                0\),说明动作比预期的好,增加其概率;反之减少。

                难以确定。

                步长太小收敛慢,步长太大可能导致策略剧烈变化,性能断崖式下跌且无法恢复。

              • 目标:最大化代理目标函数(Surrogate

                \frac{\pi_\***ta(a|s)}{\pi_{\***ta_{old}}(a|s)}

                A_{\***ta_{old}}(s,

                D_{KL}(\pi_{\***ta_{old}}(\cdot|s)

                \pi_\***ta(\cdot|s))

                color="red">共轭梯度法来近似求解上述约束优化问题,计算复杂度较高。

                “限制策略更新幅度”的思想,但抛弃了复杂的约束优化,转而使用

                (Clipping)

                inline">\(r_t(\***ta)\),表示在某个状态下,新策略采取动作

                1\),说明新策略比旧策略更倾向于该动作。

              • 如果
              • 1\),说明新策略降低了该动作的概率。

                color="red">Advantage):

                color="blue">在状态

                inline">\(a\),比该状态下的“平均表现”好多少?

                  0\)(动作好):我们希望增加该动作的概率(即希望

                  0\)(动作差):我们希望减小该动作的概率(即希望

                  1+\epsilon)\):这是“安全锁”。

                  通常

                  \underbrace{V(s_t)}_{\text{预期表现}}\).

                • 分作为权重去更新策略,网络会认为所有动作都好得不得了。

                • Network):输出动作的概率分布。

                  使用上述的

                  inline">\(V(s)\)。

                  通常使用均方误差(MSE)损失函数:

                  class="math

                  \underbrace{L_t^{CLIP}(\***ta)}_{\text{策略提升}}

                  c_1

                  \underbrace{L_t^{VF}(\***ta)}_{\text{价值拟合}}

                  c_2

                  \underbrace{S[\pi_\***ta](s_t)}_{\text{熵正则化(鼓励探索)}}

                  \]

                  id="13-ddpg-算法-deep-deterministic-policy-gradient">13.

                  DDPG

                  框架中,用于解决连续控制问题。

                • 确定性策略:Actor

                  \]

                • 由于策略是确定性的,必须手动添加噪声(如

                  Ornstein-Uhlenbeck

                  是目前公认的在连续控制任务中性能最强、最稳定的算法之一。

                  它引入了

                  color="red">最大熵强化学习

                  智能体的目标不仅是最大化累积奖励,还要最大化策略的

                  inline">\(H(\pi)\):衡量策略的随机程度。

                • inline">\(\alpha\):温度系数,控制熵的重要性。

                • color="blue">最大化熵鼓励智能体在获得高回报的同时,尽可能保持动作的多样性,从而大幅提升探索能力和鲁棒性。

                • Off-policy:可以使用

                  Replay

                  在很多任务中,设计一个完美的奖励函数非常困难(例如:教机器人“优雅”地走路)。

                  (Imitation

                  color="blue">专家示范(Expert

                  id="151-行为克隆-behavior-cloning-bc">15.1

                  行为克隆

                  color="red">行为克隆(Behavior

                  Cloning,简称

                  color="blue">让智能体(Agent)直接模仿专家(Expert)在特定状态(State)下执行的动作(Action),从而学习到完成任务所需的策略(Policy)。

                • a\),最小化专家动作与策略输出动作的误差。

                • 缺点:存在

                  color="red">复合误差(Compounding

                  Error)。

                  如果智能体在某个时刻产生了一点偏差,进入了专家未曾遇到过的状态(Out-of-Distribution),智能体不知所措,误差会迅速累积导致任务失败。

                • id="152-逆强化学习-inverse-rl-irl">15.2

                  逆强化学习

                • 逻辑:假设专家的行为是基于某个未知的奖励函数

                  inline">\(R^*\),使得在该奖励下产生的策略与专家行为一致。

                • color="blue">一旦学到了奖励函数,就可以使用任何标准的

                  算法(如

                  inline">\(\pi_\***ta\)。

                • (Discriminator):试图区分

                  智能体的目标是欺骗判别器,使其认为自己的行为就是专家的行为。

                  判别器的输出直接作为奖励信号。

                  id="16-模型预测控制-model-predictive-control-mpc">16.

                  模型预测控制

                  主要用于控制领域,通常假设已知环境模型或已学到一个模型。

                  color="blue">每一步都进行在线规划。

                    inline">\(a_t\)。

                  1. 循环:进入下一个状态

                    inline">\(s_{t+1}\),重复上述步骤(Receding

                    Horizon

                    Method):随机采样多条动作序列,挑选出表现最好的前

                    inline">\(k\%\),计算它们的均值和方差,用新的高斯分布再次采样,迭代收敛。

                  2. 学习模型:使用集成学习(Ensemble)训练多个神经网络动力学模型

                    inline">\(P_\***ta(s'|s,a)\),利用它们之间预测的方差来评估

                  3. 生成数据:利用学到的模型进行

                  4. 策略更新:将真实环境数据和模型生成的“想象数据”混合,用来训练

                    SAC

                    的关键在于“不敢走太远”。

                    只在模型确信的范围内进行短途规划,避免模型误差的累积,从而在保证渐近性能的同时极大提高了采样效率。

                    inline">\(D\)(由其他策略产生),不能与环境交互,如何训练出一个强策略?

                  5. 由于没有环境交互来修正这个错误,智能体会认为这个错误动作是“神之一手”,最终导致策略崩溃。

                  6. inline">\(\pi_\beta(a|s)\)(如

                    BCQ

                    color="red">下界,宁可低估也不高估。

                  7. 我们希望智能体不仅能完成单一任务,而是能根据指令到达任意目标状态

                  8. 问题:智能体尝试到达目标

                    inline">\(A\),结果失败了,最后停在了状态

                    inline">\(B\)”这个目标来说,它是成功的!

                  9. 操作:将这条轨迹存入回放池时,

                    inline">\(B\),并修正奖励。

                  10. 这样,每一次尝试(无论成败)都能提取出成功的经验。

                  11. 环境中有多个智能体同时行动,共享环境或彼此竞争。

                    color="blue">马尔可夫性质在单一智能体视角下失效了。

                    color="blue">简单但不稳定,难以收敛。

                  12. 完全中心化:将所有智能体视为一个超级智能体,输入联合状态,输出联合动作。

                    动作空间随智能体数量指数级爆炸,

                  13. color="red">集中式训练,去中心化执行

                    • 训练时:利用上帝视角(所有人的观测和动作)来训练

                      color="blue">只要整体利益最大化,个体的利益也倾向于最大化。

                      混合网络(Mixing

                      color="blue">所有智能体的状态和动作(集中式信息)。

                    • Actor
                    • 这种方法允许智能体在复杂的博弈环境中学会合作或竞争。

                    • class="post-meta-container">



                      SEO优化服务概述

                      作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。

                      百度官方合作伙伴 白帽SEO技术 数据驱动优化 效果长期稳定

                      SEO优化核心服务

                      网站技术SEO

                      • 网站结构优化 - 提升网站爬虫可访问性
                      • 页面速度优化 - 缩短加载时间,提高用户体验
                      • 移动端适配 - 确保移动设备友好性
                      • HTTPS安全协议 - 提升网站安全性与信任度
                      • 结构化数据标记 - 增强搜索结果显示效果

                      内容优化服务

                      • 关键词研究与布局 - 精准定位目标关键词
                      • 高质量内容创作 - 原创、专业、有价值的内容
                      • Meta标签优化 - 提升点击率和相关性
                      • 内容更新策略 - 保持网站内容新鲜度
                      • 多媒体内容优化 - 图片、视频SEO优化

                      外链建设策略

                      • 高质量外链获取 - 权威网站链接建设
                      • 品牌提及监控 - 追踪品牌在线曝光
                      • 行业目录提交 - 提升网站基础权威
                      • 社交媒体整合 - 增强内容传播力
                      • 链接质量分析 - 避免低质量链接风险

                      SEO服务方案对比

                      服务项目 基础套餐 标准套餐 高级定制
                      关键词优化数量 10-20个核心词 30-50个核心词+长尾词 80-150个全方位覆盖
                      内容优化 基础页面优化 全站内容优化+每月5篇原创 个性化内容策略+每月15篇原创
                      技术SEO 基本技术检查 全面技术优化+移动适配 深度技术重构+性能优化
                      外链建设 每月5-10条 每月20-30条高质量外链 每月50+条多渠道外链
                      数据报告 月度基础报告 双周详细报告+分析 每周深度报告+策略调整
                      效果保障 3-6个月见效 2-4个月见效 1-3个月快速见效

                      SEO优化实施流程

                      我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:

                      1

                      网站诊断分析

                      全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。

                      2

                      关键词策略制定

                      基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。

                      3

                      技术优化实施

                      解决网站技术问题,优化网站结构,提升页面速度和移动端体验。

                      4

                      内容优化建设

                      创作高质量原创内容,优化现有页面,建立内容更新机制。

                      5

                      外链建设推广

                      获取高质量外部链接,建立品牌在线影响力,提升网站权威度。

                      6

                      数据监控调整

                      持续监控排名、流量和转化数据,根据效果调整优化策略。

                      SEO优化常见问题

                      SEO优化一般需要多长时间才能看到效果?
                      SEO是一个渐进的过程,通常需要3-6个月才能看到明显效果。具体时间取决于网站现状、竞争程度和优化强度。我们的标准套餐一般在2-4个月内开始显现效果,高级定制方案可能在1-3个月内就能看到初步成果。
                      你们使用白帽SEO技术还是黑帽技术?
                      我们始终坚持使用白帽SEO技术,遵循搜索引擎的官方指南。我们的优化策略注重长期效果和可持续性,绝不使用任何可能导致网站被惩罚的违规手段。作为百度官方合作伙伴,我们承诺提供安全、合规的SEO服务。
                      SEO优化后效果能持续多久?
                      通过我们的白帽SEO策略获得的排名和流量具有长期稳定性。一旦网站达到理想排名,只需适当的维护和更新,效果可以持续数年。我们提供优化后维护服务,确保您的网站长期保持竞争优势。
                      你们提供SEO优化效果保障吗?
                      我们提供基于数据的SEO效果承诺。根据服务套餐不同,我们承诺在约定时间内将核心关键词优化到指定排名位置,或实现约定的自然流量增长目标。所有承诺都会在服务合同中明确约定,并提供详细的KPI衡量标准。

                      SEO优化效果数据

                      基于我们服务的客户数据统计,平均优化效果如下:

                      +85%
                      自然搜索流量提升
                      +120%
                      关键词排名数量
                      +60%
                      网站转化率提升
                      3-6月
                      平均见效周期

                      行业案例 - 制造业

                      • 优化前:日均自然流量120,核心词无排名
                      • 优化6个月后:日均自然流量950,15个核心词首页排名
                      • 效果提升:流量增长692%,询盘量增加320%

                      行业案例 - 电商

                      • 优化前:月均自然订单50单,转化率1.2%
                      • 优化4个月后:月均自然订单210单,转化率2.8%
                      • 效果提升:订单增长320%,转化率提升133%

                      行业案例 - 教育

                      • 优化前:月均咨询量35个,主要依赖付费广告
                      • 优化5个月后:月均咨询量180个,自然流量占比65%
                      • 效果提升:咨询量增长414%,营销成本降低57%

                      为什么选择我们的SEO服务

                      专业团队

                      • 10年以上SEO经验专家带队
                      • 百度、Google认证工程师
                      • 内容创作、技术开发、数据分析多领域团队
                      • 持续培训保持技术领先

                      数据驱动

                      • 自主研发SEO分析工具
                      • 实时排名监控系统
                      • 竞争对手深度分析
                      • 效果可视化报告

                      透明合作

                      • 清晰的服务内容和价格
                      • 定期进展汇报和沟通
                      • 效果数据实时可查
                      • 灵活的合同条款

                      我们的SEO服务理念

                      我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。

                      提交需求或反馈

                      Demand feedback