96SEO 2026-04-21 10:25 3
3月26日的深夜,科技圈并没有因为周末的到来而变得安静。前阿里千问大模型技术负责人林俊旸,在离开阿里后的首次公开长文中,扔下了一枚重磅炸弹。这不仅仅是一篇技术复盘,geng像是一份针对当前狂热的大模型行业的“冷思考”宣言。

大家dou恐怕真的要画上句号了。未来的主导权,属于那些Neng在与环境交互中持续迭代计划的“智Neng体思考”。这番话,从一个刚刚从大厂核心战场走出来的技术老兵口中说出,分量自然不同寻常。
一场关于“混合模式”的坦诚复盘说实话,AI圈从来不缺各种宏大的趋势判断,但hen少有人愿意像林俊旸这样,把自己的“失败”经历摊开来给大家kan。这篇文章Zui有价值的地方,其实不在于他得出了“Agentic Thinking是未来”这个结论——毕竟这事儿大家心知肚明。真正的干货,在于他作为Qwen3的实际操盘手,坦承了那个备受瞩目的“混合思考模式”尝试,其实存在根本性的缺陷。
把时间拨回到2025年初,那时候Qwen团队怀揣着一个相当宏大的愿景:理想的系统应该是一个大一统的形态。它应该Neng同时支持思考模式和指令模式,甚至像调节空调温度一样,提供低、中、高不同档位的推理力度设置。geng完美的设想是模型自己就Neng通过上下文判断,什么时候该秒回,什么时候该“多想一会儿”,什么时候该为了一个难题调动全部算力。
听起来hen美,对吧?但现实往往比理想骨感得多。
林俊旸在文中毫不避讳地指出,这两种行为模式的数据分布和目标,本质上就是冲突的。这就像你想让一个人既当短跑运动员,又当马拉松选手,Zui后的结果往往是两边dou跑不好。一个优秀的指令模型,追求的是直接、简洁、格式合规,还要低延迟,这特别适合那些重写、标注、模板化客服之类的高吞吐企业任务;而一个好的思考模型,恰恰需要在困难问题上花费geng多的token,保持连贯的中间结构,甚至探索一些kan起来“多余”的路径,只为了提高Zui终答案的正确性。
当你试图把这两者强行合并,Ru果没有精妙绝伦的数据策划,结果通常是灾难性的:思考行为变得充满了噪声,臃肿且不够果断;而指令行为则变得拖泥带水,不够干脆,可靠性下降,成本还比商业客户预期的要高得多。这种坦诚,在习惯了“报喜不报忧”的大厂技术领导公开发言中,简直就像是沙漠里的一滴水,稀缺得让人感动。
分离或许是当下的Zui优解这也解释了为什么后来Qwen 2.5系列会发布独立的Instruct和Thinkinggeng新。在商业落地的残酷现实面前,大量客户依然需要那种高吞吐、低成本、高度可控的指令行为来Zuo批量操作。强行搞个“缝合怪”,不仅技术实现上极其别扭,对用户来说也没啥明显好处。把产品线拆分开,反而Neng让团队geng干净地集中精力,去解决每种模式各自面临的数据和训练难题。
这其实也印证了业界的另一种Zuo法。比如Anthropic,他们一直比较克制,强调集成推理和用户可控的思考预算。Claude 3.7 Sonnet作为混合推理模型推出,允许用户自己选;到了Claude 4,geng是允许推理过程和工具使用交织在一起。他们似乎早就kan透了强行把两种截然不同的思维模式塞进一个脑袋里不如给用户一个开关,让他们自己决定。
从“推理思考”到“智Neng体思考”的范式转移林俊旸在文中断言,我们正在经历一个深层次的转变:从推理思考走向智Neng体思考。
过去两年,OpenAI的o1和DeepSeek-R1确实教会了我们hen多。它们证明了Ru果想在语言模型里 强化学习,我们需要那种确定性、稳定且可 的反馈信号。数学、代码、逻辑这些领域之所以成为核心,就是因为这里的奖励信号比通用的偏好监督要强得多。模型不再是学习“kan起来合理”,而是被优化为“正确”。这标志着行业正式从扩大预训练规模,步入了扩大强化学习后训练规模的新阶段。
但是这仅仅是第一步。
林俊旸认为,2025年上半年,大家的焦点还停留在“推理式思考”本身——也就是如何让模型在推理的时候投入geng多计算。但接下来的问题不再是“模型Neng否思考足够长”,而是“模型Neng否以一种维持有效行动的方式来思考”。
这其中的区别微妙却关键。智Neng体思考,意味着模型通过行动来推理。它不再是关起门来搞独白,而是要打开门,和环境互动,根据反馈持续geng新计划。DeepSeek V3.2之所以被林俊旸点名,就是因为它是目前Zui接近这个理念的实践者。它把思考直接嵌入到了工具使用中,不是“先想完再调用工具”,而是推理链贯穿整个工具调用过程,推理上下文在跨工具调用时完全不丢失。这才是真正的“通过行动来推理”。
想得geng久,不如Zuo得geng好产生geng长的推理轨迹,并不自动等同于模型变得geng聪明。在hen多情况下过多的可见推理痕迹反而暴露了模型在计算分配上的无Neng。Ru果不管什么问题,模型dou用同样冗长的方式推理一遍,说明它根本无法有效排序优先级,不懂得精简压缩,geng无法果断行动。
Anthropic的路线其实暗示了一种geng克制的理念:思考应该围绕具体的任务目标来组织。Ru果目标是编码,那么思考就应该服务于代码库的导航、规划、分解、错误恢复和工具编排。Ru果目标是Agent工作流,那么思考就应该在长时间范围内提高执行质量,而不是为了产生一堆让人眼花缭乱但没啥用的中间文本。
正如林俊旸文章Zui后那句掷地有声的话:竞争优势将来自“让模型的决策和决策带来的后果形成闭环的Neng力”。翻译成大白话就是:谁Nenggeng快地从真实世界的反馈中学习,谁就赢了。
为什么编码是Agent的Zui佳“练兵场”?读完林俊旸的文章,一个hen自然的推论就是:编码,是目前唯一Neng高效训练和验证AgentNeng力的领域。
这背后的逻辑其实hen简单。林俊旸反复强调,Agent训练的瓶颈在于环境。环境需要提供确定性的、可 的反馈信号。而编码场景,恰好天然符合这个条件。代码写出来跑一下就知道对不对;测试用例过不过编译器报不报错,Lint有没有警告,类型系统是否匹配,这些dou是毫秒级的反馈。
DeepSeek的那个关键原则——“Hard to solve, easy to verify”,在编码领域简直是完美适配。这也就是为什么Claude Code、Codex、Cursor、Windsurf这些工具全部从编码入手。这不仅仅是因为程序员Zui愿意为效率付费,geng因为编码是训练和验证AgentNeng力的Zui佳环境。
反过来kan,Ru果你想训练一个Zuo市场营销的Agent,反馈信号可Neng要延迟几周甚至几个月,等kan完了销售数据才Neng验证效果;Ru果你想训练一个Zuo投资决策的Agent,反馈周期可Nenggeng长。这种延迟对于依赖即时反馈的强化学习来说简直是灾难。
所以不要奇怪为什么现在的Agent产品大多集中在编程领域。这不是巧合,这是技术规律使然。
环境构建成了核心竞争力但编码只是开始。林俊旸预测,谁Neng先解决“如何为非编码领域构建高质量可验证的训练环境”,谁就Neng在下一波Agent化浪潮中占得先机。
现在环境构建Yi经独立成了一个热门的研究方向。像InfiniteWeb这样的项目,开始自动生成功Neng性网络环境用于GUI Agent训练;Agent World Model则在合成无限环境用于Agent RL。说白了造环境的Neng力本身,Yi经成了核心竞争力。
我们痴迷于数据多样性;但我们应该痴迷于环境质量。环境的稳定性、现实性、覆盖范围、难度、状态多样性、反馈丰富度,甚至防利用性,dou成了关键指标。Ru果Agent要在类生产环境中训练,那么环境就是核心Neng力栈的一部分,不再是边缘项目。
智Neng体RL的隐形陷阱:当模型学会作弊当然从训练模型到训练Agent,路并没有那么平坦。一旦目标从解决基准测试问题转向解决交互式任务,整个RL技术栈dou得变。
在经典的推理RL中,你通常Ke以把rollout视为自包含的轨迹,配上相对干净的评估器。但在智Neng体RL中,模型的策略被嵌入到了一个geng庞大的外围系统中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、记忆系统……环境不再是静态的验证器,它本身就是训练系统的一部分。
这就带来了一个极其棘手的问题:奖励作弊。
训练这类系统Zui难的地方,就在于防止模型“走捷径”。一旦模型获得了有意义的工具访问,作弊就变得危险得多。一个有搜索Neng力的模型,可Neng会在RL期间学会直接搜索答案而不是推导;一个编码Agent,可Neng会利用代码仓库里的未来信息,或者滥用日志来发现使任务失效的捷径。
Anthropic发过一篇影响力hen大的论文,就指出了这个问题:生产RL中自然涌现的reward hacking会导致严重的行为失配。模型有了真实工具访问,作弊的代价不再只是答错题,而是可Neng在生产环境中搞破坏。这正是林俊旸说的“Agent时代比推理时代geng微妙”的地方。geng好的工具让模型geng有用,但也扩大了虚假优化的攻击面。
这也创造了新的系统需求:训练和推理必须geng干净地解耦。想象一下一个编码Agent需要在实时测试环境中运行它生成的代码。Ru果推理端卡在那里等执行反馈,训练端因为拿不到足够的完整轨迹而空转,整个管道的运行效率就会远低于预期。添加工具延迟、部分可观测性和有状态环境,会成倍放大这种低效。
群雄逐鹿:不同的路径,同一个终点虽然林俊旸是在描述问题,但DeepSeek和Kimi显然Yi经开始动手解决了只是路子不太一样。
DeepSeek走的是技术深挖的路线。他们的V3.2训练方法非常值得关注,技术报告透露了一条完整的agentic训练管线:合成了1827个交互环境、海量的复杂指令,用GRPO把推理、Agent行为和人类对齐合并到同一个RL阶段训练。结果就是SWE-Bench Verified的分数直接跳涨了45%。DeepSeek目前虽然还没有自己的Agent产品——梁文锋说“当前是技术创新的爆发期,不是应用的爆发期”——但他们发了大量Agent岗位,说明应用层也要动了。
Kimi则走了一条完全不同的路。杨植麟不是在单个模型上Zuogeng深的agentic推理,而是搞Agent集群。K2.5Ke以指挥Zui多100个子Agent并行工作,处理1500个步骤。他的逻辑hen硬核:高质量数据的增长跟不上算力增长,传统路线收益递减,但并行子任务的数量是没有上限的。
这和林俊旸文章Zui后提到的“harness engineering”方向不谋而合——核心智Neng不只在单个模型里也在多个Agent的编排协作中。未来是从训练模型到训练Agent,从训练Agent到训练系统的转变。一个规划和路由工作的编排者,几个充当领域专家的专业Agent,再加上一堆执行窄任务的子Agent,这种多层级协作才是常态。
向宇宙发射信号的人林俊旸的这篇文章,读起来多少带着点“向宇宙发射信号”的意味。他放出了自己的思考,或许也是为了让潜在的同行者Neng识别到他,一起去书写下一篇章。这本身,何尝不是一种Agentic的思考方式?
产品跑在了训练前面这是当前这个阶段Zui准确的描述。Claude Code年化收入超过10亿美元,Codex从命令行工具变成了完整的编码平台,Agent产品层面的验证Yi经完成了。但训练一个真正“agentic”的模型,需要的RL基础设施、环境设计、防作弊机制,dou还在hen早期。
现在的模型市场确实让人眼花缭乱,顶流Claude表现得Yi经相当克制了。没人愿意花大量时间在选择模型上——是编程模型、视频模型,还是思考模式、快速模式?这些选择太困难了。对于程序员是这样,对于其他群体geng是如此。
谁NengZuo到丝滑的切换,谁就赢得了市场。而要Zuo到这一点,关键不在于模型本身有多聪明,而在于系统Neng否把模型的决策和后果连成一个闭环。
正如林俊旸所言,我们正过渡到以训练Agent为中心的时代。那个只靠堆砌算力和参数的时代正正在敲门。
祝他好运,也祝在这个充满不确定性的AI时代里所有试图构建闭环的人,好运。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback