96SEO 2026-04-24 08:42 0
AI爬虫和LLM机器人目前占Cloudflare Radar监测到的所有爬虫流量的5.06%,另有3.57%被归类为“混合用途”机器人,它们既用于AI训练也用于传统功能。
按运营商分析AI爬虫流量时,两家运营商占据主导地位:Meta和OpenAI合计占所有AI爬虫流量的70%以上。
零售网站吸收了所有AI爬虫流量的20.56%,但其爬取到推荐的比率却很低——这种双重惩罚使得电商网站成为LLM模型训练的最大补贴者。
数据来源:Cloudflare Radar Bot &爬虫分析,2026 年 1 月 1 日至 3 月 16 日。上次更新:2026 年 3 月 17 日。
爬取与推荐比率衡量的是 AI 爬虫或 LLM 机器人从您的网站爬取的页面数量与它返回的推荐访问数量之比。100:1 的比率意味着机器人在其父平台将单个用户引导至您的网站之前,已经爬取了您网站的 100 个页面。
1. ChatGPT 的推荐份额正在增长。 在 75 天内从 0.13% 增长到 0.24%(增长 85%),是 Cloudflare 数据中增长最快的推荐来源。随着 ChatGPT 搜索的成熟,GPTBot 的爬取与推荐比率应该会继续提高。这使得 ChatGPT 的地理位置优化越来越有价值。
谷歌 5:1 的比率得益于搜索的核心功能:将用户引导至网站。每次点击谷歌搜索结果都是一次推荐。
Anthropic 没有类似的推荐机制——Claude 的回复偶尔会引用来源,但不会生成可被分析追踪的可点击推荐。最佳和最差的抓取推荐比率之间的差距跨越了四个数量级。DuckDuckGo 几乎每抓取一个页面就能返回一次访问,而 Anthropic 的 ClaudeBot 抓取近 24,000 个页面才能返回一次推荐。
像 SEOmator 这样的 SEO 工具可以帮助自动化技术审核方面——分析您的配置、监控 AI 爬虫的访问模式,并识别哪些 LLM 机器人消耗了您的抓取预算却没有提供相应的价值。
策略性地允许使用: PerplexityBot (111:1) 和 Microsoft Copilot (33:1)。这些运营商的抓取推荐比率适中,并通过其 LLM 支持的搜索产品提供不断增长的推荐流量。 Perplexity 尤其擅长在回复中突出引用来源,即使用户不点击链接,也能提升品牌曝光度。
局限性: 抓取与引荐比率衡量的是 Cloudflare 网络中的总体行为。单个网站的比率会因内容类型、域名权重和流量模式而异。引荐归因可能会低估通过中间页面或不包含引荐来源标头的 AI 驱动访问。
对于 SEO 和 GEO 专业人士而言,此比率可作为爬虫访问的投资回报率指标。LLM 机器人抓取的每个页面都意味着原本可以由 Googlebot 抓取的页面,这会直接影响您网站的抓取预算分配。根据我审核企业网站的经验,我发现 AI 爬虫消耗了高达 40% 的总抓取活动——这些资源对自然搜索毫无价值。
GPTBot 被屏蔽的域名最多(438 个,占分析网站的 11.0%),其次是 CCBot 和 ClaudeBot。
拦截率与爬虫的攻击性直接相关——抓取次数最多、返回次数最少的机器人面临的阻力最大。本报告中的所有数据均来自 Cloudflare Radar,它监控 Cloudflare 全球网络中的流量模式。Cloudflare 的网络处理了相当大一部分互联网流量,因此其机器人和爬虫数据能够广泛代表整个网络的流量模式。
使用的数据维度:
Anthropic 的比率在 2026 年呈现出显著的月度环比改善,从 1 月到 3 月下降了 74%。然而,即使是 3 月份改善后的 11,736:1 比率,仍然远远超过其他所有运营商。
您的网站所在的行业会极大地影响您从 AI 爬虫和 LLM 机器人那里获得的回报。金融网站每次从 Perplexity 抓取获得的推荐数量是购物网站的 6 倍。
如果您正在构建 GEO 策略,您的垂直行业将决定哪些机器人值得允许。网站运营者正在通过在其文件中屏蔽 AI 爬虫和 LLM 机器人来应对不利的爬取流量与推荐流量比率。根据 Cloudflare Radar 对来自热门域名的 3,973 个文件的分析,屏蔽行为已经十分普遍。
各行业的主要发现:
虽然 Cloudflare Radar 提供的是汇总数据,但各个网站所有者可以使用服务器日志和分析来估算自己的爬取流量与推荐流量比率。以下是我为客户遵循的流程:
可以放心屏蔽: Meta-ExternalAgent 和任何没有推荐机制的 AI 爬虫。这些机器人不会带来任何回访流量,并且会消耗服务器资源,仅仅是为了运营者的利益。 Meta 是目前最大的 AI 爬虫(占 AI 流量的 36.10%),但它没有任何引荐产品。
Anthropic 的 ClaudeBot 会抓取内容来训练 Claude,但它本身并不运营任何能够带来流量的消费者搜索产品。OpenAI 的 GPTBot 也以类似的方式训练 ChatGPT 的模型,尽管 ChatGPT Search 已经开始产生一些引荐流量——根据 Cloudflare Radar 的数据,这为其贡献了 0.20% 的引荐流量份额。过去六个月,我一直在服务器日志中追踪这两个机器人,当你查看单个网站时,这种差异非常显著。
这种结构性差距意味着,允许 ClaudeBot 访问的网站所有者实际上是在补贴 Anthropic 的模型训练,却没有获得任何可衡量的引荐流量回报。这种权衡是否可以接受,取决于发布商是将 LLM 模型纳入网站视为一种品牌推广形式,还是仅仅将其视为一种流量交换。根据我对数十个客户网站的观察,大多数发布商甚至在查看服务器日志之前都没有意识到这种不平衡的存在。
了解这一比例正成为任何严肃的AI搜索优化策略的核心组成部分。ChatGPT的推荐份额从1月1日的0.13%增长到3月中旬的0.24%,增幅高达85%。按照这个增长速度,ChatGPT到2026年底的推荐份额有望达到1%,届时它将与百度和DuckDuckGo并驾齐驱,成为重要的流量来源。对于地理位置策略制定者而言,这一发展轨迹证实,针对LLM驱动的搜索界面进行优化已不再是可选项。
尽管AI爬虫和LLM机器人的抓取活动十分活跃,但推荐流量仍然主要由谷歌占据。ChatGPT的推荐份额自1月份以来几乎翻了一番,但仍然只占所有推荐流量的0.20%。
是否屏蔽AI爬虫和LLM机器人取决于您的行业、流量目标和长期地理位置策略。
根据我的分析,数据表明,基于操作员行为,有三种不同的方法。当我为 SaaS 客户进行技术 SEO 审核时,我总是会检查特定行业的抓取模式。一家金融垂直领域的 SaaS 公司从 AI 爬虫获得的收益与一家销售消费电子产品的电子商务零售商截然不同。
仔细评估: ClaudeBot(比例为 23,951:1)和 GPTBot(比例为 1,276:1)。两者都会使用您的内容训练 LLM 模型,但流量回报极低。然而,屏蔽这些机器人意味着您的内容将不会出现在 Claude 或 ChatGPT 的回复中——随着 AI 搜索优化的重要性日益增加,这可能会带来长期的地理位置可见性风险。
数据来源: Cloudflare Radar — Bot && SEOmator 的爬虫分析(2026 年 1 月 1 日至 3 月 16 日)分析了海量数据。
人工智能爬虫和 LLM 机器人(GPTBot + ClaudeBot + Meta-ExternalAgent + Amazonbot + PetalBot)合计占所有爬虫流量的 51.69%,超过了传统搜索引擎爬虫的总和。搜索引擎爬虫(Googlebot + Bingbot + YandexBot)占 34.46%。
科技和商业网站在人工智能机器人拦截方面领先,分别有 904 个和 798 个域名实施了禁止规则。这些行业——同时也是被抓取最频繁的行业之一——正在积极反击。
如果您不确定您的 LLM 机器人配置方式,我建议您查看我们的指南,了解什么是 LLM 以及如何将其作为更广泛的 GEO 和 AI 爬虫访问策略的一部分进行生成。Meta 的主导地位值得注意,因为 Meta-ExternalAgent 根本没有出现在抓取与推荐比率数据中——它为 Meta AI(为 Instagram、WhatsApp 和 Facebook AI 功能提供支持的 LLM)抓取内容,但没有任何推荐机制。Meta 是最大的 AI 爬虫,占 AI 流量的 36.10%,但对发布商没有任何回报。我建议今年与我合作过的所有客户都屏蔽 Meta-ExternalAgent,因为允许它访问没有任何好处。
对于管理企业网站的 SEO 和 GEO 专业人员来说,数据支持选择性屏蔽。
零售网站如果从 ClaudeBot 获得的访问比例高达 10,971:1,那么屏蔽 ClaudeBot 就具有明确的商业理由;而金融网站如果从 PerplexityBot 获得的访问比例为 42:1,则有理由保持开放访问。字节跳动的访问比例恶化——从 2.6:1 升至 5.5:1——与 TikTok 的推荐份额从 1 月初的约 13% 下降到 2 月中旬的约 3% 并趋于稳定相吻合,与此同时,TikTok 的爬虫活动却有所增加。我在之前的分析中记录了类似的 AI 机器人流量模式,并按国家/地区进行了分析,结果显示地理爬虫行为也呈现出类似的波动性。
ClaudeBot 的改善可能反映的是爬虫强度的降低,而不是推荐量的增加,因为 Anthropic 尚未推出搜索产品。
每日时间序列数据证实了这一点:ClaudeBot 的抓取与访问比例在 1 月 1 日达到峰值 136,416:1,并稳步下降至 3 月中旬的 6,393:1。根据 Cloudflare Radar 2026 年 1 月至 3 月的数据,Anthropic 的 ClaudeBot 平均每向网站所有者发送一次推荐,就会抓取 23,951 个页面。OpenAI 的 GPTBot 的抓取与访问比例为 1,276:1,而 DuckDuckGo 的比例接近,为 1.5:1。
我花了数周时间分析这些数据,构建了我认为对生成式引擎优化 (GEO) 策略最具实用性的指标:抓取与推荐比率——即 AI 爬虫或 LLM 机器人抓取的页面数量除以其母平台(ChatGPT、Claude、Perplexity、Grok、Copilot)返回的推荐数量。日期范围: 2026 年 1 月 1 日至 3 月 16 日
AI 爬虫和传统搜索引擎之间的抓取与推荐比率差距揭示了网络经济运作方式中的结构性矛盾。搜索引擎历来遵循一种隐性协议:它们抓取内容并返回流量。而像 ChatGPT、Claude 和 Grok 这样的 LLM 平台正在打破这种协议,因为它们在没有互惠流量机制的情况下抓取内容。
保持开放: Google (5:1)、DuckDuckGo (1.5:1) 和传统搜索引擎爬虫。
这些运营商带来的可衡量的推荐流量足以证明其抓取量的合理性。从所有机器人流量(不仅限于 AI)的抓取器用户代理占比来看,Googlebot 仍然领先,但 GPTBot 和 ClaudeBot 目前分别位列第二和第三。
按季度监控这些比例并根据可衡量的回报调整其 AI 抓取器访问策略的网站所有者,其表现将优于那些要么完全屏蔽要么完全允许的网站所有者。这是数据驱动的地理位置策略的基础。
2. 屏蔽率正在上升。 已有 11% 的顶级域名屏蔽了 GPTBot,LLM 平台面临着数据访问问题。如果屏蔽速度加快,AI 模型将使用越来越缺乏代表性的数据进行训练,这可能会降低用户的响应质量。
3.行业特定的地理位置策略将会涌现。Perplexity 在金融(42:1)和购物(182:1)领域的爬虫访问率相差 4.3 倍,这意味着不同垂直领域的出版商将采用不同的爬虫访问策略。一刀切的规则无法反映 AI 爬虫管理中微妙的经济效益。这个指标很重要,因为 AI 爬虫(例如 GPTBot、ClaudeBot、PerplexityBot 等)在为它们的 LLM 模型索引内容时会消耗您的服务器资源(带宽、计算能力和爬取预算)。推荐流量衡量的是投资是否能通过实际返回您网站的流量获得回报。
数据中的三个趋势指向了未来的发展方向:
零售和软件网站相对于其在网络上的占比而言,获得了AI爬虫和LLM机器人不成比例的关注。
Anthropic的23,951:1与谷歌的5:1相比,反映的是商业模式的根本差异,而非效率低下。ClaudeBot作为一个训练数据爬虫运行——它抓取网络内容以提升Claude的能力,但Anthropic并不运营搜索引擎或任何链接回源网站的面向消费者的产品。
LLM机器人现在消耗的爬虫资源比实际带来大部分推荐流量的搜索引擎还要多。这是我在2025年末首次注意到的一个根本性转变,而且这一趋势还在加速发展。
我们之前对人工智能搜索引擎优化统计数据的研究预测到了这个转折点,但它的到来比我们预期的要快得多。TikTok 的推荐份额从 1 月初的 13.3% 下降到 2 月中旬的约 3.5%,并一直维持在这个水平——下降了 74%,这与该平台上内容消费模式的变化相吻合。我一直在密切关注这一下降趋势,因为它对我们客户群的内容分发策略有着重大影响。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback