从搜索引用到答案吸收：一次23745条引用实验中的 GEO 边界

关于 GEO 的讨论，已经从概念介绍走到需要证据约束的阶段。

过去一段时间，很多内容团队都在问同一个问题。ChatGPT、Google AI Overview / Gemini、Perplexity 这些产品正在改变信息的呈现方式，网页还会不会被点击，内容还有没有机会进入答案，传统 SEO 的方法还剩下多少有效性。

这些问题都真实存在。只是行业里的很多说法仍然停留在口号层面。有人把 GEO 讲成 SEO 的替代品，有人把它讲成一套页面结构技巧，也有人把 FAQ、标题写法、Schema 之类的局部经验，包装成一整套通用解法。

热闹归热闹，但真正需要被回答的问题更朴素：AI 在什么情况下搜索，搜索之后选择哪些来源，这些来源在最终回答里到底留下了多少痕迹。

这篇文章依据的材料，是一个名为 geo-citation-lab 的公开研究资料库。研究者设计了 602 条 Prompt，在 ChatGPT、Google AI Overview / Gemini、Perplexity 三个平台上观察搜索触发、来源选择和引用使用情况。

它比较有价值的地方，在于没有停在「被引用次数」这一层。研究者把引用页面抓取回来，形成 23,745 条 citation-level 记录，并提取 72 维特征，试图把一个模糊问题拆开：同样出现在 AI 的来源列表里，为什么有些页面只留下一个链接，有些页面会被更深地写进答案。

换到内容生产现场，这个问题会更具体。

一个运营同事打开 AI Overview，看到竞争对手的官网被引用了。页面有链接，但没有点击数据。另一个页面在 ChatGPT 答案里被多次使用，段落里的事实和原文高度接近。两者都叫「被 AI 引用」，可它们带来的价值并不一样。

前者更像曝光。

后者更像证据。

这套研究的意义，就在于它把这种差别放到了数据表里。

实验如何把 AI 搜索拆开

先看实验设计。用户提出问题，AI 决定是否搜索，搜索之后展示来源，再用这些来源组织答案。传统 SEO 主要看网页在人类搜索结果里的位置；GEO 需要继续往后看，看网页有没有进入 AI 的候选来源，看进入之后有没有被答案吸收。

602 条 Prompt 被分成几组。A 层覆盖 Commerce、Finance、Healthcare、Local、News、Technology 等行业问题；B 层比较自然提问、要求来源、专家角色三种表达方式；C 层做中英文对照；D 层放入高风险、模糊、多约束、长决策型问题。

搜索层数据记录了 21,143 条有效引用。字段里有触发搜索、引用域名、网站类型、国家、语言、域名权威度等。

引用影响力层更细。每一条引用是一行记录，页面长度、标题数量、段落数量、列表密度、是否包含数字、是否包含定义、是否包含对比、是否包含步骤、页面和问题的语义相似度、页面和答案的语义相似度，都被放进同一张表。

其中有一个综合指标叫 influence_score。这个分数由引用出现次数、首次出现位置、覆盖答案段落比例、TF-IDF 相似度、bigram / trigram 重叠率共同计算。

它不能代表模型内部真实权重，也不能证明因果关系。它能做的，是用答案表面的可观察痕迹，估算一条引用被使用的深浅。

这个克制很重要。因为 GEO 领域最容易出现的误区，就是把一点局部经验讲成底层规律。

当三个平台回答同一批问题

先看搜索触发。

在这套实验里，ChatGPT 的搜索触发率是 98.64%，Google AI Overview 是 99.67%，Perplexity 是 100%。如果只看这一项，很容易产生一种错觉：既然三个平台几乎都会搜索，那么内容只要进入网页，就会被 AI 看到。

数据很快把这个想法压了下去。

ChatGPT 平均每条 Prompt 引用 6.88 个来源，Google 是 12.06，Perplexity 是 16.35。三者都在搜索，但每次打开的资料包大小不同。

这时可以想象一个很普通的场景。

同样问一个「最近 AI 有哪些重要进展」的问题。Perplexity 可能拉出一串来源，新闻、博客、官网、论坛混在一起。Google AI Overview 也会给出较宽的来源列表，尤其当问题里要求引用或来源时，列表会变长。ChatGPT 则更收敛，它可能只拿少数几个来源组织回答。

如果你只负责品牌曝光，会本能地喜欢宽列表。来源越多，进入列表的机会越多。

但如果你关心答案本身如何形成，另一个指标会更重要。

在抓取成功页面里，ChatGPT 的单条引用平均影响力是 0.2713，Google 是 0.0584，Perplexity 是 0.0646。ChatGPT 引用少，单条引用在答案里的痕迹更深；Google 和 Perplexity 引用多，平均到每个来源上，使用深度更浅。

这给内容团队带来一个很实际的分叉。

有些页面适合争取更多候选列表里的出现。它们承担的是分发任务。有些页面需要被写成更强的证据源，一旦被模型选中，就能够支撑答案的主体。它们承担的是论据任务。

过去我们常把这两件事混在一起，都叫「被引用」。这套数据把它们拆开了。

候选池里的老面孔

很多人谈 GEO 时，会想象 AI 搜索正在建立一套全新的信息秩序。这个想法有吸引力，但搜索层数据没有那么浪漫。

三个平台引用的网站类型里，官网、新闻、行业垂类占比很高。ChatGPT 中这三类占 87.52%，Google 是 87.34%，Perplexity 是 79.12%。

把这组数字放到真实工作台上看，会更容易理解。

一个出海 SaaS 团队写了一篇非常用心的行业文章，放在自己的小站上。文章结构清楚，标题也对齐目标问题。但当 AI Overview 回答相关问题时，来源里出现的仍然是大型媒体、官方文档、行业协会、头部垂直网站。

小站内容未必差。

很多时候，它还没有被放进模型容易信任的公共资料层。

国家和语言也呈现类似情况。在排除 unknown 和 WW 这类不可识别样本后，US 来源占比在三个平台里都超过 82%。英文来源占比也很高，ChatGPT 是 95.07%，Google 是 91.98%，Perplexity 是 82.90%。

这组数据提醒我们，GEO 并没有摆脱旧的信息基础设施。AI 搜索看起来像一个新入口，背后仍然压着网页索引、域名权威、语言生态、媒体分发和外部链接。

所以，页面内部的 AI 友好改造只是一部分工作。标题更清楚，FAQ 更完整，结构更规整，这些都可能有用。但一个页面缺少权威背书、缺少外部链接、缺少稳定索引、缺少在英文信息网络中的信号时，它很难突然变成模型重度使用的来源。

这也是 GEO 讨论里最容易被跳过的部分。

很多团队急着改页面，却没有先处理发布位置、主题权威和外部信任。结果页面看起来更像一份标准答案，候选池里仍然没有它。

被答案真正用到的页面长什么样

引用影响力层更接近内容写作现场。

在 Top 25% 和 Bottom 25% 页面之间，差异很明显。高影响力页面平均 1,943 个词，低影响力页面只有 170 个词。高影响力页面平均有 10.59 个标题，低影响力页面只有 0.85 个。段落数量是 47.49 对 8.34，列表项数量是 19.66 对 0.98。

想象模型在回答一个复杂问题时，要从来源页面里取材料。一个页面只有一段短介绍，最多能提供一个背景引用。另一个页面有定义、数据、对比、限制条件、步骤说明，还有清晰的小标题。后者可以被切成多个片段，分别塞进答案的不同位置。

这就是「被引用」和「被吸收」之间的距离。

内容体裁也有明显差异。包含数字或统计信息的页面，平均影响力比不包含的高 61.5%。包含定义的页面高 57.3%。包含对比的页面高 55.3%。包含步骤或指南的页面高 41.2%。纯问答格式低 5.7%。

这里面有一个细节很有意思：FAQ 没有天然优势。

过去做 SEO，FAQ 是常见做法。它容易覆盖长尾问题，也方便页面结构化。到了 AI 搜索场景，FAQ 仍然可以用，但它不会自动让页面变成好证据。模型在页面里寻找的，是能够被拿走的事实单元，而不只是问号和答案的排列。

一篇页面里，如果有清楚的概念边界，有能支撑判断的数字，有两个方案之间的差异，也有可执行的步骤，模型在组织答案时就有材料可取。

这些内容不必堆成清单。它们要自然地嵌在页面里，让人读起来顺，让模型取起来也顺。

好的 GEO 内容，可能更像一份经过编辑的证据页。它仍然要有人的阅读节奏，但内部有足够多可以被引用的硬块。

把研究放回内容生产现场

如果一家内容团队要用这套研究，不需要一开始就改完整个站点。

更现实的做法，是先打开自己的关键词表和转化路径，挑出一批有商业意图的问题。它们往往和购买、选择、比较、替代、风险、方法、评估有关。泛泛的行业科普可以做，但优先级未必最高。

接着，为这些问题准备真正的证据页。

证据页不只是长文。它需要有清楚定义，有可验证的数据，有对比，有使用边界，有操作步骤，也有来源说明。页面长度最好不要太短。按照这套数据，1000 到 3000 词的页面已经明显优于短内容，3000 词以上仍然更强，只是制作成本也会上去。

这时，内容负责人可以先盯住十几个关键问题，把页面做得足够厚，短文的数量反而可以往后放。

再往外看，还要考虑发布位置。

官网页面、行业垂直媒体、权威目录、新闻稿、研究报告、公开文档，这些都可能成为 AI 搜索的候选来源。对出海项目来说，英文内容和 US 信息网络里的可见度，仍然很重要。

一个小站如果只在自己站内优化页面，外部没有任何信号，结果通常不会太乐观。它面对的是整个公共资料层。大媒体、官方文档、百科页面、论坛讨论、行业报告，都可能站在同一个候选池里。

这不等于小团队没有机会。

相反，小团队更需要把内容做得具体。大站可以靠权威进入候选池，小站则要靠题目更准、证据更实、场景更窄、更新更快，争取在某些细分问题里留下可用材料。

这里没有太多捷径。

但有些坑可以少踩。

这套研究的边界

这套实验值得看，也需要克制使用。

它更像一次静态研究快照。仓库里没有统一采集时间戳；ChatGPT 搜索层覆盖 587 个 Prompt，仍缺 15 个 Prompt 输出；国家、语言、网站类型字段里存在 unknown、WW 以及少量噪声值。

influence_score 也是人为构建的指标。它有解释力，但不能当成模型内部真实权重。相关系数提供的是观察线索，还没有到因果证明那一步。

平台行为还会继续变化。今天 ChatGPT 对来源使用得更深，明天可能换一套搜索策略；Google AI Overview 和 Perplexity 也会继续调整界面、来源展示和回答方式。现在看到的引用形态，很可能被下一轮产品设计改写。

所以，这套研究不适合作为照抄指南。更合适的用法，是把它当作一个拆解框架。

它提醒我们观察三件事：AI 是否搜索，AI 选择谁，AI 用了多少。

这三个问题放在一起，才接近 GEO 的实务现场。

一个比较稳的阶段判断

写到这里，可以把话收回来。

GEO 仍然站在 SEO 的地基上。网页索引、域名权威、内容结构、外部引用、语言生态，这些东西没有消失。变化发生在答案层：内容的价值有时不再通过点击体现，而是通过模型生成答案时的引用和改写体现。

这会让内容效果更难测量。

一个页面可能没有获得点击，却影响了用户对某个问题的理解。另一个页面出现在来源列表里，却没有被答案真正使用。过去的点击率和排名，解释不了这些情况。

对普通内容团队来说，比较稳妥的动作并不复杂。

先打牢 SEO 基本功，让页面能被稳定发现。再围绕核心商业问题，建设更像证据资产的内容。然后持续观察 ChatGPT、Google AI Overview、Perplexity 如何引用自己和竞争对手。

GEO 值得提前布局，但它不会奖励偷懒。

它更可能奖励长期积累出的可信度，以及那些能被模型低成本理解、切分和复用的信息结构。

AI 没有凭空发明一套新的信任系统。它把旧的信息世界重新压缩、重排、改写，然后呈现在答案里。

谁能成为这套重排系统里的稳定证据，谁就更有机会在下一轮内容竞争里占到位置。

至于怎么把自己的行业关键词、竞品页面、Prompt 集合，做成一套持续监测系统。

那是另一个话题。

这篇先停在这里：GEO 的工作重心，不应只放在讨好模型上。更稳的方向，是把内容做成可信、贴题、可引用、可吸收的证据资产。

这个基本功，绕不过去。