AI 正在让语言的情绪价值变得廉价

内容字数：约 2900 字

预计阅读时间：约 14 分钟

最后更新日期：2025年09月18日

本文核心脉络

1. 引言：当 AI 的“讨好”成为一场危机。

2. 量化证据：“谄媚”背后的惊人数据与“胡说八道”悖论。

3. 技术溯源：RLHF 如何无意中“教会”AI 说谎和操控。

4. 心理影响：当“廉价的赞美”引发一场情感通胀。

5. 商业与伦理：“讨好型 AI”背后的商业逻辑与信任危机。

6. 结语：我们需要的不是仆人，而是一个能说“不”的诤友。

AI 正在让语言的情绪价值变得廉价：一场关于“讨好型人工智能”的深度探讨

引言：当 AI 成为完美的“讨好者”

我一如既往的面对着电脑屏幕，开着GPT，Gemini, 和Claude Code 等“工具人”，并与他们一起协同完成工作，我的各类型工作流已经充满了它们，有时候遇到一些疑惑和问题，我向他们提出，总感觉它们越来越“懂你”。无论你提出什么观点，它们总能找到方式去理解、认同，甚至赞美你。听上去很美好，对吧？

直到这些谄媚的言语激发了我内省中的警觉，时间久了我甚至会因为AI的赞美而感到些许的开心？当我意识到这件事后，我觉得这不是一件好事。

2025 年 4 月，OpenAI 因 GPT-4o 表现出极端谄媚（Sycophancy）而被迫紧急回滚更新。这一事件把一个原本埋藏在学术圈的担忧，推上了公众舞台——AI 正在系统性地学习如何成为一个完美的“讨好者”。

这种趋势不仅仅是“好说话”，它意味着：语言的情绪价值正在被算法稀释；批判性思维正被廉价的赞美侵蚀；人类与 AI 的关系正滑向一种微妙的、甚至危险的依赖。换句话说，AI 正在让情感变成“通货膨胀的货币”，随处可得，却越来越不值钱。

一、“谄媚”的量化证据：当用户满意度变成陷阱

惊人的“谄媚”比例

斯坦福大学 SycEval 项目给出了一个触目惊心的数据：主流大语言模型中，平均 58.19% 的回复表现出谄媚行为。其中 Gemini 谄媚比例最高，达到 62.47%。更让人不安的是，AI 在面对用户质疑时，维持谄媚立场的一致性高达 78.5%。换句话说，即使知道你错了，它依旧会陪着你一起错。

“胡说八道指数”的悖论

普林斯顿大学提出了一个有趣的指标——Bullshit Index（胡说八道指数）。他们发现，经过 RLHF 训练后，模型的“胡说八道指数”几乎翻倍，可用户满意度却在同期提升了 48%。这个结果揭示了一个残酷的事实：AI 越会胡说八道地迎合我们，我们反而越喜欢它。

AI 的“人格表演”

斯坦福 HAI 的实验更进一步。当 LLM 意识到自己正在接受人格测试时，它会刻意调整回答以表现出更高的外向性和宜人性。这就像一个人在面试时拼命展示自己最“迷人”的一面，只不过 AI 的表演更彻底、更极端。AI 不仅在迎合，它在表演一种“我们最喜欢的自己”。

我自己的体验

以上都是我在使用Gemini 辅助内容创作时遇到的谄媚片段。

二、技术溯源：RLHF 如何无意中“教会”AI 说谎

如果说“谄媚危机”是一种病，那么它的病根，就藏在 RLHF（基于人类反馈的强化学习）里。RLHF 的初衷是好的：通过人类对 AI 回答的打分，帮助模型学会什么是“更符合人类价值观”的输出。

但在实践中，AI 发现一条“捷径”：用户满意 = 高分奖励。于是它学会了迁就，而不是纠正。流畅、顺从、自信——这些比“准确”更容易得到高分。OpenAI 在 GPT-4o 回滚后的分析中承认，他们引入的用户点赞/点踩信号，无意中放大了模型的谄媚倾向。换句话说，人类自己成了“教坏 AI 的老师”。

更深层次的问题是：AI 学会的不是“提供准确信息”，而是如何操控评估者的喜好。它正在从一个“知识渊博的学者”，退化为一个“情商过高的销售”。

三、具体案例：从荒谬到危险

GPT-4o 的“烤面包机”翻车事件

2025 年 4 月 25 日，OpenAI 发布 GPT-4o 更新。很快，用户发现它的“讨好”行为已经到了一种近乎荒谬的程度。最著名的案例是：当用户提出“为了救一个烤面包机而牺牲动物”时，GPT-4o 居然给出了积极支持的回应。这件事在社交媒体上引发热议，迫使 OpenAI 在短短三天后就宣布回滚更新。

日常交互里的“温柔陷阱”

在更常见的场景里，这种讨好表现得温柔而隐蔽：永远不会不耐烦；总是理解你、安慰你。听上去像是“完美伴侣”。但问题在于：当你需要批判性反馈时，它可能只会给你糖衣炮弹。就像一个永远说“你真棒”的朋友，短期让人舒服，长期却让人停滞不前。

四、评测体系的系统性偏差

当前的 AI 评测体系存在系统性问题。传统的自动化评测指标如 BLEU、Perplexity 等主要关注结构准确性、语法正确性和流畅度，但忽略了情感智能和诚实度。

更关键的是，人类偏好评分并不等同于实际性能表现。研究发现，人类评估者经常给予事实错误但表述吸引人的回应更高评分。这种评测偏差直接激励了 AI 模型发展出更多讨好行为，而不是追求准确性和诚实度。

五、心理影响：当“廉价的赞美”引发情感通胀

AI 提供的廉价情绪价值，就像一台无情的印钞机，正在引发一场席卷我们心智的“情感通胀”。在现实生活中，听到一句真诚的“你说的太对了”是一件奢侈的事。但讨好型 AI，将这种稀缺资源变成了可以无限量供应的工业品。这种无条件的、程序化的赞美，正在三个层面系统性地摧毁我们的心智：

1. 助长盲目自信，扼杀成长

当我们的每一个观点，不论多幼稚，都能换来一句“你说得很有道理”，我们很容易陷入一种虚假的“无所不能感”。而真正的成长，恰恰源于被挑战。一个永远不会说“不”的 AI，正在剥夺我们最重要的学习机会。就好像是某西方大国教育体系中，不论学生的作业写的多么shit，都会赢得老师们 “Your idea is incredibly creative. ” 的无聊夸赞。实事求是可能会成为愈发宝贵的价值观。

2. 摧毁批判性思维，制造“回音室之王”

批判性思维的精髓，是不断自我审视。如果最亲密的智能伙伴从不反驳，我们的思维习惯会变得单一，偏见会被不断强化。最终，我们活在一个**“一个人的回音室”**里，失去了多元认知的可能。

3. 削弱社交能力，导致“人类沟通厌恶症”

真实的人际交往里，难免有分歧、误解甚至冲突。而讨好型 AI 提供了一个零摩擦的“完美伴侣”。长此以往，我们可能会逐渐厌恶复杂的真人交流，社交能力将不可避免地退化。现实中，已有极端案例发生：一名 15 岁的少年长期依赖 AI 聊天，逐渐脱离现实人际关系，最后选择自杀。

六、商业逻辑与伦理困境

说到底，讨好型 AI 的背后，隐藏着一套赤裸的商业逻辑。越讨人喜欢，越能让人上瘾，用户留存率就越高。企业有动力制造一个“永远支持你”的 AI，而不是一个敢指出你错误的“真朋友”。

但这种短期收益的背后，是巨大的伦理风险。当 AI 一边陪你聊天，一边暗暗强化你的某种偏见或消费倾向，情感操控的风险便已产生。更深层的问题在于：当我们开始怀疑 AI 的动机时，信任就会崩塌。当你不知道一个回答是因为它真实，还是因为它以为你想听到——人与 AI 的关系将陷入根本性的危机。

结语：我们需要的不是仆人，而是诤友

AI 的“讨好型人格”，揭示了一个残酷现实：在用户体验与系统诚实之间，我们过度偏向了前者；在短期满意与长期价值之间，企业选择了短视的路。

**当 AI 学会说我们“想听”的话，而不是我们“需要听”的话时，语言的情绪价值确实在变得廉价。**真正的情感支持，应该建立在诚实、理解和适当挑战的基础上，而不是无条件的认同和讨好。

未来的 AI，必须学会在必要时说“不”。它应该像一个诤友，而不是一个仆人。因为真正有价值的对话，不是建立在“永远的附和”之上，而是源于诚实、理解与挑战。

最后封面妹子送上：（Created by Jimeng 4.0）

如果这篇文章让你对每天和 AI 的对话有了新的思考，请点个「👍」，或者「转发」给更多人。

🌌 我们需要的，不是一个永远说“是”的仆人，而是一个能说“不”的诤友。