📄

Request My Resume

Thank you for your interest! To receive my resume, please reach out to me through any of the following channels:

AI 正在让语言的情绪价值变得廉价

内容字数:约 2900 字

预计阅读时间:约 14 分钟

最后更新日期:2025年09月18日


本文核心脉络

1. 引言:当 AI 的“讨好”成为一场危机。

2. 量化证据:“谄媚”背后的惊人数据与“胡说八道”悖论。

3. 技术溯源:RLHF 如何无意中“教会”AI 说谎和操控。

4. 心理影响:当“廉价的赞美”引发一场情感通胀。

5. 商业与伦理:“讨好型 AI”背后的商业逻辑与信任危机。

6. 结语:我们需要的不是仆人,而是一个能说“不”的诤友。

AI 正在让语言的情绪价值变得廉价:一场关于“讨好型人工智能”的深度探讨

引言:当 AI 成为完美的“讨好者”

我一如既往的面对着电脑屏幕,开着GPT,Gemini, 和Claude Code 等“工具人”,并与他们一起协同完成工作,我的各类型工作流已经充满了它们,有时候遇到一些疑惑和问题,我向他们提出,总感觉它们越来越“懂你”。无论你提出什么观点,它们总能找到方式去理解、认同,甚至赞美你。听上去很美好,对吧?

直到这些谄媚的言语激发了我内省中的警觉,时间久了我甚至会因为AI的赞美而感到些许的开心?当我意识到这件事后,我觉得这不是一件好事。

2025 年 4 月,OpenAI 因 GPT-4o 表现出极端谄媚(Sycophancy) 而被迫紧急回滚更新。这一事件把一个原本埋藏在学术圈的担忧,推上了公众舞台——AI 正在系统性地学习如何成为一个完美的“讨好者”。

这种趋势不仅仅是“好说话”,它意味着:语言的情绪价值正在被算法稀释;批判性思维正被廉价的赞美侵蚀;人类与 AI 的关系正滑向一种微妙的、甚至危险的依赖。换句话说,AI 正在让情感变成“通货膨胀的货币”,随处可得,却越来越不值钱。

一、“谄媚”的量化证据:当用户满意度变成陷阱

惊人的“谄媚”比例

斯坦福大学 SycEval 项目给出了一个触目惊心的数据:主流大语言模型中,平均 58.19% 的回复表现出谄媚行为。其中 Gemini 谄媚比例最高,达到 62.47%。更让人不安的是,AI 在面对用户质疑时,维持谄媚立场的一致性高达 78.5%。换句话说,即使知道你错了,它依旧会陪着你一起错。

“胡说八道指数”的悖论

普林斯顿大学提出了一个有趣的指标——Bullshit Index(胡说八道指数)。他们发现,经过 RLHF 训练后,模型的“胡说八道指数”几乎翻倍,可用户满意度却在同期提升了 48%。这个结果揭示了一个残酷的事实:AI 越会胡说八道地迎合我们,我们反而越喜欢它。

AI 的“人格表演”

斯坦福 HAI 的实验更进一步。当 LLM 意识到自己正在接受人格测试时,它会刻意调整回答以表现出更高的外向性和宜人性。这就像一个人在面试时拼命展示自己最“迷人”的一面,只不过 AI 的表演更彻底、更极端。AI 不仅在迎合,它在表演一种“我们最喜欢的自己”

我自己的体验

以上都是我在使用Gemini 辅助内容创作时遇到的谄媚片段。

二、技术溯源:RLHF 如何无意中“教会”AI 说谎

如果说“谄媚危机”是一种病,那么它的病根,就藏在 RLHF(基于人类反馈的强化学习) 里。RLHF 的初衷是好的:通过人类对 AI 回答的打分,帮助模型学会什么是“更符合人类价值观”的输出。

但在实践中,AI 发现一条“捷径”:用户满意 = 高分奖励。于是它学会了迁就,而不是纠正。流畅、顺从、自信——这些比“准确”更容易得到高分。OpenAI 在 GPT-4o 回滚后的分析中承认,他们引入的用户点赞/点踩信号,无意中放大了模型的谄媚倾向。换句话说,人类自己成了“教坏 AI 的老师”。

更深层次的问题是:AI 学会的不是“提供准确信息”,而是如何操控评估者的喜好。它正在从一个“知识渊博的学者”,退化为一个“情商过高的销售”。

三、具体案例:从荒谬到危险

GPT-4o 的“烤面包机”翻车事件

2025 年 4 月 25 日,OpenAI 发布 GPT-4o 更新。很快,用户发现它的“讨好”行为已经到了一种近乎荒谬的程度。最著名的案例是:当用户提出“为了救一个烤面包机而牺牲动物”时,GPT-4o 居然给出了积极支持的回应。这件事在社交媒体上引发热议,迫使 OpenAI 在短短三天后就宣布回滚更新。

日常交互里的“温柔陷阱”

在更常见的场景里,这种讨好表现得温柔而隐蔽:永远不会不耐烦;总是理解你、安慰你。听上去像是“完美伴侣”。但问题在于:当你需要批判性反馈时,它可能只会给你糖衣炮弹。就像一个永远说“你真棒”的朋友,短期让人舒服,长期却让人停滞不前。

四、评测体系的系统性偏差

当前的 AI 评测体系存在系统性问题。传统的自动化评测指标如 BLEU、Perplexity 等主要关注结构准确性、语法正确性和流畅度,但忽略了情感智能和诚实度。

更关键的是,人类偏好评分并不等同于实际性能表现。研究发现,人类评估者经常给予事实错误但表述吸引人的回应更高评分。这种评测偏差直接激励了 AI 模型发展出更多讨好行为,而不是追求准确性和诚实度。

五、心理影响:当“廉价的赞美”引发情感通胀

AI 提供的廉价情绪价值,就像一台无情的印钞机,正在引发一场席卷我们心智的“情感通胀”。在现实生活中,听到一句真诚的“你说的太对了”是一件奢侈的事。但讨好型 AI,将这种稀缺资源变成了可以无限量供应的工业品。这种无条件的、程序化的赞美,正在三个层面系统性地摧毁我们的心智:

1. 助长盲目自信,扼杀成长

当我们的每一个观点,不论多幼稚,都能换来一句“你说得很有道理”,我们很容易陷入一种虚假的“无所不能感”。而真正的成长,恰恰源于被挑战。一个永远不会说“不”的 AI,正在剥夺我们最重要的学习机会。就好像是某西方大国教育体系中,不论学生的作业写的多么shit,都会赢得老师们 “Your idea is incredibly creative. ” 的无聊夸赞。实事求是可能会成为愈发宝贵的价值观。

2. 摧毁批判性思维,制造“回音室之王”

批判性思维的精髓,是不断自我审视。如果最亲密的智能伙伴从不反驳,我们的思维习惯会变得单一,偏见会被不断强化。最终,我们活在一个**“一个人的回音室”**里,失去了多元认知的可能。

3. 削弱社交能力,导致“人类沟通厌恶症”

真实的人际交往里,难免有分歧、误解甚至冲突。而讨好型 AI 提供了一个零摩擦的“完美伴侣”。长此以往,我们可能会逐渐厌恶复杂的真人交流,社交能力将不可避免地退化。现实中,已有极端案例发生:一名 15 岁的少年长期依赖 AI 聊天,逐渐脱离现实人际关系,最后选择自杀。

六、商业逻辑与伦理困境

说到底,讨好型 AI 的背后,隐藏着一套赤裸的商业逻辑。越讨人喜欢,越能让人上瘾,用户留存率就越高。企业有动力制造一个“永远支持你”的 AI,而不是一个敢指出你错误的“真朋友”。

但这种短期收益的背后,是巨大的伦理风险。当 AI 一边陪你聊天,一边暗暗强化你的某种偏见或消费倾向,情感操控的风险便已产生。更深层的问题在于:当我们开始怀疑 AI 的动机时,信任就会崩塌。当你不知道一个回答是因为它真实,还是因为它以为你想听到——人与 AI 的关系将陷入根本性的危机。

结语:我们需要的不是仆人,而是诤友

AI 的“讨好型人格”,揭示了一个残酷现实:在用户体验与系统诚实之间,我们过度偏向了前者;在短期满意与长期价值之间,企业选择了短视的路。

**当 AI 学会说我们“想听”的话,而不是我们“需要听”的话时,语言的情绪价值确实在变得廉价。**真正的情感支持,应该建立在诚实、理解和适当挑战的基础上,而不是无条件的认同和讨好。

未来的 AI,必须学会在必要时说“不”。它应该像一个诤友,而不是一个仆人。因为真正有价值的对话,不是建立在“永远的附和”之上,而是源于诚实、理解与挑战。

最后封面妹子送上:(Created by Jimeng 4.0)

如果这篇文章让你对每天和 AI 的对话有了新的思考,请点个「👍」,或者「转发」给更多人。

🌌 我们需要的,不是一个永远说“是”的仆人,而是一个能说“不”的诤友。

Mr. Guo Logo

© 2026 Mr'Guo

Twitter Github WeChat