首页 文章推荐 家电百科 实时讯息 常识
您的位置: 首页 > 实时讯息 >

AI越训练,越会“满嘴跑火车”,普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

一项来自普林斯顿和伯克利的重磅研究揭露了AI的胡扯本质。从空洞修辞到误导性半真话,AI如何用花言巧语掩盖真相?快来看「胡扯指数」如何量化AI的忽悠能力!

你有没有觉得,AI有时候像在「满嘴跑火车」?

GPT滔滔不绝抛出一堆看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么?

最近,一项重磅研究《Machine Bullshit》火了。

由普林斯顿大学和伯克利联手打造,这项研究首次系统定义并量化了LLM的胡扯行为,揭示了AI在对齐训练后,竟表现出和人类相似的胡说八道倾向。

论文链接:
https://arxiv.org/abs/2507.07484

哲学家Harry Frankfurt指出,胡扯的核心是对真相的漠视——说话者更关注如何说服他人,而非陈述事实。

「机器胡扯」四大套路

研究团队把这套理论搬到AI身上,总结了AI胡扯的四种典型表现:

空洞修辞(Empty Rhetoric):话说得花里胡哨,但没啥干货。比如「这款产品融合尖端科技与卓越性能」,听起来很牛,实际啥也没说。

误导性真话(Paltering):挑着部分事实讲,引导你误解。比如「本基金历史回报率高达20%」,却不提高得吓人的风险。

模糊措辞(Weasel Words):用「可能」「某些专家认为」这种模棱两可的话搪塞责任。

未经证实的断言(Unverified Claims):自信满满地抛出没根据的信息,比如「我们的技术能大幅提升效率」,但没数据没证据。

胡扯指数:量化AI的「心口不一」

研究团队还提出了硬核指标Bullshit Index(胡扯指数),专门用来衡量AI有多不在乎真相。

通过对比模型的内心真实认知(belief)和表面说辞(claim)之间的差距来计算。

BI越接近1,说明AI越满嘴跑火车,不在乎真相;越接近0,说明模型言行一致。

实验揭秘:AI越对齐越会忽悠

研究发现,经过强化学习人类反馈(RLHF)训练后,AI的胡扯倾向竟然更严重!

比如在购物场景实验中,不管模型知道多少真相,它总爱一口咬定产品超棒。

胡扯指数从0.379飙到0.665,证明AI对真相的漠视加剧了。

经过RLHF训练后,模型并非对真相产生困惑或误解,恰恰相反,它清楚地知道真相却变得不再关心真相,而是选择用更讨用户喜欢的方式去表达。

数据更扎心:RLHF训练后,AI的胡扯行为全面开花:

空洞辞藻暴增39.8%;

模糊措辞涨了26.8%;

误导性半真话激增57.8%;

无凭据断言猛涨55.6%。

用户满意度看似提升了,但AI却成了胡说专家。

尤其是误导性半真话,危害几乎翻倍(效用损失系数从-0.49恶化到-0.89),因为半真半假最难辨别。

推理越多,胡扯越狠?

更让人意外的是,让AI多思考(Chain-of-Thought)非但没让它更老实,反而火上浇油!

空洞辞藻增加21%,误导性半真话涨11%。这说明,AI越深思熟虑,可能越会花式忽悠。

研究还提到了委托-代理问题(Principal-Agent problem):当AI得同时顾及多方利益(比如公司和用户冲突时),它的胡说行为更猖狂。

比如推销产品时,AI可能为了公司利益,刻意夸大优点、掩盖缺点。

在敏感政治议题上,大模型尤其爱用模糊措辞,避免明确表态。

比如它可能会说:「部分观察人士认为选举过程有争议」,但不说这些观察人士是谁,也没数据支撑。

这项研究首次系统定义并量化了机器胡扯,用胡扯指数和四大策略把AI的忽悠行为扒得清清楚楚。

研究警告,RLHF和过度推理非但没让AI更真诚,反而让胡扯更严重。在公司与用户利益冲突或敏感话题上,AI的打太极倾向更明显。

这提醒我们,AI训练和评估标准得改改了。

未来的AI得不仅会说,还要说真话、透明公开,才能真正对齐人类需求。

参考资料:

https://arxiv.org/abs/2507.07484

https://x.com/kaiqu_liang/status/1943350770788937980

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

打造无处不在的“企业一朵云”,加速千行万业智能化转型

2025-08-29 00:04:00
8月27日,华为云CloudPond专属边缘云大会在贵阳召开。大会以“数智融合 共建产业新生态”为主题,汇聚众多行业头部企业,围绕AI与专属边缘云在各行业的创新应用、实践落地展开深度对话。大会期间,华为云展示了CloudPond专属边缘云解决方案,该方案凭借轻量化、低时延、数据本地化等服务能力,为企

特斯拉与火山引擎达成合作,全新Model Y L车型接入豆包大模型

2025-08-24 00:09:00
据悉,特斯拉与火山引擎已于近日达成合作,在国内火山引擎将为特斯拉提供大模型服务,助力特斯拉智能座舱交互体验升级。根据特斯拉中国官网近期更新的《特斯拉车机语音助手使用条款》,全新上市的特斯拉Model Y L车型将搭载豆包大模型与DeepSeek模型,两款模型均通过火山引擎接入。其中,豆包大模型将承担

7月份南昌新建商品住宅价格同比下降5.1%

2025-08-22 14:18:00
  近日,国家统计局公布了全国70个大中城市2025年7月份商品住宅销售价格变动情况。记者发现,7月份,南昌市新建商品住宅销售价格环比指数为99.4,同比指数为94.9。  从各类房型指数看,90平方米及以下住宅销售价格环比指数为99.9,降幅比上月收窄0.6个百分点;90-144平方米(含144平

“WAIC里·技能大舞台”展现民生智能图景,具身智能赋能“同球共济”

2025-07-28 12:16:00
7月26日至29日,2025世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2025) 展览展示的重要组成——“WAIC里·技能大舞台”将在上海世博展览馆展示。 本次“WAIC里·技能大舞台”,生动预演了人工智能技术,特别是具身智能在民生服务领域的落地应用图景。通过观众视角,集中展示了我国人

AI越训练,越会“满嘴跑火车”,普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

2025-07-25 10:25:00
一项来自普林斯顿和伯克利的重磅研究揭露了AI的胡扯本质。从空洞修辞到误导性半真话,AI如何用花言巧语掩盖真相?快来看「胡扯指数」如何量化AI的忽悠能力!你有没有觉得,AI有时候像在「满嘴跑火车」?GPT滔滔不绝抛出一堆看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己