ChatGPT中文网

GPT-5.5登顶全球第一,但它的幻觉率也刷新了记录

YY2026-04-30 11:20:098


OpenAI最新一代旗舰模型GPT-5.5,在全球AI智能排行榜上登顶了。



但与此同时,它的"幻觉率"也创了记录——高达86%。



换句话说:它是目前最聪明的AI,也是最可能一本正经胡说八道的AI。



这个组合,让整个行业陷入了一种奇怪的焦虑。



登顶,但以另一种方式



根据第三方评测机构Artificial Analysis的最新数据,GPT-5.5(xhigh努力等级)在全球智能指数上排名第一,领先Claude Opus 4.7三分,领先Google的Gemini 3.1 Pro Preview。



具体来说,它在五个核心评测维度里拿了五个第一:Terminal-Bench Hard、GDPval-AA(真实世界经济任务)、APEX-Agents-AA,以及知识问答准确率(AA-Omniscience)。



如果你只看"智商",GPT-5.5已经是这个星球上最强的语言模型。



但它的致命弱点,就藏在同一份报告里。



86%幻觉率:这意味着什么



AA-Omniscience是Artificial Analysis推出的一个专门测试"幻觉率"的基准。方法是:给模型一堆它应该知道的问题,然后检查它什么时候会"不知道但假装知道"——也就是胡说八道。



GPT-5.5的答案很有意思:



准确率57%,创了历史新高。这意味着它能正确回答57%的问题,比任何竞品都高。



但与此同时,幻觉率也是86%——当它不确定答案的时候,有86%的概率会编一个答案出来,而不是老老实实说"我不知道"。



做个对比:Claude Opus 4.7的幻觉率是36%,Gemini 3.1 Pro Preview是50%。也就是说,GPT-5.5胡说八道的比例,是Claude的2.4倍,是Gemini的1.7倍。



你可以把它理解成一个极度自信的学霸。什么都记得住,但什么都觉得自己说得对,哪怕错了也不会承认。







越强越爱吹牛,这不是bug



为什么会出现这种情况?



有AI研究员指出,这可能是一个"能力陷阱":模型越强,它就越倾向于给出完整的答案,而不是说"我不知道"。因为在你训练一个模型变得更智能的过程中,你奖励它给出正确答案,但不一定惩罚它给出错误答案时的过度自信。



结果是,更强的模型变得更"愿意"回答问题,哪怕它并不确定。



这在产品层面是个很微妙的设计决策。用户通常更喜欢一个能给出流畅答案的AI,而不是一个动不动就说"这个问题我不确定"的AI,哪怕后者的可靠性更高。



换句话说,是用户偏好,塑造了AI的"过度自信"性格。



努力等级:一个实用主义的解法



GPT-5.5引入了"努力等级"(effort levels)机制,用户可以选择模型思考的深度:xhigh、high、medium、low,或者完全不做推理。



这个设计的精妙之处在于:它提供了一条清晰的"智商-成本"曲线。



比如,GPT-5.5(medium等级)的智能表现和Claude Opus 4.7(max等级)几乎一样,但费用只有后者的四分之一。而GPT-5.5(low)则大约等于Claude Opus 4.7的非推理版本,费用再降一半。



这意味着什么?意味着"最聪明的AI"和"最便宜的AI"之间的差距,正在被一种灵活的产品设计弥合。但与此同时,你始终要接受一个trade-off:付更少的钱,就要接受更高的幻觉率。







幻觉率86%,你真的能用吗?



这是一个必须回答的应用层问题。



如果你是普通用户,用GPT-5.5(medium或low)来做日常问答、写作辅助,这个幻觉率可能不是致命问题——你本来就会核实事实。



但如果你是企业用户,用GPT-5.5做客服、医疗建议、法律咨询,86%的幻觉率就是一个定时炸弹。它太擅长说得像真的了,以至于你很难分辨哪个答案是对的,哪个是在胡说。





这和以前的AI不同。早期的AI会经常说"我不知道",用户反而会警觉。现在的GPT-5.5,给出的答案流畅、自信、逻辑自洽,你几乎会本能地选择相信它。



这就是最危险的地方:一个明知自己不确定、却仍然给出确定性答案的AI,对非专业用户的杀伤力最大。



结语:登顶不是终点,可靠才是



GPT-5.5登顶智能榜,标志着AI行业的"能力竞赛"进入了一个新阶段。但下一个阶段的主题,可能不是更聪明,而是更可靠。



因为当一个AI足够聪明、足够流畅、足够像人的时候,它最大的风险不再是"答不上来",而是"答错了但你信了"。



OpenAI也许该认真考虑:在追求智能指数的路上,是不是也该给"过度自信"设一个上限了。



毕竟,一个什么都敢说、什么都说得像真的、但正确率只有57%的AI,放在需要专业判断的场景里,是一个非常危险的存在。



你愿意和一个这样的"学霸"合作,还是一个知道自己边界的"普通人"?


本文链接:https://chatgpt666.cn/ai/49.html

GPT-5.5

阅读更多

相关文章

网友评论