ChatGPT中文网

GPT-5.5 发布,我把六大维度的评测数据都扒出来了

YY2026-04-30 11:20:009

大家好,我是3D。


北京时间昨晚(4月23日),OpenAI 官宣 GPT-5.5。


推文在 24 小时内达到 420 万浏览,32,000 次转发。一句话描述:"为真实工作和 Agent 构建的新一类智能。"


这个定语值得认真看:不是通用聊天,不是知识问答,是 "real work""powering agents"


我把 OpenAI 官方博客的全部评测数据整理了一遍。结论不是「全面超越」,是「结构性领先,局部仍有软肋」。



▲ GPT-5.5 官方发布


图:OpenAI 官方发布图 | 来源:openai.com




它是什么


GPT-5.5 的核心定位是 agentic 工作模型:给它一个模糊的、多步骤的任务,它能自己规划、用工具、核查结果、遇到歧义继续走,直到任务完成。


OpenAI 特别强调了两件以前没做到的事:


速度不降:和 GPT-5.4 同等 per-token 延迟,但智能水平更高


Token 更省:完成同样的 Codex 任务,用的 token 比 GPT-5.4 少


更大的模型通常更慢。"同速更聪明" 是工程上的真难题,OpenAI 说 GPT-5.5 参与了自身推理基础设施的优化——token 生成速度借此提升了 20%。这是 AI 系统第一次大规模展示自我改进推理层。


可用性(截至 2026-04-23):


• ChatGPT:Plus/Pro/Business/Enterprise 用户可用


• Codex:Plus 起步,400K 上下文窗口


• API:即将开放,定价 $5/M 输入,$30/M 输出




六大维度评测,逐张拆解


对比对象:GPT-5.5、GPT-5.4(上一代)、Claude Opus 4.7(Anthropic 旗舰)、Gemini 3.1 Pro(Google 旗舰)


数据来源:OpenAI 官方博客 2026-04-23,评测运行于研究环境,reasoning effort = xhigh。




第一张:编程能力


评测GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
SWE-Bench Pro(真实 GitHub Issue)58.6%57.7%64.3%54.2%
Terminal-Bench 2.0(命令行 Agent)82.7%75.1%69.4%68.5%
Expert-SWE(20h 人工估时任务)73.1%68.5%


解读:Terminal-Bench 测的是持续 Agent 任务(计划+工具+迭代),GPT-5.5 比第二名高 13 个点,这是它最强的地方。


但 SWE-Bench Pro——解决真实 GitHub Issue——Claude Opus 4.7 以 64.3% 仍然领先 GPT-5.5 的 58.6%。这个差距不能忽略。




第二张:专业工作能力


评测GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
GDPval(44 种职业知识任务)84.9%83.0%80.3%67.3%
FinanceAgent v1.160.0%56.0%64.4%59.7%
Investment Banking 建模(内部)88.5%87.3%
OfficeQA Pro54.1%53.2%43.6%18.1%
Tau2-bench Telecom(客服工作流)98.0%92.8%


解读:Tau2-bench Telecom 的 98%,是本轮发布最能说明问题的数字——复杂客服工作流,5.5 比 5.4 高了整整 5 个点,几乎满分。


FinanceAgent 又是 Claude Opus 4.7 赢了(64.4% vs 60.0%)。金融推理这条线,Anthropic 仍有优势。




第三张:计算机操控 & 视觉


评测GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
OSWorld-Verified(操控真实电脑)78.7%75.0%78.0%
MMMU Pro(无工具)81.2%81.2%80.5%
MMMU Pro(带工具)83.2%82.1%


解读:OSWorld 测 AI 能不能真正"用电脑"——看屏幕、点击、打字、跨应用切换。GPT-5.5 以 78.7% 略胜 Claude Opus 4.7 的 78.0%,差距很小,但方向是 OpenAI 在追赶。




第四张:工具使用


评测GPT-5.5GPT-5.4GPT-5.5 ProClaude Opus 4.7Gemini 3.1 Pro
BrowseComp(网页信息检索)84.4%82.7%90.1%79.3%85.9%
MCP Atlas75.3%70.6%79.1%78.2%
Toolathlon55.6%54.6%48.8%


解读:MCP Atlas 测 AI 调用 MCP 工具的准确性——Claude Opus 4.7 以 79.1% 领先,这不奇怪,Anthropic 自己定义的 MCP 协议当然调教更深。




第五张:学术研究能力


评测GPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
FrontierMath Tier 1-3(数学)51.7%47.6%43.8%36.9%
FrontierMath Tier 4(最难数学)35.4%27.1%22.9%16.7%
GPQA Diamond(博士级科学)93.6%92.8%94.2%94.3%
HLE(无工具)41.4%39.8%46.9%44.4%
HLE(带工具)52.2%52.1%54.7%51.4%
GeneBench(遗传学数据分析)25.0%19.0%
BixBench(生物信息学)80.5%74.0%


解读:数学(FrontierMath)是 GPT-5.5 的绝对优势,Tier 4 最难题比 Claude 高 12 个点,比 Gemini 高 18 个点。


但 HLE(Humanity's Last Exam)——综合能力最全面的人类考试集合——无论带不带工具,Claude Opus 4.7 仍然领先。GPQA Diamond 三家也基本持平。




第六张:长上下文 & 抽象推理


评测GPT-5.5GPT-5.4Claude Opus 4.7
Graphwalks BFS 1M token45.4%9.4%41.2%(Opus 4.6)
MRCR 512K-1M74.0%36.6%32.2%
ARC-AGI-1(抽象推理)95.0%93.7%93.5%
ARC-AGI-2(新型抽象推理)85.0%73.3%75.8%


注:ARC-AGI-1 Gemini 3.1 Pro 得分 98.0%,是所有模型最高。


解读:这张表有本轮最大的亮点。


长上下文 1M token:GPT-5.4 在 1M token 的 BFS 任务上只有 9.4%,GPT-5.5 跳到 45.4%——提升了 36 个百分点。这不是小步迭代,是工程上的跨越。处理超长上下文的能力,直接决定 AI 能接手多复杂的真实项目。


ARC-AGI-2:GPT-5.5 以 85.0% vs GPT-5.4 的 73.3%,单代提升 11.7 个点。这个测试专门设计为"模型无法靠记忆/模式匹配应付",必须展示真正的推理能力。




一个没人重点说的事:它帮自己提速了 20%


OpenAI 博客里有一段值得单独讲:


GPT-5.5 was co-designed for, trained with, and served on NVIDIA GB200 and GB300 NVL72 systems. Codex helped the team move faster... GPT-5.5 helped find and implement key improvements in the stack itself.


翻译成人话:GPT-5.5 分析了生产流量数据,自己写了负载均衡和分区优化算法,token 生成速度提升超 20%。


这是工具链意义上的自我改进——不是哲学意义上的自我进化,但确实是 AI 系统自己优化自己的推理基础设施,并且有可测量的效果。




也有一个突破在数学历史上有记录



▲ GPT-5.5 系统安全卡


图:GPT-5.5 System Card 封面 | 来源:openai.com


一个内部版本的 GPT-5.5 配合自定义工具链,发现了关于 Ramsey 数的新证明,并在 Lean 中完成了形式化验证。


Ramsey 数是组合数学的核心对象,相关结果极为稀少。这个证明后来被发布在 OpenAI 的研究页面。


这是 AI 第一次在数学研究领域做出可独立核查的新贡献,而不是"辅助人类数学家"或"加速推导"。


另一个例子:数学家 Bartosz Naskręcki 用 GPT-5.5 在 Codex 里,从一句提示词出发,11 分钟内构建了一个代数几何应用——可视化二次曲面的交集曲线,并自动转换成 Weierstrass 模型。



▲ 代数几何可视化 Demo


图:GPT-5.5 生成的代数几何交集曲线可视化 | 来源:openai.com / Bartosz Naskręcki




定价与可用性


版本价格(API)场景
GPT-5.5$5/M 输入,$30/M 输出标准 agentic 工作
GPT-5.5 Pro$30/M 输入,$180/M 输出高精度、复杂任务
Batch/Flex半价非实时批量
Priority2.5x低延迟优先


API 即将开放,上下文窗口 1M token。




我的判断


GPT-5.5 是目前最强的 agentic 任务执行模型,没有之一——在长流程命令行任务、1M 长上下文、ARC-AGI-2 抽象推理、数学这几个维度上领先明显。


但这不是全面碾压:


代码工程(SWE-Bench Pro):Claude Opus 4.7 以 64.3% vs 58.6% 领先,差距有意义


金融推理(FinanceAgent):Claude Opus 4.7 仍领先


综合知识考试(HLE):Claude 和 Gemini 都略高


MCP 工具调用:Claude Opus 4.7 因为协议亲缘关系占优


选模型的结论:


• 做 Agent 任务、长流程自动化、Codex 工程:GPT-5.5


• 做代码工程、金融分析、一次性复杂推理:Claude Opus 4.7


• 价格敏感的通用场景:看具体任务类型再决定


军备竞赛的节奏越来越快。OpenAI 的版本号从 5.4 到 5.5,但评测上的跨越幅度,像是在追赶上一个大版本差距的欠账,而不是小幅迭代。




关于作者


🎙️ 播客|遇见大王2025(小宇宙)
📝 公众号|遇见大王2025
🌐 博客|aidawang.de5.net
📮 邮箱|yaron999999@gmail.com
🐙 GitHub|github.com/Yaron9
⭐ 推荐项目|MetaMe — github.com/Yaron9/MetaMe
💻 MetaMe Desktop|https://metame.cc.cd/
全球AI咨询早知道 · 用 AI 过好每一天.







本文链接:https://chatgpt666.cn/ai/47.html

GPT-5.5生产流量数据

阅读更多

相关文章

网友评论