大家好,我是3D。
北京时间昨晚(4月23日),OpenAI 官宣 GPT-5.5。
推文在 24 小时内达到 420 万浏览,32,000 次转发。一句话描述:"为真实工作和 Agent 构建的新一类智能。"
这个定语值得认真看:不是通用聊天,不是知识问答,是 "real work" 和 "powering agents"。
我把 OpenAI 官方博客的全部评测数据整理了一遍。结论不是「全面超越」,是「结构性领先,局部仍有软肋」。
▲ GPT-5.5 官方发布
图:OpenAI 官方发布图 | 来源:openai.com
它是什么
GPT-5.5 的核心定位是 agentic 工作模型:给它一个模糊的、多步骤的任务,它能自己规划、用工具、核查结果、遇到歧义继续走,直到任务完成。
OpenAI 特别强调了两件以前没做到的事:
• 速度不降:和 GPT-5.4 同等 per-token 延迟,但智能水平更高
• Token 更省:完成同样的 Codex 任务,用的 token 比 GPT-5.4 少
更大的模型通常更慢。"同速更聪明" 是工程上的真难题,OpenAI 说 GPT-5.5 参与了自身推理基础设施的优化——token 生成速度借此提升了 20%。这是 AI 系统第一次大规模展示自我改进推理层。
可用性(截至 2026-04-23):
• ChatGPT:Plus/Pro/Business/Enterprise 用户可用
• Codex:Plus 起步,400K 上下文窗口
• API:即将开放,定价 $5/M 输入,$30/M 输出
六大维度评测,逐张拆解
对比对象:GPT-5.5、GPT-5.4(上一代)、Claude Opus 4.7(Anthropic 旗舰)、Gemini 3.1 Pro(Google 旗舰)
数据来源:OpenAI 官方博客 2026-04-23,评测运行于研究环境,reasoning effort = xhigh。
第一张:编程能力
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Pro(真实 GitHub Issue) | 58.6% | 57.7% | 64.3% | 54.2% |
| Terminal-Bench 2.0(命令行 Agent) | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE(20h 人工估时任务) | 73.1% | 68.5% | — | — |
解读:Terminal-Bench 测的是持续 Agent 任务(计划+工具+迭代),GPT-5.5 比第二名高 13 个点,这是它最强的地方。
但 SWE-Bench Pro——解决真实 GitHub Issue——Claude Opus 4.7 以 64.3% 仍然领先 GPT-5.5 的 58.6%。这个差距不能忽略。
第二张:专业工作能力
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| GDPval(44 种职业知识任务) | 84.9% | 83.0% | 80.3% | 67.3% |
| FinanceAgent v1.1 | 60.0% | 56.0% | 64.4% | 59.7% |
| Investment Banking 建模(内部) | 88.5% | 87.3% | — | — |
| OfficeQA Pro | 54.1% | 53.2% | 43.6% | 18.1% |
| Tau2-bench Telecom(客服工作流) | 98.0% | 92.8% | — | — |
解读:Tau2-bench Telecom 的 98%,是本轮发布最能说明问题的数字——复杂客服工作流,5.5 比 5.4 高了整整 5 个点,几乎满分。
FinanceAgent 又是 Claude Opus 4.7 赢了(64.4% vs 60.0%)。金融推理这条线,Anthropic 仍有优势。
第三张:计算机操控 & 视觉
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| OSWorld-Verified(操控真实电脑) | 78.7% | 75.0% | 78.0% | — |
| MMMU Pro(无工具) | 81.2% | 81.2% | — | 80.5% |
| MMMU Pro(带工具) | 83.2% | 82.1% | — | — |
解读:OSWorld 测 AI 能不能真正"用电脑"——看屏幕、点击、打字、跨应用切换。GPT-5.5 以 78.7% 略胜 Claude Opus 4.7 的 78.0%,差距很小,但方向是 OpenAI 在追赶。
第四张:工具使用
| 评测 | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| BrowseComp(网页信息检索) | 84.4% | 82.7% | 90.1% | 79.3% | 85.9% |
| MCP Atlas | 75.3% | 70.6% | — | 79.1% | 78.2% |
| Toolathlon | 55.6% | 54.6% | — | — | 48.8% |
解读:MCP Atlas 测 AI 调用 MCP 工具的准确性——Claude Opus 4.7 以 79.1% 领先,这不奇怪,Anthropic 自己定义的 MCP 协议当然调教更深。
第五张:学术研究能力
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| FrontierMath Tier 1-3(数学) | 51.7% | 47.6% | 43.8% | 36.9% |
| FrontierMath Tier 4(最难数学) | 35.4% | 27.1% | 22.9% | 16.7% |
| GPQA Diamond(博士级科学) | 93.6% | 92.8% | 94.2% | 94.3% |
| HLE(无工具) | 41.4% | 39.8% | 46.9% | 44.4% |
| HLE(带工具) | 52.2% | 52.1% | 54.7% | 51.4% |
| GeneBench(遗传学数据分析) | 25.0% | 19.0% | — | — |
| BixBench(生物信息学) | 80.5% | 74.0% | — | — |
解读:数学(FrontierMath)是 GPT-5.5 的绝对优势,Tier 4 最难题比 Claude 高 12 个点,比 Gemini 高 18 个点。
但 HLE(Humanity's Last Exam)——综合能力最全面的人类考试集合——无论带不带工具,Claude Opus 4.7 仍然领先。GPQA Diamond 三家也基本持平。
第六张:长上下文 & 抽象推理
| 评测 | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 |
|---|---|---|---|
| Graphwalks BFS 1M token | 45.4% | 9.4% | 41.2%(Opus 4.6) |
| MRCR 512K-1M | 74.0% | 36.6% | 32.2% |
| ARC-AGI-1(抽象推理) | 95.0% | 93.7% | 93.5% |
| ARC-AGI-2(新型抽象推理) | 85.0% | 73.3% | 75.8% |
注:ARC-AGI-1 Gemini 3.1 Pro 得分 98.0%,是所有模型最高。
解读:这张表有本轮最大的亮点。
长上下文 1M token:GPT-5.4 在 1M token 的 BFS 任务上只有 9.4%,GPT-5.5 跳到 45.4%——提升了 36 个百分点。这不是小步迭代,是工程上的跨越。处理超长上下文的能力,直接决定 AI 能接手多复杂的真实项目。
ARC-AGI-2:GPT-5.5 以 85.0% vs GPT-5.4 的 73.3%,单代提升 11.7 个点。这个测试专门设计为"模型无法靠记忆/模式匹配应付",必须展示真正的推理能力。
一个没人重点说的事:它帮自己提速了 20%
OpenAI 博客里有一段值得单独讲:
GPT-5.5 was co-designed for, trained with, and served on NVIDIA GB200 and GB300 NVL72 systems. Codex helped the team move faster... GPT-5.5 helped find and implement key improvements in the stack itself.
翻译成人话:GPT-5.5 分析了生产流量数据,自己写了负载均衡和分区优化算法,token 生成速度提升超 20%。
这是工具链意义上的自我改进——不是哲学意义上的自我进化,但确实是 AI 系统自己优化自己的推理基础设施,并且有可测量的效果。
也有一个突破在数学历史上有记录
▲ GPT-5.5 系统安全卡
图:GPT-5.5 System Card 封面 | 来源:openai.com
一个内部版本的 GPT-5.5 配合自定义工具链,发现了关于 Ramsey 数的新证明,并在 Lean 中完成了形式化验证。
Ramsey 数是组合数学的核心对象,相关结果极为稀少。这个证明后来被发布在 OpenAI 的研究页面。
这是 AI 第一次在数学研究领域做出可独立核查的新贡献,而不是"辅助人类数学家"或"加速推导"。
另一个例子:数学家 Bartosz Naskręcki 用 GPT-5.5 在 Codex 里,从一句提示词出发,11 分钟内构建了一个代数几何应用——可视化二次曲面的交集曲线,并自动转换成 Weierstrass 模型。
▲ 代数几何可视化 Demo
图:GPT-5.5 生成的代数几何交集曲线可视化 | 来源:openai.com / Bartosz Naskręcki
定价与可用性
| 版本 | 价格(API) | 场景 |
|---|---|---|
| GPT-5.5 | $5/M 输入,$30/M 输出 | 标准 agentic 工作 |
| GPT-5.5 Pro | $30/M 输入,$180/M 输出 | 高精度、复杂任务 |
| Batch/Flex | 半价 | 非实时批量 |
| Priority | 2.5x | 低延迟优先 |
API 即将开放,上下文窗口 1M token。
我的判断
GPT-5.5 是目前最强的 agentic 任务执行模型,没有之一——在长流程命令行任务、1M 长上下文、ARC-AGI-2 抽象推理、数学这几个维度上领先明显。
但这不是全面碾压:
• 代码工程(SWE-Bench Pro):Claude Opus 4.7 以 64.3% vs 58.6% 领先,差距有意义
• 金融推理(FinanceAgent):Claude Opus 4.7 仍领先
• 综合知识考试(HLE):Claude 和 Gemini 都略高
• MCP 工具调用:Claude Opus 4.7 因为协议亲缘关系占优
选模型的结论:
• 做 Agent 任务、长流程自动化、Codex 工程:GPT-5.5
• 做代码工程、金融分析、一次性复杂推理:Claude Opus 4.7
• 价格敏感的通用场景:看具体任务类型再决定
军备竞赛的节奏越来越快。OpenAI 的版本号从 5.4 到 5.5,但评测上的跨越幅度,像是在追赶上一个大版本差距的欠账,而不是小幅迭代。
关于作者
📝 公众号|遇见大王2025
🌐 博客|aidawang.de5.net
📮 邮箱|yaron999999@gmail.com
🐙 GitHub|github.com/Yaron9
⭐ 推荐项目|MetaMe — github.com/Yaron9/MetaMe
💻 MetaMe Desktop|https://metame.cc.cd/
全球AI咨询早知道 · 用 AI 过好每一天.


网友评论