GPT-5.5 发布，我把六大维度的评测数据都扒出来了

YY2026-04-30 11:20:009

大家好，我是3D。

北京时间昨晚（4月23日），OpenAI 官宣 GPT-5.5。

推文在 24 小时内达到 420 万浏览，32,000 次转发。一句话描述："为真实工作和 Agent 构建的新一类智能。"

这个定语值得认真看：不是通用聊天，不是知识问答，是 "real work" 和 "powering agents"。

我把 OpenAI 官方博客的全部评测数据整理了一遍。结论不是「全面超越」，是「结构性领先，局部仍有软肋」。

▲ GPT-5.5 官方发布

图：OpenAI 官方发布图 | 来源：openai.com

它是什么

GPT-5.5 的核心定位是 agentic 工作模型：给它一个模糊的、多步骤的任务，它能自己规划、用工具、核查结果、遇到歧义继续走，直到任务完成。

OpenAI 特别强调了两件以前没做到的事：

• 速度不降：和 GPT-5.4 同等 per-token 延迟，但智能水平更高

• Token 更省：完成同样的 Codex 任务，用的 token 比 GPT-5.4 少

更大的模型通常更慢。"同速更聪明" 是工程上的真难题，OpenAI 说 GPT-5.5 参与了自身推理基础设施的优化——token 生成速度借此提升了 20%。这是 AI 系统第一次大规模展示自我改进推理层。

可用性（截至 2026-04-23）：

• ChatGPT：Plus/Pro/Business/Enterprise 用户可用

• Codex：Plus 起步，400K 上下文窗口

• API：即将开放，定价 $5/M 输入，$30/M 输出

六大维度评测，逐张拆解

对比对象：GPT-5.5、GPT-5.4（上一代）、Claude Opus 4.7（Anthropic 旗舰）、Gemini 3.1 Pro（Google 旗舰）

数据来源：OpenAI 官方博客 2026-04-23，评测运行于研究环境，reasoning effort = xhigh。

第一张：编程能力

评测	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro（真实 GitHub Issue）	58.6%	57.7%	64.3%	54.2%
Terminal-Bench 2.0（命令行 Agent）	82.7%	75.1%	69.4%	68.5%
Expert-SWE（20h 人工估时任务）	73.1%	68.5%	—	—

解读：Terminal-Bench 测的是持续 Agent 任务（计划+工具+迭代），GPT-5.5 比第二名高 13 个点，这是它最强的地方。

但 SWE-Bench Pro——解决真实 GitHub Issue——Claude Opus 4.7 以 64.3% 仍然领先 GPT-5.5 的 58.6%。这个差距不能忽略。

第二张：专业工作能力

评测	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
GDPval（44 种职业知识任务）	84.9%	83.0%	80.3%	67.3%
FinanceAgent v1.1	60.0%	56.0%	64.4%	59.7%
Investment Banking 建模（内部）	88.5%	87.3%	—	—
OfficeQA Pro	54.1%	53.2%	43.6%	18.1%
Tau2-bench Telecom（客服工作流）	98.0%	92.8%	—	—

解读：Tau2-bench Telecom 的 98%，是本轮发布最能说明问题的数字——复杂客服工作流，5.5 比 5.4 高了整整 5 个点，几乎满分。

FinanceAgent 又是 Claude Opus 4.7 赢了（64.4% vs 60.0%）。金融推理这条线，Anthropic 仍有优势。

第三张：计算机操控 & 视觉

评测	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
OSWorld-Verified（操控真实电脑）	78.7%	75.0%	78.0%	—
MMMU Pro（无工具）	81.2%	81.2%	—	80.5%
MMMU Pro（带工具）	83.2%	82.1%	—	—

解读：OSWorld 测 AI 能不能真正"用电脑"——看屏幕、点击、打字、跨应用切换。GPT-5.5 以 78.7% 略胜 Claude Opus 4.7 的 78.0%，差距很小，但方向是 OpenAI 在追赶。

第四张：工具使用

评测	GPT-5.5	GPT-5.4	GPT-5.5 Pro	Claude Opus 4.7	Gemini 3.1 Pro
BrowseComp（网页信息检索）	84.4%	82.7%	90.1%	79.3%	85.9%
MCP Atlas	75.3%	70.6%	—	79.1%	78.2%
Toolathlon	55.6%	54.6%	—	—	48.8%

解读：MCP Atlas 测 AI 调用 MCP 工具的准确性——Claude Opus 4.7 以 79.1% 领先，这不奇怪，Anthropic 自己定义的 MCP 协议当然调教更深。

第五张：学术研究能力

评测	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
FrontierMath Tier 1-3（数学）	51.7%	47.6%	43.8%	36.9%
FrontierMath Tier 4（最难数学）	35.4%	27.1%	22.9%	16.7%
GPQA Diamond（博士级科学）	93.6%	92.8%	94.2%	94.3%
HLE（无工具）	41.4%	39.8%	46.9%	44.4%
HLE（带工具）	52.2%	52.1%	54.7%	51.4%
GeneBench（遗传学数据分析）	25.0%	19.0%	—	—
BixBench（生物信息学）	80.5%	74.0%	—	—

解读：数学（FrontierMath）是 GPT-5.5 的绝对优势，Tier 4 最难题比 Claude 高 12 个点，比 Gemini 高 18 个点。

但 HLE（Humanity's Last Exam）——综合能力最全面的人类考试集合——无论带不带工具，Claude Opus 4.7 仍然领先。GPQA Diamond 三家也基本持平。

第六张：长上下文 & 抽象推理

评测	GPT-5.5	GPT-5.4	Claude Opus 4.7
Graphwalks BFS 1M token	45.4%	9.4%	41.2%（Opus 4.6）
MRCR 512K-1M	74.0%	36.6%	32.2%
ARC-AGI-1（抽象推理）	95.0%	93.7%	93.5%
ARC-AGI-2（新型抽象推理）	85.0%	73.3%	75.8%

注：ARC-AGI-1 Gemini 3.1 Pro 得分 98.0%，是所有模型最高。

解读：这张表有本轮最大的亮点。

长上下文 1M token：GPT-5.4 在 1M token 的 BFS 任务上只有 9.4%，GPT-5.5 跳到 45.4%——提升了 36 个百分点。这不是小步迭代，是工程上的跨越。处理超长上下文的能力，直接决定 AI 能接手多复杂的真实项目。

ARC-AGI-2：GPT-5.5 以 85.0% vs GPT-5.4 的 73.3%，单代提升 11.7 个点。这个测试专门设计为"模型无法靠记忆/模式匹配应付"，必须展示真正的推理能力。

一个没人重点说的事：它帮自己提速了 20%

OpenAI 博客里有一段值得单独讲：

GPT-5.5 was co-designed for, trained with, and served on NVIDIA GB200 and GB300 NVL72 systems. Codex helped the team move faster... GPT-5.5 helped find and implement key improvements in the stack itself.

翻译成人话：GPT-5.5 分析了生产流量数据，自己写了负载均衡和分区优化算法，token 生成速度提升超 20%。

这是工具链意义上的自我改进——不是哲学意义上的自我进化，但确实是 AI 系统自己优化自己的推理基础设施，并且有可测量的效果。

也有一个突破在数学历史上有记录

▲ GPT-5.5 系统安全卡

图：GPT-5.5 System Card 封面 | 来源：openai.com

一个内部版本的 GPT-5.5 配合自定义工具链，发现了关于 Ramsey 数的新证明，并在 Lean 中完成了形式化验证。

Ramsey 数是组合数学的核心对象，相关结果极为稀少。这个证明后来被发布在 OpenAI 的研究页面。

这是 AI 第一次在数学研究领域做出可独立核查的新贡献，而不是"辅助人类数学家"或"加速推导"。

另一个例子：数学家 Bartosz Naskręcki 用 GPT-5.5 在 Codex 里，从一句提示词出发，11 分钟内构建了一个代数几何应用——可视化二次曲面的交集曲线，并自动转换成 Weierstrass 模型。

▲ 代数几何可视化 Demo

图：GPT-5.5 生成的代数几何交集曲线可视化 | 来源：openai.com / Bartosz Naskręcki

定价与可用性

版本	价格（API）	场景
GPT-5.5	$5/M 输入，$30/M 输出	标准 agentic 工作
GPT-5.5 Pro	$30/M 输入，$180/M 输出	高精度、复杂任务
Batch/Flex	半价	非实时批量
Priority	2.5x	低延迟优先

API 即将开放，上下文窗口 1M token。

我的判断

GPT-5.5 是目前最强的 agentic 任务执行模型，没有之一——在长流程命令行任务、1M 长上下文、ARC-AGI-2 抽象推理、数学这几个维度上领先明显。

但这不是全面碾压：

• 代码工程（SWE-Bench Pro）：Claude Opus 4.7 以 64.3% vs 58.6% 领先，差距有意义

• 金融推理（FinanceAgent）：Claude Opus 4.7 仍领先

• 综合知识考试（HLE）：Claude 和 Gemini 都略高

• MCP 工具调用：Claude Opus 4.7 因为协议亲缘关系占优

选模型的结论：

• 做 Agent 任务、长流程自动化、Codex 工程：GPT-5.5

• 做代码工程、金融分析、一次性复杂推理：Claude Opus 4.7

• 价格敏感的通用场景：看具体任务类型再决定

军备竞赛的节奏越来越快。OpenAI 的版本号从 5.4 到 5.5，但评测上的跨越幅度，像是在追赶上一个大版本差距的欠账，而不是小幅迭代。

关于作者

🎙️ 播客｜遇见大王2025（小宇宙）
📝 公众号｜遇见大王2025
🌐 博客｜aidawang.de5.net
📮 邮箱｜yaron999999@gmail.com
🐙 GitHub｜github.com/Yaron9
⭐ 推荐项目｜MetaMe — github.com/Yaron9/MetaMe
💻 MetaMe Desktop｜https://metame.cc.cd/
全球AI咨询早知道 · 用 AI 过好每一天.

本文链接：https://chatgpt666.cn/ai/47.html

GPT-5.5 生产流量数据