用 Claude Opus 4.7 最新 benchmark 图，一次看懂 AI benchmark 指标

Thu, 16 Apr 2026 23:02:28 +0800

2026 年 4 月 16 日，Anthropic 正式发布了 Claude Opus 4.7。和每次大模型发布一样，最先刷屏的往往不是参数表，而是一张 benchmark 成绩图。

这次也一样。很多人第一眼看到的，是几个醒目的分数：SWE-bench Pro 64.3%、SWE-Bench Verified 87.6%、Terminal-Bench 2.0 69.4%、OSWorld-Verified 78.0%。但真正有信息量的，不是“哪个数字最大”，而是这些 benchmark 名字本身。

Anthropic on tenfy's blog

用 Claude Opus 4.7 最新 benchmark 图，一次看懂 AI benchmark 指标