用 Claude Opus 4.7 最新 benchmark 图,一次看懂 AI benchmark 指标
2026 年 4 月 16 日,Anthropic 正式发布了 Claude Opus 4.7。和每次大模型发布一样,最先刷屏的往往不是参数表,而是一张 benchmark 成绩图。
这次也一样。很多人第一眼看到的,是几个醒目的分数:SWE-bench Pro 64.3%、SWE-Bench Verified 87.6%、Terminal-Bench 2.0 69.4%、OSWorld-Verified 78.0%。但真正有信息量的,不是“哪个数字最大”,而是这些 benchmark 名字本身。