<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Anthropic on tenfy's blog</title><link>https://tenfy.cn/tags/anthropic/</link><description>Recent content in Anthropic on tenfy's blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 16 Apr 2026 23:02:28 +0800</lastBuildDate><atom:link href="https://tenfy.cn/tags/anthropic/index.xml" rel="self" type="application/rss+xml"/><item><title>用 Claude Opus 4.7 最新 benchmark 图，一次看懂 AI benchmark 指标</title><link>https://tenfy.cn/posts/anthropic-opus-47-benchmark-guide/</link><pubDate>Thu, 16 Apr 2026 23:02:28 +0800</pubDate><guid>https://tenfy.cn/posts/anthropic-opus-47-benchmark-guide/</guid><description>&lt;p>2026 年 4 月 16 日，Anthropic 正式发布了 &lt;code>Claude Opus 4.7&lt;/code>。和每次大模型发布一样，最先刷屏的往往不是参数表，而是一张 benchmark 成绩图。&lt;/p>
&lt;p>这次也一样。很多人第一眼看到的，是几个醒目的分数：&lt;code>SWE-bench Pro 64.3%&lt;/code>、&lt;code>SWE-Bench Verified 87.6%&lt;/code>、&lt;code>Terminal-Bench 2.0 69.4%&lt;/code>、&lt;code>OSWorld-Verified 78.0%&lt;/code>。但真正有信息量的，不是“哪个数字最大”，而是这些 benchmark 名字本身。&lt;/p></description></item></channel></rss>