59% 用户投票选了更便宜的那个：Sonnet 4.6 全面解读

Claude Sonnet 4.6 发布了。

在 Claude Code 的早期测试中，用户 70% 的情况下更喜欢 Sonnet 4.6 而不是 Sonnet 4.5。更夸张的是，59% 的情况下用户甚至更喜欢它而不是去年 11 月发布的旗舰模型 Opus 4.5。一个便宜的模型，被用户投票打败了贵的模型。

Sonnet 4.6 在编码、计算机操作（Computer Use）、长上下文推理、智能体规划、知识工作、设计六个维度同时升级，还带了一个 100 万 token 的上下文窗口（beta）。价格不变，$3/$15 每百万 token。

【声明】本文根据 Anthropic 官方资料整理，文中数据和客户评价均来自官方发布内容，不代表本人真实体验结果。

基准测试全景：水桶型选手

先看数据。

Sonnet 4.6 基准测试对比表

Sonnet 4.6 在 15 项评估中几乎全线领先或接近领先。智能体工具使用、大规模工具调用、办公任务、金融分析，都是第一梯队。

它和 Opus 4.5、Opus 4.6 的关系可以这么理解：Opus 仍然是天花板，尤其在代码库重构、多智能体协调这些需要最深层推理的场景；但对绝大多数日常任务，Sonnet 4.6 已经够用了，价格只有 Opus 的几分之一。

以前的 Sonnet 是“够用但明显差一截”，现在更像是一个全面的水桶型选手，不是某项特别突出，而是每项都足够好。Databricks 测试发现它在企业文档理解任务（OfficeQA）上的表现已经和 Opus 4.6 持平。Replit 的评价更直接：性价比“惊人”，任务难度越高表现越强劲。

Computer Use：16 个月，从实验品到接近人类水平

2024 年 10 月，Anthropic 发布了第一个通用计算机操作模型。当时他们自己的措辞是“仍处于实验阶段，笨重且易出错”。

16 个月后，OSWorld（AI 计算机操作的标准基准测试）上的得分从 14.9% 涨到了 72.5%。

Sonnet 在 OSWorld 基准上的进步曲线

翻了近 5 倍。OSWorld 测试的不是“点个按钮”这种简单操作，它要求模型在模拟电脑上运行 Chrome、LibreOffice、VS Code 这些真实软件，没有特殊的 API 接口，模型得像人一样看屏幕、点鼠标、敲键盘。

早期用户发现 Sonnet 4.6 在几个场景中接近人类水平：

操作复杂电子表格
填写多步骤网页表单
跨多个浏览器标签整合信息

Pace 保险公司在自己的基准测试中给了 94% 的准确率，是他们测过的计算机操作最强模型。Convey 的评价类似：明显优于评估中测试过的所有其他模型。

72.5% 也意味着还有接近三成的任务会失败，关键业务流程现在还不到完全信任的时候。但进步速度摆在这里，16 个月翻 5 倍，而且 Anthropic 在安全防护上也没放松，Sonnet 4.6 对提示词注入攻击（恶意网站通过隐藏指令劫持模型）的抵抗力比 Sonnet 4.5 有大幅提升。

每个公司都有一些没有 API 的老系统，过去想自动化只能开发定制连接器。一个能像人一样操作电脑的 AI，正在让这条路越来越现实。

100 万 Token 上下文窗口

Sonnet 4.6 的上下文窗口扩展到 100 万 token（beta 阶段）。大致相当于整个代码库、一份长合同、或者几十篇论文。

窗口大不等于用得好，很多模型在长上下文中“记住了但推理不了”。Sonnet 4.6 的改进在于它能在大上下文里做有效推理。

一个有意思的验证来自 Vending-Bench Arena 测试，让不同 AI 模型模拟经营企业，相互竞争谁赚的利润最多。Sonnet 4.6 自己琢磨出了一套策略：前 10 个模拟月大幅投入扩充产能，支出远超对手，然后在最后阶段急转弯专注盈利。这种“先亏后赚”的打法让它最终远超竞争对手。

这说明模型不只是在处理当前回合，而是真的在利用长上下文做规划。

配合上下文压缩功能（Context Compaction，beta），对话快到上限时系统会自动总结旧内容，实际可用的上下文比 100 万 token 还要长。适用场景：大型代码库分析、长合同审查、文献综述这些过去需要人工分段处理的工作。

编码能力：开发者最在乎的部分

编码是 Sonnet 系列最核心的使用场景。Sonnet 4.6 的提升不是“快了一点”或“对了一些”，而是编码方式本身变了。

用户反馈集中在几个点：

修改代码前能更好地阅读上下文（不再一上来就改）
会整合共享逻辑而不是复制粘贴
更少过度工程化
更少偷懒
更好地遵循指令
幻觉更少了
多步骤任务的执行连贯性也更好了

这些改进在长会话中尤其明显。用过 AI 编码工具的人都知道，对话长了之后模型容易“忘事”或者“乱来”，Sonnet 4.6 在这方面让长会话不再那么令人头疼。

来看几家用 Sonnet 4.6 做编码的公司怎么说：

GitHub：在复杂代码修复上表现优异，尤其是需要跨大型代码库搜索的场景，解决率和稳定性都很高
Cursor：对 Sonnet 4.5 的“全方位显著提升”，包括长跨度任务和更难的问题
Bolt：在复杂应用构建和 Bug 修复上交付了前沿级的结果，正在成为处理深度代码库工作的首选，而这类工作过去需要更贵的模型
Rakuten：Sonnet 4.6 写出了他们测试过的最佳 iOS 代码，规范遵从性更好、架构更优，一次成型，还主动使用了他们没有要求的现代工具
Cognition：在 Bug 检测上“有力地缩小了与 Opus 的差距”，让他们能并行运行更多审查程序，捕获更多 Bug，成本不增加

API 与工具生态

除了模型本身，Anthropic 同步更新了一批 API 工具。

Web Search 动态过滤是这批更新里最值得关注的。搜索是一个极其消耗 token 的操作，模型需要发起查询、拉取搜索结果、获取网页完整 HTML、再从中推理出答案。问题是拉进来的内容大量无关，既浪费 token 又拉低回复质量。

动态过滤的做法是：搜索完成后，Claude 自动写代码来过滤和处理结果，只保留相关内容。不是让模型直接推理海量 HTML，而是先用代码筛选，再推理。

效果：

BrowseComp 基准：Sonnet 4.6 从 33.3% 提升到 46.6%，Opus 4.6 从 45.3% 提升到 61.6%
DeepsearchQA：Sonnet 从 52.6% 到 59.4%，Opus 从 69.8% 到 77.3%
平均准确率提升 11%，token 消耗减少 24%

Quora/Poe 的评价是，Opus 4.6 配合动态过滤“在内部评估中达到了最高准确率”，模型“表现得像一个真正的研究员，用 Python 解析、过滤、交叉引用结果，而不是在上下文中推理原始 HTML”。

【注：token 消耗减少的数据对 Sonnet 4.6 成立，但 Opus 4.6 上 token 成本实际有所增加。具体成本取决于使用场景，Anthropic 建议开发者用自己的真实查询做测试。】

正式发布的工具还有五个：

代码执行：让智能体在对话中运行代码来过滤上下文、分析数据
记忆功能：跨对话存储和检索信息
程序化工具调用：在代码中执行多工具工作流
工具搜索：从大型工具库中动态发现工具
工具使用示例：在工具定义中提供示例调用

对金融用户，Excel 插件现在支持 MCP 连接器（Model Context Protocol，让 AI 模型连接外部工具和数据源的协议），Claude 能直接在 Excel 里调用 S&P Global、LSEG、Daloopa、PitchBook、Moody's、FactSet 等数据源，不用离开表格就能引入外部数据。

Excel MCP 连接器

谁该用，怎么用

免费用户：不用做任何事，默认模型已经升级到 Sonnet 4.6。免费版还开放了文件创建、连接器、技能和上下文压缩功能。

Pro/Team 用户：日常任务直接用 Sonnet 4.6，大多数场景下已经接近 Opus 水平。只有代码库重构、多智能体协调、或者“必须做到精准无误”的任务，再切换到 Opus 4.6。

开发者：API 里用 claude-sonnet-4-6 调用，价格和 Sonnet 4.5 一样，$3/$15 每百万 token。建议试试不同的思考强度设置，即使关闭扩展思维，Sonnet 4.6 的表现也很强。

企业用户：Computer Use 加上 MCP 连接器的组合，正在打开一条新路，尤其是有大量没有 API 的老系统的公司。过去这类系统只能靠人工操作或者开发定制连接器来自动化，现在 AI 可以直接像人一样操作。Pace 保险在这方面已经看到了 94% 的准确率。

Opus 4.6 不会被取代，它仍然是最深层推理的首选。但对大多数人来说，Sonnet 4.6 已经够了，而且便宜很多。便宜不再等于弱。

参考资料：

Claude 官方推文：https://x.com/claudeai/status/2023817132581208353
Anthropic 官方博客 Introducing Sonnet 4.6：https://www.anthropic.com/news/claude-sonnet-4-6
Improved Web Search with Dynamic Filtering：https://www.claude.com/blog/improved-web-search-with-dynamic-filtering