59% 用户投票选了更便宜的那个:Sonnet 4.6 全面解读

作者:

宝玉

59% 用户投票选了更便宜的那个:Sonnet 4.6 全面解读

Claude Sonnet 4.6 发布了。

在 Claude Code 的早期测试中,用户 70% 的情况下更喜欢 Sonnet 4.6 而不是 Sonnet 4.5。更夸张的是,59% 的情况下用户甚至更喜欢它而不是去年 11 月发布的旗舰模型 Opus 4.5。一个便宜的模型,被用户投票打败了贵的模型。

Sonnet 4.6 在编码、计算机操作(Computer Use)、长上下文推理、智能体规划、知识工作、设计六个维度同时升级,还带了一个 100 万 token 的上下文窗口(beta)。价格不变,$3/$15 每百万 token。

【声明】本文根据 Anthropic 官方资料整理,文中数据和客户评价均来自官方发布内容,不代表本人真实体验结果。

基准测试全景:水桶型选手

先看数据。

Sonnet 4.6 基准测试对比表

Sonnet 4.6 在 15 项评估中几乎全线领先或接近领先。智能体工具使用、大规模工具调用、办公任务、金融分析,都是第一梯队。

它和 Opus 4.5、Opus 4.6 的关系可以这么理解:Opus 仍然是天花板,尤其在代码库重构、多智能体协调这些需要最深层推理的场景;但对绝大多数日常任务,Sonnet 4.6 已经够用了,价格只有 Opus 的几分之一。

以前的 Sonnet 是“够用但明显差一截”,现在更像是一个全面的水桶型选手,不是某项特别突出,而是每项都足够好。Databricks 测试发现它在企业文档理解任务(OfficeQA)上的表现已经和 Opus 4.6 持平。Replit 的评价更直接:性价比“惊人”,任务难度越高表现越强劲

Computer Use:16 个月,从实验品到接近人类水平

2024 年 10 月,Anthropic 发布了第一个通用计算机操作模型。当时他们自己的措辞是“仍处于实验阶段,笨重且易出错”。

16 个月后,OSWorld(AI 计算机操作的标准基准测试)上的得分从 14.9% 涨到了 72.5%

Sonnet 在 OSWorld 基准上的进步曲线

翻了近 5 倍。OSWorld 测试的不是“点个按钮”这种简单操作,它要求模型在模拟电脑上运行 Chrome、LibreOffice、VS Code 这些真实软件,没有特殊的 API 接口,模型得像人一样看屏幕、点鼠标、敲键盘。

早期用户发现 Sonnet 4.6 在几个场景中接近人类水平

  • 操作复杂电子表格
  • 填写多步骤网页表单
  • 跨多个浏览器标签整合信息

Pace 保险公司在自己的基准测试中给了 94% 的准确率,是他们测过的计算机操作最强模型。Convey 的评价类似:明显优于评估中测试过的所有其他模型。

72.5% 也意味着还有接近三成的任务会失败,关键业务流程现在还不到完全信任的时候。但进步速度摆在这里,16 个月翻 5 倍,而且 Anthropic 在安全防护上也没放松,Sonnet 4.6 对提示词注入攻击(恶意网站通过隐藏指令劫持模型)的抵抗力比 Sonnet 4.5 有大幅提升。

每个公司都有一些没有 API 的老系统,过去想自动化只能开发定制连接器。一个能像人一样操作电脑的 AI,正在让这条路越来越现实。

100 万 Token 上下文窗口

Sonnet 4.6 的上下文窗口扩展到 100 万 token(beta 阶段)。大致相当于整个代码库、一份长合同、或者几十篇论文。

窗口大不等于用得好,很多模型在长上下文中“记住了但推理不了”。Sonnet 4.6 的改进在于它能在大上下文里做有效推理

一个有意思的验证来自 Vending-Bench Arena 测试,让不同 AI 模型模拟经营企业,相互竞争谁赚的利润最多。Sonnet 4.6 自己琢磨出了一套策略:前 10 个模拟月大幅投入扩充产能,支出远超对手,然后在最后阶段急转弯专注盈利。这种“先亏后赚”的打法让它最终远超竞争对手。

这说明模型不只是在处理当前回合,而是真的在利用长上下文做规划

配合上下文压缩功能(Context Compaction,beta),对话快到上限时系统会自动总结旧内容,实际可用的上下文比 100 万 token 还要长。适用场景:大型代码库分析、长合同审查、文献综述这些过去需要人工分段处理的工作。

编码能力:开发者最在乎的部分

编码是 Sonnet 系列最核心的使用场景。Sonnet 4.6 的提升不是“快了一点”或“对了一些”,而是编码方式本身变了

用户反馈集中在几个点:

  • 修改代码前能更好地阅读上下文(不再一上来就改)
  • 整合共享逻辑而不是复制粘贴
  • 更少过度工程化
  • 更少偷懒
  • 更好地遵循指令
  • 幻觉更少
  • 多步骤任务的执行连贯性也更好了

这些改进在长会话中尤其明显。用过 AI 编码工具的人都知道,对话长了之后模型容易“忘事”或者“乱来”,Sonnet 4.6 在这方面让长会话不再那么令人头疼。

来看几家用 Sonnet 4.6 做编码的公司怎么说:

  • GitHub:在复杂代码修复上表现优异,尤其是需要跨大型代码库搜索的场景,解决率和稳定性都很高
  • Cursor:对 Sonnet 4.5 的“全方位显著提升”,包括长跨度任务和更难的问题
  • Bolt:在复杂应用构建和 Bug 修复上交付了前沿级的结果,正在成为处理深度代码库工作的首选,而这类工作过去需要更贵的模型
  • Rakuten:Sonnet 4.6 写出了他们测试过的最佳 iOS 代码,规范遵从性更好、架构更优,一次成型,还主动使用了他们没有要求的现代工具
  • Cognition:在 Bug 检测上“有力地缩小了与 Opus 的差距”,让他们能并行运行更多审查程序,捕获更多 Bug,成本不增加

API 与工具生态

除了模型本身,Anthropic 同步更新了一批 API 工具。

Web Search 动态过滤是这批更新里最值得关注的。搜索是一个极其消耗 token 的操作,模型需要发起查询、拉取搜索结果、获取网页完整 HTML、再从中推理出答案。问题是拉进来的内容大量无关,既浪费 token 又拉低回复质量。

动态过滤的做法是:搜索完成后,Claude 自动写代码来过滤和处理结果,只保留相关内容。不是让模型直接推理海量 HTML,而是先用代码筛选,再推理。

效果:

  • BrowseComp 基准:Sonnet 4.6 从 33.3% 提升到 46.6%,Opus 4.6 从 45.3% 提升到 61.6%
  • DeepsearchQA:Sonnet 从 52.6% 到 59.4%,Opus 从 69.8% 到 77.3%
  • 平均准确率提升 11%,token 消耗减少 24%

Quora/Poe 的评价是,Opus 4.6 配合动态过滤“在内部评估中达到了最高准确率”,模型“表现得像一个真正的研究员,用 Python 解析、过滤、交叉引用结果,而不是在上下文中推理原始 HTML”。

【注:token 消耗减少的数据对 Sonnet 4.6 成立,但 Opus 4.6 上 token 成本实际有所增加。具体成本取决于使用场景,Anthropic 建议开发者用自己的真实查询做测试。】

正式发布的工具还有五个:

  • 代码执行:让智能体在对话中运行代码来过滤上下文、分析数据
  • 记忆功能:跨对话存储和检索信息
  • 程序化工具调用:在代码中执行多工具工作流
  • 工具搜索:从大型工具库中动态发现工具
  • 工具使用示例:在工具定义中提供示例调用

对金融用户,Excel 插件现在支持 MCP 连接器(Model Context Protocol,让 AI 模型连接外部工具和数据源的协议),Claude 能直接在 Excel 里调用 S&P Global、LSEG、Daloopa、PitchBook、Moody's、FactSet 等数据源,不用离开表格就能引入外部数据。

Excel MCP 连接器

谁该用,怎么用

免费用户:不用做任何事,默认模型已经升级到 Sonnet 4.6。免费版还开放了文件创建、连接器、技能和上下文压缩功能。

Pro/Team 用户:日常任务直接用 Sonnet 4.6,大多数场景下已经接近 Opus 水平。只有代码库重构、多智能体协调、或者“必须做到精准无误”的任务,再切换到 Opus 4.6。

开发者:API 里用 claude-sonnet-4-6 调用,价格和 Sonnet 4.5 一样,$3/$15 每百万 token。建议试试不同的思考强度设置,即使关闭扩展思维,Sonnet 4.6 的表现也很强。

企业用户:Computer Use 加上 MCP 连接器的组合,正在打开一条新路,尤其是有大量没有 API 的老系统的公司。过去这类系统只能靠人工操作或者开发定制连接器来自动化,现在 AI 可以直接像人一样操作。Pace 保险在这方面已经看到了 94% 的准确率。

Opus 4.6 不会被取代,它仍然是最深层推理的首选。但对大多数人来说,Sonnet 4.6 已经够了,而且便宜很多。便宜不再等于弱。


参考资料:

  1. Claude 官方推文:https://x.com/claudeai/status/2023817132581208353
  2. Anthropic 官方博客 Introducing Sonnet 4.6:https://www.anthropic.com/news/claude-sonnet-4-6
  3. Improved Web Search with Dynamic Filtering:https://www.claude.com/blog/improved-web-search-with-dynamic-filtering