【小哈划重点:此外,Anthropic还向开发者开放了构建Claude Code所依赖的核心组件——Claude Agent SDK,助力开发者打造专属智能体。】
9月30日消息,Anthropic发布最新AI模型Claude Sonnet 4.5,在推理和数学能力上实现了显著提升。Anthropic称Claude Sonnet 4.5是全球最出色的编码模型,也是构建复杂智能体(Agent)的最强模型,更是最擅长操作计算机的模型。
Claude Sonnet 4.5已在全平台上线,开发者可通过Claude API直接调用,定价与Claude Sonnet 4保持一致,仍为每百万tokens 3美元 / 15美元。
根据Anthropic公开的数据,在衡量“真实世界软件编码能力”的SWE-bench Verified 评测中,Claude Sonnet 4.5达到行业领先水平,能在复杂多步骤任务中保持专注超过30小时,全程稳定输出高质量代码。
Claude Sonnet 4.5在“计算机使用能力”上实现重大突破:
* 在测试AI模型“真实世界计算机任务处理能力”的OSWorld基准测试中,其得分达到61.4%,位居全球第一;而仅在4个月前,Claude Sonnet 4的得分还为42.2%(同样当时位列第一)。
* 借助Claude谷歌浏览器扩展程序,这些升级后的能力可直接落地:在下方演示中,Claude能直接在浏览器内操作 —— 导航网页、填写电子表格、完成完整任务流,全程无需人工干预。
除编码和计算机操作外,Claude Sonnet 4.5在推理、数学等领域的能力也显著提升。来自金融、法律、医疗、STEM(科学、技术、工程、数学)领域的专家反馈:相较于包括Opus 4.1在内的前代模型,Claude Sonnet 4.5在“领域专属知识”和“专业推理”上的表现有质的飞跃。
此次发布不仅包含Claude Sonnet 4.5模型本身,还同步推出了一系列重大产品升级:
在Claude Code中,新增了用户呼声极高的“检查点”功能 —— 可自动保存工作进度,让你能即时回滚到之前的操作状态;
优化了终端界面,并推出原生VS Code扩展;
为Claude API新增“上下文编辑”功能和“记忆工具”,使智能体能够处理更长时间、更复杂的任务;
在Claude应用内,直接支持“代码执行”和“文件创建”(包括电子表格、幻灯片、文档等格式),无需跳转外部工具;
上个月加入等待列表的Max订阅用户,现已可使用Claude谷歌浏览器扩展程序。
此外,Anthropic还向开发者开放了构建Claude Code所依赖的核心组件——Claude Agent SDK,助力开发者打造专属智能体。
(原文标题:《Anthropic发布最新AI模型Claude Sonnet 4.5,可连续编程30小时》。文章插图未收录)