北京时间9月30号凌晨,Anthropic 正式发布了 Claude Sonnet 4.5,官方宣称这是迄今为止 “最强大的编码模型” 与 “最符合前沿技术的模型”。与之前的 Claude 模型相比,在多个领域都有了很大的改进,接下来我们一起看看它的关键升级都有哪些吧。
让我们深入了解一下它的新特性、它与其他前沿模型的比较,以及为什么它可能是目前市场上适合开发人员、企业和高级用户的最佳模型。
Claude Sonnet 4.5 在SWE-bench Verified测试中展现了卓越的性能,该测试旨在评估 AI 模型在现实世界中的软件工程能力,它的准确率达到了77.2%,在使用并行测试时计算时则提升至 82.0% 。这些结果使 Claude 领先于包括 OpenAI 的 GPT-5 和谷歌的 Gemini 2.5 Pro 在内的竞争对手。
Anthropic表示,Claude 4.5能够持续长达30小时的不间断编码,相比今年早些时候Claude Opus 4实现的7小时基准测试,实现了显著提升。在内部测试中,该模型能够自主构建和部署完整的软件堆栈,包括后端服务、域配置,甚至安全审计。
Claude Sonnet 4.5还显示出在推理和数学等广泛评估方面的改进能力。
金融、法律、医学和 STEM 领域的专家发现,与包括 Opus 4.1 在内的旧模型相比,Sonnet 4.5 表现出了更出色的领域特定知识和推理能力。
在安全性能方面,Claude Sonnet 4.5取得了显著进步,它减少了诸如谄媚、欺骗、权力追求以及鼓励妄想思维倾向等令人担忧的行为。对于该模型的代理和计算机使用功能,在防御即时注入攻击方面也取得了显著进展。
Anthropic同时推出了Claude Agent SDK,这是构建Claude Code所使用的基础设施,现在可供所有开发者使用,这意味着开发者可以构建与自己使用的相同能力的智能体。
Claude Sonnet 4.5的发布标志着AI安全领域的一个重要里程碑。通过在安全性、对齐能力和透明度方面的显著改进,该模型为未来AI技术的发展设立了新的标准。
在人工智能快速发展的今天,这种全面而深入的安全评估不仅为行业提供了宝贵经验,也为未来AI技术的发展指明了方向。
更新时间:2025-10-05
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号