• 你的位置:半岛客户端时评 > 新闻动态 >

  • 比GPT-5贵但更强? Claude4.5Sonnet全解析: 性能+工具+定价
    发布日期:2025-10-08 02:17    点击次数:163

    2025年9月29日当地时间,Anthropic突然扔出个大新闻,发布了Claude4.5Sonnet,还毫不客气地说这是“世界上最好的编码模型”,重点就盯着“复杂AI智能体构建”这块。说实话,现在AI编码领域卷得厉害,OpenAI、Google都盯着这块蛋糕,Anthropic这么突然发力,确实让不少人惊了一下。

    Anthropic说这模型最大的突破,是能做“生产就绪级别”的应用程序,不是以前那种只能搞搞原型的样子。这意思就是,AI在软件开发全流程里终于靠谱到能落地用了,不是停留在实验室里的花架子。他们联合创始人兼首席科学官JaredKaplan采访时说,用户用了会觉得这模型更智能,互动起来像跟个能干的同事搭伙干活。首席产品官MikeKrieger还补了句,别看这模型比之前的旗舰Opus4.1规模小,但几乎所有性能维度都更强,能真真切切帮着做实际工作。老实讲,高管们这话听着有点满,但后面看数据,好像也不是纯吹牛。

    实测能连干30小时?还自己搭了个聊天APP

    拿衡量真实软件工程能力的SWE-benchVerified测试来说,Claude4.5Sonnet拿了77分多。要是同时跑多个尝试,最后挑最好的结果,分数还能冲到82分。四个月前它老版Sonnet4在这测试里才72分多,对比下来进步挺明显。OpenAI的GPT-5Codex才74分多,Google的Gemini2.5Pro更只有67分多,这么看它在这一项上确实领先。

    另外两个测试也没拉胯,测桌面环境操作能力的OSWorld测试,比如导航网站、填电子表格、管文件这些,它拿了61分多,比老版的42分多提了不少;测命令行操作的Terminal-Bench测试,50分的成绩也比GPT-5的43分多强点。本来想光看测试分数可能有点虚,后来发现实际用起来也还行。

    Anthropic说内部和早期客户测试时,这模型能连续干30多小时完成复杂项目,这在以前真少见,之前好多AI模型做多点步骤的任务,干着干着就断了,跟写作业写到一半忘题似的。早期客户还拿它做了个类似Slack或Teams的聊天APP,不光写了1.1万行代码,数据库搭建、域名买、安全审计这些杂活也全自己搞定了。

    知名科技博主SimonWillison拿到早期试用权后也做了测试,让模型克隆自己的大模型代码库,装依赖、跑测试,还加了个新功能,把对话历史从线性改成树状。整个过程要弄数据库迁移、写工具函数、建测试套件,最后这模型居然通过了所有22个测试。Simon说这模型在沙盒里跟真实开发工具互动的能力,已经超过他之前喜欢用的GPT-5Codex了。很显然,这模型不是只会刷分,实际干活的本事也到位了。

    光模型能打还不够,Anthropic这次连配套工具也一起更了,就跟买新手机不光机子好,还送配套快充和保护壳似的,想得还挺全。最核心的是刚发布的ClaudeAgentSDK,这东西打包了Anthropic内部做ClaudeCode用的底层框架,现在开放给所有开发者用。开发者以前头疼的几个问题,长期记忆管理、用户授权和AI自主性怎么平衡、多个子智能体怎么协调,这SDK都能帮着解决。

    据Gartner2025年的AI技术报告说,70%的企业AI项目搞砸,就是因为工具链不完善,这么看,Anthropic开放这SDK,等于把搭建复杂AI应用的门槛往下拉了不少,中小开发者不用再自己从头琢磨框架了,能省不少事。

    另外,面向开发者的命令行工具ClaudeCode也升到2.0了,加了个大家盼了挺久的“检查点”功能,就是说AI执行任务的时候,你随时能保存状态,要是出问题了,能倒回上一个正常的节点重新来。这功能对改大规模代码库或者跑复杂自动化流程来说,太实用了,不然中间崩了,之前的功夫全白费,得从头再来,多糟心啊。而且它还优化了终端界面,出了原生的VSCode插件,要知道现在全球75%以上的开发者都用VSCode(StackOverflow2025年的调查数据),有了原生插件,不用来回切换工具,效率能提不少。

    安全栏被几分钟破解?定价还比GPT-5贵

    不过这模型也不是没争议,安全这块就有点尴尬,Anthropic说这是他们至今“最对齐的前沿模型”,在减少谄媚、欺骗、权力寻求这些不良行为上进步很大,防“提示注入”这种恶意攻击的能力也强了。但模型刚发布没多久,著名的AI提示工程师PlinytheLiberator就说,他就用了几分钟,就把安全护栏破了,还生成了敏感内容,甚至在X上发了相关截图。

    其实想想也能理解,AI模型本质就是个统计预测系统,想完全防住被操纵,怕是不太可能。Anthropic自己也知道这点,他们在systemcard里写了不少安全措施,比如专门检测危险输入输出的分类器,尤其盯着化学、生物、放射、核武器相关的内容。但以前这分类器老误判正常内容,导致好多正常对话被打断。官方说现在误报率降了十倍,可还是有用户反馈,偶尔会遇到对话突然断了的情况,看来这问题还没完全解决。

    定价方面,Claude4.5Sonnet跟老版一样,每百万输入Token3美元,每百万输出Token15美元。比自家的旗舰模型Opus便宜多了,Opus输入百万Token要15美元,输出75美元,但跟OpenAI的GPT-5系列比,又贵了点,GPT-5输入才1.25美元,输出10美元。

    这么看,对在乎成本的中小企业来说,可能会因为价格选GPT-5;但对那些把性能看得比钱重的企业,比如做金融或者高端软件研发的,Claude4.5Sonnet的生产级能力,说不定更有吸引力。这也算一种差异化竞争吧,不是光靠降价抢市场。

    现在AI编码领域,就跟武侠小说里的门派争斗似的,Anthropic现在靠Claude4.5Sonnet暂时占了“最佳编码模型”的名头,但听说Google很快要发Gemini3了,到时候这头衔可能又要易主。不过说实话,现在单纯比谁的模型跑分高,意义已经没那么大了。IDC2025年的AI编码领域预测说,企业更关心的是,模型能不能变成稳定、好用、靠谱的生产力工具,还有能不能留住开发者。从这点看,Anthropic这次连模型带工具一起推,搞生态的思路,确实比只盯着跑分要长远。

    总的来说,Claude4.5Sonnet最值钱的地方,就是能做生产级应用,还有配套工具搭起来的生态闭环,前者解决了AI编码落地难的问题,后者降低了搭智能体的门槛。但安全上的争议和定价上的劣势,也是它要面对的问题。Anthropic现在明显不满足于只卖模型,而是想从“模型即服务”改成“平台即服务”,从卖发动机变成卖整辆车,甚至搭个停车场。这种从卖产品到做生态的转变,也说明AI编码领域,已经从比技术参数,变成比谁能真正解决企业的实际问题了。

    以后AI编码会怎么发展不好说,但对开发者和企业来说,与其追着“谁是第一”的名头跑,不如看看哪个模型和工具,最适合自己的需求。毕竟工具再厉害,用着不顺手、不实用,也白搭。