人工智能

Manus都点赞的Claude 4,究竟好在哪儿?

字号+作者:直面AI 来源:直面AI 2025-05-23 16:54 评论(创建话题) 收藏成功收藏本文

目睹完今天Claude4的发布会全程,我只看到了一句话——大模型正在范式转变,AI智能体时代真的来了。AI编程的唯一真神Claude3.7Sonnet,终于被Antrhopic的下'...

目睹完今天Claude4的发布会全程,我只看到了一句话——大模型正在范式转变,AI智能体时代真的来了。AI编程的唯一真神Claude3.7Sonnet,终于被Antrhopic的下一代AI大模型——ClaudeOpus4和ClaudeSonnet4彻底淘汰掉了。各国网友对此有非常直观的感受,比如有人在一手实测中疯狂夸赞Claude4:“它一下子就能写出8000行代码”。9cq品论天涯网


9cq品论天涯网


9cq品论天涯网

除了Claude4的推出之外,他们还顺手给了几个新智能体时代的功能拓展。9cq品论天涯网

我们先从大模型讲起。9cq品论天涯网

019cq品论天涯网

Claude4瞄准了AI智能体编程9cq品论天涯网

这次,他们推出的ClaudeOpus4和ClaudeSonnet4这两款模型都是混合模型:及时响应与深度思考并重。9cq品论天涯网

可见,混合思考架构已然成为未来大模型的趋势,用户需要在简单的需求下获得更快的回复,在复杂要求中获得更好的生成结果。两款模型在性能、功能和应用场景上有了显著提升,价格却与之前的Opus和Sonnet模型保持一致,内部优化做得很好。9cq品论天涯网

先从评分开始看起。Claude4模型在用于评估真实软件工程任务性能的SWE-benchVerified基准上堪称“遥遥领先”。值得一提的是,在本次评分对比中,Claude4特意被拉来与OpenAI前几天刚刚高调发布的“最强AI编程智能体Codex-1”进行正面较量。9cq品论天涯网


9cq品论天涯网

ClaudeOpus4在编码、研究、写作和科学发现等人类复杂性高的任务方向,拓展了边界。比如,在编码领域它被Cursor称为顶尖技术,显著提升复杂代码库的理解能力,适合处理复杂的编程任务。Cognition则强调Opus4已经能够解决其他模型无法应对的复杂任务。9cq品论天涯网

ClaudeSonnet4将“天赋”融入日常使用场景,这款均衡型模型在内部和外部应用中兼顾了性能与效率,虽在多数领域不及Opus4,但提供了能力与实用性的最佳结合。它非常适合需要自主性的场景。iGent的报告指出,Sonnet4在自主开发多功能应用方面表现惊艳,错误率几从20%骤降至几乎为零。9cq品论天涯网

在下面这张综合基准测试评分表中,Claude4与其他市场主流大模型在编程、推理、多模态能力、智能体任务方面都拉开了一定差距。9cq品论天涯网


9cq品论天涯网

有趣的一点是,Anthropic将最左侧的数个基准测试名称中都加入了“Agentic”。9cq品论天涯网

2025是AI智能体时代这一说法,再次被确认。9cq品论天涯网

在Anthropic的官方发布中,有很大的篇幅着重介绍了Claude4系列在“复杂项目”构建中的震撼级能力。其中,官方着重引用了GithubCopilot、iGent,甚至是Manus等平台的反馈。日本一家名叫乐天得企业,甚至让ClaudeOpus4独立编程7h,团队自己都有些惊讶。9cq品论天涯网

前段时间刚一问世就被网络平台誉为“上帝之手”的Manus则在报告中大赞ClaudeSonnet4,称它复杂指令遵循能力和输出的美观度非常高。9cq品论天涯网


9cq品论天涯网

可以预见的是,目前智能体赛道的各个选手将会第一时间集成Claude4,因为它相对于之前的Claude模型在智能体任务中有了太多的改进。9cq品论天涯网

比如:9cq品论天涯网

1.Opus4和Sonnet4不再像Sonnet3.7那样爱走捷径和漏洞了,这种不正常的行为发生率直接降低了65%。9cq品论天涯网

2.Opus4也迅速跟进了“记忆增强”,现在它可以更好地执行长期任务了。9cq品论天涯网

3.使用小型模型压缩冗长的思考过程,自己去做思考摘要。9cq品论天涯网


9cq品论天涯网

图注:ClaudeOpus4在玩《宝可梦时》自主记录笔记。9cq品论天涯网

029cq品论天涯网

Claude4其实是LLM+Agent的混合体?9cq品论天涯网

除了Claude4发布之外,整场发布会的另一个侧重点是:Claude代码已经发布。用户已经能够通过终端、IDE(VSCode和JetBrains)及通过Claude代码SDK后台将Claude融入开发流程。用户可以在终端中直接利用Claude,瞬间搜索百万行代码库。9cq品论天涯网


9cq品论天涯网

在官方介绍中,ClaudeCode搭载ClaudeOpus4,可以通过智能体搜索全面理解代码库,无需手动选择上下文即可协调多个文件更改,无缝融入工作流,直接运行于终端。9cq品论天涯网


9cq品论天涯网

只需在IDE终端运行Claude代码即可安装,可扩展的Claude代码SDK还能让用户轻松“打造自定义智能体和应用”。Anthropic给想要构建智能体的用户们又打上了一剂强心针。9cq品论天涯网


9cq品论天涯网

Anthropic还发布了几个面向智能体的新功能:代码执行工具、MCP连接器、文件API,以及最多可缓存一小时提示词的能力,让Claude4几乎成为了智能体专精模型。在我看来,这就是Anthropic在AI下半程“智能体入口争夺战”中的大动作。允许模型将推理与外部资源结合的设计,使 Claude4架构更像是一个LLM+Agent的混合体。9cq品论天涯网

可以这么说,整场发布会看下来,Claude4几乎是将自己确立为“AI智能体时代”最能用也是最好用的大模型。9cq品论天涯网

除了技术侧内容,Anthropic在安全上的操作一直都非常令人“印象深刻”,封号封的各个社区怨声载道。官方这回依旧强调了这些模型都经过了广泛的测试和评估,比如他们用了ASL-3安全分类,在这个风险标准下:“AI系统具有显著增加灾难性滥用风险”。9cq品论天涯网

他们还是沿袭了Anthropic的标志性安全策略——“宪法AI”(ConstitutionalAI)。该方法为模型嵌入了一套“宪法”原则,通过额外的AI模型对用户的输入和模型的输出进行再度扫描,检查是否有“坏”的内容,决定是否放行。这回,Anthropic放出来的模型卡PDF中足足有123页,其中大部分仍然是在专注于AI安全的测试。9cq品论天涯网


9cq品论天涯网

比如,Anthropic决定根据AI安全级别3标准发布ClaudeOpus4,根据AI安全级别2标准发布ClaudeSonnet4,分级分的非常精准。9cq品论天涯网

但是,现在的外网针对Claude4“过于高”的安全措施的讨论,几乎乱成了一锅粥。因为有网友似乎基于Claude给出的系统卡文件爆料:Claude4会检测用户内容,并自主“报警”……9cq品论天涯网


9cq品论天涯网

虽然暂无法确定这些爆料是否真实,但也确实反映了大家认为Claude4的安全措施真的太过于严格了,甚至到了可能影响用户体验或功能性的地步。毕竟,国内的Claude使用者已经流行起了“打一枪,换一个地”的使用策略。9cq品论天涯网

039cq品论天涯网

Claude4在实测中全面提升9cq品论天涯网

目前各个社区、各个国家的网友全部在疯狂测试这款即将取代Claude3.7Sonnet的大模型。为了支撑智能体中常常需要的长序列复杂处理任务,具有美感输出能力且超强的AI编程能力的大模型仍然是极度稀缺的。Claude4系列只是看前方无人在,顺势补缺而已。9cq品论天涯网

那么说到底,Claude4面对复杂性任务,表现到底有多超纲?9cq品论天涯网

下面来看看全网实测案例:9cq品论天涯网

Claude4与BlenderMCP的连接,让产品3D模型设计几乎有了质的飞跃。像是有网友使用Claude4和Blender通过MCP联动制作了日本清水寺的3D模型。这回的Claude4相比于前代Claude3.7,编程时间大幅减少,全程无需“人类陪伴”,AI的幻觉发生率也下降了很多。9cq品论天涯网


9cq品论天涯网

甚至还有网友使用ClaudeOpus4制作了类似Bemani2DX风格的游戏。不仅重现了经典的音乐游戏体验,还融入了许多创新元素,提升了游戏的可玩性和趣味性。9cq品论天涯网


9cq品论天涯网

Claude4在面对复杂任务的处理上十分得心应手。比如有网友输入提示词:用立体相机拍摄物体,推测3D空间坐标,并通过交互式可视化展示,并支持拖动。9cq品论天涯网


9cq品论天涯网

除了硬核编程能力的提升之外,Claude4在设计感上正如Manus所说,有了很大的美学提升。很多网友曾在各个社区评论下笑称:各个智能体什么小游戏都能做,但是没见过做PPT的。9cq品论天涯网

一位外网网友就试着让Claude4制作说明幻灯片,呈现出来的效果非常具有设计感,整体要素也更加简洁。9cq品论天涯网


9cq品论天涯网

在美学的提升方面,这有个更直观的Case。一位网友只给了ClaudeOpus4一小段提示词:“将书籍《Piranesi》作为p5js3d空间,doitforme”,没有掺杂任何其他元素。9cq品论天涯网

ClaudeOpus4甚至在初版原型中加入鸟、光照、水面等元素,虽然效果还比较基础,但仍能反应这款旗舰模型的性能。9cq品论天涯网


9cq品论天涯网

目前,大量的AI编程平台(像是Cursor、Trae、WindsurfVapi、Codegen)、智能体产品(像是Flowith)内几乎都迅速接入了Claude4系列,毕竟它可能是能进一步提升智能体表现的重要模型。9cq品论天涯网


9cq品论天涯网

Anthropic由于一直以来专注于安全顶层设计,而常常被认为“他们还没有找到一个合适的AI入口,只能当个扫地神僧,甚至没有办法参加到最高级别的公开赛场之中”。9cq品论天涯网

当Claude4系列模型发布,以及其他像是代码执行器、MCP连接器、Claude代码等等面向智能体产品的功能模块推出,Anthropic可以说已经拿到了一个非常好的“智能体入口”,正式站到了顶级赛场。9cq品论天涯网

从Anthropic去年推出MCP协议以来,再到Claude4的出现,他们已经在事实上为AI智能体时代按下了“加速键”。Anthropic的CEO——DarioAmodei为整个AI大模型赛道明确了一个未来的方向:真正优秀的AI大模型,一定是“大模型”与“智能体”的深度融合——它能编程、能思考,还能自主解决复杂问题,甚至具备了美学与设计感。9cq品论天涯网

AI的下半场早已经开启,Claude4正在引领一场新的“AI大模型+智能体”范式转变。9cq品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]