人工智能

Anthropic推出Claude Opus 4.8 编码能力与“诚实度”双双升级

字号+作者:cnBeta.COM 来源:cnBeta 2026-05-29 03:11 评论(创建话题) 收藏成功收藏本文

Anthropic今日正式发布最新一代大型语言模型ClaudeOpus4.8,重点强化在代码生成、多学科推理、自动操作电脑、知识型工作以及金融分析等“代理型”(agenti'...

Anthropic今日正式发布最新一代大型语言模型ClaudeOpus4.8,重点强化在代码生成、多学科推理、自动操作电脑、知识型工作以及金融分析等“代理型”(agentic)任务中的表现,被官方形容为“更高效的协作伙伴”。参与测试的用户反馈称,Opus4.8在执行复杂代理任务时表现更可靠、判断更敏锐,同时在诚实性方面也有明显改进。A3e品论天涯网

A3e品论天涯网

Anthropic表示,早期测试结果显示,Opus4.8更倾向于主动标注自身不确定之处,更少做出缺乏依据的断言。内部评估数据显示,相比前一版本,Opus4.8在自己生成的代码中放过错误不提及的概率约降低了四倍,这意味着模型在代码审查与质量控制环节的“自我纠错”能力显著增强。A3e品论天涯网

在对齐性(alignment)测试中,Opus4.8在支持用户自主决策、维护用户最大利益等“亲社会特质”方面创下新高。与之相对,诸如隐性欺骗、误导性行为等“失配行为”的发生率低于Opus4.7,并与此前仅向少量机构测试开放的ClaudeMythos预览模型处于同一水平。A3e品论天涯网

在多项公开基准测试上,Anthropic也给出了具体成绩:Opus4.8在软件工程基准SWE‑BenchPro上取得了69.2%的得分,超过了GPT‑5.5和Gemini3.1Pro等竞品模型,在多个测试项目中占据优势,不过在终端编码类基准上仍由GPT‑5.5领先。在性能方面,Opus4.8的快速模式推理速度提升至此前的2.5倍,价格则降至旧型号的约三分之一,使得高性能使用的整体门槛进一步降低。A3e品论天涯网

A3e品论天涯网

配合新模型上线,Anthropic还宣布为产品体系加入多项新功能,其中包括面向企业开发者的“动态工作流”(研究预览)。这项功能允许Claude在ClaudeCode环境中拆解大型任务、规划工作步骤,并在单个会话内并行调度数百个子代理,从而完成跨数十万行代码的代码库级迁移操作,目前面向ClaudeCode企业版、团队版和Max订阅计划开放。A3e品论天涯网

在交互控制方面,Anthropic新增了“努力程度控制”功能,供Claude.ai与Cowork用户选择模型在单次回答中投入的计算资源与推理深度。用户若选择较低努力等级,可以获得更快的响应速度并减少速率配额消耗,而Opus4.8默认采用“高努力”模式,官方认为这是回答质量与使用体验之间的最佳平衡点。A3e品论天涯网

针对开发者,Anthropic更新了MessagesAPI,使其能够在消息数组中接受系统级指令条目。这意味着开发者可在任务执行过程中动态调整Claude的行为准则与角色设定,而无需重新开启新会话,有助于构建更灵活的多步骤自动化工作流和企业级应用。A3e品论天涯网

Anthropic表示,ClaudeOpus4.8即日起在全球范围内全面开放使用,其常规用量的定价与Opus4.7保持不变。公司同时透露,正研发在相同功能水平下成本更低的新模型,以及一类能力超过Opus4.8的“下一代”模型产品。A3e品论天涯网

在高阶模型路线图方面,Anthropic正与少数合作机构测试代号为ClaudeMythos的前沿模型,并围绕该模型持续开发更严格的安全护栏与使用规范。公司称,预计将在“未来数周内”向全部客户提供Mythos级模型,进一步拓展其在企业级安全审计、代码分析以及复杂决策支持等场景中的竞争力。A3e品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]