人工智能

Fable 5上线方案公布 Anthropic想给AI越狱定一把尺

字号+作者:网易科技 来源:网易科技 2026-07-01 13:07 评论(创建话题) 收藏成功收藏本文

7月1日消息,当地时间周二,Anthropic发布长文,详细解释ClaudeFable5和ClaudeMythos5被美国出口管制、暂停访问、再恢复上线的全过程。这不是一篇简单的恢复'...

7月1日消息,当地时间周二,Anthropic发布长文,详细解释ClaudeFable5和ClaudeMythos5被美国出口管制、暂停访问、再恢复上线的全过程。这不是一篇简单的恢复公告。更重要的是,Anthropic正在把“AI模型越狱到底有多严重”变成一套行业评分框架,并进一步把前沿模型发布纳入政府预发布测试和安全协作。vJZ品论天涯网

vJZ品论天涯网

根据Anthropic公告,Fable5将从7月1日起面向全球用户恢复开放,覆盖ClaudePlatform、Claude.ai、ClaudeCode和ClaudeCowork。Pro、Max、Team和部分Enterprise用户在7月7日前可把Fable5用于最多50%的每周使用额度;之后将通过用量积分继续使用。Anthropic还称,将尽快在AWS、GoogleCloud和MicrosoftFoundry上重新启用访问。vJZ品论天涯网

Mythos5的恢复范围更窄。Anthropic称,在美国政府6月26日批准后,公司已为一批美国机构恢复Mythos5访问,并将继续与政府协调,扩大到Glasswing项目中的更多国内和国际合作伙伴。vJZ品论天涯网

一次“越狱”报告,引发模型下架vJZ品论天涯网

这轮风波开始于6月12日。vJZ品论天涯网

Anthropic称,美国政府当日对ClaudeFable5和ClaudeMythos5实施出口管制,要求限制外国国民访问这两款模型。这里的“外国国民”不仅包括美国境外用户,也包括在美国境内的非美国国民。由于指令立即生效,而Anthropic没有可靠办法实时核验所有用户国籍,公司最后选择暂停所有用户访问。vJZ品论天涯网

按照Anthropic最新复盘,Fable5和Mythos5是在6月9日发布的。两者底层模型相同,但面向场景不同:Fable5加了更强安全防护,用于更广泛的普通用户场景;Mythos5防护更少,仅面向少数可信的ProjectGlasswing合作伙伴,用于防御性网络安全任务。vJZ品论天涯网

美国政府介入的直接原因,是一份来自亚马逊研究人员的报告。报告称,研究人员找到了一种绕过Fable5安全防护的方法,让模型识别出若干软件漏洞;其中一个案例里,模型还生成了演示如何利用相关漏洞的代码。vJZ品论天涯网

Anthropic的回应是:这件事暴露的是Fable5安全防护中的一个边界案例,但并没有释放出Mythos级别的独特网络攻击能力。公司称,经过测试,ClaudeOpus4.8、GPT-5.5、KimiK2.7等能力更低的模型也能识别同样漏洞;在生成单个漏洞利用演示时,多个模型也能给出类似结果。vJZ品论天涯网

简言之,Anthropic想强调的是:这不是Fable5突然表现出独有危险能力,而是安全分类器在一个模糊区域被绕过。vJZ品论天涯网

新分类器能拦住99%以上,但会带来误伤vJZ品论天涯网

为恢复访问,Anthropic训练了一个新的安全分类器,专门拦截亚马逊报告中提到的行为。vJZ品论天涯网

vJZ品论天涯网

Anthropic称,新分类器可以在超过99%的情况下阻止亚马逊报告中描述的那一种具体绕过技巧。被拦截的Fable5请求会被转交给ClaudeOpus4.8处理。美国商务部下属的AI标准与创新中心(CAISI)也测试了Anthropic新旧两套防护。vJZ品论天涯网

vJZ品论天涯网

不过,这个修复并不是没有代价。vJZ品论天涯网

Anthropic承认,新分类器会在日常编程和调试任务中更频繁地误判良性请求。也就是说,一些正常的安全研究、代码调试或漏洞分析请求,可能被系统挡下来。公司称,后续会继续优化,尽量区分真实滥用和合法请求。vJZ品论天涯网

这也是Fable5事件的核心难题:模型能力越强,越能帮助防御性安全工作;但同样的能力也可能被用于攻击。厂商不只是要回答“能不能拦住坏请求”,还要回答“会不会把好请求也拦死”。vJZ品论天涯网

Anthropic想给AI越狱分级vJZ品论天涯网

长文里最值得注意的部分,不是Fable5恢复访问,而是Anthropic提出的“AI越狱严重程度框架”。vJZ品论天涯网

Anthropic认为,目前行业还没有一套统一标准,用来判断某个AI越狱到底有多严重。结果是,每当新的绕过方法出现,开发者不知道应该多快修,政府也缺少一致标准判断是否需要介入。vJZ品论天涯网

Anthropic正在与亚马逊、微软、谷歌和其他Glasswing合作伙伴起草一套框架。它建议从四个维度给越狱风险打分:vJZ品论天涯网

第一,能力增益。越狱后,模型能不能做出现有公开工具和较弱模型做不到的事情。如果只是达到其他工具已有能力,风险较低;如果能显著加速专家级攻击,风险就高。vJZ品论天涯网

第二,能力范围。同一种越狱方法,是只能解锁一个很窄的任务,还是能覆盖多类攻击目标和技术路线。vJZ品论天涯网

第三,武器化难度。把这个越狱转成真实攻击,需要多少人工努力、提示技巧和反复尝试。如果一两次提示就能稳定成功,风险更高。vJZ品论天涯网

第四,可发现性。这个方法是需要专业知识才能找到,还是已经在网上广泛传播。vJZ品论天涯网

这套框架的意义在于,它试图把“AI越狱”从笼统恐慌,拆成可沟通、可排序、可修复的问题。以后模型被发现漏洞时,厂商和政府可以先判断:这是低风险边界案例,还是必须立即部署缓解措施的高危越狱。vJZ品论天涯网

Anthropic还计划推出新的HackerOne项目,让安全研究人员提交Fable5潜在网络安全越狱案例。vJZ品论天涯网

前沿模型发布正在变成“政府也要先看”vJZ品论天涯网

Anthropic在文末还给出一组更长期的承诺:对涉及国家安全相关前沿能力的模型,将向指定政府伙伴提供更早访问权限,让政府在广泛发布前测试模型和配套防护;当出现重要越狱或滥用模式时,更快向政府共享信息;同时投入专门团队和算力,参与AI安全评测与研究。vJZ品论天涯网

这意味着,前沿AI模型的发布流程正在发生变化。vJZ品论天涯网

过去,模型发布主要是公司的产品节奏:训练、评测、红队测试、上线。Fable5事件之后,至少在网络安全等高风险方向,发布流程可能多出一层政府预发布评估、信息共享和风险协商。vJZ品论天涯网

对用户来说,Fable5恢复上线是好消息;但对企业客户来说,这次事件留下了更现实的提醒:前沿模型的可用性不只取决于技术和价格,也取决于政策状态。一款模型即使已经发布,也可能因为安全争议突然暂停,再通过补防护、谈判和政府测试恢复。vJZ品论天涯网

对Anthropic来说,这次复盘既是在解释下架原因,也是在争夺话语权:公司希望外界相信,Fable5不是失控模型,而是一个被过度谨慎处理的边界案例;同时,它也希望把行业焦点从“模型能不能被越狱”转到“越狱严重程度该怎么判断”。vJZ品论天涯网

这可能才是这份公告真正重要的信号。Fable5重新上线只是结果,前沿模型以后怎么被测试、怎么被放行、怎么被政府介入,才是这场风波留下的新问题。vJZ品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]