Fable 5上线方案公布 Anthropic想给AI越狱定一把尺-品论天涯网

7月1日消息，当地时间周二，Anthropic发布长文，详细解释ClaudeFable5和ClaudeMythos5被美国出口管制、暂停访问、再恢复上线的全过程。这不是一篇简单的恢复公告。更重要的是，Anthropic正在把“AI模型越狱到底有多严重”变成一套行业评分框架，并进一步把前沿模型发布纳入政府预发布测试和安全协作。vJZ品论天涯网

vJZ品论天涯网

根据Anthropic公告，Fable5将从7月1日起面向全球用户恢复开放，覆盖ClaudePlatform、Claude.ai、ClaudeCode和ClaudeCowork。Pro、Max、Team和部分Enterprise用户在7月7日前可把Fable5用于最多50%的每周使用额度；之后将通过用量积分继续使用。Anthropic还称，将尽快在AWS、GoogleCloud和MicrosoftFoundry上重新启用访问。vJZ品论天涯网

Mythos5的恢复范围更窄。Anthropic称，在美国政府6月26日批准后，公司已为一批美国机构恢复Mythos5访问，并将继续与政府协调，扩大到Glasswing项目中的更多国内和国际合作伙伴。vJZ品论天涯网

一次“越狱”报告，引发模型下架vJZ品论天涯网

这轮风波开始于6月12日。vJZ品论天涯网

Anthropic称，美国政府当日对ClaudeFable5和ClaudeMythos5实施出口管制，要求限制外国国民访问这两款模型。这里的“外国国民”不仅包括美国境外用户，也包括在美国境内的非美国国民。由于指令立即生效，而Anthropic没有可靠办法实时核验所有用户国籍，公司最后选择暂停所有用户访问。vJZ品论天涯网

按照Anthropic最新复盘，Fable5和Mythos5是在6月9日发布的。两者底层模型相同，但面向场景不同：Fable5加了更强安全防护，用于更广泛的普通用户场景；Mythos5防护更少，仅面向少数可信的ProjectGlasswing合作伙伴，用于防御性网络安全任务。vJZ品论天涯网

美国政府介入的直接原因，是一份来自亚马逊研究人员的报告。报告称，研究人员找到了一种绕过Fable5安全防护的方法，让模型识别出若干软件漏洞；其中一个案例里，模型还生成了演示如何利用相关漏洞的代码。vJZ品论天涯网

Anthropic的回应是：这件事暴露的是Fable5安全防护中的一个边界案例，但并没有释放出Mythos级别的独特网络攻击能力。公司称，经过测试，ClaudeOpus4.8、GPT-5.5、KimiK2.7等能力更低的模型也能识别同样漏洞；在生成单个漏洞利用演示时，多个模型也能给出类似结果。vJZ品论天涯网

简言之，Anthropic想强调的是：这不是Fable5突然表现出独有危险能力，而是安全分类器在一个模糊区域被绕过。vJZ品论天涯网

新分类器能拦住99%以上，但会带来误伤vJZ品论天涯网

为恢复访问，Anthropic训练了一个新的安全分类器，专门拦截亚马逊报告中提到的行为。vJZ品论天涯网

vJZ品论天涯网

Anthropic称，新分类器可以在超过99%的情况下阻止亚马逊报告中描述的那一种具体绕过技巧。被拦截的Fable5请求会被转交给ClaudeOpus4.8处理。美国商务部下属的AI标准与创新中心（CAISI）也测试了Anthropic新旧两套防护。vJZ品论天涯网

vJZ品论天涯网

不过，这个修复并不是没有代价。vJZ品论天涯网

Anthropic承认，新分类器会在日常编程和调试任务中更频繁地误判良性请求。也就是说，一些正常的安全研究、代码调试或漏洞分析请求，可能被系统挡下来。公司称，后续会继续优化，尽量区分真实滥用和合法请求。vJZ品论天涯网

这也是Fable5事件的核心难题：模型能力越强，越能帮助防御性安全工作；但同样的能力也可能被用于攻击。厂商不只是要回答“能不能拦住坏请求”，还要回答“会不会把好请求也拦死”。vJZ品论天涯网

Anthropic想给AI越狱分级vJZ品论天涯网

长文里最值得注意的部分，不是Fable5恢复访问，而是Anthropic提出的“AI越狱严重程度框架”。vJZ品论天涯网

Anthropic认为，目前行业还没有一套统一标准，用来判断某个AI越狱到底有多严重。结果是，每当新的绕过方法出现，开发者不知道应该多快修，政府也缺少一致标准判断是否需要介入。vJZ品论天涯网

Anthropic正在与亚马逊、微软、谷歌和其他Glasswing合作伙伴起草一套框架。它建议从四个维度给越狱风险打分：vJZ品论天涯网

第一，能力增益。越狱后，模型能不能做出现有公开工具和较弱模型做不到的事情。如果只是达到其他工具已有能力，风险较低；如果能显著加速专家级攻击，风险就高。vJZ品论天涯网

第二，能力范围。同一种越狱方法，是只能解锁一个很窄的任务，还是能覆盖多类攻击目标和技术路线。vJZ品论天涯网

第三，武器化难度。把这个越狱转成真实攻击，需要多少人工努力、提示技巧和反复尝试。如果一两次提示就能稳定成功，风险更高。vJZ品论天涯网

第四，可发现性。这个方法是需要专业知识才能找到，还是已经在网上广泛传播。vJZ品论天涯网

这套框架的意义在于，它试图把“AI越狱”从笼统恐慌，拆成可沟通、可排序、可修复的问题。以后模型被发现漏洞时，厂商和政府可以先判断：这是低风险边界案例，还是必须立即部署缓解措施的高危越狱。vJZ品论天涯网

Anthropic还计划推出新的HackerOne项目，让安全研究人员提交Fable5潜在网络安全越狱案例。vJZ品论天涯网

前沿模型发布正在变成“政府也要先看”vJZ品论天涯网

Anthropic在文末还给出一组更长期的承诺：对涉及国家安全相关前沿能力的模型，将向指定政府伙伴提供更早访问权限，让政府在广泛发布前测试模型和配套防护；当出现重要越狱或滥用模式时，更快向政府共享信息；同时投入专门团队和算力，参与AI安全评测与研究。vJZ品论天涯网

这意味着，前沿AI模型的发布流程正在发生变化。vJZ品论天涯网

过去，模型发布主要是公司的产品节奏：训练、评测、红队测试、上线。Fable5事件之后，至少在网络安全等高风险方向，发布流程可能多出一层政府预发布评估、信息共享和风险协商。vJZ品论天涯网

对用户来说，Fable5恢复上线是好消息；但对企业客户来说，这次事件留下了更现实的提醒：前沿模型的可用性不只取决于技术和价格，也取决于政策状态。一款模型即使已经发布，也可能因为安全争议突然暂停，再通过补防护、谈判和政府测试恢复。vJZ品论天涯网

对Anthropic来说，这次复盘既是在解释下架原因，也是在争夺话语权：公司希望外界相信，Fable5不是失控模型，而是一个被过度谨慎处理的边界案例；同时，它也希望把行业焦点从“模型能不能被越狱”转到“越狱严重程度该怎么判断”。vJZ品论天涯网

这可能才是这份公告真正重要的信号。Fable5重新上线只是结果，前沿模型以后怎么被测试、怎么被放行、怎么被政府介入，才是这场风波留下的新问题。vJZ品论天涯网