人工智能推理模型(例如OpenAI的o3和DeepSeek的R1)的一个关键特性是其思维链(CoT),即人工智能模型解决问题的外部化过程,类似于人类使用便笺簿解决难题的方式。推理模型是驱动人工智能代理的核心技术,本文作者认为,随着人工智能代理的普及和能力的提升,CoT监控可能成为控制人工智能代理的核心方法。
研究人员在立场文件中指出:“CoT监控为前沿人工智能的安全措施提供了宝贵的补充,让我们得以难得地了解人工智能代理的决策方式。然而,我们无法保证目前的可见性能够持续下去。我们鼓励研究界和前沿人工智能开发者充分利用CoT的可监控性,并研究如何维护它。”
这份立场文件要求领先的人工智能模型开发者研究是什么让CoT变得“可监控”——换句话说,哪些因素能够增加或降低人工智能模型真正得出答案的透明度。论文作者表示,CoT监控或许是理解人工智能推理模型的关键方法,但也指出它可能存在缺陷,并警告任何可能降低其透明度或可靠性的干预措施都不可取。
该论文的作者还呼吁人工智能模型开发人员追踪CoT的可监控性,并研究如何在未来将该方法作为一项安全措施实施。
该论文的知名签署者包括OpenAI首席研究员MarkChen、SafeSuperintelligence首席执行官IlyaSutskever、诺贝尔奖得主GeoffreyHinton、GoogleDeepMind联合创始人ShaneLegg、xAI安全顾问DanHendrycks以及ThinkingMachines联合创始人JohnSchulman。论文第一作者包括来自英国人工智能安全研究所和阿波罗研究中心的领导,其他签署者来自METR、亚马逊、Meta和加州大学伯克利分校。
这篇论文标志着人工智能行业众多领军人物团结一致,共同推动人工智能安全研究。目前,科技公司正陷入激烈的竞争,Meta甚至以数百万美元的薪酬从OpenAI、GoogleDeepMind和Anthropic挖走了顶尖研究人员。其中一些最抢手的研究人员正是那些构建人工智能代理和人工智能推理模型的研究人员。
立即直播!TechCrunch全舞台更智能地构建,更快速地扩展,更深入地联系。与来自PrecursorVentures、NEA、IndexVentures、UnderscoreVC等机构的远见卓识者共度一天,体验丰富的战略规划、研讨会和有意义的交流。
马萨诸塞州波士顿 | 7月15日
立即注册
“我们正处于一个关键时刻,出现了这种新的‘思路链’。它看起来很有用,但如果人们不真正关注它,几年后它可能会消失,”参与撰写该论文的OpenAI研究员BowenBaker在接受TechCrunch采访时表示。“对我来说,发表这样的立场文件是一种机制,可以在这种情况发生之前,让更多人对这个话题进行研究,并引起更多关注。”
OpenAI于2024年9月公开发布了第一个AI推理模型o1的预览版。在此后的几个月里,科技行业迅速发布了具有类似功能的竞争对手,其中GoogleDeepMind、xAI和Anthropic的一些模型在基准测试中表现出了更为先进的性能。
然而,人们对人工智能推理模型的工作原理了解甚少。尽管人工智能实验室在过去一年中在提升人工智能性能方面取得了巨大进步,但这并不一定意味着人们能够更好地理解人工智能是如何得出答案的。
Anthropic一直是业界在探索AI模型真正工作原理(即所谓的可解释性)方面的领导者之一。今年早些时候,首席执行官DarioAmodei宣布,公司致力于在2027年前破解AI模型的“黑匣子”,并在可解释性方面加大投入。他还呼吁OpenAI和GoogleDeepMind也对这一主题进行更深入的研究。
Anthropic的早期研究表明,CoT可能无法完全可靠地指示这些模型如何得出答案。与此同时,OpenAI的研究人员表示,CoT监控未来可能成为追踪AI模型中对齐和安全性的可靠方法。
此类立场文件旨在传递推动信号,吸引更多人关注新兴研究领域,例如CoT监控。OpenAI、GoogleDeepMind和Anthropic等公司已经在研究这些主题,但这份文件或许会鼓励更多资金投入到该领域并推动相关研究。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】