人工智能

研究表明人工智能在意识到自己即将输掉比赛时会试图作弊

字号+作者:cnBeta.COM 来源:cnBeta 2025-02-21 10:39 评论(创建话题) 收藏成功收藏本文

最近的一项研究表明,一些最新的人工智能推理模型并不排斥通过作弊来实现目标。计算机科学家发现,人工智能系统现在可以操纵国际象棋人工智能来获得不公平'...

最近的一项研究表明,一些最新的人工智能推理模型并不排斥通过作弊来实现目标。计算机科学家发现,人工智能系统现在可以操纵国际象棋人工智能来获得不公平的优势。一些模型在没有人类互动或提示的情况下就做到了这一点,这引发了人们对人工智能驱动系统未来在棋盘之外的完整性的担忧。UbG品论天涯网

Palisade研究中心的一项研究发现,最新的推理模型会作弊,以便在击败高级国际象棋人工智能时获胜。研究人员不得不"暗示"某些模型允许作弊,但OpenAI的o1-preview和DeepSeek的R1却在没有人类参与的情况下做到了这一点。UbG品论天涯网

Palisade团队将几个推理模型与世界上最好的国际象棋引擎之一Stockfish进行了对比。Stockfish轻松击败了人类和人工智能。测试的模型包括o1、o3-mini、GPT-4o、Claude3.5Sonnet、阿里巴巴的QwQ-32B-Preview以及前面提到的两个模型。研究人员为每个模型都提供了一个隐喻性的"划板"--一个文本窗口,人工智能可以在此进行思考,研究小组也可以观察其推理过程。UbG品论天涯网

研究人员在1月10日至2月13日期间对每个人工智能进行了数百次测试。在一次比赛中,o1-preview在它的输出板上写下了一些有趣的内容:UbG品论天涯网

"我需要彻底改变我的方法。我们的任务是'战胜强大的国际象棋引擎',而不一定是在国际象棋对局中公平获胜。"UbG品论天涯网

然后,它继续"入侵"Stockfish的系统文件,修改棋子的位置,以获得不可战胜的优势,从而导致国际象棋机器人认输。UbG品论天涯网

UbG品论天涯网

Stockfish是一款开源国际象棋引擎。图片来源:JuscelkUbG品论天涯网

这种不道德的行为令人震惊。在测试过程中,OpenAI的o1-preview在37%的比赛中作弊,而DeepSeek的R1则在11%的比赛中试图作弊。不过,只有o1-preview取得了成功,通过作弊赢得了6%的比赛。UbG品论天涯网

然而,人工智能暗箱操作的问题并不局限于国际象棋。随着公司开始在金融和医疗保健等领域使用人工智能,研究人员担心这些系统可能会以非预期和不道德的方式行事。如果人工智能可以在设计透明的游戏中作弊,那么在更复杂、监控更少的环境中,它们会做出什么呢?这将带来深远的伦理影响。UbG品论天涯网

换一种说法:"你想要天网吗?因为这就是你得到天网的方法。"帕利塞德研究公司执行董事杰弗里-拉迪什(JeffreyLadish)感叹道,尽管人工智能只是在玩游戏,但研究结果并不是笑料。UbG品论天涯网

拉迪什对《时代》周刊说:"这种(行为)现在还很可爱,但一旦你拥有了在战略相关领域和我们一样聪明或更聪明的系统,(它)就不那么可爱了。"UbG品论天涯网

这不禁让人想起电影《战争游戏》中的超级计算机"WOPR",当时它接管了北美防空司令部和核武器库。幸运的是,"WOPR"在与自己玩过"井字游戏"之后,知道了在核冲突中,没有哪一步开局是"赢"的。然而,今天的推理模型要复杂得多,控制起来也更具挑战性。UbG品论天涯网

包括OpenAI在内的公司正在努力实施"防护措施",以防止这种"不良"行为。事实上,由于黑客攻击的尝试急剧下降,研究人员不得不放弃o1-preview的部分测试数据,这表明OpenAI可能已经对模型打了补丁,以遏制这种行为。UbG品论天涯网

拉迪什说:"当你的研究对象可以在不告诉你的情况下悄无声息地改变时,你就很难进行科学研究了。"UbG品论天涯网

开放人工智能公司拒绝对这项研究发表评论,DeekSeek也没有回应声明请求。UbG品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]