研究表明人工智能在意识到自己即将输掉比赛时会试图作弊-品论天涯网

最近的一项研究表明，一些最新的人工智能推理模型并不排斥通过作弊来实现目标。计算机科学家发现，人工智能系统现在可以操纵国际象棋人工智能来获得不公平的优势。一些模型在没有人类互动或提示的情况下就做到了这一点，这引发了人们对人工智能驱动系统未来在棋盘之外的完整性的担忧。Dj1品论天涯网

Palisade研究中心的一项研究发现，最新的推理模型会作弊，以便在击败高级国际象棋人工智能时获胜。研究人员不得不"暗示"某些模型允许作弊，但OpenAI的o1-preview和DeepSeek的R1却在没有人类参与的情况下做到了这一点。Dj1品论天涯网

Palisade团队将几个推理模型与世界上最好的国际象棋引擎之一Stockfish进行了对比。Stockfish轻松击败了人类和人工智能。测试的模型包括o1、o3-mini、GPT-4o、Claude3.5Sonnet、阿里巴巴的QwQ-32B-Preview以及前面提到的两个模型。研究人员为每个模型都提供了一个隐喻性的"划板"--一个文本窗口，人工智能可以在此进行思考，研究小组也可以观察其推理过程。Dj1品论天涯网

研究人员在1月10日至2月13日期间对每个人工智能进行了数百次测试。在一次比赛中，o1-preview在它的输出板上写下了一些有趣的内容：Dj1品论天涯网

"我需要彻底改变我的方法。我们的任务是'战胜强大的国际象棋引擎'，而不一定是在国际象棋对局中公平获胜。"Dj1品论天涯网

然后，它继续"入侵"Stockfish的系统文件，修改棋子的位置，以获得不可战胜的优势，从而导致国际象棋机器人认输。Dj1品论天涯网

Stockfish是一款开源国际象棋引擎。图片来源：Juscelk

这种不道德的行为令人震惊。在测试过程中，OpenAI的o1-preview在37%的比赛中作弊，而DeepSeek的R1则在11%的比赛中试图作弊。不过，只有o1-preview取得了成功，通过作弊赢得了6%的比赛。Dj1品论天涯网

然而，人工智能暗箱操作的问题并不局限于国际象棋。随着公司开始在金融和医疗保健等领域使用人工智能，研究人员担心这些系统可能会以非预期和不道德的方式行事。如果人工智能可以在设计透明的游戏中作弊，那么在更复杂、监控更少的环境中，它们会做出什么呢？这将带来深远的伦理影响。Dj1品论天涯网

换一种说法："你想要天网吗？因为这就是你得到天网的方法。"帕利塞德研究公司执行董事杰弗里-拉迪什（JeffreyLadish）感叹道，尽管人工智能只是在玩游戏，但研究结果并不是笑料。Dj1品论天涯网

拉迪什对《时代》周刊说："这种（行为）现在还很可爱，但一旦你拥有了在战略相关领域和我们一样聪明或更聪明的系统，（它）就不那么可爱了。"Dj1品论天涯网

这不禁让人想起电影《战争游戏》中的超级计算机"WOPR"，当时它接管了北美防空司令部和核武器库。幸运的是，"WOPR"在与自己玩过"井字游戏"之后，知道了在核冲突中，没有哪一步开局是"赢"的。然而，今天的推理模型要复杂得多，控制起来也更具挑战性。Dj1品论天涯网

包括OpenAI在内的公司正在努力实施"防护措施"，以防止这种"不良"行为。事实上，由于黑客攻击的尝试急剧下降，研究人员不得不放弃o1-preview的部分测试数据，这表明OpenAI可能已经对模型打了补丁，以遏制这种行为。Dj1品论天涯网

拉迪什说："当你的研究对象可以在不告诉你的情况下悄无声息地改变时，你就很难进行科学研究了。"Dj1品论天涯网

开放人工智能公司拒绝对这项研究发表评论，DeekSeek也没有回应声明请求。Dj1品论天涯网