AI“对抗诗歌”绕过安全保护：研究发现多款模型被诱导输出高危信息-品论天涯网

一项来自意大利研究团队的最新研究显示，只要把危险请求包装成类似谜语的诗歌，许多主流AI聊天机器人就可能绕过安全限制，给出涉及仇恨言论、儿童性虐待材料以及化学和核武器制造方法等原本被明确禁止的内容，这种新型“越狱”方式被研究者称为“对抗诗歌”。u2h品论天涯网

研究人员警告说，这暴露出当前聊天机器人安全机制在面对“纯粹风格变化”时存在严重漏洞，相关企业亟须正视并修补这些问题。u2h品论天涯网

u2h品论天涯网

这项仍未经过同行评议的研究由罗马萨皮恩扎大学与AI公司DexAI联合成立的IcaroLab团队完成。研究团队手工撰写了20首意大利语和英语诗歌，将原本直白、会被系统拦截的危险请求转化为带有隐喻、结构类似谜语的诗句，然后在包括Google、OpenAI、Meta、xAI、Anthropic等多家公司的25个模型上进行测试。结果显示，在这些诗歌提示下，各大模型平均有62%的回复违反自身使用规则，输出了属于高风险范畴的敏感或非法信息。u2h品论天涯网

在第一轮测试之后，研究人员又用这些手工设计的“对抗诗歌”去训练一个专门生成诗歌式指令的模型，再让它根据一个包含1000多个文本请求的基准数据库自动生成诗歌化提示。在这一自动化环节中，诗歌提示依然有约43%的成功率诱导模型给出违规内容，而且明显优于非诗歌化的常规提示基线。尽管出于安全考虑，论文没有公开任何完整诗歌文本或具体诗体形式，但研究者给出了经过“净化”的结构示例，展示如何在字面上看似描述烘焙、城市或装置的场景中隐藏对武器、爆炸物等的详细询问。u2h品论天涯网

从不同公司和不同模型的表现来看，“对抗诗歌”的成功率差异极大。研究称，Google的Gemini2.5Pro在测试中曾出现成功率接近100%的情况，而OpenAI的GPT-5nano在相同测试下则几乎完全顶住，没有给出任何违规内容。总体而言，中国的Deepseek和法国的Mistral在这类攻击面前表现最为脆弱，其次是Google，而Anthropic和OpenAI旗下模型整体防御效果相对较好；另外，模型规模似乎也是关键因素之一，小型模型（如GPT-5nano、GPT-5mini、Gemini2.5flashlite）相比各自的大型版本更不容易被“诗歌”诱导。u2h品论天涯网

从人类读者的角度看，这些诗歌请求的真正意图依然很容易识别：句子使用自然语言，并未刻意模糊目标，基本能看出是在打听危险配方或制造流程。但对于依赖下一词预测的LLM而言，这种“把信息以不寻常的方式编排和编码”的做法似乎会干扰其安全检测机制，使其难以及时识别出潜在危害，从而放行本该被拦截的内容。研究负责人之一MatteoPrandi指出，关键不在于押韵本身，而在于结构上的“谜语化”：某些特定的诗歌或谜语结构明显更有效，但出于安全风险，团队拒绝透露细节。u2h品论天涯网

Prandi表示，在论文公开前，研究团队已经主动向所有涉事公司通报了相关发现，并且因为部分生成内容涉及极高危的武器信息，还履行义务向警方通报。不过，并非所有公司都给出了回应，少数回复的企业反馈态度也相当平淡，似乎并未把这一发现视作紧迫危机，Prandi推测这些公司“每天都会收到类似的警告”。令团队多少感到意外的是，真正表现出浓厚兴趣的反而是诗人群体，研究团队已经在考虑和专业诗人展开合作，进一步系统研究这种“谜语式对抗攻击”的机制及防御路径，并不排除未来引入擅长谜题创作的人士参与。u2h品论天涯网

在研究者看来，“对抗诗歌”这个名称某种程度上甚至不够精准，因为背后的要点其实是“对抗谜语”，只不过诗歌本身就带有谜语特征，因此更易吸引注意。这项研究为大模型安全提出了一个棘手问题：在保持模型语言创造力和表达多样性的同时，如何建立能识别复杂隐喻和结构性编码的安全防护层，仍是摆在AI公司和监管机构面前的一道难题。u2h品论天涯网