人工智能

逻辑推理大翻车!GPT-4、Gemini被曝重大缺陷,LLM严重降智

字号+作者: 来源:站长之家 2024-02-26 14:21 评论(创建话题) 收藏成功收藏本文

要点:1. 大模型逻辑推理表现受前提顺序影响,打乱顺序可导致性能下降30%。2. 改变前提叙述顺序对大模型推理表现有重大影响,Gemini Pro、GPT-3.5-Turbo表'...

要点:von品论天涯网

1. 大模型逻辑推理表现受前提顺序影响,打乱顺序可导致性能下降30%。von品论天涯网

2. 改变前提叙述顺序对大模型推理表现有重大影响,Gemini Pro、GPT-3.5-Turbo表现下降。von品论天涯网

3. 逻辑推理中改变前提顺序让LLM性能大幅下降,需要进一步研究解决。von品论天涯网

站长之家(ChinaZ.com)2月26日 消息:近期,谷歌DeepMind和斯坦福的研究人员发现大型语言模型在处理逻辑推理任务时,前提信息的呈现顺序对其表现具有决定性影响。von品论天涯网

在逻辑推理和数学问题中,前提按照逻辑自然顺序排列时,模型表现更佳。对于大型语言模型,改变前提叙述顺序会导致性能大幅下降,尤其是在添加分散注意力规则的情况下。von品论天涯网

image.pngvon品论天涯网

论文地址:https://arxiv.org/pdf/2402.08939.pdfvon品论天涯网

研究人员发现,通过打乱GSM8K测试集中问题陈述的顺序构建R-GSM测试集,几乎所有主流LLM在新测试集上表现下降。尽管人类在逻辑推理时对前提顺序也有偏好,但LLM更容易受到顺序效应影响,这可能与自回归模型训练目标和数据偏差有关。von品论天涯网

改变前提顺序可以使模型准确率下降超过30%,不同顺序对不同模型影响也不同,如GPT模型在反向排序下表现较好。研究人员还发现加入更多干扰规则和多种前提顺序会使问题更加复杂,需要进一步研究解决。在逻辑推理中,前提顺序对大型语言模型推理表现有重大影响,如何应对这一问题仍是一个挑战。von品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]