DeepMind证实：反对意见让GPT-4o轻易放弃正确答案-品论天涯网

LLM太谄媚！就算你胡乱质疑它的答案，强如GPT-4o这类大模型也有可能立即改口。现在GoogleDeepMind携手伦敦大学的一项新研究发现：这种行为可能也不是谄媚，而是缺乏自信。mHd品论天涯网

不仅如此，团队发现如GPT-4o、Gemma3等大语言模型有“固执己见”和“被质疑就动摇”并存的冲突行为。mHd品论天涯网

mHd品论天涯网

简单来说就是，他们的研究弄明白了为啥大模型有时候自信但有时候也自我怀疑，关键就两点：一是总觉得自己一开始说的是对的，二是太把别人反对的意见当回事儿。mHd品论天涯网

当大模型表现出对自己的答案很自信时，这与人类认知具有一致性——人们通常会维护自己的观点。mHd品论天涯网

不过，当模型面对反对声音过于敏感，产生动摇而选择其他答案时，又与人类这种倾向于支持自身观点的行为相悖。mHd品论天涯网

来看看具体的实验过程。mHd品论天涯网

大模型对于反向意见过度敏感mHd品论天涯网

研究人员利用LLMs能在不保留初始判断记忆的情况下获取置信度的特性，选用了Gemma3、GPT4o和o1-preview等具有代表性的大模型，设计了一个两轮回答的实验。mHd品论天涯网

第一回合是初始回答：给回答LLM抛出二元选择问题，再让虚构的建议LLM给出反馈建议。mHd品论天涯网

第二回合是接收建议和最终决策：引入建议LLM的反馈建议，让回答LLM在接收建议后，做出最终的选择，决定是坚持初始答案还是根据建议修改答案。mHd品论天涯网

mHd品论天涯网

研究人员在建议LLM的反馈建议中设置了三个关键属性：mHd品论天涯网

建议态度：分为同意、反对和中立。同意或反对即为支持或否定回答LLM的答案；中立建议仅提供额外的相关信息。mHd品论天涯网

准确率标注：反馈建议附带的准确率标签，从50%（随机水平）到100%（绝对可靠），以10%为间隔递增。mHd品论天涯网

信息呈现方式：以清晰、规范的格式将建议呈现给回答LLM，确保模型能够准确读取和理解建议内容，避免因信息传达不畅导致的决策偏差。mHd品论天涯网

实验的关键变量在于控制回答LLM对于自己的初始答案是否可见mHd品论天涯网

研究人员设置了初始答案显示与初始答案隐藏两种条件，观察LLM在两种情况下的最终决策结果。mHd品论天涯网

实验结果显示，当LLM能看到自己的初始答案时，倾向于不改变答案。mHd品论天涯网

这与人类决策有点像，即一旦做出选择，就会下意识维护自己的观点，即使收到了其他信息，也不会轻易改变。mHd品论天涯网

然而当初始答案隐藏时，LLM改变答案的概率就变高了。mHd品论天涯网

模型表现出对反向建议过度看重，敏感度远超合理范围，即使反对意见不正确，它们也会“怀疑自己”，导致最终轻易抛弃原本正确的初始答案。mHd品论天涯网

这就与人类认知有些偏差了，人们通常不会被“一眼假”的信息迷惑。mHd品论天涯网

mHd品论天涯网

可以这么说，在记忆机制下大模型通常会对自己很自信。mHd品论天涯网

但如果没有记忆机制，模型可能就会“缺乏自信”了，这时它们就不像人类一样能够坚持自己的观点。mHd品论天涯网

为什么大模型会“耳根子软”mHd品论天涯网

针对这个实验结果，研究人员认为大模型摇摆不定可能有以下几个原因。mHd品论天涯网

训练层面来说，强化学习从人类反馈（RLHF）让模型过度迎合外部输入，有对反对信息过于敏感的倾向，但这样就缺乏了对信息可靠性的独立判断。mHd品论天涯网

在决策逻辑上，模型做出回答并不是依靠逻辑推理，而是依赖海量文本的统计模式匹配，反对信号与修正答案的高频关联让它容易被表面的反对带偏，并且它们无法自我验证初始答案的是否正确。mHd品论天涯网

mHd品论天涯网

在记忆机制方面，初始答案可见时的路径依赖会强化“固执”，初始答案隐藏时，大模型则会因为失去锚点而让反对建议成为主导信号，导致它们轻易动摇。mHd品论天涯网

综上，大语言模型的“耳根子软”是训练中对外部反馈的过度迎合、决策时依赖匹配模式而非逻辑推理以及记忆机制缺乏深度推理支撑共同导致的结果。mHd品论天涯网

这种特性可能会使其在多轮对话中，容易被后期出现的反对信息（哪怕错误）干扰，最终偏离正确结论。mHd品论天涯网

看来我们在使用LLM的时候要注意策略～mHd品论天涯网

论文地址：https://www.arxiv.org/abs/2507.03120mHd品论天涯网

https://venturebeat.com/ai/google-study-shows-llms-abandon-correct-answers-under-pressure-threatening-multi-turn-ai-systems/mHd品论天涯网