SuperCLUE最新中文大模型测评结果出炉,全球第一梯队被海外模型牢牢占据,国产表现最好的三款模型,只能在全球第五名的位置上激烈竞争。本次测评覆盖21款国内外主流模型,测评集包括六大任务:数学推理、科学推理、代码生成、智能体(任务规划)、精确指令遵循、幻觉控制,共492题。
Gemini、GPT-5.5、Claude-Opus、Gemini-Flash四款海外模型稳居前四,形成难以撼动的第一梯队。
DeepSeek-V4-Pro、Qwen3.7-Max、豆包Seed2.0Pro三款国产模型分数非常接近,组成国内第一梯队,全球排名集中在第五位附近,成为国产第一集团。
虽然整体仍有差距,但国产模型进步很明显。代码生成项目中,Qwen3.7-Max得分仅次于海外头部模型,差距不到2分。数学推理、科学推理等项目,国产模型也多次冲进全球前列。
性价比方面,国产模型优势突出,多款产品进入高性价比区间,用更低成本实现接近头部的效果。推理效能上,海外模型仍垄断高效能区,国产模型多处在中低区间,还有提升空间。
整体来看,国产大模型正在快速追赶,但全球第一梯队的格局暂时没变。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】