人工智能

Llama 4发布36小时差评如潮 匿名员工爆料拒绝署名技术报告

字号+作者:量子位 来源:量子位 2025-04-07 14:24 评论(创建话题) 收藏成功收藏本文

Meta最新基础模型Llama4发布36小时后,评论区居然是这个画风:失望,非常失望,不知道他们后训练怎么搞的,总之不太行,在[各种测试]2中失败……还被做成表情包调'...

Meta最新基础模型Llama4发布36小时后,评论区居然是这个画风:失望,非常失望,不知道他们后训练怎么搞的,总之不太行,在[各种测试]2中失败……bsd品论天涯网


bsd品论天涯网

还被做成表情包调侃,总结起来就是一个“差评如潮”。bsd品论天涯网


bsd品论天涯网

具体来看,大家的抱怨主要集中在代码能力。bsd品论天涯网

最直观的要数经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉下去了。bsd品论天涯网


bsd品论天涯网

反映在榜单上,成绩也相当割裂。bsd品论天涯网

发布时的官方测评(LiveCodeBench)分数和在大模型竞技场表现明明都很不错。bsd品论天涯网


bsd品论天涯网

但到了各种第三方基准测试中,情况大多直接逆转,排名末尾。bsd品论天涯网


bsd品论天涯网

让人不由得怀疑,这个竞技场排名到底是数据过拟合,还是刷票了。bsd品论天涯网


bsd品论天涯网

就在Llama4即将发布前几天,MetaAI研究主管JoellePineau在工作8年之后突然宣布离职,总之就是不太妙。bsd品论天涯网


bsd品论天涯网

Llama4怎么了?bsd品论天涯网

大模型关注者们火热实测吐槽之际,一则有关Llama4的匿名爆料,突然引起轩然大波:bsd品论天涯网

有网友称自己已向MetaGenAI部门提交提交辞职,并要求不要署名在Llama4的技术报告上。bsd品论天涯网


bsd品论天涯网

原贴发布在海外留学求职交流平台一亩三分地,在国内也引起很多讨论。bsd品论天涯网


bsd品论天涯网

此爆料尚未得到证实,但有人搬出MetaGenAI负责人AhmadAl-Dahle的帖子,至少能看出在Llama4大模型竞技场里运行的是特殊版本模型。bsd品论天涯网


bsd品论天涯网

还有Meta前员工借此话题贴出2024年11月的一项研究,指出从Llama1开始数据泄露的问题就存在了。bsd品论天涯网


bsd品论天涯网


bsd品论天涯网

也不只是编程能力一个方面有问题,在EQBench测评基准的的长文章写作榜中,Llama4系列也直接垫底。bsd品论天涯网


bsd品论天涯网

榜单维护者_sqrkl说明了具体情况。bsd品论天涯网

测试非常简单,模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划,最终每轮写1000字,重复8轮以上。bsd品论天涯网

由Claude-Sonnet3.7来当裁判,先对每个章节单独打分,再对整个作品打分。bsd品论天涯网

Llama4的低分表现在写到后面开始大段的内容重复,以及写作非常公式化。bsd品论天涯网


bsd品论天涯网

对此结果,有一个猜想是之前的版权诉讼让Meta删除了网络和书籍数据,使用了更多的合成数据。bsd品论天涯网


bsd品论天涯网

在这场诉讼中,许多作家发现自己的作品可能被用于AI训练,还到伦敦的Meta办公室附近发起抗议。bsd品论天涯网


bsd品论天涯网

Llama4发布后的种种,让人联想到年初的匿名员工爆,有网友表示当初只是随便看看,现在却开始相信了:bsd品论天涯网

在这条爆料中,Deepseekv3出来之后,训练中的Llama4就显得落后了,中层管理的薪水都比DeepSeekV3的训练成本都高,Meta内部陷入恐慌模式。bsd品论天涯网


bsd品论天涯网

让人不由得感叹,DeepSeel-R1横空出世仅仅两个月时间,却像过了几辈子。bsd品论天涯网


bsd品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]