人工智能

Meta高管否认公司人为提高了Llama 4的基准测试分数

字号+作者:cnBeta.COM 来源:cnBeta 2025-04-08 02:48 评论(创建话题) 收藏成功收藏本文

Meta的一位高管周一否认了有关该公司训练其新AI模型以在特定基准上表现良好同时隐藏模型弱点的谣言。Meta的生成AI副总裁AhmadAl-Dahle在X上的一篇文章'...

Meta的一位高管周一否认了有关该公司训练其新AI模型以在特定基准上表现良好同时隐藏模型弱点的谣言。Meta的生成AI副总裁AhmadAl-Dahle在X上的一篇文章中表示,Meta在“测试集”上训练其Llama4Maverick和Llama4Scout模型“根本不是事实”。8GV品论天涯网

在AI基准测试中,测试集是用于评估模型训练后性能的数据集合。在测试集上进行训练可能会误导性地夸大模型的基准测试分数,使模型看起来比实际更强大。8GV品论天涯网

上周末,一则未经证实的谣言开始在X和Reddit上流传,称Meta人为提高了其新模型的基准测试结果。这条谣言似乎源自中国社交媒体网站上的一篇帖子,该帖子的作者是一名用户,他声称已从Meta辞职,以抗议该公司的基准测试做法。8GV品论天涯网

8GV品论天涯网

有关Maverick和Scout在某些任务上表现不佳的报道加剧了谣言,Meta决定使用未发布的实验性Maverick版本在基准LMArena上取得更好的分数也是如此。X上的研究人员 观察到可公开下载的Maverick的行为与LMArena上托管的模型之间存在明显差异。 8GV品论天涯网

Al-Dahle承认,一些用户发现,在托管模型的不同云提供商之间,Maverick和Scout的质量“参差不齐”。8GV品论天涯网

“由于我们在模型准备就绪后就将其删除,因此我们预计所有公开实施需要几天时间才能完成,”Al-Dahle表示。“我们将继续努力修复错误并吸引合作伙伴。”8GV品论天涯网

相关文章:8GV品论天涯网

Llama4发布36小时差评如潮匿名员工爆料拒绝署名技术报告8GV品论天涯网

Llama4是开源模型的全面倒退?8GV品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]