人工智能

即使是最好的AI也无法超越这一新基准 得分甚至不到10%

字号+作者:cnBeta.COM 来源:cnBeta 2025-01-24 09:57 评论(创建话题) 收藏成功收藏本文

非营利组织人工智能安全中心(CAIS)和提供数据标注和人工智能开发服务的ScaleAI公司发布了一项具有挑战性的新基准,用于前沿人工智能系统。该基准名为"人类'...

非营利组织人工智能安全中心(CAIS)和提供数据标注和人工智能开发服务的ScaleAI公司发布了一项具有挑战性的新基准,用于前沿人工智能系统。7EP品论天涯网

7EP品论天涯网

该基准名为"人类最后的考试"(Humanity'sLastExam),包含数千个众包问题,涉及数学、人文科学和自然科学等学科。7EP品论天涯网

在一项初步研究中,甚至没有一个公开的旗舰人工智能系统能在"人类最后的考试"中获得超过10%的分数。7EP品论天涯网

这项新基准被称为"人类最后的考试",它评估了人工智能系统是否已经在数学、人文科学和自然科学等广泛领域实现了世界级的专家级推理和知识能力。整个秋季,CAIS和ScaleAI从专家那里收集了大量问题,汇集成最难、最广泛的问题,以难倒人工智能模型。开发该考试是为了应对"基准饱和"的挑战:模型经常在现有测试中取得接近满分的成绩,但可能无法回答这些测试以外的问题。基准饱和降低了基准作为未来模型进展精确测量的效用。7EP品论天涯网

CAIS联合创始人兼执行董事丹-亨德里克斯(DanHendrycks)说:"我们希望找到能够测试模型在人类知识和推理前沿能力的问题。我们无法预测模型的发展速度。当我在2021年发布MATH基准--一个具有挑战性的竞赛数学数据集时,最好的模型得分还不到10%;很少有人预测,仅仅三年之后,得分就会超过90%。现在,'人类最后的考试'表明,模型仍然无法回答一些专家封闭式问题。"7EP品论天涯网

CAIS和ScaleAI表示,他们计划向研究界开放该基准,以便研究人员能够"深入挖掘变化"并评估新的人工智能模型。7EP品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]