此前,Meta最近被指在LMArena基准测试中作弊,导致Llama4的排名高于其他模型。先锋计划面向企业,这些企业将与OpenAI的研究人员携手合作,开发更有意义的基准测试,以反映现实世界的挑战,而不仅仅是排行榜上的得分。
OpenAI表示,入选的公司将获得其研究团队的实际支持,重点关注两个关键成果:针对每个行业制定特定领域的评估,并构建旨在处理与该公司运营相关的三大用例的微调模型。
这些定制基准测试的目标行业是法律、金融、医疗保健、保险和会计等行业。OpenAI指出,目前许多领域尚无统一的AI性能衡量标准,这使得公平评估模型或改进模型变得困难。OpenAI希望通过与这些垂直领域的公司直接合作,定义特定领域中“良好”的标准,并发布这些评估结果供其他人参考。
该计划的另一部分是关于微调的。参与的公司将获得帮助,使用强化微调(RFT)训练定制版本的OpenAI模型。OpenAI使用这种方法来创建在特定任务集上表现优异的“专家”模型。据OpenAI称,这些模型可以投入生产规模部署。
首批入选的初创公司将由少数几家组成,每家公司的入选都基于其所构建项目的实际影响。OpenAI表示,他们正在寻找能够解决实际问题的团队,在这些问题上,更智能、更专注的人工智能能够带来显著的改变。随着项目的发展,它可能会扩展到更大的公司和更复杂的领域。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】