人工智能

新版DeepSeek-R1正式开源 编程能力强到离谱 一手实测来了

字号+作者:新智元 来源:新智元 2025-05-29 14:43 评论(创建话题) 收藏成功收藏本文

临近端午假期,DeepSeek果然又开始搞事。就在今天凌晨,新版DeepSeek-R1正式开源了!DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。项目'...

临近端午假期,DeepSeek果然又开始搞事。就在今天凌晨,新版DeepSeek-R1正式开源了!DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。OUf品论天涯网

OUf品论天涯网

项目地址:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/mainOUf品论天涯网

时隔4个月,DeepSeek-R1完成了超进化,编程能力强到离谱,而且思考时间更长了。OUf品论天涯网

据称,新模型基于DeepSeek-V3-0324训练(参数为660B)。OUf品论天涯网

OUf品论天涯网

经典物理模拟测试中,DeepSeek-R1新旧版本的对比OUf品论天涯网

在LiveCodeBench基准上,DeepSeek-R1-0528性能几乎与o3-mini(High)和o4-mini(Medium)实力相当,一举超越了Gemini2.5Flash。OUf品论天涯网

OUf品论天涯网

有网友称赞,DeepSeek-R1能够像o3一样纠正思维链,并且像Claude一样创造性进行世界构建。OUf品论天涯网

OUf品论天涯网

可以说,这是属于开源模型的巨大胜利!OUf品论天涯网

不用R2,直接对标SOTAOUf品论天涯网

此次,DeepSeek-R1-0528更新核心亮点,网友做了一个浓缩版的总结:OUf品论天涯网

能像谷歌模型一样深度推理OUf品论天涯网

文本生成优化:更自然,格式更佳OUf品论天涯网

独特的推理风格:不仅快,而且更缜密OUf品论天涯网

支持长时思考:单任务处理时长可达30-60分钟OUf品论天涯网

OUf品论天涯网

思考时间更长,成为了全网讨论最多的一点。有网友实测后,R1思考时长超过了25分钟。OUf品论天涯网

OUf品论天涯网

另外,这似乎是唯一一个能持续正确做对「9.9-9.11是多少」的模型。OUf品论天涯网

编程能力强到爆OUf品论天涯网

网友实测显示,新版DeepSeek-R1在编程方面简直不可思议!OUf品论天涯网

AI圈大佬「karminski-牙医」用同一个prompt测试了DeepSeek-R1-0528和Claude4Sonnet后发现。OUf品论天涯网

不管是光线照射在墙上形成的漫反射,还是球在撞击后的运动方向,亦或是控制面板的美观程度,这一把R1稳赢。OUf品论天涯网

OUf品论天涯网

网友Alex的测试也显示出,DeepSeek-R1在前端编码的能力上超越了Claude4Sonnet。OUf品论天涯网

OUf品论天涯网

OUf品论天涯网

网友Haider.则是让模型构建一个单词评分系统。R1简要思考后,就立刻出了关于代码和工作测试的两个文件,第一次运行就完美无瑕。OUf品论天涯网

此前,o3是唯一能完成这个任务的模型。而如今,R1堪称是完成这个任务的最佳模型。OUf品论天涯网

注意,R1的表现之所以如此惊人,是因为它返回的两个文件在第一次都能运行良好,不用编辑,不用重试,这极其少见。OUf品论天涯网

因为此前的大多数模型,要么会在边缘情况下终端,要么会做得太复杂,要么缺少适当的测试覆盖率。OUf品论天涯网

OUf品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]