LMArena模型榜单出炉 DeepSeek-R1编程能力赶超了Claude Opus 4-品论天涯网

在开源模型领域，DeepSeek又带来了惊喜。上个月28号，DeepSeek来了波小更新，其R1推理模型升级到了最新版本（0528），并公开了模型及权重。这一次，R1-0528进一步改进了基准测试性能，提升了前端功能，减少了幻觉，支持JSON输出和函数调用。q6X品论天涯网

q6X品论天涯网

今天，业界知名、但近期也陷入争议（曾被指出对OpenAI、Google及Meta的大模型存在偏袒）的大模型公共基准测试平台LMArena公布了最新的性能排行榜，其中DeepSeek-R1（0528）的成绩尤为引人瞩目q6X品论天涯网

q6X品论天涯网

其中，在文本基准测试（Text）中，DeepSeek-R1（0528）整体排名第6，在开放模型中排名第一。q6X品论天涯网

q6X品论天涯网

具体到以下细分领域：q6X品论天涯网

在硬提示词（HardPrompt）测试中排名第4q6X品论天涯网

在编程（Coding）测试中排名第2q6X品论天涯网

在数学（Math）测试中排名第5q6X品论天涯网

在创意性写作（CreativeWriting）测试中排名第6q6X品论天涯网

在指令遵循（IntructionFellowing）测试中排名第9q6X品论天涯网

在更长查询（LongerQuery）测试中排名第8q6X品论天涯网

在多轮（Multi-Turn）测试中排名第7q6X品论天涯网

q6X品论天涯网

此外，在WebDevArena平台上，DeepSeek-R1（0528）与Gemini-2.5-Pro-Preview-06-05、ClaudeOpus4(20250514)等闭源大模型并列第一，在分数上更是超过了ClaudeOpus4。q6X品论天涯网

q6X品论天涯网

WebDevArena是LMArena团队开发的实时AI编程竞赛平台，让各家大语言模型进行网页开发挑战，衡量的是人类对模型构建美观且功能强大的Web应用能力的偏好。q6X品论天涯网

DeepSeek-R1（0528）表现出来的强大性能激起了更多人使用的欲望。q6X品论天涯网

q6X品论天涯网

还有人表示，鉴于Claude长期以来一直是AI编程领域的基准，如今DeepSeek-R1（0528）在性能上与ClaudeOpus相当，这是一个里程碑时刻，也是开源AI的关键时刻。q6X品论天涯网

DeepSeek-R1（0528）在完全开放的MIT协议下提供了领先的性能，并能与最好的闭源模型媲美。虽然这一突破在Web开发中最为明显，但其影响可能延伸到更广泛的编程领域。q6X品论天涯网

不过，原始性能并不能定义现实世界的表现。虽然DeepSeek-R1（0528）在技术能力上可能与Claude相当，但其是否可以在日常工作流程中提供媲美Claude的用户体验，这些需要更多的实际验证。q6X品论天涯网

q6X品论天涯网

高强度使用过DeepSeek-R1（0528）的小伙伴，可以谈一谈自己的体验感受。q6X品论天涯网

https://lmarena.ai/leaderboard/textq6X品论天涯网

https://x.com/lmarena_ai/status/1934650639906197871q6X品论天涯网