人工智能

最壕DeepSeek玩家8台Mac跑R1 10万+凑496GB显存才能跑4bit量化版

字号+作者:量子位 来源:量子位 2025-01-22 18:29 评论(创建话题) 收藏成功收藏本文

DeepSeek-R1,正在接受全球网友真金白银的检验。花30秒用manim代码制作解释勾股定理的动画,一次完成无错误。为了玩上这样的模型,有人花上10多万元,组7台M4P'...

DeepSeek-R1,正在接受全球网友真金白银的检验。花30秒用manim代码制作解释勾股定理的动画,一次完成无错误。为了玩上这样的模型,有人花上10多万元,组7台M4ProMacmini+1台M4MaxMacbookPro的家用超算。W3Q品论天涯网


W3Q品论天涯网


W3Q品论天涯网

总计496G显存(64*7+48),才能跑起个4bit量化版,但属实算得上“家用AGI”配置了。W3Q品论天涯网


W3Q品论天涯网

另一个极端是选择R1数据蒸馏版Qwen1.5B小模型,小到浏览器就能跑,每秒能输出60个tokens。W3Q品论天涯网


W3Q品论天涯网

与此同时,各种榜单也在抓紧测试,纷纷跑出了结果。W3Q品论天涯网

R1横扫各大榜单W3Q品论天涯网

首先是LiveBench,与LiveCodeBench一样,题目是随时间更新的,所以相对受认可。W3Q品论天涯网

R1的表现在o1-preview到o1之间,其中只有数据一项超过o1。W3Q品论天涯网


W3Q品论天涯网

不过再带上成本成本约1/30这个条件看,又是不一样的感觉,给老哥整无语了。W3Q品论天涯网

唯一的抱怨是上下文窗口太短。W3Q品论天涯网


W3Q品论天涯网

o1系列一战成名的ARC-AGI,测试结果分为公开数据和私有数据两部分。W3Q品论天涯网

DeepSeekR1在私有数据上解决了15.8%的问题,与DeepSeek-V3相比翻倍还多。W3Q品论天涯网

公开数据上更是解决了20.5%的问题,与DeepSeek-V3相比上涨约46%。W3Q品论天涯网


W3Q品论天涯网

总的来看,DeepSeek-R1表现与o1-preview相近,但稍低。W3Q品论天涯网


W3Q品论天涯网

但同样,带上几毛钱就能解决一道题,o1系列至少要10块钱这个背景来看,又是不一样的感觉。W3Q品论天涯网


W3Q品论天涯网

考验任务规划能力的PlanBench,同样的剧本再次上演。W3Q品论天涯网


W3Q品论天涯网

在开发者Xeophon自己的个人测试上,甚至超过了o1-preview。W3Q品论天涯网


W3Q品论天涯网

同一个测试上,R1数据蒸馏的Qwen32B,与DeepSeek-V3,GPT-4o和GeminiFlash处于同一水平。W3Q品论天涯网


W3Q品论天涯网

最后,还有人从中看到新的创业机会。W3Q品论天涯网

谁来构建一个平台,能轻松地在DeepSeekR1上进行OpenAI风格的强化微调。W3Q品论天涯网

至少在短期内,是一个巨大的机会。W3Q品论天涯网

R1在正确数据和微调方法下,可能在特定任务上大幅提升。W3Q品论天涯网


W3Q品论天涯网

参考链接:W3Q品论天涯网

[1]https://x.com/alexocheema/status/1881561143736664180W3Q品论天涯网

[2]https://x.com/reach_vb/status/1881809400995934640W3Q品论天涯网

[3]https://livebench.ai/#/W3Q品论天涯网

[2]https://x.com/arcprize/status/1881761987090325517W3Q品论天涯网

[3]https://x.com/TheXeophon/status/1881443117787984265W3Q品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]