人工智能

DeepSeek V3.1 Base突袭上线 全网在蹲R2和V4

字号+作者:新智元 来源:新智元 2025-08-20 10:26 评论(创建话题) 收藏成功收藏本文

就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。综合公开信息和'...

就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:nI6品论天涯网


nI6品论天涯网

  • 编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。nI6品论天涯网

  • 性能突破:V3.1在Aider编程基准测试中取得71.6%高分,超越ClaudeOpus4,同时推理和响应速度更快。nI6品论天涯网

  • 原生搜索:新增了原生“searchtoken”的支持,这意味着搜索的支持更好。nI6品论天涯网

  • 架构创新:线上模型去除“R1”标识,分析称DeepSeek未来有望采用“混合架构”。nI6品论天涯网

  • 成本优势:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。nI6品论天涯网

  • 值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。nI6品论天涯网


    nI6品论天涯网

    对于这波更新,大家的热情可谓是相当高涨。nI6品论天涯网

    即便还未公布模型卡,DeepSeekV3.1就已经在HuggingFace的趋势榜上排到了第四。nI6品论天涯网



    DeepSeek粉丝数已破8万nI6品论天涯网

    看到这里,网友们更期待R2的发布了!nI6品论天涯网


    nI6品论天涯网

    混合推理,编程击败Claude4nI6品论天涯网

    这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的“R1”去掉了。nI6品论天涯网


    nI6品论天涯网

    同时,与V3-base相比,DeepSeekV3.1新增了四个特殊Token:nI6品论天涯网

  • <|search▁begin|>(id:128796)nI6品论天涯网

  • <|search▁end|>(id:128797)nI6品论天涯网


  • nI6品论天涯网

    对此,有推测认为,这可能暗示推理模型与非推理模型的融合。nI6品论天涯网


    nI6品论天涯网

    在编程方面,根据网友曝出的结果,DeepSeekV3.1在AiderPolyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude4Opus、DeepSeekR1。nI6品论天涯网


    nI6品论天涯网

    而且,它的成本仅1美元,成为非推理模型中的SOTA。nI6品论天涯网


    nI6品论天涯网

    最鲜明的对比,V3.1编程性能比Claude4高1%,成本要低68倍。nI6品论天涯网


    nI6品论天涯网

    在SVGBench基准上,V3.1实力仅次于GPT-4.1-mini,远超DeepSeekR1的实力。nI6品论天涯网


    nI6品论天涯网

    在MMLU多任务语言理解方面,DeepSeekV3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。nI6品论天涯网


    nI6品论天涯网

    一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeekV3.1理解力明显提升。nI6品论天涯网


    nI6品论天涯网

    一手实测nI6品论天涯网

    第一时间,我们对V3.1进行了实测,首先是此次模型更新的重点:上下文长度。nI6品论天涯网

    假设对于中文而言,1个token≈1–1.3个汉字,那么这128Ktokens≈100,000–160,000汉字。nI6品论天涯网

    相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著。nI6品论天涯网

    实际测试也很准确,DeepSeek告诉我们它只能阅读差不多9%,也就是大约十分之一。nI6品论天涯网


    nI6品论天涯网

    由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?nI6品论天涯网


    nI6品论天涯网

    在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。nI6品论天涯网


    nI6品论天涯网

    此次更新,DeepSeek重点强调了对上下文的支持。nI6品论天涯网

    整个活,给DeepSeek-V3.1上点压力,让它根据“梦”这个字,输出尽可能多的内容,尽量达到上下文极限。nI6品论天涯网


    nI6品论天涯网

    不过最后,差不多只输出了3000字左右,模型就停止了输出。nI6品论天涯网


    nI6品论天涯网

    再来看下推理能力。nI6品论天涯网

    经典的9.11和9.9比大小问题,两种询问方式都能正确做答。nI6品论天涯网

    这次更新的一大体感还是速度变快了很多。nI6品论天涯网


    nI6品论天涯网

    最后再来看看编程能力。nI6品论天涯网

    DeepSeek的上一个模型是R1-0528,主打的是编程能力。nI6品论天涯网

    看看这次V3.1是否有更大的提升。nI6品论天涯网


    nI6品论天涯网

    最终结果只能说,打个80分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。nI6品论天涯网


    nI6品论天涯网

    并且和R1-0528的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。nI6品论天涯网

    以下是开启思考模式后的结果,你觉得哪个更好?nI6品论天涯网


    nI6品论天涯网

    接下来,看看DeepSeekV3.1能否复刻出GPT-5发布会上的法语学习小程序。nI6品论天涯网

    我们再来让V3.1画一个自己的SVG自画像,两种效果着实有些抽象。nI6品论天涯网




    nI6品论天涯网

    参考资料:HYXnI6品论天涯网

    https://weibo.com/2169039837/Q0FC4lmeonI6品论天涯网

    https://x.com/karminski3/status/1957928641884766314nI6品论天涯网

    https://github.com/johnbean393/SVGBench/nI6品论天涯网

    https://huggingface.co/deepseek-ai/DeepSeek-V3.1-BasenI6品论天涯网

    本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]