人工智能

DeepSeek开源V3.2-Exp 公开新稀疏注意力机制DSA

字号+作者:机器之心 来源:机器之心 2025-09-29 19:29 评论(创建话题) 收藏成功收藏本文

还是熟悉的节奏!在假期前一天,DeepSeek果然搞事了。刚刚,DeepSeek-V3.2-Exp开源了!该模型参数量为685B。HuggingFace链接:https://huggingface.co/deepseek-a'...

还是熟悉的节奏!在假期前一天,DeepSeek果然搞事了。刚刚,DeepSeek-V3.2-Exp开源了!该模型参数量为685B。Vbr品论天涯网


Vbr品论天涯网


Vbr品论天涯网

HuggingFace链接:Vbr品论天涯网

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-ExpVbr品论天涯网

此外,此次发布竟然也同步公开了论文,公开了DeepSeek新的稀疏注意力机制,为我们提供了更多结束细节:Vbr品论天涯网


Vbr品论天涯网

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdfVbr品论天涯网

DeepSeekSparseAttention(DSA)稀疏注意力机制Vbr品论天涯网

在官方介绍中,DeepSeek表示DeepSeek-V3.2-Exp是实验版本。作为迈向下一代架构的过渡,V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek稀疏注意力机制(DeepSeekSparseAttention,DSA)——一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。Vbr品论天涯网

DSA也是3.2版本的唯一架构改进。Vbr品论天涯网


Vbr品论天涯网

DeepSeek-V3.2-Exp的架构,其中DSA在MLA下实例化。Vbr品论天涯网

重点要说的是,DeepSeek称该实验版本代表了他们对更高效的Transformer架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。Vbr品论天涯网


Vbr品论天涯网

在v3.2版本中,DeepSeek稀疏注意力(DSA)首次实现了细粒度稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。Vbr品论天涯网

为了严格评估引入稀疏注意力机制的影响,DeepSeek特意将DeepSeek-V3.2-Exp的训练配置与9月22日刚刚推出的V3.1-Terminus进行了对比。在各个领域的公开基准测试中,DeepSeek-V3.2-Exp的表现与V3.1-Terminus相当。Vbr品论天涯网


Vbr品论天涯网

更多信息,读者们可以查阅DeepSeek-V3.2-Exp的huggingface介绍。Vbr品论天涯网

值得一提的是,智谱的GLM-4.6也即将发布,在Z.ai官网可以看到,GLM-4.5标识为上一代旗舰模型。Vbr品论天涯网


Vbr品论天涯网

最后,有一波小节奏。在模型发布前,已经有网友在Community里发帖称:国庆是休息日,请给我们关注的同学一点休息时间。Vbr品论天涯网


Vbr品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]