DeepSeek开源V3.2-Exp 公开新稀疏注意力机制DSA-品论天涯网

还是熟悉的节奏！在假期前一天，DeepSeek果然搞事了。刚刚，DeepSeek-V3.2-Exp开源了！该模型参数量为685B。a5y品论天涯网

a5y品论天涯网

HuggingFace链接：a5y品论天涯网

https：//huggingface.co/deepseek-ai/DeepSeek-V3.2-Expa5y品论天涯网

此外，此次发布竟然也同步公开了论文，公开了DeepSeek新的稀疏注意力机制，为我们提供了更多结束细节：a5y品论天涯网

a5y品论天涯网

https：//github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdfa5y品论天涯网

DeepSeekSparseAttention（DSA）稀疏注意力机制a5y品论天涯网

在官方介绍中，DeepSeek表示DeepSeek-V3.2-Exp是实验版本。作为迈向下一代架构的过渡，V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek稀疏注意力机制（DeepSeekSparseAttention，DSA）——一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。a5y品论天涯网

DSA也是3.2版本的唯一架构改进。a5y品论天涯网

a5y品论天涯网

DeepSeek-V3.2-Exp的架构，其中DSA在MLA下实例化。a5y品论天涯网

重点要说的是，DeepSeek称该实验版本代表了他们对更高效的Transformer架构的持续研究，特别注重提高处理扩展文本序列时的计算效率。a5y品论天涯网

a5y品论天涯网

在v3.2版本中，DeepSeek稀疏注意力（DSA）首次实现了细粒度稀疏注意力，在保持几乎相同的模型输出质量的同时，显著提高了长上下文训练和推理效率。a5y品论天涯网

为了严格评估引入稀疏注意力机制的影响，DeepSeek特意将DeepSeek-V3.2-Exp的训练配置与9月22日刚刚推出的V3.1-Terminus进行了对比。在各个领域的公开基准测试中，DeepSeek-V3.2-Exp的表现与V3.1-Terminus相当。a5y品论天涯网

a5y品论天涯网

更多信息，读者们可以查阅DeepSeek-V3.2-Exp的huggingface介绍。a5y品论天涯网

值得一提的是，智谱的GLM-4.6也即将发布，在Z.ai官网可以看到，GLM-4.5标识为上一代旗舰模型。a5y品论天涯网

a5y品论天涯网

最后，有一波小节奏。在模型发布前，已经有网友在Community里发帖称：国庆是休息日，请给我们关注的同学一点休息时间。a5y品论天涯网

a5y品论天涯网