时事

DeepSeek新模型开源发布,参数量达6710亿

字号+作者:记者 来源:环球网 2025-05-02 08:00 评论(创建话题) 收藏成功收藏本文

【环球网科技综合报道】5月1日消息,DeepSeek于4月30日在AI开源社区HuggingFace上正式发布了一款名为DeepSeek-Prover-V2-671B的新模型。据悉,DeepSeek-Pr'...

【环球网科技综合报道】5月1日消息,DeepSeek于4月30日在AI开源社区HuggingFace上正式发布了一款名为DeepSeek-Prover-V2-671B的新模型。zZJ品论天涯网

据悉,DeepSeek-Prover-V2-671B模型参数规模高达6710亿,或为去年发布的Prover-V1.5数学模型的升级版本。该模型采用了更为高效的safetensors文件格式,并支持多种计算精度,使得模型在训练和部署过程中更加迅速且资源消耗更低。在模型架构上,DeepSeek-Prover-V2-671B继承了DeepSeek-V3的先进设计,采用了混合专家(MoE)模式,拥有61层Transformer层和7168维的隐藏层,极大提升了模型的复杂处理能力。zZJ品论天涯网

zZJ品论天涯网

尤为值得一提的是,DeepSeek-Prover-V2-671B支持超长上下文处理,最大位置嵌入达到163840,这一特性使其能够轻松应对复杂的数学证明任务。此外,模型还采用了FP8量化技术,有效减小了模型体积,同时提高了推理效率,为AI在数学领域的应用开辟了新的可能。(纯钧)zZJ品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]

相关文章