人工智能

DeepSeek深夜发布多模态大模型 图像性能跑分力压OpenAI竞品

字号+作者:​财联社 来源:​财联社 2025-01-28 08:52 评论(创建话题) 收藏成功收藏本文

就在华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E3的多模态大模型Janus-Pro'...

就在华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E3的多模态大模型Janus-Pro,同样也是开源的。Zlg品论天涯网


Zlg品论天涯网

除夕凌晨钟声敲响前不久,DeepSeek工程师们在“抱抱脸”平台上传了JanusPro7B和1.5B模型。这俩模型是对去年10月发布的Janus模型的升级。Zlg品论天涯网


Zlg品论天涯网

15亿和70亿的参数量,意味着这两个模型具备在消费级电脑上本地运行的潜力。与R1一样,JanusPro采用MIT许可证,在商用方面没有限制。Zlg品论天涯网

据DeepSeek介绍,Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。Zlg品论天涯网


Zlg品论天涯网

从报告给出的“跑分”数据来看,在部分文生图基准测试中,Janus-Pro70亿参数模型表现好于OpenAI的DALL-E3、StabilityAI的StableDiffusion3-Meduim等。Zlg品论天涯网


(来源:技术报告)Zlg品论天涯网

虽然DALL-E3是OpenAI在2023年发布的一款“老模型”,同时JanusPro目前只能分析和生成规格较小的图像(384x384)。DeepSeek在如此紧凑的模型尺寸中依然展现了令人印象深刻的性能。Zlg品论天涯网

技术报告显示,在视觉生成方面,Janus-Pro通过添加7200万张高质量合成图像,使得在统一预训练阶段真实数据与合成数据的比例达到1:1,实现“更具视觉吸引力和稳定性的图像输出”。在多模态理解的训练数据方面,新模型参考了DeepSeekVL2并增加了大约9000万个样本。Zlg品论天涯网

作为一个多模态模型,Janus-Pro不仅可以“文生图”,同样也能对图片进行描述,识别地标景点(例如杭州的西湖),识别图像中的文字,并能对图片中的知识(例如下图中的“猫和老鼠”蛋糕)进行介绍。Zlg品论天涯网



Zlg品论天涯网

公司也在报告中,给出了更多图像生成的案例。Zlg品论天涯网


Zlg品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]