深度求索(DeepSeek)创始人梁文锋深夜发文官宣,DeepSeek刚刚发布并开源了一款名为Janus-Pro-7B的多模态AI模型,可以生成图像。据梁文锋介绍,在GenEval和DPG-Bench基准测试中,Janus-Pro-7B击败了OpenAI的DALL-E3和StableDiffusion。”
就在今日凌晨,DeepSeek工程师们已经在HuggingFace平台上传了JanusPro7B和1.5B模型。这俩模型是去年DeepSeek10月发布的Janus模型升级版。
据DeepSeek介绍,Janus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。Janus-Pro是基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base模型构建的。
在多模态理解任务中,Janus-Pro采用SigLIP-L作为视觉编码器,支持384x384像素的图像输入。而在图像生成任务中,Janus-Pro使用一个来自特定来源的分词器,降采样率为16。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】