人工智能

通义千问首个文生图模型开源:破解AI图像生成“写字”难题 复杂中英文渲染效果惊艳

字号+作者:凤凰网科技 来源:凤凰网科技 2025-08-05 07:10 评论(创建话题) 收藏成功收藏本文

8月5日,通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image,这是通义千问系列中的首个图像生成基础模型,在复杂文本渲染和精确图像编辑方面进展显著。该模'...

8月5日,通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image,这是通义千问系列中的首个图像生成基础模型,在复杂文本渲染和精确图像编辑方面进展显著。该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现。Rq3品论天涯网

在多个公开基准测试中,包括GenEval、DPG、OneIG-Bench(通用图像生成),GEdit、ImgEdit、GSO(图像编辑)以及LongText-Bench、ChineseWord、TextCraft(文本渲染)等,Qwen-Image在各类生成与编辑任务中均获得SOTA。Rq3品论天涯网


Rq3品论天涯网

在性能表现上,Qwen-Image能在不同场景中实现高保真文本渲染。例如,在海报制作中,它不仅能准确展示海报风格,还能保留人物姿势和神态刻画,准确生成指定的中英文文字;在分模块案例中,能完成排版并生成各部分的图标、标题和介绍文本;除此之外,即使纸张面积小且段落文字长,也能准确生成文字,还可在双语间灵活切换。Rq3品论天涯网


Rq3品论天涯网

同时,Qwen-Image在通用图像生成方面支持多种艺术风格,从照片级写实到印象派绘画,从动漫风格到极简设计,能灵活响应创意提示。Rq3品论天涯网


Rq3品论天涯网

通义千问表示,希望Qwen-Image能进一步推动图像生成领域发展,降低视觉内容创作技术门槛,激发更多创新应用可能,同时期待社区积极参与和反馈,共同构建开放、透明、可持续发展的生成式AI生态。Rq3品论天涯网

目前,该模型已在魔搭社区与HuggingFace开源。Rq3品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]