人工智能

GPT Image 2团队曝光:无锡才俊带队 13人4个月封神

字号+作者:量子位 来源:量子位 2026-04-23 12:42 评论(创建话题) 收藏成功收藏本文

GPTImage2全网刷屏,但效果究竟为什么这么好?研究负责人陈博远揭秘:底层架构已彻底重构。但他又拒绝回答是否采用扩散模型或自回归技术,只是神秘的将其描述'...

GPTImage2全网刷屏,但效果究竟为什么这么好?研究负责人陈博远揭秘:底层架构已彻底重构。但他又拒绝回答是否采用扩散模型或自回归技术,只是神秘的将其描述为“通用模型”或“图像领域的GPT”。uyB品论天涯网

uyB品论天涯网


uyB品论天涯网

陈博远的一条推文还透露,从去年12月底的GPTImage1.5算起,只用了四个月就有如此大的改进。uyB品论天涯网


uyB品论天涯网

这样突破性的成果,核心团队只有13人。uyB品论天涯网

整个团队的负责人GabrielGoh晒出了的团队成员AI全家福。uyB品论天涯网


uyB品论天涯网

评论区有网友感叹:怎么全是亚洲人?uyB品论天涯网


uyB品论天涯网

陈博远:从不懂Python到ResearchLeaduyB品论天涯网

GPTImage2究竟是什么架构?uyB品论天涯网

OpenAI恐怕很长一段时间都不会公布了,但从核心团队成员的学术经历可以看出一些痕迹。uyB品论天涯网

陈博远是团队的ResearchLead,他和另一位成员KiwhanSong在MIT读博时有同一位导师VincentSitzmann。uyB品论天涯网


uyB品论天涯网

他博士期间的代表作DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion入选了NeurIPS2024。uyB品论天涯网

这项研究提出DiffusionForcing这一全新序列生成训练范式,将逐token独立噪声级扩散与因果下一个token预测结合,融合自回归模型的可变长度生成与全序列扩散模型的长程引导优势。uyB品论天涯网


uyB品论天涯网

他在Google实习期间还以共同一作身份发表了SpatialVLM。uyB品论天涯网

通过过自动构建互联网规模的3D空间推理VQA数据集(1000万图像、20亿QA对),为视觉语言模型赋予定量/定性空间推理能力,可从单张2D图像输出米制距离、尺寸、方位等精确数值。uyB品论天涯网

这项研究把思维链空间推理应用到了具身智能领域。uyB品论天涯网


uyB品论天涯网

在Google实习期间,他开发的指令微调技术后续还被Gemini2.0采用。uyB品论天涯网

他在高中参加科研夏令营时,还不懂Python的基本语法,那时结识的GoogleDeepMind资深研究员夏斐把他引入了AI世界。uyB品论天涯网

夏斐两次邀请他到DeepMind完成高质量实习,这些经历使陈博远积累了大规模模型训练的工程经验,也为他理解多模态系统的数据需求提供了宝贵视角。uyB品论天涯网

博士毕业后,陈博远于2025年6月加入OpenAI,迅速成为GPT图片生成五人核心成员之一,负责GPT图像生成模型的所有训练,同时也是Sora视频生成团队的一员。uyB品论天涯网

在演示中,他给家乡无锡做了一张海报。然后为来自首尔的队友做韩文海报,为来自Bangladesh的队友做孟加拉语海报。每一张中的文字渲染都精准无误。uyB品论天涯网


uyB品论天涯网

中科大JianfengWang:让生图AI理解世界知识uyB品论天涯网

中科大博士毕业的JianfengWang,在GPTImage2团队负责的是另一个让人惊叹的能力:指令遵循和理解世界。uyB品论天涯网


uyB品论天涯网

旧模型画的永远时钟永远指向10:10,源于网络上的钟表广告图,几乎清一色都是10:10。uyB品论天涯网

这是因为钟表厂商找心理学家做过实验,认为这有助于刺激消费者买表的意愿。uyB品论天涯网


uyB品论天涯网

他让新模型画2:25、3:30、9:10、7:45,全部精准。uyB品论天涯网


uyB品论天涯网

这只是开胃菜。uyB品论天涯网

更多复杂的空间布局,苹果在中心、杯子在右边、书在上面、相机在左边、篮球在下面。模型全部精准执行。uyB品论天涯网


uyB品论天涯网

在加入OpenAI之前,他在微软工作近9年。在微软期间就与OpenAI团队在DALLE-3上有合作。uyB品论天涯网

他在计算机视觉领域发表了多篇学术论文,研究内容可能涵盖图像分类、目标检测、语义分割、以及视觉表征学习等方向uyB品论天涯网

世界知识理解能力的大幅提升,对象的语义内容和功能结构有正确的理解uyB品论天涯网

JianFengWang在演示视频结尾说到:GPTImage2正在消除你的意图和模型产出之间的差距。uyB品论天涯网

真正做到你想要什么,模型就给你什么。uyB品论天涯网

YuguangYang:生成高精度复杂信息图表uyB品论天涯网

YuguangYang在GPTImage2的发布活动中演示了生成信息图和PPT。uyB品论天涯网


uyB品论天涯网

整整75页的GPT-3论文拖进ChatGPT,自动生成7张幻灯片。uyB品论天涯网


uyB品论天涯网

他的经历可以说是团队成员中最丰富的,每换一个工作都是跨界,但都聚焦机器学习。uyB品论天涯网

他本科在浙大竺可桢学院学的工程,博士在约翰斯霍普金斯大学期间学的是计算化学物理与机器学习。uyB品论天涯网

他第一份全职工作是量化分析师,在清华做访问研究员期间亚牛的的是用于纳米机器人的强化学习和控制算法。uyB品论天涯网

后来他在亚马逊做过Alexa语音研究。uyB品论天涯网

又在微软做过Bing搜索的查询理解和检索、文档理解。uyB品论天涯网

2025年初加入OpenAI后,除了图像生成还参与过ChatGPT智能体项目。uyB品论天涯网


uyB品论天涯网

他在个人账号上介绍GPTImage2的信息图生成能力,可以为科研人员节省大量时间。uyB品论天涯网


uyB品论天涯网

还反复提醒大家,要做信息图不要忘记选择思考模式。uyB品论天涯网


uyB品论天涯网

从DALL-E到GPTImage2.0uyB品论天涯网

从团队成员KenjiHata的自我介绍中得知,GPTImage1.0也就是GPT-4o的图像生成部分。uyB品论天涯网


uyB品论天涯网

有一个人从DALL-E开始参与了OpenAI多模态系列研究的全程。uyB品论天涯网

他就是GPTImage2.0团队负责人GabrielGoh。uyB品论天涯网

从2019年加入OpenAI,他的早期研究更篇理论,专注于可解释性和凸优化等等。uyB品论天涯网

从DALL-E开始慢慢转向了图像生成。uyB品论天涯网


uyB品论天涯网

看到另一位团队成员WeixinLiang的研究履历,GPTImage2的技术底色又揭开了一角。uyB品论天涯网

他在Meta实习期间的代表作Mixture-of-Transformers,引入模态解耦的MoE和解耦注意力,显著降低多模态模型预训练的计算成本。uyB品论天涯网


uyB品论天涯网

他博士毕业自斯坦福,本科也毕业自浙大竺可桢学院,不过比YuguangYang要晚好几年。uyB品论天涯网

WeixinLiang与陈博远一样都是25年博士刚毕业就加入OpenAI,迅速成为团队的核心成员。uyB品论天涯网


uyB品论天涯网

其他GPTImage2.0团队成员还包括:uyB品论天涯网

AyaanHaque,之前在LumaAI工作,参与过Luma的视频生成基础模型DreamMachine的训练。uyB品论天涯网

BingLiang,在Google干了5年多,参与Imagen3、Veo、GeminiMultimodal,2025年跳到OpenAI做图像生成研究。uyB品论天涯网

MengchaoZhong,本科上海交通大学校友,硕士毕业于得克萨斯农工大学,在Pinterest和Airtable做过软件工程师,在OpenAI负责多模态产品的工程。uyB品论天涯网

DibyaBhattacharjee,耶鲁大学,2015年IPhO铜牌,CIEA-Level数学和生物全球最高分。uyB品论天涯网

KiwhanSong是25年10月最晚加入的,除了做研究之外,他还是团队里的提示词大师,大家看到的官方演示图很多都出自他手。uyB品论天涯网

……uyB品论天涯网

从最早的DALL-E到今天的GPTImage2.0,这只团团队先后解决了。画得出来、画得清楚、画得好看、画得准。uyB品论天涯网


uyB品论天涯网

尽管近年来OpenAI的人才流动很大,但OpenAI还是那个能不断吸引各种有个性的人才,不限制专业、欢迎跨界,信奉自下而上涌现式研究的公司。uyB品论天涯网

从一个小团队开始,有了突破后公司倾斜更多资源,直到改变世界。uyB品论天涯网

OneMoreThinguyB品论天涯网

曾经,GPT-4o图像生成模仿吉卜力风格生成的头像席卷了全世界。uyB品论天涯网

如今GPTImage2.0的团队成员,都把自己头像换成了这种奇脖子画风。uyB品论天涯网


uyB品论天涯网

那么这种画风的提示词是什么?团队成员也公布了出来uyB品论天涯网

Usemyphotoonlyforidentity.RedrawmeasaverysimplesurrealJapanesesticker-stylecaricature:longthinneck,smalldeadpanface,minimalblackoutline,flatlightcoloring,almostnoshading,veryfewfacialdetails,simplifiedhairshape,lotsofwhitespace,plainwhitebackground,slightlyawkwardandfunny.Ultratall1:3image.uyB品论天涯网

参考链接:uyB品论天涯网

[1]https://x.com/gabeeegoooh/status/2046674385407512687?s=20uyB品论天涯网

[2]https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlesslyuyB品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]