人工智能

OpenAI的“Manus时刻”来了:ChatGPT Agent正式发布

字号+作者:知危 来源:知危 2025-07-18 07:12 评论(创建话题) 收藏成功收藏本文

2025年7月18日北京时间凌晨1点,OpenAI进行了一场直播,介绍了他们最新、最强大的模型。他们将DeepResearch和Operator功能合并到一起,打造了一个同时能够做'...

2025年7月18日北京时间凌晨1点,OpenAI进行了一场直播,介绍了他们最新、最强大的模型。他们将DeepResearch和Operator功能合并到一起,打造了一个同时能够做深度研究和Browser-Use的AIAgent——ChatGPTAgent。rsx品论天涯网

或者,你可以更简单地理解为,OpenAI发布了一个属于他自己的“Manus”。rsx品论天涯网

由OpenAI打造的AIAgent,按过往经验来看是面向通用型需求的,无论是从成本角度还是技术角度,预计都会对同一赛道中的对手形成降维打击。rsx品论天涯网

在直播中,SamAltman和四位Agent项目的研究员(此前分别是Operator和DeepResearch的项目成员)通过参加婚礼策划等演示展示了ChatGPTAgent的功能,以及在基准测试中的表现。rsx品论天涯网

使用该Agent的模式很简单,只需在ChatGPT用户端点击工具菜单并选择“Agent”就可以。rsx品论天涯网


rsx品论天涯网

ChatGPTAgent可以独立使用虚拟计算机来执行复杂的任务,能够无缝地从思考切换到行动,以及使用各种工具,比如在终端上写代码,执行网页浏览,制作Excel和PPT等等。rsx品论天涯网

首先来一个日常生活的演示:为参加朋友婚礼做准备。rsx品论天涯网

研究员不仅写明了详细的需求,还给ChatGPT提供了婚礼网站,以及预订酒店的网站。rsx品论天涯网

提示词:rsx品论天涯网

我们的朋友今年晚些时候要结婚了!这就是婚礼网站:XXXrsx品论天涯网

你能帮我找到以下物品吗:rsx品论天涯网

一套符合所有场合着装要求的服装(男士)-推荐五个方案。服装要包含一些不错的、中等奢华的物品,要与场地和天气相符。rsx品论天涯网

帮我找一些可以提前几天预订的酒店-使用booking.com预订,并确保查看空房情况和当前价格。rsx品论天涯网

还有,别忘了给他们挑选一份礼物,最好在500美元以下rsx品论天涯网

写一份漂亮的报告rsx品论天涯网

收到提示词后,ChatGPTAgent立马开始执行。rsx品论天涯网

因为需要使用电脑,所以一开始,它需要设置环境,这一步通常需要一两分钟,快的话甚至不到5秒钟(实际演示中为7秒)。准备好环境并理解了提示之后,ChatGPTAgent会向用户确认自己的理解是否准确,用户点击“continue”,ChatGPTAgent就会开始工作。rsx品论天涯网


rsx品论天涯网

在ChatGPTAgent执行任务的时候,用户可以同步看到它操作计算机屏幕的过程,以及每一步操作相关的思维链。rsx品论天涯网


rsx品论天涯网

在这个任务中,ChatGPTAgent最终提供了一份相当全面的报告。rsx品论天涯网

它会根据链接确定日期和婚礼场地,并以此来确定西装的推荐,以及在哪里可以买到,还有房源信息等,它还会提供关于礼物的建议。特别是,ChatGPTAgent还提供浏览结果的屏幕截图。rsx品论天涯网


rsx品论天涯网

在ChatGPTAgent执行完任务之后,用户还可以通过视频的方式回顾它的执行过程。rsx品论天涯网


rsx品论天涯网

ChatGPTAgent可以使用两种不同的方式来浏览互联网。一个是文本浏览器,类似于DeepResearch,可以非常高效快速地阅读和搜索大量网页。另一个是可视化浏览器,类似于Operator,使得它能够与网页UI进行实际交互。使用该浏览器,ChatGPTAgent可以执行拖动网页、使用光标点击、打开UI组件、填写表单、输入文本等操作。rsx品论天涯网

OpenAI团队表示,这两个工具互补性很强。rsx品论天涯网

OpenAI在一月份发布了Operator,可以执行预订和发送电子邮件等在线任务。两周后,OpenAI又发布了DeepResearch,可以进行深入的互联网研究,并输出高质量的研究报告。rsx品论天涯网

后来,OpenAI意识到这两种方法实际上是深度互补的。一方面,Operator在阅读超长文章时会遇到一些困难,因为需要滚动,所以很耗时,但这正是DeepResearch的强项。另一方面,DeepResearch在与网页、交互元素、视觉效果(高度可视化的网页)交互方面又不如Operator。rsx品论天涯网

OpenAI在用户反馈中也了解到,大家最期待的DeepResearch功能之一就是能够登录网站并访问经过身份验证的来源,而Operator可以做到这一点。此外,很多用户在使用Operator时的提示,实际上和DeepResearch类型的提示很相似。rsx品论天涯网

ChatGPTAgent的一个关键能力是允许随时打断执行,并补充新的任务指示。这对于执行复杂且耗时很长的任务来说特别重要,很多时候一开始输入的提示是不完整的。比如在准备参加婚礼的这个任务中,你可以中途提示模型:你能再帮我找一双9.5码的男士黑色鞋吗?rsx品论天涯网

ChatGPTAgent也可能会在执行过程中主动要求用户澄清和确认一些细节。rsx品论天涯网

OpenAI介绍道,与Agent合作过程中要注意的一个关键是,模型有时会犯错误,“这就是为什么训练模型在重要步骤的最后一步请求用户的确认很重要。”rsx品论天涯网

例如,在它发送电子邮件之前,它会要求用户查看草稿,内容是否合理,是否有拼写错误等。如果有,你可以要求它修改,或者直接接管浏览器,进入Agent的环境自行修改。rsx品论天涯网

所以,ChatGPTAgent鼓励的不是完全自主的执行,而是与用户的深度协作。rsx品论天涯网

ChatGPT还拥有自己的终端来运行代码,并能用于生成和分析PPT、Excel等文件。rsx品论天涯网

通过终端,它还可以调用API,包括公共API和用于访问用户私有数据源的API(例如GoogleDrive、GoogleCalendar、GithubSharepoint等)。你甚至还可以让ChatGPT调用图像生成API来生成图像,这样就可以为PPT等内容打造精美的视觉效果。类似DeepResearchConnector,只有当用户明确连接这些API时,它才能使用。rsx品论天涯网


rsx品论天涯网

在演示中,OpenAI的研究员通过让ChatGPTAgent调用API操作,生成了ChatGPTAgent的基准测试报告。rsx品论天涯网

提示词:rsx品论天涯网

从我们的GoogleDrive中提取你的评估编号,并制作一些幻灯片。形式保持简单,没有引言,没有结论,只用图表呈现结果。rsx品论天涯网

模型连接到了GoogleDriveAPI,然后在API内进行搜索。第一个结果是相关的,于是模型开始详细地读取第一个结果,然后编写代码,并使用图像生成模型来为PPT生成图片。rsx品论天涯网


rsx品论天涯网

最终模型生成了一个PPT文档,可以下载并在本地打开。rsx品论天涯网

我们来具体看看ChatGPTAgent的基准测试结果。rsx品论天涯网

在“人类最后考试”(Humanity'sLastExam,HLE,一个面向人类知识前沿的多模态基准测试)基准测试中,拥有完全工具使用能力的ChatGPTAgent超越了DeepSesearch(拥有browseruse和python代码能力)、o3(拥有browseruse和python代码能力),其性能相比后两者几乎翻了一番,达到42%的通过率,而没有工具使用能力的ChatGPTAgent和o3则是垫底。rsx品论天涯网

FrontierMath基准测试用于衡量高级数学推理能力,ChatGPTAgent在这个基准测试中达到了27%的通过率,超越了拥有Python编码能力的o4-mini和o3。rsx品论天涯网


rsx品论天涯网

在WebArena基准测试中,ChatGPTAgent的表现已经很接近人类,并高于o3和4o。rsx品论天涯网

在OpenAI年初推出的BrowserComp基准测试(衡量Agent搜索和查找信息的能力)中,ChatGPTAgent显著优于o3和DeepResearch模型。rsx品论天涯网


rsx品论天涯网

SpreadsheetBench基准测试衡量一定程度上的创建和编辑电子表格的能力,使用LibreOffice和其它工具的ChatGPTAgent已经可以完成30%的任务,当赋予模型访问终端中原始Excel文件的权限时,性能进一步提升至45%。rsx品论天涯网

InternalBankingBenchmark基准测试评估模型执行1到3年经验投资银行分析师任务的能力,例如为一家财富500强公司构建一个三表财务模型。在这项基准测试中,ChatGPTAgent的表现显著优于DeepResearch和o3。rsx品论天涯网


rsx品论天涯网

OpenAI表示,ChatGPTAgent是OpenAI目前最强大的模型之一,不仅在基准测试中表现出色,而且还能够推理、浏览和处理现实世界的任务,“其水平是我们三个月前无法想象的。而它的强大很大程度上来自于浏览互联网的能力。”rsx品论天涯网

OpenAI官方还强调,从安全方面来看,让AIAgent执行网页浏览仍然是有风险的,“互联网仍然是一个可怕的地方,各种各样的网络攻击、诈骗和网络钓鱼试图窃取人们的信息,而Agent模型也无法幸免于所有这些攻击。”rsx品论天涯网

“我们特别担心一种叫做‘promptinjection’的新攻击。假设你让智能体帮你买书,并输入你的信用卡信息,智能体可能会偶然进入一个恶意网站,要求它输入信用卡信息,而这时它可能会照做。”rsx品论天涯网

“我们做了很多工作来防止这种情况发生,比如训练模型忽略可疑网站上的可疑指令,还设置了多层监视器,可以监视Agent的运行。我们甚至可以实时更新这些信息,以防范新的攻击。”rsx品论天涯网

OpenAI表示,不可能阻止所有风险,所以用户自己意识到风险的存在仍然是必要的,比如尽量不要分享高度敏感的信息,或合理地使用接管模式。rsx品论天涯网


rsx品论天涯网

OpenAI还提供了一个有趣的演示,让ChatGPTAgent制定一个最佳行程,以游览所有30个MLB球场,最后以详细的电子表格形式呈现最终计划。rsx品论天涯网

有趣的是,ChatGPTAgent真的使用了代码构建地图,并成功实现了。rsx品论天涯网


rsx品论天涯网


rsx品论天涯网

最后,OpenAI表示,ChatGPTAgent将为Pro、Plus和Team用户上线。Pro用户每月将获得400次查询,Plus和Team用户每月将获得40次查询。Pro版的部署预计将于本月底完成,Plus版也将很快完成,Team版将争取在本月底前上线企业版和教育版。rsx品论天涯网

“我们希望你们会喜欢它。虽然现在还处于初期阶段,但我们会迅速改进它,并且我们非常期待看到它后续的发展。”OpenAI团队表示。rsx品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]