人工智能

阿里推自主多模态AI代理MobileAgent 可模拟人类操作手机

字号+作者: 来源:站长之家 2024-02-01 09:24 评论(创建话题) 收藏成功收藏本文

站长之家(ChinaZ.com)2月1日 消息:MobileAgent是由阿里巴巴开发的一个自主多模态AI代理,可以模拟人类操作手机,是一个纯视觉解决方案,不需要任何系统代码,完'...

站长之家(ChinaZ.com)2月1日 消息:MobileAgent是由阿里巴巴开发的一个自主多模态AI代理,可以模拟人类操作手机,是一个纯视觉解决方案,不需要任何系统代码,完全通过分析图像来理解和操作手机。1jC品论天涯网

image.png1jC品论天涯网

项目地址:https://top.aibase.com/tool/mobile-agent1jC品论天涯网

特点:1jC品论天涯网

依赖于纯视觉解决方案: MobileAgent通过分析图像来理解和操作手机,而无需任何系统代码。这增加了通用性和灵活性,使其能够在没有访问底层代码或数据权限的情况下操作应用。1jC品论天涯网

独立于XML和系统元数据: 不依赖XML文件和系统元数据,提高了通用性和灵活性。1jC品论天涯网

多种视觉感知工具: 使用多种技术进行操作定位,包括文本、图标、按钮等。1jC品论天涯网

即插即用: 无需训练,可直接在不同设备和应用上使用。1jC品论天涯网

MobileAgent能够自动完成各种任务,比如在Alibaba上帮助用户找到帽子,并根据条件添加到购物车,在Amazon Music中搜索歌手Jay Chou或播放关于“代理”的音乐,在Chrome中搜索今日湖人队比赛结果或关于Taylor Swift的信息,在Gmail中发送空邮件或具有特定内容的邮件,在TikTok上为宠物猫视频点赞或评论等,还可以结合使用多个应用完成复杂任务。1jC品论天涯网

MobileAgent的特点包括依赖于纯视觉解决方案,独立于XML和系统元数据,具备多种视觉感知工具进行操作定位,无需探索和训练,即插即用。1jC品论天涯网

其工作原理包括视觉感知工具,自主任务规划和执行,自反思和提示格式。 MobileAgent使用了视觉感知模块、文本和图标定位,自主规划和自反思方法来实现对手机应用的操作。观察、思考和行动是MobileAgent采用的提示格式,要求代理输出三个组成部分。1jC品论天涯网

本网除标明“PLTYW原创”的文章外,其它文章均为转载或者爬虫(PBot)抓取; 本文只代表作者个人观点,不代表本站观点,仅供大家学习参考。本网站属非谋利性质,旨在传播马克思主义和共产主义历史文献和参考资料。凡刊登的著作文献侵犯了作者、译者或版权持有人权益的,可来信联系本站删除。 本站邮箱[email protected]

相关文章