AppAgent: 像人类用户一样操作手机的多模态智能体 [译]
大语言模型 (LLMs) 的最新进展催生了一类能够执行复杂任务的智能代理。本文提出了一种基于大语言模型的多模态代理框架,专为智能手机应用而设计。我们的框架允许智能体通过简化的动作范围,如点击和滑动,来操作智能手机应用,仿佛它是一个人类用户。这种创新方法免除了访问系统后端的需要,使其能够适用于多种不同的应用。我们的智能体采用了一种创新的学习方法:它可以通过自我探索或观察人类的操作来学习如何导航和使用新的应用程序。通过这个过程,它建立了一个知识库,用于在不同应用中执行复杂任务。为了证明我们智能体的实用性,我们在 10 个不同的应用中进行了 50 项任务的测试,涵盖了社交媒体、电子邮件、地图、购物和高级图像编辑等领域。测试结果证明了我们的智能体在处理多种高级任务方面的高效能。
December 22, 2023
View Article