WebVoyager:借助强大多模态模型,开创全新的网络智能体 [译]
随着大语言模型 (LLMs) 的突飞猛进,一个以真实世界中的自动化应用为核心的新时代已经来临。这一时代的特点是推动了基于网络的先进智能体的发展。目前市面上的网络智能体大多只能处理单一输入模式,并且它们的性能通常仅在简化的网络模拟环境或是静态的网络快照中得到评估,这大大限制了它们在实际应用中的有效性。为了解决这一问题,我们推出了 WebVoyager:一个创新的、由大型多模态模型 (LMM) 驱动的网络智能体。WebVoyager 能够通过与现实世界中的网站交互,全面完成用户的各项指令。此外,我们还提出了一种新的评估协议,用于应对开放式网络智能体任务自动评估中的种种挑战。我们利用 GPT4V 的强大多模态理解能力,从 15 个广泛使用的网站中收集真实世界任务,作为衡量我们智能体性能的新基准。测试结果显示,WebVoyager 的任务完成率高达 55.7%,明显优于 GPT4 (含所有工具) 以及仅文本模式的 WebVoyager,这充分证明了它在实际应用中的出色能力。我们的自动评估方法与人类评判的一致性高达 85.3%,为网络智能体在真实世界环境中的进一步发展奠定了坚实的基础。
January 27, 2024
View Article