智谱技术团队最近推出了一个基于GLM技术团队研究成果的新产品——AutoGLM,这是一个智能体(Agent),能够模拟人类操作手机,执行各种任务。AutoGLM的推出标志着人工智能在“Phone Use”领域的进步,使得AI的应用更加贴近人们的日常生活。

项目地址:https://xiao9905.github.io/AutoGLM

智谱AI推出AutoGLM智能体:输入指令即可模拟人类操作手机

AutoGLM能够执行多种任务,如在微信上点赞并评论朋友圈、在淘宝上购买历史订单产品、在携程上预订酒店、在12306上购买火车票、在美团上点外卖等。它的应用场景不仅限于此,理论上,AutoGLM可以完成人类在可视化电子设备上能做的任何事,操作逻辑与人类类似,无需复杂的工作流搭建。

目前,用户可以通过安装“智谱清言”插件体验AutoGLM-Web,这是一个浏览器助手,能够模拟用户访问网页、点击网页,并在网站上自动完成高级检索、总结与内容生成。此外,AutoGLM也在安卓系统上开放了内测申请,并与荣耀等手机厂商开展了深度合作。

智谱AI推出AutoGLM智能体:输入指令即可模拟人类操作手机

AutoGLM的技术基于智谱自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”,解决了大模型智能体任务规划和动作执行中的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等问题。AutoGLM能够不断自我改进、持续稳定地提高自身性能,类似于人在成长过程中不断获取新技能。

在技术挑战方面,AutoGLM解决了“动作执行”不够精确和“任务规划”不够灵活的问题。它通过“基础智能体解耦合中间界面”设计,将“任务规划”与“动作执行”两个阶段通过自然语言中间界面进行解耦合,实现了智能体能力的极大提升。同时,AutoGLM采用了“自进化在线课程强化学习框架”,在真实在线环境中学习和提升大模型智能体在Web和Phone环境中的能力。

AutoGLM在Phone Use和Web Browser Use上都取得了显著的性能提升,并在AndroidLab评测基准上超越了GPT-4o和Claude-3.5-Sonnet的表现。在WebArena-Lite评测基准中,AutoGLM相对GPT-4o取得了约200%的性能提升,缩小了人类和大模型智能体在GUI操控上的成功率差距。