启明星 | 智谱AI推出GLM首个产品化智能体AutoGLM，迎接AI的“Phone Use”时刻

Portfolio News

启明星 | 智谱AI推出GLM首个产品化智能体AutoGLM，迎接AI的“Phone Use”时刻

29/10/2024

日前，基于GLM技术团队在语言模型、多模态模型和工具使用方面的努力和研究成果，启明创投投资企业智谱AI推出GLM第一个产品化的智能体（Agent）—— AutoGLM，只需接收简单的文字/语音指令，它就可以模拟人类操作手机。

相比于电脑，手机陪伴用户的时间更长，离生活更近。如果说“Computer Use”开启了人机交互的新范式，那么“Phone Use”则更进一步，解锁更多应用的可能性，让AI真正惠及每一个人。

除了视频中展示的朋友圈点赞写评论、购买某一款历史订单产品、购买火车票、点外卖等，AutoGLM的应用场景还远不止于此。理论上，通过对GUI的深刻理解，AutoGLM可以完成人类在可视化电子设备（电脑、手机、平板……）上能做的任何事。

它不受限于简单的任务场景或API调用，也不需要用户手动搭建复杂繁琐的工作流，操作逻辑与人类类似，真正做到在日常生活、工作中辅助人类。

01/
体验

用户可以通过以下方法，扫描图中二维码，体验AI的“Phone Use”时刻：

1. 在Chrome或Edge安装“智谱清言”插件，来体验AutoGLM-Web。“智谱清言”插件是一个能模拟用户访问网页、点击网页的浏览器助手，大模型可以根据用户指令在网站上自动完成高级检索、总结与内容生成。

2. 在手机端，首批开放给部分清言用户（暂时仅支持安卓系统），欢迎提交内测申请。值得一提的是，智谱AI也与荣耀等手机厂商基于AutoGLM开展深度合作。

AI的“Phone Use”时刻，让智谱AI在通往通用人工智能（AGI）的道路上，再次向前迈了一小步。

02/
AutoGLM技术

AutoGLM基于智谱AI自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”，克服了大模型智能体任务规划和动作执行存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题，加之自适应学习策略，能够在迭代过程中不断改进、持续稳定地提高自身性能。就像人在成长过程中，不断获取新技能。

AutoGLM解决了大模型作为智能体时的两个关键挑战：

挑战一：“动作执行”不够精确

训练大模型智能体的一大难题，在于如何让模型学会精准地操作屏幕上显示的元素。端到端训练联合训练“动作执行”和“任务规划”能力，受制于轨迹数据获取成本高昂，数据总量严重不足，导致需要高精度的动作执行能力训练不充分。

为了解决这一问题，AutoGLM引入了“基础智能体解耦合中间界面”设计，将“任务规划”与“动作执行”两个阶段通过自然语言中间界面进行解耦合，实现了智能体能力的极大提升。例如，在手机上点外卖，需要点击“提交订单”按钮时，对比传统和“中间界面”方案如下：

挑战二：“任务规划”不够灵活

另一个主要挑战在于，GUI智能体训练轨迹数据极其有限和成本高昂。而且在面对复杂任务和真实环境时，智能体需要具备灵活的即时规划和纠正能力。这并非能通过例如模仿学习（Imitation Learning）和有监督微调（SFT）等传统大模型训练方法所能轻易获得。为此，智谱AI以Web浏览器作为实验环境，研发了一种“自进化在线课程强化学习框架”，以在真实在线环境中，从头开始学习和提升大模型智能体在Web和Phone环境中的能力。

通过引入自进化学习策略，模型不断自我考察、鞭策、提升。通过课程强化学习方法，该框架根据智能体当前迭代轮次的能力水平，动态调整学习的任务难度，以最大程度利用模型潜能。而通过KL散度控制的策略更新以及智能体置信度经验回放，智谱AI减轻和避免了迭代训练中出现模型遗忘先前学习任务的问题。基于该方法训练的开源版GLM-4-9B，就可以在WebArena-Lit评测基准中相对GPT-4o提升超过160%，达到总体43%的任务成功率。

通过综合应用智谱AI自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”策略，AutoGLM在Phone Use和Web Browser Use上都取得了大幅的性能提升。例如，在AndroidLab评测基准上，AutoGLM就显著超越了GPT-4o和Claude-3.5-Sonnet的表现。

在WebArena-Lite评测基准中，AutoGLM更是相对GPT-4o取得了约200%的性能提升，大大缩小了人类和大模型智能体在GUI操控上的成功率差距。

AutoGLM现以通过安卓应用的方式，在真实的安卓手机上支持多个应用的自动化任务执行。在简单任务的人工评测中，AutoGLM表现令人满意。

请复制下方网址在浏览器打开，获取AutoGLM的更多信息。

https://xiao9905.github.io/AutoGLM

启明星 | 智谱AI推出GLM首个产品化智能体AutoGLM，迎接AI的“Phone Use”时刻

More News