API Agents vs. GUI Agents: Divergence and Convergence
本论文是来自微软的 Chaoyun Zhang 等人在3月11日挂在 Arxiv 上的工作。
本文主要总结了 API Agents 和 GUI Agents 的现状,对比了其优势,提出未来的 Hybrid Agents,最终给出了对于不同场景应该使用什么 Agent 的建议。
Entry:Zotero link URL link
-
现状
- GUI Agents
- UFO(微软)
- CogAgents(清华 首个 GUI Agent CVPR'24)
- Operator(OpenAI)
- API Agents
- Copilot-MCP(微软)
- GPT4-MCP(OpenAI)
- TaskWeaver-Plugin(微软)
- GUI Agents
-
对比
- 考查:模态(Modality)、可靠性(Reliability)、效率(Efficiency)、可用性(Availability)、灵活性(Flexibility)、安全性(Security)、透明性(Transparency)、类人交互(Human-Like Interaction)和可维护性(Maintainability)
- API Agents 在强大的接口支持下提供了效率、安全性和可靠性,但它们受到暴露功能有限的限制。GUI Agents 则提供了广泛的适用性和类似用户的工作流程,但它们必须克服在视觉解析、界面变化和较慢任务执行方面的挑战。
- 考查:模态(Modality)、可靠性(Reliability)、效率(Efficiency)、可用性(Availability)、灵活性(Flexibility)、安全性(Security)、透明性(Transparency)、类人交互(Human-Like Interaction)和可维护性(Maintainability)
-
Hybrid:API + GUI
- API Wrapper on GUI:通过 headless mode 或者提前标注(UFO2)进行 GUI 到 API 的转变
- 设计统一调度器:同时管理 API 和 GUI
-
选择推荐
- 根据上述原则,在不同场景应当选用不同 Agent
- 根据上述原则,在不同场景应当选用不同 Agent
Last modified on 2025-05-15