API Agents vs. GUI Agents: Divergence and Convergence

本论文是来自微软的 Chaoyun Zhang 等人在3月11日挂在 Arxiv 上的工作。

本文主要总结了 API Agents 和 GUI Agents 的现状,对比了其优势,提出未来的 Hybrid Agents,最终给出了对于不同场景应该使用什么 Agent 的建议。

Entry:Zotero link URL link

  • 现状

    • GUI Agents
      • UFO(微软)
      • CogAgents(清华 首个 GUI Agent CVPR'24)
      • Operator(OpenAI)
    • API Agents
      • Copilot-MCP(微软)
      • GPT4-MCP(OpenAI)
      • TaskWeaver-Plugin(微软)
  • 对比

    • 考查:模态(Modality)、可靠性(Reliability)、效率(Efficiency)、可用性(Availability)、灵活性(Flexibility)、安全性(Security)、透明性(Transparency)、类人交互(Human-Like Interaction)和可维护性(Maintainability)
    • API Agents 在强大的接口支持下提供了效率、安全性和可靠性,但它们受到暴露功能有限的限制。GUI Agents 则提供了广泛的适用性和类似用户的工作流程,但它们必须克服在视觉解析、界面变化和较慢任务执行方面的挑战。
  • Hybrid:API + GUI

    • API Wrapper on GUI:通过 headless mode 或者提前标注(UFO2)进行 GUI 到 API 的转变
    • 设计统一调度器:同时管理 API 和 GUI
  • 选择推荐

    • 根据上述原则,在不同场景应当选用不同 Agent

Last modified on 2025-05-15