桌面 GUI / CLI Agent 开源生态全景

调研 · 2026-05 · Windows / macOS / Linux 桌面 GUI + CLI agent 的模拟器、评测框架、训练数据、infra 全梳理

🎯 TL;DR — 这片地的现状

≈ 14
主流开源 repo
369
OSWorld eval tasks
13M
OS-Atlas grounding elements
8.1K
R2E-Gym SWE envs
目录
  1. 桌面 GUI 总览表
  2. 仿真器 / 沙箱 — 跑 task 的环境
  3. 评测 benchmark — 衡量 agent 能力
  4. 训练数据集 — 给 base 模型学 GUI
  5. 训练框架 / RL infra — 在线训 GUI agent
  6. 部署 / 通用框架 — 现成的 desktop agent
  7. CLI / SWE Agent 生态
  8. 按用途的推荐 — 选哪个 repo
  9. 现状缺口 / 没被覆盖的角落

1 · 桌面 GUI 总览表 — 一张图看清楚

类别项目开源规模平台用途
仿真器 / 沙箱OSWorld★★★★★369 task + VM 镜像Ubuntu / Win / macOS评测 + 训练 env
Windows Agent Arena★★★★★154 task + Azure 并行Windows评测 + 训练 env
Cradle★★★★★4 游戏 + 5+ 软件Win(主)通用计算控制 GCC
Anthropic Computer Use Demo★★★★★1 个 DockerUbuntu(容器内)参考实现 / 起步模板
CUA (trycua/cua)★★★★★sandbox + SDK + benchmacOS / Linux / Win"computer-use 版 Stripe"
UFO² / UFO³ Galaxy★★★★★多 agent 编排WindowsWin OS 原生 agent 框架
评测 benchmarkOSWorld-Verified★★★★★369 修订版三 OS当前桌面金标准
ScreenSpot-Pro★★★★★1,581 截图23 app × 3 OS高分辨率 grounding
SpreadsheetBench★★★★★912 Excel 题Office电子表格 agent
Spider 2.0★★★★★多模式 SQL跨数据库text-to-SQL agent
训练数据集OS-Atlas★★★★★13M GUI elements跨平台grounding 最大盘
Aguvis★★★★★4.2M + 1.3M trajWeb/Desktop/Mobile两阶段训练
CogAgent CCS400K★★★★★400K 截图 + 140M Q&AWeb 为主CogAgent 自带
ShowUI★★★★★256K 指令跨平台轻量 2B 模型用
Magma 训练 mix★★★★★2.7M UI + 970K 机器人 + 25M 视频UI + 物理多模态 agent 基座
训好的开源模型UI-TARS-2 (ByteDance)★★★★★7B / 72B跨平台 + 游戏 + Code当前桌面 SOTA
Magma-8B (Microsoft)★★★★★8BUI + 机器人统一 vision-action
CogAgent-9B (智谱/THUDM)★★★★★9B桌面 + Web2023 年的开山
部署框架OS-Copilot / FRIDAY★★★★★Python 库Linux 主自改进 agent
Open Interpreter★★★★★Python 库三 OS"chat with your computer"
Agent-S / S2 (Simular)★★★★★Python 框架macOS/Win/Linux非 RL,模块化
:★★★★★ = 完全开源(代码 + 数据 + 模型权重 / 或 license 允许商用);★★★☆☆ = 部分开源(只有代码或只有 weights)。表里全是 ★★★★★ 的并不代表"零门槛跑起来",而是 license 上允许 — 真正的硬门槛是硬件(VM/Docker 资源 + GPU)。

2 · 仿真器 / 沙箱 — 跑 task 的环境

2.1 OSWorld(xlang-ai,NeurIPS 2024)

项目详情
开源 licenseApache 2.0
task 数369 真实计算机 task(跨 Web 和桌面应用)+ 额外 43 个 Windows-only(因版权要 Windows 激活)
OS 支持Ubuntu / Windows / macOS
虚拟化后端VMware / VirtualBox / Docker / AWS(2024-10 加的 Docker)
评测方式每个 task 自带 init 配置 + 执行式 evaluation 脚本(functional 检查文件系统/数据库/API 状态),非 LLM judge
数据组成OS file I/O · 多 app workflow · Web · Office · Code · 多媒体
SOTA(原版)最好模型 12.24% vs human 72.36%
SOTA(Verified)修订版 ~84% of human ceiling

能不能用来训练? 理论上可以(VM 提供 step 接口),但 OSWorld 设计目标是 eval,跑一个 task 平均要分钟级(VM 启动 + 真实 app 加载),并发开几十个 VM 对硬件要求很高。实际上大多数论文用 OSWorld 做 eval,训练数据靠别的 dataset。

2.2 Windows Agent Arena(Microsoft,2024)

项目详情
licenseMIT(部分子目录 Microsoft Research License)
task 数154 task
OSWindows 11 only
覆盖应用浏览器 · 文档(Word/Excel/PPT)· 视频 · 代码(VS Code)· Notepad / Paint / File Explorer / Clock / Settings
scale 特性Azure Cloud 集成 — 一次启几百个 agent 并行,几分钟出结果(vs 单机要好几天)
SOTA最好 agent 19.5% vs human 74.5%

WAA 是唯一一个原生 Windows 的开源 benchmark。OSWorld 的 Windows 部分 task 比 WAA 少且要用户自己装系统(因 Microsoft 版权),WAA 直接用 Microsoft 的 evaluation image。配合下面的 UFO 用最顺。

2.3 UFO² / UFO³ Galaxy(Microsoft,2025)

UFO 系列是 Microsoft 内部"对标 Anthropic Computer Use"的开源答卷,专精 Windows,Win API + UI Automation 库都有原生绑定。

2.4 Anthropic Computer Use Reference(2024-10)

这是个参考实现,不是 trainer 也不是 benchmark。包含:

实际用途:所有社区 Computer Use 复刻品的起步模板deedy/mac_computer_use 是把它移植到原生 macOS 的 fork。

2.5 Cradle(BAAI,ICML 2025)

"General Computer Control"(GCC)— 输入只看截图,输出只发键鼠,不调用任何 API。覆盖:

这是把 Anthropic CU 的思想推到极致 — 不依赖任何 OS API,纯视觉 + 键鼠。适合做"通用桌面 agent"的研究 baseline。

2.6 CUA(trycua/cua,2024-2025)

"Computer-Use Agent 版的 Stripe"— 提供 sandbox + SDK + benchmark 三件套,跨 macOS / Linux / Windows。是商业基础设施视角的开源(而不是研究视角)。给开发者训练和评测 CU agent 的 turn-key 方案。


3 · 评测 benchmark — 衡量 agent 能力

Benchmark规模平台当前 SOTA定位
OSWorld(原版)369 taskUbuntu / Win / macOS~30%+(新模型)桌面金标准
OSWorld-Verified369 修订同上~84% of humanOSWorld 升级版,2025 出
OSWorld-G / OSWorld-Gold子集同上grounding subset / efficiency 评测
OSWorld-W49 taskWindowsOSWorld 中 Win 可跑的子集(UFO 内置)
Windows Agent Arena154 taskWindows-only19.5% vs human 74.5%Win 专属,Azure 并行
ScreenSpot~1,272Web/Desktop/Mobile~75% (ShowUI)原始 grounding benchmark
ScreenSpot-V2修订同上V1 标注修订版
ScreenSpot-Pro1,581 截图23 app × 5 cat × 3 OS高分辨率 + 专业软件 grounding
SpreadsheetBench V2912 题Excel电子表格 agent
Spider 2.0多模式跨数据库 SQLtext-to-SQL 长上下文
UINavBenchICCV 2025Mobile 为主交互 digital agent 综合
GAIA466 题通用FRIDAY +35%"General AI Assistant"基准,非纯 GUI

3.1 ScreenSpot-Pro 细看(高分辨率 grounding 的代表)

因为它在专业软件上最难,值得单独说:


4 · 训练数据集 — 给 base 模型学 GUI

这是"开源量级"差距最大的地方。下面按 grounding 数据规模排序:

数据集规模类型开源归属
OS-Atlas13M GUI elements跨平台 grounding 合成 + 真实✅ 数据+模型+工具链OS-Atlas 团队
Aguvis Stage 14.2M 样本computer/mobile grounding✅ 全开xlang-ai,Salesforce AI
Aguvis Stage 21.3M traj带 reasoning 标注的 trajectory✅ 全开同上
Magma 训练 mix2.7M UI 截图 + 970K 机器人 + 25M 视频UI + Action + Trace✅ Microsoft,MIT 模型Microsoft
CogAgent CCS400K400K 截图 + 140M Q&AWeb 截图问答✅ 智谱/THUDMCogAgent 自带
CogAgent OCR / 视觉定位80M synth OCR + 18M nat OCR + 9M doc + 40M caption底层视觉CogAgent 预训练用
ShowUI 指令256K视觉-动作 SFTShowUI 团队
ClawGUI-Eval(对比项)6 benchmark 集合评测 only,非训练✅ HF: johnzqlu/clawgui-evalZJU-REAL
UI-TARS 预训练≈ 50B tokens(混合)多源混合,部分公开⚠ 配方+模型开源,完整 raw data 不全ByteDance

4.1 OS-Atlas — 当前最大的 grounding 训练盘

OS-Atlas 的卖点是"多平台 grounding data 合成工具链":不是手工标 13M,而是有一套自动管线把真实截图 → DOM/AXTree 解析 → 元素提取 → 自然语言标注串起来,所以可以无限扩。开源了:

4.2 Aguvis — 两阶段标准(grounding → reasoning)

把 GUI agent 训练分成清晰两步,后来很多工作沿用:

  1. Stage 1 Grounding(4.2M):学"图里的按钮叫什么,坐标在哪"
  2. Stage 2 Planning + Reasoning(1.3M trajectory):学"给定 task,先想再做"

开源了数据、模型、训练 recipe,是研究界做 GUI 模型时引用最多的训练 corpus

4.3 Magma — 把 UI 和机器人放在一个模型里

Microsoft 的野心更大:2.7M UI 截图 + 970K 机器人轨迹 + 25M 视频 一起训。两个关键标注:

训出来的 Magma-8B 在 UI 导航 + 机器人操作上都有 SOTA。MIT license 开放商用。

4.4 CogAgent — 国内开源的开山

智谱/THUDM 在 2023 年底就发了,后续 CogAgent-9B-20241220 大幅升级。预训练数据:


5 · 训练框架 / RL infra — 在线训 GUI agent

5.1 UI-TARS-2(ByteDance,2025-09)

这是目前唯一的"开源跨平台 RL GUI trainer",涵盖桌面 + Web + 移动 + 游戏 + Code。技术报告四件套:

  1. Data flywheel — 模型自己生成 trajectory → 验证 → 进训练池,持续 scale 数据
  2. Stabilized multi-turn RL — 长 horizon GUI task 的稳定 RLVR(Verifiable Rewards)
  3. Hybrid GUI environment — 把文件系统 + 终端集成进 GUI 沙箱,这是个"GUI + CLI 融合"的关键 trick
  4. Unified sandbox platform — 大规模 rollout 用的统一沙箱

开源:权重(7B / 72B 一系列)+ desktop harness + 训练配方。原始训练数据完整 raw 没全开,但 recipe 够复现。

5.2 ClawGUI-RL(ZJU-REAL,2026-04)— 对照

详见 #14 精读只针对 Android 手机,桌面 RL 在 roadmap 但没做。整体架构(verl + GiGPO + 并行 Android 容器)其实可以无缝迁移到桌面,但需要新的 emulator 后端 — 这就是当前空白。

5.3 Cradle(BAAI)— skill-curation 路线

不是传统 RL,而是 self-improvement + skill library:agent 跑成功就把动作序列存进技能库,失败就 self-reflect。可以做训练数据生成的源头,但不直接做 SFT/RL trainer。

5.4 OSWorld 作为训练 env?

OSWorld 提供 step() 接口,理论可以挂在 verl/AReaL 等 RL framework 后面当 env。实际很少人这么做,原因:

所以 OSWorld 在"训练 env"上事实落空,主要还是用来做 eval。


6 · 部署 / 通用框架 — 现成的 desktop agent

框架定位OSlicense
Agent-S2(Simular)Mixture-of-Grounding + 分层 planning,SOTA on OSWorldmac/Win/LinuxApache 2.0
OS-Copilot / FRIDAYself-improving agent,GAIA +35%,SheetCopilot-20 60%Linux 主MIT
Open Interpreter"chat with your computer",纯 LLM + code execution + vision三 OSAGPLv3
UI-TARS-desktop字节官方桌面 agent stack,接 UI-TARS 模型三 OSApache 2.0
Hermes AgentNous Research,持久记忆,2026-02 releaseLinux/macOS/WSL2开源(查具体)
Bytebot"cloud scale" 商业桌面 agent infra云端 Ubuntu开源(查)

这一层是"研究 → 产品"的胶水 — 已有训练好的 GUI 模型,要把它接到真实桌面控制(xdotool / pyautogui / AppleScript / Win UI Automation)。研究中作为agent harness 使用,不参与训练。


7 · CLI / SWE Agent 生态

CLI 这块和 GUI 是不同的世界,但用户的桌面工作大量发生在终端,值得并排看。

7.1 Terminal-Bench(ICLR 2026)

Terminal-Bench 的"task format + harness 解耦"设计很像 PinchBench 的 YAML 风格 — 是CLI 领域的标准化基础设施

7.2 OpenHands(All-Hands-AI,formerly OpenDevin)

这是目前最完整的开源 SWE agent 框架,自托管即可用。

7.3 SWE-Bench 家族

变体规模说明
SWE-Bench(原版)2,294 instancesPrinceton,Python GitHub PR
SWE-Bench Verified500 instancesOpenAI 人工筛过的高质量子集,事实标准
SWE-Bench Live每月 +50滚动添加,抗 contamination
SWE-Bench Pro(Scale AI)1,865 task,41 repo,4 语言Python + Go + TS + JS,长 horizon
SWE-Bench Multimodal带截图的 PR

7.4 R2E-Gym — 当前最大的 SWE RL 训练 env

项目详情
规模8,100+ 可执行训练 env(程序化合成,不依赖人写 PR / unit test)
核心机制SWE-Gen — synthetic data 配方,自动生成执行式 env + 问题陈述
验证Hybrid Verifiers — 执行式 + 非执行式混合
infraKubernetes 集成 — 1000+ CPU 核 scale,Cluster Autoscaler 自动扩缩
性能SWE-Bench Verified 51%,首次开源模型对标 o1 / sonnet-3.5-v2
开源env + 模型 + agent trajectory 全开,HuggingFace + GitHub

R2E-Gym 是 SWE 这一块的"无限数据生成器"— 没它的话,8.1K 真实可执行 SWE env 几乎不可能手凑。是SWE RL 训练的 ClawGUI-Server 等价物

7.5 DeepSWE(Together AI)

用 R2E-Gym 训出来的 SOTA 开源 SWE agent,blog 报数字。

7.6 Spider 2.0 / SpreadsheetBench / OfficeCLI


8 · 按用途的推荐 — 选哪个 repo

"我想做桌面 GUI 评测"

需求选什么
跨 OS,综合能力OSWorld-Verified(+ 配 UFO 或 Agent-S2 跑)
纯 Windows,云上批量跑Windows Agent Arena
专业软件 groundingScreenSpot-Pro
Excel 专精SpreadsheetBench V2
SQL agentSpider 2.0

"我想训练桌面 GUI 模型"

阶段选什么
SFT grounding(必装)OS-Atlas(13M) + Aguvis Stage 1(4.2M)
SFT trajectoryAguvis Stage 2(1.3M)+ CogAgent CCS400K
多模态 + 机器人Magma 训练 mix
RL frameworkUI-TARS-2 训练 recipe(目前唯一公开的桌面 RL 全栈方案)
RL env(实验性)OSWorld VM + 自己写 step 接口

"我想做 CLI / SWE agent"

需求选什么
评测 SWESWE-Bench Verified(默认)+ SWE-Bench Pro(长 horizon)
评测 CLI 通用Terminal-Bench 2.0
训练 SWER2E-Gym(8.1K env + K8s scale)
SWE harness 直接用OpenHands

"我想自己部署一个桌面 agent"

目标选什么
研究 baselineAgent-S2(modular,跨 OS,SOTA)
实际用,接 LLMOpen Interpreter(三 OS,生态最成熟)
接 UI-TARS 模型UI-TARS-desktop(字节官方 harness)
Windows 专精UFO² / UFO³
Linux 自动化OS-Copilot / FRIDAY
参考 Anthropic 风格anthropic-quickstarts/computer-use-demo

9 · 现状缺口 / 没被覆盖的角落

9.1 真正的"桌面 RL 训练 emulator"还在路上

对照 ClawGUI 在 Android 那边做到的 16-24 个并行 KVM 容器 + GiGPO RL trainer 一锅端,桌面这边目前的状态是:

9.2 macOS RL 训练 — 比 Windows 更难

Apple 限制 macOS VM 镜像分发(只能在 Apple 硬件上跑 macOS),所以"批量起 100 个 macOS VM 做 RL"几乎不可行。研究上要么:

9.3 GUI + CLI 融合的训练 — UI-TARS-2 是先驱

UI-TARS-2 论文里点明的 "hybrid GUI environment that integrates file systems and terminals" 是个非常重要的方向:真实桌面工作就是 GUI 和 CLI 来回切换,只训 GUI 或只训 CLI 都是偏的。但这条路上目前只有 UI-TARS-2 一家公开做了。

9.4 评测数据 vs 训练数据 — 比例严重失衡

数据类型开源规模差距
训练 groundingO(10M+) — OS-Atlas, Aguvis充足
训练 trajectoryO(1M) — Aguvis Stage 2够 SFT,不够大规模 RL
评测 taskO(100-1000) — OSWorld 369, WAA 154非常稀缺,且 contamination 风险高

这导致一个有趣现象:模型在已知 benchmark 上数字越来越高,但真实部署到没见过的桌面 task 时还是脆弱。WebAgent-R1 / R2E-Gym 那种"自动合成 env"的思路在桌面侧还没人完整做出来。

9.5 闭源商业方案的对比 baseline

产品定位开放程度
Claude Computer Use(Anthropic)API,可调用API + Docker 参考实现开放,内部训练闭源
OpenAI Operator / CUASaaSAPI,无开源
Gemini 3 Computer UseAPIAPI,无开源
OpenAI Codex CLI本地本地工具,模型闭
Claude Code本地 CLICLI 开源,模型闭

这一栏全部作为 SOTA 上限对比 baseline,但不能自训,所以研究上还是看上面开源那一拨。


📎 附录:核心 repo 索引(按字母)