桌面 GUI / CLI Agent 开源生态全景
🎯 TL;DR — 这片地的现状
- 桌面 GUI 评测:
OSWorld是事实标准(369 task,Ubuntu/Win/macOS,VMware/Docker/AWS),Win 专属用Windows Agent Arena(154 task,Azure 并行),grounding 用ScreenSpot-Pro(1,581 高分辨率) - 桌面 GUI 训练数据:开源最大盘是
OS-Atlas(13M GUI elements)和Aguvis(4.2M grounding + 1.3M trajectory);CogAgent自带 CCS400K + 140M Q&A;Magma-8B用了 2.7M UI + 970K 机器人 + 25M 视频 - 桌面 GUI 训练 RL infra:
UI-TARS-2(字节,RLVR + 沙箱)是目前唯一开源的"跨平台 RL trainer";Cradle(BAAI)做游戏 + 软件的通用计算控制 - CLI / SWE agent:训练用
R2E-Gym(8.1K 程序化生成 SWE env,K8s scale);评测用Terminal-Bench 2.0(89 task,ICLR 2026) +SWE-Bench Verified(500 instances) +SWE-Bench Pro(1,865);harness 用OpenHands(MIT,53%+ on SWE-V) - Anthropic Computer Use 提供了 Docker + Ubuntu reference impl,这是社区"起步模板",但只是参考实现,不是 trainer
- 真正的硬空白:macOS / Windows 的大规模并行训练 emulator(类似 Android 那种 16-24 个 KVM 容器),目前没有 ZJU-REAL/ClawGUI 这种"全栈训练 infra";UI-TARS-2 的沙箱是最接近的
1 · 桌面 GUI 总览表 — 一张图看清楚
| 类别 | 项目 | 开源 | 规模 | 平台 | 用途 |
|---|---|---|---|---|---|
| 仿真器 / 沙箱 | OSWorld | ★★★★★ | 369 task + VM 镜像 | Ubuntu / Win / macOS | 评测 + 训练 env |
| Windows Agent Arena | ★★★★★ | 154 task + Azure 并行 | Windows | 评测 + 训练 env | |
| Cradle | ★★★★★ | 4 游戏 + 5+ 软件 | Win(主) | 通用计算控制 GCC | |
| Anthropic Computer Use Demo | ★★★★★ | 1 个 Docker | Ubuntu(容器内) | 参考实现 / 起步模板 | |
| CUA (trycua/cua) | ★★★★★ | sandbox + SDK + bench | macOS / Linux / Win | "computer-use 版 Stripe" | |
| UFO² / UFO³ Galaxy | ★★★★★ | 多 agent 编排 | Windows | Win OS 原生 agent 框架 | |
| 评测 benchmark | OSWorld-Verified | ★★★★★ | 369 修订版 | 三 OS | 当前桌面金标准 |
| ScreenSpot-Pro | ★★★★★ | 1,581 截图 | 23 app × 3 OS | 高分辨率 grounding | |
| SpreadsheetBench | ★★★★★ | 912 Excel 题 | Office | 电子表格 agent | |
| Spider 2.0 | ★★★★★ | 多模式 SQL | 跨数据库 | text-to-SQL agent | |
| 训练数据集 | OS-Atlas | ★★★★★ | 13M GUI elements | 跨平台 | grounding 最大盘 |
| Aguvis | ★★★★★ | 4.2M + 1.3M traj | Web/Desktop/Mobile | 两阶段训练 | |
| CogAgent CCS400K | ★★★★★ | 400K 截图 + 140M Q&A | Web 为主 | CogAgent 自带 | |
| ShowUI | ★★★★★ | 256K 指令 | 跨平台 | 轻量 2B 模型用 | |
| Magma 训练 mix | ★★★★★ | 2.7M UI + 970K 机器人 + 25M 视频 | UI + 物理 | 多模态 agent 基座 | |
| 训好的开源模型 | UI-TARS-2 (ByteDance) | ★★★★★ | 7B / 72B | 跨平台 + 游戏 + Code | 当前桌面 SOTA |
| Magma-8B (Microsoft) | ★★★★★ | 8B | UI + 机器人 | 统一 vision-action | |
| CogAgent-9B (智谱/THUDM) | ★★★★★ | 9B | 桌面 + Web | 2023 年的开山 | |
| 部署框架 | OS-Copilot / FRIDAY | ★★★★★ | Python 库 | Linux 主 | 自改进 agent |
| Open Interpreter | ★★★★★ | Python 库 | 三 OS | "chat with your computer" | |
| Agent-S / S2 (Simular) | ★★★★★ | Python 框架 | macOS/Win/Linux | 非 RL,模块化 |
2 · 仿真器 / 沙箱 — 跑 task 的环境
2.1 OSWorld(xlang-ai,NeurIPS 2024)
论文:arXiv 2404.07972 · 仓库:xlang-ai/OSWorld · 主页:os-world.github.io
| 项目 | 详情 |
|---|---|
| 开源 license | Apache 2.0 |
| task 数 | 369 真实计算机 task(跨 Web 和桌面应用)+ 额外 43 个 Windows-only(因版权要 Windows 激活) |
| OS 支持 | Ubuntu / Windows / macOS |
| 虚拟化后端 | VMware / VirtualBox / Docker / AWS(2024-10 加的 Docker) |
| 评测方式 | 每个 task 自带 init 配置 + 执行式 evaluation 脚本(functional 检查文件系统/数据库/API 状态),非 LLM judge |
| 数据组成 | OS file I/O · 多 app workflow · Web · Office · Code · 多媒体 |
| SOTA(原版) | 最好模型 12.24% vs human 72.36% |
| SOTA(Verified) | 修订版 ~84% of human ceiling |
能不能用来训练? 理论上可以(VM 提供 step 接口),但 OSWorld 设计目标是 eval,跑一个 task 平均要分钟级(VM 启动 + 真实 app 加载),并发开几十个 VM 对硬件要求很高。实际上大多数论文用 OSWorld 做 eval,训练数据靠别的 dataset。
2.2 Windows Agent Arena(Microsoft,2024)
论文:arXiv 2409.08264 · 仓库:microsoft/WindowsAgentArena
| 项目 | 详情 |
|---|---|
| license | MIT(部分子目录 Microsoft Research License) |
| task 数 | 154 task |
| OS | Windows 11 only |
| 覆盖应用 | 浏览器 · 文档(Word/Excel/PPT)· 视频 · 代码(VS Code)· Notepad / Paint / File Explorer / Clock / Settings |
| scale 特性 | Azure Cloud 集成 — 一次启几百个 agent 并行,几分钟出结果(vs 单机要好几天) |
| SOTA | 最好 agent 19.5% vs human 74.5% |
WAA 是唯一一个原生 Windows 的开源 benchmark。OSWorld 的 Windows 部分 task 比 WAA 少且要用户自己装系统(因 Microsoft 版权),WAA 直接用 Microsoft 的 evaluation image。配合下面的 UFO 用最顺。
2.3 UFO² / UFO³ Galaxy(Microsoft,2025)
论文:arXiv 2402.07939(v1)· arXiv 2504.14603(UFO²)· 仓库:microsoft/UFO
- UFO(2024):第一个"Windows OS 原生"UI agent,WindowsBench 上 86%
- UFO²(2025-04):"Desktop AgentOS",可独立或作为 Galaxy 的 Windows 设备 agent
- UFO³ Galaxy(2025-11):多设备协同,跨异构平台编排
- license: MIT
- 原生支持 OSWorld(Windows) 和 WAA 两个 benchmark
UFO 系列是 Microsoft 内部"对标 Anthropic Computer Use"的开源答卷,专精 Windows,Win API + UI Automation 库都有原生绑定。
2.4 Anthropic Computer Use Reference(2024-10)
仓库:anthropics/anthropic-quickstarts(computer-use-demo/)
这是个参考实现,不是 trainer 也不是 benchmark。包含:
- 一个
Dockerfile(Ubuntu + xdotool + Firefox + VNC + 一个 Web UI) - agent loop(Python)
- tool 实现(computer / bash / editor)
- 一个 Streamlit chat 界面
实际用途:所有社区 Computer Use 复刻品的起步模板。deedy/mac_computer_use 是把它移植到原生 macOS 的 fork。
2.5 Cradle(BAAI,ICML 2025)
论文:arXiv 2403.03186 · 仓库:BAAI-Agents/Cradle · 主页:baai-agents.github.io/Cradle
"General Computer Control"(GCC)— 输入只看截图,输出只发键鼠,不调用任何 API。覆盖:
- 4 个游戏:Red Dead Redemption 2 / Stardew Valley / Cities: Skylines / Dealer's Life 2
- 软件:Chrome / Outlook / CapCut / Meitu / Feishu(已知不完整列表)
- 6 个模块:Information Gathering / Self-Reflection / Task Inference / Skill Curation / Action Planning / Memory
这是把 Anthropic CU 的思想推到极致 — 不依赖任何 OS API,纯视觉 + 键鼠。适合做"通用桌面 agent"的研究 baseline。
2.6 CUA(trycua/cua,2024-2025)
仓库:trycua/cua
"Computer-Use Agent 版的 Stripe"— 提供 sandbox + SDK + benchmark 三件套,跨 macOS / Linux / Windows。是商业基础设施视角的开源(而不是研究视角)。给开发者训练和评测 CU agent 的 turn-key 方案。
3 · 评测 benchmark — 衡量 agent 能力
| Benchmark | 规模 | 平台 | 当前 SOTA | 定位 |
|---|---|---|---|---|
| OSWorld(原版) | 369 task | Ubuntu / Win / macOS | ~30%+(新模型) | 桌面金标准 |
| OSWorld-Verified | 369 修订 | 同上 | ~84% of human | OSWorld 升级版,2025 出 |
| OSWorld-G / OSWorld-Gold | 子集 | 同上 | — | grounding subset / efficiency 评测 |
| OSWorld-W | 49 task | Windows | — | OSWorld 中 Win 可跑的子集(UFO 内置) |
| Windows Agent Arena | 154 task | Windows-only | 19.5% vs human 74.5% | Win 专属,Azure 并行 |
| ScreenSpot | ~1,272 | Web/Desktop/Mobile | ~75% (ShowUI) | 原始 grounding benchmark |
| ScreenSpot-V2 | 修订 | 同上 | — | V1 标注修订版 |
| ScreenSpot-Pro | 1,581 截图 | 23 app × 5 cat × 3 OS | — | 高分辨率 + 专业软件 grounding |
| SpreadsheetBench V2 | 912 题 | Excel | — | 电子表格 agent |
| Spider 2.0 | 多模式 | 跨数据库 SQL | — | text-to-SQL 长上下文 |
| UINavBench | ICCV 2025 | Mobile 为主 | — | 交互 digital agent 综合 |
| GAIA | 466 题 | 通用 | FRIDAY +35% | "General AI Assistant"基准,非纯 GUI |
3.1 ScreenSpot-Pro 细看(高分辨率 grounding 的代表)
因为它在专业软件上最难,值得单独说:
- 1,581 张专家标注截图,23 个 app,5 类
- UI 元素只占整张图 0.07%(主流 benchmark 是 2.01%)— 30 倍小,是真正的"高难度 grounding"
- 覆盖应用类:
- 开发工具:VSCode / PyCharm / Android Studio / VMware
- 创意:Photoshop / Premiere / Illustrator / Blender / DaVinci / FL Studio
- CAD/工程:AutoCAD / SolidWorks / Inventor / Vivado / Quartus
- 科学:MATLAB / Stata / EViews
- Office:Word / Excel / PowerPoint
- OS:Windows / macOS / Linux 都有
4 · 训练数据集 — 给 base 模型学 GUI
这是"开源量级"差距最大的地方。下面按 grounding 数据规模排序:
| 数据集 | 规模 | 类型 | 开源 | 归属 |
|---|---|---|---|---|
| OS-Atlas | 13M GUI elements | 跨平台 grounding 合成 + 真实 | ✅ 数据+模型+工具链 | OS-Atlas 团队 |
| Aguvis Stage 1 | 4.2M 样本 | computer/mobile grounding | ✅ 全开 | xlang-ai,Salesforce AI |
| Aguvis Stage 2 | 1.3M traj | 带 reasoning 标注的 trajectory | ✅ 全开 | 同上 |
| Magma 训练 mix | 2.7M UI 截图 + 970K 机器人 + 25M 视频 | UI + Action + Trace | ✅ Microsoft,MIT 模型 | Microsoft |
| CogAgent CCS400K | 400K 截图 + 140M Q&A | Web 截图问答 | ✅ 智谱/THUDM | CogAgent 自带 |
| CogAgent OCR / 视觉定位 | 80M synth OCR + 18M nat OCR + 9M doc + 40M caption | 底层视觉 | ✅ | CogAgent 预训练用 |
| ShowUI 指令 | 256K | 视觉-动作 SFT | ✅ | ShowUI 团队 |
| ClawGUI-Eval(对比项) | 6 benchmark 集合 | 评测 only,非训练 | ✅ HF: johnzqlu/clawgui-eval | ZJU-REAL |
| UI-TARS 预训练 | ≈ 50B tokens(混合) | 多源混合,部分公开 | ⚠ 配方+模型开源,完整 raw data 不全 | ByteDance |
4.1 OS-Atlas — 当前最大的 grounding 训练盘
OS-Atlas 的卖点是"多平台 grounding data 合成工具链":不是手工标 13M,而是有一套自动管线把真实截图 → DOM/AXTree 解析 → 元素提取 → 自然语言标注串起来,所以可以无限扩。开源了:
- 13M 元素的数据集
- 训练好的 OS-Atlas-Base 模型(7B / 4B)
- 合成工具链本身
4.2 Aguvis — 两阶段标准(grounding → reasoning)
把 GUI agent 训练分成清晰两步,后来很多工作沿用:
- Stage 1 Grounding(4.2M):学"图里的按钮叫什么,坐标在哪"
- Stage 2 Planning + Reasoning(1.3M trajectory):学"给定 task,先想再做"
开源了数据、模型、训练 recipe,是研究界做 GUI 模型时引用最多的训练 corpus。
4.3 Magma — 把 UI 和机器人放在一个模型里
Microsoft 的野心更大:2.7M UI 截图 + 970K 机器人轨迹 + 25M 视频 一起训。两个关键标注:
- Set-of-Mark(SoM):图里可点击元素打标记
- Trace-of-Mark(ToM):视频里物体/机械臂的运动轨迹打标记
训出来的 Magma-8B 在 UI 导航 + 机器人操作上都有 SOTA。MIT license 开放商用。
4.4 CogAgent — 国内开源的开山
智谱/THUDM 在 2023 年底就发了,后续 CogAgent-9B-20241220 大幅升级。预训练数据:
- 底层视觉:80M 合成 OCR + 18M 自然图 OCR + 9M 学术文档 + 40M LAION caption
- CCS400K:400K 网页截图 + 140M Q&A
5 · 训练框架 / RL infra — 在线训 GUI agent
5.1 UI-TARS-2(ByteDance,2025-09)
论文:arXiv 2509.02544 · 仓库:bytedance/UI-TARS + UI-TARS-desktop
这是目前唯一的"开源跨平台 RL GUI trainer",涵盖桌面 + Web + 移动 + 游戏 + Code。技术报告四件套:
- Data flywheel — 模型自己生成 trajectory → 验证 → 进训练池,持续 scale 数据
- Stabilized multi-turn RL — 长 horizon GUI task 的稳定 RLVR(Verifiable Rewards)
- Hybrid GUI environment — 把文件系统 + 终端集成进 GUI 沙箱,这是个"GUI + CLI 融合"的关键 trick
- Unified sandbox platform — 大规模 rollout 用的统一沙箱
开源:权重(7B / 72B 一系列)+ desktop harness + 训练配方。原始训练数据完整 raw 没全开,但 recipe 够复现。
5.2 ClawGUI-RL(ZJU-REAL,2026-04)— 对照
详见 #14 精读。只针对 Android 手机,桌面 RL 在 roadmap 但没做。整体架构(verl + GiGPO + 并行 Android 容器)其实可以无缝迁移到桌面,但需要新的 emulator 后端 — 这就是当前空白。
5.3 Cradle(BAAI)— skill-curation 路线
不是传统 RL,而是 self-improvement + skill library:agent 跑成功就把动作序列存进技能库,失败就 self-reflect。可以做训练数据生成的源头,但不直接做 SFT/RL trainer。
5.4 OSWorld 作为训练 env?
OSWorld 提供 step() 接口,理论可以挂在 verl/AReaL 等 RL framework 后面当 env。实际很少人这么做,原因:
- 每个 VM 实例占 4-8 GB RAM + 一个 vCPU + 真实磁盘,并发开几十个对单机硬件压力大
- task 启动时间分钟级,rollout 效率低
- 369 个 task 数量也不够大规模 RL(对比 R2E-Gym 的 8.1K)
所以 OSWorld 在"训练 env"上事实落空,主要还是用来做 eval。
6 · 部署 / 通用框架 — 现成的 desktop agent
| 框架 | 定位 | OS | license |
|---|---|---|---|
| Agent-S2(Simular) | Mixture-of-Grounding + 分层 planning,SOTA on OSWorld | mac/Win/Linux | Apache 2.0 |
| OS-Copilot / FRIDAY | self-improving agent,GAIA +35%,SheetCopilot-20 60% | Linux 主 | MIT |
| Open Interpreter | "chat with your computer",纯 LLM + code execution + vision | 三 OS | AGPLv3 |
| UI-TARS-desktop | 字节官方桌面 agent stack,接 UI-TARS 模型 | 三 OS | Apache 2.0 |
| Hermes Agent | Nous Research,持久记忆,2026-02 release | Linux/macOS/WSL2 | 开源(查具体) |
| Bytebot | "cloud scale" 商业桌面 agent infra | 云端 Ubuntu | 开源(查) |
这一层是"研究 → 产品"的胶水 — 已有训练好的 GUI 模型,要把它接到真实桌面控制(xdotool / pyautogui / AppleScript / Win UI Automation)。研究中作为agent harness 使用,不参与训练。
7 · CLI / SWE Agent 生态
CLI 这块和 GUI 是不同的世界,但用户的桌面工作大量发生在终端,值得并排看。
7.1 Terminal-Bench(ICLR 2026)
论文:arXiv 2601.11868 · 仓库:harbor-framework/terminal-bench · 主页:tbench.ai
- Stanford + Laude Institute 主导,Anthropic / DeepMind / 多校合作
- Terminal-Bench 2.0:89 个困难 task,真实工作流
- 覆盖:编译代码 / 训模型 / 装服务器 / 调试 / SysAdmin / 数据处理
- 用 Harbor task format + Harbor harness 跑,原生支持 Claude Code / Codex CLI / OpenHands / Mini-SWE-Agent
- SOTA:Claude Sonnet 4.5 0.500
Terminal-Bench 的"task format + harness 解耦"设计很像 PinchBench 的 YAML 风格 — 是CLI 领域的标准化基础设施。
7.2 OpenHands(All-Hands-AI,formerly OpenDevin)
论文:arXiv 2407.16741 · 仓库:OpenHands/OpenHands · 主页:openhands.dev
- license:MIT(企业目录除外)
- SWE-Bench Verified 53%+(+ Claude 4.5)
- 2026-01 发了 OpenHands Index(扩展到 issue resolution + greenfield app dev + frontend + testing)
- 核心 docker image + agent-server 都 MIT
这是目前最完整的开源 SWE agent 框架,自托管即可用。
7.3 SWE-Bench 家族
| 变体 | 规模 | 说明 |
|---|---|---|
| SWE-Bench(原版) | 2,294 instances | Princeton,Python GitHub PR |
| SWE-Bench Verified | 500 instances | OpenAI 人工筛过的高质量子集,事实标准 |
| SWE-Bench Live | 每月 +50 | 滚动添加,抗 contamination |
| SWE-Bench Pro(Scale AI) | 1,865 task,41 repo,4 语言 | Python + Go + TS + JS,长 horizon |
| SWE-Bench Multimodal | — | 带截图的 PR |
7.4 R2E-Gym — 当前最大的 SWE RL 训练 env
论文:arXiv 2504.07164(COLM 2025)· 仓库:R2E-Gym/R2E-Gym
| 项目 | 详情 |
|---|---|
| 规模 | 8,100+ 可执行训练 env(程序化合成,不依赖人写 PR / unit test) |
| 核心机制 | SWE-Gen — synthetic data 配方,自动生成执行式 env + 问题陈述 |
| 验证 | Hybrid Verifiers — 执行式 + 非执行式混合 |
| infra | Kubernetes 集成 — 1000+ CPU 核 scale,Cluster Autoscaler 自动扩缩 |
| 性能 | SWE-Bench Verified 51%,首次开源模型对标 o1 / sonnet-3.5-v2 |
| 开源 | env + 模型 + agent trajectory 全开,HuggingFace + GitHub |
R2E-Gym 是 SWE 这一块的"无限数据生成器"— 没它的话,8.1K 真实可执行 SWE env 几乎不可能手凑。是SWE RL 训练的 ClawGUI-Server 等价物。
7.5 DeepSWE(Together AI)
用 R2E-Gym 训出来的 SOTA 开源 SWE agent,blog 报数字。
7.6 Spider 2.0 / SpreadsheetBench / OfficeCLI
- Spider 2.0:跨数据库 text-to-SQL,Spider2-DBT 包含 68 个端到端 task(主页)
- SpreadsheetBench V2:912 个 Excel 真实问题(主页)
- OfficeCLI:面向 AI agent 的 Word/Excel/PPT 读写 CLI(iOfficeAI/OfficeCLI),不需要装 Office
8 · 按用途的推荐 — 选哪个 repo
"我想做桌面 GUI 评测"
| 需求 | 选什么 |
|---|---|
| 跨 OS,综合能力 | OSWorld-Verified(+ 配 UFO 或 Agent-S2 跑) |
| 纯 Windows,云上批量跑 | Windows Agent Arena |
| 专业软件 grounding | ScreenSpot-Pro |
| Excel 专精 | SpreadsheetBench V2 |
| SQL agent | Spider 2.0 |
"我想训练桌面 GUI 模型"
| 阶段 | 选什么 |
|---|---|
| SFT grounding(必装) | OS-Atlas(13M) + Aguvis Stage 1(4.2M) |
| SFT trajectory | Aguvis Stage 2(1.3M)+ CogAgent CCS400K |
| 多模态 + 机器人 | Magma 训练 mix |
| RL framework | UI-TARS-2 训练 recipe(目前唯一公开的桌面 RL 全栈方案) |
| RL env(实验性) | OSWorld VM + 自己写 step 接口 |
"我想做 CLI / SWE agent"
| 需求 | 选什么 |
|---|---|
| 评测 SWE | SWE-Bench Verified(默认)+ SWE-Bench Pro(长 horizon) |
| 评测 CLI 通用 | Terminal-Bench 2.0 |
| 训练 SWE | R2E-Gym(8.1K env + K8s scale) |
| SWE harness 直接用 | OpenHands |
"我想自己部署一个桌面 agent"
| 目标 | 选什么 |
|---|---|
| 研究 baseline | Agent-S2(modular,跨 OS,SOTA) |
| 实际用,接 LLM | Open Interpreter(三 OS,生态最成熟) |
| 接 UI-TARS 模型 | UI-TARS-desktop(字节官方 harness) |
| Windows 专精 | UFO² / UFO³ |
| Linux 自动化 | OS-Copilot / FRIDAY |
| 参考 Anthropic 风格 | anthropic-quickstarts/computer-use-demo |
9 · 现状缺口 / 没被覆盖的角落
9.1 真正的"桌面 RL 训练 emulator"还在路上
对照 ClawGUI 在 Android 那边做到的 16-24 个并行 KVM 容器 + GiGPO RL trainer 一锅端,桌面这边目前的状态是:
- OSWorld 提供 VM,但 task 数少(369)、启动慢、不为 RL 设计
- WAA Azure 并行,但 Windows-only,task 也少(154)
- UI-TARS-2 自己的"unified sandbox"是闭源细节多,论文里有但不能直接 fork 来用
- 没有公开的"百容器并行 + 真实 Win/macOS app + RL trainer"完整开源栈
9.2 macOS RL 训练 — 比 Windows 更难
Apple 限制 macOS VM 镜像分发(只能在 Apple 硬件上跑 macOS),所以"批量起 100 个 macOS VM 做 RL"几乎不可行。研究上要么:
- 用 OSWorld 的 macOS 部分做小规模 eval(单机 VMware)
- 用 ScreenSpot-Pro 的 macOS 子集做 grounding eval
- 训练直接跳过 macOS,靠"跨平台泛化"
9.3 GUI + CLI 融合的训练 — UI-TARS-2 是先驱
UI-TARS-2 论文里点明的 "hybrid GUI environment that integrates file systems and terminals" 是个非常重要的方向:真实桌面工作就是 GUI 和 CLI 来回切换,只训 GUI 或只训 CLI 都是偏的。但这条路上目前只有 UI-TARS-2 一家公开做了。
9.4 评测数据 vs 训练数据 — 比例严重失衡
| 数据类型 | 开源规模 | 差距 |
|---|---|---|
| 训练 grounding | O(10M+) — OS-Atlas, Aguvis | 充足 |
| 训练 trajectory | O(1M) — Aguvis Stage 2 | 够 SFT,不够大规模 RL |
| 评测 task | O(100-1000) — OSWorld 369, WAA 154 | 非常稀缺,且 contamination 风险高 |
这导致一个有趣现象:模型在已知 benchmark 上数字越来越高,但真实部署到没见过的桌面 task 时还是脆弱。WebAgent-R1 / R2E-Gym 那种"自动合成 env"的思路在桌面侧还没人完整做出来。
9.5 闭源商业方案的对比 baseline
| 产品 | 定位 | 开放程度 |
|---|---|---|
| Claude Computer Use(Anthropic) | API,可调用 | API + Docker 参考实现开放,内部训练闭源 |
| OpenAI Operator / CUA | SaaS | API,无开源 |
| Gemini 3 Computer Use | API | API,无开源 |
| OpenAI Codex CLI | 本地 | 本地工具,模型闭 |
| Claude Code | 本地 CLI | CLI 开源,模型闭 |
这一栏全部作为 SOTA 上限对比 baseline,但不能自训,所以研究上还是看上面开源那一拨。
📎 附录:核心 repo 索引(按字母)
- anthropic-quickstarts/computer-use-demo — Anthropic CU 参考 Docker
- BAAI-Agents/Cradle — GCC 框架,游戏+软件
- bytedance/UI-TARS / UI-TARS-desktop — 字节跨平台 RL trainer + harness
- harbor-framework/terminal-bench — CLI 评测
- microsoft/Magma — 多模态 agent foundation
- microsoft/UFO — Windows OS agent
- microsoft/WindowsAgentArena — Win 评测平台
- OpenHands/OpenHands — SWE agent 框架
- OS-Copilot/OS-Copilot — FRIDAY self-improve agent
- R2E-Gym/R2E-Gym — 8.1K SWE 训练 env
- simular-ai/Agent-S — 跨 OS 模块化 agent
- trycua/cua — CU agent 商业 infra
- xlang-ai/aguvis — 两阶段 GUI 训练数据
- xlang-ai/OSWorld — 桌面 benchmark 金标准
- zai-org/CogAgent — 国内开山 GUI VLM
- niuzaisheng/ScreenAgent — 早期 VLM agent
- ScreenSpot-Pro — 高分辨率 grounding
- SpreadsheetBench — Excel 评测
- Spider 2.0 — text-to-SQL
- iOfficeAI/OfficeCLI — Office 文件 CLI