桌面 GUI / CLI Agent 开源生态全景

调研 · 2026-05 · Windows / macOS / Linux 桌面 GUI + CLI agent 的模拟器、评测框架、训练数据、infra 全梳理

🎯 TL;DR — 这片地的现状

桌面 GUI 评测:OSWorld 是事实标准(369 task,Ubuntu/Win/macOS,VMware/Docker/AWS),Win 专属用 Windows Agent Arena(154 task,Azure 并行),grounding 用 ScreenSpot-Pro(1,581 高分辨率)
桌面 GUI 训练数据:开源最大盘是 OS-Atlas(13M GUI elements)和 Aguvis(4.2M grounding + 1.3M trajectory);CogAgent 自带 CCS400K + 140M Q&A;Magma-8B 用了 2.7M UI + 970K 机器人 + 25M 视频
桌面 GUI 训练 RL infra:UI-TARS-2(字节,RLVR + 沙箱)是目前唯一开源的"跨平台 RL trainer";Cradle(BAAI)做游戏 + 软件的通用计算控制
CLI / SWE agent:训练用 R2E-Gym(8.1K 程序化生成 SWE env,K8s scale);评测用 Terminal-Bench 2.0(89 task,ICLR 2026) + SWE-Bench Verified(500 instances) + SWE-Bench Pro(1,865);harness 用 OpenHands(MIT,53%+ on SWE-V)
Anthropic Computer Use 提供了 Docker + Ubuntu reference impl,这是社区"起步模板",但只是参考实现,不是 trainer
真正的硬空白:macOS / Windows 的大规模并行训练 emulator(类似 Android 那种 16-24 个 KVM 容器),目前没有 ZJU-REAL/ClawGUI 这种"全栈训练 infra";UI-TARS-2 的沙箱是最接近的

≈ 14

主流开源 repo

369

OSWorld eval tasks

13M

OS-Atlas grounding elements

8.1K

R2E-Gym SWE envs

桌面 GUI 总览表
仿真器 / 沙箱 — 跑 task 的环境
评测 benchmark — 衡量 agent 能力
训练数据集 — 给 base 模型学 GUI
训练框架 / RL infra — 在线训 GUI agent
部署 / 通用框架 — 现成的 desktop agent
CLI / SWE Agent 生态
按用途的推荐 — 选哪个 repo
现状缺口 / 没被覆盖的角落

1 · 桌面 GUI 总览表 — 一张图看清楚

类别	项目	开源	规模	平台	用途
仿真器 / 沙箱	OSWorld	★★★★★	369 task + VM 镜像	Ubuntu / Win / macOS	评测 + 训练 env
	Windows Agent Arena	★★★★★	154 task + Azure 并行	Windows	评测 + 训练 env
	Cradle	★★★★★	4 游戏 + 5+ 软件	Win(主)	通用计算控制 GCC
	Anthropic Computer Use Demo	★★★★★	1 个 Docker	Ubuntu(容器内)	参考实现 / 起步模板
	CUA (trycua/cua)	★★★★★	sandbox + SDK + bench	macOS / Linux / Win	"computer-use 版 Stripe"
	UFO² / UFO³ Galaxy	★★★★★	多 agent 编排	Windows	Win OS 原生 agent 框架
评测 benchmark	OSWorld-Verified	★★★★★	369 修订版	三 OS	当前桌面金标准
	ScreenSpot-Pro	★★★★★	1,581 截图	23 app × 3 OS	高分辨率 grounding
	SpreadsheetBench	★★★★★	912 Excel 题	Office	电子表格 agent
	Spider 2.0	★★★★★	多模式 SQL	跨数据库	text-to-SQL agent
训练数据集	OS-Atlas	★★★★★	13M GUI elements	跨平台	grounding 最大盘
	Aguvis	★★★★★	4.2M + 1.3M traj	Web/Desktop/Mobile	两阶段训练
	CogAgent CCS400K	★★★★★	400K 截图 + 140M Q&A	Web 为主	CogAgent 自带
	ShowUI	★★★★★	256K 指令	跨平台	轻量 2B 模型用
	Magma 训练 mix	★★★★★	2.7M UI + 970K 机器人 + 25M 视频	UI + 物理	多模态 agent 基座
训好的开源模型	UI-TARS-2 (ByteDance)	★★★★★	7B / 72B	跨平台 + 游戏 + Code	当前桌面 SOTA
	Magma-8B (Microsoft)	★★★★★	8B	UI + 机器人	统一 vision-action
	CogAgent-9B (智谱/THUDM)	★★★★★	9B	桌面 + Web	2023 年的开山
部署框架	OS-Copilot / FRIDAY	★★★★★	Python 库	Linux 主	自改进 agent
	Open Interpreter	★★★★★	Python 库	三 OS	"chat with your computer"
	Agent-S / S2 (Simular)	★★★★★	Python 框架	macOS/Win/Linux	非 RL,模块化

注:★★★★★ = 完全开源(代码 + 数据 + 模型权重 / 或 license 允许商用);★★★☆☆ = 部分开源(只有代码或只有 weights)。表里全是 ★★★★★ 的并不代表"零门槛跑起来",而是 license 上允许 — 真正的硬门槛是硬件(VM/Docker 资源 + GPU)。

2 · 仿真器 / 沙箱 — 跑 task 的环境

2.1 OSWorld(xlang-ai,NeurIPS 2024)

论文:arXiv 2404.07972 · 仓库:xlang-ai/OSWorld · 主页:os-world.github.io

项目	详情
开源 license	Apache 2.0
task 数	369 真实计算机 task(跨 Web 和桌面应用)+ 额外 43 个 Windows-only(因版权要 Windows 激活)
OS 支持	Ubuntu / Windows / macOS
虚拟化后端	VMware / VirtualBox / Docker / AWS(2024-10 加的 Docker)
评测方式	每个 task 自带 init 配置 + 执行式 evaluation 脚本(`functional` 检查文件系统/数据库/API 状态),非 LLM judge
数据组成	OS file I/O · 多 app workflow · Web · Office · Code · 多媒体
SOTA(原版)	最好模型 12.24% vs human 72.36%
SOTA(Verified)	修订版 ~84% of human ceiling

能不能用来训练? 理论上可以(VM 提供 step 接口),但 OSWorld 设计目标是 eval,跑一个 task 平均要分钟级(VM 启动 + 真实 app 加载),并发开几十个 VM 对硬件要求很高。实际上大多数论文用 OSWorld 做 eval,训练数据靠别的 dataset。

2.2 Windows Agent Arena(Microsoft,2024)

论文:arXiv 2409.08264 · 仓库:microsoft/WindowsAgentArena

项目	详情
license	MIT(部分子目录 Microsoft Research License)
task 数	154 task
OS	Windows 11 only
覆盖应用	浏览器 · 文档(Word/Excel/PPT)· 视频 · 代码(VS Code)· Notepad / Paint / File Explorer / Clock / Settings
scale 特性	Azure Cloud 集成 — 一次启几百个 agent 并行,几分钟出结果(vs 单机要好几天)
SOTA	最好 agent 19.5% vs human 74.5%

WAA 是唯一一个原生 Windows 的开源 benchmark。OSWorld 的 Windows 部分 task 比 WAA 少且要用户自己装系统(因 Microsoft 版权),WAA 直接用 Microsoft 的 evaluation image。配合下面的 UFO 用最顺。

2.3 UFO² / UFO³ Galaxy(Microsoft,2025)

论文:arXiv 2402.07939(v1)· arXiv 2504.14603(UFO²)· 仓库:microsoft/UFO

UFO(2024):第一个"Windows OS 原生"UI agent,WindowsBench 上 86%
UFO²(2025-04):"Desktop AgentOS",可独立或作为 Galaxy 的 Windows 设备 agent
UFO³ Galaxy(2025-11):多设备协同,跨异构平台编排
license: MIT
原生支持 OSWorld(Windows) 和 WAA 两个 benchmark

UFO 系列是 Microsoft 内部"对标 Anthropic Computer Use"的开源答卷,专精 Windows,Win API + UI Automation 库都有原生绑定。

2.4 Anthropic Computer Use Reference(2024-10)

仓库:anthropics/anthropic-quickstarts(computer-use-demo/)

这是个参考实现,不是 trainer 也不是 benchmark。包含:

一个 Dockerfile(Ubuntu + xdotool + Firefox + VNC + 一个 Web UI)
agent loop(Python)
tool 实现(computer / bash / editor)
一个 Streamlit chat 界面

实际用途:所有社区 Computer Use 复刻品的起步模板。deedy/mac_computer_use 是把它移植到原生 macOS 的 fork。

2.5 Cradle(BAAI,ICML 2025)

论文:arXiv 2403.03186 · 仓库:BAAI-Agents/Cradle · 主页:baai-agents.github.io/Cradle

"General Computer Control"(GCC)— 输入只看截图,输出只发键鼠,不调用任何 API。覆盖:

4 个游戏:Red Dead Redemption 2 / Stardew Valley / Cities: Skylines / Dealer's Life 2
软件:Chrome / Outlook / CapCut / Meitu / Feishu(已知不完整列表)
6 个模块:Information Gathering / Self-Reflection / Task Inference / Skill Curation / Action Planning / Memory

这是把 Anthropic CU 的思想推到极致 — 不依赖任何 OS API,纯视觉 + 键鼠。适合做"通用桌面 agent"的研究 baseline。

2.6 CUA(trycua/cua,2024-2025)

仓库:trycua/cua

"Computer-Use Agent 版的 Stripe"— 提供 sandbox + SDK + benchmark 三件套,跨 macOS / Linux / Windows。是商业基础设施视角的开源(而不是研究视角)。给开发者训练和评测 CU agent 的 turn-key 方案。

3 · 评测 benchmark — 衡量 agent 能力

Benchmark	规模	平台	当前 SOTA	定位
OSWorld(原版)	369 task	Ubuntu / Win / macOS	~30%+(新模型)	桌面金标准
OSWorld-Verified	369 修订	同上	~84% of human	OSWorld 升级版,2025 出
OSWorld-G / OSWorld-Gold	子集	同上	—	grounding subset / efficiency 评测
OSWorld-W	49 task	Windows	—	OSWorld 中 Win 可跑的子集(UFO 内置)
Windows Agent Arena	154 task	Windows-only	19.5% vs human 74.5%	Win 专属,Azure 并行
ScreenSpot	~1,272	Web/Desktop/Mobile	~75% (ShowUI)	原始 grounding benchmark
ScreenSpot-V2	修订	同上	—	V1 标注修订版
ScreenSpot-Pro	1,581 截图	23 app × 5 cat × 3 OS	—	高分辨率 + 专业软件 grounding
SpreadsheetBench V2	912 题	Excel	—	电子表格 agent
Spider 2.0	多模式	跨数据库 SQL	—	text-to-SQL 长上下文
UINavBench	ICCV 2025	Mobile 为主	—	交互 digital agent 综合
GAIA	466 题	通用	FRIDAY +35%	"General AI Assistant"基准,非纯 GUI

3.1 ScreenSpot-Pro 细看(高分辨率 grounding 的代表)

因为它在专业软件上最难,值得单独说:

1,581 张专家标注截图,23 个 app,5 类
UI 元素只占整张图 0.07%(主流 benchmark 是 2.01%)— 30 倍小,是真正的"高难度 grounding"
覆盖应用类:
- 开发工具:VSCode / PyCharm / Android Studio / VMware
- 创意:Photoshop / Premiere / Illustrator / Blender / DaVinci / FL Studio
- CAD/工程:AutoCAD / SolidWorks / Inventor / Vivado / Quartus
- 科学:MATLAB / Stata / EViews
- Office:Word / Excel / PowerPoint
OS:Windows / macOS / Linux 都有

4 · 训练数据集 — 给 base 模型学 GUI

这是"开源量级"差距最大的地方。下面按 grounding 数据规模排序:

数据集	规模	类型	开源	归属
OS-Atlas	13M GUI elements	跨平台 grounding 合成 + 真实	✅ 数据+模型+工具链	OS-Atlas 团队
Aguvis Stage 1	4.2M 样本	computer/mobile grounding	✅ 全开	xlang-ai,Salesforce AI
Aguvis Stage 2	1.3M traj	带 reasoning 标注的 trajectory	✅ 全开	同上
Magma 训练 mix	2.7M UI 截图 + 970K 机器人 + 25M 视频	UI + Action + Trace	✅ Microsoft,MIT 模型	Microsoft
CogAgent CCS400K	400K 截图 + 140M Q&A	Web 截图问答	✅ 智谱/THUDM	CogAgent 自带
CogAgent OCR / 视觉定位	80M synth OCR + 18M nat OCR + 9M doc + 40M caption	底层视觉	✅	CogAgent 预训练用
ShowUI 指令	256K	视觉-动作 SFT	✅	ShowUI 团队
ClawGUI-Eval(对比项)	6 benchmark 集合	评测 only,非训练	✅ HF: johnzqlu/clawgui-eval	ZJU-REAL
UI-TARS 预训练	≈ 50B tokens(混合)	多源混合,部分公开	⚠ 配方+模型开源,完整 raw data 不全	ByteDance

4.1 OS-Atlas — 当前最大的 grounding 训练盘

OS-Atlas 的卖点是"多平台 grounding data 合成工具链":不是手工标 13M,而是有一套自动管线把真实截图 → DOM/AXTree 解析 → 元素提取 → 自然语言标注串起来,所以可以无限扩。开源了:

13M 元素的数据集
训练好的 OS-Atlas-Base 模型(7B / 4B)
合成工具链本身

4.2 Aguvis — 两阶段标准(grounding → reasoning)

把 GUI agent 训练分成清晰两步,后来很多工作沿用:

Stage 1 Grounding(4.2M):学"图里的按钮叫什么,坐标在哪"
Stage 2 Planning + Reasoning(1.3M trajectory):学"给定 task,先想再做"

开源了数据、模型、训练 recipe,是研究界做 GUI 模型时引用最多的训练 corpus。

4.3 Magma — 把 UI 和机器人放在一个模型里

Microsoft 的野心更大:2.7M UI 截图 + 970K 机器人轨迹 + 25M 视频 一起训。两个关键标注:

Set-of-Mark(SoM):图里可点击元素打标记
Trace-of-Mark(ToM):视频里物体/机械臂的运动轨迹打标记

训出来的 Magma-8B 在 UI 导航 + 机器人操作上都有 SOTA。MIT license 开放商用。

4.4 CogAgent — 国内开源的开山

智谱/THUDM 在 2023 年底就发了,后续 CogAgent-9B-20241220 大幅升级。预训练数据:

底层视觉:80M 合成 OCR + 18M 自然图 OCR + 9M 学术文档 + 40M LAION caption
CCS400K:400K 网页截图 + 140M Q&A

5 · 训练框架 / RL infra — 在线训 GUI agent

5.1 UI-TARS-2(ByteDance,2025-09)

论文:arXiv 2509.02544 · 仓库:bytedance/UI-TARS + UI-TARS-desktop

这是目前唯一的"开源跨平台 RL GUI trainer",涵盖桌面 + Web + 移动 + 游戏 + Code。技术报告四件套:

Data flywheel — 模型自己生成 trajectory → 验证 → 进训练池,持续 scale 数据
Stabilized multi-turn RL — 长 horizon GUI task 的稳定 RLVR(Verifiable Rewards)
Hybrid GUI environment — 把文件系统 + 终端集成进 GUI 沙箱,这是个"GUI + CLI 融合"的关键 trick
Unified sandbox platform — 大规模 rollout 用的统一沙箱

开源:权重(7B / 72B 一系列)+ desktop harness + 训练配方。原始训练数据完整 raw 没全开,但 recipe 够复现。

5.2 ClawGUI-RL(ZJU-REAL,2026-04)— 对照

详见 #14 精读。只针对 Android 手机,桌面 RL 在 roadmap 但没做。整体架构(verl + GiGPO + 并行 Android 容器)其实可以无缝迁移到桌面,但需要新的 emulator 后端 — 这就是当前空白。

5.3 Cradle(BAAI)— skill-curation 路线

不是传统 RL,而是 self-improvement + skill library:agent 跑成功就把动作序列存进技能库,失败就 self-reflect。可以做训练数据生成的源头,但不直接做 SFT/RL trainer。

5.4 OSWorld 作为训练 env?

OSWorld 提供 step() 接口,理论可以挂在 verl/AReaL 等 RL framework 后面当 env。实际很少人这么做,原因:

每个 VM 实例占 4-8 GB RAM + 一个 vCPU + 真实磁盘,并发开几十个对单机硬件压力大
task 启动时间分钟级,rollout 效率低
369 个 task 数量也不够大规模 RL(对比 R2E-Gym 的 8.1K)

所以 OSWorld 在"训练 env"上事实落空,主要还是用来做 eval。

6 · 部署 / 通用框架 — 现成的 desktop agent

框架	定位	OS	license
Agent-S2(Simular)	Mixture-of-Grounding + 分层 planning,SOTA on OSWorld	mac/Win/Linux	Apache 2.0
OS-Copilot / FRIDAY	self-improving agent,GAIA +35%,SheetCopilot-20 60%	Linux 主	MIT
Open Interpreter	"chat with your computer",纯 LLM + code execution + vision	三 OS	AGPLv3
UI-TARS-desktop	字节官方桌面 agent stack,接 UI-TARS 模型	三 OS	Apache 2.0
Hermes Agent	Nous Research,持久记忆,2026-02 release	Linux/macOS/WSL2	开源(查具体)
Bytebot	"cloud scale" 商业桌面 agent infra	云端 Ubuntu	开源(查)

这一层是"研究 → 产品"的胶水 — 已有训练好的 GUI 模型,要把它接到真实桌面控制(xdotool / pyautogui / AppleScript / Win UI Automation)。研究中作为agent harness 使用,不参与训练。

7 · CLI / SWE Agent 生态

CLI 这块和 GUI 是不同的世界,但用户的桌面工作大量发生在终端,值得并排看。

7.1 Terminal-Bench(ICLR 2026)

论文:arXiv 2601.11868 · 仓库:harbor-framework/terminal-bench · 主页:tbench.ai

Stanford + Laude Institute 主导,Anthropic / DeepMind / 多校合作
Terminal-Bench 2.0:89 个困难 task,真实工作流
覆盖:编译代码 / 训模型 / 装服务器 / 调试 / SysAdmin / 数据处理
用 Harbor task format + Harbor harness 跑,原生支持 Claude Code / Codex CLI / OpenHands / Mini-SWE-Agent
SOTA:Claude Sonnet 4.5 0.500

Terminal-Bench 的"task format + harness 解耦"设计很像 PinchBench 的 YAML 风格 — 是CLI 领域的标准化基础设施。

7.2 OpenHands(All-Hands-AI,formerly OpenDevin)

论文:arXiv 2407.16741 · 仓库:OpenHands/OpenHands · 主页:openhands.dev

license:MIT(企业目录除外)
SWE-Bench Verified 53%+(+ Claude 4.5)
2026-01 发了 OpenHands Index(扩展到 issue resolution + greenfield app dev + frontend + testing)
核心 docker image + agent-server 都 MIT

这是目前最完整的开源 SWE agent 框架,自托管即可用。

7.3 SWE-Bench 家族

变体	规模	说明
SWE-Bench(原版)	2,294 instances	Princeton,Python GitHub PR
SWE-Bench Verified	500 instances	OpenAI 人工筛过的高质量子集,事实标准
SWE-Bench Live	每月 +50	滚动添加,抗 contamination
SWE-Bench Pro(Scale AI)	1,865 task,41 repo,4 语言	Python + Go + TS + JS,长 horizon
SWE-Bench Multimodal	—	带截图的 PR

7.4 R2E-Gym — 当前最大的 SWE RL 训练 env

论文:arXiv 2504.07164(COLM 2025)· 仓库:R2E-Gym/R2E-Gym

项目	详情
规模	8,100+ 可执行训练 env(程序化合成,不依赖人写 PR / unit test)
核心机制	SWE-Gen — synthetic data 配方,自动生成执行式 env + 问题陈述
验证	Hybrid Verifiers — 执行式 + 非执行式混合
infra	Kubernetes 集成 — 1000+ CPU 核 scale,Cluster Autoscaler 自动扩缩
性能	SWE-Bench Verified 51%,首次开源模型对标 o1 / sonnet-3.5-v2
开源	env + 模型 + agent trajectory 全开,HuggingFace + GitHub

R2E-Gym 是 SWE 这一块的"无限数据生成器"— 没它的话,8.1K 真实可执行 SWE env 几乎不可能手凑。是SWE RL 训练的 ClawGUI-Server 等价物。

7.5 DeepSWE(Together AI)

用 R2E-Gym 训出来的 SOTA 开源 SWE agent,blog 报数字。

7.6 Spider 2.0 / SpreadsheetBench / OfficeCLI

Spider 2.0:跨数据库 text-to-SQL,Spider2-DBT 包含 68 个端到端 task(主页)
SpreadsheetBench V2:912 个 Excel 真实问题(主页)
OfficeCLI:面向 AI agent 的 Word/Excel/PPT 读写 CLI(iOfficeAI/OfficeCLI),不需要装 Office

8 · 按用途的推荐 — 选哪个 repo

"我想做桌面 GUI 评测"

需求	选什么
跨 OS,综合能力	OSWorld-Verified(+ 配 UFO 或 Agent-S2 跑)
纯 Windows,云上批量跑	Windows Agent Arena
专业软件 grounding	ScreenSpot-Pro
Excel 专精	SpreadsheetBench V2
SQL agent	Spider 2.0

"我想训练桌面 GUI 模型"

阶段	选什么
SFT grounding(必装)	OS-Atlas(13M) + Aguvis Stage 1(4.2M)
SFT trajectory	Aguvis Stage 2(1.3M)+ CogAgent CCS400K
多模态 + 机器人	Magma 训练 mix
RL framework	UI-TARS-2 训练 recipe(目前唯一公开的桌面 RL 全栈方案)
RL env(实验性)	OSWorld VM + 自己写 step 接口

"我想做 CLI / SWE agent"

需求	选什么
评测 SWE	SWE-Bench Verified(默认)+ SWE-Bench Pro(长 horizon)
评测 CLI 通用	Terminal-Bench 2.0
训练 SWE	R2E-Gym(8.1K env + K8s scale)
SWE harness 直接用	OpenHands

"我想自己部署一个桌面 agent"

目标	选什么
研究 baseline	Agent-S2(modular,跨 OS,SOTA)
实际用,接 LLM	Open Interpreter(三 OS,生态最成熟)
接 UI-TARS 模型	UI-TARS-desktop(字节官方 harness)
Windows 专精	UFO² / UFO³
Linux 自动化	OS-Copilot / FRIDAY
参考 Anthropic 风格	anthropic-quickstarts/computer-use-demo

9 · 现状缺口 / 没被覆盖的角落

9.1 真正的"桌面 RL 训练 emulator"还在路上

对照 ClawGUI 在 Android 那边做到的 16-24 个并行 KVM 容器 + GiGPO RL trainer 一锅端,桌面这边目前的状态是:

OSWorld 提供 VM,但 task 数少(369)、启动慢、不为 RL 设计
WAA Azure 并行,但 Windows-only,task 也少(154)
UI-TARS-2 自己的"unified sandbox"是闭源细节多,论文里有但不能直接 fork 来用
没有公开的"百容器并行 + 真实 Win/macOS app + RL trainer"完整开源栈

9.2 macOS RL 训练 — 比 Windows 更难

Apple 限制 macOS VM 镜像分发(只能在 Apple 硬件上跑 macOS),所以"批量起 100 个 macOS VM 做 RL"几乎不可行。研究上要么:

用 OSWorld 的 macOS 部分做小规模 eval(单机 VMware)
用 ScreenSpot-Pro 的 macOS 子集做 grounding eval
训练直接跳过 macOS,靠"跨平台泛化"

9.3 GUI + CLI 融合的训练 — UI-TARS-2 是先驱

UI-TARS-2 论文里点明的 "hybrid GUI environment that integrates file systems and terminals" 是个非常重要的方向:真实桌面工作就是 GUI 和 CLI 来回切换,只训 GUI 或只训 CLI 都是偏的。但这条路上目前只有 UI-TARS-2 一家公开做了。

9.4 评测数据 vs 训练数据 — 比例严重失衡

数据类型	开源规模	差距
训练 grounding	O(10M+) — OS-Atlas, Aguvis	充足
训练 trajectory	O(1M) — Aguvis Stage 2	够 SFT,不够大规模 RL
评测 task	O(100-1000) — OSWorld 369, WAA 154	非常稀缺,且 contamination 风险高

这导致一个有趣现象:模型在已知 benchmark 上数字越来越高,但真实部署到没见过的桌面 task 时还是脆弱。WebAgent-R1 / R2E-Gym 那种"自动合成 env"的思路在桌面侧还没人完整做出来。

9.5 闭源商业方案的对比 baseline

产品	定位	开放程度
Claude Computer Use(Anthropic)	API,可调用	API + Docker 参考实现开放,内部训练闭源
OpenAI Operator / CUA	SaaS	API,无开源
Gemini 3 Computer Use	API	API,无开源
OpenAI Codex CLI	本地	本地工具,模型闭
Claude Code	本地 CLI	CLI 开源,模型闭

这一栏全部作为 SOTA 上限对比 baseline,但不能自训,所以研究上还是看上面开源那一拨。

📎 附录:核心 repo 索引(按字母)

anthropic-quickstarts/computer-use-demo — Anthropic CU 参考 Docker
BAAI-Agents/Cradle — GCC 框架,游戏+软件
bytedance/UI-TARS / UI-TARS-desktop — 字节跨平台 RL trainer + harness
harbor-framework/terminal-bench — CLI 评测
microsoft/Magma — 多模态 agent foundation
microsoft/UFO — Windows OS agent
microsoft/WindowsAgentArena — Win 评测平台
OpenHands/OpenHands — SWE agent 框架
OS-Copilot/OS-Copilot — FRIDAY self-improve agent
R2E-Gym/R2E-Gym — 8.1K SWE 训练 env
simular-ai/Agent-S — 跨 OS 模块化 agent
trycua/cua — CU agent 商业 infra
xlang-ai/aguvis — 两阶段 GUI 训练数据
xlang-ai/OSWorld — 桌面 benchmark 金标准
zai-org/CogAgent — 国内开山 GUI VLM
niuzaisheng/ScreenAgent — 早期 VLM agent
ScreenSpot-Pro — 高分辨率 grounding
SpreadsheetBench — Excel 评测
Spider 2.0 — text-to-SQL
iOfficeAI/OfficeCLI — Office 文件 CLI