调研 · 4 个 MCP Benchmark 横向对比

MCP-Universe / MCP-Atlas / Toolathlon / MCPMark

Survey · 数据快照 2026-05-15 · GitHub star / leaderboard 实时查取自官网与 GitHub API · 引用 frontier 模型官方 system card
关联笔记: #19 MCP-Atlas 精读 · #15 PinchBench (风格参考) · #16 桌面 Agent 景观
关键词: MCP benchmark · tool-use eval · leaderboard · 开源度 · RL gym · frontier 模型采用 · 提交流程

速读卡片 (TL;DR)

一句话: 2025 下半年到 2026 上半年涌现的"MCP benchmark"实际只有 4 个值得正经讨论 —— MCP-Universe(Salesforce, 231 task, 6 domain, 学术口碑 + GitHub 最多 star), MCP-Atlas(Scale AI, 1000 task, 36 server, 唯一被 frontier 三家全部采用的), Toolathlon(HKUST-NLP, 108 task / 32 app / 604 tool, 配套有独立 Toolathlon-Gym 503-task RL 训练环境), MCPMark(eval-sys, 127 task / 5 service, DeepSeek V3.2 技术报告引用, pass@k 完善)。它们的方法学差异不大,真正分化在三件事: (a) 是否被 frontier 模型 model card 采用; (b) 是否带 RL gym; (c) 自托管成本。MCP-Atlas 赢 (a), Toolathlon 唯一赢 (b), MCPMark 赢 (c)。MCP-Universe 是综合 baseline 但 frontier 没采。

585 / 417 / 356 / 81
GitHub star (Universe / MCPMark / Toolathlon / Atlas, 2026-05-15)
Atlas 唯一
出现在 Claude Opus 4.7 + GPT-5.5 + Gemini 3.1 Pro 三家 model card
Toolathlon-Gym
503 task · local PostgreSQL · 唯一带 RL 训练环境的 MCP bench (eigent-ai 维护)
<40B 开源
几乎所有 bench 的 <40B 区域都是空的;主战场仍在 100B+ MoE

核心 take: 如果你要"被 frontier 看见"—— 上 MCP-Atlas;如果你要 train 一个 tool-use agent —— 用 Toolathlon-Gym(并报 Toolathlon 主测分);如果你想 5 分钟跑起来 验证 prompt 工程 —— 用 MCPMark;如果你做 学术 paper baseline,Universe 的 6-domain 覆盖度最像传统 benchmark。这 4 个不互斥,**最佳实践是 Atlas + Toolathlon 双报告**(分别覆盖"frontier 引用"与"开源 RL 训练"两条主线)。


§1 这 4 个是什么 — 一张速览表

Bench团队arXiv / 日期规模一句话定位
MCP-Universe Salesforce AI Research 2508.14704 · 2025-08 231 task / 11 server / 6 domain 学术风格的多 domain 综合 benchmark, 带 dashboard + 工作流框架, GitHub star 最多
MCP-Atlas Scale AI + NUS 2602.00933 · 2026-01 1,000 task (500 公开 + 500 hold-out) / 36 server / 220 tool 规模最大 + claims-based judge + Live leaderboard, frontier 三家官方采用
Toolathlon HKUST-NLP 2510.25726 · 2025-10 108 task / 32 app / 604 tool / ~20 turn 平均 长程多 app 编排, 配套 Toolathlon-Gym 503-task 本地 PostgreSQL 训练环境
MCPMark eval-sys (Wu, Liu 等 16 人) 2509.24002 · 2025-09 127 task (+ 50 easy) / 5 service (Notion / GitHub / Filesystem / Postgres / Playwright) "5 分钟启动"路线 · pass@k / pass^k 稳定性指标完善 · DeepSeek-V3.2 技术报告引用
命名小坑: "MCP-Universe" 是 Salesforce 的项目代号也是一整套 framework(含 dashboard + agent SDK + benchmark);"MCP-Universe benchmark"专指其中 231-task 那一部分。新版 MCP-Universe repo 也支持运行 MCPMark task(原话: "MCP-Universe now supports evaluating the MCPMark tasks"), 二者已有互操作。

§2 开源贡献深度对比

2.1 评测代码 / harness / docker / trajectory / RL gym 详表

维度MCP-UniverseMCP-AtlasToolathlonMCPMark
评测代码 Apache-2.0 MIT 未声明 license Apache-2.0
repoSalesforceAIResearch/MCP-Universescaleapi/mcp-atlashkust-nlp/Toolathloneval-sys/mcpmark
参考 trajectory 未发布 HF 含 TRAJECTORY 字段 (公开 500)✓✓ 17 个模型 × 3 run × 108 task ≈ 5,000+ 条 / 2 GB mcpmark-trajectory-log 2.81 GB
Docker / sandbox Dockerized MCP servers✓✓ ghcr.io/scaleapi/mcp-atlas:1.2.5 一键拉✓✓ 每 task 独立 container, 支持 podman ./build-docker.sh · 本地 / Docker 双模式
真服务 vs mock真 API (Notion / GitHub / Maps / Blender / SerpAPI)真 API · 但 5 个 stateful server 带 fixture dump真 API · 也提供 local app deploy (poste.io, k8s, canvas)真 API · "isolated environments that do not pollute your accounts/data"
HF trajectories ScaleAI/MCP-Atlas · 15.6 MB · 月下载 ~2.8k 2 GB · 17 模型 2.81 GB · MIT
RL Gym 配套✓✓✓ eigent-ai/toolathlon_gym · 503 task · 全本地 PostgreSQL
公开 eval service 需自己跑 "ready-to-use public eval service" 47.253.6.47:8080

2.2 RL 训练适配度 — 唯一有"官方 Gym"的是 Toolathlon

这是 4 个 bench 中差距最大的一项。Toolathlon 是唯一把 RL 训练环境分支化出来的:由 CAMEL-AI / Eigent.AI 维护的 eigent-ai/toolathlon_gym 把 Toolathlon 的 task 格式、evaluation framework、MCP server interface 全部继承下来,扩成 503 task,关键是把所有外部 API 换成本地 PostgreSQL dump (8.2 MB, db/init.sql.gz)。原文(toolathlon_gym README):

"Toolathlon-GYM is built on and extends the infrastructure from Toolathlon by HKUST-NLP. The task format, evaluation framework, MCP server interfaces, and database schema design all originate from the Toolathlon project. It runs entirely locally, with no external API calls required at running time."

这意味着 RL 训练时:

其他三个 bench 的状况:

含义: 想做 MCP tool-use RL training, 现实就两条路: (1) 自己 fork 一个 bench 改 mock; (2) 用 Toolathlon-Gym。前者是大多数 RL 论文(如 #18 AgentWorldModel)的路线 — 完全合成 env; Toolathlon-Gym 介于"完全合成"和"真 API"之间, 是 sweet spot。

2.3 自托管门槛对比

Bench启动命令复杂度需要 API key需要数据 fixture 上传预估首次启动时间
MCPMark3 命令 (git clone · pip install -e . · python -m pipeline)仅运行特定 service 时需要 (filesystem task 零 key 可跑)GitHub task 自动从 CDN 下载 template5 分钟 (官方原话: "Quickstart (5 minutes)")
MCP-Atlas4 命令 + 至少 8GB Docker 内存; docker pull ghcr.io/scaleapi/mcp-atlas:1.2.5~18% task 可纯 default; 想跑全部需要 11 个 API key5 个 stateful server: Airtable copy base, GCal / Notion / Mongo / Slack 手动 import zip纯 default 20 server: ~10 分钟; 全开通: 半天到一天
MCP-Universe6 步: clone + venv + pip + libpq + pre-commit + .envOpenAI / Anthropic / Gemini + SerpAPI + Google Maps + GitHub PAT + Notion + Blender 二进制路径Notion root page id 需要手配; Blender v4.4.0 需装客户端半天(Blender 域涉及桌面 GUI)
Toolathlon"public eval service" 路线: 一条 eval_client.py 命令;自托管路线: bash 脚本流OpenAI-compatible base URL + API key;全跑需要 32 app 的所有 token (Canvas / Notion / GCal / Slack / 12306 etc.)自动 deploy local containers (poste.io etc.) via deploy_containers.shpublic service: 2 分钟;自托管: 一天(需 sudo + k8s/podman 配置)

Toolathlon 的独门武器是 "public eval service" — 团队自己跑了一台公网服务器,所有人都可以以"打 API"方式提交评测,完全跳过本地配置。README 原话:

"We provide Toolathlon evaluation as a service on public servers, where we have setup all the required MCP accounts and you don't need to worry about the setup -- you don't even need to install any MCP-related dependencies, evaluation can be ran by just communicating with our public server"

§3 社区关注度(2026-05-15 实时快照)

3.1 GitHub star / fork / issue

Repo★ StarForkOpen IssueLicense最近更新
SalesforceAIResearch/MCP-Universe5858231Apache-2.02026-05-15
eval-sys/mcpmark4173617Apache-2.02026-05-15
hkust-nlp/Toolathlon356408未声明2026-05-15
eigent-ai/toolathlon_gym (RL gym)12481Apache-2.02026-05-15
scaleapi/mcp-atlas811320MIT2026-05-15

查询命令(可重现):

curl -s "https://api.github.com/repos/<org>/<repo>" \
  | python3 -c "import json,sys; d=json.load(sys.stdin); \
    print(d['stargazers_count'], d['forks_count'], d['open_issues_count'])"
反直觉点: MCP-Atlas star 数最低(81),但影响力最大(frontier 三家采用)。这说明 frontier 选 benchmark不看 GitHub star,看的是数据规模 + 维护质量 + 团队关系。这条经验对你做 benchmark 立项有直接意义。

3.2 Frontier model 官方报告引用情况

BenchClaude Opus 4.7 系统卡 (Anthropic)GPT-5.5 公告 (OpenAI)Gemini 3.1 Pro Model Card (Google)
MCP-Atlas 引用 · 77.3% (Opus 4.7 vs 4.6 +14.6 pt jump) 75.3% (vs 5.4 的 70.6%, 第三方报道转引) 列入 16 项基准之一 · "MCP Atlas: Multi-step workflows using MCP" · 69.2%(Thinking-High)
MCP-Universe
Toolathlon(GPT-5.5 公告 403 抓不到, 第三方报告中提及 55.6%)
MCPMark

Anthropic Claude Opus 4.7 公告中关于 MCP-Atlas 的原话(anthropic.com/news/claude-opus-4-7):

"MCP-Atlas ... Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI ... the +14.6 point jump on MCP-Atlas is the largest single improvement in the agentic suite"

Gemini 3.1 Pro Model Card(deepmind.google/models/model-cards/gemini-3-1-pro/),关于 16 项 benchmark 中 MCP 唯一一项:

"MCP Atlas — Multi-step workflows using MCP ... 69.2%"

3.3 知名人士 / 同行提及

Bench提及
MCPMarkDeepSeek 官方 (12-01): "DeepSeek v3.2 uses MCPMark! Kudos on securing the best open-source model." X post · DeepSeek V3.2 technical report 引用 · Qwen team (09-10) 在 X 上提及 qwen-3-coder-plus is the best open-source model
ToolathlonCAMEL-AI 在 X 推送 Toolathlon-Gym 发布: "Introducing Toolathlon-GYM: Large-Scale Long-Horizon Environments for Tool-Use Agents" · 已有 4 个新 frontier 模型 (gemini-3-pro / claude-4.5-opus / gpt-5.1 / deepseek-v3.2-thinking) trajectory 在 HF
MCP-AtlasScale AI 官方运营 Live leaderboard;Anthropic 在 system card 把它定为 agentic tool use 的唯一代表;HF 数据集月下载 ~2,800
MCP-UniverseSalesforce 官方 blog · 开 Discord · 主要靠学术 paper 引流,无明显个人 KOL 推广

3.4 学术 citation 与跨论文引用

诚实声明: Google Scholar / Semantic Scholar 没有暴露 API 让我直接抓 citation 数。从公开信息推断的相对顺序(2026-05):


§4 完整 leaderboard — 4 个 bench 的 top-10 总表

§4.1 MCP-Universe overall(官网, 2026-05 快照)

主指标: success rate (%) overall。

#ModelOverallLoc NavRepoFinancial3DBrowserWeb Search
1Gemini-3-Pro-Preview44.5935.5618.1882.5052.6338.4641.82
2GPT-5-Medium43.7235.5630.3060.0052.6343.5936.36
3Grok-4.1-Fast40.6928.8915.1585.0026.3233.3343.64
4Claude-4.0-Sonnet32.9022.226.0677.5036.8435.9021.82
5Grok-4-Fast32.4722.226.0680.0021.0523.0832.73
6Claude-4.0-Sonnet-Thinking31.6024.446.0672.5047.3735.9014.55
7Claude-4.5-Sonnet35.0626.6712.1280.0052.6328.2121.82
8Kimi-K2-Thinking26.4120.0012.1260.0015.7920.5123.64
9Claude-4.5-Haiku26.4122.2212.1260.0021.0520.5120.00
10GLM-4.625.9715.569.0955.0031.5825.6421.82

注: 主榜上 Claude 4.5 Sonnet 排第 7 但分高于第 4 — 这是因为官方按 "first-listed best score per provider" 排序后又把多版本混进来。我这里按官网展示顺序给出。

§4.2 MCP-Atlas overall(Live leaderboard 2026-04-08)

主指标: pass rate (%) with 95% CI。

#ModelPass RateCI
1Muse Spark (Scale 自家)82.20±2.30
2claude-opus-4-7 (max)79.10±2.50
3gemini-3.1-pro-preview (high)78.20±2.50
4claude-opus-4-6 (max)76.80±2.70
5glm-5p1 (Zhipu)75.60±2.70
6gpt-5.5 (xhigh)75.30±2.70
7gpt-5.4 (xhigh)70.60±2.80
8gemini-3-pro-preview70.30±2.80
9claude-opus-4-5 (high)69.80±2.90
10claude-sonnet-4-669.50±2.90

注: 当前 Scale Live leaderboard 没有任何开源模型登榜 — 这是 Atlas 的关键弱点(下节 §5 详述)。

§4.3 Toolathlon(toolathlon.xyz, 抓取于 2026-05)

#ModelPass@1Pass@3Pass^3Date
1GPT-5.5-xhigh55.62026-04-24
2DeepSeek-V4-Pro Max (开源)52.8 ± 1.963.938.92026-04-25
3Claude-Opus-4.752.82026-04-25
4Kimi-K2.6 (开源)50.02026-04-21
5Gemini-3.1-Pro48.8 ± 2.362.034.32026-03-13
6MiniMax-M2.7 (开源)46.32026-03-18
7GLM-5.1 (开源)40.72026-04-07
8Qwen3.6-Plus39.82026-04-02
9Grok-427.5 ± 1.738.916.72025-10-28

Toolathlon 是 4 个 bench 中开源模型登顶覆盖最好的 — top-10 中 4 个是开源(虽然都是 100B+ MoE,不是 <40B)。

§4.4 MCPMark(mcpmark.ai/leaderboard, 抓取 2026-05)

#ModelPass@1Pass@4Pass^4
1gpt-5-2-high (gpt-5.2)57.566.944.9
2gemini-3-pro-high53.966.937.8
3gpt-5-medium52.668.533.9
4gpt-5-high51.666.133.1
5gemini-3-pro-low50.867.730.7
6gpt-5-low46.963.026.8
7claude-opus-4-5-high42.353.533.9
8deepseek-v3-2-thinking (开源)36.851.221.3
9claude-sonnet-4-532.146.516.5
10grok-431.744.918.1

MCPMark 用 pass^k 作为 stability 指标 — 必须每次 run 都 pass 才算。pass@1 与 pass^4 的 gap 体现一致性。


§5 ⭐ 开源 <40B 模型专属榜单

用户特别要求的视角。诚实回答: 4 个 bench 中,<40B 的开源模型出现非常稀少 —— 这本身是一个发现。

原因有三: (1) MCP 任务的 long-horizon + 工具数量 (220-604 tool) 对 small model 太残酷; (2) 各 bench leaderboard 都被 lab 用大模型刷, 主动报 <40B 结果的反而是 MCP-Universe(因为它学术属性最强); (3) 真要训 <40B,大家会去 Toolathlon-Gym 或合成 env (#18 AgentWorldModel) 自己训, 不报 main bench 的官方榜。

§5.1 MCP-Universe ≤ 40B 开源(官网 leaderboard 直接列)

从 leaderboard 表筛选 open-source 标记 + 估算参数:

Model参数Overall
说明: MCP-Universe 公开榜单几乎全 100B+ MoE。<40B 区域官方未提供。 同期文献 (e.g. #18 AgentWorldModel) 在 Qwen3-thinking 4B/8B/14B 上的 BFCLv3 OOD 数据更具参考价值。

§5.2 MCP-Atlas ≤ 40B 开源

0 个。Scale Live leaderboard 当前(2026-04-08 快照)全是 proprietary 模型 + GLM-5p1(Zhipu, 大模型)。没有任何 Qwen3 / Llama / GPT-OSS / Gemma 进入官方榜。

HF 数据集 README 中也明确 MCP-Atlas 任务对小模型不友好(因为 enabled tools 一次 10-25 个,context 直接吃爆 <8K context model)。

§5.3 Toolathlon ≤ 40B 开源

主榜 0 个 <40B。但 Toolathlon-Trajectories HF 数据集中包含的 gpt-5-mini(不开源)、claude-4.5-haiku-1001(不开源)是体量级最小档,均不达 <40B 开源标准。
但 Toolathlon-Gym(503-task 训练版)是唯一明确推荐小模型训练的环境 — CAMEL-AI 的 README 用 gemini-3-flash-preview 做示例,但本质上是 RL training 跑道,任何 <40B 模型都可以接入,只是分数还没公开

§5.4 MCPMark ≤ 40B 开源

Model参数Pass@1
gpt-oss-120b120B(超出 <40B)4.7%
排名 36, 4.7% pass@1 — 官方专门为开源小模型准备了 "50 easy tasks"(11-17 PR), 但 <40B 模型的官方分数仍未发布

MCPMark README 中关于此事的原话:

"17 Nov — Added 50 easy tasks (10 per MCP server) for smaller open-source models"

§5.5 总结: <40B 是 MCP benchmark 的"沙漠带"

关键事实: 截止 2026-05-15,4 个 MCP benchmark 的官方 leaderboard 中,没有一个 <40B 开源模型登顶或进入 top-10。这与 GUI agent(#17 UI-TARS-2 230B / #14 ClawGUI 7B)和 RL 训练的趋势(#06 AgentGym-RL 8B / #18 AgentWorldModel 4/8/14B)形成鲜明对比

含义: 你的 4B/8B 模型要在 MCP bench 上"上墙",当前唯一可行的路是用 Toolathlon-Gym 训出来 → 报 Toolathlon main bench 分数。Atlas / Universe / MCPMark 都没有"open-source <40B 专项排名",报上去也会沉到 30 名外。


§6 提交流程详解 — 怎么把结果"上墙"

这是 4 个 bench 差异化最大的部分。下面 SVG 是流程图概览:

MCPMark Fork repo + 加 task (meta.json + verify.py) 提 PR 维护者跑评测 → 更新 mcpmark.ai Toolathlon A. 用 public eval service (eval_client.py --mode public) → 自动入榜?(不明确) B. 发邮件: jlini@cse.ust.hk junxianh@cse.ust.hk 提供 API endpoint 即可 团队代跑评测 → 上 toolathlon.xyz + HF trajectories MCP-Atlas 自己 docker pull 跑 500 task → 用 Gemini-2.5-Pro judge → 出 coverage_stats CSV ⚠️ 无公开提交流程 Scale Labs 自维护 leaderboard (frontier 模型自行公关) MCP-Universe 本地 BenchmarkRunner → 生成 report ⚠️ README 无 submit 指引 需 Discord / PR 沟通
4 个 bench 的提交路径对比。Toolathlon 流程最完善(含 public eval service + 邮件 fallback);MCP-Atlas 与 MCP-Universe 都没有公开 self-submit 机制,新模型分数怎么进 leaderboard 实际靠"frontier 团队直接联系"或"repo maintainer 自己跑"。

§6.1 MCPMark — 仅 task 贡献流程公开, 模型分数靠 PR

官方 contribution doc verbatim:

1. "Fork the repository and create a feature branch."
2. "Add new tasks under tasks/<mcp>/<task_suite>/<category>/<task_id>/ with the files of meta.json, description.md and verify.py."
3. "Ensure all tests pass."
4. "Submit a pull request — contributions are welcome!"

关键漏洞: 官方文档没有写"如何提交新模型评测结果"。从 README News 区可见,新模型分数是团队自己加("02 Dec — Evaluated gemini-3-pro-preview...");第三方要进榜,只能在 GitHub issue / Discord 联系维护者请求代跑。

§6.2 Toolathlon — 流程最完善, 有"代跑"option

README 中四种提交方式 verbatim:

"Basically you have four ways of running Toolathlon evaluation:
1. Using our public evaluation service: Check EVAL_SERVICE_README.md for more details.
2. Setup your own Toolathlon evaluation service on your own machine as detailed below.
3. If you are a major user that will use Toolathlon evaluation a lot, you can also contact us (jlini@cse.ust.hk / junxianh@cse.ust.hk), we may be able to provide a dedicated evaluation service for you (for free).
4. If you have an API endpoint and just want to test your model, you can contact us ... and we are happy to help you run evaluation on Toolathlon with your given API endpoint."

这是 4 个 bench 中唯一明确写"你只要给 endpoint 我们就帮你跑"的。

§6.3 MCP-Atlas — 完全没暴露提交接口

repo README 与 paper 都未写 self-submit 指引。Live leaderboard 上的所有模型都是 Scale AI 自己评的。这意味着:

§6.4 MCP-Universe — 评测代码全开, 但 leaderboard 闭门维护

README "Citation" 之前最后一段是 "Visualize the agent running information",完全没提 leaderboard submission。官网 results 页是 Salesforce 团队手动更新的。社区只能在 Discord (链接已加入 README) 或 GitHub issue 提请求。


§7 选型决策树

你的目的是? 想让 frontier 看见 → MCP-Atlas (三家 model card 都引) 训练 small open-source → Toolathlon-Gym (503 task, 本地 PG, RL ready) 5 分钟验证 prompt → MCPMark (filesystem task 零 key) 学术 paper baseline? → MCP-Universe (6 domain 覆盖最像传统 bench) 需要 pass@k 稳定性? → MCPMark (pass^k) or Toolathlon (pass@3) 需要长程多 app 编排? → Toolathlon (32 app · 20 turn 平均) 推荐组合: Atlas (frontier 引用) + Toolathlon (开源 + RL)
场景首选理由
想被 Anthropic/OpenAI/Google 引用MCP-Atlasfrontier 三家都报这个
训 <40B 开源 tool-use 模型Toolathlon-Gym → Toolathlon main bench唯一带 RL gym + 4 个开源模型 main bench top-10
论文写 MCP 综合 baselineMCP-Universe6 domain · 学术属性最强 · 与多 paper compare
CI / 内部回归测试MCPMark5 分钟启动 · filesystem task 零依赖 · 50 easy task suite
需要 stability 报告MCPMark (pass^k)唯一公开报 pass^4 一致性
需要长程多 app 编排Toolathlon32 app · 604 tool · 20 turn 平均, 数量级远超其他

§8 综合 take · 2026 年的事实地位

核心 take: 4 个 bench 不互斥,各自占据生态位。Atlas 是"刻度",Toolathlon 是"训练场",MCPMark 是"快速回归测试",MCP-Universe 是"学术 baseline"。

MCP-Atlas — 事实上的"标准刻度",但闭门 gatekeeping

2026 年最重要的 MCP benchmark, 因为 frontier 三家 model card 都报。但没有 self-submit 机制,leaderboard 进出由 Scale AI 控制。这意味着学术界 / 开源社区的话语权很弱 — 这一点是 Atlas 的潜在裂缝。 (详见 #19 精读 §8 我的 hypothesis。)

Toolathlon — 唯一带 RL Gym 的 MCP bench, 最适合训练驱动

Toolathlon 主测的 108 task 是评测;真正稀缺资源是 Toolathlon-Gym 的 503 task + 本地 PostgreSQL。这一组合让 RL training rollout 不再受 API quota / determinism 拖累,是 4 个 bench 中唯一可以直接接 GRPO / DPO 训练 pipeline 的。如果 #18 AgentWorldModel 是"完全合成 RL env"的代表,那 Toolathlon-Gym 是"真协议 + 本地数据"路线的代表 — 半合成是 sweet spot。

HKUST-NLP 团队的 "contact us, we are happy to help" 政策也是 4 个 bench 中最 open 的。社区 inertia 在 ramping。

MCPMark — "快速回归测试"的实用主义首选

5 分钟启动 + 127 task + pass^k 完善 — 工程友好度最高。DeepSeek V3.2 技术报告引用给了它"开源模型同行采用"的标签,这是它和 Atlas 的差异化武器。但没有 RL gym 配套 + 无 frontier model card 引用,定位长期会是"practical companion"而非"primary benchmark"。

MCP-Universe — 学术风格的综合 baseline, 但被 Atlas 抢走了"frontier 引用"位

规模虽不及 Atlas (231 vs 1000) 也不及 Toolathlon (11 server vs 32 app),但领域覆盖最像传统 benchmark(location nav / repo / financial / 3D / browser / web search 6 domain)+ 完整 agent SDK + dashboard,适合 paper 的 multi-domain ablation。新版本支持运行 MCPMark task(README "MCP-Universe now supports evaluating the MCPMark tasks") — 这是好事,但也暗示它在向"meta framework"转,不再坚持"自己是 the benchmark"。

我对未来 6-12 个月的预测

对你(用户)的具体建议: 既然你之前已经精读了 #19 MCP-Atlas, 下一步应该精读 Toolathlon 主论文 (2510.25726) + Toolathlon-Gym 工程文档。这两者组合是 2026 年训练 MCP tool-use agent 的最优起点;Atlas 和 Universe 当评测刻度即可,不必投入实现成本。

数据快照: 2026-05-15 · GitHub API · arXiv · 各官方 leaderboard · Anthropic Opus 4.7 launch post · Google DeepMind Gemini 3.1 Pro model card · 第三方 GPT-5.5 报告(OpenAI 主页 403 抓不到)
本文是调研笔记而非精读;关于 MCP-Atlas 的深入精读见 #19