调研 · ≤40B 小模型 MCP 能力训练 landscape

2025-2026 · 复用导向 survey · 含每个工作的开源现状盘点 + 复用矩阵 + 决策树

🎯 TL;DR

14+
相关工作 / 模型族
3B
最小 RL-trained MCP 模型 (ART)
$3-15
QLoRA SFT 单次成本
0
≤40B 模型进 MCP-Atlas top-10

1 · 问题陈述

2026 年 MCP benchmark 生态(#19 / #21 / #25 / #26)的残酷事实:

Benchmarkfrontier(闭源)≤40B 开源 top-1gap
MCP-AtlasGPT-5.5 / Claude 4.7 ~ 77-79%≥ 40 pp
MCPMarkgpt-5-medium 52.56% pass@1gpt-oss-120B 4.7%~ 48 pp
MCP-UniverseGPT-5 43.72%GPT-OSS-120B 25.5%(>40B 但开源最强)~ 18 pp
ToolathlonClaude-4.5-Sonnet 38.6%DeepSeek-V3.2 20.1%(685B,开源但远 >40B)~ 18 pp
BFCL V4 Overall (FC)Claude-Opus-4-5 77.47 / Gemini-3-Pro-Preview 72.51Nanbeige4-3B-Thinking-2511 51.40 / Qwen3-32B 48.71 / Nanbeige3.5-Pro-Thinking 47.68
(>40B: xLAM-2-70b 53.07,multi-turn 77.38% 全榜第一但 Web/Memory 崩;GLM-4.6 72.38)
~ 26 pp
BFCL V4 Multi-Turn (FC)Claude-Opus-4-5 68.38Nanbeige4-3B 51.12 / Qwen3-32B 47.87(>40B xLAM-2-70b 77.38,xLAM-2-32b 69.50)
核心矛盾:BFCL V4 把 agentic(Web Search + Memory)加权 40%,single-turn 砍到 20% 后,过去刷 BFCL V3 高分的策略(SFT-only)效用打折。≤40B open-weight top-1 (Nanbeige4-3B 51.40) 距 frontier 仍有 26 pp,而在 stateful + long-horizon 的真 MCP benchmark(Atlas / Mark / Universe / Toolathlon)上,没有任何 ≤40B 开源模型进过 top-10。瓶颈不在 single-turn schema,在 stateful planning + agentic memory/search + reward 信号干净度。

2 · Landscape 二维全景图

模型规模 (参数) 训练数据规模 1-3B 7-8B 14B 32B >40B 10K 60K 256K 1M 10M+ SFT-on-curated RL-on-synthetic-env RL-on-real-MCP base / pretrain xLAM-1B xLAM-7B/8B xLAM-70B Hammer-1.5B Hammer-7B Functionary-small Functionary-medium NexusRaven-13B Granite 4.1 8B TOUCAN-32B TOUCAN-14B TOUCAN-7B EnvScaler-1.7B EnvScaler-4B EnvScaler-8B SETA-Qwen3-8B AWM-4B AWM-8B AWM-14B Agent-World-8B Agent-World-14B ART-Qwen2.5-3B ART-E (14B) Magnet-14B Qwen3-8B base Qwen3-32B / GLM-4.5
横轴 = 模型规模,纵轴 = 训练数据规模(对数刻度)。蓝色 = SFT 路线,绿色 = synthetic env RL,红色 = 真 MCP server RL,棕色 = 仅 pretrain。⭐ ART-Qwen2.5-3B 在最小规模 × 真 MCP RL 上是独家空位 — 这是社区最容易复制的入口。

3 · 已 covered 的 5 篇 — cross-link 简表

这 5 篇 deep-read 已在 repo,本节只做摘要 + 直链到详细 §"开源现状"。

#工作模型路径开源一句话
#03Agent-World8B / 14B真 MCP env mining,RLpaper-only 1,978 env + 19,822 工具 + 模型权重 + 验证器代码全部未公开
#18AWM (Snowflake)Arctic-AWM 4B/8B/14B合成 code env + GRPO全开 Pipeline / 数据(`Snowflake/AgentWorldModel-1K`) / 三档模型权重 / RL infra(已并入 `meta-pytorch/OpenEnv`)全开,Apache 2.0。
#20SETA (CAMEL-AI)seta-rl-qwen3-8b400 Docker terminal + RLVR全开 `camel-ai/seta` + `camel-ai/seta-env` + `camel-ai/seta-rl-qwen3-8b` 三仓全开,AReaL pipeline 自带,Apache 2.0。
#22TOUCAN (MIT-IBM)Qwen2.5 7B/14B/32B SFT1.5M 真 MCP SFT 数据全开 `Agent-Ark/Toucan-1.5M` 21.8 GB 数据(Apache 2.0)+ `TheAgentArk/Toucan` pipeline(MIT)+ 三档 SFT ckpt;唯一缺 RL stage(论文本身就是纯 SFT)。
#23EnvScaler (RUC NLPIR)Qwen3-Thinking 1.7B/4B/8BPython class env + Reinforce++全开 `RUC-NLPIR/EnvScaler` 6 模块 pipeline(MIT)+ `XXHStudyHard` 4 个数据集 + 3 档 ckpt;复现成本 ~$650 API 费。

4 · 工业级 tool-use 小模型族

这些工作不专为 MCP 训,但 BFCL / τ-bench 上 SOTA,可作为 fine-tune 起点或竞品对照。

4.1 xLAM 家族(Salesforce AI Research)

"Large Action Models"系列,函数调用专精。xLAM-2-32b-fc-r 在 BFCL V4 Overall (FC) 54.66%(rank 18)— Multi-Turn 69.50%;Llama-xLAM-2-70b-fc-r V4 Overall 53.07%、Multi-Turn 77.38%(全榜第一)。但 V4 Web Search 仅 15-25 / Memory 14-21 — 经典"专精 multi-turn,没见过 agentic"(APIGen-MT 训练数据缺 Web/Memory)。8B 量级:Llama-xLAM-2-8b-fc-r V4 Overall 46.68 / Multi-Turn 70.00。早期 xLAM-7b-fc-r 在 BFCL V1 拿 88.24%,但 V4 已不在榜。

📦 开源清单 — xLAM
✅ Paper: arXiv 2406.18518(NeurIPS 2024)
✅ Code: SalesforceAIResearch/xLAMApache 2.0 · 619 ⭐
✅ 训练数据: Salesforce/xlam-function-calling-60k(60K samples / 21 domain / 3,673 API,CC-BY-4.0-NC ⚠ 非商用)
✅ 模型权重: `xLAM-1b-fc-r` / `xLAM-7b-fc-r` / `xLAM-8x7b-r` / `Llama-xLAM-2-8b-fc-r` / `Llama-xLAM-2-70b-fc-r`(包含 GGUF 量化版)
✅ Pipeline / Fine-tune cookbook: HF Cookbook(完整 QLoRA fine-tune notebook)
✅ Eval: BFCL 已集成,跑分自动出
复用建议: 商用受限(数据 CC-BY-NC)。学术或个人项目可直接用 xLAM-2-8b-fc-r ckpt + 60K 数据 QLoRA 微调你的 base model,2-3 epoch 出 BFCL V4 Multi-Turn 60+ 的模型。不专为 MCP,需自己补 Web Search / Memory agentic 数据(V4 现行公式 40% 加权 agentic,xLAM 系列在这一段集体失分)

4.2 Hammer(MadeAgents,ICLR 2025 Spotlight)

"Robust Function-Calling via Function Masking"。基于 Qwen 2.0,创新点是训练时随机 mask function spec,迫使模型抗 schema 噪声。Hammer2.1-7b 在 BFCL V4 Overall 31.67%(rank 64)— Multi-Turn 23.87 / WebSearch 0 / Memory 0;1.5B/3B 同样 WebSearch + Memory 全 0。这不是 bug — Hammer 论文显式声称 on-device + function masking,数据集里完全没有 agentic 任务,V4 加 40% agentic 权重是对它最不利的改版。早期在 BFCL V1/V2 仅次于 GPT-4 的成绩在 V4 上已不再 hold。

📦 开源清单 — Hammer
✅ Paper: arXiv 2410.04587(ICLR 2025)
✅ Code: MadeAgents/HammerApache 2.0 · 116 ⭐
✅ 训练数据: APIGen 60K + xlam-irrelevance-7.5K(全公开)
✅ 模型权重: MadeAgents/Hammer-7b、`Hammer-1.5b`、`Hammer-4b` 等
✅ Pipeline: 训练脚本含 function masking 实现
✅ Eval: BFCL 配置 in-repo
复用建议: 函数 masking 是个轻量级 trick,可直接 port 到你自己的 SFT pipeline。Hammer 数据来源比 xLAM 干净(全公开),适合学术 + 商用。V4 后 BFCL Overall 已严重落后(31.67%)— 必须自己补 Web Search + Memory 数据才能撑 V4 评测

4.3 Functionary(MeetKai)

"唯一与 OpenAI 函数调用 1:1 兼容的开源模型"。系列从 v2 到 v4r,覆盖 small / medium / preview。BFCL V4 官方 CSV 未单独列 Functionary 模型(V4 未报),该家族继续靠自家 benchmark 和 V2/V3 历史数字。

📦 开源清单 — Functionary
❌ Paper: 无 arXiv,只有 blog
✅ Code: MeetKai/functionaryMIT · 1,594 ⭐
⚠ 训练数据: 未公开
✅ 模型权重: `meetkai/functionary-small-v3.2` / `v4r-small-preview` / `medium-v3.0` 等(MIT)
✅ Pipeline: 推理脚本 + OpenAI 兼容 server
✅ Eval: 自家 benchmark + BFCL
复用建议: production drop-in 替换 OpenAI function call API 的最佳选择,不是 SOTA 拼分模型;你可以拿 ckpt 直接部署做 inference server,但无法复现训练过程(数据不开)。

4.4 NexusRaven(Nexusflow)

NexusRaven-V2 13B,零样本单轮函数调用曾超 GPT-4(V1 时代)。BFCL V4 未报,模型自 2024 以来基本停更。对 MCP 多轮长 horizon 较弱

📦 开源清单 — NexusRaven
✅ Blog / Paper: Nexusflow blog
✅ Code: nexusflowai/NexusRavenApache 2.0 · 320 ⭐
⚠ 训练数据: 未公开(只有 eval 数据)
✅ 模型权重: `Nexusflow/NexusRaven-V2-13B`(Apache 2.0,**商用友好**)
⚠ Pipeline: 训练脚本不开,只有 eval
✅ Eval: 完整 reproduction 脚本
复用建议: 商用单轮函数调用首选(license 友好),作为 multi-turn 起点不合适。

4.5 IBM Granite(企业级 tool-use)

BFCL V4 官方 CSV(2026-05):Granite-3.1-8B-Instruct 27.10% / Granite-3.2-8B-Instruct 26.87% / Granite-20b-FunctionCalling 23.23% / Granite-4.0-350m 18.98%(Granite 4.1 8B 未在 V4 报)。V4 multi-turn 全系 ≤ 8,WebSearch/Memory 几乎 0 — 与 Hammer 一样在 agentic 上完全失分。早期 V3 上 Granite 4.1 8B 68.27 的成绩在 V4 公式下已 reset。企业 license / SOC2 友好。

📦 开源清单 — IBM Granite Tool
✅ Tech report: IBM 官方
✅ Code: ibm-granite/* 多个仓 — Apache 2.0
⚠ 训练数据: 部分公开(IBM 内部数据混合,不全)
✅ 模型权重: HF `ibm-granite/granite-4.1-8b-instruct` 等
⚠ Pipeline: 仅推理 + 部分 fine-tune 示例
✅ Eval: BFCL 集成
复用建议: 企业部署最稳(IBM 背书 + 合规)。不能完整复现训练。可作为 SFT 起点 fine-tune 你的 MCP 数据。

5 · base 模型自带 tool-use 能力

这些不专做 tool-use 训练,但 base 模型本身就有强 function call 能力,是任何 MCP 训练的最佳起点

模型规模BFCL V4 Overall (FC)License复用建议
GLM-4.6(Z AI)>40B72.38(V4 open-weight 第一,>40B)MITV4 开源最强,但 ≥40B 超出本 survey 焦点;fine-tune 起点 if 算力允许
GLM-4.5(Z AI)32B 量级(V4 未单列;V3 76.7)Apache 2.0历史 V3 榜首,V4 未报具体数字
Qwen3-32B (FC)32B48.71(V4 ≤40B 第二;V3 75.7)Apache 2.0生态最完整,fine-tune 工具链最成熟(verl / AReaL / ART 都支持)
Qwen3-14B (FC)14B41.03Apache 2.0中档,trade-off 折中
Qwen3-8B (FC)8B42.57Apache 2.0个人 GPU 友好,TOUCAN / SETA / EnvScaler 都用它当 base
Qwen3-30B-A3B-Instruct-2507 (FC)30B / 3B active MoE41.39Apache 2.0MoE,推理便宜但训练复杂
Qwen3-4B-Instruct-2507 (FC)4B35.68Apache 2.0边缘部署 base
Nanbeige4-3B-Thinking-2511 (FC)3B51.40(V4 ≤40B 第一)Apache 2.02026-05 最大惊喜:3B + thinking 超 Qwen3-32B;但官方训练细节未充分公开
Nanbeige3.5-Pro-Thinking (FC)47.68(V4 ≤40B 第三)Apache 2.0thinking 系列另一档
Qwen3-Coder 系列多档(V4 未报)Apache 2.0代码偏向,MCP 涉及代码 task 时优先
GPT-OSS-20B(OpenAI)20B(V4 未报)Apache 2.0OpenAI 风格 prompt 兼容,但 tool-use 训练量未公开
Llama-3.1-8B-Instruct (Prompt)8B25.83Llama Communityfine-tune 生态成熟,但 BFCL V4 基础分偏低
Holo3-35B-A3B35B MoE / 3B active(V4 未报)开源BenchLM 综合 82.6,**开源 agent 模型 SOTA**;待详查
实证建议(V4 视角):个人 / 学术研究优先 Qwen3-8B(7×7=49 GB FP16,单 H100 训练)或 Nanbeige4-3B-Thinking(V4 ≤40B 顶分 + 3B 量级 GPU 友好);商用项目优先 GLM-4.6 MIT(V4 开源第一,72.38)或 Qwen3-32B(BFCL V4 ≤40B 第二 48.71 + Apache 2.0)。Granite 4.1 8B V4 未单独报数 — 历史 V3 68.27 不能直接外推。

6 · 训练框架 / 方法论

6.1 ⭐ ART + MCP•RL(OpenPipe)

这是本 survey 最重要的工具。"给定一个 MCP server URL,直接 GRPO 训你的小模型用它" — 零标注数据要求。

📦 开源清单 — ART (Agent Reinforcement Trainer)
✅ Code: OpenPipe/ARTApache 2.0 · 9,462 ⭐ · 833 forks(规模惊人)
✅ MCP•RL 具体位置: examples/mcp-rl/ 含 `mcp_rl/` 子包 + `servers/` 配置 + cookbook
✅ PyPI: pip install openpipe-art
✅ NeMo Toolkit 集成: NVIDIA NeMo docs
✅ Cookbook: ART-E(Qwen2.5-14B,邮件检索 96% 超 o3/GPT-4.1)
复用建议: 个人 GPU(单 H100/A100)训自己的 MCP 模型 — 这就是你要的。你只需要提供:① base model(Qwen2.5-3B/Qwen3-8B 等)② target MCP server URL ③ RULER 配置。ART 处理:rollout / GRPO / vLLM 推理 / reward 计算。预估成本:Qwen2.5-3B + 单 H100 + 1 小时 ≈ $5,2× pass rate 提升

6.2 Magnet(Google + UCLA + CMU,2025-03)

"Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation"。基于函数签名图翻译合成多轮 tool-use trajectory,然后 context distillation 蒸馏。

📦 开源清单 — Magnet
✅ Paper: arXiv 2503.07826(2025-03-10)
❌ Code: 无公开仓库(Google 内部)
❌ 训练数据: 未公开
❌ 模型权重: Magnet-14B-mDPO 未发布(BFCL-v3 68.01 / ToolQuery 73.30,超 Gemini-1.5-Pro teacher)
✅ 思路: 函数签名图 + DPO with positive/negative trajectories — 可自己复现
复用建议: paper-only,只能借鉴思路 — 用 graph-based 函数依赖建模合成多轮 trajectory;但自己实现需要 ~$5K 级别的 teacher API 费(Gemini-1.5-Pro 蒸馏)。如果你只想要 data 思路,TOUCAN(#22)已经在更大规模上做了类似事且全开源。

6.3 HuggingFace smolagents + ml-intern

📦 开源清单 — smolagents
✅ Code: huggingface/smolagentsApache 2.0 · 27,346 ⭐
✅ 核心特色: CodeAgent(action 写成 code 而非 JSON),沙箱 E2B/Modal/Docker
✅ MCP 兼容: 通过 `mcp_config.json` 接任意 MCP server
复用建议: 不是训练框架,是 agent runtime。如果你的小模型推理出 action 是 code,smolagents 帮你跑;搭配 ml-intern 可以自动化你的 LLM post-training workflow。
📦 开源清单 — ml-intern
✅ Release blog: HuggingFace 2026-04-21
✅ Code: huggingface/ml-internApache 2.0 · 9,583 ⭐
✅ 基于: smolagents
✅ 能力: 自动文献检索 / dataset discovery / 训练脚本执行 / 迭代评测
✅ MCP 集成: `mcp_config.json` 接你的私有 dataset registry / 训练集群
复用建议: 它本身不训 MCP 小模型,但可以用它自动化整个 MCP 小模型训练流程 — 输入 "训一个 BFCL > 70 的 8B 模型",它自己跑。

6.4 NVIDIA NeMo Agent Toolkit

📦 开源清单 — NeMo Agent Toolkit
✅ Code: NVIDIA/NeMo-Agent-ToolkitApache 2.0 · 2,296 ⭐
✅ GRPO 集成: 通过 OpenPipe ART(docs)
✅ 企业级: 多 GPU / 分布式 / FP8 训练
复用建议: 多卡 / 企业级 RL 集群专用。个人 / 单卡用户用 ART 即可,不需要 NeMo;有 8+ GPU 集群想 scale 时用 NeMo Toolkit 包一层。

7 · ≤40B 模型在 MCP benchmark 上的真实跑分

核心数据来自 #28 BFCL 精读 的官方 V4 CSV(2026-05-13 截图)。V4 Overall 是按"Non-Live 10% + Live 10% + Multi-Turn 30% + Agentic(Web+Memory) 40% + Irrelevance 10%"加权;V3 仅作历史对照(括号内)。

模型规模BFCL V4 Overall (FC)V4 Multi-TurnV4 Web SearchV4 MemoryV3 历史MCP-Universe / Mark / Atlas
Nanbeige4-3B-Thinking-25113B51.4051.1221.5036.77
Qwen3-32B (FC)32B48.7147.8721.5026.67(75.7)
Nanbeige3.5-Pro-Thinking (FC)47.6840.0042.0045.16
BitAgent-Bounty-8B8B46.2362.380.001.51(~54)
Qwen3-8B (FC)8B42.5741.7512.0014.62(F1 0.933)
ToolACE-2-8B (FC)8B42.4438.388.5018.49(~55)
Qwen3-30B-A3B-Instruct-2507 (FC)30B / 3B-active MoE41.3930.0022.5017.63(~70)
Qwen3-14B (FC)14B41.0334.7510.0019.57
xLAM-2-3b-fc-r (FC)3B41.2258.382.5011.40
Arch-Agent-32B32B45.3754.255.0014.62
Qwen3-4B-Instruct-2507 (FC)4B35.6822.123.0017.63
Hammer2.1-7b (FC)7B31.6723.870.000.00(~80)
Granite-3.1-8B-Instruct (FC)8B27.107.500.5014.41(4.1 8B 在 V3 68.27)
Granite-3.2-8B-Instruct (FC)8B26.877.380.5012.47
Llama-3.1-8B-Instruct (Prompt)8B25.8311.123.0010.75(~50)
Granite-20b-FunctionCalling (FC)20B23.235.380.000.00
TOUCAN-Qwen2.5-32B32B(V4 未单独报)(V3 70.45)
TOUCAN-14B14B(V4 未单独报)(V3 ~67)
AWM-14B14B MoE(V4 未报)(V3 70.18 / τ² 33.45)
AWM-8B8B(V4 未报)(V3 65.94 OOD)
Magnet-14B-mDPO14B(V4 未报,模型未发布)(V3 68.01)
xLAM-7b-fc-r7B(V4 未报;V2 系列被 xLAM-2 取代)(V1 88.24)
EnvScaler-8B8B(V4 未报)(BFCL-MT 41.88 / τ² 72.50)
Agent-World-14B14B55.8(自报,V4)MCP-Mark 13.3
>40B 参考(脱离本 survey 但 V4 上要点)
GLM-4.6 (FC thinking)>40B72.38(V4 open-weight 第一)68.0077.5055.70
xLAM-2-32b-fc-r (FC)32B54.6669.5025.5020.86(~62)
Llama-xLAM-2-70b-fc-r (FC)70B53.0777.38(全榜第一)15.0014.41
gpt-oss-120B120B(V4 未报)MCP-Univ 25.54 / Mark 4.7
V4 vs V3 — 大洗牌的具体形态:Nanbeige4-3B 3B 量级反超 Qwen3-32B(51.40 vs 48.71)— RFT/curriculum 跑赢纯尺度;② xLAM-2-70b 在 multi-turn 77.38% 全榜第一(高于 Claude Opus 4.5 的 68.38),但 WebSearch 15 / Memory 14 严重偏科;③ Hammer / Granite 全系 WebSearch & Memory ≈ 0 — 训练数据没见过 agentic 任务,V4 公式直接砸盘。
注意空白:MCP-Atlas / MCP-Mark / MCP-Universe / Toolathlon 上几乎没有 ≤40B 开源模型的公开成绩。原因:① 学术界的小模型工作只跑 BFCL(V3 时代),V4 加 agentic 后这一断层进一步暴露 ② 工业界小模型(xLAM/Hammer)没在这些 benchmark 上 report,且 V4 Web/Memory 直接暴露其 agentic gap ③ frontier benchmark 评估成本高,小模型团队没预算。这就是机会

8 · 4 条可复制 recipe

R1 · xLAM 路线 SFT-only,快速 BFCL Qwen3-8B base + xLAM 60K data + QLoRA(r=16) + 2-3 epoch ~$3-15 / 几小时 ⚠ 数据 CC-BY-NC → BFCL V4 MT 60+ ≠ MCP 长 horizon R2 · TOUCAN 路线 大规模 SFT,真 MCP 数据 Qwen2.5-7B/14B/32B + Toucan-1.5M(119K) + Full SFT + 1-3 epoch ~$200-500 / 32B ✓ 数据 Apache 2.0 → V3 70.45 / V4 待测 → MCP base 强 ⭐ R3 · ART MCP•RL 零标注,任意 MCP server Qwen2.5-3B base + ART framework + MCP server URL + GRPO + RULER reward ~$5 / 1 小时单 H100 ✓ 全开 Apache 2.0 → 2× pass rate → task-specific 专精 R4 · 组合最优 SFT → RL,推荐 ① TOUCAN SFT 冷启 (R2) ② ART MCP•RL 在线 (R3)在 target server ③ 评测 BFCL V4+Atlas-500 ~$300 / 2-3 周 → BFCL V4 50%+ → MCP-Atlas ~60% (估算,无公开实证)
四条可直接复制的训练 recipe。R3(ART MCP•RL)是预算最低的入口;R4(组合)是性能上限最高的开源路径。

9 · ⭐ 开源复用矩阵

所有相关工作的可复用资源一览。✅ = 公开可下载;⚠ = 部分公开 / 受限;❌ = 未公开

工作 Code数据模型权重训练脚本Eval 脚本License推荐复用场景
xLAM(Salesforce) ✅ 619⭐⚠ CC-BY-NC✅ 1B/7B/8B/8x7B/70B✅ CookbookApache 2.0 / NC data 学术或个人 BFCL 起步,商用需自己造数据
Hammer(MadeAgents) ✅ 116⭐✅ APIGen 60K✅ 1.5B/7B✅ 含 function masking✅ BFCLApache 2.0 function masking trick 直接 port 到自己 pipeline
Functionary(MeetKai) ✅ 1.6K⭐✅ small/medium❌ 训练不开MIT OpenAI 兼容 inference server,production drop-in
NexusRaven ✅ 320⭐✅ V2 13BApache 2.0 单轮零样本商用首选
Granite 4.1 8B(IBM) ⚠ 部分✅ 8B⚠ 仅推理示例Apache 2.0 企业部署,SOC2 合规
TOUCAN ✅ (MIT)✅ 1.5M 21.8GB✅ 7B/14B/32B✅ 完整MIT + Apache 2.0 SFT 冷启首选(可复现性最高的 MCP 数据)
EnvScaler ✅ 6 模块✅ 4 个 dataset✅ 1.7B/4B/8B✅ Reinforce++MIT 程序化合成 env 思路 + Reinforce++ 实现参考
SETA ✅ 2 repo✅ seta-env✅ Qwen3-8B✅ AReaL pipelineApache 2.0 terminal domain 训练参考(Docker per task 范式)
AWM(Snowflake) ✅ 已并入 OpenEnv✅ 1K env / 10K task✅ 4B/8B/14B✅ GRPOApache 2.0 合成 env + RL完整范式,基础设施已 production-ready
Agent-World 仅读论文借鉴 self-evolving arena 思路
ART + MCP•RL ✅ 9.5K⭐ examples/mcp-rl/—(在线生成)—(训练框架)✅ cookbook✅ RULERApache 2.0 本表最该用的 — 单卡 + 1 小时 = 可用 MCP 模型
Magnet(Google) ❌ Magnet-14B 未发 仅借鉴 graph translation 思路;TOUCAN 已替代
smolagents(HF) ✅ 27K⭐—(runtime)Apache 2.0 训出来后的 agent runtime,接你的小模型上 production
ml-intern(HF) ✅ 9.6K⭐—(automation)Apache 2.0 自动化整套 LLM post-training workflow
NeMo Agent Toolkit ✅ 2.3K⭐✅ ART 集成Apache 2.0 8+ GPU 集群 scale 训练时用
GLM-4.5 / 4.6 base ✅ 32B / >40BApache 2.0 / MIT GLM-4.6 BFCL V4 open-weight 第一 72.38(>40B);GLM-4.5 V3 76.7
Qwen3-8B base ✅ 8BApache 2.0 个人 GPU 友好,生态最完整
核心可复用组合(本表精华):
  ① 起步:TOUCAN 1.5M 数据(MIT/Apache 2.0)+ Qwen3-8B base
  ② RL:ART MCP•RL(Apache 2.0,9.5K⭐)
  ③ 部署:smolagents(Apache 2.0)+ Functionary inference server
  ④ 评测:BFCL V4(Multi-Turn + Web Search + Memory)+ Toolathlon public eval(47.253.6.47:8080)+ MCP-Atlas 公开 500 task

10 · 路径选择决策树

你的目标是? 快速验证 BFCL V4 高分 → R1 xLAM 路线 Qwen3-8B + xLAM 60K QLoRA / 几小时 / $3-15 学术发表 MCP SOTA → R4 组合最优 TOUCAN SFT 7B + ART MCP•RL → 投 NeurIPS/ICLR 工业部署 / 商用 xLAM-2-8b(NC)→ 不行 Granite 4.1 8B(企业) 或 NexusRaven-V2(单轮) 或 Functionary(OpenAI 兼容) 特定 MCP server 专精 ⭐ R3 ART MCP•RL Qwen2.5-3B + 你的 URL 单 H100 / 1 小时 / $5 最便宜入口 GPU 预算? 1 张 H100(个人) → Qwen3-8B QLoRA + ART MCP•RL 2-4 张 H100 → 7B-14B full SFT + ART or AReaL 8+ H100 集群 → 32B full RL + NeMo Agent Toolkit
顶部按目标分支(BFCL 验证 / 学术 / 工业 / MCP server 专精);底部按 GPU 预算分支(单卡 / 多卡 / 集群)。两层独立,先选目标后选预算 → 对应一个 cell。

11 · 个人 take + 关键 take-away

11.1 6 个最重要的事实

  1. ≤40B 模型在 MCP-Atlas / MCP-Universe / MCPMark / Toolathlon 上的 SOTA 还没人发 — 工业小模型在 BFCL V1-V3 上集体超 GPT-4,但 V4 后已被 agentic 公式打回原形(Hammer/Granite WebSearch≈0),且仍无人把这些模型放上真 MCP 长 horizon benchmark 报数。这是 2026 下半年最大的 open opportunity
  2. BFCL V4 vs V3 — V4 显著拉大了模型间差距,Multi-Turn + Agentic 是关键 stress test;3B 量级靠 RFT/curriculum 反超 32B 已成事实(Nanbeige4-3B 51.40 vs Qwen3-32B 48.71,在 V4 ≤40B 子榜)。V4 公式 30% Multi-Turn + 40% agentic(Web + Memory)直接洗牌了"刷 V3 SFT 单轮"的旧策略。
  3. ART + MCP•RL 是性价比最高的入口 — 9.5K⭐,Apache 2.0,examples/mcp-rl 完整可用,单卡 1 小时 / $5 出可用模型。repo 里没有 deep-read,但这是本 survey 最该被记住的工具。
  4. TOUCAN(#22)是 SFT 数据天花板 — 1.5M MCP trajectory,21.8 GB,Apache 2.0,直接可下。任何 MCP 小模型训练都应该用 TOUCAN 119K 高质量子集冷启。但纯 SFT 的 V3 高分(70.45)不再等同于 V4 高分 — 必须补 Web Search / Memory RL
  5. BFCL V4 高分 ≠ MCP 高分 — Hammer-7B V4 31.67 / xLAM-2-32b V4 54.66 在 BFCL 表现差距很大,但 MCP-Atlas / MCPMark 上仍然都没数。BFCL V4 加 agentic 后更接近 MCP,但仍是 schema-grounded Python class 后端,不等于真 OAuth MCP server。详见 #28
  6. 工业 vs 学术分裂:Salesforce xLAM / IBM Granite / MeetKai Functionary 走SFT-on-curated-data(数据规模 60K)工业线;EnvScaler / SETA / AWM / TOUCAN 走RL/SFT-on-synthetic-env(数据规模 1K-1.5M)学术线。两条线还没合流。

11.2 给 limited GPU(1-2 H100)的具体路径

Step 1 (1 天):  下载 Qwen3-8B + Agent-Ark/Toucan-1.5M 119K SFT subset
              QLoRA fine-tune,2 epoch,LR=2e-4
              → 出一个 "Qwen3-8B-Toucan-SFT" base

Step 2 (1 周): clone OpenPipe/ART,configure 你的 target MCP server URL
              ART MCP•RL + GRPO + RULER reward
              在 Toolathlon public eval service 上做 long-horizon RL
              → 出一个 "Qwen3-8B-MCP-RL" final

Step 3 (1 天): smolagents 包成 inference server
              评测 BFCL V4(Overall + Multi-Turn + Web Search + Memory)
              + Toolathlon + MCP-Atlas 公开 500 task

总成本: ~$200 GPU 费 + ~$50 inference 费
预期: BFCL V4 Overall 45-50%(超 Qwen3-8B 42.57 基线),
      BFCL V4 Multi-Turn 50+,Toolathlon ~30%,MCP-Atlas ~50%
(均为估算,无公开实证 — 实测你就是 paper 的 main contribution)

11.3 反直觉发现(BFCL V4 视角)

11.4 一句话总结

TOUCAN 1.5M SFT 冷启 + ART MCP•RL 在线 RL(target server 含 Web Search + Memory 类工具),在 Qwen3-8B / Nanbeige4-3B base 上,单 H100 + $250 + 2 周,可以训出一个在 BFCL V4 Overall ~50% / V4 Multi-Turn ~55% / MCP-Atlas 公开 500 ~55%-65% 的小模型 — 这就是 2026 下半年 ≤40B MCP 小模型在 V4 公式下的当前 ceiling。再往上需要 frontier 实验室级算力(GLM-4.6 72.38)。


📚 相关 cross-link: #03 Agent-World · #18 AWM · #19 MCP-Atlas · #20 SETA · #21 4-bench compare · #22 TOUCAN · #23 EnvScaler · #24 Smithery · #25 MCP-Universe · #26 MCP code-dive · #28 BFCL 精读