调研 · ≤40B 小模型 MCP 能力训练 landscape
🎯 TL;DR
- 领域热度极高但产出极不均匀:小模型 tool-use 工业作品(xLAM / Hammer / Functionary / Granite)曾在 BFCL V1-V3 上集体超 GPT-4,但 V4 加 40% agentic(Web Search + Memory)后大洗牌 — Hammer 全系 WebSearch/Memory ≈ 0,xLAM-2 multi-turn 第一但 agentic 退化;专门为 MCP 长 horizon benchmark(MCP-Atlas / MCPMark / MCP-Universe / Toolathlon)训的 ≤40B 模型仍几乎 0。
- BFCL V4 上 ≤40B open-weight top-1 是 Nanbeige4-3B-Thinking-2511 (51.40%) — 3B 量级反超 Qwen3-32B (48.71%);xLAM-2-70b 的 multi-turn 77.38% 全榜第一(>40B,但 WebSearch 15.00 / Memory 14.41 严重偏科)。Qwen3-32B 不再是 ≤40B 顶点是 V4 改公式后最大的洗牌。
- 开源完整度最高的可复用组合:TOUCAN 1.5M SFT 数据 (MIT) + ART MCP•RL (Apache 2.0) — 前者给冷启,后者给在线 RL,**单 H100 一小时**就能训出可用 MCP 小模型。
- BFCL V4 高分 ≠ MCP 高分 — Hammer-7B (V4 Overall 31.67) / xLAM-2-32b (V4 54.66) 在 BFCL 表现尚可,但没人在 MCP-Atlas / MCP-Universe 上报。详见 #28 BFCL 精读。
- 工业 vs 学术分裂:Salesforce xLAM / IBM Granite / MeetKai Functionary 走 SFT-on-curated-data 工业线;EnvScaler / SETA / AWM 走 RL-on-synthetic-env 学术线。
1 · 问题陈述
2026 年 MCP benchmark 生态(#19 / #21 / #25 / #26)的残酷事实:
| Benchmark | frontier(闭源) | ≤40B 开源 top-1 | gap |
|---|---|---|---|
| MCP-Atlas | GPT-5.5 / Claude 4.7 ~ 77-79% | 无 | ≥ 40 pp |
| MCPMark | gpt-5-medium 52.56% pass@1 | gpt-oss-120B 4.7% | ~ 48 pp |
| MCP-Universe | GPT-5 43.72% | GPT-OSS-120B 25.5%(>40B 但开源最强) | ~ 18 pp |
| Toolathlon | Claude-4.5-Sonnet 38.6% | DeepSeek-V3.2 20.1%(685B,开源但远 >40B) | ~ 18 pp |
| BFCL V4 Overall (FC) | Claude-Opus-4-5 77.47 / Gemini-3-Pro-Preview 72.51 | Nanbeige4-3B-Thinking-2511 51.40 / Qwen3-32B 48.71 / Nanbeige3.5-Pro-Thinking 47.68 (>40B: xLAM-2-70b 53.07,multi-turn 77.38% 全榜第一但 Web/Memory 崩;GLM-4.6 72.38) | ~ 26 pp |
| BFCL V4 Multi-Turn (FC) | Claude-Opus-4-5 68.38 | Nanbeige4-3B 51.12 / Qwen3-32B 47.87(>40B xLAM-2-70b 77.38,xLAM-2-32b 69.50) | — |
2 · Landscape 二维全景图
3 · 已 covered 的 5 篇 — cross-link 简表
这 5 篇 deep-read 已在 repo,本节只做摘要 + 直链到详细 §"开源现状"。
| # | 工作 | 模型 | 路径 | 开源一句话 |
|---|---|---|---|---|
| #03 | Agent-World | 8B / 14B | 真 MCP env mining,RL | paper-only 1,978 env + 19,822 工具 + 模型权重 + 验证器代码全部未公开。 |
| #18 | AWM (Snowflake) | Arctic-AWM 4B/8B/14B | 合成 code env + GRPO | 全开 Pipeline / 数据(`Snowflake/AgentWorldModel-1K`) / 三档模型权重 / RL infra(已并入 `meta-pytorch/OpenEnv`)全开,Apache 2.0。 |
| #20 | SETA (CAMEL-AI) | seta-rl-qwen3-8b | 400 Docker terminal + RLVR | 全开 `camel-ai/seta` + `camel-ai/seta-env` + `camel-ai/seta-rl-qwen3-8b` 三仓全开,AReaL pipeline 自带,Apache 2.0。 |
| #22 | TOUCAN (MIT-IBM) | Qwen2.5 7B/14B/32B SFT | 1.5M 真 MCP SFT 数据 | 全开 `Agent-Ark/Toucan-1.5M` 21.8 GB 数据(Apache 2.0)+ `TheAgentArk/Toucan` pipeline(MIT)+ 三档 SFT ckpt;唯一缺 RL stage(论文本身就是纯 SFT)。 |
| #23 | EnvScaler (RUC NLPIR) | Qwen3-Thinking 1.7B/4B/8B | Python class env + Reinforce++ | 全开 `RUC-NLPIR/EnvScaler` 6 模块 pipeline(MIT)+ `XXHStudyHard` 4 个数据集 + 3 档 ckpt;复现成本 ~$650 API 费。 |
4 · 工业级 tool-use 小模型族
这些工作不专为 MCP 训,但 BFCL / τ-bench 上 SOTA,可作为 fine-tune 起点或竞品对照。
4.1 xLAM 家族(Salesforce AI Research)
"Large Action Models"系列,函数调用专精。xLAM-2-32b-fc-r 在 BFCL V4 Overall (FC) 54.66%(rank 18)— Multi-Turn 69.50%;Llama-xLAM-2-70b-fc-r V4 Overall 53.07%、Multi-Turn 77.38%(全榜第一)。但 V4 Web Search 仅 15-25 / Memory 14-21 — 经典"专精 multi-turn,没见过 agentic"(APIGen-MT 训练数据缺 Web/Memory)。8B 量级:Llama-xLAM-2-8b-fc-r V4 Overall 46.68 / Multi-Turn 70.00。早期 xLAM-7b-fc-r 在 BFCL V1 拿 88.24%,但 V4 已不在榜。
4.2 Hammer(MadeAgents,ICLR 2025 Spotlight)
"Robust Function-Calling via Function Masking"。基于 Qwen 2.0,创新点是训练时随机 mask function spec,迫使模型抗 schema 噪声。Hammer2.1-7b 在 BFCL V4 Overall 31.67%(rank 64)— Multi-Turn 23.87 / WebSearch 0 / Memory 0;1.5B/3B 同样 WebSearch + Memory 全 0。这不是 bug — Hammer 论文显式声称 on-device + function masking,数据集里完全没有 agentic 任务,V4 加 40% agentic 权重是对它最不利的改版。早期在 BFCL V1/V2 仅次于 GPT-4 的成绩在 V4 上已不再 hold。
4.3 Functionary(MeetKai)
"唯一与 OpenAI 函数调用 1:1 兼容的开源模型"。系列从 v2 到 v4r,覆盖 small / medium / preview。BFCL V4 官方 CSV 未单独列 Functionary 模型(V4 未报),该家族继续靠自家 benchmark 和 V2/V3 历史数字。
4.4 NexusRaven(Nexusflow)
NexusRaven-V2 13B,零样本单轮函数调用曾超 GPT-4(V1 时代)。BFCL V4 未报,模型自 2024 以来基本停更。对 MCP 多轮长 horizon 较弱。
4.5 IBM Granite(企业级 tool-use)
BFCL V4 官方 CSV(2026-05):Granite-3.1-8B-Instruct 27.10% / Granite-3.2-8B-Instruct 26.87% / Granite-20b-FunctionCalling 23.23% / Granite-4.0-350m 18.98%(Granite 4.1 8B 未在 V4 报)。V4 multi-turn 全系 ≤ 8,WebSearch/Memory 几乎 0 — 与 Hammer 一样在 agentic 上完全失分。早期 V3 上 Granite 4.1 8B 68.27 的成绩在 V4 公式下已 reset。企业 license / SOC2 友好。
5 · base 模型自带 tool-use 能力
这些不专做 tool-use 训练,但 base 模型本身就有强 function call 能力,是任何 MCP 训练的最佳起点。
| 模型 | 规模 | BFCL V4 Overall (FC) | License | 复用建议 |
|---|---|---|---|---|
| GLM-4.6(Z AI) | >40B | 72.38(V4 open-weight 第一,>40B) | MIT | V4 开源最强,但 ≥40B 超出本 survey 焦点;fine-tune 起点 if 算力允许 |
| GLM-4.5(Z AI) | 32B 量级 | (V4 未单列;V3 76.7) | Apache 2.0 | 历史 V3 榜首,V4 未报具体数字 |
| Qwen3-32B (FC) | 32B | 48.71(V4 ≤40B 第二;V3 75.7) | Apache 2.0 | 生态最完整,fine-tune 工具链最成熟(verl / AReaL / ART 都支持) |
| Qwen3-14B (FC) | 14B | 41.03 | Apache 2.0 | 中档,trade-off 折中 |
| Qwen3-8B (FC) | 8B | 42.57 | Apache 2.0 | 个人 GPU 友好,TOUCAN / SETA / EnvScaler 都用它当 base |
| Qwen3-30B-A3B-Instruct-2507 (FC) | 30B / 3B active MoE | 41.39 | Apache 2.0 | MoE,推理便宜但训练复杂 |
| Qwen3-4B-Instruct-2507 (FC) | 4B | 35.68 | Apache 2.0 | 边缘部署 base |
| Nanbeige4-3B-Thinking-2511 (FC) | 3B | 51.40(V4 ≤40B 第一) | Apache 2.0 | 2026-05 最大惊喜:3B + thinking 超 Qwen3-32B;但官方训练细节未充分公开 |
| Nanbeige3.5-Pro-Thinking (FC) | — | 47.68(V4 ≤40B 第三) | Apache 2.0 | thinking 系列另一档 |
| Qwen3-Coder 系列 | 多档 | (V4 未报) | Apache 2.0 | 代码偏向,MCP 涉及代码 task 时优先 |
| GPT-OSS-20B(OpenAI) | 20B | (V4 未报) | Apache 2.0 | OpenAI 风格 prompt 兼容,但 tool-use 训练量未公开 |
| Llama-3.1-8B-Instruct (Prompt) | 8B | 25.83 | Llama Community | fine-tune 生态成熟,但 BFCL V4 基础分偏低 |
| Holo3-35B-A3B | 35B MoE / 3B active | (V4 未报) | 开源 | BenchLM 综合 82.6,**开源 agent 模型 SOTA**;待详查 |
6 · 训练框架 / 方法论
6.1 ⭐ ART + MCP•RL(OpenPipe)
这是本 survey 最重要的工具。"给定一个 MCP server URL,直接 GRPO 训你的小模型用它" — 零标注数据要求。
pip install openpipe-art6.2 Magnet(Google + UCLA + CMU,2025-03)
"Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation"。基于函数签名图翻译合成多轮 tool-use trajectory,然后 context distillation 蒸馏。
6.3 HuggingFace smolagents + ml-intern
6.4 NVIDIA NeMo Agent Toolkit
7 · ≤40B 模型在 MCP benchmark 上的真实跑分
核心数据来自 #28 BFCL 精读 的官方 V4 CSV(2026-05-13 截图)。V4 Overall 是按"Non-Live 10% + Live 10% + Multi-Turn 30% + Agentic(Web+Memory) 40% + Irrelevance 10%"加权;V3 仅作历史对照(括号内)。
| 模型 | 规模 | BFCL V4 Overall (FC) | V4 Multi-Turn | V4 Web Search | V4 Memory | V3 历史 | MCP-Universe / Mark / Atlas |
|---|---|---|---|---|---|---|---|
| Nanbeige4-3B-Thinking-2511 | 3B | 51.40 ✨ | 51.12 | 21.50 | 36.77 | — | — |
| Qwen3-32B (FC) | 32B | 48.71 | 47.87 | 21.50 | 26.67 | (75.7) | — |
| Nanbeige3.5-Pro-Thinking (FC) | — | 47.68 | 40.00 | 42.00 | 45.16 | — | — |
| BitAgent-Bounty-8B | 8B | 46.23 | 62.38 | 0.00 | 1.51 | (~54) | — |
| Qwen3-8B (FC) | 8B | 42.57 | 41.75 | 12.00 | 14.62 | (F1 0.933) | — |
| ToolACE-2-8B (FC) | 8B | 42.44 | 38.38 | 8.50 | 18.49 | (~55) | — |
| Qwen3-30B-A3B-Instruct-2507 (FC) | 30B / 3B-active MoE | 41.39 | 30.00 | 22.50 | 17.63 | (~70) | — |
| Qwen3-14B (FC) | 14B | 41.03 | 34.75 | 10.00 | 19.57 | — | — |
| xLAM-2-3b-fc-r (FC) | 3B | 41.22 | 58.38 | 2.50 | 11.40 | — | — |
| Arch-Agent-32B | 32B | 45.37 | 54.25 | 5.00 | 14.62 | — | — |
| Qwen3-4B-Instruct-2507 (FC) | 4B | 35.68 | 22.12 | 3.00 | 17.63 | — | — |
| Hammer2.1-7b (FC) | 7B | 31.67 | 23.87 | 0.00 | 0.00 | (~80) | — |
| Granite-3.1-8B-Instruct (FC) | 8B | 27.10 | 7.50 | 0.50 | 14.41 | (4.1 8B 在 V3 68.27) | — |
| Granite-3.2-8B-Instruct (FC) | 8B | 26.87 | 7.38 | 0.50 | 12.47 | — | — |
| Llama-3.1-8B-Instruct (Prompt) | 8B | 25.83 | 11.12 | 3.00 | 10.75 | (~50) | — |
| Granite-20b-FunctionCalling (FC) | 20B | 23.23 | 5.38 | 0.00 | 0.00 | — | — |
| TOUCAN-Qwen2.5-32B | 32B | (V4 未单独报) | — | — | — | (V3 70.45) | — |
| TOUCAN-14B | 14B | (V4 未单独报) | — | — | — | (V3 ~67) | — |
| AWM-14B | 14B MoE | (V4 未报) | — | — | — | (V3 70.18 / τ² 33.45) | — |
| AWM-8B | 8B | (V4 未报) | — | — | — | (V3 65.94 OOD) | — |
| Magnet-14B-mDPO | 14B | (V4 未报,模型未发布) | — | — | — | (V3 68.01) | — |
| xLAM-7b-fc-r | 7B | (V4 未报;V2 系列被 xLAM-2 取代) | — | — | — | (V1 88.24) | — |
| EnvScaler-8B | 8B | (V4 未报) | — | — | — | (BFCL-MT 41.88 / τ² 72.50) | — |
| Agent-World-14B | 14B | 55.8(自报,V4) | — | — | — | — | MCP-Mark 13.3 |
| >40B 参考(脱离本 survey 但 V4 上要点) | |||||||
| GLM-4.6 (FC thinking) | >40B | 72.38(V4 open-weight 第一) | 68.00 | 77.50 | 55.70 | — | — |
| xLAM-2-32b-fc-r (FC) | 32B | 54.66 | 69.50 | 25.50 | 20.86 | (~62) | — |
| Llama-xLAM-2-70b-fc-r (FC) | 70B | 53.07 | 77.38(全榜第一) | 15.00 | 14.41 | — | — |
| gpt-oss-120B | 120B | (V4 未报) | — | — | — | — | MCP-Univ 25.54 / Mark 4.7 |
8 · 4 条可复制 recipe
9 · ⭐ 开源复用矩阵
所有相关工作的可复用资源一览。✅ = 公开可下载;⚠ = 部分公开 / 受限;❌ = 未公开。
| 工作 | Code | 数据 | 模型权重 | 训练脚本 | Eval 脚本 | License | 推荐复用场景 |
|---|---|---|---|---|---|---|---|
| xLAM(Salesforce) | ✅ 619⭐ | ⚠ CC-BY-NC | ✅ 1B/7B/8B/8x7B/70B | ✅ Cookbook | ✅ | Apache 2.0 / NC data | 学术或个人 BFCL 起步,商用需自己造数据 |
| Hammer(MadeAgents) | ✅ 116⭐ | ✅ APIGen 60K | ✅ 1.5B/7B | ✅ 含 function masking | ✅ BFCL | Apache 2.0 | function masking trick 直接 port 到自己 pipeline |
| Functionary(MeetKai) | ✅ 1.6K⭐ | ❌ | ✅ small/medium | ❌ 训练不开 | ✅ | MIT | OpenAI 兼容 inference server,production drop-in |
| NexusRaven | ✅ 320⭐ | ❌ | ✅ V2 13B | ❌ | ✅ | Apache 2.0 | 单轮零样本商用首选 |
| Granite 4.1 8B(IBM) | ✅ | ⚠ 部分 | ✅ 8B | ⚠ 仅推理示例 | ✅ | Apache 2.0 | 企业部署,SOC2 合规 |
| TOUCAN | ✅ (MIT) | ✅ 1.5M 21.8GB | ✅ 7B/14B/32B | ✅ 完整 | ✅ | MIT + Apache 2.0 | SFT 冷启首选(可复现性最高的 MCP 数据) |
| EnvScaler | ✅ 6 模块 | ✅ 4 个 dataset | ✅ 1.7B/4B/8B | ✅ Reinforce++ | ✅ | MIT | 程序化合成 env 思路 + Reinforce++ 实现参考 |
| SETA | ✅ 2 repo | ✅ seta-env | ✅ Qwen3-8B | ✅ AReaL pipeline | ✅ | Apache 2.0 | terminal domain 训练参考(Docker per task 范式) |
| AWM(Snowflake) | ✅ 已并入 OpenEnv | ✅ 1K env / 10K task | ✅ 4B/8B/14B | ✅ GRPO | ✅ | Apache 2.0 | 合成 env + RL完整范式,基础设施已 production-ready |
| Agent-World | ❌ | ❌ | ❌ | ❌ | ❌ | — | 仅读论文借鉴 self-evolving arena 思路 |
| ⭐ ART + MCP•RL | ✅ 9.5K⭐ examples/mcp-rl/ | —(在线生成) | —(训练框架) | ✅ cookbook | ✅ RULER | Apache 2.0 | 本表最该用的 — 单卡 + 1 小时 = 可用 MCP 模型 |
| Magnet(Google) | ❌ | ❌ | ❌ Magnet-14B 未发 | ❌ | ❌ | — | 仅借鉴 graph translation 思路;TOUCAN 已替代 |
| smolagents(HF) | ✅ 27K⭐ | — | —(runtime) | — | — | Apache 2.0 | 训出来后的 agent runtime,接你的小模型上 production |
| ml-intern(HF) | ✅ 9.6K⭐ | — | —(automation) | — | — | Apache 2.0 | 自动化整套 LLM post-training workflow |
| NeMo Agent Toolkit | ✅ 2.3K⭐ | — | — | ✅ ART 集成 | — | Apache 2.0 | 8+ GPU 集群 scale 训练时用 |
| GLM-4.5 / 4.6 base | — | — | ✅ 32B / >40B | — | — | Apache 2.0 / MIT | GLM-4.6 BFCL V4 open-weight 第一 72.38(>40B);GLM-4.5 V3 76.7 |
| Qwen3-8B base | — | — | ✅ 8B | — | — | Apache 2.0 | 个人 GPU 友好,生态最完整 |
① 起步:TOUCAN 1.5M 数据(MIT/Apache 2.0)+ Qwen3-8B base
② RL:ART MCP•RL(Apache 2.0,9.5K⭐)
③ 部署:smolagents(Apache 2.0)+ Functionary inference server
④ 评测:BFCL V4(Multi-Turn + Web Search + Memory)+ Toolathlon public eval(
47.253.6.47:8080)+ MCP-Atlas 公开 500 task
10 · 路径选择决策树
11 · 个人 take + 关键 take-away
11.1 6 个最重要的事实
- ≤40B 模型在 MCP-Atlas / MCP-Universe / MCPMark / Toolathlon 上的 SOTA 还没人发 — 工业小模型在 BFCL V1-V3 上集体超 GPT-4,但 V4 后已被 agentic 公式打回原形(Hammer/Granite WebSearch≈0),且仍无人把这些模型放上真 MCP 长 horizon benchmark 报数。这是 2026 下半年最大的 open opportunity。
- BFCL V4 vs V3 — V4 显著拉大了模型间差距,Multi-Turn + Agentic 是关键 stress test;3B 量级靠 RFT/curriculum 反超 32B 已成事实(Nanbeige4-3B 51.40 vs Qwen3-32B 48.71,在 V4 ≤40B 子榜)。V4 公式 30% Multi-Turn + 40% agentic(Web + Memory)直接洗牌了"刷 V3 SFT 单轮"的旧策略。
- ART + MCP•RL 是性价比最高的入口 — 9.5K⭐,Apache 2.0,examples/mcp-rl 完整可用,单卡 1 小时 / $5 出可用模型。repo 里没有 deep-read,但这是本 survey 最该被记住的工具。
- TOUCAN(#22)是 SFT 数据天花板 — 1.5M MCP trajectory,21.8 GB,Apache 2.0,直接可下。任何 MCP 小模型训练都应该用 TOUCAN 119K 高质量子集冷启。但纯 SFT 的 V3 高分(70.45)不再等同于 V4 高分 — 必须补 Web Search / Memory RL。
- BFCL V4 高分 ≠ MCP 高分 — Hammer-7B V4 31.67 / xLAM-2-32b V4 54.66 在 BFCL 表现差距很大,但 MCP-Atlas / MCPMark 上仍然都没数。BFCL V4 加 agentic 后更接近 MCP,但仍是 schema-grounded Python class 后端,不等于真 OAuth MCP server。详见 #28。
- 工业 vs 学术分裂:Salesforce xLAM / IBM Granite / MeetKai Functionary 走SFT-on-curated-data(数据规模 60K)工业线;EnvScaler / SETA / AWM / TOUCAN 走RL/SFT-on-synthetic-env(数据规模 1K-1.5M)学术线。两条线还没合流。
11.2 给 limited GPU(1-2 H100)的具体路径
Step 1 (1 天): 下载 Qwen3-8B + Agent-Ark/Toucan-1.5M 119K SFT subset
QLoRA fine-tune,2 epoch,LR=2e-4
→ 出一个 "Qwen3-8B-Toucan-SFT" base
Step 2 (1 周): clone OpenPipe/ART,configure 你的 target MCP server URL
ART MCP•RL + GRPO + RULER reward
在 Toolathlon public eval service 上做 long-horizon RL
→ 出一个 "Qwen3-8B-MCP-RL" final
Step 3 (1 天): smolagents 包成 inference server
评测 BFCL V4(Overall + Multi-Turn + Web Search + Memory)
+ Toolathlon + MCP-Atlas 公开 500 task
总成本: ~$200 GPU 费 + ~$50 inference 费
预期: BFCL V4 Overall 45-50%(超 Qwen3-8B 42.57 基线),
BFCL V4 Multi-Turn 50+,Toolathlon ~30%,MCP-Atlas ~50%
(均为估算,无公开实证 — 实测你就是 paper 的 main contribution)
11.3 反直觉发现(BFCL V4 视角)
- Magnet-14B-mDPO 已经在 BFCL-v3 上 68.01,但 Google 没放模型 — V4 上更无法验证。工业 paper 越来越倾向"发结果不发模型",这与开源潮流相悖,加剧了"复现门槛"问题。
- ART 9.5K⭐ 但 repo 里完全没 deep-read 它 — 学术界还在专注 paper,工业工具(OpenPipe ART / Magnet / xLAM)事实上是更重要的小模型 MCP 训练手段,但学术 survey 经常忽略。
- Salesforce 自家 MCP-Universe leaderboard 上没 xLAM — 自家 benchmark 不报自家模型;BFCL V4 xLAM-2 multi-turn 第一但 WebSearch 15 / Memory 14 也佐证:函数调用 ≠ agentic MCP。
- BFCL V4 上 3B 反超 32B — Nanbeige4-3B-Thinking-2511 (51.40) > Qwen3-32B (48.71)。这是 thinking + curriculum/RFT 在 Multi-Turn(51.12 vs 47.87)和 Memory(36.77 vs 26.67)同时碾压尺度的具体证据 — "小模型够不够 MCP"的答案在 V4 上变成了"看怎么训,不看多大"。
- xLAM-2-70b Multi-Turn 77.38% 是全榜第一(高于 Claude Opus 4.5 的 68.38),但 WebSearch 15.00 / Memory 14.41 把 Overall 拉到 53.07 — agentic 数据缺失是 specialized fine-tune 的致命短板,即便 70B 也救不回来。
11.4 一句话总结
用 TOUCAN 1.5M SFT 冷启 + ART MCP•RL 在线 RL(target server 含 Web Search + Memory 类工具),在 Qwen3-8B / Nanbeige4-3B base 上,单 H100 + $250 + 2 周,可以训出一个在 BFCL V4 Overall ~50% / V4 Multi-Turn ~55% / MCP-Atlas 公开 500 ~55%-65% 的小模型 — 这就是 2026 下半年 ≤40B MCP 小模型在 V4 公式下的当前 ceiling。再往上需要 frontier 实验室级算力(GLM-4.6 72.38)。
📚 相关 cross-link: #03 Agent-World · #18 AWM · #19 MCP-Atlas · #20 SETA · #21 4-bench compare · #22 TOUCAN · #23 EnvScaler · #24 Smithery · #25 MCP-Universe · #26 MCP code-dive · #28 BFCL 精读