调研 · ≤40B 小模型 MCP 能力训练 landscape

2025-2026 · 复用导向 survey · 含每个工作的开源现状盘点 + 复用矩阵 + 决策树

🎯 TL;DR

领域热度极高但产出极不均匀:小模型 tool-use 工业作品(xLAM / Hammer / Functionary / Granite)曾在 BFCL V1-V3 上集体超 GPT-4,但 V4 加 40% agentic(Web Search + Memory)后大洗牌 — Hammer 全系 WebSearch/Memory ≈ 0,xLAM-2 multi-turn 第一但 agentic 退化;专门为 MCP 长 horizon benchmark(MCP-Atlas / MCPMark / MCP-Universe / Toolathlon)训的 ≤40B 模型仍几乎 0。
BFCL V4 上 ≤40B open-weight top-1 是 Nanbeige4-3B-Thinking-2511 (51.40%) — 3B 量级反超 Qwen3-32B (48.71%);xLAM-2-70b 的 multi-turn 77.38% 全榜第一(>40B,但 WebSearch 15.00 / Memory 14.41 严重偏科)。Qwen3-32B 不再是 ≤40B 顶点是 V4 改公式后最大的洗牌。
开源完整度最高的可复用组合:TOUCAN 1.5M SFT 数据 (MIT) + ART MCP•RL (Apache 2.0) — 前者给冷启,后者给在线 RL,**单 H100 一小时**就能训出可用 MCP 小模型。
BFCL V4 高分 ≠ MCP 高分 — Hammer-7B (V4 Overall 31.67) / xLAM-2-32b (V4 54.66) 在 BFCL 表现尚可,但没人在 MCP-Atlas / MCP-Universe 上报。详见 #28 BFCL 精读。
工业 vs 学术分裂:Salesforce xLAM / IBM Granite / MeetKai Functionary 走 SFT-on-curated-data 工业线;EnvScaler / SETA / AWM 走 RL-on-synthetic-env 学术线。

14+

1 · 问题陈述

2026 年 MCP benchmark 生态(#19 / #21 / #25 / #26)的残酷事实:

Benchmark	frontier(闭源)	≤40B 开源 top-1	gap
MCP-Atlas	GPT-5.5 / Claude 4.7 ~ 77-79%	无	≥ 40 pp
MCPMark	gpt-5-medium 52.56% pass@1	gpt-oss-120B 4.7%	~ 48 pp
MCP-Universe	GPT-5 43.72%	GPT-OSS-120B 25.5%(>40B 但开源最强)	~ 18 pp
Toolathlon	Claude-4.5-Sonnet 38.6%	DeepSeek-V3.2 20.1%(685B,开源但远 >40B)	~ 18 pp
BFCL V4 Overall (FC)	Claude-Opus-4-5 77.47 / Gemini-3-Pro-Preview 72.51	Nanbeige4-3B-Thinking-2511 51.40 / Qwen3-32B 48.71 / Nanbeige3.5-Pro-Thinking 47.68 (>40B: xLAM-2-70b 53.07,multi-turn 77.38% 全榜第一但 Web/Memory 崩;GLM-4.6 72.38)	~ 26 pp
BFCL V4 Multi-Turn (FC)	Claude-Opus-4-5 68.38	Nanbeige4-3B 51.12 / Qwen3-32B 47.87(>40B xLAM-2-70b 77.38,xLAM-2-32b 69.50)	—

核心矛盾:BFCL V4 把 agentic(Web Search + Memory)加权 40%,single-turn 砍到 20% 后,过去刷 BFCL V3 高分的策略(SFT-only)效用打折。≤40B open-weight top-1 (Nanbeige4-3B 51.40) 距 frontier 仍有 26 pp,而在 stateful + long-horizon 的真 MCP benchmark(Atlas / Mark / Universe / Toolathlon)上,没有任何 ≤40B 开源模型进过 top-10。瓶颈不在 single-turn schema,在 stateful planning + agentic memory/search + reward 信号干净度。

2 · Landscape 二维全景图

横轴 = 模型规模,纵轴 = 训练数据规模(对数刻度)。蓝色 = SFT 路线,绿色 = synthetic env RL,红色 = 真 MCP server RL,棕色 = 仅 pretrain。⭐ ART-Qwen2.5-3B 在最小规模 × 真 MCP RL 上是独家空位 — 这是社区最容易复制的入口。

3 · 已 covered 的 5 篇 — cross-link 简表

这 5 篇 deep-read 已在 repo,本节只做摘要 + 直链到详细 §"开源现状"。

#	工作	模型	路径	开源一句话
#03	Agent-World	8B / 14B	真 MCP env mining,RL	paper-only 1,978 env + 19,822 工具 + 模型权重 + 验证器代码全部未公开。
#18	AWM (Snowflake)	Arctic-AWM 4B/8B/14B	合成 code env + GRPO	全开 Pipeline / 数据(`Snowflake/AgentWorldModel-1K`) / 三档模型权重 / RL infra(已并入 `meta-pytorch/OpenEnv`)全开,Apache 2.0。
#20	SETA (CAMEL-AI)	seta-rl-qwen3-8b	400 Docker terminal + RLVR	全开 `camel-ai/seta` + `camel-ai/seta-env` + `camel-ai/seta-rl-qwen3-8b` 三仓全开,AReaL pipeline 自带,Apache 2.0。
#22	TOUCAN (MIT-IBM)	Qwen2.5 7B/14B/32B SFT	1.5M 真 MCP SFT 数据	全开 `Agent-Ark/Toucan-1.5M` 21.8 GB 数据(Apache 2.0)+ `TheAgentArk/Toucan` pipeline(MIT)+ 三档 SFT ckpt;唯一缺 RL stage(论文本身就是纯 SFT)。
#23	EnvScaler (RUC NLPIR)	Qwen3-Thinking 1.7B/4B/8B	Python class env + Reinforce++	全开 `RUC-NLPIR/EnvScaler` 6 模块 pipeline(MIT)+ `XXHStudyHard` 4 个数据集 + 3 档 ckpt;复现成本 ~$650 API 费。

4 · 工业级 tool-use 小模型族

这些工作不专为 MCP 训,但 BFCL / τ-bench 上 SOTA,可作为 fine-tune 起点或竞品对照。

4.1 xLAM 家族(Salesforce AI Research)

"Large Action Models"系列,函数调用专精。xLAM-2-32b-fc-r 在 BFCL V4 Overall (FC) 54.66%(rank 18)— Multi-Turn 69.50%;Llama-xLAM-2-70b-fc-r V4 Overall 53.07%、Multi-Turn 77.38%(全榜第一)。但 V4 Web Search 仅 15-25 / Memory 14-21 — 经典"专精 multi-turn,没见过 agentic"(APIGen-MT 训练数据缺 Web/Memory)。8B 量级:Llama-xLAM-2-8b-fc-r V4 Overall 46.68 / Multi-Turn 70.00。早期 xLAM-7b-fc-r 在 BFCL V1 拿 88.24%,但 V4 已不在榜。

📦 开源清单 — xLAM

✅ Paper: arXiv 2406.18518(NeurIPS 2024)

✅ Code: SalesforceAIResearch/xLAM — Apache 2.0 · 619 ⭐

✅ 训练数据: Salesforce/xlam-function-calling-60k(60K samples / 21 domain / 3,673 API,CC-BY-4.0-NC ⚠ 非商用)

✅ 模型权重: `xLAM-1b-fc-r` / `xLAM-7b-fc-r` / `xLAM-8x7b-r` / `Llama-xLAM-2-8b-fc-r` / `Llama-xLAM-2-70b-fc-r`(包含 GGUF 量化版)

✅ Pipeline / Fine-tune cookbook: HF Cookbook(完整 QLoRA fine-tune notebook)

✅ Eval: BFCL 已集成,跑分自动出

复用建议: 商用受限(数据 CC-BY-NC)。学术或个人项目可直接用 xLAM-2-8b-fc-r ckpt + 60K 数据 QLoRA 微调你的 base model,2-3 epoch 出 BFCL V4 Multi-Turn 60+ 的模型。不专为 MCP,需自己补 Web Search / Memory agentic 数据(V4 现行公式 40% 加权 agentic,xLAM 系列在这一段集体失分)。

4.2 Hammer(MadeAgents,ICLR 2025 Spotlight)

"Robust Function-Calling via Function Masking"。基于 Qwen 2.0,创新点是训练时随机 mask function spec,迫使模型抗 schema 噪声。Hammer2.1-7b 在 BFCL V4 Overall 31.67%(rank 64)— Multi-Turn 23.87 / WebSearch 0 / Memory 0;1.5B/3B 同样 WebSearch + Memory 全 0。这不是 bug — Hammer 论文显式声称 on-device + function masking,数据集里完全没有 agentic 任务,V4 加 40% agentic 权重是对它最不利的改版。早期在 BFCL V1/V2 仅次于 GPT-4 的成绩在 V4 上已不再 hold。

📦 开源清单 — Hammer

✅ Paper: arXiv 2410.04587(ICLR 2025)

✅ Code: MadeAgents/Hammer — Apache 2.0 · 116 ⭐

✅ 训练数据: APIGen 60K + xlam-irrelevance-7.5K(全公开)

✅ 模型权重: MadeAgents/Hammer-7b、`Hammer-1.5b`、`Hammer-4b` 等

✅ Pipeline: 训练脚本含 function masking 实现

✅ Eval: BFCL 配置 in-repo

复用建议: 函数 masking 是个轻量级 trick,可直接 port 到你自己的 SFT pipeline。Hammer 数据来源比 xLAM 干净(全公开),适合学术 + 商用。V4 后 BFCL Overall 已严重落后(31.67%)— 必须自己补 Web Search + Memory 数据才能撑 V4 评测。

4.3 Functionary(MeetKai)

"唯一与 OpenAI 函数调用 1:1 兼容的开源模型"。系列从 v2 到 v4r,覆盖 small / medium / preview。BFCL V4 官方 CSV 未单独列 Functionary 模型(V4 未报),该家族继续靠自家 benchmark 和 V2/V3 历史数字。

📦 开源清单 — Functionary

❌ Paper: 无 arXiv,只有 blog

✅ Code: MeetKai/functionary — MIT · 1,594 ⭐

⚠ 训练数据: 未公开

✅ 模型权重: `meetkai/functionary-small-v3.2` / `v4r-small-preview` / `medium-v3.0` 等(MIT)

✅ Pipeline: 推理脚本 + OpenAI 兼容 server

✅ Eval: 自家 benchmark + BFCL

复用建议: production drop-in 替换 OpenAI function call API 的最佳选择,不是 SOTA 拼分模型;你可以拿 ckpt 直接部署做 inference server,但无法复现训练过程(数据不开)。

4.4 NexusRaven(Nexusflow)

NexusRaven-V2 13B,零样本单轮函数调用曾超 GPT-4(V1 时代)。BFCL V4 未报,模型自 2024 以来基本停更。对 MCP 多轮长 horizon 较弱。

📦 开源清单 — NexusRaven

✅ Blog / Paper: Nexusflow blog

✅ Code: nexusflowai/NexusRaven — Apache 2.0 · 320 ⭐

⚠ 训练数据: 未公开(只有 eval 数据)

✅ 模型权重: `Nexusflow/NexusRaven-V2-13B`(Apache 2.0,**商用友好**)

⚠ Pipeline: 训练脚本不开,只有 eval

✅ Eval: 完整 reproduction 脚本

复用建议: 商用单轮函数调用首选(license 友好),作为 multi-turn 起点不合适。

4.5 IBM Granite(企业级 tool-use)

BFCL V4 官方 CSV(2026-05):Granite-3.1-8B-Instruct 27.10% / Granite-3.2-8B-Instruct 26.87% / Granite-20b-FunctionCalling 23.23% / Granite-4.0-350m 18.98%(Granite 4.1 8B 未在 V4 报)。V4 multi-turn 全系 ≤ 8,WebSearch/Memory 几乎 0 — 与 Hammer 一样在 agentic 上完全失分。早期 V3 上 Granite 4.1 8B 68.27 的成绩在 V4 公式下已 reset。企业 license / SOC2 友好。

📦 开源清单 — IBM Granite Tool

✅ Tech report: IBM 官方

✅ Code: ibm-granite/* 多个仓 — Apache 2.0

⚠ 训练数据: 部分公开(IBM 内部数据混合,不全)

✅ 模型权重: HF `ibm-granite/granite-4.1-8b-instruct` 等

⚠ Pipeline: 仅推理 + 部分 fine-tune 示例

✅ Eval: BFCL 集成

复用建议: 企业部署最稳(IBM 背书 + 合规)。不能完整复现训练。可作为 SFT 起点 fine-tune 你的 MCP 数据。

5 · base 模型自带 tool-use 能力

这些不专做 tool-use 训练,但 base 模型本身就有强 function call 能力,是任何 MCP 训练的最佳起点。

模型	规模	BFCL V4 Overall (FC)	License	复用建议
GLM-4.6(Z AI)	>40B	72.38(V4 open-weight 第一,>40B)	MIT	V4 开源最强,但 ≥40B 超出本 survey 焦点;fine-tune 起点 if 算力允许
GLM-4.5(Z AI)	32B 量级	(V4 未单列;V3 76.7)	Apache 2.0	历史 V3 榜首,V4 未报具体数字
Qwen3-32B (FC)	32B	48.71(V4 ≤40B 第二;V3 75.7)	Apache 2.0	生态最完整,fine-tune 工具链最成熟(verl / AReaL / ART 都支持)
Qwen3-14B (FC)	14B	41.03	Apache 2.0	中档,trade-off 折中
Qwen3-8B (FC)	8B	42.57	Apache 2.0	个人 GPU 友好,TOUCAN / SETA / EnvScaler 都用它当 base
Qwen3-30B-A3B-Instruct-2507 (FC)	30B / 3B active MoE	41.39	Apache 2.0	MoE,推理便宜但训练复杂
Qwen3-4B-Instruct-2507 (FC)	4B	35.68	Apache 2.0	边缘部署 base
Nanbeige4-3B-Thinking-2511 (FC)	3B	51.40(V4 ≤40B 第一)	Apache 2.0	2026-05 最大惊喜:3B + thinking 超 Qwen3-32B;但官方训练细节未充分公开
Nanbeige3.5-Pro-Thinking (FC)	—	47.68(V4 ≤40B 第三)	Apache 2.0	thinking 系列另一档
Qwen3-Coder 系列	多档	(V4 未报)	Apache 2.0	代码偏向,MCP 涉及代码 task 时优先
GPT-OSS-20B(OpenAI)	20B	(V4 未报)	Apache 2.0	OpenAI 风格 prompt 兼容,但 tool-use 训练量未公开
Llama-3.1-8B-Instruct (Prompt)	8B	25.83	Llama Community	fine-tune 生态成熟,但 BFCL V4 基础分偏低
Holo3-35B-A3B	35B MoE / 3B active	(V4 未报)	开源	BenchLM 综合 82.6,开源 agent 模型 SOTA;待详查

实证建议(V4 视角):个人 / 学术研究优先 Qwen3-8B(7×7=49 GB FP16,单 H100 训练)或 Nanbeige4-3B-Thinking(V4 ≤40B 顶分 + 3B 量级 GPU 友好);商用项目优先 GLM-4.6 MIT(V4 开源第一,72.38)或 Qwen3-32B(BFCL V4 ≤40B 第二 48.71 + Apache 2.0)。Granite 4.1 8B V4 未单独报数 — 历史 V3 68.27 不能直接外推。

6 · 训练框架 / 方法论

6.1 ⭐ ART + MCP•RL(OpenPipe)

这是本 survey 最重要的工具。"给定一个 MCP server URL,直接 GRPO 训你的小模型用它" — 零标注数据要求。

📦 开源清单 — ART (Agent Reinforcement Trainer)

✅ Blog: art.openpipe.ai/features/mcp-rl

✅ Code: OpenPipe/ART — Apache 2.0 · 9,462 ⭐ · 833 forks(规模惊人)

✅ MCP•RL 具体位置: examples/mcp-rl/ 含 `mcp_rl/` 子包 + `servers/` 配置 + cookbook

✅ PyPI: pip install openpipe-art

✅ NeMo Toolkit 集成: NVIDIA NeMo docs

✅ Cookbook: ART-E(Qwen2.5-14B,邮件检索 96% 超 o3/GPT-4.1)

复用建议: 个人 GPU(单 H100/A100)训自己的 MCP 模型 — 这就是你要的。你只需要提供:① base model(Qwen2.5-3B/Qwen3-8B 等)② target MCP server URL ③ RULER 配置。ART 处理:rollout / GRPO / vLLM 推理 / reward 计算。预估成本:Qwen2.5-3B + 单 H100 + 1 小时 ≈ $5,2× pass rate 提升。

6.2 Magnet(Google + UCLA + CMU,2025-03)

"Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation"。基于函数签名图翻译合成多轮 tool-use trajectory,然后 context distillation 蒸馏。

📦 开源清单 — Magnet

✅ Paper: arXiv 2503.07826(2025-03-10)

❌ Code: 无公开仓库(Google 内部)

❌ 训练数据: 未公开

❌ 模型权重: Magnet-14B-mDPO 未发布(BFCL-v3 68.01 / ToolQuery 73.30,超 Gemini-1.5-Pro teacher)

✅ 思路: 函数签名图 + DPO with positive/negative trajectories — 可自己复现

复用建议: paper-only,只能借鉴思路 — 用 graph-based 函数依赖建模合成多轮 trajectory;但自己实现需要 ~$5K 级别的 teacher API 费(Gemini-1.5-Pro 蒸馏)。如果你只想要 data 思路,TOUCAN(#22)已经在更大规模上做了类似事且全开源。

6.3 HuggingFace smolagents + ml-intern

📦 开源清单 — smolagents

✅ Docs: huggingface.co/docs/smolagents

✅ Code: huggingface/smolagents — Apache 2.0 · 27,346 ⭐

✅ 核心特色: CodeAgent(action 写成 code 而非 JSON),沙箱 E2B/Modal/Docker

✅ MCP 兼容: 通过 `mcp_config.json` 接任意 MCP server

复用建议: 不是训练框架,是 agent runtime。如果你的小模型推理出 action 是 code,smolagents 帮你跑;搭配 ml-intern 可以自动化你的 LLM post-training workflow。

📦 开源清单 — ml-intern

✅ Release blog: HuggingFace 2026-04-21

✅ Code: huggingface/ml-intern — Apache 2.0 · 9,583 ⭐

✅ 基于: smolagents

✅ 能力: 自动文献检索 / dataset discovery / 训练脚本执行 / 迭代评测

✅ MCP 集成: `mcp_config.json` 接你的私有 dataset registry / 训练集群

复用建议: 它本身不训 MCP 小模型,但可以用它自动化整个 MCP 小模型训练流程 — 输入 "训一个 BFCL > 70 的 8B 模型",它自己跑。

6.4 NVIDIA NeMo Agent Toolkit

📦 开源清单 — NeMo Agent Toolkit

✅ Code: NVIDIA/NeMo-Agent-Toolkit — Apache 2.0 · 2,296 ⭐

✅ GRPO 集成: 通过 OpenPipe ART(docs)

✅ 企业级: 多 GPU / 分布式 / FP8 训练

复用建议: 多卡 / 企业级 RL 集群专用。个人 / 单卡用户用 ART 即可,不需要 NeMo;有 8+ GPU 集群想 scale 时用 NeMo Toolkit 包一层。

7 · ≤40B 模型在 MCP benchmark 上的真实跑分

核心数据来自 #28 BFCL 精读的官方 V4 CSV(2026-05-13 截图)。V4 Overall 是按"Non-Live 10% + Live 10% + Multi-Turn 30% + Agentic(Web+Memory) 40% + Irrelevance 10%"加权;V3 仅作历史对照(括号内)。

模型	规模	BFCL V4 Overall (FC)	V4 Multi-Turn	V4 Web Search	V4 Memory	V3 历史	MCP-Universe / Mark / Atlas
Nanbeige4-3B-Thinking-2511	3B	51.40 ✨	51.12	21.50	36.77	—	—
Qwen3-32B (FC)	32B	48.71	47.87	21.50	26.67	(75.7)	—
Nanbeige3.5-Pro-Thinking (FC)	—	47.68	40.00	42.00	45.16	—	—
BitAgent-Bounty-8B	8B	46.23	62.38	0.00	1.51	(~54)	—
Qwen3-8B (FC)	8B	42.57	41.75	12.00	14.62	(F1 0.933)	—
ToolACE-2-8B (FC)	8B	42.44	38.38	8.50	18.49	(~55)	—
Qwen3-30B-A3B-Instruct-2507 (FC)	30B / 3B-active MoE	41.39	30.00	22.50	17.63	(~70)	—
Qwen3-14B (FC)	14B	41.03	34.75	10.00	19.57	—	—
xLAM-2-3b-fc-r (FC)	3B	41.22	58.38	2.50	11.40	—	—
Arch-Agent-32B	32B	45.37	54.25	5.00	14.62	—	—
Qwen3-4B-Instruct-2507 (FC)	4B	35.68	22.12	3.00	17.63	—	—
Hammer2.1-7b (FC)	7B	31.67	23.87	0.00	0.00	(~80)	—
Granite-3.1-8B-Instruct (FC)	8B	27.10	7.50	0.50	14.41	(4.1 8B 在 V3 68.27)	—
Granite-3.2-8B-Instruct (FC)	8B	26.87	7.38	0.50	12.47	—	—
Llama-3.1-8B-Instruct (Prompt)	8B	25.83	11.12	3.00	10.75	(~50)	—
Granite-20b-FunctionCalling (FC)	20B	23.23	5.38	0.00	0.00	—	—
TOUCAN-Qwen2.5-32B	32B	(V4 未单独报)	—	—	—	(V3 70.45)	—
TOUCAN-14B	14B	(V4 未单独报)	—	—	—	(V3 ~67)	—
AWM-14B	14B MoE	(V4 未报)	—	—	—	(V3 70.18 / τ² 33.45)	—
AWM-8B	8B	(V4 未报)	—	—	—	(V3 65.94 OOD)	—
Magnet-14B-mDPO	14B	(V4 未报,模型未发布)	—	—	—	(V3 68.01)	—
xLAM-7b-fc-r	7B	(V4 未报;V2 系列被 xLAM-2 取代)	—	—	—	(V1 88.24)	—
EnvScaler-8B	8B	(V4 未报)	—	—	—	(BFCL-MT 41.88 / τ² 72.50)	—
Agent-World-14B	14B	55.8(自报,V4)	—	—	—	—	MCP-Mark 13.3
>40B 参考(脱离本 survey 但 V4 上要点)
GLM-4.6 (FC thinking)	>40B	72.38(V4 open-weight 第一)	68.00	77.50	55.70	—	—
xLAM-2-32b-fc-r (FC)	32B	54.66	69.50	25.50	20.86	(~62)	—
Llama-xLAM-2-70b-fc-r (FC)	70B	53.07	77.38(全榜第一)	15.00	14.41	—	—
gpt-oss-120B	120B	(V4 未报)	—	—	—	—	MCP-Univ 25.54 / Mark 4.7

V4 vs V3 — 大洗牌的具体形态: ① Nanbeige4-3B 3B 量级反超 Qwen3-32B(51.40 vs 48.71)— RFT/curriculum 跑赢纯尺度;② xLAM-2-70b 在 multi-turn 77.38% 全榜第一(高于 Claude Opus 4.5 的 68.38),但 WebSearch 15 / Memory 14 严重偏科;③ Hammer / Granite 全系 WebSearch & Memory ≈ 0 — 训练数据没见过 agentic 任务,V4 公式直接砸盘。

注意空白:MCP-Atlas / MCP-Mark / MCP-Universe / Toolathlon 上几乎没有 ≤40B 开源模型的公开成绩。原因:① 学术界的小模型工作只跑 BFCL(V3 时代),V4 加 agentic 后这一断层进一步暴露 ② 工业界小模型(xLAM/Hammer)没在这些 benchmark 上 report,且 V4 Web/Memory 直接暴露其 agentic gap ③ frontier benchmark 评估成本高,小模型团队没预算。这就是机会。

8 · 4 条可复制 recipe

四条可直接复制的训练 recipe。R3(ART MCP•RL)是预算最低的入口;R4(组合)是性能上限最高的开源路径。

9 · ⭐ 开源复用矩阵

所有相关工作的可复用资源一览。✅ = 公开可下载;⚠ = 部分公开 / 受限;❌ = 未公开。

工作	Code	数据	模型权重	训练脚本	Eval 脚本	License	推荐复用场景
xLAM(Salesforce)	✅ 619⭐	⚠ CC-BY-NC	✅ 1B/7B/8B/8x7B/70B	✅ Cookbook	✅	Apache 2.0 / NC data	学术或个人 BFCL 起步,商用需自己造数据
Hammer(MadeAgents)	✅ 116⭐	✅ APIGen 60K	✅ 1.5B/7B	✅ 含 function masking	✅ BFCL	Apache 2.0	function masking trick 直接 port 到自己 pipeline
Functionary(MeetKai)	✅ 1.6K⭐	❌	✅ small/medium	❌ 训练不开	✅	MIT	OpenAI 兼容 inference server,production drop-in
NexusRaven	✅ 320⭐	❌	✅ V2 13B	❌	✅	Apache 2.0	单轮零样本商用首选
Granite 4.1 8B(IBM)	✅	⚠ 部分	✅ 8B	⚠ 仅推理示例	✅	Apache 2.0	企业部署,SOC2 合规
TOUCAN	✅ (MIT)	✅ 1.5M 21.8GB	✅ 7B/14B/32B	✅ 完整	✅	MIT + Apache 2.0	SFT 冷启首选(可复现性最高的 MCP 数据)
EnvScaler	✅ 6 模块	✅ 4 个 dataset	✅ 1.7B/4B/8B	✅ Reinforce++	✅	MIT	程序化合成 env 思路 + Reinforce++ 实现参考
SETA	✅ 2 repo	✅ seta-env	✅ Qwen3-8B	✅ AReaL pipeline	✅	Apache 2.0	terminal domain 训练参考(Docker per task 范式)
AWM(Snowflake)	✅ 已并入 OpenEnv	✅ 1K env / 10K task	✅ 4B/8B/14B	✅ GRPO	✅	Apache 2.0	合成 env + RL完整范式,基础设施已 production-ready
Agent-World	❌	❌	❌	❌	❌	—	仅读论文借鉴 self-evolving arena 思路
⭐ ART + MCP•RL	✅ 9.5K⭐ examples/mcp-rl/	—(在线生成)	—(训练框架)	✅ cookbook	✅ RULER	Apache 2.0	本表最该用的 — 单卡 + 1 小时 = 可用 MCP 模型
Magnet(Google)	❌	❌	❌ Magnet-14B 未发	❌	❌	—	仅借鉴 graph translation 思路;TOUCAN 已替代
smolagents(HF)	✅ 27K⭐	—	—(runtime)	—	—	Apache 2.0	训出来后的 agent runtime,接你的小模型上 production
ml-intern(HF)	✅ 9.6K⭐	—	—(automation)	—	—	Apache 2.0	自动化整套 LLM post-training workflow
NeMo Agent Toolkit	✅ 2.3K⭐	—	—	✅ ART 集成	—	Apache 2.0	8+ GPU 集群 scale 训练时用
GLM-4.5 / 4.6 base	—	—	✅ 32B / >40B	—	—	Apache 2.0 / MIT	GLM-4.6 BFCL V4 open-weight 第一 72.38(>40B);GLM-4.5 V3 76.7
Qwen3-8B base	—	—	✅ 8B	—	—	Apache 2.0	个人 GPU 友好,生态最完整

核心可复用组合(本表精华):
  ① 起步:TOUCAN 1.5M 数据(MIT/Apache 2.0)+ Qwen3-8B base
  ② RL:ART MCP•RL(Apache 2.0,9.5K⭐)
  ③ 部署:smolagents(Apache 2.0)+ Functionary inference server
  ④ 评测:BFCL V4(Multi-Turn + Web Search + Memory)+ Toolathlon public eval(47.253.6.47:8080)+ MCP-Atlas 公开 500 task

10 · 路径选择决策树

顶部按目标分支(BFCL 验证 / 学术 / 工业 / MCP server 专精);底部按 GPU 预算分支(单卡 / 多卡 / 集群)。两层独立,先选目标后选预算 → 对应一个 cell。

11 · 个人 take + 关键 take-away

11.1 6 个最重要的事实

≤40B 模型在 MCP-Atlas / MCP-Universe / MCPMark / Toolathlon 上的 SOTA 还没人发 — 工业小模型在 BFCL V1-V3 上集体超 GPT-4,但 V4 后已被 agentic 公式打回原形(Hammer/Granite WebSearch≈0),且仍无人把这些模型放上真 MCP 长 horizon benchmark 报数。这是 2026 下半年最大的 open opportunity。
BFCL V4 vs V3 — V4 显著拉大了模型间差距,Multi-Turn + Agentic 是关键 stress test;3B 量级靠 RFT/curriculum 反超 32B 已成事实(Nanbeige4-3B 51.40 vs Qwen3-32B 48.71,在 V4 ≤40B 子榜)。V4 公式 30% Multi-Turn + 40% agentic(Web + Memory)直接洗牌了"刷 V3 SFT 单轮"的旧策略。
ART + MCP•RL 是性价比最高的入口 — 9.5K⭐,Apache 2.0,examples/mcp-rl 完整可用,单卡 1 小时 / $5 出可用模型。repo 里没有 deep-read,但这是本 survey 最该被记住的工具。
TOUCAN(#22)是 SFT 数据天花板 — 1.5M MCP trajectory,21.8 GB,Apache 2.0,直接可下。任何 MCP 小模型训练都应该用 TOUCAN 119K 高质量子集冷启。但纯 SFT 的 V3 高分(70.45)不再等同于 V4 高分 — 必须补 Web Search / Memory RL。
BFCL V4 高分 ≠ MCP 高分 — Hammer-7B V4 31.67 / xLAM-2-32b V4 54.66 在 BFCL 表现差距很大,但 MCP-Atlas / MCPMark 上仍然都没数。BFCL V4 加 agentic 后更接近 MCP,但仍是 schema-grounded Python class 后端,不等于真 OAuth MCP server。详见 #28。
工业 vs 学术分裂:Salesforce xLAM / IBM Granite / MeetKai Functionary 走SFT-on-curated-data(数据规模 60K)工业线;EnvScaler / SETA / AWM / TOUCAN 走RL/SFT-on-synthetic-env(数据规模 1K-1.5M)学术线。两条线还没合流。

11.2 给 limited GPU(1-2 H100)的具体路径

Step 1 (1 天):  下载 Qwen3-8B + Agent-Ark/Toucan-1.5M 119K SFT subset
              QLoRA fine-tune,2 epoch,LR=2e-4
              → 出一个 "Qwen3-8B-Toucan-SFT" base

Step 2 (1 周): clone OpenPipe/ART,configure 你的 target MCP server URL
              ART MCP•RL + GRPO + RULER reward
              在 Toolathlon public eval service 上做 long-horizon RL
              → 出一个 "Qwen3-8B-MCP-RL" final

Step 3 (1 天): smolagents 包成 inference server
              评测 BFCL V4(Overall + Multi-Turn + Web Search + Memory)
              + Toolathlon + MCP-Atlas 公开 500 task

总成本: ~$200 GPU 费 + ~$50 inference 费
预期: BFCL V4 Overall 45-50%(超 Qwen3-8B 42.57 基线),
      BFCL V4 Multi-Turn 50+,Toolathlon ~30%,MCP-Atlas ~50%
(均为估算,无公开实证 — 实测你就是 paper 的 main contribution)

11.3 反直觉发现(BFCL V4 视角)

Magnet-14B-mDPO 已经在 BFCL-v3 上 68.01,但 Google 没放模型 — V4 上更无法验证。工业 paper 越来越倾向"发结果不发模型",这与开源潮流相悖,加剧了"复现门槛"问题。
ART 9.5K⭐ 但 repo 里完全没 deep-read 它 — 学术界还在专注 paper,工业工具(OpenPipe ART / Magnet / xLAM)事实上是更重要的小模型 MCP 训练手段,但学术 survey 经常忽略。
Salesforce 自家 MCP-Universe leaderboard 上没 xLAM — 自家 benchmark 不报自家模型;BFCL V4 xLAM-2 multi-turn 第一但 WebSearch 15 / Memory 14 也佐证:函数调用 ≠ agentic MCP。
BFCL V4 上 3B 反超 32B — Nanbeige4-3B-Thinking-2511 (51.40) > Qwen3-32B (48.71)。这是 thinking + curriculum/RFT 在 Multi-Turn(51.12 vs 47.87)和 Memory(36.77 vs 26.67)同时碾压尺度的具体证据 — "小模型够不够 MCP"的答案在 V4 上变成了"看怎么训,不看多大"。
xLAM-2-70b Multi-Turn 77.38% 是全榜第一(高于 Claude Opus 4.5 的 68.38),但 WebSearch 15.00 / Memory 14.41 把 Overall 拉到 53.07 — agentic 数据缺失是 specialized fine-tune 的致命短板,即便 70B 也救不回来。

11.4 一句话总结

用 TOUCAN 1.5M SFT 冷启 + ART MCP•RL 在线 RL(target server 含 Web Search + Memory 类工具),在 Qwen3-8B / Nanbeige4-3B base 上,单 H100 + $250 + 2 周,可以训出一个在 BFCL V4 Overall ~50% / V4 Multi-Turn ~55% / MCP-Atlas 公开 500 ~55%-65% 的小模型 — 这就是 2026 下半年 ≤40B MCP 小模型在 V4 公式下的当前 ceiling。再往上需要 frontier 实验室级算力(GLM-4.6 72.38)。

📚 相关 cross-link: #03 Agent-World · #18 AWM · #19 MCP-Atlas · #20 SETA · #21 4-bench compare · #22 TOUCAN · #23 EnvScaler · #24 Smithery · #25 MCP-Universe · #26 MCP code-dive · #28 BFCL 精读