调研 · Prime Intellect Environments Hub — agentic RL 的 GitHub
速读卡片 (TL;DR)
一句话: Prime Intellect Environments Hub 是 2025-08-27 上线的"agentic RL environments 的 GitHub" —— 用一个 pyproject.toml 把"dataset + harness + reward"打成 Python wheel,prime env push/pull/install 像 npm/PyPI 一样在社区里流转。9 个月后 (截至 2026-05),官方公开数字: 1,000+ environments · 250+ creators · 100,000+ downloads。配套的开源 SDK verifiers (4,113★, MIT) 提供 SingleTurnEnv / MultiTurnEnv / ToolEnv / StatefulToolEnv / BrowserEnv / OpenEnv integration 与 v1 Env(taskset, harness) API; prime-rl (1,379★, Apache-2.0) 提供完全异步、1000+ GPU 规模、INTELLECT-3 同款的训练栈。
立场: 如果说 #24 Smithery 是 MCP server 的 Docker Hub(注册中心 + 托管运行时),那 Prime Intellect Hub 就是 RL environment 的 GitHub(版本化 + 可安装 + 与训练器原生集成)。两者解决完全不同的问题: Smithery 提供"主题 / metadata 来源",Hub 提供"可直接 RL train 的 gym"。对本系列读者最关键的是: verifiers SDK 真的把"写一个 env"压到了 30 行 Python,且能立刻通过 vf-eval 评测、通过 prime-rl GRPO 训练 —— 这是INTELLECT-2 / INTELLECT-3 论文使用的同一栈。诚实警示: 1,000 个 env 的质量方差极大; 真正"能 RL train 出来的"远不到这个数; MCP 环境数量在 Hub UI 上无法直接 enumerate (未在公开来源确认精确数);商业化的 Lab 平台 (2026-02-10 GA) 走 per-token 计费,beta 阶段只支持agentic RL + LoRA,full-finetune / SFT / GEPA / GKD / DPO 列为 "near future"。
1 · 是什么 / 在 agentic RL 生态里的位置
1.1 一句话定位
Prime Intellect 是 2024 年靠 INTELLECT-1 (去中心化预训练) 出圈、2025 年靠 INTELLECT-2 (去中心化 RL + TOPLOC + SHARDCAST) 站稳、2025-12 用 INTELLECT-3 (106B MoE agentic RL) 完成"务实转向"的去中心化 AI lab。Environments Hub 是它2025-08-27 的产品化拐点 — 把内部为训自家模型而写的"agent gym"开放给社区,反过来把社区贡献的 gym 拿回来训自己的下一代模型。这是data flywheel 的工业化。
官方原话 (blog/environments, 2025-08-27):
"RL environments are the key bottleneck to the next wave of AI progress, but big labs are locking them down. We built a community platform for crowdsourcing open environments, so anyone can contribute to open-source AGI." —— Prime Intellect on X, 2025-08-26
"Create, manage and share environments for reinforcement learning and evaluation." —— Hub 首页
1.2 三层栈一图
1.3 为什么"本系列读者必须看"
本系列 #06 / #18 / #22 / #23 / #25 / #26 / #27 / #29 / #30 共 9 篇都在讨论"agentic RL 的 environment 从哪里来 / 怎么写 / 怎么训"。这个问题在不同 paper 里被拆成: TOUCAN 用 Smithery 真实 MCP server (#22) / EnvScaler 用 Python class 程序合成 (#23) / SETA 用 Docker 化 terminal 任务 (#20) / AWM 用 code-driven synthetic (#18) / MCP-Universe 才把 GRPO+verl 真做了 (#25)。Prime Intellect Hub 是 6 个月内出现的"第一个真正成型的、第三方可贡献的、与训练器原生集成的" agentic RL gym 集散地,是上述所有 paper 在工程层的"事实出口"。如果你想训 ≤40B 小模型做 MCP/tool/agent,2026 年的默认起点就是 uv tool install prime && prime env install ...。
2 · verifiers SDK 深潜 — SingleTurnEnv / MultiTurnEnv / Env v1
本节是本笔记的核心。verifiers 是把#19 RL 框架横评里"env 抽象"这个空白真正填上的库。
2.1 Repo 速查
Repo: github.com/PrimeIntellect-ai/verifiers
License: MIT · Stars: 4,113 · Forks: 547 · Open issues: 201 (2026-05-17 API 查询)
最新 release: v0.1.15.dev7 (2026-05-15)
历史脉络: 最初是 Will Brown (现 Prime Intellect 研究负责人) 个人项目 willccbb/verifiers,2025 年迁到 PrimeIntellect-ai 组织,成为 Hub 的 official SDK。
2.2 文件树 (verifiers/envs/)
verifiers/envs/
├── environment.py # Environment 基类
├── singleturn_env.py # SingleTurnEnv
├── multiturn_env.py # MultiTurnEnv
├── tool_env.py # ToolEnv (JSON tool-call loop)
├── stateful_tool_env.py # StatefulToolEnv (state-mutating tools)
├── python_env.py # PythonEnv (code execution gym)
├── sandbox_env.py # SandboxEnv (隔离执行)
├── env_group.py # EnvGroup (多 env 组合)
├── experimental/ # ⭐ 大货全在这里
│ ├── mcp_env.py # ⭐ MCPEnv — 用官方 mcp.ClientSession + StdioServerParameters
│ ├── cli_agent_env.py # ⭐ CliAgentEnv — 跑在 prime_sandboxes + prime_tunnel
│ ├── harbor_env/
│ │ ├── env.py # Harbor 任务目录格式 (SWE-bench-style)
│ │ └── mcp.py # ⭐ Harbor + MCP 混合
│ ├── opencode_env.py # OpenCode CLI agent
│ ├── opencode_qa_env.py
│ ├── opencode_rlm_env.py
│ ├── rlm_env.py # Recursive LM (172 KB,大型实现)
│ ├── gym_env.py # OpenAI Gym 风格适配
│ └── sandbox_mixin.py # Sandbox 生命周期管理
└── integrations/
├── browser_env/ # BrowserEnv (子目录,DOM via Stagehand / CUA via Docker on Browserbase)
├── openenv_env.py # OpenEnvEnv (Meta+HF OpenEnv 兼容层,支持 MCP 契约)
├── reasoninggym_env.py # ReasoningGymEnv
└── textarena_env.py # TextArenaEnv (Wordle 等文字游戏)
verifiers/envs/experimental/mcp_env.py 第 1 行即 from mcp import ClientSession, StdioServerParameters —— 用的是 Anthropic 官方 MCP Python SDK 的 stdio 传输,内含 MCPServerConfig dataclass (支持 command / args / env 三件套) 与 MCPServerConnection 类。多 server 并行接入是标准实现。同时 harbor_env/mcp.py 提供 Harbor + MCP 混合形态。verifiers 主线确实把 MCP 当一等公民支持,只是处在 experimental/ 命名空间还未升级到 stable API。同样 v1 config 里有 MCPToolConfig 和 MCPTool,说明 MCP 已下沉到 v1 一等公民层。
2.2.1 CLI / Browser / Docker / MCP 形态总览
| 形态 | verifiers 类 | 底层 | Docker / 模拟器 |
|---|---|---|---|
| CLI / terminal agent | CliAgentEnv · Terminus2 · OpenCode | prime_sandboxes + prime_tunnel | ✅ Docker 容器 (Prime Sandbox) |
| 浏览器 (DOM) | BrowserEnv(mode="dom") | Stagehand SDK | 无头 Chromium |
| 浏览器 (vision/CUA) | BrowserEnv(mode="cua") | Browserbase + Docker image deepdream19/cua-server:latest | ✅ Docker (自动部署到 Browserbase sandbox) |
| MCP server | MCPEnv (experimental) · harbor_env/mcp.py | 官方 mcp.ClientSession + stdio | 视 server 而定 (Smithery hosted / 本地 stdio) |
| SWE-bench-style 代码任务 | HarborTaskset + OpenCode harness · MiniSWEAgent | Docker harbor 任务目录 | ✅ Docker |
| OpenEnv 兼容 | OpenEnvEnv | Meta OpenEnv async client | ✅ Docker via vf-build |
| 文字游戏 | TextArenaEnv | TextArena lib | 无 |
| 数学/推理生成器 | ReasoningGymEnv | reasoning-gym lib | 无 |
| 桌面 GUI (Win/macOS) | ❌ 未提供 — 不重叠 #16 / #17 那条线 | ||
| 移动端 (Android/iOS) | ❌ 未提供 — 无 ADB/AVD/Appium | ||
Docker 三处出现: ① Browserbase Chromium 预制 image · ② vf-build 用户自定义 image · ③ prime_sandboxes 通用沙箱(CLI / 代码 / MCP server 都能套)。没有任何手机模拟器或桌面 OS VM —— 这是 hub 与 #17 UI-TARS-2 / #14 ClawGUI 的根本不同。
2.3 SingleTurnEnv — 最低门槛
用于"一次 prompt → 一次 response → 一次 score"任务 (数学 / 代码 / QA)。最小例子:
import verifiers as vf
from datasets import load_dataset
dataset = load_dataset("gsm8k", "main", split="train")
def correct_answer_reward(completion, answer, **kwargs):
return 1.0 if extract_final(completion) == answer else 0.0
rubric = vf.Rubric(funcs=[correct_answer_reward])
env = vf.SingleTurnEnv(dataset=dataset, rubric=rubric)
# 立刻可以评测
results = env.evaluate(client=client, model="gpt-4.1-mini",
num_examples=20, rollouts_per_example=5)
Rubric 是一组 reward functions 的容器 —— 可以叠加 format reward / process reward / outcome reward,verifiers 会按权重合并。这与 #19 中讨论的 "process supervision" 设计同源。
2.4 MultiTurnEnv — agentic 主力 (verbatim 签名)
用于"多轮对话 / agent loop"任务 (Wordle / 2048 / 浏览 / 工具调用)。从 main 分支直接抓取的类签名:
class MultiTurnEnv(vf.Environment):
def __init__(
self,
max_turns: int = -1,
timeout_seconds: float | None = None,
**kwargs,
):
...
@abstractmethod
async def env_response(
self, messages: Messages, state: State, **kwargs
) -> Messages:
"""Given the conversation so far, return the next environment message."""
@abstractmethod
async def is_completed(
self, messages: Messages, state: State, **kwargs
) -> bool:
"""Return True if rollout should stop."""
@final
async def rollout(self, ...):
# 内部循环: client → env_response → is_completed → break
...
写一个新 env 只需子类化并实现 env_response + is_completed。关键设计选择:
@final锁定 rollout — 用户不能 override 主循环,只能定义"环境对 agent 说话"与"什么时候停"。这是 verifiers 与 OpenAI Gym 的本质差别 (Gym 用step()风格,这里用对话 message 风格)。- async 原生 — 配合 prime-rl 的全异步 rollout,1000+ 并发不掉性能。
@vf.stop装饰器 — 标记可被 stop 的条件 (max_turns 到了 / 超 token / 超 wall-clock),由 framework 统一处理。
2.5 完整 Wordle MultiTurnEnv 示例 (摘自 README)
class WordleEnv(vf.MultiTurnEnv):
def __init__(self, words: list[str], max_turns: int = 6):
super().__init__(max_turns=max_turns)
self.words = words
async def env_response(self, messages, state, **kwargs):
guess = extract_guess(messages[-1]["content"])
target = state["target"]
feedback = score_guess(guess, target) # "🟩🟨⬜⬜⬜" 之类
state["history"].append((guess, feedback))
return [{"role": "user", "content": feedback}]
async def is_completed(self, messages, state, **kwargs):
return state["history"] and state["history"][-1][0] == state["target"]
def load_environment(**kwargs):
return WordleEnv(words=load_word_list(), max_turns=6)
整个 env 不到 20 行。reward function 写在 Rubric 里 (是否猜中 / 用了几轮),通过 vf-eval wordle -m <model> 立即评测,通过 uv run trainer @ configs/rl/wordle.toml 立即 GRPO 训练。
2.6 v1 Env API — Taskset + Harness 解耦
2026 年逐步推广的 v1 API 把 "任务定义" 和 "agent 怎么跑" 解耦了:
def load_taskset(config: vf.TasksetConfig) -> vf.Taskset:
return vf.Taskset(source=source, rewards=[reward_fn], config=config)
def load_environment(config: vf.EnvConfig) -> vf.Env:
return vf.Env(taskset=load_taskset(config=config.taskset))
不传 harness 时默认 endpoint-backed harness (HTTP 调 LLM API)。要接 CLI agent (例如 OpenCode):
env = vf.Env(
taskset=vf.HarborTaskset(),
harness=vf.OpenCode(), # Harbor 任务目录的 CLI harness
)
OpenCode 是 verifiers 对 SST opencode CLI 的 wrapper,允许把"真的 coding agent"插到 RL loop 里;Harbor 是 Prime Intellect 自家的任务目录格式 (类似 SWE-bench 的 instance 格式)。
2.7 BrowserEnv — 浏览器 gym
在 verifiers/envs/integrations/browser_env/,Playwright-based,提供 click / type / scroll / read_page 工具,用于训练浏览器 agent。与 #17 UI-TARS-2 的 GUI 抽象同类,但 verifiers 更轻量 (DOM 而非 screenshot)。
2.8 OpenEnv 桥接
integrations/openenv_env.py 是 verifiers 对 OpenEnv (Meta + HuggingFace 2025-10 发布的 agentic env 标准) 的兼容层。一个 OpenEnv 项目可以直接 wrap 成 verifiers Env,做到"一次写,两栈训"。这条桥接对生态意义巨大 —— 它把 Prime Intellect Hub 和 HF Datasets-style 分发兼容起来。
3 · prime-rl 训练栈 — 与 INTELLECT-2/3 的关系
3.1 Repo 速查
Repo: github.com/PrimeIntellect-ai/prime-rl · License: Apache-2.0 (注意比 verifiers 的 MIT 更宽松条款,主要因为含 Modal/Slurm 模板需要专利条款)
Stars: 1,379 · Forks: 290 · Open issues: 111 (2026-05-17)
定位: "Agentic RL Training at Scale" — fully async, 1000+ GPU
3.2 四进程架构
prime-rl 把训练拆成四个独立进程,通过 toml config 编排:
uv run sft @ configs/debug/sft/train.toml # 监督微调 uv run trainer @ configs/debug/rl/train.toml # GRPO/PPO/RLVR uv run inference @ configs/debug/infer.toml # vLLM 推理服务 uv run orchestrator @ configs/debug/orch.toml # async rollout 调度
关键技术 stack:
- FSDP2 — 训练并行
- vLLM — 推理引擎
- FP8 inference — H100/H200/B200 友好
- PD disaggregation — prefill / decode 解耦 (与 NVIDIA Dynamo 配套)
- Expert parallelism + Context parallelism — 训 1T+ MoE
- Slurm + Kubernetes 双 deploy
- Multimodal (Qwen3-VL) 支持
3.3 与 INTELLECT-2 / INTELLECT-3 的血缘
| 代次 | 训练栈 | 本系列笔记 |
|---|---|---|
| INTELLECT-1 (2024-12) | DiLoCo + int8 ring all-reduce (预训练,不涉 RL) | models/#01 |
| INTELLECT-2 (2025-05) | PRIME-RL 的原型 + TOPLOC + SHARDCAST (去中心化 RL) | models/#07 |
| INTELLECT-3 (2025-12) | prime-rl 三件套 + IcePop · 106B GLM-4.5-Air-Base 上做 agentic RL | models/#08 |
| INTELLECT-3.1 (2026 H1) | 同 prime-rl, 32-2,048 GPU recipe 已在 README "advanced examples" 公开 | (未单独成笔记) |
关键洞见: prime-rl 不是为了"让社区训玩具模型"而存在,它就是INTELLECT-3训练用的同一份代码。这意味着你在 Hub 上拉一个 env,用 prime-rl GRPO 训 Qwen3-8B,跑的 RL recipe 与 Prime Intellect 训 106B 模型的是同一套,只是 GPU 数从 2,048 缩到 2-8。recipe 透明度是 #25 MCP-Universe / #18 AWM 无法比拟的优势。
3.4 与 verifiers Hub 的集成点
prime-rl 在 README 明确写: "Native integration with verifiers environments through the Environments Hub." 实际机制是 trainer config 里直接写 hub-id:
[env] id = "primeintellect/alphabet-sort@0.1.5" # orchestrator 启动时执行 prime env install 一次, # 然后 rollout worker 直接 import 该 env 调用 .rollout()
这就是"从 Smithery JSON catalog → Prime Hub Python wheel"的本质提升 —— 后者不需要二次包装,直接 import 即用。
4 · prime env CLI — init / push / pull 完整流程
4.1 安装
curl -LsSf https://astral.sh/uv/install.sh | sh uv tool install prime uv tool update-shell
4.2 prime CLI 全命令树
从 PrimeIntellect-ai/prime repo (200★) 抓取的完整命令树:
prime lab # 工作区: 一站式 env / eval / GEPA / training prime train # 托管训练 ├ models # 可训模型列表 + 容量定价 ├ init # 生成 training config ├ list # 训练 run 列表 ├ logs # run 日志 ├ metrics # run 指标 └ checkpoints # 取 checkpoint prime env # ★ Hub 操作 ├ list # 浏览 hub ├ info <hub-id> # 查看元数据 ├ inspect # 看源码 ├ install # 本地安装 ├ init # 创建新 env 模板 └ push # 发布到 Hub prime availability # GPU 资源 ├ list └ gpu-types prime pods # 计算 pod ├ list / create / status / terminate / ssh prime eval # 评测管理 ├ push / list / get / samples prime config └ set-api-key / set-ssh-key-path / view prime teams └ list / switch
4.3 完整 env 开发周期 (从 init 到 push)
Step 1: prime env init
prime env init my-env # 生成: # environments/my_env/ # ├── my_env.py # env 实现 # ├── pyproject.toml # ★ Hub metadata + 依赖 # └── README.md # 文档模板
带 v1 harness 模板:
prime env init my-env --with-harness
Step 2: pyproject.toml 是 Hub 的 metadata 协议
[project]
name = "my-env"
description = "My custom environment"
tags = ["single-turn", "math", "train", "eval"]
version = "0.1.0"
requires-python = ">=3.10"
dependencies = [
"verifiers>=0.1.8",
]
[build-system]
requires = ["hatchling"]
build-backend = "hatchling.build"
[tool.hatch.build]
include = ["my_env.py", "pyproject.toml"]
[tool.verifiers.eval]
num_examples = 20
rollouts_per_example = 5
关键洞察: tags 字段就是 Hub 搜索/过滤的 facet (single-turn / multi-turn / math / code / browser / agentic / eval / train),[tool.verifiers.eval] 是默认评测配置 —— 这是把"env 怎么用"也版本化的设计,胜过 Smithery 仅存 server URL。
Step 3: 本地装并自测
prime env install my-env -p ./environments uv run vf-eval my-env -m gpt-4.1-mini -n 5 -r 3
Step 4: 推到 Hub
prime env push --path ./environments/my_env # Hub 端: hatchling build → wheel 上传 → 索引化 → 出 hub-id (例如 myuser/my-env@0.1.0)
Step 5: 别人 pull 你的 env
prime env install myuser/my-env@0.1.0 # 等同 pip install,放到当前 .venv,可以直接 import
4.4 Discovery — 怎么找到 env
- Web UI:
app.primeintellect.ai/dashboard/environments— 按 tag / popularity / recent 浏览 - CLI:
prime env list+ 过滤 flag (未在公开来源完整确认 flag 列表) - API: Hub 有 REST 接口,但官方未完整公开 OpenAPI spec (未在公开来源确认 endpoint 全集)
5 · Hub 内容盘点 — 类目与 MCP 现状
5.1 已知的类目 (从官方 blog + HF blog + UI 截图归纳)
| 类目 | 典型 env | 来源 |
|---|---|---|
| Math / Reasoning | gsm8k, aime-25, math-500, theorem proving | blog 2025-09-06 公告 "100+ envs in week 1" |
| Code / SWE | terminal-bench, kernel-generation, SWE-bench instances | HF blog @anakin87 |
| Simple games (SFT/RL 起步) | alphabet-sort, wordle, 2048, reverse-text | verifiers README + prime-rl debug configs |
| Browser / GUI | browser-use envs (BrowserEnv 衍生) | blog 公告 |
| Scientific QA | 科学 QA 多个 env | blog 公告 |
| Agentic / Tool-use | tool-calling 任务 (BFCL-derived 等) | verifiers ToolEnv 链路 |
| MCP-flavored | 存在但数量未在公开来源确认 | see §5.2 |
5.2 MCP 环境现状 (谨慎结论)
- verifiers 主线 有
experimental/mcp_env.py(9 KB),用 Anthropic 官方 mcp SDK 的ClientSession + StdioServerParameters,MCPServerConfig(name, command, args, env)多 server 并发接入 - v1 一等公民 API 里有
MCPToolConfig与MCPTool(verifiers/v1/__init__.py显式 export),说明 MCP 已下沉到 stable API 层 verifiers/envs/experimental/harbor_env/mcp.py(12 KB)提供 Harbor + MCP 混合形态 —— 把 SWE-bench-style 任务目录里的 server 也用 MCP 协议拉起- Hub UI 上"MCP 风味"环境的精确数量仍无法 enumerate —— 主页 SSR + login-gated;
/api/environments与api.primeintellect.ai/v1/environments均返回{"detail":"Not Found"},需 auth token
from verifiers.envs.experimental.mcp_env import MCPEnv,传一组 MCPServerConfig;若需 RL 训(GRPO/PPO),把这个 env 接到 prime-rl trainer 即可。另一条路线 #25 MCP-Universe 的 verl 栈仍可用,但与 prime-rl 不同栈。
5.3 推荐起步 env (从公开材料筛)
primeintellect/alphabet-sort@0.1.5— HF blog 全流程 walkthrough 用的 env, ~8 小时 2×A6000 GRPO 训 Qwen3-0.6B 把 reward 从 0.403 提到 0.578 (+43%)primeintellect/wordle— MultiTurnEnv 教科书例子primeintellect/aime-25— 数学 eval baselineprimeintellect/terminal-bench— agent in real terminals,可与 #20 SETA 对照
6 · Lab 平台 — Hosted Training + Sandboxes (付费)
6.1 时间线
2025-08-27 · Environments Hub launch (free, open)
2025 Q4 · Lab private beta · "more than 3,000 RL runs" 在 beta 阶段完成
2026-02-10 · Lab 公开 GA · blog: "Releasing Lab: the training platform for self-improving agents"
6.2 Lab 包含什么
blog 原文 (2026-02-10):
"Lab unifies the Environments Hub with Hosted Training and Hosted Evaluations into a full-stack platform for research and optimization."
组件:
- Environments Hub (免费,沿用)
- Hosted Training (付费) — "agentic RL with LoRA, built atop our prime-rl training library". SFT + GEPA + GKD + DPO 列为 "near future"
- Sandboxes (beta) — "for secure code execution"
- Hosted Evaluations — 一键评测某 env 上的 model
- Inference — "dedicated or serverless inference for custom models, with native LoRA support" · 基于 NVIDIA Dynamo stack
6.3 商业拐点: per-token 而非 cluster-hour
"Lab offers per-token pricing, moving away from traditional cluster-hour billing to enable cost efficiency through shared hardware across runs." —— blog/lab-is-open
这是关键差异化 —— 同期 Replicate / Together / Fireworks / Modal 走 GPU-hour 或 token (推理) 计费,但训练端走 token 计费的极少。Prime Intellect 能这样定价是因为它多租户共享 LoRA inference 集群 (NVIDIA Dynamo 的 PD-disagg + EP),底层 GPU 利用率高。
- 训练只支持 LoRA, full-finetune 不行 — 对 ≤40B 小模型 MCP 微调够用,对大改 base model 行为不够
- 只支持 agentic RL,SFT/DPO 还要等
- 支持的 base model 是 有限白名单 (从
prime train models查),非任何 HF model 都行 - Sandboxes 仍 beta — 安全/隔离机制未做 SOC2-equivalent 公示
7 · 横向对比 — Hub vs OpenEnv vs Toolathlon-Gym vs MCP-Universe …
| 平台 | 规模 | 开放程度 | 是否有 RL 训练栈 | MCP 一等公民 | 核心差异 |
|---|---|---|---|---|---|
| Prime Intellect Hub | 1,000+ env (2026-05) | 开源 SDK (MIT/Apache);Hub 免费上传;Lab 付费托管 | 有 · prime-rl (INTELLECT-3 同栈) | 否 (ToolEnv 通用机制) | "env-as-Python-wheel" + 与训练器原生集成 |
| OpenEnv (Meta + HuggingFace) | 未公开 (2025-10 发布) | spec-first 开源协议 | 否 (是 spec,不是 trainer) | 未在公开来源确认 | 更像 "agent env 的 ONNX",定义抽象而非提供平台 — verifiers 已做 OpenEnv 兼容层 |
| Toolathlon-Gym (eigent-ai) | 57 server, 1,000+ task | 开源 | 有 (主打 RL gym 而非 bench) | 是 — MCP server 是核心 | 专攻 long-horizon MCP, 不通用 |
| MCP-Universe (Salesforce) | 11 server / 231 task | Apache-2.0 585★ | 有 (Hybrid + Fully-Async + verl GRPO) | 是 | framework 而非 bench;深度 MCP RL,但规模小 |
| AgentGym-RL | 27 任务,5 domain | 开源 | 有 · ScalingInter-RL 课程 | 否 | 27 个固定任务,不支持社区贡献 |
| Anthropic MCP Registry (官方) | 未公开 | 开放 spec, 免费 | 否 | 是 (本身就是 MCP) | "intentionally minimal" meta-registry,不托管,不训练 |
| Smithery | 7,300+ MCP server | Registry 免费 / Hosting 付费 | 否 | 是 | "Docker Hub for MCP" — 仅 server 分发,不训练 |
三句话总结:
- 想找 MCP server 用 Smithery / Anthropic Registry。
- 想测 MCP agent 用 MCP-Universe / Toolathlon / MCP-Atlas / BFCL。
- 想训 agent (含 MCP / 含通用 tool) 用 Prime Intellect Hub + prime-rl。
三个生态互补,不是替代关系 —— 但 Prime Intellect 是唯一覆盖"训"这一环的开源 / 社区平台。
8 · 商业模式 — Bounty / RFC / Research Stipend / per-token 计费
8.1 让社区贡献 env 的三个杠杆
- Bounties — 官方维护"open + in-progress" bounty 表 (Google Sheets)。blog 原文: "we'll figure something out based on the difficulty scale we're using." 暗示 ad-hoc 而非固定金额 (未在公开来源确认具体金额段)。
- RFCs — 同一张表上有"论文要做但还没人做"的 env idea 池。社区可以认领。
- Research stipend program — "applications for novel environments and evals" · 入选者拿"compute for running experiments, a stipend and support from our internal research team." 这是真金白银的 research grant,不是 token credit。RL Residency 项目据 Sequoia podcast,14-16 人,含研究生 + 全职贡献者。
8.2 Prime Intellect 自身的赚钱路径
| 产品 | 状态 | 商业模式 |
|---|---|---|
| Environments Hub | 免费 GA | 不直接收入,作为 funnel |
| verifiers SDK | 免费开源 MIT | 不直接收入 |
| prime-rl | 免费开源 Apache | 不直接收入 |
| Lab — Hosted Training | 2026-02 GA | per-token billing |
| Lab — Hosted Inference (LoRA) | GA | per-token billing |
| Lab — Sandboxes | beta | 未公开 (估计也是 usage-based) |
| GPU 算力 marketplace (传统业务) | 持续 | per-hour |
注意 Prime Intellect 仍保留早期的 GPU marketplace 业务 (P2P 计算租赁,INTELLECT-1 时代起家的产品)。Hub + Lab 是新业务线,与 GPU marketplace 是合作关系: 你可以在 Hub 找 env,在 marketplace 租 GPU,自己跑 prime-rl —— Lab 只是这个流程的"都不想管"托管方案。
8.3 与 NVIDIA 的合作
blog: "Leveraging NVIDIA to Build the Open Superintelligence Stack" —— 2026 年宣布合作,NVIDIA Dynamo stack 成为 Lab 推理基础。潜在含义: Prime Intellect 获得 NVIDIA 早期硬件 + 优先工程支持; NVIDIA 获得"NVIDIA stack 训出 INTELLECT-3 / 进入 100B 级 open-source 模型"的展示窗口。这是除 OpenAI/Anthropic 之外,NVIDIA 唯一深度绑定的 frontier-model 厂商。
9 · 本系列交叉参考
- models/#07 INTELLECT-2 — prime-rl 的前身 PRIME-RL 在此首次大规模上场
- models/#08 INTELLECT-3 — Hub 上 env + prime-rl 训出的 106B agentic MoE,本系列最直接"用户案例"
- #24 Smithery — MCP server 的"Docker Hub"; Prime Hub 是 agentic env 的"GitHub"。两者覆盖互补不重叠的层
- #27 ≤40B 小模型 MCP landscape — 那篇结论是"TOUCAN SFT 冷启 + ART MCP•RL 在线",现在加上 Prime Hub 后,recipe 可以升级为: TOUCAN SFT → 拉 Hub 上 MCP-flavored ToolEnv → prime-rl GRPO,单卡 H100 / 2-3 周
- #06 AgentGym-RL — 27 个固定任务的非社区版,Prime Hub 走完全相反的"社区贡献"路线
- #18 Agent World Model — code-driven 全合成 env,本质和 verifiers ToolEnv 同类
- #20 SETA — Docker 化 terminal env,可以 wrap 进 verifiers
SandboxEnv - #22 TOUCAN — 1.5M tool-agent SFT 数据,理想搭档作为 prime-rl SFT 起点
- #23 EnvScaler — 程序化合成 env,可以全套迁移到 verifiers
MultiTurnEnv子类
- #19 MCP-Atlas — eval-only,不能 train
- #21 MCP Benchmark 横评 — Toolathlon 是其中唯一 RL gym
- #25 MCP-Universe — 唯一目前确认能 GRPO 真训 MCP 的开源 framework,与 Prime Hub 覆盖不同抽象层级
- #26 MCP Bench 代码级深潜 — 4 套 verifier 风味互斥,Prime Hub 走的是 verifiers
Rubric风格 (函数列表 + 权重) - #28 BFCL — function-calling 事实标准 eval, Hub 上有 BFCL-derived env
- #29 ICLR 2026 Tune the Environment — "tune env 不 tune agent" 的范式 paper, Hub 提供的 "Actionable Env Augmentation" 实验场地
- #30 ACEBench — Hub 上若放入 ACEBench env, 可一键 prime-rl GRPO
10 · 开源清单 + 风险与诚实分析
10.1 开源资产盘点 (沿用 #24 / #27 表格风格)
| 资产 | License | Repo / URL | Stars | Code | Data | Pipeline |
|---|---|---|---|---|---|---|
| verifiers (SDK) | MIT | github.com/PrimeIntellect-ai/verifiers | 4,113 | ✓ | (env 自带 dataset) | ✓ (vf-eval) |
| prime-rl (训练器) | Apache-2.0 | github.com/PrimeIntellect-ai/prime-rl | 1,379 | ✓ | — | ✓ (configs/{sft,rl,infer,orch}) |
| prime (CLI + SDK) | Apache-2.0 (推断) | github.com/PrimeIntellect-ai/prime | 200 | ✓ | — | — |
| Environments Hub (env wheels) | 各 env 自定 (建议 MIT/Apache) | app.primeintellect.ai/dashboard/environments | n/a | ✓ (每个 env 单独) | ✓ (env 内置) | ✓ (vf-eval / prime-rl) |
| INTELLECT-3 模型权重 | 详 paper | HuggingFace primeintellect/INTELLECT-3 | n/a | — | — | — |
| blog/launch 公告 | (文档) | primeintellect.ai/blog/environments | n/a | — | — | — |
10.1.1 License 横向详细对比 (本系列各 repo 覆盖的 7 大类)
本系列 30+ 篇里出现的开源 license 共 7 大类。下表按"能不能商用 / 能不能闭源分发 / 改了要不要回馈 / 数据是否随权重"四条核心问题做精确对比。
| License | 商用 | 闭源分发 | 专利授权 | 修改回馈 | SaaS 闭环 | 归属署名 | 本系列实例 |
|---|---|---|---|---|---|---|---|
| MIT | ✅ | ✅ | ❌ 隐含 | ❌ 不要求 | ❌ 不要求 | ✅ 保留 copyright | verifiers · TOUCAN · Functionary · EnvScaler · prime CLI |
| Apache-2.0 | ✅ | ✅ | ✅ 显式 + 反诉撤销 | ❌ 不要求 | ❌ 不要求 | ✅ 保留 NOTICE | prime-rl · BFCL · SETA · xLAM 代码 · Hammer · MCP-Universe · AgentGym-RL · ART |
| BSD-3-Clause | ✅ | ✅ | ❌ | ❌ | ❌ | ✅ + 禁止用名字背书 | 少见,React 早期等 |
| LGPL-3.0 | ✅ | ⚠ 动态链接 OK,静态需开源 wrapper | ✅ | 修改库本身必须开源 | ❌ | ✅ | 少见于本系列 |
| GPL-3.0 | ✅ | ❌ 整个发行物必须 GPL | ✅ | ✅ 强制 (copyleft) | ❌ (SaaS 不算 distribute) | ✅ | 极少出现于现代 AI repo |
| AGPL-3.0 | ✅ | ❌ | ✅ | ✅ 强制 | ✅ 关闭 SaaS 漏洞 — 用户通过网络访问也要给源码 | ✅ | Smithery 部分服务端组件 · MongoDB 5.x |
| MPL-2.0 | ✅ | ✅ (per-file copyleft) | ✅ | 修改的文件要开源,新加的可闭源 | ❌ | ✅ | 少见 |
| CC-BY-4.0 | ✅ | ✅ | ❌ | ❌ | ❌ | ✅ | 很多 dataset (维基语料 / 学术 corpus) |
| CC-BY-SA-4.0 | ✅ | ⚠ 衍生物必须 CC-BY-SA | ❌ | ✅ share-alike | ❌ | ✅ | 部分 dataset · 注意训练后模型权重的传染性争议 |
| CC-BY-NC-4.0 | ❌ 非商用 | — | ❌ | ❌ | ❌ | ✅ | ⚠ xLAM 60K 数据 · Hammer 数据 — 训出来的模型不能商用(校订 2026-05-18: 之前点名的 ToolACE 实测是 Apache-2.0,不是 NC,见 #35) |
| Llama 3 Community | ⚠ 月活 ≥7 亿要单独申请 | ✅ (有限制) | ✅ | ❌ (但派生模型必须含 "Llama" 前缀) | ❌ | ✅ | 所有 Llama-3 派生模型 (含很多 fine-tune) |
| Gemma Terms | ✅ | ✅ | — | ❌ | — | 需附 Prohibited Use Policy | Gemma 系列 |
| OpenRAIL-M | ⚠ 商用 OK 但禁特定用途 (军事 / 监控 / 误导等) | ✅ | — | ❌ | — | ✅ | BLOOM · 部分扩散模型 |
| "Custom Research Only" | ❌ | — | — | — | — | — | UI-TARS-2 主线权重 · 早期 LLaMA-1 · 部分 ByteDance/百川 发布 |
关键差异四条总结(给"训模型 + 发模型"的人)
① MIT vs Apache-2.0 的唯一实质差别 = 专利授权
从用户视角:几乎一样,都允许闭源分发、不要求开源修改。Apache-2.0 多了"贡献者授予专利许可,且若你起诉贡献者侵犯专利,你的许可立即终止"。这条对企业级训练栈(prime-rl / verl / Megatron / SETA / MCP-Universe)是必备的;对纯研究库(verifiers / TOUCAN 数据加载脚本)MIT 已经够用。 选 Apache 的代价: 必须分发 NOTICE 文件 + 标明你修改了什么。
② 数据集的 NC 条款会"穿透"到模型权重 — 这是本系列读者最容易踩的坑
xLAM-60K (Salesforce) / Hammer-data (ByteDance) 是 CC-BY-NC-4.0。法理学界对"训练用了 NC 数据 → 模型权重是否 NC"仍有争议(Salesforce / Hugging Face 立场不一),但实务上几乎所有 frontier lab 都把它视为传染 —— 你用 xLAM-60K SFT 出来的模型,商业部署有法律风险。规避方法: (a) 改用 TOUCAN(Apache-2.0 数据)/ ToolACE(Apache-2.0)/ APIGen Open(Apache);(b) 把 NC 数据的 contribution 降到 reward signal 而非 token 监督。校订 2026-05-18: 早期版本把 ToolACE 也列入 NC 阵营是错误,实测 Team-ACE/ToolACE HF dataset 自标 Apache-2.0 (curl 验证),见 #35 ToolACE。
③ AGPL vs GPL 的 SaaS 漏洞
GPL 只在"distribute"时触发 copyleft —— 跑 SaaS 不算 distribute,所以 OpenAI 可以闭源跑 GPL 库。AGPL 把"通过网络给用户提供服务"也算 distribute,所以 SaaS 也要给源码。在本系列里 Smithery 的服务端组件就是 AGPL,这是它逼竞争对手"要么开源,要么付费授权"的护城河手段。verifiers / prime-rl 都不用 AGPL —— 因为它们要让 Lab 平台自己闭源运营。
④ Llama Community License ≠ open source(OSI 不承认)
核心限制有三条: (a) 月活 ≥ 7 亿用户的公司要单独找 Meta 谈;(b) 派生模型名字必须以 "Llama" 开头(Llama-3.1-MyAgent 而不能叫 MyAgent);(c) 不能用 Llama output 训竞争 LLM(条款 1(b)(v))—— 这条形式上禁止你用 Llama 蒸馏出新模型再独立分发。Qwen Apache-2.0(Qwen3 系列)和 DeepSeek MIT(权重)没有这些限制,这是 2025 年中文开源模型在 fine-tune 生态里反超 Llama 的关键 license 优势。
给本系列读者的 license 决策树
你的最终产品是?
├─ 学术 paper (不部署)
│ └─ 任何 license 都可以,引用即可
├─ 开源 fine-tune 模型 (HF 公开)
│ ├─ 训练栈/数据: MIT 或 Apache-2.0 优先
│ ├─ 避免 CC-BY-NC 数据 (xLAM-60K / Hammer-data) — ToolACE 实测 Apache-2.0 误判已更正
│ ├─ 基座是 Llama 3 → 名字必须含 "Llama" 前缀
│ └─ 基座是 Qwen3 / DeepSeek / Mistral → 无文本限制
└─ 闭源商业部署 (公司内部 / SaaS)
├─ 训练栈: ✅ MIT / Apache-2.0 / BSD
├─ 训练栈: ❌ 避开 GPL / AGPL (除非整个产品愿意开源)
├─ 基座: 选 Apache-2.0 模型 (Qwen3 / OLMo / DeepSeek-V3)
├─ 数据: 用 Apache/MIT 数据 (TOUCAN / EnvScaler / SETA tasks)
└─ Llama 3 商业部署: 月活 ≥ 7 亿需联系 Meta;否则直接用
本系列在 license 上的"安全栈"推荐: Qwen3-8B-Base (Apache-2.0) + TOUCAN SFT (Apache-2.0) + verifiers (MIT) + prime-rl (Apache-2.0) + BFCL eval (Apache-2.0) —— 全栈商业 friendly,无 license 传染、无 NC 数据、无 Llama 前缀强制。这套是 2026 年能直接部署到生产的开源全套方案。
10.2 与 OpenAI/Anthropic 闭源 RL 基建的诚实对比
OpenAI 内部有 codex-eval + swe-rebench + 完整 RLHF/RLAIF 流水线 (从 paper / system card 推断,未公开 codebase);Anthropic 同理有内部 environment harness + Sonnet/Opus 训练用 RL gym。这些从不开放。Prime Intellect 的整体策略就是把 verifiers + prime-rl + Hub 三件套开源,赌"开源生态规模效应 > 单一闭源 lab"。这条赌注的历史先例是 PyTorch / vLLM / SGLang —— 都用了 5-8 年把闭源对手追平甚至超过。Prime Intellect 在训练栈能否同样成功,要看 2026-2028 三年。
10.3 risk 与 caveat
- 1,000+ env 的质量方差极大 — 类比 Smithery 的 7K servers / TOUCAN 实际只能用 17%。Hub 上"能跑通 vf-eval 且 reward 信号干净"的 env 很可能不到一半 (未公开统计,但基于 Smithery 经验合理推断)。
- MCP 类已确认存在,但 Hub UI 上 enumerate 仍受限 — 校订后:verifiers 主线
experimental/mcp_env.py与 v1MCPToolConfig均存在(见 §2.2 校订框)。但 Hub 上"MCP 风味" env 的精确数量仍需登录才能搜索 —— 已知 fixture 类(如terminal-bench)有现成 env,具体多少 MCP-server 直接挂载的 env 待确认。要 MCP RL 当下可选: 用verifiers.envs.experimental.MCPEnv+ prime-rl,或 #25 MCP-Universe verl 栈。 - Lab 付费层 lock-in — per-token 计费在 LoRA 范畴友好,一旦你的训练 run 依赖 Prime Dynamo 多租户基础设施,迁移到自建 cluster 不是简单 export checkpoint 那么轻。切换成本中等。
- "INTELLECT-3 同栈"是营销也是事实 — 同栈不代表你能复现 INTELLECT-3 (你没那 2,048 GPU + 那个数据集)。社区能复现的是 8B-32B 规模 RL,这与"训出 106B agentic MoE"差两个数量级。
- Hub 治理还在早期 — 没有像 PyPI 的 yank policy,没有 vulnerability scan,env 里跑任意 Python 代码 (尤其 PythonEnv/SandboxEnv) 有供应链风险。生产环境 install 前
prime env inspect <hub-id>看源码是必须的。 - OpenEnv 兼容是单向的 — verifiers 能 wrap OpenEnv,但 OpenEnv 不能反过来 wrap verifiers (后者的 async + final rollout 设计无法 reduce 到 step()-风格)。如果生态最终倒向 Meta+HF 的 OpenEnv,Prime Hub 的 env 仍可被消费;反向迁移则有风险。
10.4 给本系列读者的一句话
如果你 2026 年要做 ≤40B 小模型 agentic RL (含 tool-use / MCP / browser / code),Prime Intellect Hub + verifiers + prime-rl 是当下唯一开源全栈方案。具体 recipe:
- #22 TOUCAN 1.5M SFT 数据冷启 →
uv run sft @ configs/sft/touchan.toml prime env install primeintellect/<your-task>拿 envuv run trainer @ configs/rl/<task>.tomlGRPO 2-3 周 / 1 H100- 用 #28 BFCL + #19 MCP-Atlas + #25 MCP-Universe 三个 leaderboard 评测
这套 recipe5 个月前 (2025-12) 在工程上根本不存在。是 Prime Intellect 一家公司用 9 个月把它从"spec + repo"做到"5 行命令上手"。这是2025-2026 agentic RL 在工程层最重大的变化,胜过任何单篇 paper。
来源清单 (Raw URLs)
- https://app.primeintellect.ai/dashboard/environments (Hub UI 首页)
- https://www.primeintellect.ai/blog/environments (2025-08-27 launch blog)
- https://www.primeintellect.ai/blog/lab (Lab 介绍)
- https://www.primeintellect.ai/blog/lab-is-open (2026-02-10 GA 公告)
- https://docs.primeintellect.ai/verifiers/environments
- https://docs.primeintellect.ai/hosted-training/what-is-lab
- https://github.com/PrimeIntellect-ai/verifiers (SDK)
- https://github.com/PrimeIntellect-ai/prime-rl (训练器)
- https://github.com/PrimeIntellect-ai/prime (CLI)
- https://github.com/PrimeIntellect-ai/verifiers/blob/main/verifiers/envs/multiturn_env.py
- https://github.com/PrimeIntellect-ai/verifiers/tree/main/verifiers/envs/integrations
- https://huggingface.co/blog/anakin87/environments-hub (alphabet-sort full walkthrough)
- https://x.com/PrimeIntellect/status/1960783427948699680 (launch tweet)
- https://x.com/PrimeIntellect/status/1964270515541201374 ("100+ envs in 1 week")
- https://sequoiacap.com/podcast/building-the-github-for-rl-environments-prime-intellects-will-brown-johannes-hagemann/ (Will Brown / Johannes Hagemann 对谈)
- https://medium.com/@alaminibrahim433/building-your-first-prime-intellect-environment...
- https://www.mintlify.com/primeintellect-ai/verifiers/cli/env-init
- https://www.primeintellect.ai/blog/nvidia-collaboration