调研 · Prime Intellect Environments Hub — agentic RL 的 GitHub

公司: Prime Intellect (Vincent Weisser CEO · Johannes Hagemann CTO · Will Brown 研究负责人)
Hub: app.primeintellect.ai/dashboard/environments · Blog: /blog/environments · Docs: docs.primeintellect.ai
关键 repo: verifiers (4.1K★) · prime-rl (1.4K★) · prime (CLI) (200★)
Hub 启动: 2025-08-27 · Lab 平台 GA: 2026-02-10 · 关键词: verifiers · prime-rl · LoRA · INTELLECT-3 · agentic RL gym

速读卡片 (TL;DR)

一句话: Prime Intellect Environments Hub 是 2025-08-27 上线的"agentic RL environments 的 GitHub" —— 用一个 pyproject.toml 把"dataset + harness + reward"打成 Python wheel,prime env push/pull/install 像 npm/PyPI 一样在社区里流转。9 个月后 (截至 2026-05),官方公开数字: 1,000+ environments · 250+ creators · 100,000+ downloads。配套的开源 SDK verifiers (4,113★, MIT) 提供 SingleTurnEnv / MultiTurnEnv / ToolEnv / StatefulToolEnv / BrowserEnv / OpenEnv integration 与 v1 Env(taskset, harness) API; prime-rl (1,379★, Apache-2.0) 提供完全异步、1000+ GPU 规模、INTELLECT-3 同款的训练栈。

1,000+

environments (2026-05 官方数字)

250+

creators

100,000+

cumulative downloads

~9 个月

自 2025-08-27 launch 至今

立场: 如果说 #24 Smithery 是 MCP server 的 Docker Hub(注册中心 + 托管运行时),那 Prime Intellect Hub 就是 RL environment 的 GitHub(版本化 + 可安装 + 与训练器原生集成)。两者解决完全不同的问题: Smithery 提供"主题 / metadata 来源",Hub 提供"可直接 RL train 的 gym"。对本系列读者最关键的是: verifiers SDK 真的把"写一个 env"压到了 30 行 Python,且能立刻通过 vf-eval 评测、通过 prime-rl GRPO 训练 —— 这是INTELLECT-2 / INTELLECT-3 论文使用的同一栈。诚实警示: 1,000 个 env 的质量方差极大; 真正"能 RL train 出来的"远不到这个数; MCP 环境数量在 Hub UI 上无法直接 enumerate (未在公开来源确认精确数);商业化的 Lab 平台 (2026-02-10 GA) 走 per-token 计费,beta 阶段只支持agentic RL + LoRA,full-finetune / SFT / GEPA / GKD / DPO 列为 "near future"。

1 · 是什么 / 在 agentic RL 生态里的位置

1.1 一句话定位

Prime Intellect 是 2024 年靠 INTELLECT-1 (去中心化预训练) 出圈、2025 年靠 INTELLECT-2 (去中心化 RL + TOPLOC + SHARDCAST) 站稳、2025-12 用 INTELLECT-3 (106B MoE agentic RL) 完成"务实转向"的去中心化 AI lab。Environments Hub 是它2025-08-27 的产品化拐点 — 把内部为训自家模型而写的"agent gym"开放给社区,反过来把社区贡献的 gym 拿回来训自己的下一代模型。这是data flywheel 的工业化。

官方原话 (blog/environments, 2025-08-27):

"RL environments are the key bottleneck to the next wave of AI progress, but big labs are locking them down. We built a community platform for crowdsourcing open environments, so anyone can contribute to open-source AGI." —— Prime Intellect on X, 2025-08-26

"Create, manage and share environments for reinforcement learning and evaluation." —— Hub 首页

1.2 三层栈一图

图 1: Prime Intellect 完整 agentic RL 栈 — ① verifiers SDK 写 env → ② 通过 prime CLI 上传到 Hub 分发 (1,000+ env) → ③ prime-rl 异步训练器消费 env 做 GRPO/PPO,与 INTELLECT-2/3 训练同栈 → ④ Lab 是把 ①②③ 全部 hosted 的付费层,2026-02-10 才 GA。

1.3 为什么"本系列读者必须看"

本系列 #06 / #18 / #22 / #23 / #25 / #26 / #27 / #29 / #30 共 9 篇都在讨论"agentic RL 的 environment 从哪里来 / 怎么写 / 怎么训"。这个问题在不同 paper 里被拆成: TOUCAN 用 Smithery 真实 MCP server (#22) / EnvScaler 用 Python class 程序合成 (#23) / SETA 用 Docker 化 terminal 任务 (#20) / AWM 用 code-driven synthetic (#18) / MCP-Universe 才把 GRPO+verl 真做了 (#25)。Prime Intellect Hub 是 6 个月内出现的"第一个真正成型的、第三方可贡献的、与训练器原生集成的" agentic RL gym 集散地,是上述所有 paper 在工程层的"事实出口"。如果你想训 ≤40B 小模型做 MCP/tool/agent,2026 年的默认起点就是 uv tool install prime && prime env install ...。

2 · verifiers SDK 深潜 — SingleTurnEnv / MultiTurnEnv / Env v1

本节是本笔记的核心。verifiers 是把#19 RL 框架横评里"env 抽象"这个空白真正填上的库。

2.1 Repo 速查

Repo: github.com/PrimeIntellect-ai/verifiers

License: MIT · Stars: 4,113 · Forks: 547 · Open issues: 201 (2026-05-17 API 查询)

最新 release: v0.1.15.dev7 (2026-05-15)

历史脉络: 最初是 Will Brown (现 Prime Intellect 研究负责人) 个人项目 willccbb/verifiers,2025 年迁到 PrimeIntellect-ai 组织,成为 Hub 的 official SDK。

2.2 文件树 (`verifiers/envs/`)

verifiers/envs/
├── environment.py         # Environment 基类
├── singleturn_env.py      # SingleTurnEnv
├── multiturn_env.py       # MultiTurnEnv
├── tool_env.py            # ToolEnv (JSON tool-call loop)
├── stateful_tool_env.py   # StatefulToolEnv (state-mutating tools)
├── python_env.py          # PythonEnv (code execution gym)
├── sandbox_env.py         # SandboxEnv (隔离执行)
├── env_group.py           # EnvGroup (多 env 组合)
├── experimental/          # ⭐ 大货全在这里
│   ├── mcp_env.py             # ⭐ MCPEnv — 用官方 mcp.ClientSession + StdioServerParameters
│   ├── cli_agent_env.py       # ⭐ CliAgentEnv — 跑在 prime_sandboxes + prime_tunnel
│   ├── harbor_env/
│   │   ├── env.py             # Harbor 任务目录格式 (SWE-bench-style)
│   │   └── mcp.py             # ⭐ Harbor + MCP 混合
│   ├── opencode_env.py        # OpenCode CLI agent
│   ├── opencode_qa_env.py
│   ├── opencode_rlm_env.py
│   ├── rlm_env.py             # Recursive LM (172 KB,大型实现)
│   ├── gym_env.py             # OpenAI Gym 风格适配
│   └── sandbox_mixin.py       # Sandbox 生命周期管理
└── integrations/
    ├── browser_env/       # BrowserEnv (子目录,DOM via Stagehand / CUA via Docker on Browserbase)
    ├── openenv_env.py     # OpenEnvEnv (Meta+HF OpenEnv 兼容层,支持 MCP 契约)
    ├── reasoninggym_env.py # ReasoningGymEnv
    └── textarena_env.py    # TextArenaEnv (Wordle 等文字游戏)

⚠ 校订 (2026-05-17): 早期版本说"主线无 MCPEnv 类",此说法错误。实测 verifiers/envs/experimental/mcp_env.py 第 1 行即 from mcp import ClientSession, StdioServerParameters —— 用的是 Anthropic 官方 MCP Python SDK 的 stdio 传输,内含 MCPServerConfig dataclass (支持 command / args / env 三件套) 与 MCPServerConnection 类。多 server 并行接入是标准实现。同时 harbor_env/mcp.py 提供 Harbor + MCP 混合形态。verifiers 主线确实把 MCP 当一等公民支持,只是处在 experimental/ 命名空间还未升级到 stable API。同样 v1 config 里有 MCPToolConfig 和 MCPTool,说明 MCP 已下沉到 v1 一等公民层。

2.2.1 CLI / Browser / Docker / MCP 形态总览

形态	verifiers 类	底层	Docker / 模拟器
CLI / terminal agent	`CliAgentEnv` · `Terminus2` · `OpenCode`	prime_sandboxes + prime_tunnel	✅ Docker 容器 (Prime Sandbox)
浏览器 (DOM)	`BrowserEnv(mode="dom")`	Stagehand SDK	无头 Chromium
浏览器 (vision/CUA)	`BrowserEnv(mode="cua")`	Browserbase + Docker image `deepdream19/cua-server:latest`	✅ Docker (自动部署到 Browserbase sandbox)
MCP server	`MCPEnv` (experimental) · `harbor_env/mcp.py`	官方 `mcp.ClientSession` + stdio	视 server 而定 (Smithery hosted / 本地 stdio)
SWE-bench-style 代码任务	`HarborTaskset` + `OpenCode` harness · `MiniSWEAgent`	Docker harbor 任务目录	✅ Docker
OpenEnv 兼容	`OpenEnvEnv`	Meta OpenEnv async client	✅ Docker via `vf-build`
文字游戏	`TextArenaEnv`	TextArena lib	无
数学/推理生成器	`ReasoningGymEnv`	reasoning-gym lib	无
桌面 GUI (Win/macOS)	❌ 未提供 — 不重叠 #16 / #17 那条线
移动端 (Android/iOS)	❌ 未提供 — 无 ADB/AVD/Appium

Docker 三处出现: ① Browserbase Chromium 预制 image · ② vf-build 用户自定义 image · ③ prime_sandboxes 通用沙箱(CLI / 代码 / MCP server 都能套)。没有任何手机模拟器或桌面 OS VM —— 这是 hub 与 #17 UI-TARS-2 / #14 ClawGUI 的根本不同。

2.3 SingleTurnEnv — 最低门槛

用于"一次 prompt → 一次 response → 一次 score"任务 (数学 / 代码 / QA)。最小例子:

import verifiers as vf
from datasets import load_dataset

dataset = load_dataset("gsm8k", "main", split="train")

def correct_answer_reward(completion, answer, **kwargs):
    return 1.0 if extract_final(completion) == answer else 0.0

rubric = vf.Rubric(funcs=[correct_answer_reward])
env = vf.SingleTurnEnv(dataset=dataset, rubric=rubric)

# 立刻可以评测
results = env.evaluate(client=client, model="gpt-4.1-mini",
                       num_examples=20, rollouts_per_example=5)

Rubric 是一组 reward functions 的容器 —— 可以叠加 format reward / process reward / outcome reward,verifiers 会按权重合并。这与 #19 中讨论的 "process supervision" 设计同源。

2.4 MultiTurnEnv — agentic 主力 (verbatim 签名)

用于"多轮对话 / agent loop"任务 (Wordle / 2048 / 浏览 / 工具调用)。从 main 分支直接抓取的类签名:

class MultiTurnEnv(vf.Environment):
    def __init__(
        self,
        max_turns: int = -1,
        timeout_seconds: float | None = None,
        **kwargs,
    ):
        ...

    @abstractmethod
    async def env_response(
        self, messages: Messages, state: State, **kwargs
    ) -> Messages:
        """Given the conversation so far, return the next environment message."""

    @abstractmethod
    async def is_completed(
        self, messages: Messages, state: State, **kwargs
    ) -> bool:
        """Return True if rollout should stop."""

    @final
    async def rollout(self, ...):
        # 内部循环: client → env_response → is_completed → break
        ...

写一个新 env 只需子类化并实现 env_response + is_completed。关键设计选择:

@final 锁定 rollout — 用户不能 override 主循环,只能定义"环境对 agent 说话"与"什么时候停"。这是 verifiers 与 OpenAI Gym 的本质差别 (Gym 用 step() 风格,这里用对话 message 风格)。
async 原生 — 配合 prime-rl 的全异步 rollout,1000+ 并发不掉性能。
@vf.stop 装饰器 — 标记可被 stop 的条件 (max_turns 到了 / 超 token / 超 wall-clock),由 framework 统一处理。

2.5 完整 Wordle MultiTurnEnv 示例 (摘自 README)

class WordleEnv(vf.MultiTurnEnv):
    def __init__(self, words: list[str], max_turns: int = 6):
        super().__init__(max_turns=max_turns)
        self.words = words

    async def env_response(self, messages, state, **kwargs):
        guess = extract_guess(messages[-1]["content"])
        target = state["target"]
        feedback = score_guess(guess, target)   # "🟩🟨⬜⬜⬜" 之类
        state["history"].append((guess, feedback))
        return [{"role": "user", "content": feedback}]

    async def is_completed(self, messages, state, **kwargs):
        return state["history"] and state["history"][-1][0] == state["target"]

def load_environment(**kwargs):
    return WordleEnv(words=load_word_list(), max_turns=6)

整个 env 不到 20 行。reward function 写在 Rubric 里 (是否猜中 / 用了几轮),通过 vf-eval wordle -m <model> 立即评测,通过 uv run trainer @ configs/rl/wordle.toml 立即 GRPO 训练。

2.6 v1 Env API — Taskset + Harness 解耦

2026 年逐步推广的 v1 API 把 "任务定义" 和 "agent 怎么跑" 解耦了:

def load_taskset(config: vf.TasksetConfig) -> vf.Taskset:
    return vf.Taskset(source=source, rewards=[reward_fn], config=config)

def load_environment(config: vf.EnvConfig) -> vf.Env:
    return vf.Env(taskset=load_taskset(config=config.taskset))

不传 harness 时默认 endpoint-backed harness (HTTP 调 LLM API)。要接 CLI agent (例如 OpenCode):

env = vf.Env(
    taskset=vf.HarborTaskset(),
    harness=vf.OpenCode(),    # Harbor 任务目录的 CLI harness
)

OpenCode 是 verifiers 对 SST opencode CLI 的 wrapper,允许把"真的 coding agent"插到 RL loop 里;Harbor 是 Prime Intellect 自家的任务目录格式 (类似 SWE-bench 的 instance 格式)。

2.7 BrowserEnv — 浏览器 gym

在 verifiers/envs/integrations/browser_env/,Playwright-based,提供 click / type / scroll / read_page 工具,用于训练浏览器 agent。与 #17 UI-TARS-2 的 GUI 抽象同类,但 verifiers 更轻量 (DOM 而非 screenshot)。

2.8 OpenEnv 桥接

integrations/openenv_env.py 是 verifiers 对 OpenEnv (Meta + HuggingFace 2025-10 发布的 agentic env 标准) 的兼容层。一个 OpenEnv 项目可以直接 wrap 成 verifiers Env,做到"一次写,两栈训"。这条桥接对生态意义巨大 —— 它把 Prime Intellect Hub 和 HF Datasets-style 分发兼容起来。

3 · prime-rl 训练栈 — 与 INTELLECT-2/3 的关系

3.1 Repo 速查

Repo: github.com/PrimeIntellect-ai/prime-rl · License: Apache-2.0 (注意比 verifiers 的 MIT 更宽松条款,主要因为含 Modal/Slurm 模板需要专利条款)

Stars: 1,379 · Forks: 290 · Open issues: 111 (2026-05-17)

定位: "Agentic RL Training at Scale" — fully async, 1000+ GPU

3.2 四进程架构

prime-rl 把训练拆成四个独立进程,通过 toml config 编排:

uv run sft         @ configs/debug/sft/train.toml    # 监督微调
uv run trainer     @ configs/debug/rl/train.toml      # GRPO/PPO/RLVR
uv run inference   @ configs/debug/infer.toml         # vLLM 推理服务
uv run orchestrator @ configs/debug/orch.toml         # async rollout 调度

关键技术 stack:

FSDP2 — 训练并行
vLLM — 推理引擎
FP8 inference — H100/H200/B200 友好
PD disaggregation — prefill / decode 解耦 (与 NVIDIA Dynamo 配套)
Expert parallelism + Context parallelism — 训 1T+ MoE
Slurm + Kubernetes 双 deploy
Multimodal (Qwen3-VL) 支持

3.3 与 INTELLECT-2 / INTELLECT-3 的血缘

代次	训练栈	本系列笔记
INTELLECT-1 (2024-12)	DiLoCo + int8 ring all-reduce (预训练,不涉 RL)	models/#01
INTELLECT-2 (2025-05)	PRIME-RL 的原型 + TOPLOC + SHARDCAST (去中心化 RL)	models/#07
INTELLECT-3 (2025-12)	prime-rl 三件套 + IcePop · 106B GLM-4.5-Air-Base 上做 agentic RL	models/#08
INTELLECT-3.1 (2026 H1)	同 prime-rl, 32-2,048 GPU recipe 已在 README "advanced examples" 公开	(未单独成笔记)

关键洞见: prime-rl 不是为了"让社区训玩具模型"而存在,它就是INTELLECT-3训练用的同一份代码。这意味着你在 Hub 上拉一个 env,用 prime-rl GRPO 训 Qwen3-8B,跑的 RL recipe 与 Prime Intellect 训 106B 模型的是同一套,只是 GPU 数从 2,048 缩到 2-8。recipe 透明度是 #25 MCP-Universe / #18 AWM 无法比拟的优势。

3.4 与 verifiers Hub 的集成点

prime-rl 在 README 明确写: "Native integration with verifiers environments through the Environments Hub." 实际机制是 trainer config 里直接写 hub-id:

[env]
id = "primeintellect/alphabet-sort@0.1.5"
# orchestrator 启动时执行 prime env install 一次,
# 然后 rollout worker 直接 import 该 env 调用 .rollout()

这就是"从 Smithery JSON catalog → Prime Hub Python wheel"的本质提升 —— 后者不需要二次包装,直接 import 即用。

4 · `prime env` CLI — init / push / pull 完整流程

4.1 安装

curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install prime
uv tool update-shell

4.2 `prime` CLI 全命令树

从 PrimeIntellect-ai/prime repo (200★) 抓取的完整命令树:

prime lab           # 工作区: 一站式 env / eval / GEPA / training
prime train         # 托管训练
  ├ models          # 可训模型列表 + 容量定价
  ├ init            # 生成 training config
  ├ list            # 训练 run 列表
  ├ logs            # run 日志
  ├ metrics         # run 指标
  └ checkpoints     # 取 checkpoint
prime env           # ★ Hub 操作
  ├ list            # 浏览 hub
  ├ info <hub-id>   # 查看元数据
  ├ inspect         # 看源码
  ├ install         # 本地安装
  ├ init            # 创建新 env 模板
  └ push            # 发布到 Hub
prime availability  # GPU 资源
  ├ list
  └ gpu-types
prime pods          # 计算 pod
  ├ list / create / status / terminate / ssh
prime eval          # 评测管理
  ├ push / list / get / samples
prime config
  └ set-api-key / set-ssh-key-path / view
prime teams
  └ list / switch

4.3 完整 env 开发周期 (从 init 到 push)

Step 1: `prime env init`

prime env init my-env
# 生成:
# environments/my_env/
# ├── my_env.py          # env 实现
# ├── pyproject.toml     # ★ Hub metadata + 依赖
# └── README.md          # 文档模板

带 v1 harness 模板:

prime env init my-env --with-harness

Step 2: pyproject.toml 是 Hub 的 metadata 协议

[project]
name = "my-env"
description = "My custom environment"
tags = ["single-turn", "math", "train", "eval"]
version = "0.1.0"
requires-python = ">=3.10"
dependencies = [
    "verifiers>=0.1.8",
]

[build-system]
requires = ["hatchling"]
build-backend = "hatchling.build"

[tool.hatch.build]
include = ["my_env.py", "pyproject.toml"]

[tool.verifiers.eval]
num_examples = 20
rollouts_per_example = 5

关键洞察: tags 字段就是 Hub 搜索/过滤的 facet (single-turn / multi-turn / math / code / browser / agentic / eval / train),[tool.verifiers.eval] 是默认评测配置 —— 这是把"env 怎么用"也版本化的设计,胜过 Smithery 仅存 server URL。

Step 3: 本地装并自测

prime env install my-env -p ./environments
uv run vf-eval my-env -m gpt-4.1-mini -n 5 -r 3

Step 4: 推到 Hub

prime env push --path ./environments/my_env
# Hub 端: hatchling build → wheel 上传 → 索引化 → 出 hub-id (例如 myuser/my-env@0.1.0)

Step 5: 别人 pull 你的 env

prime env install myuser/my-env@0.1.0
# 等同 pip install,放到当前 .venv,可以直接 import

4.4 Discovery — 怎么找到 env

Web UI: app.primeintellect.ai/dashboard/environments — 按 tag / popularity / recent 浏览
CLI: prime env list + 过滤 flag (未在公开来源完整确认 flag 列表)
API: Hub 有 REST 接口,但官方未完整公开 OpenAPI spec (未在公开来源确认 endpoint 全集)

5 · Hub 内容盘点 — 类目与 MCP 现状

5.1 已知的类目 (从官方 blog + HF blog + UI 截图归纳)

类目	典型 env	来源
Math / Reasoning	`gsm8k`, `aime-25`, `math-500`, theorem proving	blog 2025-09-06 公告 "100+ envs in week 1"
Code / SWE	`terminal-bench`, kernel-generation, SWE-bench instances	HF blog @anakin87
Simple games (SFT/RL 起步)	`alphabet-sort`, `wordle`, `2048`, `reverse-text`	verifiers README + prime-rl debug configs
Browser / GUI	browser-use envs (BrowserEnv 衍生)	blog 公告
Scientific QA	科学 QA 多个 env	blog 公告
Agentic / Tool-use	tool-calling 任务 (BFCL-derived 等)	verifiers ToolEnv 链路
MCP-flavored	存在但数量未在公开来源确认	see §5.2

5.2 MCP 环境现状 (谨慎结论)

校订后结论 (2026-05-17): 早期版本的"主线无 MCPEnv"错误已修正(见 §2.2 校订框)。重新整理已确认事实:

verifiers 主线 有 experimental/mcp_env.py(9 KB),用 Anthropic 官方 mcp SDK 的 ClientSession + StdioServerParameters,MCPServerConfig(name, command, args, env) 多 server 并发接入
v1 一等公民 API 里有 MCPToolConfig 与 MCPTool(verifiers/v1/__init__.py 显式 export),说明 MCP 已下沉到 stable API 层
verifiers/envs/experimental/harbor_env/mcp.py(12 KB)提供 Harbor + MCP 混合形态 —— 把 SWE-bench-style 任务目录里的 server 也用 MCP 协议拉起
Hub UI 上"MCP 风味"环境的精确数量仍无法 enumerate —— 主页 SSR + login-gated;/api/environments 与 api.primeintellect.ai/v1/environments 均返回 {"detail":"Not Found"},需 auth token

实务建议: 若要训 MCP 能力,可直接 from verifiers.envs.experimental.mcp_env import MCPEnv,传一组 MCPServerConfig;若需 RL 训(GRPO/PPO),把这个 env 接到 prime-rl trainer 即可。另一条路线 #25 MCP-Universe 的 verl 栈仍可用,但与 prime-rl 不同栈。

5.3 推荐起步 env (从公开材料筛)

primeintellect/alphabet-sort@0.1.5 — HF blog 全流程 walkthrough 用的 env, ~8 小时 2×A6000 GRPO 训 Qwen3-0.6B 把 reward 从 0.403 提到 0.578 (+43%)
primeintellect/wordle — MultiTurnEnv 教科书例子
primeintellect/aime-25 — 数学 eval baseline
primeintellect/terminal-bench — agent in real terminals,可与 #20 SETA 对照

6 · Lab 平台 — Hosted Training + Sandboxes (付费)

6.1 时间线

2025-08-27 · Environments Hub launch (free, open)

2025 Q4 · Lab private beta · "more than 3,000 RL runs" 在 beta 阶段完成

2026-02-10 · Lab 公开 GA · blog: "Releasing Lab: the training platform for self-improving agents"

6.2 Lab 包含什么

blog 原文 (2026-02-10):

"Lab unifies the Environments Hub with Hosted Training and Hosted Evaluations into a full-stack platform for research and optimization."

组件:

Environments Hub (免费,沿用)
Hosted Training (付费) — "agentic RL with LoRA, built atop our prime-rl training library". SFT + GEPA + GKD + DPO 列为 "near future"
Sandboxes (beta) — "for secure code execution"
Hosted Evaluations — 一键评测某 env 上的 model
Inference — "dedicated or serverless inference for custom models, with native LoRA support" · 基于 NVIDIA Dynamo stack

6.3 商业拐点: per-token 而非 cluster-hour

"Lab offers per-token pricing, moving away from traditional cluster-hour billing to enable cost efficiency through shared hardware across runs." —— blog/lab-is-open

这是关键差异化 —— 同期 Replicate / Together / Fireworks / Modal 走 GPU-hour 或 token (推理) 计费,但训练端走 token 计费的极少。Prime Intellect 能这样定价是因为它多租户共享 LoRA inference 集群 (NVIDIA Dynamo 的 PD-disagg + EP),底层 GPU 利用率高。

limitation 实情: Lab beta 阶段限制颇多 (基于 2026-02 公告):

训练只支持 LoRA, full-finetune 不行 — 对 ≤40B 小模型 MCP 微调够用,对大改 base model 行为不够
只支持 agentic RL,SFT/DPO 还要等
支持的 base model 是 有限白名单 (从 prime train models 查),非任何 HF model 都行
Sandboxes 仍 beta — 安全/隔离机制未做 SOC2-equivalent 公示

7 · 横向对比 — Hub vs OpenEnv vs Toolathlon-Gym vs MCP-Universe …

平台	规模	开放程度	是否有 RL 训练栈	MCP 一等公民	核心差异
Prime Intellect Hub	1,000+ env (2026-05)	开源 SDK (MIT/Apache);Hub 免费上传;Lab 付费托管	有 · prime-rl (INTELLECT-3 同栈)	否 (ToolEnv 通用机制)	"env-as-Python-wheel" + 与训练器原生集成
OpenEnv (Meta + HuggingFace)	未公开 (2025-10 发布)	spec-first 开源协议	否 (是 spec,不是 trainer)	未在公开来源确认	更像 "agent env 的 ONNX",定义抽象而非提供平台 — verifiers 已做 OpenEnv 兼容层
Toolathlon-Gym (eigent-ai)	57 server, 1,000+ task	开源	有 (主打 RL gym 而非 bench)	是 — MCP server 是核心	专攻 long-horizon MCP, 不通用
MCP-Universe (Salesforce)	11 server / 231 task	Apache-2.0 585★	有 (Hybrid + Fully-Async + verl GRPO)	是	framework 而非 bench;深度 MCP RL,但规模小
AgentGym-RL	27 任务,5 domain	开源	有 · ScalingInter-RL 课程	否	27 个固定任务,不支持社区贡献
Anthropic MCP Registry (官方)	未公开	开放 spec, 免费	否	是 (本身就是 MCP)	"intentionally minimal" meta-registry,不托管,不训练
Smithery	7,300+ MCP server	Registry 免费 / Hosting 付费	否	是	"Docker Hub for MCP" — 仅 server 分发,不训练

三句话总结:

想找 MCP server 用 Smithery / Anthropic Registry。
想测 MCP agent 用 MCP-Universe / Toolathlon / MCP-Atlas / BFCL。
想训 agent (含 MCP / 含通用 tool) 用 Prime Intellect Hub + prime-rl。

三个生态互补,不是替代关系 —— 但 Prime Intellect 是唯一覆盖"训"这一环的开源 / 社区平台。

8 · 商业模式 — Bounty / RFC / Research Stipend / per-token 计费

8.1 让社区贡献 env 的三个杠杆

Bounties — 官方维护"open + in-progress" bounty 表 (Google Sheets)。blog 原文: "we'll figure something out based on the difficulty scale we're using." 暗示 ad-hoc 而非固定金额 (未在公开来源确认具体金额段)。
RFCs — 同一张表上有"论文要做但还没人做"的 env idea 池。社区可以认领。
Research stipend program — "applications for novel environments and evals" · 入选者拿"compute for running experiments, a stipend and support from our internal research team." 这是真金白银的 research grant,不是 token credit。RL Residency 项目据 Sequoia podcast,14-16 人,含研究生 + 全职贡献者。

8.2 Prime Intellect 自身的赚钱路径

产品	状态	商业模式
Environments Hub	免费 GA	不直接收入,作为 funnel
verifiers SDK	免费开源 MIT	不直接收入
prime-rl	免费开源 Apache	不直接收入
Lab — Hosted Training	2026-02 GA	per-token billing
Lab — Hosted Inference (LoRA)	GA	per-token billing
Lab — Sandboxes	beta	未公开 (估计也是 usage-based)
GPU 算力 marketplace (传统业务)	持续	per-hour

注意 Prime Intellect 仍保留早期的 GPU marketplace 业务 (P2P 计算租赁,INTELLECT-1 时代起家的产品)。Hub + Lab 是新业务线,与 GPU marketplace 是合作关系: 你可以在 Hub 找 env,在 marketplace 租 GPU,自己跑 prime-rl —— Lab 只是这个流程的"都不想管"托管方案。

8.3 与 NVIDIA 的合作

blog: "Leveraging NVIDIA to Build the Open Superintelligence Stack" —— 2026 年宣布合作,NVIDIA Dynamo stack 成为 Lab 推理基础。潜在含义: Prime Intellect 获得 NVIDIA 早期硬件 + 优先工程支持; NVIDIA 获得"NVIDIA stack 训出 INTELLECT-3 / 进入 100B 级 open-source 模型"的展示窗口。这是除 OpenAI/Anthropic 之外,NVIDIA 唯一深度绑定的 frontier-model 厂商。

9 · 本系列交叉参考

直接相关 (本笔记 strongly cross-link)

models/#07 INTELLECT-2 — prime-rl 的前身 PRIME-RL 在此首次大规模上场
models/#08 INTELLECT-3 — Hub 上 env + prime-rl 训出的 106B agentic MoE,本系列最直接"用户案例"
#24 Smithery — MCP server 的"Docker Hub"; Prime Hub 是 agentic env 的"GitHub"。两者覆盖互补不重叠的层
#27 ≤40B 小模型 MCP landscape — 那篇结论是"TOUCAN SFT 冷启 + ART MCP•RL 在线",现在加上 Prime Hub 后,recipe 可以升级为: TOUCAN SFT → 拉 Hub 上 MCP-flavored ToolEnv → prime-rl GRPO,单卡 H100 / 2-3 周

env-生成方法论的对照

#06 AgentGym-RL — 27 个固定任务的非社区版,Prime Hub 走完全相反的"社区贡献"路线
#18 Agent World Model — code-driven 全合成 env,本质和 verifiers ToolEnv 同类
#20 SETA — Docker 化 terminal env,可以 wrap 进 verifiers SandboxEnv
#22 TOUCAN — 1.5M tool-agent SFT 数据,理想搭档作为 prime-rl SFT 起点
#23 EnvScaler — 程序化合成 env,可以全套迁移到 verifiers MultiTurnEnv 子类

MCP / 评测对照

#19 MCP-Atlas — eval-only,不能 train
#21 MCP Benchmark 横评 — Toolathlon 是其中唯一 RL gym
#25 MCP-Universe — 唯一目前确认能 GRPO 真训 MCP 的开源 framework,与 Prime Hub 覆盖不同抽象层级
#26 MCP Bench 代码级深潜 — 4 套 verifier 风味互斥,Prime Hub 走的是 verifiers Rubric 风格 (函数列表 + 权重)
#28 BFCL — function-calling 事实标准 eval, Hub 上有 BFCL-derived env
#29 ICLR 2026 Tune the Environment — "tune env 不 tune agent" 的范式 paper, Hub 提供的 "Actionable Env Augmentation" 实验场地
#30 ACEBench — Hub 上若放入 ACEBench env, 可一键 prime-rl GRPO

10 · 开源清单 + 风险与诚实分析

10.1 开源资产盘点 (沿用 #24 / #27 表格风格)

资产	License	Repo / URL	Stars	Code	Data	Pipeline
verifiers (SDK)	MIT	github.com/PrimeIntellect-ai/verifiers	4,113	✓	(env 自带 dataset)	✓ (vf-eval)
prime-rl (训练器)	Apache-2.0	github.com/PrimeIntellect-ai/prime-rl	1,379	✓	—	✓ (configs/{sft,rl,infer,orch})
prime (CLI + SDK)	Apache-2.0 (推断)	github.com/PrimeIntellect-ai/prime	200	✓	—	—
Environments Hub (env wheels)	各 env 自定 (建议 MIT/Apache)	app.primeintellect.ai/dashboard/environments	n/a	✓ (每个 env 单独)	✓ (env 内置)	✓ (vf-eval / prime-rl)
INTELLECT-3 模型权重	详 paper	HuggingFace primeintellect/INTELLECT-3	n/a	—	—	—
blog/launch 公告	(文档)	primeintellect.ai/blog/environments	n/a	—	—	—

10.1.1 License 横向详细对比 (本系列各 repo 覆盖的 7 大类)

本系列 30+ 篇里出现的开源 license 共 7 大类。下表按"能不能商用 / 能不能闭源分发 / 改了要不要回馈 / 数据是否随权重"四条核心问题做精确对比。

License	商用	闭源分发	专利授权	修改回馈	SaaS 闭环	归属署名	本系列实例
MIT	✅	✅	❌ 隐含	❌ 不要求	❌ 不要求	✅ 保留 copyright	verifiers · TOUCAN · Functionary · EnvScaler · prime CLI
Apache-2.0	✅	✅	✅ 显式 + 反诉撤销	❌ 不要求	❌ 不要求	✅ 保留 NOTICE	prime-rl · BFCL · SETA · xLAM 代码 · Hammer · MCP-Universe · AgentGym-RL · ART
BSD-3-Clause	✅	✅	❌	❌	❌	✅ + 禁止用名字背书	少见,React 早期等
LGPL-3.0	✅	⚠ 动态链接 OK,静态需开源 wrapper	✅	修改库本身必须开源	❌	✅	少见于本系列
GPL-3.0	✅	❌ 整个发行物必须 GPL	✅	✅ 强制 (copyleft)	❌ (SaaS 不算 distribute)	✅	极少出现于现代 AI repo
AGPL-3.0	✅	❌	✅	✅ 强制	✅ 关闭 SaaS 漏洞 — 用户通过网络访问也要给源码	✅	Smithery 部分服务端组件 · MongoDB 5.x
MPL-2.0	✅	✅ (per-file copyleft)	✅	修改的文件要开源,新加的可闭源	❌	✅	少见
CC-BY-4.0	✅	✅	❌	❌	❌	✅	很多 dataset (维基语料 / 学术 corpus)
CC-BY-SA-4.0	✅	⚠ 衍生物必须 CC-BY-SA	❌	✅ share-alike	❌	✅	部分 dataset · 注意训练后模型权重的传染性争议
CC-BY-NC-4.0	❌ 非商用	—	❌	❌	❌	✅	⚠ xLAM 60K 数据 · Hammer 数据 — 训出来的模型不能商用(校订 2026-05-18: 之前点名的 ToolACE 实测是 Apache-2.0,不是 NC,见 #35)
Llama 3 Community	⚠ 月活 ≥7 亿要单独申请	✅ (有限制)	✅	❌ (但派生模型必须含 "Llama" 前缀)	❌	✅	所有 Llama-3 派生模型 (含很多 fine-tune)
Gemma Terms	✅	✅	—	❌	—	需附 Prohibited Use Policy	Gemma 系列
OpenRAIL-M	⚠ 商用 OK 但禁特定用途 (军事 / 监控 / 误导等)	✅	—	❌	—	✅	BLOOM · 部分扩散模型
"Custom Research Only"	❌	—	—	—	—	—	UI-TARS-2 主线权重 · 早期 LLaMA-1 · 部分 ByteDance/百川发布

关键差异四条总结(给"训模型 + 发模型"的人)

① MIT vs Apache-2.0 的唯一实质差别 = 专利授权

从用户视角:几乎一样,都允许闭源分发、不要求开源修改。Apache-2.0 多了"贡献者授予专利许可,且若你起诉贡献者侵犯专利,你的许可立即终止"。这条对企业级训练栈(prime-rl / verl / Megatron / SETA / MCP-Universe)是必备的;对纯研究库(verifiers / TOUCAN 数据加载脚本)MIT 已经够用。 选 Apache 的代价: 必须分发 NOTICE 文件 + 标明你修改了什么。

② 数据集的 NC 条款会"穿透"到模型权重 — 这是本系列读者最容易踩的坑

xLAM-60K (Salesforce) / Hammer-data (ByteDance) 是 CC-BY-NC-4.0。法理学界对"训练用了 NC 数据 → 模型权重是否 NC"仍有争议(Salesforce / Hugging Face 立场不一),但实务上几乎所有 frontier lab 都把它视为传染 —— 你用 xLAM-60K SFT 出来的模型,商业部署有法律风险。规避方法: (a) 改用 TOUCAN(Apache-2.0 数据)/ ToolACE(Apache-2.0)/ APIGen Open(Apache);(b) 把 NC 数据的 contribution 降到 reward signal 而非 token 监督。校订 2026-05-18: 早期版本把 ToolACE 也列入 NC 阵营是错误,实测 Team-ACE/ToolACE HF dataset 自标 Apache-2.0 (curl 验证),见 #35 ToolACE。

③ AGPL vs GPL 的 SaaS 漏洞

GPL 只在"distribute"时触发 copyleft —— 跑 SaaS 不算 distribute,所以 OpenAI 可以闭源跑 GPL 库。AGPL 把"通过网络给用户提供服务"也算 distribute,所以 SaaS 也要给源码。在本系列里 Smithery 的服务端组件就是 AGPL,这是它逼竞争对手"要么开源,要么付费授权"的护城河手段。verifiers / prime-rl 都不用 AGPL —— 因为它们要让 Lab 平台自己闭源运营。

④ Llama Community License ≠ open source(OSI 不承认)

核心限制有三条: (a) 月活 ≥ 7 亿用户的公司要单独找 Meta 谈;(b) 派生模型名字必须以 "Llama" 开头(Llama-3.1-MyAgent 而不能叫 MyAgent);(c) 不能用 Llama output 训竞争 LLM(条款 1(b)(v))—— 这条形式上禁止你用 Llama 蒸馏出新模型再独立分发。Qwen Apache-2.0(Qwen3 系列)和 DeepSeek MIT(权重)没有这些限制,这是 2025 年中文开源模型在 fine-tune 生态里反超 Llama 的关键 license 优势。

给本系列读者的 license 决策树

你的最终产品是?
├─ 学术 paper (不部署)
│   └─ 任何 license 都可以,引用即可
├─ 开源 fine-tune 模型 (HF 公开)
│   ├─ 训练栈/数据: MIT 或 Apache-2.0 优先
│   ├─ 避免 CC-BY-NC 数据 (xLAM-60K / Hammer-data) — ToolACE 实测 Apache-2.0 误判已更正
│   ├─ 基座是 Llama 3 → 名字必须含 "Llama" 前缀
│   └─ 基座是 Qwen3 / DeepSeek / Mistral → 无文本限制
└─ 闭源商业部署 (公司内部 / SaaS)
    ├─ 训练栈: ✅ MIT / Apache-2.0 / BSD
    ├─ 训练栈: ❌ 避开 GPL / AGPL (除非整个产品愿意开源)
    ├─ 基座: 选 Apache-2.0 模型 (Qwen3 / OLMo / DeepSeek-V3)
    ├─ 数据: 用 Apache/MIT 数据 (TOUCAN / EnvScaler / SETA tasks)
    └─ Llama 3 商业部署: 月活 ≥ 7 亿需联系 Meta;否则直接用

本系列在 license 上的"安全栈"推荐: Qwen3-8B-Base (Apache-2.0) + TOUCAN SFT (Apache-2.0) + verifiers (MIT) + prime-rl (Apache-2.0) + BFCL eval (Apache-2.0) —— 全栈商业 friendly,无 license 传染、无 NC 数据、无 Llama 前缀强制。这套是 2026 年能直接部署到生产的开源全套方案。

10.2 与 OpenAI/Anthropic 闭源 RL 基建的诚实对比

OpenAI 内部有 codex-eval + swe-rebench + 完整 RLHF/RLAIF 流水线 (从 paper / system card 推断,未公开 codebase);Anthropic 同理有内部 environment harness + Sonnet/Opus 训练用 RL gym。这些从不开放。Prime Intellect 的整体策略就是把 verifiers + prime-rl + Hub 三件套开源,赌"开源生态规模效应 > 单一闭源 lab"。这条赌注的历史先例是 PyTorch / vLLM / SGLang —— 都用了 5-8 年把闭源对手追平甚至超过。Prime Intellect 在训练栈能否同样成功,要看 2026-2028 三年。

10.3 risk 与 caveat

诚实告知的 risk:

1,000+ env 的质量方差极大 — 类比 Smithery 的 7K servers / TOUCAN 实际只能用 17%。Hub 上"能跑通 vf-eval 且 reward 信号干净"的 env 很可能不到一半 (未公开统计,但基于 Smithery 经验合理推断)。
MCP 类已确认存在,但 Hub UI 上 enumerate 仍受限 — 校订后:verifiers 主线experimental/mcp_env.py 与 v1 MCPToolConfig 均存在(见 §2.2 校订框)。但 Hub 上"MCP 风味" env 的精确数量仍需登录才能搜索 —— 已知 fixture 类(如 terminal-bench)有现成 env,具体多少 MCP-server 直接挂载的 env 待确认。要 MCP RL 当下可选: 用 verifiers.envs.experimental.MCPEnv + prime-rl,或 #25 MCP-Universe verl 栈。
Lab 付费层 lock-in — per-token 计费在 LoRA 范畴友好,一旦你的训练 run 依赖 Prime Dynamo 多租户基础设施,迁移到自建 cluster 不是简单 export checkpoint 那么轻。切换成本中等。
"INTELLECT-3 同栈"是营销也是事实 — 同栈不代表你能复现 INTELLECT-3 (你没那 2,048 GPU + 那个数据集)。社区能复现的是 8B-32B 规模 RL,这与"训出 106B agentic MoE"差两个数量级。
Hub 治理还在早期 — 没有像 PyPI 的 yank policy,没有 vulnerability scan,env 里跑任意 Python 代码 (尤其 PythonEnv/SandboxEnv) 有供应链风险。生产环境 install 前 prime env inspect <hub-id> 看源码是必须的。
OpenEnv 兼容是单向的 — verifiers 能 wrap OpenEnv,但 OpenEnv 不能反过来 wrap verifiers (后者的 async + final rollout 设计无法 reduce 到 step()-风格)。如果生态最终倒向 Meta+HF 的 OpenEnv,Prime Hub 的 env 仍可被消费;反向迁移则有风险。

10.4 给本系列读者的一句话

如果你 2026 年要做 ≤40B 小模型 agentic RL (含 tool-use / MCP / browser / code),Prime Intellect Hub + verifiers + prime-rl 是当下唯一开源全栈方案。具体 recipe:

#22 TOUCAN 1.5M SFT 数据冷启 → uv run sft @ configs/sft/touchan.toml
prime env install primeintellect/<your-task> 拿 env
uv run trainer @ configs/rl/<task>.toml GRPO 2-3 周 / 1 H100
用 #28 BFCL + #19 MCP-Atlas + #25 MCP-Universe 三个 leaderboard 评测

这套 recipe5 个月前 (2025-12) 在工程上根本不存在。是 Prime Intellect 一家公司用 9 个月把它从"spec + repo"做到"5 行命令上手"。这是2025-2026 agentic RL 在工程层最重大的变化,胜过任何单篇 paper。

来源清单 (Raw URLs)

https://app.primeintellect.ai/dashboard/environments (Hub UI 首页)
https://www.primeintellect.ai/blog/environments (2025-08-27 launch blog)
https://www.primeintellect.ai/blog/lab (Lab 介绍)
https://www.primeintellect.ai/blog/lab-is-open (2026-02-10 GA 公告)
https://docs.primeintellect.ai/verifiers/environments
https://docs.primeintellect.ai/hosted-training/what-is-lab
https://github.com/PrimeIntellect-ai/verifiers (SDK)
https://github.com/PrimeIntellect-ai/prime-rl (训练器)
https://github.com/PrimeIntellect-ai/prime (CLI)
https://github.com/PrimeIntellect-ai/verifiers/blob/main/verifiers/envs/multiturn_env.py
https://github.com/PrimeIntellect-ai/verifiers/tree/main/verifiers/envs/integrations
https://huggingface.co/blog/anakin87/environments-hub (alphabet-sort full walkthrough)
https://x.com/PrimeIntellect/status/1960783427948699680 (launch tweet)
https://x.com/PrimeIntellect/status/1964270515541201374 ("100+ envs in 1 week")
https://sequoiacap.com/podcast/building-the-github-for-rl-environments-prime-intellects-will-brown-johannes-hagemann/ (Will Brown / Johannes Hagemann 对谈)
https://medium.com/@alaminibrahim433/building-your-first-prime-intellect-environment...
https://www.mintlify.com/primeintellect-ai/verifiers/cli/env-init
https://www.primeintellect.ai/blog/nvidia-collaboration