调研 · Prime Intellect Environments Hub — agentic RL 的 GitHub

公司: Prime Intellect (Vincent Weisser CEO · Johannes Hagemann CTO · Will Brown 研究负责人)
Hub: app.primeintellect.ai/dashboard/environments · Blog: /blog/environments · Docs: docs.primeintellect.ai
关键 repo: verifiers (4.1K★) · prime-rl (1.4K★) · prime (CLI) (200★)
Hub 启动: 2025-08-27 · Lab 平台 GA: 2026-02-10 · 关键词: verifiers · prime-rl · LoRA · INTELLECT-3 · agentic RL gym

速读卡片 (TL;DR)

一句话: Prime Intellect Environments Hub 是 2025-08-27 上线的"agentic RL environments 的 GitHub" —— 用一个 pyproject.toml 把"dataset + harness + reward"打成 Python wheel,prime env push/pull/install 像 npm/PyPI 一样在社区里流转。9 个月后 (截至 2026-05),官方公开数字: 1,000+ environments · 250+ creators · 100,000+ downloads。配套的开源 SDK verifiers (4,113★, MIT) 提供 SingleTurnEnv / MultiTurnEnv / ToolEnv / StatefulToolEnv / BrowserEnv / OpenEnv integration 与 v1 Env(taskset, harness) API; prime-rl (1,379★, Apache-2.0) 提供完全异步、1000+ GPU 规模、INTELLECT-3 同款的训练栈。

1,000+
environments (2026-05 官方数字)
250+
creators
100,000+
cumulative downloads
~9 个月
自 2025-08-27 launch 至今

立场: 如果说 #24 SmitheryMCP server 的 Docker Hub(注册中心 + 托管运行时),那 Prime Intellect Hub 就是 RL environment 的 GitHub(版本化 + 可安装 + 与训练器原生集成)。两者解决完全不同的问题: Smithery 提供"主题 / metadata 来源",Hub 提供"可直接 RL train 的 gym"。对本系列读者最关键的是: verifiers SDK 真的把"写一个 env"压到了 30 行 Python,且能立刻通过 vf-eval 评测、通过 prime-rl GRPO 训练 —— 这是INTELLECT-2 / INTELLECT-3 论文使用的同一栈。诚实警示: 1,000 个 env 的质量方差极大; 真正"能 RL train 出来的"远不到这个数; MCP 环境数量在 Hub UI 上无法直接 enumerate (未在公开来源确认精确数);商业化的 Lab 平台 (2026-02-10 GA) 走 per-token 计费,beta 阶段只支持agentic RL + LoRA,full-finetune / SFT / GEPA / GKD / DPO 列为 "near future"。


1 · 是什么 / 在 agentic RL 生态里的位置

1.1 一句话定位

Prime Intellect 是 2024 年靠 INTELLECT-1 (去中心化预训练) 出圈、2025 年靠 INTELLECT-2 (去中心化 RL + TOPLOC + SHARDCAST) 站稳、2025-12 用 INTELLECT-3 (106B MoE agentic RL) 完成"务实转向"的去中心化 AI lab。Environments Hub 是它2025-08-27 的产品化拐点 — 把内部为训自家模型而写的"agent gym"开放给社区,反过来把社区贡献的 gym 拿回来训自己的下一代模型。这是data flywheel 的工业化

官方原话 (blog/environments, 2025-08-27):

"RL environments are the key bottleneck to the next wave of AI progress, but big labs are locking them down. We built a community platform for crowdsourcing open environments, so anyone can contribute to open-source AGI." —— Prime Intellect on X, 2025-08-26
"Create, manage and share environments for reinforcement learning and evaluation." —— Hub 首页

1.2 三层栈一图

Prime Intellect Agentic RL 三层栈 ① 开发者层 · verifiers SDK (MIT, 4.1K★) SingleTurnEnv dataset + Rubric MultiTurnEnv max_turns + env_response ToolEnv / StatefulToolEnv JSON tool-call loop Env (v1) Taskset + Harness integrations: BrowserEnv / OpenEnvEnv / TextArenaEnv / ReasoningGymEnv · harness: OpenCode (Harbor) ② 分发层 · Environments Hub + prime CLI prime env init 生成 pyproject.toml prime env push 打包成 wheel 上 hub prime env install / pull 用户端装,等同 pip 1,000+ env · 250+ creator · 100K+ download (2026-05 官方) ③ 训练层 · prime-rl (Apache-2.0, 1.4K★) trainer (FSDP2) SFT + RL · 1T+ MoE inference (vLLM) FP8 · EP · PD-disagg orchestrator async rollout · Slurm/K8s eval vf-eval INTELLECT-3 与 INTELLECT-3.1 训练同栈 · 32 - 2,048 GPU recipe 公开 ④ 商业层 · Lab (Hosted Training + Sandboxes + Hosted Evals · 2026-02-10 GA · per-token 计费) beta: agentic RL + LoRA only · "near future" 才上 SFT / GEPA / GKD / DPO · 多租户 LoRA inference on NVIDIA Dynamo
图 1: Prime Intellect 完整 agentic RL 栈 — ① verifiers SDK 写 env → ② 通过 prime CLI 上传到 Hub 分发 (1,000+ env) → ③ prime-rl 异步训练器消费 env 做 GRPO/PPO,与 INTELLECT-2/3 训练同栈 → ④ Lab 是把 ①②③ 全部 hosted 的付费层,2026-02-10 才 GA。

1.3 为什么"本系列读者必须看"

本系列 #06 / #18 / #22 / #23 / #25 / #26 / #27 / #29 / #30 共 9 篇都在讨论"agentic RL 的 environment 从哪里来 / 怎么写 / 怎么训"。这个问题在不同 paper 里被拆成: TOUCAN 用 Smithery 真实 MCP server (#22) / EnvScaler 用 Python class 程序合成 (#23) / SETA 用 Docker 化 terminal 任务 (#20) / AWM 用 code-driven synthetic (#18) / MCP-Universe 才把 GRPO+verl 真做了 (#25)。Prime Intellect Hub 是 6 个月内出现的"第一个真正成型的、第三方可贡献的、与训练器原生集成的" agentic RL gym 集散地,是上述所有 paper 在工程层的"事实出口"。如果你想训 ≤40B 小模型做 MCP/tool/agent,2026 年的默认起点就是 uv tool install prime && prime env install ...


2 · verifiers SDK 深潜 — SingleTurnEnv / MultiTurnEnv / Env v1

本节是本笔记的核心。verifiers 是把#19 RL 框架横评里"env 抽象"这个空白真正填上的库。

2.1 Repo 速查

Repo: github.com/PrimeIntellect-ai/verifiers

License: MIT · Stars: 4,113 · Forks: 547 · Open issues: 201 (2026-05-17 API 查询)

最新 release: v0.1.15.dev7 (2026-05-15)

历史脉络: 最初是 Will Brown (现 Prime Intellect 研究负责人) 个人项目 willccbb/verifiers,2025 年迁到 PrimeIntellect-ai 组织,成为 Hub 的 official SDK。

2.2 文件树 (verifiers/envs/)

verifiers/envs/
├── environment.py         # Environment 基类
├── singleturn_env.py      # SingleTurnEnv
├── multiturn_env.py       # MultiTurnEnv
├── tool_env.py            # ToolEnv (JSON tool-call loop)
├── stateful_tool_env.py   # StatefulToolEnv (state-mutating tools)
├── python_env.py          # PythonEnv (code execution gym)
├── sandbox_env.py         # SandboxEnv (隔离执行)
├── env_group.py           # EnvGroup (多 env 组合)
├── experimental/          # ⭐ 大货全在这里
│   ├── mcp_env.py             # ⭐ MCPEnv — 用官方 mcp.ClientSession + StdioServerParameters
│   ├── cli_agent_env.py       # ⭐ CliAgentEnv — 跑在 prime_sandboxes + prime_tunnel
│   ├── harbor_env/
│   │   ├── env.py             # Harbor 任务目录格式 (SWE-bench-style)
│   │   └── mcp.py             # ⭐ Harbor + MCP 混合
│   ├── opencode_env.py        # OpenCode CLI agent
│   ├── opencode_qa_env.py
│   ├── opencode_rlm_env.py
│   ├── rlm_env.py             # Recursive LM (172 KB,大型实现)
│   ├── gym_env.py             # OpenAI Gym 风格适配
│   └── sandbox_mixin.py       # Sandbox 生命周期管理
└── integrations/
    ├── browser_env/       # BrowserEnv (子目录,DOM via Stagehand / CUA via Docker on Browserbase)
    ├── openenv_env.py     # OpenEnvEnv (Meta+HF OpenEnv 兼容层,支持 MCP 契约)
    ├── reasoninggym_env.py # ReasoningGymEnv
    └── textarena_env.py    # TextArenaEnv (Wordle 等文字游戏)
⚠ 校订 (2026-05-17): 早期版本说"主线无 MCPEnv 类",此说法错误。实测 verifiers/envs/experimental/mcp_env.py 第 1 行即 from mcp import ClientSession, StdioServerParameters —— 用的是 Anthropic 官方 MCP Python SDK 的 stdio 传输,内含 MCPServerConfig dataclass (支持 command / args / env 三件套) 与 MCPServerConnection 类。多 server 并行接入是标准实现。同时 harbor_env/mcp.py 提供 Harbor + MCP 混合形态。verifiers 主线确实把 MCP 当一等公民支持,只是处在 experimental/ 命名空间还未升级到 stable API。同样 v1 config 里有 MCPToolConfigMCPTool,说明 MCP 已下沉到 v1 一等公民层。

2.2.1 CLI / Browser / Docker / MCP 形态总览

形态verifiers 类底层Docker / 模拟器
CLI / terminal agentCliAgentEnv · Terminus2 · OpenCodeprime_sandboxes + prime_tunnel✅ Docker 容器 (Prime Sandbox)
浏览器 (DOM)BrowserEnv(mode="dom")Stagehand SDK无头 Chromium
浏览器 (vision/CUA)BrowserEnv(mode="cua")Browserbase + Docker image deepdream19/cua-server:latest✅ Docker (自动部署到 Browserbase sandbox)
MCP serverMCPEnv (experimental) · harbor_env/mcp.py官方 mcp.ClientSession + stdio视 server 而定 (Smithery hosted / 本地 stdio)
SWE-bench-style 代码任务HarborTaskset + OpenCode harness · MiniSWEAgentDocker harbor 任务目录✅ Docker
OpenEnv 兼容OpenEnvEnvMeta OpenEnv async client✅ Docker via vf-build
文字游戏TextArenaEnvTextArena lib
数学/推理生成器ReasoningGymEnvreasoning-gym lib
桌面 GUI (Win/macOS)❌ 未提供 — 不重叠 #16 / #17 那条线
移动端 (Android/iOS)❌ 未提供 — 无 ADB/AVD/Appium

Docker 三处出现: ① Browserbase Chromium 预制 image · ② vf-build 用户自定义 image · ③ prime_sandboxes 通用沙箱(CLI / 代码 / MCP server 都能套)。没有任何手机模拟器或桌面 OS VM —— 这是 hub 与 #17 UI-TARS-2 / #14 ClawGUI 的根本不同。

2.3 SingleTurnEnv — 最低门槛

用于"一次 prompt → 一次 response → 一次 score"任务 (数学 / 代码 / QA)。最小例子:

import verifiers as vf
from datasets import load_dataset

dataset = load_dataset("gsm8k", "main", split="train")

def correct_answer_reward(completion, answer, **kwargs):
    return 1.0 if extract_final(completion) == answer else 0.0

rubric = vf.Rubric(funcs=[correct_answer_reward])
env = vf.SingleTurnEnv(dataset=dataset, rubric=rubric)

# 立刻可以评测
results = env.evaluate(client=client, model="gpt-4.1-mini",
                       num_examples=20, rollouts_per_example=5)

Rubric 是一组 reward functions 的容器 —— 可以叠加 format reward / process reward / outcome reward,verifiers 会按权重合并。这与 #19 中讨论的 "process supervision" 设计同源。

2.4 MultiTurnEnv — agentic 主力 (verbatim 签名)

用于"多轮对话 / agent loop"任务 (Wordle / 2048 / 浏览 / 工具调用)。从 main 分支直接抓取的类签名:

class MultiTurnEnv(vf.Environment):
    def __init__(
        self,
        max_turns: int = -1,
        timeout_seconds: float | None = None,
        **kwargs,
    ):
        ...

    @abstractmethod
    async def env_response(
        self, messages: Messages, state: State, **kwargs
    ) -> Messages:
        """Given the conversation so far, return the next environment message."""

    @abstractmethod
    async def is_completed(
        self, messages: Messages, state: State, **kwargs
    ) -> bool:
        """Return True if rollout should stop."""

    @final
    async def rollout(self, ...):
        # 内部循环: client → env_response → is_completed → break
        ...

写一个新 env 只需子类化并实现 env_response + is_completed关键设计选择:

2.5 完整 Wordle MultiTurnEnv 示例 (摘自 README)

class WordleEnv(vf.MultiTurnEnv):
    def __init__(self, words: list[str], max_turns: int = 6):
        super().__init__(max_turns=max_turns)
        self.words = words

    async def env_response(self, messages, state, **kwargs):
        guess = extract_guess(messages[-1]["content"])
        target = state["target"]
        feedback = score_guess(guess, target)   # "🟩🟨⬜⬜⬜" 之类
        state["history"].append((guess, feedback))
        return [{"role": "user", "content": feedback}]

    async def is_completed(self, messages, state, **kwargs):
        return state["history"] and state["history"][-1][0] == state["target"]

def load_environment(**kwargs):
    return WordleEnv(words=load_word_list(), max_turns=6)

整个 env 不到 20 行。reward function 写在 Rubric 里 (是否猜中 / 用了几轮),通过 vf-eval wordle -m <model> 立即评测,通过 uv run trainer @ configs/rl/wordle.toml 立即 GRPO 训练。

2.6 v1 Env API — Taskset + Harness 解耦

2026 年逐步推广的 v1 API 把 "任务定义" 和 "agent 怎么跑" 解耦了:

def load_taskset(config: vf.TasksetConfig) -> vf.Taskset:
    return vf.Taskset(source=source, rewards=[reward_fn], config=config)

def load_environment(config: vf.EnvConfig) -> vf.Env:
    return vf.Env(taskset=load_taskset(config=config.taskset))

不传 harness 时默认 endpoint-backed harness (HTTP 调 LLM API)。要接 CLI agent (例如 OpenCode):

env = vf.Env(
    taskset=vf.HarborTaskset(),
    harness=vf.OpenCode(),    # Harbor 任务目录的 CLI harness
)

OpenCode 是 verifiers 对 SST opencode CLI 的 wrapper,允许把"真的 coding agent"插到 RL loop 里;Harbor 是 Prime Intellect 自家的任务目录格式 (类似 SWE-bench 的 instance 格式)。

2.7 BrowserEnv — 浏览器 gym

verifiers/envs/integrations/browser_env/,Playwright-based,提供 click / type / scroll / read_page 工具,用于训练浏览器 agent。与 #17 UI-TARS-2 的 GUI 抽象同类,但 verifiers 更轻量 (DOM 而非 screenshot)。

2.8 OpenEnv 桥接

integrations/openenv_env.py 是 verifiers 对 OpenEnv (Meta + HuggingFace 2025-10 发布的 agentic env 标准) 的兼容层。一个 OpenEnv 项目可以直接 wrap 成 verifiers Env,做到"一次写,两栈训"。这条桥接对生态意义巨大 —— 它把 Prime Intellect Hub 和 HF Datasets-style 分发兼容起来。


3 · prime-rl 训练栈 — 与 INTELLECT-2/3 的关系

3.1 Repo 速查

Repo: github.com/PrimeIntellect-ai/prime-rl · License: Apache-2.0 (注意比 verifiers 的 MIT 更宽松条款,主要因为含 Modal/Slurm 模板需要专利条款)

Stars: 1,379 · Forks: 290 · Open issues: 111 (2026-05-17)

定位: "Agentic RL Training at Scale" — fully async, 1000+ GPU

3.2 四进程架构

prime-rl 把训练拆成四个独立进程,通过 toml config 编排:

uv run sft         @ configs/debug/sft/train.toml    # 监督微调
uv run trainer     @ configs/debug/rl/train.toml      # GRPO/PPO/RLVR
uv run inference   @ configs/debug/infer.toml         # vLLM 推理服务
uv run orchestrator @ configs/debug/orch.toml         # async rollout 调度

关键技术 stack:

3.3 与 INTELLECT-2 / INTELLECT-3 的血缘

代次训练栈本系列笔记
INTELLECT-1 (2024-12)DiLoCo + int8 ring all-reduce (预训练,不涉 RL)models/#01
INTELLECT-2 (2025-05)PRIME-RL 的原型 + TOPLOC + SHARDCAST (去中心化 RL)models/#07
INTELLECT-3 (2025-12)prime-rl 三件套 + IcePop · 106B GLM-4.5-Air-Base 上做 agentic RLmodels/#08
INTELLECT-3.1 (2026 H1)同 prime-rl, 32-2,048 GPU recipe 已在 README "advanced examples" 公开(未单独成笔记)

关键洞见: prime-rl 不是为了"让社区训玩具模型"而存在,它就是INTELLECT-3训练用的同一份代码。这意味着你在 Hub 上拉一个 env,用 prime-rl GRPO 训 Qwen3-8B,跑的 RL recipe 与 Prime Intellect 训 106B 模型的是同一套,只是 GPU 数从 2,048 缩到 2-8。recipe 透明度是 #25 MCP-Universe / #18 AWM 无法比拟的优势。

3.4 与 verifiers Hub 的集成点

prime-rl 在 README 明确写: "Native integration with verifiers environments through the Environments Hub." 实际机制是 trainer config 里直接写 hub-id:

[env]
id = "primeintellect/alphabet-sort@0.1.5"
# orchestrator 启动时执行 prime env install 一次,
# 然后 rollout worker 直接 import 该 env 调用 .rollout()

这就是"从 Smithery JSON catalog → Prime Hub Python wheel"的本质提升 —— 后者不需要二次包装,直接 import 即用。


4 · prime env CLI — init / push / pull 完整流程

4.1 安装

curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install prime
uv tool update-shell

4.2 prime CLI 全命令树

PrimeIntellect-ai/prime repo (200★) 抓取的完整命令树:

prime lab           # 工作区: 一站式 env / eval / GEPA / training
prime train         # 托管训练
  ├ models          # 可训模型列表 + 容量定价
  ├ init            # 生成 training config
  ├ list            # 训练 run 列表
  ├ logs            # run 日志
  ├ metrics         # run 指标
  └ checkpoints     # 取 checkpoint
prime env           # ★ Hub 操作
  ├ list            # 浏览 hub
  ├ info <hub-id>   # 查看元数据
  ├ inspect         # 看源码
  ├ install         # 本地安装
  ├ init            # 创建新 env 模板
  └ push            # 发布到 Hub
prime availability  # GPU 资源
  ├ list
  └ gpu-types
prime pods          # 计算 pod
  ├ list / create / status / terminate / ssh
prime eval          # 评测管理
  ├ push / list / get / samples
prime config
  └ set-api-key / set-ssh-key-path / view
prime teams
  └ list / switch

4.3 完整 env 开发周期 (从 init 到 push)

Step 1: prime env init

prime env init my-env
# 生成:
# environments/my_env/
# ├── my_env.py          # env 实现
# ├── pyproject.toml     # ★ Hub metadata + 依赖
# └── README.md          # 文档模板

带 v1 harness 模板:

prime env init my-env --with-harness

Step 2: pyproject.toml 是 Hub 的 metadata 协议

[project]
name = "my-env"
description = "My custom environment"
tags = ["single-turn", "math", "train", "eval"]
version = "0.1.0"
requires-python = ">=3.10"
dependencies = [
    "verifiers>=0.1.8",
]

[build-system]
requires = ["hatchling"]
build-backend = "hatchling.build"

[tool.hatch.build]
include = ["my_env.py", "pyproject.toml"]

[tool.verifiers.eval]
num_examples = 20
rollouts_per_example = 5

关键洞察: tags 字段就是 Hub 搜索/过滤的 facet (single-turn / multi-turn / math / code / browser / agentic / eval / train),[tool.verifiers.eval] 是默认评测配置 —— 这是把"env 怎么用"也版本化的设计,胜过 Smithery 仅存 server URL。

Step 3: 本地装并自测

prime env install my-env -p ./environments
uv run vf-eval my-env -m gpt-4.1-mini -n 5 -r 3

Step 4: 推到 Hub

prime env push --path ./environments/my_env
# Hub 端: hatchling build → wheel 上传 → 索引化 → 出 hub-id (例如 myuser/my-env@0.1.0)

Step 5: 别人 pull 你的 env

prime env install myuser/my-env@0.1.0
# 等同 pip install,放到当前 .venv,可以直接 import

4.4 Discovery — 怎么找到 env


5 · Hub 内容盘点 — 类目与 MCP 现状

5.1 已知的类目 (从官方 blog + HF blog + UI 截图归纳)

类目典型 env来源
Math / Reasoninggsm8k, aime-25, math-500, theorem provingblog 2025-09-06 公告 "100+ envs in week 1"
Code / SWEterminal-bench, kernel-generation, SWE-bench instancesHF blog @anakin87
Simple games (SFT/RL 起步)alphabet-sort, wordle, 2048, reverse-textverifiers README + prime-rl debug configs
Browser / GUIbrowser-use envs (BrowserEnv 衍生)blog 公告
Scientific QA科学 QA 多个 envblog 公告
Agentic / Tool-usetool-calling 任务 (BFCL-derived 等)verifiers ToolEnv 链路
MCP-flavored存在但数量未在公开来源确认see §5.2

5.2 MCP 环境现状 (谨慎结论)

校订后结论 (2026-05-17): 早期版本的"主线无 MCPEnv"错误已修正(见 §2.2 校订框)。重新整理已确认事实: 实务建议: 若要训 MCP 能力,可直接 from verifiers.envs.experimental.mcp_env import MCPEnv,传一组 MCPServerConfig;若需 RL 训(GRPO/PPO),把这个 env 接到 prime-rl trainer 即可。另一条路线 #25 MCP-Universe 的 verl 栈仍可用,但与 prime-rl 不同栈。

5.3 推荐起步 env (从公开材料筛)


6 · Lab 平台 — Hosted Training + Sandboxes (付费)

6.1 时间线

2025-08-27 · Environments Hub launch (free, open)

2025 Q4 · Lab private beta · "more than 3,000 RL runs" 在 beta 阶段完成

2026-02-10 · Lab 公开 GA · blog: "Releasing Lab: the training platform for self-improving agents"

6.2 Lab 包含什么

blog 原文 (2026-02-10):

"Lab unifies the Environments Hub with Hosted Training and Hosted Evaluations into a full-stack platform for research and optimization."

组件:

6.3 商业拐点: per-token 而非 cluster-hour

"Lab offers per-token pricing, moving away from traditional cluster-hour billing to enable cost efficiency through shared hardware across runs." —— blog/lab-is-open

这是关键差异化 —— 同期 Replicate / Together / Fireworks / Modal 走 GPU-hour 或 token (推理) 计费,但训练端走 token 计费的极少。Prime Intellect 能这样定价是因为它多租户共享 LoRA inference 集群 (NVIDIA Dynamo 的 PD-disagg + EP),底层 GPU 利用率高。

limitation 实情: Lab beta 阶段限制颇多 (基于 2026-02 公告):

7 · 横向对比 — Hub vs OpenEnv vs Toolathlon-Gym vs MCP-Universe …

平台规模开放程度是否有 RL 训练栈MCP 一等公民核心差异
Prime Intellect Hub1,000+ env (2026-05)开源 SDK (MIT/Apache);Hub 免费上传;Lab 付费托管 · prime-rl (INTELLECT-3 同栈)否 (ToolEnv 通用机制)"env-as-Python-wheel" + 与训练器原生集成
OpenEnv (Meta + HuggingFace)未公开 (2025-10 发布)spec-first 开源协议否 (是 spec,不是 trainer)未在公开来源确认更像 "agent env 的 ONNX",定义抽象而非提供平台 — verifiers 已做 OpenEnv 兼容层
Toolathlon-Gym (eigent-ai)57 server, 1,000+ task开源 (主打 RL gym 而非 bench) — MCP server 是核心专攻 long-horizon MCP, 不通用
MCP-Universe (Salesforce)11 server / 231 taskApache-2.0 585★ (Hybrid + Fully-Async + verl GRPO)framework 而非 bench;深度 MCP RL,但规模小
AgentGym-RL27 任务,5 domain开源 · ScalingInter-RL 课程27 个固定任务,不支持社区贡献
Anthropic MCP Registry (官方)未公开开放 spec, 免费是 (本身就是 MCP)"intentionally minimal" meta-registry,不托管,不训练
Smithery7,300+ MCP serverRegistry 免费 / Hosting 付费"Docker Hub for MCP" — 仅 server 分发,不训练

三句话总结:

三个生态互补,不是替代关系 —— 但 Prime Intellect 是唯一覆盖"训"这一环的开源 / 社区平台


8 · 商业模式 — Bounty / RFC / Research Stipend / per-token 计费

8.1 让社区贡献 env 的三个杠杆

  1. Bounties — 官方维护"open + in-progress" bounty 表 (Google Sheets)。blog 原文: "we'll figure something out based on the difficulty scale we're using." 暗示 ad-hoc 而非固定金额 (未在公开来源确认具体金额段)。
  2. RFCs — 同一张表上有"论文要做但还没人做"的 env idea 池。社区可以认领。
  3. Research stipend program — "applications for novel environments and evals" · 入选者拿"compute for running experiments, a stipend and support from our internal research team." 这是真金白银的 research grant,不是 token credit。RL Residency 项目据 Sequoia podcast,14-16 人,含研究生 + 全职贡献者。

8.2 Prime Intellect 自身的赚钱路径

产品状态商业模式
Environments Hub免费 GA不直接收入,作为 funnel
verifiers SDK免费开源 MIT不直接收入
prime-rl免费开源 Apache不直接收入
Lab — Hosted Training2026-02 GAper-token billing
Lab — Hosted Inference (LoRA)GAper-token billing
Lab — Sandboxesbeta未公开 (估计也是 usage-based)
GPU 算力 marketplace (传统业务)持续per-hour

注意 Prime Intellect 仍保留早期的 GPU marketplace 业务 (P2P 计算租赁,INTELLECT-1 时代起家的产品)。Hub + Lab 是新业务线,与 GPU marketplace 是合作关系: 你可以在 Hub 找 env,在 marketplace 租 GPU,自己跑 prime-rl —— Lab 只是这个流程的"都不想管"托管方案。

8.3 与 NVIDIA 的合作

blog: "Leveraging NVIDIA to Build the Open Superintelligence Stack" —— 2026 年宣布合作,NVIDIA Dynamo stack 成为 Lab 推理基础。潜在含义: Prime Intellect 获得 NVIDIA 早期硬件 + 优先工程支持; NVIDIA 获得"NVIDIA stack 训出 INTELLECT-3 / 进入 100B 级 open-source 模型"的展示窗口。这是除 OpenAI/Anthropic 之外,NVIDIA 唯一深度绑定的 frontier-model 厂商


9 · 本系列交叉参考

直接相关 (本笔记 strongly cross-link)
env-生成方法论的对照
MCP / 评测对照

10 · 开源清单 + 风险与诚实分析

10.1 开源资产盘点 (沿用 #24 / #27 表格风格)

资产LicenseRepo / URLStarsCodeDataPipeline
verifiers (SDK)MITgithub.com/PrimeIntellect-ai/verifiers4,113(env 自带 dataset)✓ (vf-eval)
prime-rl (训练器)Apache-2.0github.com/PrimeIntellect-ai/prime-rl1,379✓ (configs/{sft,rl,infer,orch})
prime (CLI + SDK)Apache-2.0 (推断)github.com/PrimeIntellect-ai/prime200
Environments Hub (env wheels)各 env 自定 (建议 MIT/Apache)app.primeintellect.ai/dashboard/environmentsn/a✓ (每个 env 单独)✓ (env 内置)✓ (vf-eval / prime-rl)
INTELLECT-3 模型权重详 paperHuggingFace primeintellect/INTELLECT-3n/a
blog/launch 公告(文档)primeintellect.ai/blog/environmentsn/a

10.1.1 License 横向详细对比 (本系列各 repo 覆盖的 7 大类)

本系列 30+ 篇里出现的开源 license 共 7 大类。下表按"能不能商用 / 能不能闭源分发 / 改了要不要回馈 / 数据是否随权重"四条核心问题做精确对比。

License商用闭源分发专利授权修改回馈SaaS 闭环归属署名本系列实例
MIT❌ 隐含❌ 不要求❌ 不要求✅ 保留 copyrightverifiers · TOUCAN · Functionary · EnvScaler · prime CLI
Apache-2.0显式 + 反诉撤销❌ 不要求❌ 不要求✅ 保留 NOTICEprime-rl · BFCL · SETA · xLAM 代码 · Hammer · MCP-Universe · AgentGym-RL · ART
BSD-3-Clause✅ + 禁止用名字背书少见,React 早期等
LGPL-3.0⚠ 动态链接 OK,静态需开源 wrapper修改库本身必须开源少见于本系列
GPL-3.0整个发行物必须 GPL✅ 强制 (copyleft)❌ (SaaS 不算 distribute)极少出现于现代 AI repo
AGPL-3.0✅ 强制关闭 SaaS 漏洞 — 用户通过网络访问也要给源码Smithery 部分服务端组件 · MongoDB 5.x
MPL-2.0✅ (per-file copyleft)修改的文件要开源,新加的可闭源少见
CC-BY-4.0很多 dataset (维基语料 / 学术 corpus)
CC-BY-SA-4.0⚠ 衍生物必须 CC-BY-SA✅ share-alike部分 dataset · 注意训练后模型权重的传染性争议
CC-BY-NC-4.0❌ 非商用xLAM 60K 数据 · Hammer 数据训出来的模型不能商用(校订 2026-05-18: 之前点名的 ToolACE 实测是 Apache-2.0,不是 NC,见 #35)
Llama 3 Community⚠ 月活 ≥7 亿要单独申请✅ (有限制)❌ (但派生模型必须含 "Llama" 前缀)所有 Llama-3 派生模型 (含很多 fine-tune)
Gemma Terms需附 Prohibited Use PolicyGemma 系列
OpenRAIL-M⚠ 商用 OK 但禁特定用途 (军事 / 监控 / 误导等)BLOOM · 部分扩散模型
"Custom Research Only"UI-TARS-2 主线权重 · 早期 LLaMA-1 · 部分 ByteDance/百川 发布

关键差异四条总结(给"训模型 + 发模型"的人)

① MIT vs Apache-2.0 的唯一实质差别 = 专利授权

从用户视角:几乎一样,都允许闭源分发、不要求开源修改。Apache-2.0 多了"贡献者授予专利许可,且若你起诉贡献者侵犯专利,你的许可立即终止"。这条对企业级训练栈(prime-rl / verl / Megatron / SETA / MCP-Universe)是必备的;对纯研究库(verifiers / TOUCAN 数据加载脚本)MIT 已经够用。 选 Apache 的代价: 必须分发 NOTICE 文件 + 标明你修改了什么。

② 数据集的 NC 条款会"穿透"到模型权重 — 这是本系列读者最容易踩的坑

xLAM-60K (Salesforce) / Hammer-data (ByteDance)CC-BY-NC-4.0。法理学界对"训练用了 NC 数据 → 模型权重是否 NC"仍有争议(Salesforce / Hugging Face 立场不一),但实务上几乎所有 frontier lab 都把它视为传染 —— 你用 xLAM-60K SFT 出来的模型,商业部署有法律风险。规避方法: (a) 改用 TOUCAN(Apache-2.0 数据)/ ToolACE(Apache-2.0)/ APIGen Open(Apache);(b) 把 NC 数据的 contribution 降到 reward signal 而非 token 监督。校订 2026-05-18: 早期版本把 ToolACE 也列入 NC 阵营是错误,实测 Team-ACE/ToolACE HF dataset 自标 Apache-2.0 (curl 验证),见 #35 ToolACE

③ AGPL vs GPL 的 SaaS 漏洞

GPL 只在"distribute"时触发 copyleft —— 跑 SaaS 不算 distribute,所以 OpenAI 可以闭源跑 GPL 库。AGPL 把"通过网络给用户提供服务"也算 distribute,所以 SaaS 也要给源码。在本系列里 Smithery 的服务端组件就是 AGPL,这是它逼竞争对手"要么开源,要么付费授权"的护城河手段。verifiers / prime-rl 都用 AGPL —— 因为它们要让 Lab 平台自己闭源运营。

④ Llama Community License ≠ open source(OSI 不承认)

核心限制有三条: (a) 月活 ≥ 7 亿用户的公司要单独找 Meta 谈;(b) 派生模型名字必须以 "Llama" 开头(Llama-3.1-MyAgent 而不能叫 MyAgent);(c) 不能用 Llama output 训竞争 LLM(条款 1(b)(v))—— 这条形式上禁止你用 Llama 蒸馏出新模型再独立分发。Qwen Apache-2.0(Qwen3 系列)和 DeepSeek MIT(权重)没有这些限制,这是 2025 年中文开源模型在 fine-tune 生态里反超 Llama 的关键 license 优势。

给本系列读者的 license 决策树

你的最终产品是?
├─ 学术 paper (不部署)
│   └─ 任何 license 都可以,引用即可
├─ 开源 fine-tune 模型 (HF 公开)
│   ├─ 训练栈/数据: MIT 或 Apache-2.0 优先
│   ├─ 避免 CC-BY-NC 数据 (xLAM-60K / Hammer-data) — ToolACE 实测 Apache-2.0 误判已更正
│   ├─ 基座是 Llama 3 → 名字必须含 "Llama" 前缀
│   └─ 基座是 Qwen3 / DeepSeek / Mistral → 无文本限制
└─ 闭源商业部署 (公司内部 / SaaS)
    ├─ 训练栈: ✅ MIT / Apache-2.0 / BSD
    ├─ 训练栈: ❌ 避开 GPL / AGPL (除非整个产品愿意开源)
    ├─ 基座: 选 Apache-2.0 模型 (Qwen3 / OLMo / DeepSeek-V3)
    ├─ 数据: 用 Apache/MIT 数据 (TOUCAN / EnvScaler / SETA tasks)
    └─ Llama 3 商业部署: 月活 ≥ 7 亿需联系 Meta;否则直接用

本系列在 license 上的"安全栈"推荐: Qwen3-8B-Base (Apache-2.0) + TOUCAN SFT (Apache-2.0) + verifiers (MIT) + prime-rl (Apache-2.0) + BFCL eval (Apache-2.0) —— 全栈商业 friendly,无 license 传染、无 NC 数据、无 Llama 前缀强制。这套是 2026 年能直接部署到生产的开源全套方案。

10.2 与 OpenAI/Anthropic 闭源 RL 基建的诚实对比

OpenAI 内部有 codex-eval + swe-rebench + 完整 RLHF/RLAIF 流水线 (从 paper / system card 推断,未公开 codebase);Anthropic 同理有内部 environment harness + Sonnet/Opus 训练用 RL gym。这些从不开放。Prime Intellect 的整体策略就是把 verifiers + prime-rl + Hub 三件套开源,赌"开源生态规模效应 > 单一闭源 lab"。这条赌注的历史先例是 PyTorch / vLLM / SGLang —— 都用了 5-8 年把闭源对手追平甚至超过。Prime Intellect 在训练栈能否同样成功,要看 2026-2028 三年。

10.3 risk 与 caveat

诚实告知的 risk:
  1. 1,000+ env 的质量方差极大 — 类比 Smithery 的 7K servers / TOUCAN 实际只能用 17%。Hub 上"能跑通 vf-eval 且 reward 信号干净"的 env 很可能不到一半 (未公开统计,但基于 Smithery 经验合理推断)。
  2. MCP 类已确认存在,但 Hub UI 上 enumerate 仍受限 — 校订后:verifiers 主线experimental/mcp_env.py 与 v1 MCPToolConfig 均存在(见 §2.2 校订框)。但 Hub 上"MCP 风味" env 的精确数量仍需登录才能搜索 —— 已知 fixture 类(如 terminal-bench)有现成 env,具体多少 MCP-server 直接挂载的 env 待确认。要 MCP RL 当下可选: 用 verifiers.envs.experimental.MCPEnv + prime-rl,或 #25 MCP-Universe verl 栈。
  3. Lab 付费层 lock-in — per-token 计费在 LoRA 范畴友好,一旦你的训练 run 依赖 Prime Dynamo 多租户基础设施,迁移到自建 cluster 不是简单 export checkpoint 那么轻。切换成本中等
  4. "INTELLECT-3 同栈"是营销也是事实 — 同栈不代表你能复现 INTELLECT-3 (你没那 2,048 GPU + 那个数据集)。社区能复现的是 8B-32B 规模 RL,这与"训出 106B agentic MoE"差两个数量级。
  5. Hub 治理还在早期 — 没有像 PyPI 的 yank policy,没有 vulnerability scan,env 里跑任意 Python 代码 (尤其 PythonEnv/SandboxEnv) 有供应链风险。生产环境 install 前 prime env inspect <hub-id> 看源码是必须的。
  6. OpenEnv 兼容是单向的 — verifiers 能 wrap OpenEnv,但 OpenEnv 不能反过来 wrap verifiers (后者的 async + final rollout 设计无法 reduce 到 step()-风格)。如果生态最终倒向 Meta+HF 的 OpenEnv,Prime Hub 的 env 仍可被消费;反向迁移则有风险

10.4 给本系列读者的一句话

如果你 2026 年要做 ≤40B 小模型 agentic RL (含 tool-use / MCP / browser / code),Prime Intellect Hub + verifiers + prime-rl 是当下唯一开源全栈方案。具体 recipe:

  1. #22 TOUCAN 1.5M SFT 数据冷启 → uv run sft @ configs/sft/touchan.toml
  2. prime env install primeintellect/<your-task> 拿 env
  3. uv run trainer @ configs/rl/<task>.toml GRPO 2-3 周 / 1 H100
  4. #28 BFCL + #19 MCP-Atlas + #25 MCP-Universe 三个 leaderboard 评测

这套 recipe5 个月前 (2025-12) 在工程上根本不存在。是 Prime Intellect 一家公司用 9 个月把它从"spec + repo"做到"5 行命令上手"。这是2025-2026 agentic RL 在工程层最重大的变化,胜过任何单篇 paper。


来源清单 (Raw URLs)