PinchBench · Kilo Code 出品的 OpenClaw Agent Benchmark

Kilo Code(KiloClaw 母公司)· V1 2025 / V2 2026-05 · MIT License
关键词: agent benchmark · OpenClaw · real-world tool use · auto + LLM judge · 100+ tasks
官网: pinchbench.com · GitHub: github.com/pinchbench · 关于: pinchbench.com/about

速读卡片 (TL;DR)

一句话:PinchBench 是 Kilo Code 出的 agent benchmark,用真实世界任务(CSV 分析、log 异常、email 三件套、Docker 优化、calendar 创建…)评测 LLM 作为 OpenClaw agent harness 的"大脑"表现。每个 task 是一份 markdown + Python grader + LLM judge rubric;全部 MIT 开源,可在本地 Docker 跑,结果自动上传 leaderboard。前沿模型(Claude Opus 4.7, GPT-5.5, MiMo-V2.5)已经挤在 86–92% 一档,但开源 7-9B 还在 ~35% 区间 —— 提升空间巨大。

120+
tasks across 8 categories (V2)
1.2k ⭐
pinchbench/skill GitHub
~$10–25
单模型跑一遍 API 成本估算

结论:你训练的模型 可以 直接接进来跑(serve OpenAI-compat endpoint + OpenClaw 自定义 provider config)。Sandbox 是 Docker 化的但网络默认开放(有 web search 类任务)。可复现性高,但官方"Official Run"标记需要标准化硬件 + 官方 key。


1 · 是什么 / 谁出的 / OpenClaw 是什么

1.1 三方关系图

这套生态有三个名字容易混,先拆清:

Kilo Code (公司) 3M+ devs, VS Code/JetBrains AI OpenClaw 开源 agent harness · 370k ⭐ KiloClaw (产品) Hosted OpenClaw / $9/mo PinchBench benchmark for OpenClaw 大脑 托管版 PinchBench 评测的是用 OpenClaw 作为 harness 的 LLM 关键点: PinchBench 是 benchmark · OpenClaw 是 agent harness · KiloClaw 是 OpenClaw 的 hosted SaaS · 三者均由 Kilo Code 维护
三方关系: Kilo Code 是公司,出品了开源 agent harness OpenClaw(类似 OpenHands / Cursor agent),hosted 版本叫 KiloClaw($9/mo),benchmark 叫 PinchBench。PinchBench 测的不是 OpenClaw 本身,而是用 OpenClaw 作为 harness 时,后端 LLM 的表现

1.2 PinchBench 的定位

官网 about 页面原文:

"PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. It measures success rate, speed, and cost across diverse tasks." — pinchbench.com/about

设计哲学是 "real tasks, not synthetic tests":


2 · 任务格式 + IO + 多轮性 + 样例

2.1 任务文件格式

每个 task = 一个 markdown 文件 + YAML frontmatter,位于 pinchbench/skill/tasks/:

---
id: task_descriptive_name
name: Task Display Name
category: csv | log | email | research | coding | ...
grading_type: automated | llm_judge | hybrid
timeout_seconds: 120
workspace_files:
  - source: assets/input_data.csv
    dest: data.csv
multi_session: true        # 可选,多轮
sessions:
  - id: first_turn
    prompt: Initial instruction
  - id: follow_up
    prompt: Continuation
  - id: fresh_context
    new_session: true        # 清 context 但保留 workspace
    prompt: New session
---

# Prompt
<发给 agent 的真实 user message>

# Expected Behavior
<可接受的解题路径,给 LLM judge 当 context>

# Grading Criteria
- atomic checklist 1
- atomic checklist 2
...

# Automated Checks (Python)
```python
def grade(transcript: list, workspace_path: str) -> dict:
    """Returns {criterion_name: 0.0-1.0}"""
    ...
```

# LLM Judge Rubric
### Criterion (Weight: 30%)
**Score 1.0**: Perfect
**Score 0.75**: Good with minor issues
...

2.2 任务类别 + 数量(V2 实际清点)

类别任务数(从 repo 实际清点)样例
CSV / 数据分析~26stocks volatility · GDP regions · life expectancy outliers · iris classify · pension liability
Log 分析~30Apache top errors · HDFS block ops · MapReduce failures · Nginx slow requests · SSH brute-force detection · Syslog anomalies(每种 log × 5 子任务)
Email / 通讯~9email triage · reply drafting · GWS task management · cross-service
Research / 分析~12competitive research · contract analysis · earnings analysis · EU regulation
Dev / DevOps~9CI/CD pipeline debug · Dockerfile optimization · git rescue · k8s debugging · code refine
Productivity / 通用14+calendar · CVE security triage · daily summary · ELI5 PDF summary · meeting advisory · GH issue triage

合计 ~120+(blog 上 Kilo 自称 "23 → 148",repo 实际清点稍少)。社区 2026-03 大扩展由 111 个 PR 推动。

2.3 多轮性 / Long-horizon 评估

维度PinchBench对比 OSWorld / Terminal-Bench
多轮支持✓ multi_session 显式声明OSWorld 也支持多轮但是 GUI;Terminal-Bench 单 shell session
典型 trajectory 长度5–20 turn / task(估算,timeout 120s)OSWorld 30–50 turn / Terminal-Bench 10–30
Long-horizon 程度中等偏短OSWorld / GAIA / RE-Bench 才是真 long-horizon
状态保持multi_session 内保留 workspace,可选清 contextOSWorld 全状态保留

2.4 一个具体样例:task_calendar

Prompt(假设性还原,基于 about 页样例):"Schedule a meeting next Tuesday at 3pm with bob@example.com. Title 'Q3 Review'. Description should mention the upcoming product launch and revenue numbers."
Grading Criteria:
- Event created with correct date ✓
- Time is 3:00 PM ✓
- Attendee bob@example.com included ✓
- Title matches "Q3 Review" ✓
- Description mentions "product launch" and "revenue" ✓

Automated grader 会:

  1. 检查 workspace 里有没有写出 event.ics 或调了 calendar API
  2. 解析 transcript 找 toolCall 事件,看是否调对了 tool + 参数
  3. 读 final output 检查 5 个 criterion 各自的 0.0/1.0 分

3 · 评测机制 / V2 新指标

3.1 三种 grading 模式

模式实现适合什么任务
AutomatedPython grade(transcript, workspace_path) → {criterion: score}文件落盘 / tool 调用次数 / 内容字符串匹配 / 结构化 output
LLM JudgeClaude Opus(V2 默认 Haiku 4.5)按 rubric 给 0/0.25/0.5/0.75/1.0风格 / 推理质量 / 自然语言 output 评估
Hybrid两者加权混合大多数实际任务

3.2 评分对象:end-to-end + step-wise + trajectory-level 全有

3.3 V2 解决了 V1 的几个真问题

V1 问题V2 修复
跑 1 题拿 100% 比跑 23 题拿 94.8% 还高 → 鼓励 cherry-pick按 task count 归一化打分,不跑全集罚
有 task 95% failure rate → 拉垮所有模型分布识别异常 task 调整或剔除
git commit hash 当版本号 → 无法追溯semantic versioning(v2.0.0)
grading race conditionparallel judge execution + result caching
判得太慢(Opus 当 judge 贵)默认 Haiku 4.5 + caching → 2-3× 提速

3.4 同时报三种 metric 的展示

官网 leaderboard 支持四个视图:


4 · 完整 leaderboard + 开源小模型表现

4.1 官方 leaderboard 前 10(success rate 视图,2026-05 快照)

#模型ProviderSuccessAvg Score
1claude-opus-4.7Anthropic91.6%73.7%
2claude-haiku-4.5Anthropic90.3%64.8%
3mimo-v2.5-proXiaomi89.5%87.7%
4mimo-v2.5Xiaomi89.5%88.7%
5gpt-5.5OpenAI89.0%75.5%
6claude-opus-4.6Anthropic88.9%71.0%
7glm-5v-turboZ-AI86.6%65.1%
8glm-5-turboZ-AI86.3%70.0%
9seed-2.0-liteByteDance86.2%71.1%
10gpt-5.4OpenAI86.0%75.6%

BenchLM 第三方快照(2026-04)还报告 Trinity-Large-Thinking (Arcee AI) 91.9% 排第一,Qwen3.6 Plus 84.0%。

4.2 开源 <40B 模型(数据来自 BenchLM 快照)

模型参数分数排名
Qwen3.5-27B27B78.5%21
Qwen3.5-9B9B34.8%62
Qwen2.5-7B-Instruct7B34.1%64
Llama 3.1 70B Instruct70B22.7%65
关键观察: 9B → 27B 之间 Qwen 同代直接涨 44 个点(34.8 → 78.5)。这种能力悬崖在 BFCL / τ-Bench 上也有,说明 agent benchmark 对 mid-tier 模型梯度极陡。Llama 3.1 70B 反而比 Qwen3.5-27B 还低 56 个点 — 与 SWE-Bench / τ-Bench 一致,Llama 不擅长 tool-use 风格 agent。

4.3 提升空间判断

开源 <40B 真正可下载权重的 SOTA(Qwen3.5-27B)78.5%,比 Claude Opus 4.7 差 13 个点。这个 gap 大概率可以用 RL 训练补 5-10 个点 — 任务集本身公开 + 评分函数公开 + reward 信号 episode-level 可用,接 GRPO 直接跑就行。类似 SWE-Bench 上 DeepSWE 把 Qwen3-32B 从 ~15% 拉到 59% 的故事可能在 PinchBench 重演。


5 · 运行 / 复现性 / Sandbox / 网络

5.1 运行依赖

组件详情
Python3.10+
包管理uv
Agent runtime本机运行的 OpenClaw instance
DockerDockerfile.benchmark,容器化运行
API keyOPENROUTER_API_KEY / ANTHROPIC_API_KEY / OPENAI_API_KEY 任一
提交 key (可选)PINCHBENCH_OFFICIAL_KEY

5.2 Sandbox 与网络

⚠ Sandbox 文档缺口: 官方 README 只提到 Dockerfile.benchmark 存在,没有详细说明: 从任务内容反推:存在大量 "stock prices / market research / web search" 类任务 → 容器内默认有 internet 访问。这是评估"真实任务"必须的,但也意味着不同时间跑同一 task 可能拿到不同 web 结果(reproducibility 受外部状态影响)。

5.3 可复现性手段(已知)

5.4 跑一遍完整 benchmark 的成本估算

资源估算
API 调用次数~120 task × 5–15 LLM 调用 = 600 ~ 1,800 次调用
API 成本(Claude Sonnet 4.7)单 task ~$0.05–0.15 → $10–25 / model
API 成本(GPT-5)类似,~$10–30 / model
LLM Judge(Haiku)额外 ~$1–3
挂钟时间parallel 4–8,timeout 120s → 30 min – 1 h 跑完一遍
GPU 时间本机不用 GPU(纯 API),除非跑 self-hosted 模型

6 · 🔑 自托管模型怎么接进来 — 完整配置

这是你问的核心:能不能 serve 自己训练的模型,让 PinchBench 跑? 答案 完全可以,且不需要走 OpenRouter / Anthropic / OpenAI。

6.1 两条路径

路径详情
A. 本地 OpenClaw + 自定义 provider(推荐)本机起 OpenClaw,通过配置文件指向你的 model API。PinchBench 跑就直接用了。
B. KiloClaw 云托管$9/月 hosted OpenClaw,支持 "bring your own API key" 接 Anthropic/OpenAI/Kilo Gateway。但是否允许任意 OpenAI-compat 自托管 URL,文档不明。最务实是走路径 A。

6.2 完整工作流(路径 A)

① 用 vLLM / SGLang serve 你的模型 vllm serve my-model --port 8000 或: python -m sglang.launch_server --model-path → http://your-server:8000/v1 ② OpenClaw config 加自定义 provider ~/.openclaw/config.json5 添加 providers.myserve.baseUrl api: "openai-completions" ③ 跑 PinchBench 指定该模型 ./scripts/run.sh --model myserve/my-model PinchBench → OpenClaw → 你的 endpoint 完整 trajectory + grading 自动跑 OpenClaw 自定义 provider 配置原文
{
  agents: {
    defaults: {
      model: {
        primary: "myserve/my-model"
      }
    }
  },
  models: {
    providers: {
      myserve: {
        baseUrl:
          "http://your-server:8000/v1",
        apiKey: "${MY_API_TOKEN}",
        api: "openai-completions",
        timeoutSeconds: 300,
        models: [{
          id: "my-model",
          name: "My Trained Model",
          contextWindow: 200000,
          maxTokens: 8192
        }]
      }
    }
  }
}
三步走:vLLM/SGLang serve 你的模型 → OpenClaw config 加 provider → PinchBench 跑。右侧是 OpenClaw 官方文档给的原文配置格式,来自 docs.openclaw.ai/concepts/model-providers

6.3 OpenClaw 已经 bundle 的 OpenAI-compat 后端

后端用途默认 base URL
vLLM生产级高吞吐 self-host你自定义
SGLang快速 self-host,默认 pluginhttp://127.0.0.1:30000/v1
LM Studio本地 GUIhttp://localhost:1234/v1
Ollama本地 quantized 模型http://localhost:11434

这意味着只要你的 serving 框架实现 OpenAI /v1/chat/completions API,就能直接接。vLLM / SGLang / TGI / llama.cpp server / Bedrock proxy / 任何 OpenAI 兼容 endpoint 都行。

6.4 是否能用云端 KiloClaw 跑?

结论: 不推荐,有不确定性。
KiloClaw($9/月)的设计是给个人用户用 hosted OpenClaw,主打 "500+ models via Kilo Gateway zero markup"。文档说支持 "bring your own API keys"(意指 Anthropic / OpenAI 等主流商业 provider 的 key),但没有明确文档说允许任意自托管 URL

建议路径:本地 OpenClaw + 自托管模型(完全可控、零订阅费、复现性更好)。除非你已经在用 KiloClaw 做主力 agent,才考虑云端跑。

6.5 实操注意


7 · 📤 提交到 Official Leaderboard 流程

7.1 三种 run 模式

模式命令结果
本地测试./scripts/run.sh --model X --no-upload跑完只本地存,不上传
Community run./scripts/run.sh --register 拿 token,再跑结果自动上传,leaderboard 标 "unofficial"
Official run需要 PINCHBENCH_OFFICIAL_KEY由 PinchBench team 在标准化硬件跑,leaderboard 标 "official"

7.2 完整流程原文(README 节选)

Source: github.com/pinchbench/skill/README.md

"Register for an API token (one-time): ./scripts/run.sh --register
Run benchmark: ./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4
Results auto-upload with your token.

To submit an official run (marked on the leaderboard):
export PINCHBENCH_OFFICIAL_KEY=your_official_key
./scripts/run.sh --model X

Official runs are conducted by the PinchBench team on standardized hardware; community members can also submit runs which are marked as unofficial."

7.3 提交新任务(贡献 PR)

7.4 为什么"official"需要团队跑

关键考虑:

因此:community run(可自由跑、自动上传)足够用于对比自己训练的不同 checkpoint。Official run 主要是给商业模型 vendor 做权威排名。


8 · License / 商用 / 训练数据政策

RepoLicense商用修改output 训练
pinchbench/skillMIT✓ 未明禁
pinchbench/leaderboardMIT
pinchbench/apiMIT

MIT 是最宽松的 — 商用、修改、闭源衍生全允许,只要保留 copyright notice。

训练数据使用建议:

9 · 合成数据 / 自建成本

任务格式低门槛(markdown + YAML),但好 grader 高门槛。

部分难度工时(per task)
写 prompt + workspace assets15 min
写 expected behavior⭐⭐15 min
写 grading criteria checklist⭐⭐⭐20 min
写 Python grader function⭐⭐⭐⭐30–45 min
LLM judge rubric(if 用)⭐⭐⭐20 min
QA(跑几个模型验证)⭐⭐15 min

合计 ~1.5–2 小时 / task。造 50 个 task 大约 75–100 工时 = 1.5–2 周专人专做,或 ~$3K–5K 雇 contractor。

跟其他 agent benchmark 自建难度对比:

Benchmark自建难度原因
PinchBench⭐⭐⭐grader 是手写 Python,但 sandbox 现成
Terminal-Bench⭐⭐⭐⭐Docker 容器化 + shell 测试
SWE-Bench⭐⭐⭐⭐⭐真实 GitHub PR + pass-rate 测试,需 repo 还原
τ-Bench⭐⭐⭐状态机模拟,需 DB
OSWorld⭐⭐⭐⭐⭐完整 OS image + VM 镜像

10 · 局限 / 个人 take

这个 benchmark 的优势

局限

个人 take

PinchBench 是"工业实用主义"派的 benchmark — 不追前沿 long-horizon,不堆 OSWorld 这种全 OS 任务,而是聚焦"真实小白领 daily workflow"。它的强项是 commercial-friendly + 易自托管 + grader 极透明。对一个想训练自己的 7B–30B agent 模型的团队,这是性价比最高的 evaluation harness 之一

但要明白:在 PinchBench 上做 SOTA 不等于 agent 能力强。它对短 horizon、productivity 类任务过拟,真正的 long-horizon agent 能力(OSWorld / RE-Bench / GAIA)PinchBench 测不出来。

3 个待验证问题

  1. Sandbox 的网络出口具体怎么管?能不能在 task 层面定义 allow/deny domain?
  2. Grader 函数有没有 leak 风险 — 如果模型能读到 grader 源码,score 会被 game 多少?
  3. 把 PinchBench 当 RL training 用,有没有人公开过 recipe?目前 leaderboard 上看似没有"用 PinchBench 自训"的模型。

Memory points

定位 Kilo Code 出的 agent benchmark,评测 LLM 作为 OpenClaw harness 大脑的表现。MIT 开源。
规模 V2 ~120+ task 分 8 类(CSV/log/email/research/coding/productivity)。Trajectory 长度 5–20 turn 中等。
评测 三种 grading:Automated Python / LLM Judge / Hybrid。V2 加 consistency / variance / cost / speed。同时报 end-to-end + step-wise + trajectory-level。
leaderboard Claude Opus 4.7 (91.6) / GPT-5.5 (89) / MiMo-V2.5 (89) 在 86-92 一档已饱和。开源 Qwen3.5-27B 78.5%(可下载权重 SOTA),9B 跌到 35%。
自托管模型 完全支持 — vLLM / SGLang / Ollama / LM Studio 都是 OpenClaw bundled 后端;任意 OpenAI-compat URL 都能配。3 步:serve → config → run。
云端 KiloClaw $9/月 hosted。文档不明是否支持任意自托管 URL,不推荐用来跑 PinchBench。
提交 3 种:本地 --no-upload / community --register 自动上传(unofficial)/ official 需 PINCHBENCH_OFFICIAL_KEY 由团队在标准化硬件跑。
复现性 中等偏高 — semantic versioning + transcript 留底 + judge caching。但 sandbox 默认有网络,web 类任务受外部状态影响。
商用 MIT 全开,可商用、可二次开发、output 未明禁训练。但官方提交需 PinchBench team 控制硬件。