手机本地能跑的 Agent 小模型 Landscape

调研 · 2026-05 · iOS + Android 端侧 / ≤4B 参数 base 模型 + mobile-agent 专训 / benchmark + 推理框架 + 硬件约束全梳理

🎯 TL;DR — 一句话现状

≈ 3B
Apple Foundation Model 端侧
30 tok/s
Apple 官方 iPhone 15 Pro
116
AndroidWorld task
1.5-3B
参数甜点 (int4)

1 · 手机端 LLM agent 的特殊约束

桌面端跑模型,内存 32 GB 起步,7-13B 是日常配置;手机端是另一个物种。要做 mobile-agent,得先理解 6 条硬约束。

1.1 RAM 预算 — 旗舰 12-16 GB,但 app 实际能拿到的远少于此

设备总 RAMOS+常驻单 app 可用 (典型)需要 entitlement 才能上升到
iPhone 15 Pro / 16 Pro8 GB~3 GB~3 GB~4-5 GB (Increased Memory Limit entitlement)
iPhone 17 Pro Max12 GB~3-4 GB~4-5 GB~6-7 GB (未在公开来源精确确认)
Pixel 9 Pro16 GB~5 GB~4-6 GB取决于 Activity flags,无硬限
Samsung S25 Ultra12-16 GB~5 GB~4-6 GB同上
OnePlus 13 / 小米 15 Pro16-24 GB~5 GB~6-10 GB同上
iOS 的硬约束: iOS 在第三方 app 进程上有 jetsam 机制 (kernel memory pressure killer);系统直接根据 memorystatus_get_priority_list 排序去杀。第三方 LLM app 的硬上限,iPhone 15 Pro 实测 ≈ 3 GB;加 com.apple.developer.kernel.increased-memory-limit 可以上到 ≈ 5 GB,但仍然小于 fp16 4B 模型(~8 GB)。所以必须 int4。Apple 自家 Foundation Model 不受这条约束,因为它运行在系统进程,通过 FoundationModels framework 暴露给 app — app 不持有权重。

1.2 延迟预算 — 触控到行动 < 500ms 是体感上限

手机交互的"触摸到反应"心理上限在 100-300ms (UI 设计经典数据);若 agent 是"用户问一句 → LLM 思考 → 操作 UI",prefill + 一轮生成的 budget 大约是 1-3 秒。这意味着:

1.3 NPU / Tensor accelerator — 三大派系

派系硬件峰值 TOPS软件栈支持的算子
AppleApple Neural Engine (ANE) — A17/A18/A19 Pro~35-38 TOPSCore ML 通过 MIL → ANE backendint8/int4 mat-mul, attention, LayerNorm; 不支持任意算子,fallback 到 GPU
QualcommHexagon NPU (Snapdragon 8 Gen 3 / Gen 4 / 8 Elite)45-75 TOPSQualcomm AI Engine Direct (QNN) / SNPE / AI Hubint8/int4 GEMM、grouped-conv;对 LLM 的 KV cache management 是关键痛点
GoogleTensor G3 / G4 / G5 TPU~33 TOPS (未在公开来源精确确认)AICore + Edge TPU runtimeGemini Nano 内部走 TPU,但不暴露 generic LLM API,只有 ML Kit GenAI 5 个高层 API
MediaTekAPU (Dimensity 9300/9400)30-50 TOPSNeuroPilot SDK / NNAPINeuroPilot SDK 直接暴露;较新机型支持 LLM ops
NPU "TOPS" 数字水分极大 — 厂商通常报 int8 sparse 峰值,LLM 实际 decode 受内存带宽而非算力限制(decode 是 memory-bound)。Snapdragon 8 Gen 3 的 LPDDR5X 带宽约 76.8 GB/s,这意味着 1B 模型 int4 (500 MB weights) 理论上限 ≈ 150 tok/s,实际 30-50 tok/s。

1.4 功耗 / 电池 / 散热 — 持续 LLM 推理是热瓶颈

iPhone 15 Pro 持续 ≈ 5W 功耗(约一半 SoC,一半屏幕)运行 LLM,会在 5-10 分钟后触发热降频 (thermal throttling),decode 速度可能砍半。battery:典型 4000 mAh × 3.85 V ≈ 15 Wh,持续 5W 推理 ≈ 3 小时极限(实际显著更短,因为还要算屏幕)。这就是为什么 Apple Intelligence 走 "burst on-device + 难任务 Private Cloud Compute" 的设计 — 不是技术上跑不了,而是用户体验上耗电不可接受

1.5 Storage — 4-8 GB 是 app bundle 的实际上限

App Store / Play Store 都不喜欢超大 binary(App Store 单 app 安装大小有 4 GB 限制,但 On-Demand Resources 可绕过)。这意味着 base 模型权重最大 6-7 GB,留 1-2 GB 给 app 自身。int4 量化下 (~0.5 byte/param):

参数量fp16 大小int8 大小int4 大小能装 iPhone 15 Pro?
1B2 GB1 GB0.5 GB✓ 轻松
1.5B3 GB1.5 GB0.75 GB✓ 轻松
3B6 GB3 GB1.5 GB✓ 推荐
4B8 GB4 GB2 GBint4 才行
7B14 GB7 GB3.5 GB极限,接近 RAM 上限
8B16 GB8 GB4 GBint4 也吃力

1.6 量化是必修课

所有手机 LLM 部署都必须量化。常见方案:

vision encoder 的特殊问题:大多数 mobile GUI agent 是 VLM,vision encoder (e.g. SigLIP-So400m, ~400M) 自身就要 200-800 MB,而且 activation 比 weight 更耗内存 — 一张 1920×1080 截图编码出的 patch tokens × hidden dim 会临时占用几百 MB。这是手机做 GUI agent 比做 function-call agent 难的核心原因。

2 · 可本地跑的 base 模型矩阵 (≤4B)

模型参数许可多模态int4 大小实测 tok/s @ iPhone 15 Pro用途
Apple Foundation Model~3B闭源 (系统服务)否 (有图像理解 sibling)~1.4 GB30 tok/s (Apple 官方)iOS 18+ Writing Tools / Smart Reply / 应用内 LLM API
Gemini Nano3.25B (未在公开来源精确确认)闭源 (AICore)v2 多模态~1.6 GB未在公开来源精确确认Pixel 8 Pro+ 系统层 / ML Kit GenAI 5 个 API
Qwen2.5 0.5B / 1.5B / 3B0.5/1.5/3 BApache-2.0否 (VL sibling 见下)0.3/0.9/1.7 GB~50/35/20 (社区报道)function-call agent
Qwen2.5-VL 3B / 7B3 / 7 BApache-2.01.7 / 3.8 GB~15 / ~8 (vision encoder 拖累)mobile GUI agent 首选开源
Qwen3 0.6B / 1.7B / 4B0.6/1.7/4 BApache-2.0否 (VL 见下)0.4/1.0/2.2 GB未在公开来源精确确认thinking mode 可开关
Phi-3-mini / Phi-3.5-mini3.8BMITvision sibling~2.2 GB~20 (社区报道)通用 reasoning
Phi-Silica~3B (未在公开来源精确确认)闭源 (Windows)是 (多模态版本)Copilot+ PC NPU,不是手机Windows on-device,严格说不是 phone
Gemma 2 2B2.6BGemma Terms~1.4 GB~25 (社区)通用
Gemma 3 1B / 4B1 / 4 BGemma Terms4B+ 多模态0.6 / 2.2 GB~30 / ~12多模态 4B 是当前 Apache-类许可下端侧 VLM 最强之一
LLaMA 3.2 1B / 3B1 / 3 BLlama Community否 (11B/90B 是 vision)0.6 / 1.8 GB~35 / ~18 (社区)Meta 官方 ExecuTorch 集成,手机最 friction-less 之一
MiniCPM 2B / 4B2 / 4 BApache-2.0V 系列多模态1.1 / 2.2 GB未在公开来源精确确认面壁智能 OpenBMB
MiniCPM-V 2.68BApache-2.0~4 GB~6-8 (社区,极限)"在 iPad 上跑得动的多模态" 营销点
MobileLLM125M / 350MCC-BY-NC (paper)0.08 / 0.2 GB~100+Meta 研究品,主要为证明 sub-1B 也能 function-call
SmolLM2 135M / 360M / 1.7B0.135 / 0.36 / 1.7 BApache-2.00.08/0.2/1.0 GB1.7B ~40 (社区)HuggingFaceTB,IFEval 56.7,BFCL 27% (官方报)

2.1 几个关键 base 模型的精读卡片

Apple Foundation Model (~3B)
WWDC 2024 / iOS 18+

Source: machinelearning.apple.com

Gemini Nano (3.25B, Pixel 8 Pro+)
2024-Q4 起逐步铺开 / 2026 Nano v2 多模态

Source: developer.android.com/ai/aicore + Google AI blog (未在公开来源精确确认 3.25B 是否仍是 Nano v2 当前规格)

Qwen2.5-VL-3B (Apache-2.0)
2025-Q1 / HF 4.2M downloads/月

Source: HuggingFace

MobileLLM (Meta, ICML 2024)
arXiv:2402.14905 / Liu et al.
SmolLM2 (HuggingFaceTB, 2024-11)
Apache-2.0 / 135M / 360M / 1.7B

3 · 专门为 mobile-agent / GUI 训练的模型

这一节是 base 模型之上的专门为 phone 任务做后训练的工作。

模型规模base训练许可主线 benchmark
Octopus v22BGemma 2BSFT on synthetic Android IntentApache-2.0 (weights)自报"超 GPT-4 in accuracy + latency, context length -95%"
Octopus v3 / v41-7BMistral / LlamaSFT 跨模态 / 多 agent 路由研究 demo
Mobile-Agent v1GPT-4V (推理时)无训练,纯 prompting + OCR/检测器MIT (code)Mobile-Eval (自家)
Mobile-Agent v2 (NeurIPS 2024)GPT-4V / Qwen-VL三 agent (planning/decision/reflection) + memoryMIT+30% completion vs v1
Mobile-Agent v3 / v3.52/4/8/32 BGUI-Owl (Qwen3-VL)full SFT + RL开源 weightsAndroidWorld / OSWorld 自报 SOTA
Mobile-Agent-EGPT-4oself-evolving (无训练)MIT
AutoUI / Auto-GUI~7BBLIP/FlamingoSFT on AitW研究AitW
AppAgent (TencentQQGYLab)GPT-4Vself-explore docs + promptingMITself-bench (自家 9 app)
DigiRL (Stanford, NeurIPS 2024)1.3BVLMoffline → offline-to-online RLApache-2.0AitW 17.7 → 67.2 success
ScreenAgentmultiSFT研究screen-task
UI-TARS-1.5 / UI-TARS-2 7B7BQwen2-VL大规模 SFT + RL (字节)weights ✓ / RL infra 部分开源OSWorld 47.5, AndroidWorld 高位

3.1 Octopus 系列 (Nexa AI) — function-call 路线

Octopus v2 (arXiv:2404.01744, 2024-04)

3.2 Mobile-Agent 系列 (阿里 X-PLUG) — 学术线最活跃

Mobile-Agent-v2 (NeurIPS 2024, Wang et al.)

三 agent 架构:

结果: 完成率比 v1 +30% pp(GPT-4V 后端,自家 Mobile-Eval)

Mobile-Agent-v3.5 / GUI-Owl (2026-Q1, arXiv:2602.16855)

3.3 DigiRL — RL 路线 (Stanford, NeurIPS 2024)

DigiRL (arXiv:2406.11896, Bai et al.)

3.4 UI-TARS 系列 (ByteDance, 2024-2026)

详见 #17 UI-TARS-2。简要:UI-TARS-1.5 是 7B 跨平台 agent,2 代是 230B MoE,二代不是端侧模型,但 1.5 的 7B int4 在高端 Android (24 GB 机型) 上是 prudent 选择。真正面向手机端的还是 GUI-Owl 2B/4B


4 · Benchmark 全景

Benchmark规模评测协议当前 SOTA许可
AndroidWorld (Google)116 task × 20 app动态参数化 + 程序化 success-checkerpaper 时 30.6%; 2026 leaderboard 70%+ (Mobile-Agent v3.5 / UI-TARS 等)Apache-2.0
AndroidControl (Google, NeurIPS 2024)15,283 demo × 833 appSFT 数据集 + in/out-of-domain splitSFT 数据,不是 leaderboardApache-2.0 (?)
AitW (Android in the Wild)715K episode × 30K 指令4 Android 版本 × 8 设备类型 × 多分辨率多版本 leaderboard;DigiRL 67.2 / CogAgent 38.5研究用
GUI-Odyssey~7,735 task (多任务长 episode)cross-app 转移 + 200 多任务长 traj未在公开来源精确确认研究
Mobile-Eval (M3A / T3A)33 task (M3A multimodal)self-reported successMobile-Agent v2 报多 +30 ppMIT (随 Mobile-Agent)
B-MoCA (Benchmark for Mobile Control Agents)未在公开来源精确确认跨 daily-life 任务未在公开来源精确确认研究
Mobile-Agent-Bench / AppAgent-Bench每个 ~9-15 appself-bench各自 MIT
SPA-Bench (Smartphone Agent Benchmark)340 task × en/zh 双语real-device + emulator未在公开来源精确确认研究

4.1 AndroidWorld — 事实标准

AndroidWorld (Rawles et al., arXiv:2405.14573)

4.2 AitW — 历史最重要的训练数据

Android in the Wild (Rawles et al., 2023, arXiv:2307.10088)

4.3 AndroidControl — Google 自己加的 NeurIPS 2024 训练 + eval 套件

AndroidControl (Li et al., NeurIPS 2024, arXiv:2406.03679)

4.4 评测 leaderboard 现状 (2026-05 snapshot)

系统AndroidWorldAitW (web subset)底层模型
GPT-4V (Mobile-Agent v2)~30% (paper)~30% completionGPT-4V API
GUI-Owl 7B (Mobile-Agent v3.5)自报 SOTA(具体数值未在公开来源精确确认)Qwen3-VL 7B + SFT/RL
UI-TARS-1.5 7B高位(未在公开来源精确确认确切名次)Qwen2-VL 7B + 大规模 SFT
Aria-UI (Rhymes AI)57.0% (自报)MoE 24B(不能上手机)
DigiRL 1.3B未直接评 AndroidWorldAitW 67.2%1.3B VLM + offline-to-online RL
校订: AndroidWorld 公开 leaderboard 在 2026 已被多家刷到 70%+,但 paper PDF 仍写 30.6%。引用时必须区分 "paper 数字" 和 "现 leaderboard 数字" — 不少二手 survey 误把 30.6% 当现实 ceiling。

5 · 推理框架 / 部署栈

框架出品iOSAndroidNPU 后端许可支持模型
MLC-LLMMLC AI / CMU TVMSwift SDK ✓Kotlin/Java SDK ✓Metal / Vulkan / OpenCLApache-2.0Llama / Mistral / Qwen / Phi / Gemma / RedPajama 等几十家
llama.cpp + GGUFggerganov + communityvia PocketPal / LLMFarmvia PocketPal / Maid / ChatterUICPU + Metal (iOS) + OpenCL (Android Adreno)MIT几乎一切开源 LLM,GGUF 是事实标准
MLXApple ML ResearchiOS 18+ (mlx-swift)Apple GPU (Metal); ANE 较弱MITMistral / Qwen / Llama / Phi (mlx-community)
ExecuTorchMeta PyTorchSwift / Obj-C (CoreML backend)Kotlin/Java + JNIXNNPACK + CoreML/ANE + Vulkan + Qualcomm QNN + MediaTekBSD-3Llama 3.2/3.1/3, Qwen 3, Phi-4-mini, LiquidAI LFM2, Llava, Voxtral, Gemma 3
MediaPipe LLM Inference APIGoogle✓ (CocoaPods)✓ (AAR)XNNPACK / GPU / NPU (per device)Apache-2.0Gemma / Phi-2 / Falcon / StableLM (官方支持列表)
Apple Core MLApple原生ANE + GPU闭源 (Apple platforms)转换工具 (coremltools);事实上 Apple Foundation Model 就在这条路径
NNAPIGoogle (Android)OS-level (deprecated 在 NDK 31+)各 OEM 后端tflite 走 NNAPI,但Google 在缓慢弃用,推 Android NDK + 厂商 SDK 替代
Qualcomm AI Engine Direct (QNN)QualcommHexagon NPU 直接编程闭源 SDK需手动 export;ExecuTorch 已经包了一层
MNNAlibaba各种Apache-2.0主要 vision/ASR,LLM 支持后加
NCNNTencentVulkan / MetalBSD-3主要 vision;LLM 走 ncnn-llm fork 但 ecosystem 落后
TensorFlow Lite (LiteRT)GoogleNNAPI / GPU / EdgeTPUApache-2.0主流 vision/ASR;LLM 走 MediaPipe wrapper

5.1 三种推荐组合

组合 A · "我要跨 iOS+Android 一套代码"MLC-LLM
官方 Swift + Kotlin SDK,模型只需要在 desktop 上预编译(weight conversion + libgen)一次,iOS/Android binary 直接 link。适合早期 prototype / 独立开发者
组合 B · "我已经在 PyTorch 训了 GUI agent 模型"ExecuTorch
直接 torch.export.pte → CoreML backend (iOS) / XNNPACK / Qualcomm (Android)。Meta 自己 Instagram/WhatsApp/Quest 3 都在用。代价:exporter 支持的算子有限,custom ops 要写 kernel。
组合 C · "iOS 单平台,要榨 ANE"Core ML (coremltools) 或直接 FoundationModels framework
FoundationModels 不需要打包权重(Apple 系统级),但仅限 Apple 模型;Core ML 自家模型可以但 ANE backend 对自由 transformer 还不够灵活,实际仍多 fallback 到 GPU。

5.2 MLC-LLM vs ExecuTorch 一句话

MLC-LLM 是 "编译器派"(TVM),把模型从 IR 一路编译到 Metal/Vulkan kernel,跨平台一致;ExecuTorch 是 "runtime 派"(50 KB runtime),依靠 12+ 硬件 backend partition graph。MLC 对模型 zoo 友好,ExecuTorch 对硬件 zoo 友好。两条路在 2026 已经 converge — 都支持 Qwen/Llama/Phi/Gemma,差距越来越窄。


6 · 实测性能表 — model × phone × tok/s @ int4

下表数字大多来自社区报告 / Reddit / HF discussion / GitHub issue,而非官方;Apple Foundation Model 的 30 tok/s 是 Apple 官方 blog;其他凡未在公开来源精确确认的标注为"~估计"

模型 (int4)iPhone 15 Pro
(A17 Pro, 8 GB)
iPhone 17 Pro
(A19 Pro, 12 GB)
Pixel 9 Pro
(Tensor G4)
Snapdragon 8 Gen 3
(8-16 GB)
Snapdragon 8 Elite
Qwen2.5-0.5B~80 (~估计)~100 (~估计)~60 (~估计)~70 (~估计)~110 (~估计)
Qwen2.5-1.5B~30-40 (~估计)~45 (~估计)~25 (~估计)~30 (~估计)~55 (~估计)
Qwen2.5-3B~18-22 (社区)~28 (~估计)~15 (~估计)~20 (~估计)~35 (~估计)
Qwen2.5-VL-3B~12-15 (~估计,vision encoder 拖累)~20 (~估计)~10 (~估计)~13 (~估计)~22 (~估计)
Phi-3.5-mini 3.8B~18-20 (社区报)~25 (~估计)~15 (~估计)~18 (~估计)~30 (~估计)
LLaMA 3.2 1B~40 (~估计)~55 (~估计)~30 (~估计)~35 (~估计)~60 (~估计)
LLaMA 3.2 3B~15-18 (社区)~25 (~估计)~13 (~估计)~17 (~估计)~28 (~估计)
Gemma 3 1B~30-35 (~估计)~45 (~估计)~25 (~估计)~30 (~估计)~50 (~估计)
Gemma 3 4B~10-12 (~估计)~18 (~估计)~8 (~估计)~12 (~估计)~20 (~估计)
SmolLM2 1.7B~35 (社区)~50 (~估计)~28 (~估计)~32 (~估计)~55 (~估计)
MiniCPM-V 2.6 8B~极限/不可用~6 (~估计)RAM 紧~5 (~估计)~10 (~估计)
Apple Foundation 3B30 (Apple 官方)~40+ (~估计)
表的可信度:除 Apple 30 tok/s 外,其它都是数量级估计,实际可能 ±50%。差异来自:① quantization (Q4_0 vs Q4_K_M 差很大);② thermal 状态(冷启 vs sustained);③ context length(长 context 时 KV cache 主导,decode 慢);④ 框架(llama.cpp vs MLC vs ExecuTorch)。本表用于决策粗排序,不用于绝对承诺。

7 · Mobile agent 训练框架与数据

7.1 训练数据三大支柱

数据集规模用途
AitW (Android in the Wild)715K episodeSFT 大规模 — DigiRL / Auto-UI / GUI-Owl base
AndroidControl (Google)15.3K demo × 833 appSFT in/out-of-domain split
GUI-Odyssey~7K cross-app multi-step跨应用 long horizon
OS-Atlas (跨平台,含 mobile)13M elementgrounding
Aguvis4.2M grounding + 1.3M traj两阶段训
Mobile-Agent self-explore合成 (无具体 size 公开)v2/v3 自有合成

7.2 RL 训练框架

7.3 训练成本 (粗估)

训一个 3-4B mobile GUI agent,从 base VLM 起步:


8 · 与本系列其他工作的连接

关联笔记关系
#14 ClawGUI14_ClawGUI同主题 — Mobile-World Docker emulator,本笔记 §7 直接复用
#15 PinchBench15_PinchBench姊妹 agent benchmark 调研(coding agent,跨平台)
#16 Desktop Agents landscape16_DesktopAgents姊妹篇 — 桌面 GUI / CLI 生态,本笔记沿用其模板和结构
#17 UI-TARS-217_UITARS2跨平台 GUI agent(mobile+desktop),其 1.5 版 7B 是手机端可考虑候选
#27 Small Model MCP landscape27_SmallModelMCP参数甜点讨论 — 那边讨论 ≤40B MCP,这边讨论 ≤4B mobile;1.5-4B 是两边交集
#29 EnvTuning29_EnvTuning"tune env 不 tune agent" 思想对 mobile 同样有效 — emulator 的 error message 可以 actionable 化
#31 Prime Intellect Hub31_PrimeIntellectHubEnvironments Hub 已有 Android emulator env,可以用 verifiers SDK 起步训练

9 · 决策树 — 我要在手机上做 agent

想在手机上跑 agent 单一 OS 还是跨平台? (单 OS 可吃系统 API) 仅 iOS 用 FoundationModels (iOS 26+, 不需打包权重) 单 OS - iOS 仅 Android Gemini Nano via AICore (只 5 个 ML Kit GenAI API) 单 OS - Android 跨平台 / 自带模型 → MLC-LLM 或 ExecuTorch 选 base 模型 ↓ 跨平台 需要 GUI grounding (看屏幕)? 是 - GUI agent Qwen2.5-VL-3B or Mobile-Agent v3.5 GUI-Owl 2B/4B 否 - function-call Qwen2.5-1.5B / SmolLM2-1.7B or Phi-3.5-mini 最终用户机型? 8 GB RAM 中低端 ≤1.5B int4 强制 8-12 GB 主流 3B int4 甜点 12-24 GB 旗舰 4-7B int4 OK 未知 OEM 降到 1.5B
从 "单 OS 还是跨平台" 一路分到 "目标机型 RAM" 的 mobile agent 选型决策树。注意每一层都有"诚实落子"的回退选项 — 8 GB RAM 中低端不能跑 3B+,即使你想。

10 · 局限 / 诚实分析

10.1 为什么 Siri / Google Assistant 仍然走云

这一点必须直说:截至 2026-05,所有可商用的复杂 mobile agent 任务,产品上仍然是 cloud-first。本地模型只做简单子任务:

真正的多 app reasoning(e.g. "看一下我妈微信发的菜谱,把里面的食材加到购物 app 然后打开外卖 app 看哪个超市送货最快")— 没有产品级的 on-device 解决方案。原因:

  1. 1B-3B 模型 multi-turn reasoning 弱 — 这是 #27 笔记的核心结论之一,BFCL V4 上 ≤4B 极少能 cross 50%;
  2. vision encoder 太贵 — 真要每 step 看屏幕,RAM/延迟双重不可承受;
  3. 跨 app 权限本身是 OS 问题不是模型问题(Android 跨 app 还行 via accessibility service,iOS 几乎不可能,只能走 Shortcuts/Intent 这种受控接口)。

所以 Apple 设计了 Private Cloud Compute(同样架构、可审计、no-log)做难任务 fallback;Google 直接走 Gemini Cloud。这就是产品现实。

10.2 mobile GUI agent 比 mobile function-call agent 难一个量级

维度function-callGUI agent
模型尺寸0.5-3B 足够VLM 至少 3-7B
RAM 内存1.5 GB 内 fit3+ GB (含 vision activation)
延迟<1s feasible每 step 1-3s typical
OS 权限app intent / shortcut API 即可iOS 需 Accessibility / Android 需 Accessibility Service(显眼系统警告)
跨 app generalizationSDK schema 已知,容易迁移视觉 layout 千差万别,OOD generalization 弱

这就是为什么 Octopus / MobileLLM 那条 "functional-token / function-call" 路线产品上更接近落地,而 Mobile-Agent v3.5 / GUI-Owl 这条 "看屏幕直接操作" 在实验室漂亮但产品上还没成熟方案。

10.3 持续推理的能耗诚实账

10.4 关于本笔记数字的诚实标注

本笔记中已经明确标记为 "未在公开来源精确确认" 的字段包括:

这些字段在二手 survey 中常被错引,本笔记选择承认不知道而非编造一个精确数字。


📚 主要参考来源