跳转至

本文档属于 Robotics Tutorial 项目,作者:Pengfei Guo,达妙科技。采用 CC BY 4.0 协议,转载请注明出处。

具身智能方向统一大纲

Embodied Intelligence --- Unified Master Outline

版本: v2.0 | 日期: 2026-05-14 维护者: 机器人文档体系 - 06_具身智能方向 定位: 具身智能 = 连接感知与动作的"大脑层"------以基础模型为核心,将视觉-语言理解转化为物理世界中的持续行动 数据基础: 主项目 5 文件 / ~2,444 行 + 全量仓库 271 个 Markdown 文件 / ~141,000 行;本大纲整合全部内容为统一索引

一句话定义

具身智能研究**如何让智能体在物理世界中感知、推理并持续行动**。 它不是独立的"第七个方向",而是将 01-05 中的数学/编程/SLAM/规控/运动控制能力 与大模型时代的视觉-语言-动作基础模型融合在一起的"最上层集成"。

阅读约定

  • [全量仓库] = /home/gpf/Nutstore Files/具身智能/
  • [主项目] = /home/gpf/Nutstore Files/Robotics_Tutorial/06_具身智能/
  • [05运控] = /home/gpf/Nutstore Files/Robotics_Tutorial/05_运动控制/
  • 文件引用使用简写路径,如 [全量仓库]/VLA与VLN综述大纲.md
  • 论文引用格式:简称 (venue year),详细信息见各综述附录

快速路径 (Quick-Start Track)

不是每个人都需要完整六大支柱。以下最小路径让你用**最短时间建立可运行的端到端系统**。

路径 QS-A: VLA 最小可用 (~4 周)

Week 1: VLM 基础 (CLIP, PaliGemma, LLaVA) + HF Transformers 加载
    → Week 2: OpenVLA 加载 + SimplerEnv 评估
    → Week 3: LeRobot 环境搭建 + Diffusion Policy Push-T 复现
    → Week 4: OpenVLA-OFT 单任务微调 + 真机/仿真评估
    总计 ~4 周,GPU: 单卡 RTX 4090 / A100

成果: 在仿真 (SimplerEnv) 中运行 OpenVLA,能做单任务 pick-and-place。

路径 QS-B: 人形 RL 最小可用 (~3 周)

Week 1: PPO 原理 + Isaac Lab 安装 + Go2 行走训练
    → Week 2: AMP 对抗运动先验 + ProtoMotions 复现
    → Week 3: Humanoid-Gym H1 训练 + sim-to-real 基本流程
    总计 ~3 周,GPU: 单卡 RTX 3090+

成果: 在 Isaac Lab 中训练出 H1 步态策略。

路径 QS-C: 世界模型入门 (~3 周)

Week 1: WM.md 第一章 + Dreamer 原理
    → Week 2: DreamerV3 DMControl 训练
    → Week 3: STORM 单卡 3090 复现 (4.3h) / DIAMOND Atari
    总计 ~3 周,GPU: 单卡 RTX 3090

成果: 在 DMControl / Atari 上训练出 model-based RL agent。


计算与硬件需求表

GPU 需求速查

任务类别 最低 GPU 推荐 GPU 显存需求 典型训练时间 备注
VLM 推理 (7B) RTX 3060 12GB RTX 4090 12-16 GB --- 量化后 3060 可跑
VLA 推理 (OpenVLA 7B) RTX 4090 A100 80GB 24-48 GB --- OFT 推理快 26x
VLA 微调 (LoRA, 7B) RTX 4090 A100 80GB 24-48 GB 4-12 h QLoRA 降至 24GB
VLA 预训练 (pi0 3B) 4x A100 8x H100 320+ GB 10K+ GPU hours 工业级
Diffusion Policy RTX 3090 RTX 4090 12-24 GB 2-8 h Push-T 单卡可跑
Flow Matching (pi0) A100 H100 40-80 GB --- pi0 推理 ~8ms/step
Dreamer / STORM RTX 3090 RTX 4090 12-24 GB 4-12 h STORM 单 3090 仅 4.3h
DIAMOND (Atari) RTX 3090 RTX 4090 12-24 GB 12-24 h 扩散世界模型
Cosmos 推理 A100 H100 80+ GB --- Nano 2B 可在 A100
V-JEPA 2 下游 RTX 3090 RTX 4090 12 GB 冻结特征 预训练极贵,下游便宜
人形 RL (Isaac Lab) RTX 3090 RTX 4090 12-24 GB 2-8 h 4096 环境并行
大规模人形 RL (SONIC) 8x A100 多节点 H100 640+ GB 21K GPU hours 工业级
LLM 微调 (LoRA, 7B) RTX 4090 A100 24-48 GB 2-6 h QLoRA/Unsloth 降需求
世界模型推理加速 RTX 3090 RTX 4090 12 GB --- 训练免费方向

真机硬件需求

方向 推荐硬件 价格区间 替代方案
单臂操控 Franka / UR5e / WidowX \(5K-\)70K LeRobot SO-100 ($300)
双臂操控 ALOHA / Mobile ALOHA \(20K-\)100K 仿真 (Isaac Lab)
人形全身 Unitree G1 ~$16K Unitree H1 (~$90K)
移动操控 Stretch RE2 / TIAGo \(25K-\)80K 仿真 (Habitat 3.0)
遥操作数据采集 GELLO / UMI / Apple Vision Pro \(500-\)3500 LeRobot 手持采集

工业 vs 研究标记

标记体系定义

标记 含义 判定标准
[工业] 已有工业级产品或部署案例 有公司支持、闭环产品、真机批量部署
[研究] 顶会/顶刊发表,开源可复现 同行评审通过,代码开源
[前沿] 最新预印本,尚未同行评审 arXiv 预印本,方法新颖
[基础] 奠基性工作,已成领域常识 引用 1000+,写入教科书

按支柱标记总览

支柱 [工业] [研究] [前沿] [基础]
P1 大模型 GPT-4, Gemini, Qwen LLaMA 3, DeepSeek-V3 Qwen3, Llama 4 Transformer, BERT
P2 VLA/VLN pi0/pi0.5, GR00T N1.7, Helix OpenVLA/OFT, SpatialVLA SmolVLA, MemoryVLA, PixelVLA RT-2
P3 扩散/FM --- Diffusion Policy, FlowPolicy MP1 (6.8ms), VFP DDPM, Flow Matching
P4 世界模型 Cosmos, Genie 3 DreamerV3, DIAMOND, TD-MPC2 V-JEPA 2, R2-Dreamer RSSM, PlaNet
P5 人形 RL Isaac Lab, SONIC+GR00T ASAP, HumanPlus, GMT BFM-Zero, BeyondMimic DeepMimic, AMP
P6 数据/部署 OXE, LeRobot, Isaac Lab Genesis, SimplerEnv VLABench Open X-Embodiment

总览路线图

具身智能的知识体系由**六根支柱**支撑,它们之间存在明确的依赖与协作关系:

具身智能六大支柱
|
+-- P1  大模型基础 (LLM / VLM / MLLM)
|       从 Transformer 到多模态推理,是一切具身基础模型的"地基"
|       | 视觉-语言能力迁移到机器人
|
+-- P2  VLA 与 VLN (视觉-语言-动作 / 视觉-语言-导航)
|       将 VLM 的感知-推理能力注入动作生成与导航决策
|       <-- P1 提供骨干  <-- P3 提供动作头  <-- P5 提供低层执行
|
+-- P3  扩散策略与 Flow Matching
|       生成式动作模型:从 Diffusion Policy 到单步 Flow Matching
|       | 为 VLA 提供动作解码头  | 为世界模型提供生成架构
|
+-- P4  世界模型 (从 Dreamer 到 Cosmos)
|       环境的内部表征:感知 -> 预测 -> 规划 -> 控制
|       <-- P3 提供扩散架构  --> P5 提供想象训练环境
|
+-- P5  RL 与动作模仿 (从 DeepMimic 到 GR00T)
|       人形机器人的运动能力:步态/全身/灵巧/体育技能
|       <-- P4 提供世界模型训练  <-- P2 提供语言条件
|
+-- P6  数据引擎与部署 (OXE / DROID / LeRobot / Sim2Real)
        从数据采集到真机部署的全栈工程
        ^ 服务所有支柱的训练与验证

支柱间依赖关系图

          P1 大模型基础
          /        \
     P2 VLA/VLN    P4 世界模型
      ^   |          ^   |
     P3 扩散/FM  <->  P5 RL/动作模仿
          \        /
         P6 数据引擎与部署

内容规模统计

支柱 主要来源文件 行数 论文数
P1 大模型基础 [全量仓库]/大模型全景综述_完整合并版.md 566 115+
P2 VLA 与 VLN [全量仓库]/VLA与VLN综述大纲.md 583 100+
P3 扩散/FM [全量仓库]/Flow_Matching与Diffusion_Policy综述.md 461 60+
P4 世界模型 [全量仓库]/世界模型/WM.md + 40 篇论文笔记 27,668 40+
P5 RL/动作模仿 [全量仓库]/RL人形/ (218 files) 105,625 120+
P6 数据/部署 分散在 P2/P5 各综述工具章节 --- ---
合计 271 个 Markdown 文件 ~141,000 400+

前置知识依赖矩阵

与 01_数学 的依赖

数学主题 依赖强度 具身智能中的应用 01_数学 对应章节
线性代数 (矩阵分解/特征值) 必需 Transformer 注意力计算、LoRA 低秩分解 线性代数核心
概率论 / 贝叶斯推断 必需 RSSM 状态估计、扩散模型推导 概率与统计
变分推断 (ELBO/KL) 必需 VAE/Dreamer/DPO 数学推导 概率图模型
随机过程 (SDE/ODE) 必需 Diffusion / Flow Matching 理论基础 随机过程
李群/李代数 (SE(3)/SO(3)) 推荐 SE(3) 扩散策略、位姿表示、等变网络 李群与流形
最优控制 (HJB/PMP) 推荐 MPC/MPPI、世界模型规划、RL 理论 最优控制理论
信息论 (KL/MI/熵) 推荐 KL balancing (Dreamer)、DPO/GRPO 推导 信息论基础
凸优化 可选 约束策略优化、安全 RL 优化方法

与 05_运动控制 的依赖

运控主题 依赖强度 在具身智能中的位置 05_运控 对应文件
动作模仿理论 (DeepMimic/AMP) 必需 (P5) RL 人形运动能力层的理论基础 动作模仿理论.md (455行)
RL sim-to-real (域随机化/teacher-student) 必需 (P5) 从仿真到真机的核心技术栈 MJLab与IsaacLab_RL运控教学文档.md (2409行)
前向/逆运动学 推荐 (P2) VLA 动作空间理解 机械臂核心章节
力控 / 阻抗控制 推荐 (P2) VLA 灵巧操控 + 安全接触 F 系列 (力控)
全身控制 WBC 推荐 (P5) 人形 RL 的物理层约束 足式 WBC 章节
刚体动力学 推荐 (P5) 人形 RL 仿真 动力学基础

与其他方向的依赖

方向 依赖主题 依赖强度 用途
02_C++基础与进阶 PyTorch 工程能力 必需 所有训练/推理
02_C++基础与进阶 C++/Python 编程 必需 仿真/部署
03_SLAM 视觉定位与建图 推荐 VLN sim-to-real
03_SLAM 语义 SLAM / 3D 场景图 推荐 P2.2 VLN 导航
04_移动规控 MPPI / MPC 规划 推荐 TD-MPC 世界模型规划
04_移动规控 路径规划 推荐 VLN 导航规划

前置三层口径

  • 最低可启动: Transformer 原理 + PyTorch 基本操作 + PPO 原理。可启动 Quick-Start 路径。
  • 推荐补齐: + 变分推断 + SDE/ODE 基础 + 动作模仿理论 (05)。适合完整学习 P1-P3。
  • 完整前置: + 李群 + 最优控制 + 力控 + WBC。适合 P4-P5 深入研究 + 真机部署。

生态速览 (2026-05)

VLA 模型生态

模型 机构 参数量 动作表示 骨干 VLM 许可 状态
pi0 Physical Intelligence 3B+300M Flow Matching PaliGemma 3B 闭源 RSS 2025
pi0.5 Physical Intelligence --- Flow + FAST PaliGemma 闭源 CoRL 2025 Oral
pi0-FAST Physical Intelligence --- FAST (DCT) PaliGemma 开源权重 RSS 2026 Finalist
GR00T N1 NVIDIA 2.2B Flow (DiT) Eagle-2 闭源 2024
GR00T N1.5 NVIDIA 2.2B+ Flow + FLARE Eagle-2.5 闭源 2025
GR00T N1.7 NVIDIA --- Flow Eagle-2.5+ Apache 2.0 2025 late
OpenVLA Berkeley 7B 离散分箱 Prismatic MIT CoRL 2024
OpenVLA-OFT Berkeley 7B 连续并行 Prismatic MIT arXiv 2502
Octo Berkeley --- Diffusion Transformer MIT RSS 2024
RT-2 Google DeepMind 55B 离散分箱 PaLI-X/PaLM-E 闭源 CoRL 2023
SpatialVLA --- --- 自适应网格 --- 开源 2025
SmolVLA HuggingFace 450M --- --- Apache 2.0 2025
Helix Figure AI --- --- --- 闭源 2025
CogACT --- --- Diffusion VLM 开源 2024
RDT-1B --- 1.2B Diffusion --- 开源 ICLR 2025
HPT --- --- 异构 Transformer 开源 2024
MemoryVLA --- --- --- --- --- ICLR 2026
PixelVLA --- --- --- --- --- ICLR 2026

世界模型生态

模型 机构 范式 关键特性 状态
Genie 3 DeepMind 视频生成 24fps 720p 实时交互;Waymo 采用 2025.08
Cosmos Predict 2.5 NVIDIA 视频生成 Physical AI 基础设施;2B/14B 2025
Cosmos Reason 2 NVIDIA 推理 安全/社会推理 safety-critical 2025
DreamerV3 Hafner RSSM Nature 2025;150+ 任务固定超参 主流
TD-MPC2 MIT 潜在+MPPI 317M / 104 任务统一 ICLR 2024
V-JEPA 2 Meta JEPA 物理直觉 98%;不生成视频 ICLR 2026
DIAMOND --- Diffusion NeurIPS 2024 Spotlight;Atari 2024
R2-Dreamer --- RSSM 移除解码器 ICLR 2026
DINO-WM --- JEPA 冻结 DINOv2 特征 ICML 2025

人形 RL 生态

工作 机构 平台 关键特性 状态
SONIC NVIDIA GEAR 通用 42M 参数,700h,21K GPU hours 2025
ASAP --- G1 仿真-真实对齐;敏捷技能 RSS 2025
GMT --- G1 通用运动追踪 arXiv 2026
HumanPlus Stanford H1 影子模仿;从人类视频学 CoRL 2024
HOVER NVIDIA Unitree 通用全身控制器 ICRA 2025
BFM-Zero --- --- 无监督 RL 行为基础模型 ICLR 2026
Kimodo NVIDIA --- Text-to-Motion diffusion + SONIC 2026
LATENT --- G1 持续多拍网球对打 arXiv 2026
HUSKY --- G1 户外滑板 2026

数据与部署生态

项目 类型 规模/特性 状态
Open X-Embodiment 数据集 1M+ episodes, 22 种机器人 ICRA 2024 Best Paper
DROID 数据集 76K 轨迹, 564 场景, 13 机构 2024
LeRobot v0.4 框架 pi0.5/GR00T/ACT/DP 内置 HuggingFace
Isaac Lab 3.0 仿真 GPU 并行 RL + GR00T-Mimic NVIDIA
Genesis 仿真 10-80x 快于 Isaac;全可微 开源
SimplerEnv 评估 VLA 策略仿真评估桥梁 开源
RLinf RL框架 PPO/GRPO/SAC;VLA+RL 开源

第一部分:六大支柱详述


P1 大模型基础 (LLM / VLM / MLLM)

定位: 具身智能的"认知层地基"。所有 VLA、VLN、世界模型、Agent 的上层能力都建立在预训练基础模型之上。 核心参考: [全量仓库]/大模型全景综述_完整合并版.md (566行) 对应主项目: [主项目]/大模型全景综述.md + 大模型全景综述_Phase10_PyTorch训练部署项目.md 标记: [基础] + [工业]

P1.1 LLM 架构与 Scaling Laws

主题 关键工作 状态标记
Transformer 原始架构 Attention Is All You Need (NeurIPS 2017) [基础]
Scaling Laws Kaplan (2020) -> Chinchilla (NeurIPS 2022) [基础]
开源 LLM 族谱 LLaMA 1/2/3/4, Qwen 1/2/2.5/3, DeepSeek-V2/V3 [研究]
MoE 稀疏架构 GShard -> Switch -> Mixtral -> DeepSeekMoE [研究]
高效注意力 FlashAttention 1/2/3, RoPE, Mamba/Mamba-2 [工业]
预训练数据工程 C4, The Pile, FineWeb, RefinedWeb [工业]

对具身智能的意义: VLA 模型的语言骨干 (PaliGemma, Eagle, Llama) 直接来自这些 LLM 架构。理解 Transformer 内部机制是理解所有后续模型的前提。

P1.2 参数高效微调与对齐

主题 关键工作 状态标记
LoRA / QLoRA / DoRA ICLR 2022 / NeurIPS 2023 / ICML 2024 [工业]
RLHF 三阶段 InstructGPT (NeurIPS 2022) -> ChatGPT [基础]
DPO 无 PPO 对齐 NeurIPS 2023 [研究]
GRPO DeepSeekMath (arXiv 2024);现已用于 VLA 的 RL 微调 [前沿]

对具身智能的意义: VLA 的 RL 微调 (如 pi-0.6 RECAP, VLA-RL) 直接复用 GRPO/DPO 技术栈。

P1.3 视觉基础模型与多模态

主题 关键工作 状态标记
ViT / Swin / DINOv2 ICLR 2021 / ICCV 2021 / TMLR 2024 [基础]
CLIP / SigLIP ICML 2021 / ICCV 2023 [基础]
SAM / SAM 2 ICCV 2023 / ICLR 2025 [工业]
VLM: LLaVA -> Qwen2-VL -> InternVL 2.5 NeurIPS 2023 -> 2024 [研究]
扩散生成: DDPM -> LDM -> DiT -> Sora -> FLUX 2020-2024 [基础]

对具身智能的意义: SigLIP + DINOv2 组合是 OpenVLA 的视觉编码器;PaliGemma (Google) 是 pi0 系列的骨干;Eagle (NVIDIA) 是 GR00T 系列的骨干。VLM 中的图像理解能力直接迁移为 VLA 的场景感知。

P1.4 推理与 Agent

主题 关键工作 状态标记
CoT / ToT / Self-Consistency NeurIPS 2022 / 2023 [基础]
DeepSeek-R1: 纯 RL 长链推理 Nature 2025 [研究]
ReAct -> SWE-Agent -> Claude Code 2023-2025 [工业]

对具身智能的意义: 具身思维链 (ECoT) 将 CoT 推理引入 VLA,使机器人输出动作前先进行多步推理,泛化任务提升 28%。Agent 范式 (ReAct 式推理+行动交替) 是导航和长程任务规划的核心协议。

P1.5 PyTorch 训练部署全栈

详见 [主项目]/大模型全景综述_Phase10_PyTorch训练部署项目.md

研究者最小栈:
  训练: PyTorch + Transformers + PEFT + Accelerate + DeepSpeed
  微调: LLaMA-Factory / (Unsloth + TRL)
  对齐: TRL (DPO/GRPO) / OpenRLHF (全量 PPO)
  量化: BitsAndBytes -> GPTQ/AWQ
  部署: vLLM / SGLang
  具身: LeRobot + Genesis/Isaac Lab

P2 VLA 与 VLN (视觉-语言-动作 / 视觉-语言-导航)

定位: 具身智能的"核心战场"------将 VLM 的感知-推理能力直接转化为动作输出 核心参考: [全量仓库]/VLA与VLN综述大纲.md (583行) ICLR 2026 信号: VLA 投稿从上年 9 篇暴增至 164 篇,标志该方向进入绝对主流 标记: [研究] -> [工业] 快速过渡

P2.1 VLA 模型谱系

技术演进时间线
阶段 时间 特征 代表工作
技术奠基 2023 扩散策略 + 动作分块 + 语言表征 Diffusion Policy (RSS), ACT/ALOHA (RSS)
范式开创 2022-2023 VLM->VLA + 大规模真实数据 RT-1 (RSS), RT-2 (CoRL)
数据统一 2023-2024 跨具身数据生态 + 开源基线 Open X-Embodiment (ICRA), Octo (RSS), OpenVLA (CoRL)
灵巧化 2024-2025 Flow Matching + 高频控制 + 双臂 pi0, pi0-FAST, GR00T N1, RDT-1B
泛化爆发 2025-2026 开放世界 + 3D + 推理 + 记忆 pi0.5 (CoRL Oral), SpatialVLA, MemoryVLA
核心 VLA 模型速查
模型 机构 参数量 动作表示 骨干 VLM 关键突破
RT-2 Google DeepMind 55B 离散分箱 PaLI-X/PaLM-E 开创 VLM->VLA 范式
pi0 Physical Intelligence 3B+300M Flow Matching PaliGemma 3B 首将 FM 引入 VLA;50Hz
pi0.5 Physical Intelligence --- Flow + FAST PaliGemma 开放世界泛化;双层推理
OpenVLA Berkeley 7B 离散分箱 Prismatic 首个完全开源 7B VLA
OpenVLA-OFT Berkeley 7B 连续并行 Prismatic 76.5%->97.1% (LIBERO);26x 吞吐
GR00T N1 NVIDIA 2.2B Flow (DiT) Eagle-2 人形双系统架构
GR00T N1.5 NVIDIA 2.2B+ Flow + FLARE Eagle-2.5 对齐训练优化
GR00T N1.7 NVIDIA --- Flow Eagle-2.5+ Cosmos 世界模型集成;Apache 2.0
Octo Berkeley --- Diffusion Transformer 开源通用策略;800K 轨迹
SpatialVLA --- --- 自适应网格 --- 3D 位置编码;110 万 episode
SmolVLA HuggingFace 450M --- --- 轻量紧凑;端侧可部署
Helix Figure AI --- --- --- 全身人形上半身控制
CogACT --- --- Diffusion VLM 认知-动作解耦;+35% over OpenVLA
RDT-1B --- 1.2B Diffusion --- 双臂操控基础模型
HPT --- --- 异构 Transformer 50+ 数据集统一预训练
动作表示方法对比
方法 原理 推理速度 多模态能力 代表模型 标记
离散分箱 每维 256 bins -> 文本 token RT-2, OpenVLA [基础]
Flow Matching 噪声->动作的 ODE 速度场 3-10 步 / 8-20ms 良好 pi0, GR00T N1 [工业]
Diffusion Policy 潜空间迭代去噪 10-50 步 / ~160ms Octo, CogACT [研究]
FAST (DCT) 频域压缩为离散 token 良好 pi0-FAST [研究]
MeanFlow 单步 平均速度场 1-NFE 1 步 / 6.8ms 良好 MP1 [前沿]
2026 ICLR VLA 爆发趋势

七大主题:Discrete Diffusion VLA、Reasoning VLA / Embodied CoT、新型 Action Tokenizer (FAST 变体)、Efficient VLA (SmolVLA 450M)、RL for VLA、VLA + Video Prediction、Evaluation & Benchmarking。

P2.2 VLN 方法演进

技术演进时间线
阶段 时间 特征 代表工作
基线期 2018 LSTM + attention Seq2Seq, Speaker-Follower
预训练期 2020-2021 自监督 + Transformer PREVALENT, HAMT, VLN-BERT
图结构期 2022-2023 拓扑地图 + BEV DUET, ETPNav, BEVBert
LLM 集成期 2023-2024 零样本推理 + 常识 NavGPT, MapGPT, L3MVN
VLA 统一期 2024-2025 视频理解 + 端到端 NaVid (RSS), NaVILA, Uni-NaVid
VLN 核心技术
技术 描述 代表方法 标记
拓扑地图 实时构建导航图 DUET, ETPNav [研究]
前沿探索 VLM 排序候选前沿 VLFM, L3MVN [研究]
3D 场景图 层次化语义空间表征 SayNav, SG-Nav [前沿]
BEV 表征 鸟瞰视角度量地图 BEVBert [研究]

P2.3 具身基础模型

模型 venue 核心贡献 标记
PaLM-E ICML 2023 562B 参数具身多模态 LM;ViT 感知注入 PaLM;跨领域正迁移 [研究]
EmbodiedGPT NeurIPS 2024 具身思维链预训练;EgoCOT 数据集;第一人称视频学习规划 [研究]
LEO ICML 2024 3D 世界通才智能体;3D 视觉-语言-动作对齐 [研究]
SPA ICLR 2025 3D 空间感知表征;可微神经渲染;268 任务最全评估 [研究]
RoboPoint CoRL 2024 VLM 关键点可供性预测;超 GPT-4o 21.8% [研究]
ECoT arXiv 2024 具身思维链推理;VLA 动作前多步推理;泛化 +28% [前沿]

详见 [全量仓库]/VLA与VLN综述大纲.md 第三部分

P2.4 VLA 相关顶会荣誉精选

论文 会议 荣誉
Diffusion Policy RSS 2023 高引用里程碑
Open X-Embodiment / RT-X ICRA 2024 Best Paper
pi0.5 CoRL 2025 Oral
FEAST RSS 2025 Outstanding Paper
FAST RSS 2026 Award Finalist
Reactive Diffusion Policy RSS 2026 Award Finalist

完整 37 条记录见 [全量仓库]/VLA与VLN综述大纲.md 第八节


P3 扩散策略与 Flow Matching

定位: 生成式动作模型------VLA 的"动作解码头"与独立策略学习的核心范式 核心参考: [全量仓库]/Flow_Matching与Diffusion_Policy综述.md (461行) 标记: [基础] -> [研究]

P3.1 基础理论对比

范式 训练目标 推理步数 推理时间 代表工作 GPU 需求
DDPM/SDE 预测噪声 epsilon 50-1000 秒级 Diffusion Policy RTX 3090
DDIM 预测噪声 epsilon 10-20 ~160ms --- RTX 3090
Flow Matching/ODE 回归速度场 v 3-10 ~8-20ms pi0, GR00T N1 A100
Consistency Flow 速度场 + 自一致性 1-2 ~12ms FlowPolicy RTX 4090
MeanFlow 平均速度场 1 (1 NFE) 6.8ms MP1 RTX 4090

P3.2 Diffusion Policy 奠基

Diffuser (ICML 2022, 轨迹级扩散规划) -> Diffusion Policy (RSS 2023, action chunking, +46.9%) -> Decision Diffuser (ICLR 2023, 条件扩散决策)。

P3.3 Diffusion 在 VLA 中的应用

Octo (RSS 2024)、CogACT (arXiv 2024)、RDT-1B (ICLR 2025, 1.2B)、DexGraspVLA (AAAI 2026 Oral)、Equivariant DP (CoRL 2024 Finalist)。

P3.4 Flow Matching 在 VLA 中的应用

pi0 (RSS 2025)、pi0.5 (CoRL 2025 Oral, 双层架构)、pi-0.6 (RECAP, RL+FM)、GR00T N1/N1.5/N1.7。

P3.5 独立 Flow Matching 策略学习前沿

工作 venue 关键突破 标记
FlowPolicy AAAI 2025 Oral 一致性 FM + 3D 点云;7x 加速 [研究]
ManiFlow CoRL 2025 DiT-X 流形感知;1-2 步;真机 98.3% [研究]
MP1 AAAI 2026 MeanFlow 单步;6.8ms / 19x 加速 [前沿]
VFP arXiv 2025 变分 FM;+61.7% over FlowPolicy [前沿]

P3.6 Flow Matching + RL 融合

核心难题:FM 无解析 log-probability。三条解决路线:优势加权回归 (FPO)、在线 RL 近似 (ReinFlow, NeurIPS 2025)、条件监督学习 (RECAP / pi-0.6)。

P3.7 推理加速演进

DDPM 1000步 -> DDIM 10-20步 -> FM 3-10步 -> Consistency 1-2步 -> MeanFlow 1步 (6.8ms)

P3.8 技术演进主线

三大收敛方向:VLA 标配化 (FM head 取代 diffusion head)、单步实时化 (6.8ms 工业级控制)、RL 对齐化 (生成式策略 + RL 微调)。


P4 世界模型 (从 Dreamer 到 Cosmos)

定位: 环境的内部表征------智能体在"想象"中预测未来、评估动作、学习策略 核心参考: [全量仓库]/世界模型/WM.md (15 章) + papers/ (20+ 论文笔记) 对应主项目: [主项目]/WM.md 标记: [研究] + [前沿]

P4.1 四大架构范式

范式 代表 优势 劣势 GPU 需求
RSSM Dreamer 系列 训练高效,长程稳定 重建质量有限 RTX 3090
Transformer IRIS, STORM, TD-MPC2 序列建模强,可扩展 长序列成本高 RTX 3090-4090
Diffusion DIAMOND, Cosmos, Sora 视觉质量极高 推理慢,训练贵 A100+
JEPA V-JEPA 2, DINO-WM 抽象语义,计算高效 不生成可视化 下游 RTX 3090

P4.2 RSSM / Dreamer 谱系

PlaNet (ICML 2019, 提出 RSSM) -> DreamerV1 (ICLR 2020, CEM->策略学习) -> DreamerV2 (ICLR 2021, 首个 model-based 达人类 Atari) -> DreamerV3 (Nature 2025, 固定超参 150+ 任务) -> R2-Dreamer (ICLR 2026, 移除解码器)。

论文笔记: [全量仓库]/世界模型/papers/PlaNet_ICML2019/DreamerV3_Nature2025/

P4.3 潜在空间世界模型

TD-MPC (ICML 2022) -> TD-MPC2 (ICLR 2024, 317M/104 任务);IRIS (ICLR 2023, LLM 式自回归);STORM (NeurIPS 2023, 单 3090 / 4.3h);C-SWM (NeurIPS 2019, 物体中心 GNN)。

论文笔记: [全量仓库]/世界模型/papers/TD-MPC_ICML2022/

P4.4 视频生成世界模型

工作 特点 标记
Sora (OpenAI 2024) 分钟级长视频;"World Simulator" [工业]
Cosmos / Cosmos-Predict2.5 (NVIDIA) Physical AI 基础设施;2B/14B [工业]
Cosmos Reason 2 (NVIDIA) 安全/社会推理;safety-critical 场景 [前沿]
Genie 1 (ICML 2024 Oral) 11B;无监督潜在动作 [研究]
Genie 2 (DeepMind 2024.12) 3D 交互世界 [研究]
Genie 3 (DeepMind 2025.08) 720p / 24fps 实时交互;Waymo 已采用 [工业]
GameNGen (ICLR 2025) 纯神经网络游戏引擎 [研究]
UniSim (ICLR 2024 Oral) 万能模拟器;零样本 sim-to-real [研究]

核心争论: "视频生成 =/= 世界理解"。ByteDance ICML 2025 实证表明视频模型 OOD 失败;V-JEPA 2 物理直觉 98% 但不生成视频。争论 2025 年仍未解决。

论文笔记: [全量仓库]/世界模型/papers/Cosmos_NVIDIA2025/, Genie1_ICML2024/, HowFarVideoFromWM_ICML2025/

P4.5 JEPA 非生成式世界模型

LeCun 愿景 (2022) -> I-JEPA (CVPR 2023) -> V-JEPA (2024) -> V-JEPA 2 (ICLR 2026, 98% 物理直觉) -> DINO-WM (ICML 2025)。

论文笔记: [全量仓库]/世界模型/papers/I-JEPA_CVPR2023/, V-JEPA2_ICLR2026/, DINO-WM_ICML2025/

P4.6 低算力世界模型研究方向

详见 [主项目]/WM.md 全文 --- 系统梳理"不吃算力"方向

方向 代表工作 算力评估 适合博士生
推理加速 / Token Caching WorldCache, HERO, EasyCache 仅推理 非常适合
KV Cache 量化 QVG, Fast AR Video 仅推理 非常适合
幻觉检测与缓解 WM 幻觉分析方法 仅推理/少量微调 适合
可解释性分析 WhatDoWMLearn 少量微调 适合
JEPA 冻结特征下游 DINO-WM, V-JEPA 2 下游 仅推理 非常适合
规划优化 / Test-Time Compute 并行梯度规划 少量训练 适合

P4.7 其他专题章节

章节 覆盖内容 在 WM.md 中的位置
扩散世界模型 DIAMOND (NeurIPS 2024 Spotlight) 第六章
自动驾驶世界模型 GAIA-1, OccWorld, Cosmos 第七章
具身/机器人世界模型 Navigation WM (CVPR 2025), Unified WM (RSS 2026) 第八章
LLM 作为世界模型 RAP (EMNLP 2023), LATS (ICML 2024) 第九章
推理优化与加速 量化/蒸馏/并行 第十章
幻觉检测与缓解 --- 第十一章
可解释性与分析 --- 第十二章
JEPA 低算力下游 --- 第十三章
规划 + Test-Time Compute --- 第十四章
安全、评估与组合泛化 --- 第十五章

完整内容: [全量仓库]/世界模型/WM.md Part B (第十至十六章)


P5 RL 与动作模仿 (从 DeepMimic 到 GR00T)

定位: 人形机器人的运动能力层------让物理躯体做出敏捷、稳健、多样的动作 核心参考: [全量仓库]/RL人形/rl.md + 人形机器人RL动作模仿与生成综述_2026_最终版.md 对应主项目: [主项目]/人形机器人RL动作模仿与生成综述_2026_最终版.md 交叉引用: [05运控]/动作模仿理论.md (455行) 标记: [研究] + [工业]

P5.1 六阶段技术演进

Phase 时间 特征 代表工作 主战场
1 史前 <=2017 物理角色动画奠基 SAMCON, DeepLoco SIGGRAPH
2 开端 2018-2020 DRL 动作模仿 DeepMimic, MCP, AMASS, Isaac Gym SIGGRAPH/NeurIPS
3 对抗先验 2021-2022 GAN 判别器替代 MSE AMP, ASE, ControlVAE SIGGRAPH
4 大规模 2022-2023 全 AMASS + 扩散生成 PHC, PULSE, MDM, Vid2Player3D ICCV/ICLR/SIGGRAPH
5 真机爆发 2023-2024 从仿真到 Unitree H1/G1 H2O, ExBody, HumanPlus, HOVER CoRL/RSS/ICRA
6 整合泛化 2024-2026 敏捷全身 + 基础模型 ASAP, GMT, SONIC, BFM-Zero RSS/ICLR/ICRA

P5.2 核心方法论线路

动作模仿线:

DeepMimic (SIGGRAPH 2018) -> AMP/ASE (SIGGRAPH 2021-22)
  -> PHC/PULSE (ICCV 2023 / ICLR 2024) -> H2O/ExBody (CoRL/RSS 2024)
  -> ASAP/SONIC/GMT (RSS 2025-26)

动作生成线:

HumanML3D (CVPR 2022) -> MDM (ICLR 2023) -> MoMask (CVPR 2024)
  -> CLoSD (ICLR 2025) -> BeyondMimic (2025)

P5.3 真机全身控制

工作 venue 平台 特点 标记
H2O / OmniH2O IROS 2024 / CoRL 2024 H1/G1 全身遥操 + 学习 [研究]
ExBody / ExBody2 RSS 2024 H1 大规模动捕表达性全身 [研究]
HumanPlus CoRL 2024 H1 影子模仿;从人类视频学 [研究]
HOVER ICRA 2025 Unitree NVIDIA 通用全身控制器 [工业]
ASAP RSS 2025 G1 仿真-真实对齐;敏捷技能 [研究]
TWIST / TWIST2 CoRL 2025 / ICRA 2026 多平台 便携全身遥操系统 [研究]
GMT arXiv 2026 G1 通用运动追踪 [前沿]

P5.4 体育与专项技能

领域 代表工作 最高成就 标记
足球 OP3 Soccer (Science Robotics 2024) 真机零样本 1v1 [工业]
网球 LATENT (arXiv 2026) G1 持续多拍对打 [前沿]
篮球 SkillMimic (CVPR 2025 Highlight) 仿真运球/投篮 [研究]
羽毛球 Legged Badminton (Science Robotics 2025) 足式操作器真机 [工业]
跑酷 Humanoid Parkour (CoRL 2024) G1 真机跑酷 [研究]
滑板 HUSKY (2026) G1 户外滑板 [前沿]
平衡 HuB (CoRL 2025) G1 极端单腿平衡 [研究]
格斗 KungfuBot (NeurIPS 2025) 全身武术技能 [研究]

P5.5 人形基础模型

工作 特点 标记
SONIC (NVIDIA GEAR) 42M 参数,700 小时,21K GPU 小时 [工业]
BFM-Zero (ICLR 2026) 无监督 RL 行为基础模型 [研究]
GR00T N1/N1.5/N1.7 VLA 人形通用;Apache 2.0 [工业]
Helix (Figure AI) 全身人形上半身控制;闭源 [工业]
WholeBodyVLA (ICLR 2026) 端到端移动操作 VLA [研究]
Kimodo (NVIDIA 2026) Text-to-Motion diffusion + SONIC [前沿]

P5.6 仿真基础设施

框架 特点 GPU 需求 标记
Isaac Lab 3.0 GPU 并行 RL;Isaac Sim 渲染;Unitree/Franka 原生 RTX 3090+ [工业]
MuJoCo Playground JAX 加速;足式/操控 CPU / GPU [研究]
mjlab Isaac Lab API + MuJoCo Warp GPU RTX 3090+ [前沿]
Genesis 10-80x 快于 Isaac;全可微;刚体/MPM/SPH/FEM RTX 3090+ [研究]
ProtoMotions NVIDIA 统一人形仿真;AMP/ASE/MaskedMimic RTX 3090+ [工业]
Humanoid-Gym 人形 RL + sim-to-real;零样本迁移 RTX 3090+ [研究]
HumanoidVerse 多仿真器统一框架 RTX 3090+ [研究]
TienKung-Lab 全尺寸人形 RL;AMP + 周期步态 RTX 3090+ [研究]

P5.7 动作恢复 (HMR) --- 为真机模仿提供"野外数据"

工作 venue 特点 标记
HMR CVPR 2018 端到端人体形状与姿态 [基础]
WHAM CVPR 2024 世界坐标下的精确运动 [研究]
TRAM ECCV 2024 全局轨迹与运动 [研究]
GVHMR SIGGRAPH Asia 2024 重力-视角坐标;精度最高 [研究]

P5.8 可解释 RL (独立专题)

[全量仓库]/强化学习/ (9 files, 8,029行): 可解释 RL 综述、SHAP 分析、ICML 论文解读、代码项目


P6 数据引擎与部署

定位: 从数据采集到真机部署的全栈工程------服务所有其他支柱 标记: [工业] + [研究]

P6.1 核心数据集

数据集 规模 特点 标记
Open X-Embodiment 1M+ 轨迹, 22 种机器人 ICRA 2024 Best Paper [工业]
DROID 76K 轨迹, 564 场景 13 机构分布式采集 [研究]
BridgeData V2 60K 轨迹 WidowX 平台 [研究]
CALVIN 24h play 数据 语言条件长程操控 [研究]
LIBERO 130 任务 终身/迁移评估 [研究]
AMASS 万级 mocap 人形 RL 的"ImageNet" [基础]
LeRobot 社区 持续增长 标准化 Parquet+MP4 [工业]

P6.2 仿真平台生态

平台 特点 GPU 需求 适用方向 标记
Isaac Lab 3.0 GPU 并行 RL;真实渲染 RTX 3090+ RL 全方向 [工业]
Genesis 10-80x 快;全可微 RTX 3090+ 高速仿真 [研究]
Habitat 3.0 人-机协作;社交导航 RTX 3060+ VLN [研究]
ManiSkill3 30,000+ FPS RTX 3090+ 大规模操控 [研究]
SimplerEnv 仿真评估桥梁 RTX 3060+ VLA 策略评估 [研究]
BEHAVIOR-1K 1000 活动;液体/变形体 RTX 3090+ 通用家务 [研究]

P6.3 训练与推理框架

框架 定位 标记
LeRobot HuggingFace 机器人学习;pi0.5/GR00T/ACT/DP 内置 [工业]
RLinf 具身 AI RL 基础设施;PPO/GRPO/SAC;VLA+RL [研究]
OpenVLA 开源 VLA 训练;FSDP + Flash-Attention [研究]
VLABench VLA 评估基准 [研究]

P6.4 部署管线

数据采集 -> 标准化 (LeRobot Parquet+MP4) -> VLA 预训练
  -> 仿真验证 (Isaac Lab + SimplerEnv) -> RL 微调 (RLinf-VLA)
  -> 真机部署 (ROS 2 + sim2real)

P6.5 遥操作数据采集硬件

设备 价格 特点 适用场景
GELLO ~$500 3D 打印关节映射 单臂操控
UMI ~$300 手持式,无需校准 快速采集
Apple Vision Pro ~$3500 手部追踪高精度 双手操控
LeRobot SO-100 ~$300 低成本教育 入门
ALOHA 设备 ~$20K 双臂全栈 双臂研究

第二部分:规划中的章节 (Future Expansion)

以下章节尚未拆分独立教学文件,属于规划阶段。按优先级排列。

高优先级 (计划 2026 H2 启动)

章节编号 主题 预计篇幅 预计周数 前置依赖
E01 VLA 入门实战: OpenVLA/OFT 从安装到微调 ~400 行 2 周 P1, P2 理论
E02 Diffusion Policy 从零推导到 Push-T 复现 ~500 行 2 周 P3 理论
E03 LeRobot 全栈教程: 数据采集->训练->部署 ~600 行 3 周 E01
E04 Isaac Lab 人形 RL 入门到 H1 真机 ~500 行 3 周 P5 理论

中优先级 (计划 2026 H2 - 2027 H1)

章节编号 主题 预计篇幅 预计周数 前置依赖
E05 Flow Matching 数学推导与 VLA 动作头实现 ~400 行 2 周 P3, 01_数学 (SDE/ODE)
E06 DreamerV3 源码精读与 DMControl 实验 ~400 行 2 周 P4 理论
E07 VLN 导航实战: Habitat + NaVid ~400 行 2 周 P2.2, 03_SLAM
E08 人形 RL 进阶: AMP/ASE/PHC 系列 ~500 行 3 周 E04, 05_运控/动作模仿

低优先级 (视社区需求启动)

章节编号 主题 预计篇幅 预计周数 前置依赖
E09 世界模型低算力研究指南 ~400 行 2 周 P4
E10 VLA + RL 微调: GRPO/FPO/RECAP ~400 行 2 周 E01, P3.6
E11 Sim-to-Real 全栈: 域随机化->teacher-student->真机 ~500 行 3 周 E04, 05_运控
E12 具身安全: Physical AI Safety 框架 ~300 行 2 周 P4, P5
E13 多机器人 VLA 与协作 ~300 行 2 周 E01, 04_移动规控

第三部分:交叉引用地图

与 05_运动控制 的交叉 (最密切)

05 提供"身体",06 提供"大脑"。

交叉点 05 位置 06 位置 方向
动作模仿理论 [05运控]/动作模仿理论.md P5 RL/动作模仿 05->06
RL sim-to-real [05运控]/MJLab与IsaacLab_RL运控教学文档.md P5.7 仿真基础设施 05->06
VLA 力控 05 阻抗/力控 P2.1 VLA 灵巧化 05->06
全身控制 WBC 05 足式 WBC 数学 P5.3 学习策略 05->06
VLA 动作空间 05 前向/逆运动学 P2.1 动作表示 05->06

与 04_移动机器人规控 的交叉

交叉点 04 位置 06 位置 方向
MPPI + learned dynamics 04 规控方法论 P4.3 TD-MPC/TD-MPC2 04->06
导航规划 04 路径规划 P2.2 VLN 04->06

与 03_SLAM 的交叉

交叉点 03 位置 06 位置 方向
视觉定位 03 视觉里程计 P2.2 VLN sim-to-real 03->06
语义地图 03 语义 SLAM P2.2 3D 场景图 03->06

与 01_数学 的交叉

交叉点 01 位置 06 位置 方向
SDE/ODE 理论 随机过程 P3 Diffusion/FM 推导 01->06
变分推断 概率图模型 P4 RSSM/Dreamer 01->06
李群/SE(3) 李群与流形 P3 等变策略 01->06
最优控制 最优控制理论 P4.3 TD-MPC 01->06

06 向外输出

交叉点 06 位置 接收方向 方向
VLA 控制指令 P2 VLA 05 运控执行 06->05
语义导航目标 P2 VLN 04 路径规划 06->04
场景语义理解 P4 世界模型 03 语义 SLAM 06->03

交叉引用可视化

01_数学 -----(SDE/变分/李群/最优控制)-----> 06 (P3, P4)
02_C++基础与进阶 -----(PyTorch/C++/RL基础)---------> 06 (全部)
03_SLAM -----(视觉定位/语义地图)----------> 06 (P2.2)
04_规控 -----(MPPI/路径规划)--------------> 06 (P4.3, P2.2)
05_运控 =====(动作模仿/RL/力控/WBC)======> 06 (P5, P2) [最密切]

06 (VLA) -------> 05_运控 (执行层)
06 (VLN) -------> 04_规控 (导航层)
06 (WM)  -------> 03_SLAM (语义层)

第四部分:学习路径建议

路径 A:VLA 研究者 (8 周)

主题 必读 动手 GPU
1 VLM 基础 CLIP, LLaVA-1.5, PaliGemma HF Transformers 加载 VLM RTX 3060
2 VLA 范式 RT-1, RT-2 SimplerEnv 评估 OpenVLA RTX 4090
3 动作表示 Diffusion Policy, Flow Matching 基础 复现 DP Push-T RTX 3090
4 开源 VLA OpenVLA, OpenVLA-OFT, Octo OFT 微调自定义任务 RTX 4090
5 Flow VLA pi0, pi0.5 双层架构 LeRobot 训练 pi0 A100
6 人形 VLA GR00T N1, WholeBodyVLA Isaac Lab + GR00T RTX 4090
7 VLA + RL FPO, RECAP, VLA-RL RLinf-VLA 微调 A100
8 前沿选题 SmolVLA, SpatialVLA, MemoryVLA 写 research proposal ---

前置: Transformer 机制、PyTorch 熟练、RL 基础 (PPO)

路径 B:RL 人形部署 (6 周)

主题 必读 动手 GPU
1 RL + 仿真 PPO 原理、Isaac Lab 入门 Isaac Lab Go2 训练 RTX 3090
2 动作模仿 DeepMimic -> AMP -> ASE ProtoMotions AMP RTX 3090
3 大规模模仿 PHC, PULSE, SONIC PHC MJX 复现 RTX 4090
4 真机全身 H2O, ExBody, HOVER Humanoid-Gym H1 RTX 4090
5 敏捷技能 ASAP, GMT, HuB ASAP G1 训练 RTX 4090
6 Sim-to-Real 域随机化、teacher-student G1 真机部署 RTX 4090

前置: PyTorch、RL 基础、Linux/ROS 交叉: [05运控]/动作模仿理论.md, [05运控]/MJLab与IsaacLab_RL运控教学文档.md

路径 C:世界模型研究者 (10 周)

主题 必读 动手 GPU
1 背景 WM.md 第一章、Ha & Schmidhuber 2018 --- ---
2 Dreamer PlaNet -> DreamerV3 DreamerV3 DMControl RTX 3090
3 潜在 WM TD-MPC2, IRIS, STORM STORM 3090 复现 RTX 3090
4 视频 WM Sora, Genie 1/2/3, Cosmos GenieRedux 开源 RTX 4090
5 JEPA LeCun 愿景, V-JEPA 2 I-JEPA 训练 RTX 4090
6 扩散 WM DIAMOND DIAMOND Atari RTX 3090
7 驾驶/具身 GAIA-1, OccWorld Cosmos 开源推理 A100
8 LLM-as-WM RAP, LATS RAP 推理链 RTX 4090
9 优化+安全 幻觉、泛化、加速 WM.md 十至十五章 RTX 3090
10 前沿选题 R2-Dreamer, DINO-WM 写 research proposal ---

前置: 变分推断、Transformer、PyTorch

路径 D:大模型基础速补 (4 周)

面向熟悉机器人但不熟悉大模型的研究者

主题 必读 动手 GPU
1 Transformer + LLM 大模型全景综述 Phase 1 HF Transformers 加载 LLM RTX 3060
2 微调与对齐 LoRA, RLHF, DPO Unsloth LoRA 微调 7B RTX 4090
3 VLM CLIP, LLaVA, PaliGemma LLaVA 推理 RTX 4090
4 PyTorch 部署栈 Phase 10 全栈教程 vLLM 部署 + 量化推理 RTX 4090

前置: Python、基本 ML 知识 交叉: [主项目]/大模型全景综述.md + 大模型全景综述_Phase10_PyTorch训练部署项目.md

路径 E:全栈具身智能 (16 周)

面向希望覆盖所有支柱的全栈研究者

阶段 周数 覆盖支柱 核心目标
基础层 1-3 P1 (速补) Transformer + VLM + PyTorch 栈
策略层 4-6 P3 + P2 Diffusion Policy + OpenVLA 微调
世界层 7-9 P4 Dreamer -> DIAMOND -> V-JEPA 2
运动层 10-12 P5 AMP -> ASAP -> 真机
部署层 13-14 P6 LeRobot + Isaac Lab + sim-to-real
整合层 15-16 综合 GR00T N1.7 + 论文选题

六大支柱阅读顺序建议

ML/DL 研究者 (熟悉 Transformer,不熟悉机器人):

P1 (快速回顾) -> P3 扩散/FM -> P2 VLA/VLN -> P4 世界模型

机器人研究者 (熟悉控制/SLAM,不熟悉大模型):

P1 (重点学习) -> P5 RL/动作模仿 -> P2 VLA/VLN -> P6 数据/部署

全栈研究者:

P2 VLA/VLN (直奔核心) -> P3 扩散/FM -> P4 世界模型 -> P5 RL -> P6 部署

工程部署导向:

P6 (先建环境) -> P2 VLA (选模型) -> P5 RL (sim-to-real) -> 真机


第五部分:不覆盖什么

不覆盖的内容 应查阅的方向 理由
经典控制理论 (PID, LQR, 阻抗控制) 05_运动控制/ 05 已有系统覆盖
WBC 数学推导 05_运动控制/足式/ 浮动基座动力学属运控
SLAM / 视觉里程计 / 建图 03_SLAM/ 03 完整主线
移动规控 (MPPI/博弈/多机) 04_移动机器人规控/ 04 专项
C++ 语言基础 02_C++基础与进阶/ 编程基础
数学基础 01_数学/ 数学基础

边界原则: "无需基础模型即可工作" -> 05 运控;"以基础模型为核心" -> 06 具身智能。


第六部分:顶会顶刊速查

完整列表: [全量仓库]/顶会顶刊.md

核心投稿目标

会议 定位 具身智能相关度 截稿参考
CoRL 机器人学习 VLA 最密集 ~6 月
RSS 机器人 (小而精) VLA/RL 均有 ~1 月
ICRA 机器人最大 全方向 ~9 月
ICLR 深度学习 2026 VLA 爆发 ~10 月
NeurIPS ML 世界模型/RL ~5 月
SIGGRAPH 图形学 角色动画/运动生成 ~1 月

核心期刊

期刊 出版方 定位 具身智能相关度
T-RL IEEE 2025 年 3 月创刊;机器人学习专刊 极高
Science Robotics AAAS 高影响力 OP3 Soccer, Legged Badminton
Nature Nature 最高影响力 DreamerV3 (2025)
IJRR SAGE 机器人最老牌顶刊 Diffusion Policy (IJRR 2024)
T-RO IEEE 机器人顶刊 全方向
RA-L IEEE 快速发表;可选会议报告 全方向
TPAMI IEEE CV/ML 最高影响力 ETPNav (TPAMI 2024)
TMLR OpenReview 快速审稿 DINOv2 (TMLR 2024)
JMLR 开放获取 ML 理论顶刊 DreamerV3 理论分析
TOG ACM SIGGRAPH 论文载体 角色动画/运动生成

具身智能论文投稿策略

VLA 模型 -----> CoRL (最对口) / RSS / ICRA / ICLR
世界模型 -----> NeurIPS / ICML / ICLR
人形 RL  -----> RSS / CoRL / ICRA / Science Robotics (里程碑)
动作生成 -----> SIGGRAPH / CVPR / ICLR
VLN     -----> CVPR / ECCV / ICCV / CoRL
导航Agent -----> NeurIPS / ICLR / EMNLP (LLM 导航)

第七部分:开放问题与未来方向

技术层面

问题 现状 潜在方向 标记
FM log-prob 计算 Hutchinson estimator 代价高;FPO/RECAP 用近似绕过 高效 log-prob 估计器;FM 专用 RL 算法 [前沿]
单步推理模式坍缩 1-2 步推理时多模态表达退化 VFP 变分方法;自适应步数策略 [前沿]
物理约束集成 PhysDiff 初步尝试,缺乏通用框架 微分物理引擎 + FM 联合训练 [前沿]
视频生成 vs 世界理解 争论 2025 年仍未解决 JEPA vs 生成式 vs 混合路线收敛 [研究]
VLA Scaling Laws Neural Scaling Laws in Robotics (2024) 初步验证 机器人专属 scaling 定律;GEN-0/GEN-1 工业验证 [前沿]
长程任务规划 pi0.5 双层架构是初步尝试 层级 FM + 语言子目标链 [前沿]
跨具身泛化 HPT 50+ 数据集统一、OXE 22 种机器人 通用具身基础模型;形态无关表征 [前沿]
Physical AI Safety 新兴但无主导框架 全链路安全:感知->决策->执行->部署 [前沿]
Sim-to-Real 鲁棒性 生成式策略的 sim-to-real gap 研究不足 域随机化 + FM 鲁棒性分析 [研究]
统一策略/世界模型 策略与世界模型用独立模型 单一 FM 同时建模动态与策略 [前沿]

产业层面

问题 现状 潜在方向 标记
人形成本 Unitree G1 ~\(16K, H1 ~\)90K 硬件成本继续下降;更多厂商入场 [工业]
真机数据稀缺 DROID 76K / OXE 1M+ 仿真数据 + sim-to-real 规模化;LeRobot 社区众包 [工业]
部署可靠性 仿真 >> 真机;gap 仍大 ASAP 式仿真-真实对齐;更好的 sim-to-real 方法论 [工业]
法规与伦理 几乎空白 物理 AI 法规制定;人形接触安全标准 [前沿]
算力需求 SONIC 21K GPU 小时;pi0 10K+ 小时数据 高效架构 (SmolVLA 450M);蒸馏与压缩 [工业]
评估标准化 各模型用不同基准、不同环境 VLABench 等统一评测;标准化 sim 环境 [研究]

机器人缩放定律 (新兴方向)

工作 发现 标记
Neural Scaling Laws in Robotics (2024) 327 篇论文元分析;机器人缩放速度快于语言任务 [研究]
Data Scaling Laws in IL (ICLR 2025) 40,000+ 示教验证;适当缩放->单任务零样本部署 [研究]
GEN-0/GEN-1 (2025-2026) 工业界首证机器人预训练缩放定律 [工业]

这一方向预示:机器人基础模型的性能将随数据/参数/计算三者规模增长而可预测地提升,类似语言模型的 Chinchilla 定律。

新兴交叉方向

方向 描述 代表工作 标记
互联网规模预训练->机器人 人类视频/第一人称视频作为机器人预训练数据 EgoVLA (2024), Figure AI Go-Big (2025) [前沿]
VLM 反馈奖励 用 VLM 偏好查询自动生成奖励函数 RL-VLM-F (ICML 2024), Text2Reward (ICLR 2024) [研究]
零样本导航 无需任何环境数据的语义导航 VLFM (ICRA 2024), Open-Nav (ICRA 2025) [研究]
全身运动操作一体化 导航/运动/操作从独立模块->统一端到端 WholeBodyVLA (ICLR 2026), NaVILA (arXiv) [前沿]
多机器人 VLA 多智能体协作的 VLA 策略 目前为空白,未来方向 [前沿]
具身推理 (Embodied Reasoning) R1 式长链推理 + 物理世界行动 ECoT (+28%), pi0.5 双层推理 [前沿]

附录 A:世界模型论文笔记索引

以下论文在 [全量仓库]/世界模型/papers/ 中均有中英双语笔记:

论文笔记目录 对应工作 范式 在 WM.md 中的章节
WorldModels_2018/ Ha & Schmidhuber (NeurIPS 2018) VAE + MDN-RNN 第一章
PlaNet_ICML2019/ PlaNet: RSSM 诞生 RSSM 第二章
C-SWM_NeurIPS2019/ 物体中心 GNN 结构化潜在 第三章
DreamerV1_ICLR2020/ DreamerV1 RSSM + actor-critic 第二章
DreamerV2_ICLR2021/ DreamerV2: 首达人类 Atari RSSM 离散 第二章
TD-MPC_ICML2022/ TD-MPC 潜在 + MPPI 第三章
IRIS_ICLR2023/ IRIS: GPT 式世界模型 Transformer 第三章
I-JEPA_CVPR2023/ I-JEPA: 图像域 JEPA JEPA 第五章
STORM_NeurIPS2023/ STORM: 单 3090 训练 Transformer 第三章
GAIA-1_Wayve2023/ GAIA-1: 驾驶世界模型 视频生成 第七章
RAP_EMNLP2023/ RAP: LLM 推理即规划 LLM-as-WM 第九章
TD-MPC2_ICLR2024/ TD-MPC2: 104 任务统一 潜在 + MPPI 第三章
UniSim_ICLR2024/ UniSim: 万能模拟器 视频生成 第四章
LATS_ICML2024/ LATS: LLM + MCTS LLM-as-WM 第九章
OccWorld_ECCV2024/ OccWorld: 3D 占用预测 驾驶 WM 第七章
Genie1_ICML2024/ Genie 1: 无监督潜在动作 视频生成 第四章
DIAMOND_NeurIPS2024/ DIAMOND: 扩散世界模型 Diffusion 第六章
Cosmos_NVIDIA2025/ Cosmos: Physical AI 视频生成 第四章
DreamerV3_Nature2025/ DreamerV3: Nature 发表 RSSM 第二章
C3_WorldModels_2025/ C3 世界模型 --- ---
GameNGen_ICLR2025/ GameNGen: 神经游戏引擎 Diffusion 第四章
DINO-WM_ICML2025/ DINO-WM JEPA 第五章
HowFarVideoFromWM_ICML2025/ 视频生成 =/= 世界理解 实证分析 第四章
SEASON_2025/ SEASON --- 第九章
V-JEPA2_ICLR2026/ V-JEPA 2: 98% 物理直觉 JEPA 第五章
V-JEPA2.1_2026/ V-JEPA 2.1 改进 JEPA 第五章
WhatDoWMLearn_2026/ 世界模型学到了什么 分析 第十二章
ParallelGradientPlanning_Meta2026/ 并行梯度规划 规划 第十四章

附录 B:RL 人形关键论文时间线

[全量仓库]/RL人形/rl.md 六阶段组织:

Phase 年份 关键论文 venue 标记
1 2010 SAMCON SIGGRAPH [基础]
1 2017 DeepLoco SIGGRAPH [基础]
2 2018 DeepMimic SIGGRAPH [基础]
2 2019 AMASS, MCP ICCV, NeurIPS [基础]
2 2021 Isaac Gym NeurIPS D&B [工业]
3 2021 AMP SIGGRAPH [基础]
3 2022 ASE, ControlVAE SIGGRAPH [研究]
4 2023 PHC, Vid2Player3D, MDM ICCV, SIGGRAPH, ICLR [研究]
4 2024 PULSE, MoMask ICLR Spotlight, CVPR [研究]
5 2024 H2O, ExBody, HumanPlus IROS, RSS, CoRL [研究]
5 2024 HOVER, Humanoid Parkour ICRA, CoRL [研究]
5 2024 OP3 Soccer Science Robotics [工业]
5 2024 MaskedMimic SIGGRAPH Asia [研究]
6 2025 ASAP, HOMIE, VideoMimic RSS, CoRL [研究]
6 2025 KungfuBot, Legged Badminton NeurIPS, Science Robotics [研究]
6 2025 SONIC, GR00T N1.5/N1.7 NVIDIA [工业]
6 2025 CLoSD ICLR Spotlight [研究]
6 2026 GMT, TWIST2, GMR, BeyondMimic arXiv, ICRA [前沿]
6 2026 BFM-Zero, WholeBodyVLA, HWC-Loco ICLR [研究]
6 2026 LATENT (G1 网球), HUSKY (G1 滑板) arXiv [前沿]
6 2026 Kimodo (NVIDIA) NVIDIA [前沿]

完整 120+ 论文条目见 [全量仓库]/RL人形/rl.md


附录 C:VLN 基准数据集完整列表

摘自 [全量仓库]/VLA与VLN综述大纲.md 第二部分

基准 年份 发表 环境 特点
R2R 2018 CVPR 2018 Matterport3D (90 建筑) VLN 开山之作;7,189 路径 + 21,567 指令
RxR 2020 EMNLP 2020 Matterport3D 多语言 (英/印地/泰卢固);126k 指令
REVERIE 2020 CVPR 2020 Matterport3D 导航 + 远程目标物体定位
ALFRED 2020 CVPR 2020 AI2-THOR 导航 + 物体交互;7 类家庭任务
CVDN 2019 CoRL 2019 Matterport3D 多轮对话导航
VLN-CE 2020 ECCV 2020 Habitat 连续环境;低层运动控制
Touchdown 2019 CVPR 2019 Google Street View (NYC) 户外城市 VLN
SOON 2021 CVPR 2021 Matterport3D 场景描述导航

附录 D:VLA 架构范式图

当前主流 VLA 架构:

+------------------+     +------------------+
|  预训练 VLM 骨干  |---->|  专用动作模块     |
|  (语义理解)       |     |  (Flow/Diffusion) |
|  PaliGemma/Eagle |     |  (运动控制)       |
+------------------+     +------------------+
         ^                        ^
         |                        |
    互联网数据              机器人轨迹数据
    (视觉-语言)            (动作-状态)

pi0.5 双层架构:

+-----------------------------------+
|  高层: VLM 生成 FAST token 子目标  |  <-- 慢思维 (System 2)
+-----------------+-----------------+
                  | 语言化子目标
+-----------------+-----------------+
|  低层: Flow Matching 生成动作序列  |  <-- 快执行 (System 1)
+-----------------------------------+

GR00T N1 双系统架构:

+--------------------+
|  System 2: Eagle VLM |  <-- 场景理解 + 语言推理
|  (慢思维)            |
+--------+-----------+
         | 条件嵌入
+--------+-----------+
|  System 1: DiT Flow |  <-- 高频动作生成
|  (快执行, 50Hz)     |
+--------------------+

附录 E:文件索引

全量仓库 ([全量仓库])

具身智能/
+-- VLA与VLN综述大纲.md                    <-- P2 (583行)
+-- Flow_Matching与Diffusion_Policy综述.md  <-- P3 (461行)
+-- 大模型全景综述_完整合并版.md              <-- P1 (566行)
+-- 顶会顶刊.md                             <-- 会议/期刊速查 (78行)
+-- 世界模型/                               <-- P4 (40 files, 27,668行)
|   +-- WM.md                              <-- 15 章综述
|   +-- 综述/World-In-World/
|   +-- papers/ (20+ 论文笔记, 中英双语)
+-- RL人形/                                <-- P5 (218 files, 105,625行)
|   +-- rl.md
|   +-- 人形机器人RL动作模仿与生成综述_2026_最终版.md
|   +-- papers/ (200+ 论文笔记)
+-- 强化学习/                              <-- P5.6 (9 files, 8,029行)
    +-- 可解释强化学习.md / 学习指南.md
    +-- shap.md, ICML.md
    +-- Interpret-DRL-using-SHAP-Project/

主项目 ([主项目])

06_具身智能/
+-- 具身智能方向_总大纲.md                     <-- 本文档 (v2.0)
+-- 大模型全景综述.md                          <-- P1
+-- 大模型全景综述_Phase10_PyTorch训练部署项目.md <-- P1.5
+-- 人形机器人RL动作模仿与生成综述_2026_最终版.md  <-- P5
+-- WM.md                                     <-- P4

跨方向文件

05_运动控制/
+-- 动作模仿理论.md                <-- P5 交叉 (455行)
+-- MJLab与IsaacLab_RL运控教学文档.md <-- P5 交叉 (2409行)

附录 F:物理 AI 安全速览

新兴但尚无主导框架。2025-2026 年进展:

层级 当前方案 缺口
感知安全 VLM 场景理解 + 异常检测 对抗攻击鲁棒性不足
决策安全 Cosmos Reason 2 safety/social reasoning 仅限自动驾驶场景验证
执行安全 传统力控/阻抗控制 (05_运控) 与 VLA 的集成方案缺乏
部署安全 sim-to-real 验证 长尾场景覆盖不足
伦理法规 几乎空白 人形接触安全标准待制定

研究机会: 全链路 Physical AI Safety 框架是重要缺口,适合跨学科 (控制+ML+法律) 研究。


附录 G:版本历史

版本 日期 变更
v1.0 2026-05-03 初始版本:整合全量仓库 271 个 Markdown 文件 + 主项目 4 文件为统一大纲
v2.0 2026-05-14 增强版:新增快速路径、计算与硬件需求表、工业/研究标记体系、前置知识依赖矩阵 (01_数学/05_运动控制)、生态速览 (2026-05)、规划中的章节 (E01-E13)、交叉引用地图、路径 D/E 新增、物理 AI 安全速览、GPU 需求列、遥操作硬件表、低算力世界模型方向