本文档属于 Robotics Tutorial 项目，作者：Pengfei Guo，达妙科技。采用 CC BY 4.0 协议，转载请注明出处。

具身智能方向统一大纲¶

Embodied Intelligence --- Unified Master Outline¶

版本: v2.0 | 日期: 2026-05-14 维护者: 机器人文档体系 - 06_具身智能方向定位: 具身智能 = 连接感知与动作的"大脑层"------以基础模型为核心，将视觉-语言理解转化为物理世界中的持续行动 数据基础: 主项目 5 文件 / ~2,444 行 + 全量仓库 271 个 Markdown 文件 / ~141,000 行；本大纲整合全部内容为统一索引

一句话定义¶

具身智能研究**如何让智能体在物理世界中感知、推理并持续行动**。它不是独立的"第七个方向"，而是将 01-05 中的数学/编程/SLAM/规控/运动控制能力与大模型时代的视觉-语言-动作基础模型融合在一起的"最上层集成"。

阅读约定¶

[全量仓库] = /home/gpf/Nutstore Files/具身智能/
[主项目] = /home/gpf/Nutstore Files/Robotics_Tutorial/06_具身智能/
[05运控] = /home/gpf/Nutstore Files/Robotics_Tutorial/05_运动控制/
文件引用使用简写路径，如 [全量仓库]/VLA与VLN综述大纲.md
论文引用格式：简称 (venue year)，详细信息见各综述附录

快速路径 (Quick-Start Track)¶

不是每个人都需要完整六大支柱。以下最小路径让你用**最短时间建立可运行的端到端系统**。

路径 QS-A: VLA 最小可用 (~4 周)¶

Week 1: VLM 基础 (CLIP, PaliGemma, LLaVA) + HF Transformers 加载
    → Week 2: OpenVLA 加载 + SimplerEnv 评估
    → Week 3: LeRobot 环境搭建 + Diffusion Policy Push-T 复现
    → Week 4: OpenVLA-OFT 单任务微调 + 真机/仿真评估
    总计 ~4 周，GPU: 单卡 RTX 4090 / A100

成果: 在仿真 (SimplerEnv) 中运行 OpenVLA，能做单任务 pick-and-place。

路径 QS-B: 人形 RL 最小可用 (~3 周)¶

Week 1: PPO 原理 + Isaac Lab 安装 + Go2 行走训练
    → Week 2: AMP 对抗运动先验 + ProtoMotions 复现
    → Week 3: Humanoid-Gym H1 训练 + sim-to-real 基本流程
    总计 ~3 周，GPU: 单卡 RTX 3090+

成果: 在 Isaac Lab 中训练出 H1 步态策略。

路径 QS-C: 世界模型入门 (~3 周)¶

Week 1: WM.md 第一章 + Dreamer 原理
    → Week 2: DreamerV3 DMControl 训练
    → Week 3: STORM 单卡 3090 复现 (4.3h) / DIAMOND Atari
    总计 ~3 周，GPU: 单卡 RTX 3090

成果: 在 DMControl / Atari 上训练出 model-based RL agent。

计算与硬件需求表¶

GPU 需求速查¶

任务类别	最低 GPU	推荐 GPU	显存需求	典型训练时间	备注
VLM 推理 (7B)	RTX 3060 12GB	RTX 4090	12-16 GB	---	量化后 3060 可跑
VLA 推理 (OpenVLA 7B)	RTX 4090	A100 80GB	24-48 GB	---	OFT 推理快 26x
VLA 微调 (LoRA, 7B)	RTX 4090	A100 80GB	24-48 GB	4-12 h	QLoRA 降至 24GB
VLA 预训练 (pi0 3B)	4x A100	8x H100	320+ GB	10K+ GPU hours	工业级
Diffusion Policy	RTX 3090	RTX 4090	12-24 GB	2-8 h	Push-T 单卡可跑
Flow Matching (pi0)	A100	H100	40-80 GB	---	pi0 推理 ~8ms/step
Dreamer / STORM	RTX 3090	RTX 4090	12-24 GB	4-12 h	STORM 单 3090 仅 4.3h
DIAMOND (Atari)	RTX 3090	RTX 4090	12-24 GB	12-24 h	扩散世界模型
Cosmos 推理	A100	H100	80+ GB	---	Nano 2B 可在 A100
V-JEPA 2 下游	RTX 3090	RTX 4090	12 GB	冻结特征	预训练极贵，下游便宜
人形 RL (Isaac Lab)	RTX 3090	RTX 4090	12-24 GB	2-8 h	4096 环境并行
大规模人形 RL (SONIC)	8x A100	多节点 H100	640+ GB	21K GPU hours	工业级
LLM 微调 (LoRA, 7B)	RTX 4090	A100	24-48 GB	2-6 h	QLoRA/Unsloth 降需求
世界模型推理加速	RTX 3090	RTX 4090	12 GB	---	训练免费方向

真机硬件需求¶

方向	推荐硬件	价格区间	替代方案
单臂操控	Franka / UR5e / WidowX	$5K-$70K	LeRobot SO-100 ($300)
双臂操控	ALOHA / Mobile ALOHA	$20K-$100K	仿真 (Isaac Lab)
人形全身	Unitree G1	~$16K	Unitree H1 (~$90K)
移动操控	Stretch RE2 / TIAGo	$25K-$80K	仿真 (Habitat 3.0)
遥操作数据采集	GELLO / UMI / Apple Vision Pro	$500-$3500	LeRobot 手持采集

工业 vs 研究标记¶

标记体系定义¶

标记	含义	判定标准
[工业]	已有工业级产品或部署案例	有公司支持、闭环产品、真机批量部署
[研究]	顶会/顶刊发表，开源可复现	同行评审通过，代码开源
[前沿]	最新预印本，尚未同行评审	arXiv 预印本，方法新颖
[基础]	奠基性工作，已成领域常识	引用 1000+，写入教科书

按支柱标记总览¶

支柱	[工业]	[研究]	[前沿]	[基础]
P1 大模型	GPT-4, Gemini, Qwen	LLaMA 3, DeepSeek-V3	Qwen3, Llama 4	Transformer, BERT
P2 VLA/VLN	pi0/pi0.5, GR00T N1.7, Helix	OpenVLA/OFT, SpatialVLA	SmolVLA, MemoryVLA, PixelVLA	RT-2
P3 扩散/FM	---	Diffusion Policy, FlowPolicy	MP1 (6.8ms), VFP	DDPM, Flow Matching
P4 世界模型	Cosmos, Genie 3	DreamerV3, DIAMOND, TD-MPC2	V-JEPA 2, R2-Dreamer	RSSM, PlaNet
P5 人形 RL	Isaac Lab, SONIC+GR00T	ASAP, HumanPlus, GMT	BFM-Zero, BeyondMimic	DeepMimic, AMP
P6 数据/部署	OXE, LeRobot, Isaac Lab	Genesis, SimplerEnv	VLABench	Open X-Embodiment

总览路线图¶

具身智能的知识体系由**六根支柱**支撑，它们之间存在明确的依赖与协作关系：

具身智能六大支柱
|
+-- P1  大模型基础 (LLM / VLM / MLLM)
|       从 Transformer 到多模态推理，是一切具身基础模型的"地基"
|       | 视觉-语言能力迁移到机器人
|
+-- P2  VLA 与 VLN (视觉-语言-动作 / 视觉-语言-导航)
|       将 VLM 的感知-推理能力注入动作生成与导航决策
|       <-- P1 提供骨干  <-- P3 提供动作头  <-- P5 提供低层执行
|
+-- P3  扩散策略与 Flow Matching
|       生成式动作模型：从 Diffusion Policy 到单步 Flow Matching
|       | 为 VLA 提供动作解码头  | 为世界模型提供生成架构
|
+-- P4  世界模型 (从 Dreamer 到 Cosmos)
|       环境的内部表征：感知 -> 预测 -> 规划 -> 控制
|       <-- P3 提供扩散架构  --> P5 提供想象训练环境
|
+-- P5  RL 与动作模仿 (从 DeepMimic 到 GR00T)
|       人形机器人的运动能力：步态/全身/灵巧/体育技能
|       <-- P4 提供世界模型训练  <-- P2 提供语言条件
|
+-- P6  数据引擎与部署 (OXE / DROID / LeRobot / Sim2Real)
        从数据采集到真机部署的全栈工程
        ^ 服务所有支柱的训练与验证

支柱间依赖关系图¶

          P1 大模型基础
          /        \
     P2 VLA/VLN    P4 世界模型
      ^   |          ^   |
     P3 扩散/FM  <->  P5 RL/动作模仿
          \        /
         P6 数据引擎与部署

内容规模统计¶

支柱	主要来源文件	行数	论文数
P1 大模型基础	`[全量仓库]/大模型全景综述_完整合并版.md`	566	115+
P2 VLA 与 VLN	`[全量仓库]/VLA与VLN综述大纲.md`	583	100+
P3 扩散/FM	`[全量仓库]/Flow_Matching与Diffusion_Policy综述.md`	461	60+
P4 世界模型	`[全量仓库]/世界模型/WM.md` + 40 篇论文笔记	27,668	40+
P5 RL/动作模仿	`[全量仓库]/RL人形/` (218 files)	105,625	120+
P6 数据/部署	分散在 P2/P5 各综述工具章节	---	---
合计	271 个 Markdown 文件	~141,000	400+

前置知识依赖矩阵¶

与 01_数学的依赖¶

数学主题	依赖强度	具身智能中的应用	01_数学对应章节
线性代数 (矩阵分解/特征值)	必需	Transformer 注意力计算、LoRA 低秩分解	线性代数核心
概率论 / 贝叶斯推断	必需	RSSM 状态估计、扩散模型推导	概率与统计
变分推断 (ELBO/KL)	必需	VAE/Dreamer/DPO 数学推导	概率图模型
随机过程 (SDE/ODE)	必需	Diffusion / Flow Matching 理论基础	随机过程
李群/李代数 (SE(3)/SO(3))	推荐	SE(3) 扩散策略、位姿表示、等变网络	李群与流形
最优控制 (HJB/PMP)	推荐	MPC/MPPI、世界模型规划、RL 理论	最优控制理论
信息论 (KL/MI/熵)	推荐	KL balancing (Dreamer)、DPO/GRPO 推导	信息论基础
凸优化	可选	约束策略优化、安全 RL	优化方法

与 05_运动控制的依赖¶

运控主题	依赖强度	在具身智能中的位置	05_运控对应文件
动作模仿理论 (DeepMimic/AMP)	必需 (P5)	RL 人形运动能力层的理论基础	`动作模仿理论.md` (455行)
RL sim-to-real (域随机化/teacher-student)	必需 (P5)	从仿真到真机的核心技术栈	`MJLab与IsaacLab_RL运控教学文档.md` (2409行)
前向/逆运动学	推荐 (P2)	VLA 动作空间理解	机械臂核心章节
力控 / 阻抗控制	推荐 (P2)	VLA 灵巧操控 + 安全接触	F 系列 (力控)
全身控制 WBC	推荐 (P5)	人形 RL 的物理层约束	足式 WBC 章节
刚体动力学	推荐 (P5)	人形 RL 仿真	动力学基础

与其他方向的依赖¶

方向	依赖主题	依赖强度	用途
02_C++基础与进阶	PyTorch 工程能力	必需	所有训练/推理
02_C++基础与进阶	C++/Python 编程	必需	仿真/部署
03_SLAM	视觉定位与建图	推荐	VLN sim-to-real
03_SLAM	语义 SLAM / 3D 场景图	推荐	P2.2 VLN 导航
04_移动规控	MPPI / MPC 规划	推荐	TD-MPC 世界模型规划
04_移动规控	路径规划	推荐	VLN 导航规划

前置三层口径¶

最低可启动: Transformer 原理 + PyTorch 基本操作 + PPO 原理。可启动 Quick-Start 路径。
推荐补齐: + 变分推断 + SDE/ODE 基础 + 动作模仿理论 (05)。适合完整学习 P1-P3。
完整前置: + 李群 + 最优控制 + 力控 + WBC。适合 P4-P5 深入研究 + 真机部署。

生态速览 (2026-05)¶

VLA 模型生态¶

模型	机构	参数量	动作表示	骨干 VLM	许可	状态
pi0	Physical Intelligence	3B+300M	Flow Matching	PaliGemma 3B	闭源	RSS 2025
pi0.5	Physical Intelligence	---	Flow + FAST	PaliGemma	闭源	CoRL 2025 Oral
pi0-FAST	Physical Intelligence	---	FAST (DCT)	PaliGemma	开源权重	RSS 2026 Finalist
GR00T N1	NVIDIA	2.2B	Flow (DiT)	Eagle-2	闭源	2024
GR00T N1.5	NVIDIA	2.2B+	Flow + FLARE	Eagle-2.5	闭源	2025
GR00T N1.7	NVIDIA	---	Flow	Eagle-2.5+	Apache 2.0	2025 late
OpenVLA	Berkeley	7B	离散分箱	Prismatic	MIT	CoRL 2024
OpenVLA-OFT	Berkeley	7B	连续并行	Prismatic	MIT	arXiv 2502
Octo	Berkeley	---	Diffusion	Transformer	MIT	RSS 2024
RT-2	Google DeepMind	55B	离散分箱	PaLI-X/PaLM-E	闭源	CoRL 2023
SpatialVLA	---	---	自适应网格	---	开源	2025
SmolVLA	HuggingFace	450M	---	---	Apache 2.0	2025
Helix	Figure AI	---	---	---	闭源	2025
CogACT	---	---	Diffusion	VLM	开源	2024
RDT-1B	---	1.2B	Diffusion	---	开源	ICLR 2025
HPT	---	---	异构	Transformer	开源	2024
MemoryVLA	---	---	---	---	---	ICLR 2026
PixelVLA	---	---	---	---	---	ICLR 2026

世界模型生态¶

模型	机构	范式	关键特性	状态
Genie 3	DeepMind	视频生成	24fps 720p 实时交互；Waymo 采用	2025.08
Cosmos Predict 2.5	NVIDIA	视频生成	Physical AI 基础设施；2B/14B	2025
Cosmos Reason 2	NVIDIA	推理	安全/社会推理 safety-critical	2025
DreamerV3	Hafner	RSSM	Nature 2025；150+ 任务固定超参	主流
TD-MPC2	MIT	潜在+MPPI	317M / 104 任务统一	ICLR 2024
V-JEPA 2	Meta	JEPA	物理直觉 98%；不生成视频	ICLR 2026
DIAMOND	---	Diffusion	NeurIPS 2024 Spotlight；Atari	2024
R2-Dreamer	---	RSSM	移除解码器	ICLR 2026
DINO-WM	---	JEPA	冻结 DINOv2 特征	ICML 2025

人形 RL 生态¶

工作	机构	平台	关键特性	状态
SONIC	NVIDIA GEAR	通用	42M 参数，700h，21K GPU hours	2025
ASAP	---	G1	仿真-真实对齐；敏捷技能	RSS 2025
GMT	---	G1	通用运动追踪	arXiv 2026
HumanPlus	Stanford	H1	影子模仿；从人类视频学	CoRL 2024
HOVER	NVIDIA	Unitree	通用全身控制器	ICRA 2025
BFM-Zero	---	---	无监督 RL 行为基础模型	ICLR 2026
Kimodo	NVIDIA	---	Text-to-Motion diffusion + SONIC	2026
LATENT	---	G1	持续多拍网球对打	arXiv 2026
HUSKY	---	G1	户外滑板	2026

数据与部署生态¶

项目	类型	规模/特性	状态
Open X-Embodiment	数据集	1M+ episodes, 22 种机器人	ICRA 2024 Best Paper
DROID	数据集	76K 轨迹, 564 场景, 13 机构	2024
LeRobot v0.4	框架	pi0.5/GR00T/ACT/DP 内置	HuggingFace
Isaac Lab 3.0	仿真	GPU 并行 RL + GR00T-Mimic	NVIDIA
Genesis	仿真	10-80x 快于 Isaac；全可微	开源
SimplerEnv	评估	VLA 策略仿真评估桥梁	开源
RLinf	RL框架	PPO/GRPO/SAC；VLA+RL	开源

第一部分：六大支柱详述¶

P1 大模型基础 (LLM / VLM / MLLM)¶

定位: 具身智能的"认知层地基"。所有 VLA、VLN、世界模型、Agent 的上层能力都建立在预训练基础模型之上。 核心参考: [全量仓库]/大模型全景综述_完整合并版.md (566行) 对应主项目: [主项目]/大模型全景综述.md + 大模型全景综述_Phase10_PyTorch训练部署项目.md 标记: [基础] + [工业]

P1.1 LLM 架构与 Scaling Laws¶

主题	关键工作	状态标记
Transformer 原始架构	Attention Is All You Need (NeurIPS 2017)	[基础]
Scaling Laws	Kaplan (2020) -> Chinchilla (NeurIPS 2022)	[基础]
开源 LLM 族谱	LLaMA 1/2/3/4, Qwen 1/2/2.5/3, DeepSeek-V2/V3	[研究]
MoE 稀疏架构	GShard -> Switch -> Mixtral -> DeepSeekMoE	[研究]
高效注意力	FlashAttention 1/2/3, RoPE, Mamba/Mamba-2	[工业]
预训练数据工程	C4, The Pile, FineWeb, RefinedWeb	[工业]

对具身智能的意义: VLA 模型的语言骨干 (PaliGemma, Eagle, Llama) 直接来自这些 LLM 架构。理解 Transformer 内部机制是理解所有后续模型的前提。

P1.2 参数高效微调与对齐¶

主题	关键工作	状态标记
LoRA / QLoRA / DoRA	ICLR 2022 / NeurIPS 2023 / ICML 2024	[工业]
RLHF 三阶段	InstructGPT (NeurIPS 2022) -> ChatGPT	[基础]
DPO 无 PPO 对齐	NeurIPS 2023	[研究]
GRPO	DeepSeekMath (arXiv 2024)；现已用于 VLA 的 RL 微调	[前沿]

对具身智能的意义: VLA 的 RL 微调 (如 pi-0.6 RECAP, VLA-RL) 直接复用 GRPO/DPO 技术栈。

P1.3 视觉基础模型与多模态¶

主题	关键工作	状态标记
ViT / Swin / DINOv2	ICLR 2021 / ICCV 2021 / TMLR 2024	[基础]
CLIP / SigLIP	ICML 2021 / ICCV 2023	[基础]
SAM / SAM 2	ICCV 2023 / ICLR 2025	[工业]
VLM: LLaVA -> Qwen2-VL -> InternVL 2.5	NeurIPS 2023 -> 2024	[研究]
扩散生成: DDPM -> LDM -> DiT -> Sora -> FLUX	2020-2024	[基础]

对具身智能的意义: SigLIP + DINOv2 组合是 OpenVLA 的视觉编码器；PaliGemma (Google) 是 pi0 系列的骨干；Eagle (NVIDIA) 是 GR00T 系列的骨干。VLM 中的图像理解能力直接迁移为 VLA 的场景感知。

P1.4 推理与 Agent¶

主题	关键工作	状态标记
CoT / ToT / Self-Consistency	NeurIPS 2022 / 2023	[基础]
DeepSeek-R1: 纯 RL 长链推理	Nature 2025	[研究]
ReAct -> SWE-Agent -> Claude Code	2023-2025	[工业]

对具身智能的意义: 具身思维链 (ECoT) 将 CoT 推理引入 VLA，使机器人输出动作前先进行多步推理，泛化任务提升 28%。Agent 范式 (ReAct 式推理+行动交替) 是导航和长程任务规划的核心协议。

P1.5 PyTorch 训练部署全栈¶

详见 [主项目]/大模型全景综述_Phase10_PyTorch训练部署项目.md

研究者最小栈:
  训练: PyTorch + Transformers + PEFT + Accelerate + DeepSpeed
  微调: LLaMA-Factory / (Unsloth + TRL)
  对齐: TRL (DPO/GRPO) / OpenRLHF (全量 PPO)
  量化: BitsAndBytes -> GPTQ/AWQ
  部署: vLLM / SGLang
  具身: LeRobot + Genesis/Isaac Lab

P2 VLA 与 VLN (视觉-语言-动作 / 视觉-语言-导航)¶

定位: 具身智能的"核心战场"------将 VLM 的感知-推理能力直接转化为动作输出 核心参考: [全量仓库]/VLA与VLN综述大纲.md (583行) ICLR 2026 信号: VLA 投稿从上年 9 篇暴增至 164 篇，标志该方向进入绝对主流标记: [研究] -> [工业] 快速过渡

P2.1 VLA 模型谱系¶

技术演进时间线¶

阶段	时间	特征	代表工作
技术奠基	2023	扩散策略 + 动作分块 + 语言表征	Diffusion Policy (RSS), ACT/ALOHA (RSS)
范式开创	2022-2023	VLM->VLA + 大规模真实数据	RT-1 (RSS), RT-2 (CoRL)
数据统一	2023-2024	跨具身数据生态 + 开源基线	Open X-Embodiment (ICRA), Octo (RSS), OpenVLA (CoRL)
灵巧化	2024-2025	Flow Matching + 高频控制 + 双臂	pi0, pi0-FAST, GR00T N1, RDT-1B
泛化爆发	2025-2026	开放世界 + 3D + 推理 + 记忆	pi0.5 (CoRL Oral), SpatialVLA, MemoryVLA

核心 VLA 模型速查¶

模型	机构	参数量	动作表示	骨干 VLM	关键突破
RT-2	Google DeepMind	55B	离散分箱	PaLI-X/PaLM-E	开创 VLM->VLA 范式
pi0	Physical Intelligence	3B+300M	Flow Matching	PaliGemma 3B	首将 FM 引入 VLA；50Hz
pi0.5	Physical Intelligence	---	Flow + FAST	PaliGemma	开放世界泛化；双层推理
OpenVLA	Berkeley	7B	离散分箱	Prismatic	首个完全开源 7B VLA
OpenVLA-OFT	Berkeley	7B	连续并行	Prismatic	76.5%->97.1% (LIBERO)；26x 吞吐
GR00T N1	NVIDIA	2.2B	Flow (DiT)	Eagle-2	人形双系统架构
GR00T N1.5	NVIDIA	2.2B+	Flow + FLARE	Eagle-2.5	对齐训练优化
GR00T N1.7	NVIDIA	---	Flow	Eagle-2.5+	Cosmos 世界模型集成；Apache 2.0
Octo	Berkeley	---	Diffusion	Transformer	开源通用策略；800K 轨迹
SpatialVLA	---	---	自适应网格	---	3D 位置编码；110 万 episode
SmolVLA	HuggingFace	450M	---	---	轻量紧凑；端侧可部署
Helix	Figure AI	---	---	---	全身人形上半身控制
CogACT	---	---	Diffusion	VLM	认知-动作解耦；+35% over OpenVLA
RDT-1B	---	1.2B	Diffusion	---	双臂操控基础模型
HPT	---	---	异构	Transformer	50+ 数据集统一预训练

动作表示方法对比¶

方法	原理	推理速度	多模态能力	代表模型	标记
离散分箱	每维 256 bins -> 文本 token	快	弱	RT-2, OpenVLA	[基础]
Flow Matching	噪声->动作的 ODE 速度场	3-10 步 / 8-20ms	良好	pi0, GR00T N1	[工业]
Diffusion Policy	潜空间迭代去噪	10-50 步 / ~160ms	强	Octo, CogACT	[研究]
FAST (DCT)	频域压缩为离散 token	快	良好	pi0-FAST	[研究]
MeanFlow 单步	平均速度场 1-NFE	1 步 / 6.8ms	良好	MP1	[前沿]

2026 ICLR VLA 爆发趋势¶

七大主题：Discrete Diffusion VLA、Reasoning VLA / Embodied CoT、新型 Action Tokenizer (FAST 变体)、Efficient VLA (SmolVLA 450M)、RL for VLA、VLA + Video Prediction、Evaluation & Benchmarking。

P2.2 VLN 方法演进¶

技术演进时间线¶

阶段	时间	特征	代表工作
基线期	2018	LSTM + attention	Seq2Seq, Speaker-Follower
预训练期	2020-2021	自监督 + Transformer	PREVALENT, HAMT, VLN-BERT
图结构期	2022-2023	拓扑地图 + BEV	DUET, ETPNav, BEVBert
LLM 集成期	2023-2024	零样本推理 + 常识	NavGPT, MapGPT, L3MVN
VLA 统一期	2024-2025	视频理解 + 端到端	NaVid (RSS), NaVILA, Uni-NaVid

VLN 核心技术¶

技术	描述	代表方法	标记
拓扑地图	实时构建导航图	DUET, ETPNav	[研究]
前沿探索	VLM 排序候选前沿	VLFM, L3MVN	[研究]
3D 场景图	层次化语义空间表征	SayNav, SG-Nav	[前沿]
BEV 表征	鸟瞰视角度量地图	BEVBert	[研究]

P2.3 具身基础模型¶

模型	venue	核心贡献	标记
PaLM-E	ICML 2023	562B 参数具身多模态 LM；ViT 感知注入 PaLM；跨领域正迁移	[研究]
EmbodiedGPT	NeurIPS 2024	具身思维链预训练；EgoCOT 数据集；第一人称视频学习规划	[研究]
LEO	ICML 2024	3D 世界通才智能体；3D 视觉-语言-动作对齐	[研究]
SPA	ICLR 2025	3D 空间感知表征；可微神经渲染；268 任务最全评估	[研究]
RoboPoint	CoRL 2024	VLM 关键点可供性预测；超 GPT-4o 21.8%	[研究]
ECoT	arXiv 2024	具身思维链推理；VLA 动作前多步推理；泛化 +28%	[前沿]

详见 [全量仓库]/VLA与VLN综述大纲.md 第三部分

P2.4 VLA 相关顶会荣誉精选¶

论文	会议	荣誉
Diffusion Policy	RSS 2023	高引用里程碑
Open X-Embodiment / RT-X	ICRA 2024	Best Paper
pi0.5	CoRL 2025	Oral
FEAST	RSS 2025	Outstanding Paper
FAST	RSS 2026	Award Finalist
Reactive Diffusion Policy	RSS 2026	Award Finalist

完整 37 条记录见 [全量仓库]/VLA与VLN综述大纲.md 第八节

P3 扩散策略与 Flow Matching¶

定位: 生成式动作模型------VLA 的"动作解码头"与独立策略学习的核心范式 核心参考: [全量仓库]/Flow_Matching与Diffusion_Policy综述.md (461行) 标记: [基础] -> [研究]

P3.1 基础理论对比¶

范式	训练目标	推理步数	推理时间	代表工作	GPU 需求
DDPM/SDE	预测噪声 epsilon	50-1000	秒级	Diffusion Policy	RTX 3090
DDIM	预测噪声 epsilon	10-20	~160ms	---	RTX 3090
Flow Matching/ODE	回归速度场 v	3-10	~8-20ms	pi0, GR00T N1	A100
Consistency Flow	速度场 + 自一致性	1-2	~12ms	FlowPolicy	RTX 4090
MeanFlow	平均速度场	1 (1 NFE)	6.8ms	MP1	RTX 4090

P3.2 Diffusion Policy 奠基¶

Diffuser (ICML 2022, 轨迹级扩散规划) -> Diffusion Policy (RSS 2023, action chunking, +46.9%) -> Decision Diffuser (ICLR 2023, 条件扩散决策)。

P3.3 Diffusion 在 VLA 中的应用¶

Octo (RSS 2024)、CogACT (arXiv 2024)、RDT-1B (ICLR 2025, 1.2B)、DexGraspVLA (AAAI 2026 Oral)、Equivariant DP (CoRL 2024 Finalist)。

P3.4 Flow Matching 在 VLA 中的应用¶

pi0 (RSS 2025)、pi0.5 (CoRL 2025 Oral, 双层架构)、pi-0.6 (RECAP, RL+FM)、GR00T N1/N1.5/N1.7。

P3.5 独立 Flow Matching 策略学习前沿¶

工作	venue	关键突破	标记
FlowPolicy	AAAI 2025 Oral	一致性 FM + 3D 点云；7x 加速	[研究]
ManiFlow	CoRL 2025	DiT-X 流形感知；1-2 步；真机 98.3%	[研究]
MP1	AAAI 2026	MeanFlow 单步；6.8ms / 19x 加速	[前沿]
VFP	arXiv 2025	变分 FM；+61.7% over FlowPolicy	[前沿]

P3.6 Flow Matching + RL 融合¶

核心难题：FM 无解析 log-probability。三条解决路线：优势加权回归 (FPO)、在线 RL 近似 (ReinFlow, NeurIPS 2025)、条件监督学习 (RECAP / pi-0.6)。

P3.7 推理加速演进¶

DDPM 1000步 -> DDIM 10-20步 -> FM 3-10步 -> Consistency 1-2步 -> MeanFlow 1步 (6.8ms)

P3.8 技术演进主线¶

三大收敛方向：VLA 标配化 (FM head 取代 diffusion head)、单步实时化 (6.8ms 工业级控制)、RL 对齐化 (生成式策略 + RL 微调)。

P4 世界模型 (从 Dreamer 到 Cosmos)¶

定位: 环境的内部表征------智能体在"想象"中预测未来、评估动作、学习策略 核心参考: [全量仓库]/世界模型/WM.md (15 章) + papers/ (20+ 论文笔记) 对应主项目: [主项目]/WM.md 标记: [研究] + [前沿]

P4.1 四大架构范式¶

范式	代表	优势	劣势	GPU 需求
RSSM	Dreamer 系列	训练高效，长程稳定	重建质量有限	RTX 3090
Transformer	IRIS, STORM, TD-MPC2	序列建模强，可扩展	长序列成本高	RTX 3090-4090
Diffusion	DIAMOND, Cosmos, Sora	视觉质量极高	推理慢，训练贵	A100+
JEPA	V-JEPA 2, DINO-WM	抽象语义，计算高效	不生成可视化	下游 RTX 3090

P4.2 RSSM / Dreamer 谱系¶

PlaNet (ICML 2019, 提出 RSSM) -> DreamerV1 (ICLR 2020, CEM->策略学习) -> DreamerV2 (ICLR 2021, 首个 model-based 达人类 Atari) -> DreamerV3 (Nature 2025, 固定超参 150+ 任务) -> R2-Dreamer (ICLR 2026, 移除解码器)。

论文笔记: [全量仓库]/世界模型/papers/PlaNet_ICML2019/ 至 DreamerV3_Nature2025/

P4.3 潜在空间世界模型¶

TD-MPC (ICML 2022) -> TD-MPC2 (ICLR 2024, 317M/104 任务)；IRIS (ICLR 2023, LLM 式自回归)；STORM (NeurIPS 2023, 单 3090 / 4.3h)；C-SWM (NeurIPS 2019, 物体中心 GNN)。

论文笔记: [全量仓库]/世界模型/papers/TD-MPC_ICML2022/ 等

P4.4 视频生成世界模型¶

工作	特点	标记
Sora (OpenAI 2024)	分钟级长视频；"World Simulator"	[工业]
Cosmos / Cosmos-Predict2.5 (NVIDIA)	Physical AI 基础设施；2B/14B	[工业]
Cosmos Reason 2 (NVIDIA)	安全/社会推理；safety-critical 场景	[前沿]
Genie 1 (ICML 2024 Oral)	11B；无监督潜在动作	[研究]
Genie 2 (DeepMind 2024.12)	3D 交互世界	[研究]
Genie 3 (DeepMind 2025.08)	720p / 24fps 实时交互；Waymo 已采用	[工业]
GameNGen (ICLR 2025)	纯神经网络游戏引擎	[研究]
UniSim (ICLR 2024 Oral)	万能模拟器；零样本 sim-to-real	[研究]

核心争论: "视频生成 =/= 世界理解"。ByteDance ICML 2025 实证表明视频模型 OOD 失败；V-JEPA 2 物理直觉 98% 但不生成视频。争论 2025 年仍未解决。

论文笔记: [全量仓库]/世界模型/papers/Cosmos_NVIDIA2025/, Genie1_ICML2024/, HowFarVideoFromWM_ICML2025/

P4.5 JEPA 非生成式世界模型¶

LeCun 愿景 (2022) -> I-JEPA (CVPR 2023) -> V-JEPA (2024) -> V-JEPA 2 (ICLR 2026, 98% 物理直觉) -> DINO-WM (ICML 2025)。

论文笔记: [全量仓库]/世界模型/papers/I-JEPA_CVPR2023/, V-JEPA2_ICLR2026/, DINO-WM_ICML2025/

P4.6 低算力世界模型研究方向¶

详见 [主项目]/WM.md 全文 --- 系统梳理"不吃算力"方向

方向	代表工作	算力评估	适合博士生
推理加速 / Token Caching	WorldCache, HERO, EasyCache	仅推理	非常适合
KV Cache 量化	QVG, Fast AR Video	仅推理	非常适合
幻觉检测与缓解	WM 幻觉分析方法	仅推理/少量微调	适合
可解释性分析	WhatDoWMLearn	少量微调	适合
JEPA 冻结特征下游	DINO-WM, V-JEPA 2 下游	仅推理	非常适合
规划优化 / Test-Time Compute	并行梯度规划	少量训练	适合

P4.7 其他专题章节¶

章节	覆盖内容	在 WM.md 中的位置
扩散世界模型	DIAMOND (NeurIPS 2024 Spotlight)	第六章
自动驾驶世界模型	GAIA-1, OccWorld, Cosmos	第七章
具身/机器人世界模型	Navigation WM (CVPR 2025), Unified WM (RSS 2026)	第八章
LLM 作为世界模型	RAP (EMNLP 2023), LATS (ICML 2024)	第九章
推理优化与加速	量化/蒸馏/并行	第十章
幻觉检测与缓解	---	第十一章
可解释性与分析	---	第十二章
JEPA 低算力下游	---	第十三章
规划 + Test-Time Compute	---	第十四章
安全、评估与组合泛化	---	第十五章

完整内容: [全量仓库]/世界模型/WM.md Part B (第十至十六章)

P5 RL 与动作模仿 (从 DeepMimic 到 GR00T)¶

定位: 人形机器人的运动能力层------让物理躯体做出敏捷、稳健、多样的动作 核心参考: [全量仓库]/RL人形/rl.md + 人形机器人RL动作模仿与生成综述_2026_最终版.md 对应主项目: [主项目]/人形机器人RL动作模仿与生成综述_2026_最终版.md 交叉引用: [05运控]/动作模仿理论.md (455行) 标记: [研究] + [工业]

P5.1 六阶段技术演进¶

Phase	时间	特征	代表工作	主战场
1 史前	<=2017	物理角色动画奠基	SAMCON, DeepLoco	SIGGRAPH
2 开端	2018-2020	DRL 动作模仿	DeepMimic, MCP, AMASS, Isaac Gym	SIGGRAPH/NeurIPS
3 对抗先验	2021-2022	GAN 判别器替代 MSE	AMP, ASE, ControlVAE	SIGGRAPH
4 大规模	2022-2023	全 AMASS + 扩散生成	PHC, PULSE, MDM, Vid2Player3D	ICCV/ICLR/SIGGRAPH
5 真机爆发	2023-2024	从仿真到 Unitree H1/G1	H2O, ExBody, HumanPlus, HOVER	CoRL/RSS/ICRA
6 整合泛化	2024-2026	敏捷全身 + 基础模型	ASAP, GMT, SONIC, BFM-Zero	RSS/ICLR/ICRA

P5.2 核心方法论线路¶

动作模仿线:

DeepMimic (SIGGRAPH 2018) -> AMP/ASE (SIGGRAPH 2021-22)
  -> PHC/PULSE (ICCV 2023 / ICLR 2024) -> H2O/ExBody (CoRL/RSS 2024)
  -> ASAP/SONIC/GMT (RSS 2025-26)

动作生成线:

HumanML3D (CVPR 2022) -> MDM (ICLR 2023) -> MoMask (CVPR 2024)
  -> CLoSD (ICLR 2025) -> BeyondMimic (2025)

P5.3 真机全身控制¶

工作	venue	平台	特点	标记
H2O / OmniH2O	IROS 2024 / CoRL 2024	H1/G1	全身遥操 + 学习	[研究]
ExBody / ExBody2	RSS 2024	H1	大规模动捕表达性全身	[研究]
HumanPlus	CoRL 2024	H1	影子模仿；从人类视频学	[研究]
HOVER	ICRA 2025	Unitree	NVIDIA 通用全身控制器	[工业]
ASAP	RSS 2025	G1	仿真-真实对齐；敏捷技能	[研究]
TWIST / TWIST2	CoRL 2025 / ICRA 2026	多平台	便携全身遥操系统	[研究]
GMT	arXiv 2026	G1	通用运动追踪	[前沿]

P5.4 体育与专项技能¶

领域	代表工作	最高成就	标记
足球	OP3 Soccer (Science Robotics 2024)	真机零样本 1v1	[工业]
网球	LATENT (arXiv 2026)	G1 持续多拍对打	[前沿]
篮球	SkillMimic (CVPR 2025 Highlight)	仿真运球/投篮	[研究]
羽毛球	Legged Badminton (Science Robotics 2025)	足式操作器真机	[工业]
跑酷	Humanoid Parkour (CoRL 2024)	G1 真机跑酷	[研究]
滑板	HUSKY (2026)	G1 户外滑板	[前沿]
平衡	HuB (CoRL 2025)	G1 极端单腿平衡	[研究]
格斗	KungfuBot (NeurIPS 2025)	全身武术技能	[研究]

P5.5 人形基础模型¶

工作	特点	标记
SONIC (NVIDIA GEAR)	42M 参数，700 小时，21K GPU 小时	[工业]
BFM-Zero (ICLR 2026)	无监督 RL 行为基础模型	[研究]
GR00T N1/N1.5/N1.7	VLA 人形通用；Apache 2.0	[工业]
Helix (Figure AI)	全身人形上半身控制；闭源	[工业]
WholeBodyVLA (ICLR 2026)	端到端移动操作 VLA	[研究]
Kimodo (NVIDIA 2026)	Text-to-Motion diffusion + SONIC	[前沿]

P5.6 仿真基础设施¶

框架	特点	GPU 需求	标记
Isaac Lab 3.0	GPU 并行 RL；Isaac Sim 渲染；Unitree/Franka 原生	RTX 3090+	[工业]
MuJoCo Playground	JAX 加速；足式/操控	CPU / GPU	[研究]
mjlab	Isaac Lab API + MuJoCo Warp GPU	RTX 3090+	[前沿]
Genesis	10-80x 快于 Isaac；全可微；刚体/MPM/SPH/FEM	RTX 3090+	[研究]
ProtoMotions	NVIDIA 统一人形仿真；AMP/ASE/MaskedMimic	RTX 3090+	[工业]
Humanoid-Gym	人形 RL + sim-to-real；零样本迁移	RTX 3090+	[研究]
HumanoidVerse	多仿真器统一框架	RTX 3090+	[研究]
TienKung-Lab	全尺寸人形 RL；AMP + 周期步态	RTX 3090+	[研究]

P5.7 动作恢复 (HMR) --- 为真机模仿提供"野外数据"¶

工作	venue	特点	标记
HMR	CVPR 2018	端到端人体形状与姿态	[基础]
WHAM	CVPR 2024	世界坐标下的精确运动	[研究]
TRAM	ECCV 2024	全局轨迹与运动	[研究]
GVHMR	SIGGRAPH Asia 2024	重力-视角坐标；精度最高	[研究]

P5.8 可解释 RL (独立专题)¶

[全量仓库]/强化学习/ (9 files, 8,029行): 可解释 RL 综述、SHAP 分析、ICML 论文解读、代码项目

P6 数据引擎与部署¶

定位: 从数据采集到真机部署的全栈工程------服务所有其他支柱标记: [工业] + [研究]

P6.1 核心数据集¶

数据集	规模	特点	标记
Open X-Embodiment	1M+ 轨迹, 22 种机器人	ICRA 2024 Best Paper	[工业]
DROID	76K 轨迹, 564 场景	13 机构分布式采集	[研究]
BridgeData V2	60K 轨迹	WidowX 平台	[研究]
CALVIN	24h play 数据	语言条件长程操控	[研究]
LIBERO	130 任务	终身/迁移评估	[研究]
AMASS	万级 mocap	人形 RL 的"ImageNet"	[基础]
LeRobot 社区	持续增长	标准化 Parquet+MP4	[工业]

P6.2 仿真平台生态¶

平台	特点	GPU 需求	适用方向	标记
Isaac Lab 3.0	GPU 并行 RL；真实渲染	RTX 3090+	RL 全方向	[工业]
Genesis	10-80x 快；全可微	RTX 3090+	高速仿真	[研究]
Habitat 3.0	人-机协作；社交导航	RTX 3060+	VLN	[研究]
ManiSkill3	30,000+ FPS	RTX 3090+	大规模操控	[研究]
SimplerEnv	仿真评估桥梁	RTX 3060+	VLA 策略评估	[研究]
BEHAVIOR-1K	1000 活动；液体/变形体	RTX 3090+	通用家务	[研究]

P6.3 训练与推理框架¶

框架	定位	标记
LeRobot	HuggingFace 机器人学习；pi0.5/GR00T/ACT/DP 内置	[工业]
RLinf	具身 AI RL 基础设施；PPO/GRPO/SAC；VLA+RL	[研究]
OpenVLA	开源 VLA 训练；FSDP + Flash-Attention	[研究]
VLABench	VLA 评估基准	[研究]

P6.4 部署管线¶

数据采集 -> 标准化 (LeRobot Parquet+MP4) -> VLA 预训练
  -> 仿真验证 (Isaac Lab + SimplerEnv) -> RL 微调 (RLinf-VLA)
  -> 真机部署 (ROS 2 + sim2real)

P6.5 遥操作数据采集硬件¶

设备	价格	特点	适用场景
GELLO	~$500	3D 打印关节映射	单臂操控
UMI	~$300	手持式，无需校准	快速采集
Apple Vision Pro	~$3500	手部追踪高精度	双手操控
LeRobot SO-100	~$300	低成本教育	入门
ALOHA 设备	~$20K	双臂全栈	双臂研究

第二部分：规划中的章节 (Future Expansion)¶

以下章节尚未拆分独立教学文件，属于规划阶段。按优先级排列。

高优先级 (计划 2026 H2 启动)¶

章节编号	主题	预计篇幅	预计周数	前置依赖
E01	VLA 入门实战: OpenVLA/OFT 从安装到微调	~400 行	2 周	P1, P2 理论
E02	Diffusion Policy 从零推导到 Push-T 复现	~500 行	2 周	P3 理论
E03	LeRobot 全栈教程: 数据采集->训练->部署	~600 行	3 周	E01
E04	Isaac Lab 人形 RL 入门到 H1 真机	~500 行	3 周	P5 理论

中优先级 (计划 2026 H2 - 2027 H1)¶

章节编号	主题	预计篇幅	预计周数	前置依赖
E05	Flow Matching 数学推导与 VLA 动作头实现	~400 行	2 周	P3, 01_数学 (SDE/ODE)
E06	DreamerV3 源码精读与 DMControl 实验	~400 行	2 周	P4 理论
E07	VLN 导航实战: Habitat + NaVid	~400 行	2 周	P2.2, 03_SLAM
E08	人形 RL 进阶: AMP/ASE/PHC 系列	~500 行	3 周	E04, 05_运控/动作模仿

低优先级 (视社区需求启动)¶

章节编号	主题	预计篇幅	预计周数	前置依赖
E09	世界模型低算力研究指南	~400 行	2 周	P4
E10	VLA + RL 微调: GRPO/FPO/RECAP	~400 行	2 周	E01, P3.6
E11	Sim-to-Real 全栈: 域随机化->teacher-student->真机	~500 行	3 周	E04, 05_运控
E12	具身安全: Physical AI Safety 框架	~300 行	2 周	P4, P5
E13	多机器人 VLA 与协作	~300 行	2 周	E01, 04_移动规控

第三部分：交叉引用地图¶

与 05_运动控制的交叉 (最密切)¶

05 提供"身体"，06 提供"大脑"。

交叉点	05 位置	06 位置	方向
动作模仿理论	`[05运控]/动作模仿理论.md`	P5 RL/动作模仿	05->06
RL sim-to-real	`[05运控]/MJLab与IsaacLab_RL运控教学文档.md`	P5.7 仿真基础设施	05->06
VLA 力控	05 阻抗/力控	P2.1 VLA 灵巧化	05->06
全身控制 WBC	05 足式 WBC 数学	P5.3 学习策略	05->06
VLA 动作空间	05 前向/逆运动学	P2.1 动作表示	05->06

与 04_移动机器人规控的交叉¶

交叉点	04 位置	06 位置	方向
MPPI + learned dynamics	04 规控方法论	P4.3 TD-MPC/TD-MPC2	04->06
导航规划	04 路径规划	P2.2 VLN	04->06

与 03_SLAM 的交叉¶

交叉点	03 位置	06 位置	方向
视觉定位	03 视觉里程计	P2.2 VLN sim-to-real	03->06
语义地图	03 语义 SLAM	P2.2 3D 场景图	03->06

与 01_数学的交叉¶

交叉点	01 位置	06 位置	方向
SDE/ODE 理论	随机过程	P3 Diffusion/FM 推导	01->06
变分推断	概率图模型	P4 RSSM/Dreamer	01->06
李群/SE(3)	李群与流形	P3 等变策略	01->06
最优控制	最优控制理论	P4.3 TD-MPC	01->06

06 向外输出¶

交叉点	06 位置	接收方向	方向
VLA 控制指令	P2 VLA	05 运控执行	06->05
语义导航目标	P2 VLN	04 路径规划	06->04
场景语义理解	P4 世界模型	03 语义 SLAM	06->03

交叉引用可视化¶

01_数学 -----(SDE/变分/李群/最优控制)-----> 06 (P3, P4)
02_C++基础与进阶 -----(PyTorch/C++/RL基础)---------> 06 (全部)
03_SLAM -----(视觉定位/语义地图)----------> 06 (P2.2)
04_规控 -----(MPPI/路径规划)--------------> 06 (P4.3, P2.2)
05_运控 =====(动作模仿/RL/力控/WBC)======> 06 (P5, P2) [最密切]

06 (VLA) -------> 05_运控 (执行层)
06 (VLN) -------> 04_规控 (导航层)
06 (WM)  -------> 03_SLAM (语义层)

第四部分：学习路径建议¶

路径 A：VLA 研究者 (8 周)¶

周	主题	必读	动手	GPU
1	VLM 基础	CLIP, LLaVA-1.5, PaliGemma	HF Transformers 加载 VLM	RTX 3060
2	VLA 范式	RT-1, RT-2	SimplerEnv 评估 OpenVLA	RTX 4090
3	动作表示	Diffusion Policy, Flow Matching 基础	复现 DP Push-T	RTX 3090
4	开源 VLA	OpenVLA, OpenVLA-OFT, Octo	OFT 微调自定义任务	RTX 4090
5	Flow VLA	pi0, pi0.5 双层架构	LeRobot 训练 pi0	A100
6	人形 VLA	GR00T N1, WholeBodyVLA	Isaac Lab + GR00T	RTX 4090
7	VLA + RL	FPO, RECAP, VLA-RL	RLinf-VLA 微调	A100
8	前沿选题	SmolVLA, SpatialVLA, MemoryVLA	写 research proposal	---

前置: Transformer 机制、PyTorch 熟练、RL 基础 (PPO)

路径 B：RL 人形部署 (6 周)¶

周	主题	必读	动手	GPU
1	RL + 仿真	PPO 原理、Isaac Lab 入门	Isaac Lab Go2 训练	RTX 3090
2	动作模仿	DeepMimic -> AMP -> ASE	ProtoMotions AMP	RTX 3090
3	大规模模仿	PHC, PULSE, SONIC	PHC MJX 复现	RTX 4090
4	真机全身	H2O, ExBody, HOVER	Humanoid-Gym H1	RTX 4090
5	敏捷技能	ASAP, GMT, HuB	ASAP G1 训练	RTX 4090
6	Sim-to-Real	域随机化、teacher-student	G1 真机部署	RTX 4090

前置: PyTorch、RL 基础、Linux/ROS 交叉: [05运控]/动作模仿理论.md, [05运控]/MJLab与IsaacLab_RL运控教学文档.md

路径 C：世界模型研究者 (10 周)¶

周	主题	必读	动手	GPU
1	背景	WM.md 第一章、Ha & Schmidhuber 2018	---	---
2	Dreamer	PlaNet -> DreamerV3	DreamerV3 DMControl	RTX 3090
3	潜在 WM	TD-MPC2, IRIS, STORM	STORM 3090 复现	RTX 3090
4	视频 WM	Sora, Genie 1/2/3, Cosmos	GenieRedux 开源	RTX 4090
5	JEPA	LeCun 愿景, V-JEPA 2	I-JEPA 训练	RTX 4090
6	扩散 WM	DIAMOND	DIAMOND Atari	RTX 3090
7	驾驶/具身	GAIA-1, OccWorld	Cosmos 开源推理	A100
8	LLM-as-WM	RAP, LATS	RAP 推理链	RTX 4090
9	优化+安全	幻觉、泛化、加速	WM.md 十至十五章	RTX 3090
10	前沿选题	R2-Dreamer, DINO-WM	写 research proposal	---

前置: 变分推断、Transformer、PyTorch

路径 D：大模型基础速补 (4 周)¶

面向熟悉机器人但不熟悉大模型的研究者

周	主题	必读	动手	GPU
1	Transformer + LLM	大模型全景综述 Phase 1	HF Transformers 加载 LLM	RTX 3060
2	微调与对齐	LoRA, RLHF, DPO	Unsloth LoRA 微调 7B	RTX 4090
3	VLM	CLIP, LLaVA, PaliGemma	LLaVA 推理	RTX 4090
4	PyTorch 部署栈	Phase 10 全栈教程	vLLM 部署 + 量化推理	RTX 4090

前置: Python、基本 ML 知识交叉: [主项目]/大模型全景综述.md + 大模型全景综述_Phase10_PyTorch训练部署项目.md

路径 E：全栈具身智能 (16 周)¶

面向希望覆盖所有支柱的全栈研究者

阶段	周数	覆盖支柱	核心目标
基础层	1-3	P1 (速补)	Transformer + VLM + PyTorch 栈
策略层	4-6	P3 + P2	Diffusion Policy + OpenVLA 微调
世界层	7-9	P4	Dreamer -> DIAMOND -> V-JEPA 2
运动层	10-12	P5	AMP -> ASAP -> 真机
部署层	13-14	P6	LeRobot + Isaac Lab + sim-to-real
整合层	15-16	综合	GR00T N1.7 + 论文选题

六大支柱阅读顺序建议¶

ML/DL 研究者 (熟悉 Transformer，不熟悉机器人):

P1 (快速回顾) -> P3 扩散/FM -> P2 VLA/VLN -> P4 世界模型

机器人研究者 (熟悉控制/SLAM，不熟悉大模型):

P1 (重点学习) -> P5 RL/动作模仿 -> P2 VLA/VLN -> P6 数据/部署

全栈研究者:

P2 VLA/VLN (直奔核心) -> P3 扩散/FM -> P4 世界模型 -> P5 RL -> P6 部署

工程部署导向:

P6 (先建环境) -> P2 VLA (选模型) -> P5 RL (sim-to-real) -> 真机

第五部分：不覆盖什么¶

不覆盖的内容	应查阅的方向	理由
经典控制理论 (PID, LQR, 阻抗控制)	`05_运动控制/`	05 已有系统覆盖
WBC 数学推导	`05_运动控制/足式/`	浮动基座动力学属运控
SLAM / 视觉里程计 / 建图	`03_SLAM/`	03 完整主线
移动规控 (MPPI/博弈/多机)	`04_移动机器人规控/`	04 专项
C++ 语言基础	`02_C++基础与进阶/`	编程基础
数学基础	`01_数学/`	数学基础

边界原则: "无需基础模型即可工作" -> 05 运控；"以基础模型为核心" -> 06 具身智能。

第六部分：顶会顶刊速查¶

完整列表: [全量仓库]/顶会顶刊.md

核心投稿目标¶

会议	定位	具身智能相关度	截稿参考
CoRL	机器人学习	VLA 最密集	~6 月
RSS	机器人 (小而精)	VLA/RL 均有	~1 月
ICRA	机器人最大	全方向	~9 月
ICLR	深度学习	2026 VLA 爆发	~10 月
NeurIPS	ML	世界模型/RL	~5 月
SIGGRAPH	图形学	角色动画/运动生成	~1 月

核心期刊¶

期刊	出版方	定位	具身智能相关度
T-RL	IEEE	2025 年 3 月创刊；机器人学习专刊	极高
Science Robotics	AAAS	高影响力	OP3 Soccer, Legged Badminton
Nature	Nature	最高影响力	DreamerV3 (2025)
IJRR	SAGE	机器人最老牌顶刊	Diffusion Policy (IJRR 2024)
T-RO	IEEE	机器人顶刊	全方向
RA-L	IEEE	快速发表；可选会议报告	全方向
TPAMI	IEEE	CV/ML 最高影响力	ETPNav (TPAMI 2024)
TMLR	OpenReview	快速审稿	DINOv2 (TMLR 2024)
JMLR	开放获取	ML 理论顶刊	DreamerV3 理论分析
TOG	ACM	SIGGRAPH 论文载体	角色动画/运动生成

具身智能论文投稿策略¶

VLA 模型 -----> CoRL (最对口) / RSS / ICRA / ICLR
世界模型 -----> NeurIPS / ICML / ICLR
人形 RL  -----> RSS / CoRL / ICRA / Science Robotics (里程碑)
动作生成 -----> SIGGRAPH / CVPR / ICLR
VLN     -----> CVPR / ECCV / ICCV / CoRL
导航Agent -----> NeurIPS / ICLR / EMNLP (LLM 导航)

第七部分：开放问题与未来方向¶

技术层面¶

问题	现状	潜在方向	标记
FM log-prob 计算	Hutchinson estimator 代价高；FPO/RECAP 用近似绕过	高效 log-prob 估计器；FM 专用 RL 算法	[前沿]
单步推理模式坍缩	1-2 步推理时多模态表达退化	VFP 变分方法；自适应步数策略	[前沿]
物理约束集成	PhysDiff 初步尝试，缺乏通用框架	微分物理引擎 + FM 联合训练	[前沿]
视频生成 vs 世界理解	争论 2025 年仍未解决	JEPA vs 生成式 vs 混合路线收敛	[研究]
VLA Scaling Laws	Neural Scaling Laws in Robotics (2024) 初步验证	机器人专属 scaling 定律；GEN-0/GEN-1 工业验证	[前沿]
长程任务规划	pi0.5 双层架构是初步尝试	层级 FM + 语言子目标链	[前沿]
跨具身泛化	HPT 50+ 数据集统一、OXE 22 种机器人	通用具身基础模型；形态无关表征	[前沿]
Physical AI Safety	新兴但无主导框架	全链路安全：感知->决策->执行->部署	[前沿]
Sim-to-Real 鲁棒性	生成式策略的 sim-to-real gap 研究不足	域随机化 + FM 鲁棒性分析	[研究]
统一策略/世界模型	策略与世界模型用独立模型	单一 FM 同时建模动态与策略	[前沿]

产业层面¶

问题	现状	潜在方向	标记
人形成本	Unitree G1 ~$16K, H1 ~$90K	硬件成本继续下降；更多厂商入场	[工业]
真机数据稀缺	DROID 76K / OXE 1M+	仿真数据 + sim-to-real 规模化；LeRobot 社区众包	[工业]
部署可靠性	仿真 >> 真机；gap 仍大	ASAP 式仿真-真实对齐；更好的 sim-to-real 方法论	[工业]
法规与伦理	几乎空白	物理 AI 法规制定；人形接触安全标准	[前沿]
算力需求	SONIC 21K GPU 小时；pi0 10K+ 小时数据	高效架构 (SmolVLA 450M)；蒸馏与压缩	[工业]
评估标准化	各模型用不同基准、不同环境	VLABench 等统一评测；标准化 sim 环境	[研究]

机器人缩放定律 (新兴方向)¶

工作	发现	标记
Neural Scaling Laws in Robotics (2024)	327 篇论文元分析；机器人缩放速度快于语言任务	[研究]
Data Scaling Laws in IL (ICLR 2025)	40,000+ 示教验证；适当缩放->单任务零样本部署	[研究]
GEN-0/GEN-1 (2025-2026)	工业界首证机器人预训练缩放定律	[工业]

这一方向预示：机器人基础模型的性能将随数据/参数/计算三者规模增长而可预测地提升，类似语言模型的 Chinchilla 定律。

新兴交叉方向¶

方向	描述	代表工作	标记
互联网规模预训练->机器人	人类视频/第一人称视频作为机器人预训练数据	EgoVLA (2024), Figure AI Go-Big (2025)	[前沿]
VLM 反馈奖励	用 VLM 偏好查询自动生成奖励函数	RL-VLM-F (ICML 2024), Text2Reward (ICLR 2024)	[研究]
零样本导航	无需任何环境数据的语义导航	VLFM (ICRA 2024), Open-Nav (ICRA 2025)	[研究]
全身运动操作一体化	导航/运动/操作从独立模块->统一端到端	WholeBodyVLA (ICLR 2026), NaVILA (arXiv)	[前沿]
多机器人 VLA	多智能体协作的 VLA 策略	目前为空白，未来方向	[前沿]
具身推理 (Embodied Reasoning)	R1 式长链推理 + 物理世界行动	ECoT (+28%), pi0.5 双层推理	[前沿]

附录 A：世界模型论文笔记索引¶

以下论文在 [全量仓库]/世界模型/papers/ 中均有中英双语笔记：

论文笔记目录	对应工作	范式	在 WM.md 中的章节
`WorldModels_2018/`	Ha & Schmidhuber (NeurIPS 2018)	VAE + MDN-RNN	第一章
`PlaNet_ICML2019/`	PlaNet: RSSM 诞生	RSSM	第二章
`C-SWM_NeurIPS2019/`	物体中心 GNN	结构化潜在	第三章
`DreamerV1_ICLR2020/`	DreamerV1	RSSM + actor-critic	第二章
`DreamerV2_ICLR2021/`	DreamerV2: 首达人类 Atari	RSSM 离散	第二章
`TD-MPC_ICML2022/`	TD-MPC	潜在 + MPPI	第三章
`IRIS_ICLR2023/`	IRIS: GPT 式世界模型	Transformer	第三章
`I-JEPA_CVPR2023/`	I-JEPA: 图像域 JEPA	JEPA	第五章
`STORM_NeurIPS2023/`	STORM: 单 3090 训练	Transformer	第三章
`GAIA-1_Wayve2023/`	GAIA-1: 驾驶世界模型	视频生成	第七章
`RAP_EMNLP2023/`	RAP: LLM 推理即规划	LLM-as-WM	第九章
`TD-MPC2_ICLR2024/`	TD-MPC2: 104 任务统一	潜在 + MPPI	第三章
`UniSim_ICLR2024/`	UniSim: 万能模拟器	视频生成	第四章
`LATS_ICML2024/`	LATS: LLM + MCTS	LLM-as-WM	第九章
`OccWorld_ECCV2024/`	OccWorld: 3D 占用预测	驾驶 WM	第七章
`Genie1_ICML2024/`	Genie 1: 无监督潜在动作	视频生成	第四章
`DIAMOND_NeurIPS2024/`	DIAMOND: 扩散世界模型	Diffusion	第六章
`Cosmos_NVIDIA2025/`	Cosmos: Physical AI	视频生成	第四章
`DreamerV3_Nature2025/`	DreamerV3: Nature 发表	RSSM	第二章
`C3_WorldModels_2025/`	C3 世界模型	---	---
`GameNGen_ICLR2025/`	GameNGen: 神经游戏引擎	Diffusion	第四章
`DINO-WM_ICML2025/`	DINO-WM	JEPA	第五章
`HowFarVideoFromWM_ICML2025/`	视频生成 =/= 世界理解	实证分析	第四章
`SEASON_2025/`	SEASON	---	第九章
`V-JEPA2_ICLR2026/`	V-JEPA 2: 98% 物理直觉	JEPA	第五章
`V-JEPA2.1_2026/`	V-JEPA 2.1 改进	JEPA	第五章
`WhatDoWMLearn_2026/`	世界模型学到了什么	分析	第十二章
`ParallelGradientPlanning_Meta2026/`	并行梯度规划	规划	第十四章

附录 B：RL 人形关键论文时间线¶

按 [全量仓库]/RL人形/rl.md 六阶段组织：

Phase	年份	关键论文	venue	标记
1	2010	SAMCON	SIGGRAPH	[基础]
1	2017	DeepLoco	SIGGRAPH	[基础]
2	2018	DeepMimic	SIGGRAPH	[基础]
2	2019	AMASS, MCP	ICCV, NeurIPS	[基础]
2	2021	Isaac Gym	NeurIPS D&B	[工业]
3	2021	AMP	SIGGRAPH	[基础]
3	2022	ASE, ControlVAE	SIGGRAPH	[研究]
4	2023	PHC, Vid2Player3D, MDM	ICCV, SIGGRAPH, ICLR	[研究]
4	2024	PULSE, MoMask	ICLR Spotlight, CVPR	[研究]
5	2024	H2O, ExBody, HumanPlus	IROS, RSS, CoRL	[研究]
5	2024	HOVER, Humanoid Parkour	ICRA, CoRL	[研究]
5	2024	OP3 Soccer	Science Robotics	[工业]
5	2024	MaskedMimic	SIGGRAPH Asia	[研究]
6	2025	ASAP, HOMIE, VideoMimic	RSS, CoRL	[研究]
6	2025	KungfuBot, Legged Badminton	NeurIPS, Science Robotics	[研究]
6	2025	SONIC, GR00T N1.5/N1.7	NVIDIA	[工业]
6	2025	CLoSD	ICLR Spotlight	[研究]
6	2026	GMT, TWIST2, GMR, BeyondMimic	arXiv, ICRA	[前沿]
6	2026	BFM-Zero, WholeBodyVLA, HWC-Loco	ICLR	[研究]
6	2026	LATENT (G1 网球), HUSKY (G1 滑板)	arXiv	[前沿]
6	2026	Kimodo (NVIDIA)	NVIDIA	[前沿]

完整 120+ 论文条目见 [全量仓库]/RL人形/rl.md

附录 C：VLN 基准数据集完整列表¶

摘自 [全量仓库]/VLA与VLN综述大纲.md 第二部分

基准	年份	发表	环境	特点
R2R	2018	CVPR 2018	Matterport3D (90 建筑)	VLN 开山之作；7,189 路径 + 21,567 指令
RxR	2020	EMNLP 2020	Matterport3D	多语言 (英/印地/泰卢固)；126k 指令
REVERIE	2020	CVPR 2020	Matterport3D	导航 + 远程目标物体定位
ALFRED	2020	CVPR 2020	AI2-THOR	导航 + 物体交互；7 类家庭任务
CVDN	2019	CoRL 2019	Matterport3D	多轮对话导航
VLN-CE	2020	ECCV 2020	Habitat	连续环境；低层运动控制
Touchdown	2019	CVPR 2019	Google Street View (NYC)	户外城市 VLN
SOON	2021	CVPR 2021	Matterport3D	场景描述导航

附录 D：VLA 架构范式图¶

当前主流 VLA 架构:

+------------------+     +------------------+
|  预训练 VLM 骨干  |---->|  专用动作模块     |
|  (语义理解)       |     |  (Flow/Diffusion) |
|  PaliGemma/Eagle |     |  (运动控制)       |
+------------------+     +------------------+
         ^                        ^
         |                        |
    互联网数据              机器人轨迹数据
    (视觉-语言)            (动作-状态)

pi0.5 双层架构:

+-----------------------------------+
|  高层: VLM 生成 FAST token 子目标  |  <-- 慢思维 (System 2)
+-----------------+-----------------+
                  | 语言化子目标
+-----------------+-----------------+
|  低层: Flow Matching 生成动作序列  |  <-- 快执行 (System 1)
+-----------------------------------+

GR00T N1 双系统架构:

+--------------------+
|  System 2: Eagle VLM |  <-- 场景理解 + 语言推理
|  (慢思维)            |
+--------+-----------+
         | 条件嵌入
+--------+-----------+
|  System 1: DiT Flow |  <-- 高频动作生成
|  (快执行, 50Hz)     |
+--------------------+

附录 E：文件索引¶

全量仓库 (`[全量仓库]`)¶

具身智能/
+-- VLA与VLN综述大纲.md                    <-- P2 (583行)
+-- Flow_Matching与Diffusion_Policy综述.md  <-- P3 (461行)
+-- 大模型全景综述_完整合并版.md              <-- P1 (566行)
+-- 顶会顶刊.md                             <-- 会议/期刊速查 (78行)
+-- 世界模型/                               <-- P4 (40 files, 27,668行)
|   +-- WM.md                              <-- 15 章综述
|   +-- 综述/World-In-World/
|   +-- papers/ (20+ 论文笔记, 中英双语)
+-- RL人形/                                <-- P5 (218 files, 105,625行)
|   +-- rl.md
|   +-- 人形机器人RL动作模仿与生成综述_2026_最终版.md
|   +-- papers/ (200+ 论文笔记)
+-- 强化学习/                              <-- P5.6 (9 files, 8,029行)
    +-- 可解释强化学习.md / 学习指南.md
    +-- shap.md, ICML.md
    +-- Interpret-DRL-using-SHAP-Project/

主项目 (`[主项目]`)¶

06_具身智能/
+-- 具身智能方向_总大纲.md                     <-- 本文档 (v2.0)
+-- 大模型全景综述.md                          <-- P1
+-- 大模型全景综述_Phase10_PyTorch训练部署项目.md <-- P1.5
+-- 人形机器人RL动作模仿与生成综述_2026_最终版.md  <-- P5
+-- WM.md                                     <-- P4

跨方向文件¶

05_运动控制/
+-- 动作模仿理论.md                <-- P5 交叉 (455行)
+-- MJLab与IsaacLab_RL运控教学文档.md <-- P5 交叉 (2409行)

附录 F：物理 AI 安全速览¶

新兴但尚无主导框架。2025-2026 年进展：

层级	当前方案	缺口
感知安全	VLM 场景理解 + 异常检测	对抗攻击鲁棒性不足
决策安全	Cosmos Reason 2 safety/social reasoning	仅限自动驾驶场景验证
执行安全	传统力控/阻抗控制 (05_运控)	与 VLA 的集成方案缺乏
部署安全	sim-to-real 验证	长尾场景覆盖不足
伦理法规	几乎空白	人形接触安全标准待制定

研究机会: 全链路 Physical AI Safety 框架是重要缺口，适合跨学科 (控制+ML+法律) 研究。

附录 G：版本历史¶

版本	日期	变更
v1.0	2026-05-03	初始版本：整合全量仓库 271 个 Markdown 文件 + 主项目 4 文件为统一大纲
v2.0	2026-05-14	增强版：新增快速路径、计算与硬件需求表、工业/研究标记体系、前置知识依赖矩阵 (01_数学/05_运动控制)、生态速览 (2026-05)、规划中的章节 (E01-E13)、交叉引用地图、路径 D/E 新增、物理 AI 安全速览、GPU 需求列、遥操作硬件表、低算力世界模型方向

方向	推荐硬件	价格区间	替代方案
单臂操控	Franka / UR5e / WidowX	\(5K-\)70K	LeRobot SO-100 ($300)
双臂操控	ALOHA / Mobile ALOHA	\(20K-\)100K	仿真 (Isaac Lab)
人形全身	Unitree G1	~$16K	Unitree H1 (~$90K)
移动操控	Stretch RE2 / TIAGo	\(25K-\)80K	仿真 (Habitat 3.0)
遥操作数据采集	GELLO / UMI / Apple Vision Pro	\(500-\)3500	LeRobot 手持采集

问题	现状	潜在方向	标记
人形成本	Unitree G1 ~\(16K, H1 ~\)90K	硬件成本继续下降；更多厂商入场	[工业]
真机数据稀缺	DROID 76K / OXE 1M+	仿真数据 + sim-to-real 规模化；LeRobot 社区众包	[工业]
部署可靠性	仿真 >> 真机；gap 仍大	ASAP 式仿真-真实对齐；更好的 sim-to-real 方法论	[工业]
法规与伦理	几乎空白	物理 AI 法规制定；人形接触安全标准	[前沿]
算力需求	SONIC 21K GPU 小时；pi0 10K+ 小时数据	高效架构 (SmolVLA 450M)；蒸馏与压缩	[工业]
评估标准化	各模型用不同基准、不同环境	VLABench 等统一评测；标准化 sim 环境	[研究]

具身智能方向统一大纲¶

Embodied Intelligence --- Unified Master Outline¶

一句话定义¶

阅读约定¶

快速路径 (Quick-Start Track)¶

路径 QS-A: VLA 最小可用 (~4 周)¶

路径 QS-B: 人形 RL 最小可用 (~3 周)¶

路径 QS-C: 世界模型入门 (~3 周)¶

计算与硬件需求表¶

GPU 需求速查¶

真机硬件需求¶

工业 vs 研究标记¶

标记体系定义¶

按支柱标记总览¶

总览路线图¶

支柱间依赖关系图¶

内容规模统计¶

前置知识依赖矩阵¶

与 01_数学 的依赖¶

与 05_运动控制 的依赖¶

与其他方向的依赖¶

前置三层口径¶

生态速览 (2026-05)¶

VLA 模型生态¶

世界模型生态¶

人形 RL 生态¶

数据与部署生态¶

第一部分：六大支柱详述¶

P1 大模型基础 (LLM / VLM / MLLM)¶

P1.1 LLM 架构与 Scaling Laws¶

P1.2 参数高效微调与对齐¶

P1.3 视觉基础模型与多模态¶

P1.4 推理与 Agent¶

P1.5 PyTorch 训练部署全栈¶

P2 VLA 与 VLN (视觉-语言-动作 / 视觉-语言-导航)¶

P2.1 VLA 模型谱系¶

技术演进时间线¶

核心 VLA 模型速查¶

动作表示方法对比¶

2026 ICLR VLA 爆发趋势¶

P2.2 VLN 方法演进¶

技术演进时间线¶

VLN 核心技术¶

P2.3 具身基础模型¶

P2.4 VLA 相关顶会荣誉精选¶

P3 扩散策略与 Flow Matching¶

P3.1 基础理论对比¶

P3.2 Diffusion Policy 奠基¶

P3.3 Diffusion 在 VLA 中的应用¶

P3.4 Flow Matching 在 VLA 中的应用¶

P3.5 独立 Flow Matching 策略学习前沿¶

P3.6 Flow Matching + RL 融合¶

P3.7 推理加速演进¶

P3.8 技术演进主线¶

P4 世界模型 (从 Dreamer 到 Cosmos)¶

P4.1 四大架构范式¶

P4.2 RSSM / Dreamer 谱系¶

P4.3 潜在空间世界模型¶

P4.4 视频生成世界模型¶

P4.5 JEPA 非生成式世界模型¶

P4.6 低算力世界模型研究方向¶

P4.7 其他专题章节¶

P5 RL 与动作模仿 (从 DeepMimic 到 GR00T)¶

P5.1 六阶段技术演进¶

P5.2 核心方法论线路¶

P5.3 真机全身控制¶

P5.4 体育与专项技能¶

P5.5 人形基础模型¶

P5.6 仿真基础设施¶

P5.7 动作恢复 (HMR) --- 为真机模仿提供"野外数据"¶

P5.8 可解释 RL (独立专题)¶

P6 数据引擎与部署¶

P6.1 核心数据集¶

P6.2 仿真平台生态¶

P6.3 训练与推理框架¶

P6.4 部署管线¶

P6.5 遥操作数据采集硬件¶

第二部分：规划中的章节 (Future Expansion)¶

高优先级 (计划 2026 H2 启动)¶

中优先级 (计划 2026 H2 - 2027 H1)¶

与 01_数学的依赖¶

与 05_运动控制的依赖¶

与 05_运动控制的交叉 (最密切)¶

与 04_移动机器人规控的交叉¶

与 01_数学的交叉¶

全量仓库 (`[全量仓库]`)¶

主项目 (`[主项目]`)¶