本文档属于 Robotics Tutorial 项目,作者:Pengfei Guo,达妙科技。采用 CC BY 4.0 协议,转载请注明出处。
具身智能方向统一大纲
Embodied Intelligence --- Unified Master Outline
版本: v2.0 | 日期: 2026-05-14
维护者: 机器人文档体系 - 06_具身智能方向
定位: 具身智能 = 连接感知与动作的"大脑层"------以基础模型为核心,将视觉-语言理解转化为物理世界中的持续行动
数据基础: 主项目 5 文件 / ~2,444 行 + 全量仓库 271 个 Markdown 文件 / ~141,000 行;本大纲整合全部内容为统一索引
一句话定义
具身智能研究**如何让智能体在物理世界中感知、推理并持续行动**。
它不是独立的"第七个方向",而是将 01-05 中的数学/编程/SLAM/规控/运动控制能力
与大模型时代的视觉-语言-动作基础模型融合在一起的"最上层集成"。
阅读约定
[全量仓库] = /home/gpf/Nutstore Files/具身智能/
[主项目] = /home/gpf/Nutstore Files/Robotics_Tutorial/06_具身智能/
[05运控] = /home/gpf/Nutstore Files/Robotics_Tutorial/05_运动控制/
- 文件引用使用简写路径,如
[全量仓库]/VLA与VLN综述大纲.md
- 论文引用格式:简称 (venue year),详细信息见各综述附录
快速路径 (Quick-Start Track)
不是每个人都需要完整六大支柱。以下最小路径让你用**最短时间建立可运行的端到端系统**。
路径 QS-A: VLA 最小可用 (~4 周)
Week 1: VLM 基础 (CLIP, PaliGemma, LLaVA) + HF Transformers 加载
→ Week 2: OpenVLA 加载 + SimplerEnv 评估
→ Week 3: LeRobot 环境搭建 + Diffusion Policy Push-T 复现
→ Week 4: OpenVLA-OFT 单任务微调 + 真机/仿真评估
总计 ~4 周,GPU: 单卡 RTX 4090 / A100
成果: 在仿真 (SimplerEnv) 中运行 OpenVLA,能做单任务 pick-and-place。
路径 QS-B: 人形 RL 最小可用 (~3 周)
Week 1: PPO 原理 + Isaac Lab 安装 + Go2 行走训练
→ Week 2: AMP 对抗运动先验 + ProtoMotions 复现
→ Week 3: Humanoid-Gym H1 训练 + sim-to-real 基本流程
总计 ~3 周,GPU: 单卡 RTX 3090+
成果: 在 Isaac Lab 中训练出 H1 步态策略。
路径 QS-C: 世界模型入门 (~3 周)
Week 1: WM.md 第一章 + Dreamer 原理
→ Week 2: DreamerV3 DMControl 训练
→ Week 3: STORM 单卡 3090 复现 (4.3h) / DIAMOND Atari
总计 ~3 周,GPU: 单卡 RTX 3090
成果: 在 DMControl / Atari 上训练出 model-based RL agent。
计算与硬件需求表
GPU 需求速查
| 任务类别 |
最低 GPU |
推荐 GPU |
显存需求 |
典型训练时间 |
备注 |
| VLM 推理 (7B) |
RTX 3060 12GB |
RTX 4090 |
12-16 GB |
--- |
量化后 3060 可跑 |
| VLA 推理 (OpenVLA 7B) |
RTX 4090 |
A100 80GB |
24-48 GB |
--- |
OFT 推理快 26x |
| VLA 微调 (LoRA, 7B) |
RTX 4090 |
A100 80GB |
24-48 GB |
4-12 h |
QLoRA 降至 24GB |
| VLA 预训练 (pi0 3B) |
4x A100 |
8x H100 |
320+ GB |
10K+ GPU hours |
工业级 |
| Diffusion Policy |
RTX 3090 |
RTX 4090 |
12-24 GB |
2-8 h |
Push-T 单卡可跑 |
| Flow Matching (pi0) |
A100 |
H100 |
40-80 GB |
--- |
pi0 推理 ~8ms/step |
| Dreamer / STORM |
RTX 3090 |
RTX 4090 |
12-24 GB |
4-12 h |
STORM 单 3090 仅 4.3h |
| DIAMOND (Atari) |
RTX 3090 |
RTX 4090 |
12-24 GB |
12-24 h |
扩散世界模型 |
| Cosmos 推理 |
A100 |
H100 |
80+ GB |
--- |
Nano 2B 可在 A100 |
| V-JEPA 2 下游 |
RTX 3090 |
RTX 4090 |
12 GB |
冻结特征 |
预训练极贵,下游便宜 |
| 人形 RL (Isaac Lab) |
RTX 3090 |
RTX 4090 |
12-24 GB |
2-8 h |
4096 环境并行 |
| 大规模人形 RL (SONIC) |
8x A100 |
多节点 H100 |
640+ GB |
21K GPU hours |
工业级 |
| LLM 微调 (LoRA, 7B) |
RTX 4090 |
A100 |
24-48 GB |
2-6 h |
QLoRA/Unsloth 降需求 |
| 世界模型推理加速 |
RTX 3090 |
RTX 4090 |
12 GB |
--- |
训练免费方向 |
真机硬件需求
| 方向 |
推荐硬件 |
价格区间 |
替代方案 |
| 单臂操控 |
Franka / UR5e / WidowX |
\(5K-\)70K |
LeRobot SO-100 ($300) |
| 双臂操控 |
ALOHA / Mobile ALOHA |
\(20K-\)100K |
仿真 (Isaac Lab) |
| 人形全身 |
Unitree G1 |
~$16K |
Unitree H1 (~$90K) |
| 移动操控 |
Stretch RE2 / TIAGo |
\(25K-\)80K |
仿真 (Habitat 3.0) |
| 遥操作数据采集 |
GELLO / UMI / Apple Vision Pro |
\(500-\)3500 |
LeRobot 手持采集 |
工业 vs 研究标记
标记体系定义
| 标记 |
含义 |
判定标准 |
| [工业] |
已有工业级产品或部署案例 |
有公司支持、闭环产品、真机批量部署 |
| [研究] |
顶会/顶刊发表,开源可复现 |
同行评审通过,代码开源 |
| [前沿] |
最新预印本,尚未同行评审 |
arXiv 预印本,方法新颖 |
| [基础] |
奠基性工作,已成领域常识 |
引用 1000+,写入教科书 |
按支柱标记总览
| 支柱 |
[工业] |
[研究] |
[前沿] |
[基础] |
| P1 大模型 |
GPT-4, Gemini, Qwen |
LLaMA 3, DeepSeek-V3 |
Qwen3, Llama 4 |
Transformer, BERT |
| P2 VLA/VLN |
pi0/pi0.5, GR00T N1.7, Helix |
OpenVLA/OFT, SpatialVLA |
SmolVLA, MemoryVLA, PixelVLA |
RT-2 |
| P3 扩散/FM |
--- |
Diffusion Policy, FlowPolicy |
MP1 (6.8ms), VFP |
DDPM, Flow Matching |
| P4 世界模型 |
Cosmos, Genie 3 |
DreamerV3, DIAMOND, TD-MPC2 |
V-JEPA 2, R2-Dreamer |
RSSM, PlaNet |
| P5 人形 RL |
Isaac Lab, SONIC+GR00T |
ASAP, HumanPlus, GMT |
BFM-Zero, BeyondMimic |
DeepMimic, AMP |
| P6 数据/部署 |
OXE, LeRobot, Isaac Lab |
Genesis, SimplerEnv |
VLABench |
Open X-Embodiment |
总览路线图
具身智能的知识体系由**六根支柱**支撑,它们之间存在明确的依赖与协作关系:
具身智能六大支柱
|
+-- P1 大模型基础 (LLM / VLM / MLLM)
| 从 Transformer 到多模态推理,是一切具身基础模型的"地基"
| | 视觉-语言能力迁移到机器人
|
+-- P2 VLA 与 VLN (视觉-语言-动作 / 视觉-语言-导航)
| 将 VLM 的感知-推理能力注入动作生成与导航决策
| <-- P1 提供骨干 <-- P3 提供动作头 <-- P5 提供低层执行
|
+-- P3 扩散策略与 Flow Matching
| 生成式动作模型:从 Diffusion Policy 到单步 Flow Matching
| | 为 VLA 提供动作解码头 | 为世界模型提供生成架构
|
+-- P4 世界模型 (从 Dreamer 到 Cosmos)
| 环境的内部表征:感知 -> 预测 -> 规划 -> 控制
| <-- P3 提供扩散架构 --> P5 提供想象训练环境
|
+-- P5 RL 与动作模仿 (从 DeepMimic 到 GR00T)
| 人形机器人的运动能力:步态/全身/灵巧/体育技能
| <-- P4 提供世界模型训练 <-- P2 提供语言条件
|
+-- P6 数据引擎与部署 (OXE / DROID / LeRobot / Sim2Real)
从数据采集到真机部署的全栈工程
^ 服务所有支柱的训练与验证
支柱间依赖关系图
P1 大模型基础
/ \
P2 VLA/VLN P4 世界模型
^ | ^ |
P3 扩散/FM <-> P5 RL/动作模仿
\ /
P6 数据引擎与部署
内容规模统计
| 支柱 |
主要来源文件 |
行数 |
论文数 |
| P1 大模型基础 |
[全量仓库]/大模型全景综述_完整合并版.md |
566 |
115+ |
| P2 VLA 与 VLN |
[全量仓库]/VLA与VLN综述大纲.md |
583 |
100+ |
| P3 扩散/FM |
[全量仓库]/Flow_Matching与Diffusion_Policy综述.md |
461 |
60+ |
| P4 世界模型 |
[全量仓库]/世界模型/WM.md + 40 篇论文笔记 |
27,668 |
40+ |
| P5 RL/动作模仿 |
[全量仓库]/RL人形/ (218 files) |
105,625 |
120+ |
| P6 数据/部署 |
分散在 P2/P5 各综述工具章节 |
--- |
--- |
| 合计 |
271 个 Markdown 文件 |
~141,000 |
400+ |
前置知识依赖矩阵
与 01_数学 的依赖
| 数学主题 |
依赖强度 |
具身智能中的应用 |
01_数学 对应章节 |
| 线性代数 (矩阵分解/特征值) |
必需 |
Transformer 注意力计算、LoRA 低秩分解 |
线性代数核心 |
| 概率论 / 贝叶斯推断 |
必需 |
RSSM 状态估计、扩散模型推导 |
概率与统计 |
| 变分推断 (ELBO/KL) |
必需 |
VAE/Dreamer/DPO 数学推导 |
概率图模型 |
| 随机过程 (SDE/ODE) |
必需 |
Diffusion / Flow Matching 理论基础 |
随机过程 |
| 李群/李代数 (SE(3)/SO(3)) |
推荐 |
SE(3) 扩散策略、位姿表示、等变网络 |
李群与流形 |
| 最优控制 (HJB/PMP) |
推荐 |
MPC/MPPI、世界模型规划、RL 理论 |
最优控制理论 |
| 信息论 (KL/MI/熵) |
推荐 |
KL balancing (Dreamer)、DPO/GRPO 推导 |
信息论基础 |
| 凸优化 |
可选 |
约束策略优化、安全 RL |
优化方法 |
与 05_运动控制 的依赖
| 运控主题 |
依赖强度 |
在具身智能中的位置 |
05_运控 对应文件 |
| 动作模仿理论 (DeepMimic/AMP) |
必需 (P5) |
RL 人形运动能力层的理论基础 |
动作模仿理论.md (455行) |
| RL sim-to-real (域随机化/teacher-student) |
必需 (P5) |
从仿真到真机的核心技术栈 |
MJLab与IsaacLab_RL运控教学文档.md (2409行) |
| 前向/逆运动学 |
推荐 (P2) |
VLA 动作空间理解 |
机械臂核心章节 |
| 力控 / 阻抗控制 |
推荐 (P2) |
VLA 灵巧操控 + 安全接触 |
F 系列 (力控) |
| 全身控制 WBC |
推荐 (P5) |
人形 RL 的物理层约束 |
足式 WBC 章节 |
| 刚体动力学 |
推荐 (P5) |
人形 RL 仿真 |
动力学基础 |
与其他方向的依赖
| 方向 |
依赖主题 |
依赖强度 |
用途 |
| 02_C++基础与进阶 |
PyTorch 工程能力 |
必需 |
所有训练/推理 |
| 02_C++基础与进阶 |
C++/Python 编程 |
必需 |
仿真/部署 |
| 03_SLAM |
视觉定位与建图 |
推荐 |
VLN sim-to-real |
| 03_SLAM |
语义 SLAM / 3D 场景图 |
推荐 |
P2.2 VLN 导航 |
| 04_移动规控 |
MPPI / MPC 规划 |
推荐 |
TD-MPC 世界模型规划 |
| 04_移动规控 |
路径规划 |
推荐 |
VLN 导航规划 |
前置三层口径
- 最低可启动: Transformer 原理 + PyTorch 基本操作 + PPO 原理。可启动 Quick-Start 路径。
- 推荐补齐: + 变分推断 + SDE/ODE 基础 + 动作模仿理论 (05)。适合完整学习 P1-P3。
- 完整前置: + 李群 + 最优控制 + 力控 + WBC。适合 P4-P5 深入研究 + 真机部署。
生态速览 (2026-05)
VLA 模型生态
| 模型 |
机构 |
参数量 |
动作表示 |
骨干 VLM |
许可 |
状态 |
| pi0 |
Physical Intelligence |
3B+300M |
Flow Matching |
PaliGemma 3B |
闭源 |
RSS 2025 |
| pi0.5 |
Physical Intelligence |
--- |
Flow + FAST |
PaliGemma |
闭源 |
CoRL 2025 Oral |
| pi0-FAST |
Physical Intelligence |
--- |
FAST (DCT) |
PaliGemma |
开源权重 |
RSS 2026 Finalist |
| GR00T N1 |
NVIDIA |
2.2B |
Flow (DiT) |
Eagle-2 |
闭源 |
2024 |
| GR00T N1.5 |
NVIDIA |
2.2B+ |
Flow + FLARE |
Eagle-2.5 |
闭源 |
2025 |
| GR00T N1.7 |
NVIDIA |
--- |
Flow |
Eagle-2.5+ |
Apache 2.0 |
2025 late |
| OpenVLA |
Berkeley |
7B |
离散分箱 |
Prismatic |
MIT |
CoRL 2024 |
| OpenVLA-OFT |
Berkeley |
7B |
连续并行 |
Prismatic |
MIT |
arXiv 2502 |
| Octo |
Berkeley |
--- |
Diffusion |
Transformer |
MIT |
RSS 2024 |
| RT-2 |
Google DeepMind |
55B |
离散分箱 |
PaLI-X/PaLM-E |
闭源 |
CoRL 2023 |
| SpatialVLA |
--- |
--- |
自适应网格 |
--- |
开源 |
2025 |
| SmolVLA |
HuggingFace |
450M |
--- |
--- |
Apache 2.0 |
2025 |
| Helix |
Figure AI |
--- |
--- |
--- |
闭源 |
2025 |
| CogACT |
--- |
--- |
Diffusion |
VLM |
开源 |
2024 |
| RDT-1B |
--- |
1.2B |
Diffusion |
--- |
开源 |
ICLR 2025 |
| HPT |
--- |
--- |
异构 |
Transformer |
开源 |
2024 |
| MemoryVLA |
--- |
--- |
--- |
--- |
--- |
ICLR 2026 |
| PixelVLA |
--- |
--- |
--- |
--- |
--- |
ICLR 2026 |
世界模型生态
| 模型 |
机构 |
范式 |
关键特性 |
状态 |
| Genie 3 |
DeepMind |
视频生成 |
24fps 720p 实时交互;Waymo 采用 |
2025.08 |
| Cosmos Predict 2.5 |
NVIDIA |
视频生成 |
Physical AI 基础设施;2B/14B |
2025 |
| Cosmos Reason 2 |
NVIDIA |
推理 |
安全/社会推理 safety-critical |
2025 |
| DreamerV3 |
Hafner |
RSSM |
Nature 2025;150+ 任务固定超参 |
主流 |
| TD-MPC2 |
MIT |
潜在+MPPI |
317M / 104 任务统一 |
ICLR 2024 |
| V-JEPA 2 |
Meta |
JEPA |
物理直觉 98%;不生成视频 |
ICLR 2026 |
| DIAMOND |
--- |
Diffusion |
NeurIPS 2024 Spotlight;Atari |
2024 |
| R2-Dreamer |
--- |
RSSM |
移除解码器 |
ICLR 2026 |
| DINO-WM |
--- |
JEPA |
冻结 DINOv2 特征 |
ICML 2025 |
人形 RL 生态
| 工作 |
机构 |
平台 |
关键特性 |
状态 |
| SONIC |
NVIDIA GEAR |
通用 |
42M 参数,700h,21K GPU hours |
2025 |
| ASAP |
--- |
G1 |
仿真-真实对齐;敏捷技能 |
RSS 2025 |
| GMT |
--- |
G1 |
通用运动追踪 |
arXiv 2026 |
| HumanPlus |
Stanford |
H1 |
影子模仿;从人类视频学 |
CoRL 2024 |
| HOVER |
NVIDIA |
Unitree |
通用全身控制器 |
ICRA 2025 |
| BFM-Zero |
--- |
--- |
无监督 RL 行为基础模型 |
ICLR 2026 |
| Kimodo |
NVIDIA |
--- |
Text-to-Motion diffusion + SONIC |
2026 |
| LATENT |
--- |
G1 |
持续多拍网球对打 |
arXiv 2026 |
| HUSKY |
--- |
G1 |
户外滑板 |
2026 |
数据与部署生态
| 项目 |
类型 |
规模/特性 |
状态 |
| Open X-Embodiment |
数据集 |
1M+ episodes, 22 种机器人 |
ICRA 2024 Best Paper |
| DROID |
数据集 |
76K 轨迹, 564 场景, 13 机构 |
2024 |
| LeRobot v0.4 |
框架 |
pi0.5/GR00T/ACT/DP 内置 |
HuggingFace |
| Isaac Lab 3.0 |
仿真 |
GPU 并行 RL + GR00T-Mimic |
NVIDIA |
| Genesis |
仿真 |
10-80x 快于 Isaac;全可微 |
开源 |
| SimplerEnv |
评估 |
VLA 策略仿真评估桥梁 |
开源 |
| RLinf |
RL框架 |
PPO/GRPO/SAC;VLA+RL |
开源 |
第一部分:六大支柱详述
P1 大模型基础 (LLM / VLM / MLLM)
定位: 具身智能的"认知层地基"。所有 VLA、VLN、世界模型、Agent 的上层能力都建立在预训练基础模型之上。
核心参考: [全量仓库]/大模型全景综述_完整合并版.md (566行)
对应主项目: [主项目]/大模型全景综述.md + 大模型全景综述_Phase10_PyTorch训练部署项目.md
标记: [基础] + [工业]
P1.1 LLM 架构与 Scaling Laws
| 主题 |
关键工作 |
状态标记 |
| Transformer 原始架构 |
Attention Is All You Need (NeurIPS 2017) |
[基础] |
| Scaling Laws |
Kaplan (2020) -> Chinchilla (NeurIPS 2022) |
[基础] |
| 开源 LLM 族谱 |
LLaMA 1/2/3/4, Qwen 1/2/2.5/3, DeepSeek-V2/V3 |
[研究] |
| MoE 稀疏架构 |
GShard -> Switch -> Mixtral -> DeepSeekMoE |
[研究] |
| 高效注意力 |
FlashAttention 1/2/3, RoPE, Mamba/Mamba-2 |
[工业] |
| 预训练数据工程 |
C4, The Pile, FineWeb, RefinedWeb |
[工业] |
对具身智能的意义: VLA 模型的语言骨干 (PaliGemma, Eagle, Llama) 直接来自这些 LLM 架构。理解 Transformer 内部机制是理解所有后续模型的前提。
P1.2 参数高效微调与对齐
| 主题 |
关键工作 |
状态标记 |
| LoRA / QLoRA / DoRA |
ICLR 2022 / NeurIPS 2023 / ICML 2024 |
[工业] |
| RLHF 三阶段 |
InstructGPT (NeurIPS 2022) -> ChatGPT |
[基础] |
| DPO 无 PPO 对齐 |
NeurIPS 2023 |
[研究] |
| GRPO |
DeepSeekMath (arXiv 2024);现已用于 VLA 的 RL 微调 |
[前沿] |
对具身智能的意义: VLA 的 RL 微调 (如 pi-0.6 RECAP, VLA-RL) 直接复用 GRPO/DPO 技术栈。
P1.3 视觉基础模型与多模态
| 主题 |
关键工作 |
状态标记 |
| ViT / Swin / DINOv2 |
ICLR 2021 / ICCV 2021 / TMLR 2024 |
[基础] |
| CLIP / SigLIP |
ICML 2021 / ICCV 2023 |
[基础] |
| SAM / SAM 2 |
ICCV 2023 / ICLR 2025 |
[工业] |
| VLM: LLaVA -> Qwen2-VL -> InternVL 2.5 |
NeurIPS 2023 -> 2024 |
[研究] |
| 扩散生成: DDPM -> LDM -> DiT -> Sora -> FLUX |
2020-2024 |
[基础] |
对具身智能的意义: SigLIP + DINOv2 组合是 OpenVLA 的视觉编码器;PaliGemma (Google) 是 pi0 系列的骨干;Eagle (NVIDIA) 是 GR00T 系列的骨干。VLM 中的图像理解能力直接迁移为 VLA 的场景感知。
P1.4 推理与 Agent
| 主题 |
关键工作 |
状态标记 |
| CoT / ToT / Self-Consistency |
NeurIPS 2022 / 2023 |
[基础] |
| DeepSeek-R1: 纯 RL 长链推理 |
Nature 2025 |
[研究] |
| ReAct -> SWE-Agent -> Claude Code |
2023-2025 |
[工业] |
对具身智能的意义: 具身思维链 (ECoT) 将 CoT 推理引入 VLA,使机器人输出动作前先进行多步推理,泛化任务提升 28%。Agent 范式 (ReAct 式推理+行动交替) 是导航和长程任务规划的核心协议。
P1.5 PyTorch 训练部署全栈
详见 [主项目]/大模型全景综述_Phase10_PyTorch训练部署项目.md
研究者最小栈:
训练: PyTorch + Transformers + PEFT + Accelerate + DeepSpeed
微调: LLaMA-Factory / (Unsloth + TRL)
对齐: TRL (DPO/GRPO) / OpenRLHF (全量 PPO)
量化: BitsAndBytes -> GPTQ/AWQ
部署: vLLM / SGLang
具身: LeRobot + Genesis/Isaac Lab
P2 VLA 与 VLN (视觉-语言-动作 / 视觉-语言-导航)
定位: 具身智能的"核心战场"------将 VLM 的感知-推理能力直接转化为动作输出
核心参考: [全量仓库]/VLA与VLN综述大纲.md (583行)
ICLR 2026 信号: VLA 投稿从上年 9 篇暴增至 164 篇,标志该方向进入绝对主流
标记: [研究] -> [工业] 快速过渡
P2.1 VLA 模型谱系
技术演进时间线
| 阶段 |
时间 |
特征 |
代表工作 |
| 技术奠基 |
2023 |
扩散策略 + 动作分块 + 语言表征 |
Diffusion Policy (RSS), ACT/ALOHA (RSS) |
| 范式开创 |
2022-2023 |
VLM->VLA + 大规模真实数据 |
RT-1 (RSS), RT-2 (CoRL) |
| 数据统一 |
2023-2024 |
跨具身数据生态 + 开源基线 |
Open X-Embodiment (ICRA), Octo (RSS), OpenVLA (CoRL) |
| 灵巧化 |
2024-2025 |
Flow Matching + 高频控制 + 双臂 |
pi0, pi0-FAST, GR00T N1, RDT-1B |
| 泛化爆发 |
2025-2026 |
开放世界 + 3D + 推理 + 记忆 |
pi0.5 (CoRL Oral), SpatialVLA, MemoryVLA |
核心 VLA 模型速查
| 模型 |
机构 |
参数量 |
动作表示 |
骨干 VLM |
关键突破 |
| RT-2 |
Google DeepMind |
55B |
离散分箱 |
PaLI-X/PaLM-E |
开创 VLM->VLA 范式 |
| pi0 |
Physical Intelligence |
3B+300M |
Flow Matching |
PaliGemma 3B |
首将 FM 引入 VLA;50Hz |
| pi0.5 |
Physical Intelligence |
--- |
Flow + FAST |
PaliGemma |
开放世界泛化;双层推理 |
| OpenVLA |
Berkeley |
7B |
离散分箱 |
Prismatic |
首个完全开源 7B VLA |
| OpenVLA-OFT |
Berkeley |
7B |
连续并行 |
Prismatic |
76.5%->97.1% (LIBERO);26x 吞吐 |
| GR00T N1 |
NVIDIA |
2.2B |
Flow (DiT) |
Eagle-2 |
人形双系统架构 |
| GR00T N1.5 |
NVIDIA |
2.2B+ |
Flow + FLARE |
Eagle-2.5 |
对齐训练优化 |
| GR00T N1.7 |
NVIDIA |
--- |
Flow |
Eagle-2.5+ |
Cosmos 世界模型集成;Apache 2.0 |
| Octo |
Berkeley |
--- |
Diffusion |
Transformer |
开源通用策略;800K 轨迹 |
| SpatialVLA |
--- |
--- |
自适应网格 |
--- |
3D 位置编码;110 万 episode |
| SmolVLA |
HuggingFace |
450M |
--- |
--- |
轻量紧凑;端侧可部署 |
| Helix |
Figure AI |
--- |
--- |
--- |
全身人形上半身控制 |
| CogACT |
--- |
--- |
Diffusion |
VLM |
认知-动作解耦;+35% over OpenVLA |
| RDT-1B |
--- |
1.2B |
Diffusion |
--- |
双臂操控基础模型 |
| HPT |
--- |
--- |
异构 |
Transformer |
50+ 数据集统一预训练 |
动作表示方法对比
| 方法 |
原理 |
推理速度 |
多模态能力 |
代表模型 |
标记 |
| 离散分箱 |
每维 256 bins -> 文本 token |
快 |
弱 |
RT-2, OpenVLA |
[基础] |
| Flow Matching |
噪声->动作的 ODE 速度场 |
3-10 步 / 8-20ms |
良好 |
pi0, GR00T N1 |
[工业] |
| Diffusion Policy |
潜空间迭代去噪 |
10-50 步 / ~160ms |
强 |
Octo, CogACT |
[研究] |
| FAST (DCT) |
频域压缩为离散 token |
快 |
良好 |
pi0-FAST |
[研究] |
| MeanFlow 单步 |
平均速度场 1-NFE |
1 步 / 6.8ms |
良好 |
MP1 |
[前沿] |
2026 ICLR VLA 爆发趋势
七大主题:Discrete Diffusion VLA、Reasoning VLA / Embodied CoT、新型 Action Tokenizer (FAST 变体)、Efficient VLA (SmolVLA 450M)、RL for VLA、VLA + Video Prediction、Evaluation & Benchmarking。
P2.2 VLN 方法演进
技术演进时间线
| 阶段 |
时间 |
特征 |
代表工作 |
| 基线期 |
2018 |
LSTM + attention |
Seq2Seq, Speaker-Follower |
| 预训练期 |
2020-2021 |
自监督 + Transformer |
PREVALENT, HAMT, VLN-BERT |
| 图结构期 |
2022-2023 |
拓扑地图 + BEV |
DUET, ETPNav, BEVBert |
| LLM 集成期 |
2023-2024 |
零样本推理 + 常识 |
NavGPT, MapGPT, L3MVN |
| VLA 统一期 |
2024-2025 |
视频理解 + 端到端 |
NaVid (RSS), NaVILA, Uni-NaVid |
VLN 核心技术
| 技术 |
描述 |
代表方法 |
标记 |
| 拓扑地图 |
实时构建导航图 |
DUET, ETPNav |
[研究] |
| 前沿探索 |
VLM 排序候选前沿 |
VLFM, L3MVN |
[研究] |
| 3D 场景图 |
层次化语义空间表征 |
SayNav, SG-Nav |
[前沿] |
| BEV 表征 |
鸟瞰视角度量地图 |
BEVBert |
[研究] |
P2.3 具身基础模型
| 模型 |
venue |
核心贡献 |
标记 |
| PaLM-E |
ICML 2023 |
562B 参数具身多模态 LM;ViT 感知注入 PaLM;跨领域正迁移 |
[研究] |
| EmbodiedGPT |
NeurIPS 2024 |
具身思维链预训练;EgoCOT 数据集;第一人称视频学习规划 |
[研究] |
| LEO |
ICML 2024 |
3D 世界通才智能体;3D 视觉-语言-动作对齐 |
[研究] |
| SPA |
ICLR 2025 |
3D 空间感知表征;可微神经渲染;268 任务最全评估 |
[研究] |
| RoboPoint |
CoRL 2024 |
VLM 关键点可供性预测;超 GPT-4o 21.8% |
[研究] |
| ECoT |
arXiv 2024 |
具身思维链推理;VLA 动作前多步推理;泛化 +28% |
[前沿] |
详见 [全量仓库]/VLA与VLN综述大纲.md 第三部分
P2.4 VLA 相关顶会荣誉精选
| 论文 |
会议 |
荣誉 |
| Diffusion Policy |
RSS 2023 |
高引用里程碑 |
| Open X-Embodiment / RT-X |
ICRA 2024 |
Best Paper |
| pi0.5 |
CoRL 2025 |
Oral |
| FEAST |
RSS 2025 |
Outstanding Paper |
| FAST |
RSS 2026 |
Award Finalist |
| Reactive Diffusion Policy |
RSS 2026 |
Award Finalist |
完整 37 条记录见 [全量仓库]/VLA与VLN综述大纲.md 第八节
P3 扩散策略与 Flow Matching
定位: 生成式动作模型------VLA 的"动作解码头"与独立策略学习的核心范式
核心参考: [全量仓库]/Flow_Matching与Diffusion_Policy综述.md (461行)
标记: [基础] -> [研究]
P3.1 基础理论对比
| 范式 |
训练目标 |
推理步数 |
推理时间 |
代表工作 |
GPU 需求 |
| DDPM/SDE |
预测噪声 epsilon |
50-1000 |
秒级 |
Diffusion Policy |
RTX 3090 |
| DDIM |
预测噪声 epsilon |
10-20 |
~160ms |
--- |
RTX 3090 |
| Flow Matching/ODE |
回归速度场 v |
3-10 |
~8-20ms |
pi0, GR00T N1 |
A100 |
| Consistency Flow |
速度场 + 自一致性 |
1-2 |
~12ms |
FlowPolicy |
RTX 4090 |
| MeanFlow |
平均速度场 |
1 (1 NFE) |
6.8ms |
MP1 |
RTX 4090 |
P3.2 Diffusion Policy 奠基
Diffuser (ICML 2022, 轨迹级扩散规划) -> Diffusion Policy (RSS 2023, action chunking, +46.9%) -> Decision Diffuser (ICLR 2023, 条件扩散决策)。
P3.3 Diffusion 在 VLA 中的应用
Octo (RSS 2024)、CogACT (arXiv 2024)、RDT-1B (ICLR 2025, 1.2B)、DexGraspVLA (AAAI 2026 Oral)、Equivariant DP (CoRL 2024 Finalist)。
P3.4 Flow Matching 在 VLA 中的应用
pi0 (RSS 2025)、pi0.5 (CoRL 2025 Oral, 双层架构)、pi-0.6 (RECAP, RL+FM)、GR00T N1/N1.5/N1.7。
P3.5 独立 Flow Matching 策略学习前沿
| 工作 |
venue |
关键突破 |
标记 |
| FlowPolicy |
AAAI 2025 Oral |
一致性 FM + 3D 点云;7x 加速 |
[研究] |
| ManiFlow |
CoRL 2025 |
DiT-X 流形感知;1-2 步;真机 98.3% |
[研究] |
| MP1 |
AAAI 2026 |
MeanFlow 单步;6.8ms / 19x 加速 |
[前沿] |
| VFP |
arXiv 2025 |
变分 FM;+61.7% over FlowPolicy |
[前沿] |
P3.6 Flow Matching + RL 融合
核心难题:FM 无解析 log-probability。三条解决路线:优势加权回归 (FPO)、在线 RL 近似 (ReinFlow, NeurIPS 2025)、条件监督学习 (RECAP / pi-0.6)。
P3.7 推理加速演进
DDPM 1000步 -> DDIM 10-20步 -> FM 3-10步 -> Consistency 1-2步 -> MeanFlow 1步 (6.8ms)
P3.8 技术演进主线
三大收敛方向:VLA 标配化 (FM head 取代 diffusion head)、单步实时化 (6.8ms 工业级控制)、RL 对齐化 (生成式策略 + RL 微调)。
P4 世界模型 (从 Dreamer 到 Cosmos)
定位: 环境的内部表征------智能体在"想象"中预测未来、评估动作、学习策略
核心参考: [全量仓库]/世界模型/WM.md (15 章) + papers/ (20+ 论文笔记)
对应主项目: [主项目]/WM.md
标记: [研究] + [前沿]
P4.1 四大架构范式
| 范式 |
代表 |
优势 |
劣势 |
GPU 需求 |
| RSSM |
Dreamer 系列 |
训练高效,长程稳定 |
重建质量有限 |
RTX 3090 |
| Transformer |
IRIS, STORM, TD-MPC2 |
序列建模强,可扩展 |
长序列成本高 |
RTX 3090-4090 |
| Diffusion |
DIAMOND, Cosmos, Sora |
视觉质量极高 |
推理慢,训练贵 |
A100+ |
| JEPA |
V-JEPA 2, DINO-WM |
抽象语义,计算高效 |
不生成可视化 |
下游 RTX 3090 |
PlaNet (ICML 2019, 提出 RSSM) -> DreamerV1 (ICLR 2020, CEM->策略学习) -> DreamerV2 (ICLR 2021, 首个 model-based 达人类 Atari) -> DreamerV3 (Nature 2025, 固定超参 150+ 任务) -> R2-Dreamer (ICLR 2026, 移除解码器)。
论文笔记: [全量仓库]/世界模型/papers/PlaNet_ICML2019/ 至 DreamerV3_Nature2025/
P4.3 潜在空间世界模型
TD-MPC (ICML 2022) -> TD-MPC2 (ICLR 2024, 317M/104 任务);IRIS (ICLR 2023, LLM 式自回归);STORM (NeurIPS 2023, 单 3090 / 4.3h);C-SWM (NeurIPS 2019, 物体中心 GNN)。
论文笔记: [全量仓库]/世界模型/papers/TD-MPC_ICML2022/ 等
P4.4 视频生成世界模型
| 工作 |
特点 |
标记 |
| Sora (OpenAI 2024) |
分钟级长视频;"World Simulator" |
[工业] |
| Cosmos / Cosmos-Predict2.5 (NVIDIA) |
Physical AI 基础设施;2B/14B |
[工业] |
| Cosmos Reason 2 (NVIDIA) |
安全/社会推理;safety-critical 场景 |
[前沿] |
| Genie 1 (ICML 2024 Oral) |
11B;无监督潜在动作 |
[研究] |
| Genie 2 (DeepMind 2024.12) |
3D 交互世界 |
[研究] |
| Genie 3 (DeepMind 2025.08) |
720p / 24fps 实时交互;Waymo 已采用 |
[工业] |
| GameNGen (ICLR 2025) |
纯神经网络游戏引擎 |
[研究] |
| UniSim (ICLR 2024 Oral) |
万能模拟器;零样本 sim-to-real |
[研究] |
核心争论: "视频生成 =/= 世界理解"。ByteDance ICML 2025 实证表明视频模型 OOD 失败;V-JEPA 2 物理直觉 98% 但不生成视频。争论 2025 年仍未解决。
论文笔记: [全量仓库]/世界模型/papers/Cosmos_NVIDIA2025/, Genie1_ICML2024/, HowFarVideoFromWM_ICML2025/
P4.5 JEPA 非生成式世界模型
LeCun 愿景 (2022) -> I-JEPA (CVPR 2023) -> V-JEPA (2024) -> V-JEPA 2 (ICLR 2026, 98% 物理直觉) -> DINO-WM (ICML 2025)。
论文笔记: [全量仓库]/世界模型/papers/I-JEPA_CVPR2023/, V-JEPA2_ICLR2026/, DINO-WM_ICML2025/
P4.6 低算力世界模型研究方向
详见 [主项目]/WM.md 全文 --- 系统梳理"不吃算力"方向
| 方向 |
代表工作 |
算力评估 |
适合博士生 |
| 推理加速 / Token Caching |
WorldCache, HERO, EasyCache |
仅推理 |
非常适合 |
| KV Cache 量化 |
QVG, Fast AR Video |
仅推理 |
非常适合 |
| 幻觉检测与缓解 |
WM 幻觉分析方法 |
仅推理/少量微调 |
适合 |
| 可解释性分析 |
WhatDoWMLearn |
少量微调 |
适合 |
| JEPA 冻结特征下游 |
DINO-WM, V-JEPA 2 下游 |
仅推理 |
非常适合 |
| 规划优化 / Test-Time Compute |
并行梯度规划 |
少量训练 |
适合 |
P4.7 其他专题章节
| 章节 |
覆盖内容 |
在 WM.md 中的位置 |
| 扩散世界模型 |
DIAMOND (NeurIPS 2024 Spotlight) |
第六章 |
| 自动驾驶世界模型 |
GAIA-1, OccWorld, Cosmos |
第七章 |
| 具身/机器人世界模型 |
Navigation WM (CVPR 2025), Unified WM (RSS 2026) |
第八章 |
| LLM 作为世界模型 |
RAP (EMNLP 2023), LATS (ICML 2024) |
第九章 |
| 推理优化与加速 |
量化/蒸馏/并行 |
第十章 |
| 幻觉检测与缓解 |
--- |
第十一章 |
| 可解释性与分析 |
--- |
第十二章 |
| JEPA 低算力下游 |
--- |
第十三章 |
| 规划 + Test-Time Compute |
--- |
第十四章 |
| 安全、评估与组合泛化 |
--- |
第十五章 |
完整内容: [全量仓库]/世界模型/WM.md Part B (第十至十六章)
P5 RL 与动作模仿 (从 DeepMimic 到 GR00T)
定位: 人形机器人的运动能力层------让物理躯体做出敏捷、稳健、多样的动作
核心参考: [全量仓库]/RL人形/rl.md + 人形机器人RL动作模仿与生成综述_2026_最终版.md
对应主项目: [主项目]/人形机器人RL动作模仿与生成综述_2026_最终版.md
交叉引用: [05运控]/动作模仿理论.md (455行)
标记: [研究] + [工业]
P5.1 六阶段技术演进
| Phase |
时间 |
特征 |
代表工作 |
主战场 |
| 1 史前 |
<=2017 |
物理角色动画奠基 |
SAMCON, DeepLoco |
SIGGRAPH |
| 2 开端 |
2018-2020 |
DRL 动作模仿 |
DeepMimic, MCP, AMASS, Isaac Gym |
SIGGRAPH/NeurIPS |
| 3 对抗先验 |
2021-2022 |
GAN 判别器替代 MSE |
AMP, ASE, ControlVAE |
SIGGRAPH |
| 4 大规模 |
2022-2023 |
全 AMASS + 扩散生成 |
PHC, PULSE, MDM, Vid2Player3D |
ICCV/ICLR/SIGGRAPH |
| 5 真机爆发 |
2023-2024 |
从仿真到 Unitree H1/G1 |
H2O, ExBody, HumanPlus, HOVER |
CoRL/RSS/ICRA |
| 6 整合泛化 |
2024-2026 |
敏捷全身 + 基础模型 |
ASAP, GMT, SONIC, BFM-Zero |
RSS/ICLR/ICRA |
P5.2 核心方法论线路
动作模仿线:
DeepMimic (SIGGRAPH 2018) -> AMP/ASE (SIGGRAPH 2021-22)
-> PHC/PULSE (ICCV 2023 / ICLR 2024) -> H2O/ExBody (CoRL/RSS 2024)
-> ASAP/SONIC/GMT (RSS 2025-26)
动作生成线:
HumanML3D (CVPR 2022) -> MDM (ICLR 2023) -> MoMask (CVPR 2024)
-> CLoSD (ICLR 2025) -> BeyondMimic (2025)
P5.3 真机全身控制
| 工作 |
venue |
平台 |
特点 |
标记 |
| H2O / OmniH2O |
IROS 2024 / CoRL 2024 |
H1/G1 |
全身遥操 + 学习 |
[研究] |
| ExBody / ExBody2 |
RSS 2024 |
H1 |
大规模动捕表达性全身 |
[研究] |
| HumanPlus |
CoRL 2024 |
H1 |
影子模仿;从人类视频学 |
[研究] |
| HOVER |
ICRA 2025 |
Unitree |
NVIDIA 通用全身控制器 |
[工业] |
| ASAP |
RSS 2025 |
G1 |
仿真-真实对齐;敏捷技能 |
[研究] |
| TWIST / TWIST2 |
CoRL 2025 / ICRA 2026 |
多平台 |
便携全身遥操系统 |
[研究] |
| GMT |
arXiv 2026 |
G1 |
通用运动追踪 |
[前沿] |
P5.4 体育与专项技能
| 领域 |
代表工作 |
最高成就 |
标记 |
| 足球 |
OP3 Soccer (Science Robotics 2024) |
真机零样本 1v1 |
[工业] |
| 网球 |
LATENT (arXiv 2026) |
G1 持续多拍对打 |
[前沿] |
| 篮球 |
SkillMimic (CVPR 2025 Highlight) |
仿真运球/投篮 |
[研究] |
| 羽毛球 |
Legged Badminton (Science Robotics 2025) |
足式操作器真机 |
[工业] |
| 跑酷 |
Humanoid Parkour (CoRL 2024) |
G1 真机跑酷 |
[研究] |
| 滑板 |
HUSKY (2026) |
G1 户外滑板 |
[前沿] |
| 平衡 |
HuB (CoRL 2025) |
G1 极端单腿平衡 |
[研究] |
| 格斗 |
KungfuBot (NeurIPS 2025) |
全身武术技能 |
[研究] |
P5.5 人形基础模型
| 工作 |
特点 |
标记 |
| SONIC (NVIDIA GEAR) |
42M 参数,700 小时,21K GPU 小时 |
[工业] |
| BFM-Zero (ICLR 2026) |
无监督 RL 行为基础模型 |
[研究] |
| GR00T N1/N1.5/N1.7 |
VLA 人形通用;Apache 2.0 |
[工业] |
| Helix (Figure AI) |
全身人形上半身控制;闭源 |
[工业] |
| WholeBodyVLA (ICLR 2026) |
端到端移动操作 VLA |
[研究] |
| Kimodo (NVIDIA 2026) |
Text-to-Motion diffusion + SONIC |
[前沿] |
P5.6 仿真基础设施
| 框架 |
特点 |
GPU 需求 |
标记 |
| Isaac Lab 3.0 |
GPU 并行 RL;Isaac Sim 渲染;Unitree/Franka 原生 |
RTX 3090+ |
[工业] |
| MuJoCo Playground |
JAX 加速;足式/操控 |
CPU / GPU |
[研究] |
| mjlab |
Isaac Lab API + MuJoCo Warp GPU |
RTX 3090+ |
[前沿] |
| Genesis |
10-80x 快于 Isaac;全可微;刚体/MPM/SPH/FEM |
RTX 3090+ |
[研究] |
| ProtoMotions |
NVIDIA 统一人形仿真;AMP/ASE/MaskedMimic |
RTX 3090+ |
[工业] |
| Humanoid-Gym |
人形 RL + sim-to-real;零样本迁移 |
RTX 3090+ |
[研究] |
| HumanoidVerse |
多仿真器统一框架 |
RTX 3090+ |
[研究] |
| TienKung-Lab |
全尺寸人形 RL;AMP + 周期步态 |
RTX 3090+ |
[研究] |
P5.7 动作恢复 (HMR) --- 为真机模仿提供"野外数据"
| 工作 |
venue |
特点 |
标记 |
| HMR |
CVPR 2018 |
端到端人体形状与姿态 |
[基础] |
| WHAM |
CVPR 2024 |
世界坐标下的精确运动 |
[研究] |
| TRAM |
ECCV 2024 |
全局轨迹与运动 |
[研究] |
| GVHMR |
SIGGRAPH Asia 2024 |
重力-视角坐标;精度最高 |
[研究] |
P5.8 可解释 RL (独立专题)
[全量仓库]/强化学习/ (9 files, 8,029行): 可解释 RL 综述、SHAP 分析、ICML 论文解读、代码项目
P6 数据引擎与部署
定位: 从数据采集到真机部署的全栈工程------服务所有其他支柱
标记: [工业] + [研究]
P6.1 核心数据集
| 数据集 |
规模 |
特点 |
标记 |
| Open X-Embodiment |
1M+ 轨迹, 22 种机器人 |
ICRA 2024 Best Paper |
[工业] |
| DROID |
76K 轨迹, 564 场景 |
13 机构分布式采集 |
[研究] |
| BridgeData V2 |
60K 轨迹 |
WidowX 平台 |
[研究] |
| CALVIN |
24h play 数据 |
语言条件长程操控 |
[研究] |
| LIBERO |
130 任务 |
终身/迁移评估 |
[研究] |
| AMASS |
万级 mocap |
人形 RL 的"ImageNet" |
[基础] |
| LeRobot 社区 |
持续增长 |
标准化 Parquet+MP4 |
[工业] |
P6.2 仿真平台生态
| 平台 |
特点 |
GPU 需求 |
适用方向 |
标记 |
| Isaac Lab 3.0 |
GPU 并行 RL;真实渲染 |
RTX 3090+ |
RL 全方向 |
[工业] |
| Genesis |
10-80x 快;全可微 |
RTX 3090+ |
高速仿真 |
[研究] |
| Habitat 3.0 |
人-机协作;社交导航 |
RTX 3060+ |
VLN |
[研究] |
| ManiSkill3 |
30,000+ FPS |
RTX 3090+ |
大规模操控 |
[研究] |
| SimplerEnv |
仿真评估桥梁 |
RTX 3060+ |
VLA 策略评估 |
[研究] |
| BEHAVIOR-1K |
1000 活动;液体/变形体 |
RTX 3090+ |
通用家务 |
[研究] |
P6.3 训练与推理框架
| 框架 |
定位 |
标记 |
| LeRobot |
HuggingFace 机器人学习;pi0.5/GR00T/ACT/DP 内置 |
[工业] |
| RLinf |
具身 AI RL 基础设施;PPO/GRPO/SAC;VLA+RL |
[研究] |
| OpenVLA |
开源 VLA 训练;FSDP + Flash-Attention |
[研究] |
| VLABench |
VLA 评估基准 |
[研究] |
P6.4 部署管线
数据采集 -> 标准化 (LeRobot Parquet+MP4) -> VLA 预训练
-> 仿真验证 (Isaac Lab + SimplerEnv) -> RL 微调 (RLinf-VLA)
-> 真机部署 (ROS 2 + sim2real)
P6.5 遥操作数据采集硬件
| 设备 |
价格 |
特点 |
适用场景 |
| GELLO |
~$500 |
3D 打印关节映射 |
单臂操控 |
| UMI |
~$300 |
手持式,无需校准 |
快速采集 |
| Apple Vision Pro |
~$3500 |
手部追踪高精度 |
双手操控 |
| LeRobot SO-100 |
~$300 |
低成本教育 |
入门 |
| ALOHA 设备 |
~$20K |
双臂全栈 |
双臂研究 |
第二部分:规划中的章节 (Future Expansion)
以下章节尚未拆分独立教学文件,属于规划阶段。按优先级排列。
高优先级 (计划 2026 H2 启动)
| 章节编号 |
主题 |
预计篇幅 |
预计周数 |
前置依赖 |
| E01 |
VLA 入门实战: OpenVLA/OFT 从安装到微调 |
~400 行 |
2 周 |
P1, P2 理论 |
| E02 |
Diffusion Policy 从零推导到 Push-T 复现 |
~500 行 |
2 周 |
P3 理论 |
| E03 |
LeRobot 全栈教程: 数据采集->训练->部署 |
~600 行 |
3 周 |
E01 |
| E04 |
Isaac Lab 人形 RL 入门到 H1 真机 |
~500 行 |
3 周 |
P5 理论 |
中优先级 (计划 2026 H2 - 2027 H1)
| 章节编号 |
主题 |
预计篇幅 |
预计周数 |
前置依赖 |
| E05 |
Flow Matching 数学推导与 VLA 动作头实现 |
~400 行 |
2 周 |
P3, 01_数学 (SDE/ODE) |
| E06 |
DreamerV3 源码精读与 DMControl 实验 |
~400 行 |
2 周 |
P4 理论 |
| E07 |
VLN 导航实战: Habitat + NaVid |
~400 行 |
2 周 |
P2.2, 03_SLAM |
| E08 |
人形 RL 进阶: AMP/ASE/PHC 系列 |
~500 行 |
3 周 |
E04, 05_运控/动作模仿 |
低优先级 (视社区需求启动)
| 章节编号 |
主题 |
预计篇幅 |
预计周数 |
前置依赖 |
| E09 |
世界模型低算力研究指南 |
~400 行 |
2 周 |
P4 |
| E10 |
VLA + RL 微调: GRPO/FPO/RECAP |
~400 行 |
2 周 |
E01, P3.6 |
| E11 |
Sim-to-Real 全栈: 域随机化->teacher-student->真机 |
~500 行 |
3 周 |
E04, 05_运控 |
| E12 |
具身安全: Physical AI Safety 框架 |
~300 行 |
2 周 |
P4, P5 |
| E13 |
多机器人 VLA 与协作 |
~300 行 |
2 周 |
E01, 04_移动规控 |
第三部分:交叉引用地图
与 05_运动控制 的交叉 (最密切)
05 提供"身体",06 提供"大脑"。
| 交叉点 |
05 位置 |
06 位置 |
方向 |
| 动作模仿理论 |
[05运控]/动作模仿理论.md |
P5 RL/动作模仿 |
05->06 |
| RL sim-to-real |
[05运控]/MJLab与IsaacLab_RL运控教学文档.md |
P5.7 仿真基础设施 |
05->06 |
| VLA 力控 |
05 阻抗/力控 |
P2.1 VLA 灵巧化 |
05->06 |
| 全身控制 WBC |
05 足式 WBC 数学 |
P5.3 学习策略 |
05->06 |
| VLA 动作空间 |
05 前向/逆运动学 |
P2.1 动作表示 |
05->06 |
与 04_移动机器人规控 的交叉
| 交叉点 |
04 位置 |
06 位置 |
方向 |
| MPPI + learned dynamics |
04 规控方法论 |
P4.3 TD-MPC/TD-MPC2 |
04->06 |
| 导航规划 |
04 路径规划 |
P2.2 VLN |
04->06 |
与 03_SLAM 的交叉
| 交叉点 |
03 位置 |
06 位置 |
方向 |
| 视觉定位 |
03 视觉里程计 |
P2.2 VLN sim-to-real |
03->06 |
| 语义地图 |
03 语义 SLAM |
P2.2 3D 场景图 |
03->06 |
与 01_数学 的交叉
| 交叉点 |
01 位置 |
06 位置 |
方向 |
| SDE/ODE 理论 |
随机过程 |
P3 Diffusion/FM 推导 |
01->06 |
| 变分推断 |
概率图模型 |
P4 RSSM/Dreamer |
01->06 |
| 李群/SE(3) |
李群与流形 |
P3 等变策略 |
01->06 |
| 最优控制 |
最优控制理论 |
P4.3 TD-MPC |
01->06 |
06 向外输出
| 交叉点 |
06 位置 |
接收方向 |
方向 |
| VLA 控制指令 |
P2 VLA |
05 运控执行 |
06->05 |
| 语义导航目标 |
P2 VLN |
04 路径规划 |
06->04 |
| 场景语义理解 |
P4 世界模型 |
03 语义 SLAM |
06->03 |
交叉引用可视化
01_数学 -----(SDE/变分/李群/最优控制)-----> 06 (P3, P4)
02_C++基础与进阶 -----(PyTorch/C++/RL基础)---------> 06 (全部)
03_SLAM -----(视觉定位/语义地图)----------> 06 (P2.2)
04_规控 -----(MPPI/路径规划)--------------> 06 (P4.3, P2.2)
05_运控 =====(动作模仿/RL/力控/WBC)======> 06 (P5, P2) [最密切]
06 (VLA) -------> 05_运控 (执行层)
06 (VLN) -------> 04_规控 (导航层)
06 (WM) -------> 03_SLAM (语义层)
第四部分:学习路径建议
路径 A:VLA 研究者 (8 周)
| 周 |
主题 |
必读 |
动手 |
GPU |
| 1 |
VLM 基础 |
CLIP, LLaVA-1.5, PaliGemma |
HF Transformers 加载 VLM |
RTX 3060 |
| 2 |
VLA 范式 |
RT-1, RT-2 |
SimplerEnv 评估 OpenVLA |
RTX 4090 |
| 3 |
动作表示 |
Diffusion Policy, Flow Matching 基础 |
复现 DP Push-T |
RTX 3090 |
| 4 |
开源 VLA |
OpenVLA, OpenVLA-OFT, Octo |
OFT 微调自定义任务 |
RTX 4090 |
| 5 |
Flow VLA |
pi0, pi0.5 双层架构 |
LeRobot 训练 pi0 |
A100 |
| 6 |
人形 VLA |
GR00T N1, WholeBodyVLA |
Isaac Lab + GR00T |
RTX 4090 |
| 7 |
VLA + RL |
FPO, RECAP, VLA-RL |
RLinf-VLA 微调 |
A100 |
| 8 |
前沿选题 |
SmolVLA, SpatialVLA, MemoryVLA |
写 research proposal |
--- |
前置: Transformer 机制、PyTorch 熟练、RL 基础 (PPO)
路径 B:RL 人形部署 (6 周)
| 周 |
主题 |
必读 |
动手 |
GPU |
| 1 |
RL + 仿真 |
PPO 原理、Isaac Lab 入门 |
Isaac Lab Go2 训练 |
RTX 3090 |
| 2 |
动作模仿 |
DeepMimic -> AMP -> ASE |
ProtoMotions AMP |
RTX 3090 |
| 3 |
大规模模仿 |
PHC, PULSE, SONIC |
PHC MJX 复现 |
RTX 4090 |
| 4 |
真机全身 |
H2O, ExBody, HOVER |
Humanoid-Gym H1 |
RTX 4090 |
| 5 |
敏捷技能 |
ASAP, GMT, HuB |
ASAP G1 训练 |
RTX 4090 |
| 6 |
Sim-to-Real |
域随机化、teacher-student |
G1 真机部署 |
RTX 4090 |
前置: PyTorch、RL 基础、Linux/ROS
交叉: [05运控]/动作模仿理论.md, [05运控]/MJLab与IsaacLab_RL运控教学文档.md
路径 C:世界模型研究者 (10 周)
| 周 |
主题 |
必读 |
动手 |
GPU |
| 1 |
背景 |
WM.md 第一章、Ha & Schmidhuber 2018 |
--- |
--- |
| 2 |
Dreamer |
PlaNet -> DreamerV3 |
DreamerV3 DMControl |
RTX 3090 |
| 3 |
潜在 WM |
TD-MPC2, IRIS, STORM |
STORM 3090 复现 |
RTX 3090 |
| 4 |
视频 WM |
Sora, Genie 1/2/3, Cosmos |
GenieRedux 开源 |
RTX 4090 |
| 5 |
JEPA |
LeCun 愿景, V-JEPA 2 |
I-JEPA 训练 |
RTX 4090 |
| 6 |
扩散 WM |
DIAMOND |
DIAMOND Atari |
RTX 3090 |
| 7 |
驾驶/具身 |
GAIA-1, OccWorld |
Cosmos 开源推理 |
A100 |
| 8 |
LLM-as-WM |
RAP, LATS |
RAP 推理链 |
RTX 4090 |
| 9 |
优化+安全 |
幻觉、泛化、加速 |
WM.md 十至十五章 |
RTX 3090 |
| 10 |
前沿选题 |
R2-Dreamer, DINO-WM |
写 research proposal |
--- |
前置: 变分推断、Transformer、PyTorch
路径 D:大模型基础速补 (4 周)
面向熟悉机器人但不熟悉大模型的研究者
| 周 |
主题 |
必读 |
动手 |
GPU |
| 1 |
Transformer + LLM |
大模型全景综述 Phase 1 |
HF Transformers 加载 LLM |
RTX 3060 |
| 2 |
微调与对齐 |
LoRA, RLHF, DPO |
Unsloth LoRA 微调 7B |
RTX 4090 |
| 3 |
VLM |
CLIP, LLaVA, PaliGemma |
LLaVA 推理 |
RTX 4090 |
| 4 |
PyTorch 部署栈 |
Phase 10 全栈教程 |
vLLM 部署 + 量化推理 |
RTX 4090 |
前置: Python、基本 ML 知识
交叉: [主项目]/大模型全景综述.md + 大模型全景综述_Phase10_PyTorch训练部署项目.md
路径 E:全栈具身智能 (16 周)
面向希望覆盖所有支柱的全栈研究者
| 阶段 |
周数 |
覆盖支柱 |
核心目标 |
| 基础层 |
1-3 |
P1 (速补) |
Transformer + VLM + PyTorch 栈 |
| 策略层 |
4-6 |
P3 + P2 |
Diffusion Policy + OpenVLA 微调 |
| 世界层 |
7-9 |
P4 |
Dreamer -> DIAMOND -> V-JEPA 2 |
| 运动层 |
10-12 |
P5 |
AMP -> ASAP -> 真机 |
| 部署层 |
13-14 |
P6 |
LeRobot + Isaac Lab + sim-to-real |
| 整合层 |
15-16 |
综合 |
GR00T N1.7 + 论文选题 |
六大支柱阅读顺序建议
ML/DL 研究者 (熟悉 Transformer,不熟悉机器人):
P1 (快速回顾) -> P3 扩散/FM -> P2 VLA/VLN -> P4 世界模型
机器人研究者 (熟悉控制/SLAM,不熟悉大模型):
P1 (重点学习) -> P5 RL/动作模仿 -> P2 VLA/VLN -> P6 数据/部署
全栈研究者:
P2 VLA/VLN (直奔核心) -> P3 扩散/FM -> P4 世界模型 -> P5 RL -> P6 部署
工程部署导向:
P6 (先建环境) -> P2 VLA (选模型) -> P5 RL (sim-to-real) -> 真机
第五部分:不覆盖什么
| 不覆盖的内容 |
应查阅的方向 |
理由 |
| 经典控制理论 (PID, LQR, 阻抗控制) |
05_运动控制/ |
05 已有系统覆盖 |
| WBC 数学推导 |
05_运动控制/足式/ |
浮动基座动力学属运控 |
| SLAM / 视觉里程计 / 建图 |
03_SLAM/ |
03 完整主线 |
| 移动规控 (MPPI/博弈/多机) |
04_移动机器人规控/ |
04 专项 |
| C++ 语言基础 |
02_C++基础与进阶/ |
编程基础 |
| 数学基础 |
01_数学/ |
数学基础 |
边界原则: "无需基础模型即可工作" -> 05 运控;"以基础模型为核心" -> 06 具身智能。
第六部分:顶会顶刊速查
完整列表: [全量仓库]/顶会顶刊.md
核心投稿目标
| 会议 |
定位 |
具身智能相关度 |
截稿参考 |
| CoRL |
机器人学习 |
VLA 最密集 |
~6 月 |
| RSS |
机器人 (小而精) |
VLA/RL 均有 |
~1 月 |
| ICRA |
机器人最大 |
全方向 |
~9 月 |
| ICLR |
深度学习 |
2026 VLA 爆发 |
~10 月 |
| NeurIPS |
ML |
世界模型/RL |
~5 月 |
| SIGGRAPH |
图形学 |
角色动画/运动生成 |
~1 月 |
核心期刊
| 期刊 |
出版方 |
定位 |
具身智能相关度 |
| T-RL |
IEEE |
2025 年 3 月创刊;机器人学习专刊 |
极高 |
| Science Robotics |
AAAS |
高影响力 |
OP3 Soccer, Legged Badminton |
| Nature |
Nature |
最高影响力 |
DreamerV3 (2025) |
| IJRR |
SAGE |
机器人最老牌顶刊 |
Diffusion Policy (IJRR 2024) |
| T-RO |
IEEE |
机器人顶刊 |
全方向 |
| RA-L |
IEEE |
快速发表;可选会议报告 |
全方向 |
| TPAMI |
IEEE |
CV/ML 最高影响力 |
ETPNav (TPAMI 2024) |
| TMLR |
OpenReview |
快速审稿 |
DINOv2 (TMLR 2024) |
| JMLR |
开放获取 |
ML 理论顶刊 |
DreamerV3 理论分析 |
| TOG |
ACM |
SIGGRAPH 论文载体 |
角色动画/运动生成 |
具身智能论文投稿策略
VLA 模型 -----> CoRL (最对口) / RSS / ICRA / ICLR
世界模型 -----> NeurIPS / ICML / ICLR
人形 RL -----> RSS / CoRL / ICRA / Science Robotics (里程碑)
动作生成 -----> SIGGRAPH / CVPR / ICLR
VLN -----> CVPR / ECCV / ICCV / CoRL
导航Agent -----> NeurIPS / ICLR / EMNLP (LLM 导航)
第七部分:开放问题与未来方向
技术层面
| 问题 |
现状 |
潜在方向 |
标记 |
| FM log-prob 计算 |
Hutchinson estimator 代价高;FPO/RECAP 用近似绕过 |
高效 log-prob 估计器;FM 专用 RL 算法 |
[前沿] |
| 单步推理模式坍缩 |
1-2 步推理时多模态表达退化 |
VFP 变分方法;自适应步数策略 |
[前沿] |
| 物理约束集成 |
PhysDiff 初步尝试,缺乏通用框架 |
微分物理引擎 + FM 联合训练 |
[前沿] |
| 视频生成 vs 世界理解 |
争论 2025 年仍未解决 |
JEPA vs 生成式 vs 混合路线收敛 |
[研究] |
| VLA Scaling Laws |
Neural Scaling Laws in Robotics (2024) 初步验证 |
机器人专属 scaling 定律;GEN-0/GEN-1 工业验证 |
[前沿] |
| 长程任务规划 |
pi0.5 双层架构是初步尝试 |
层级 FM + 语言子目标链 |
[前沿] |
| 跨具身泛化 |
HPT 50+ 数据集统一、OXE 22 种机器人 |
通用具身基础模型;形态无关表征 |
[前沿] |
| Physical AI Safety |
新兴但无主导框架 |
全链路安全:感知->决策->执行->部署 |
[前沿] |
| Sim-to-Real 鲁棒性 |
生成式策略的 sim-to-real gap 研究不足 |
域随机化 + FM 鲁棒性分析 |
[研究] |
| 统一策略/世界模型 |
策略与世界模型用独立模型 |
单一 FM 同时建模动态与策略 |
[前沿] |
产业层面
| 问题 |
现状 |
潜在方向 |
标记 |
| 人形成本 |
Unitree G1 ~\(16K, H1 ~\)90K |
硬件成本继续下降;更多厂商入场 |
[工业] |
| 真机数据稀缺 |
DROID 76K / OXE 1M+ |
仿真数据 + sim-to-real 规模化;LeRobot 社区众包 |
[工业] |
| 部署可靠性 |
仿真 >> 真机;gap 仍大 |
ASAP 式仿真-真实对齐;更好的 sim-to-real 方法论 |
[工业] |
| 法规与伦理 |
几乎空白 |
物理 AI 法规制定;人形接触安全标准 |
[前沿] |
| 算力需求 |
SONIC 21K GPU 小时;pi0 10K+ 小时数据 |
高效架构 (SmolVLA 450M);蒸馏与压缩 |
[工业] |
| 评估标准化 |
各模型用不同基准、不同环境 |
VLABench 等统一评测;标准化 sim 环境 |
[研究] |
机器人缩放定律 (新兴方向)
| 工作 |
发现 |
标记 |
| Neural Scaling Laws in Robotics (2024) |
327 篇论文元分析;机器人缩放速度快于语言任务 |
[研究] |
| Data Scaling Laws in IL (ICLR 2025) |
40,000+ 示教验证;适当缩放->单任务零样本部署 |
[研究] |
| GEN-0/GEN-1 (2025-2026) |
工业界首证机器人预训练缩放定律 |
[工业] |
这一方向预示:机器人基础模型的性能将随数据/参数/计算三者规模增长而可预测地提升,类似语言模型的 Chinchilla 定律。
新兴交叉方向
| 方向 |
描述 |
代表工作 |
标记 |
| 互联网规模预训练->机器人 |
人类视频/第一人称视频作为机器人预训练数据 |
EgoVLA (2024), Figure AI Go-Big (2025) |
[前沿] |
| VLM 反馈奖励 |
用 VLM 偏好查询自动生成奖励函数 |
RL-VLM-F (ICML 2024), Text2Reward (ICLR 2024) |
[研究] |
| 零样本导航 |
无需任何环境数据的语义导航 |
VLFM (ICRA 2024), Open-Nav (ICRA 2025) |
[研究] |
| 全身运动操作一体化 |
导航/运动/操作从独立模块->统一端到端 |
WholeBodyVLA (ICLR 2026), NaVILA (arXiv) |
[前沿] |
| 多机器人 VLA |
多智能体协作的 VLA 策略 |
目前为空白,未来方向 |
[前沿] |
| 具身推理 (Embodied Reasoning) |
R1 式长链推理 + 物理世界行动 |
ECoT (+28%), pi0.5 双层推理 |
[前沿] |
附录 A:世界模型论文笔记索引
以下论文在 [全量仓库]/世界模型/papers/ 中均有中英双语笔记:
| 论文笔记目录 |
对应工作 |
范式 |
在 WM.md 中的章节 |
WorldModels_2018/ |
Ha & Schmidhuber (NeurIPS 2018) |
VAE + MDN-RNN |
第一章 |
PlaNet_ICML2019/ |
PlaNet: RSSM 诞生 |
RSSM |
第二章 |
C-SWM_NeurIPS2019/ |
物体中心 GNN |
结构化潜在 |
第三章 |
DreamerV1_ICLR2020/ |
DreamerV1 |
RSSM + actor-critic |
第二章 |
DreamerV2_ICLR2021/ |
DreamerV2: 首达人类 Atari |
RSSM 离散 |
第二章 |
TD-MPC_ICML2022/ |
TD-MPC |
潜在 + MPPI |
第三章 |
IRIS_ICLR2023/ |
IRIS: GPT 式世界模型 |
Transformer |
第三章 |
I-JEPA_CVPR2023/ |
I-JEPA: 图像域 JEPA |
JEPA |
第五章 |
STORM_NeurIPS2023/ |
STORM: 单 3090 训练 |
Transformer |
第三章 |
GAIA-1_Wayve2023/ |
GAIA-1: 驾驶世界模型 |
视频生成 |
第七章 |
RAP_EMNLP2023/ |
RAP: LLM 推理即规划 |
LLM-as-WM |
第九章 |
TD-MPC2_ICLR2024/ |
TD-MPC2: 104 任务统一 |
潜在 + MPPI |
第三章 |
UniSim_ICLR2024/ |
UniSim: 万能模拟器 |
视频生成 |
第四章 |
LATS_ICML2024/ |
LATS: LLM + MCTS |
LLM-as-WM |
第九章 |
OccWorld_ECCV2024/ |
OccWorld: 3D 占用预测 |
驾驶 WM |
第七章 |
Genie1_ICML2024/ |
Genie 1: 无监督潜在动作 |
视频生成 |
第四章 |
DIAMOND_NeurIPS2024/ |
DIAMOND: 扩散世界模型 |
Diffusion |
第六章 |
Cosmos_NVIDIA2025/ |
Cosmos: Physical AI |
视频生成 |
第四章 |
DreamerV3_Nature2025/ |
DreamerV3: Nature 发表 |
RSSM |
第二章 |
C3_WorldModels_2025/ |
C3 世界模型 |
--- |
--- |
GameNGen_ICLR2025/ |
GameNGen: 神经游戏引擎 |
Diffusion |
第四章 |
DINO-WM_ICML2025/ |
DINO-WM |
JEPA |
第五章 |
HowFarVideoFromWM_ICML2025/ |
视频生成 =/= 世界理解 |
实证分析 |
第四章 |
SEASON_2025/ |
SEASON |
--- |
第九章 |
V-JEPA2_ICLR2026/ |
V-JEPA 2: 98% 物理直觉 |
JEPA |
第五章 |
V-JEPA2.1_2026/ |
V-JEPA 2.1 改进 |
JEPA |
第五章 |
WhatDoWMLearn_2026/ |
世界模型学到了什么 |
分析 |
第十二章 |
ParallelGradientPlanning_Meta2026/ |
并行梯度规划 |
规划 |
第十四章 |
附录 B:RL 人形关键论文时间线
按 [全量仓库]/RL人形/rl.md 六阶段组织:
| Phase |
年份 |
关键论文 |
venue |
标记 |
| 1 |
2010 |
SAMCON |
SIGGRAPH |
[基础] |
| 1 |
2017 |
DeepLoco |
SIGGRAPH |
[基础] |
| 2 |
2018 |
DeepMimic |
SIGGRAPH |
[基础] |
| 2 |
2019 |
AMASS, MCP |
ICCV, NeurIPS |
[基础] |
| 2 |
2021 |
Isaac Gym |
NeurIPS D&B |
[工业] |
| 3 |
2021 |
AMP |
SIGGRAPH |
[基础] |
| 3 |
2022 |
ASE, ControlVAE |
SIGGRAPH |
[研究] |
| 4 |
2023 |
PHC, Vid2Player3D, MDM |
ICCV, SIGGRAPH, ICLR |
[研究] |
| 4 |
2024 |
PULSE, MoMask |
ICLR Spotlight, CVPR |
[研究] |
| 5 |
2024 |
H2O, ExBody, HumanPlus |
IROS, RSS, CoRL |
[研究] |
| 5 |
2024 |
HOVER, Humanoid Parkour |
ICRA, CoRL |
[研究] |
| 5 |
2024 |
OP3 Soccer |
Science Robotics |
[工业] |
| 5 |
2024 |
MaskedMimic |
SIGGRAPH Asia |
[研究] |
| 6 |
2025 |
ASAP, HOMIE, VideoMimic |
RSS, CoRL |
[研究] |
| 6 |
2025 |
KungfuBot, Legged Badminton |
NeurIPS, Science Robotics |
[研究] |
| 6 |
2025 |
SONIC, GR00T N1.5/N1.7 |
NVIDIA |
[工业] |
| 6 |
2025 |
CLoSD |
ICLR Spotlight |
[研究] |
| 6 |
2026 |
GMT, TWIST2, GMR, BeyondMimic |
arXiv, ICRA |
[前沿] |
| 6 |
2026 |
BFM-Zero, WholeBodyVLA, HWC-Loco |
ICLR |
[研究] |
| 6 |
2026 |
LATENT (G1 网球), HUSKY (G1 滑板) |
arXiv |
[前沿] |
| 6 |
2026 |
Kimodo (NVIDIA) |
NVIDIA |
[前沿] |
完整 120+ 论文条目见 [全量仓库]/RL人形/rl.md
附录 C:VLN 基准数据集完整列表
摘自 [全量仓库]/VLA与VLN综述大纲.md 第二部分
| 基准 |
年份 |
发表 |
环境 |
特点 |
| R2R |
2018 |
CVPR 2018 |
Matterport3D (90 建筑) |
VLN 开山之作;7,189 路径 + 21,567 指令 |
| RxR |
2020 |
EMNLP 2020 |
Matterport3D |
多语言 (英/印地/泰卢固);126k 指令 |
| REVERIE |
2020 |
CVPR 2020 |
Matterport3D |
导航 + 远程目标物体定位 |
| ALFRED |
2020 |
CVPR 2020 |
AI2-THOR |
导航 + 物体交互;7 类家庭任务 |
| CVDN |
2019 |
CoRL 2019 |
Matterport3D |
多轮对话导航 |
| VLN-CE |
2020 |
ECCV 2020 |
Habitat |
连续环境;低层运动控制 |
| Touchdown |
2019 |
CVPR 2019 |
Google Street View (NYC) |
户外城市 VLN |
| SOON |
2021 |
CVPR 2021 |
Matterport3D |
场景描述导航 |
附录 D:VLA 架构范式图
当前主流 VLA 架构:
+------------------+ +------------------+
| 预训练 VLM 骨干 |---->| 专用动作模块 |
| (语义理解) | | (Flow/Diffusion) |
| PaliGemma/Eagle | | (运动控制) |
+------------------+ +------------------+
^ ^
| |
互联网数据 机器人轨迹数据
(视觉-语言) (动作-状态)
pi0.5 双层架构:
+-----------------------------------+
| 高层: VLM 生成 FAST token 子目标 | <-- 慢思维 (System 2)
+-----------------+-----------------+
| 语言化子目标
+-----------------+-----------------+
| 低层: Flow Matching 生成动作序列 | <-- 快执行 (System 1)
+-----------------------------------+
GR00T N1 双系统架构:
+--------------------+
| System 2: Eagle VLM | <-- 场景理解 + 语言推理
| (慢思维) |
+--------+-----------+
| 条件嵌入
+--------+-----------+
| System 1: DiT Flow | <-- 高频动作生成
| (快执行, 50Hz) |
+--------------------+
附录 E:文件索引
全量仓库 ([全量仓库])
具身智能/
+-- VLA与VLN综述大纲.md <-- P2 (583行)
+-- Flow_Matching与Diffusion_Policy综述.md <-- P3 (461行)
+-- 大模型全景综述_完整合并版.md <-- P1 (566行)
+-- 顶会顶刊.md <-- 会议/期刊速查 (78行)
+-- 世界模型/ <-- P4 (40 files, 27,668行)
| +-- WM.md <-- 15 章综述
| +-- 综述/World-In-World/
| +-- papers/ (20+ 论文笔记, 中英双语)
+-- RL人形/ <-- P5 (218 files, 105,625行)
| +-- rl.md
| +-- 人形机器人RL动作模仿与生成综述_2026_最终版.md
| +-- papers/ (200+ 论文笔记)
+-- 强化学习/ <-- P5.6 (9 files, 8,029行)
+-- 可解释强化学习.md / 学习指南.md
+-- shap.md, ICML.md
+-- Interpret-DRL-using-SHAP-Project/
主项目 ([主项目])
06_具身智能/
+-- 具身智能方向_总大纲.md <-- 本文档 (v2.0)
+-- 大模型全景综述.md <-- P1
+-- 大模型全景综述_Phase10_PyTorch训练部署项目.md <-- P1.5
+-- 人形机器人RL动作模仿与生成综述_2026_最终版.md <-- P5
+-- WM.md <-- P4
跨方向文件
05_运动控制/
+-- 动作模仿理论.md <-- P5 交叉 (455行)
+-- MJLab与IsaacLab_RL运控教学文档.md <-- P5 交叉 (2409行)
附录 F:物理 AI 安全速览
新兴但尚无主导框架。2025-2026 年进展:
| 层级 |
当前方案 |
缺口 |
| 感知安全 |
VLM 场景理解 + 异常检测 |
对抗攻击鲁棒性不足 |
| 决策安全 |
Cosmos Reason 2 safety/social reasoning |
仅限自动驾驶场景验证 |
| 执行安全 |
传统力控/阻抗控制 (05_运控) |
与 VLA 的集成方案缺乏 |
| 部署安全 |
sim-to-real 验证 |
长尾场景覆盖不足 |
| 伦理法规 |
几乎空白 |
人形接触安全标准待制定 |
研究机会: 全链路 Physical AI Safety 框架是重要缺口,适合跨学科 (控制+ML+法律) 研究。
附录 G:版本历史
| 版本 |
日期 |
变更 |
| v1.0 |
2026-05-03 |
初始版本:整合全量仓库 271 个 Markdown 文件 + 主项目 4 文件为统一大纲 |
| v2.0 |
2026-05-14 |
增强版:新增快速路径、计算与硬件需求表、工业/研究标记体系、前置知识依赖矩阵 (01_数学/05_运动控制)、生态速览 (2026-05)、规划中的章节 (E01-E13)、交叉引用地图、路径 D/E 新增、物理 AI 安全速览、GPU 需求列、遥操作硬件表、低算力世界模型方向 |