Survey_课程规划与结论

综述：拟议的25章续篇课程¶

该课程体系前部集中讲授通用数学（第71-75章），随后深入探讨D1（第76-81章）、D2（第82-85章）和D3（第86-95章），最后以VLA + SLAM + 博士毕业设计（第96-100章）收尾。

第七部分 — 复合机器人基础（5章） - 第71章. 从浮动底座到复合底座动力学。**统一的q = (q_base, q_leg, q_arm, q_hand)建模框架，混合链条的Pinocchio 3.x API，以及机械臂与底座之间的科里奥利力/重力耦合。 - **第72章. Pinocchio 3.x约束关节与闭链机构。运动学环路、双向约束、受约束的ABA；车轮、平行连杆抓手及灵巧手的先决条件。 - 第73章. 复合系统中分层QP的再探讨。 TSID、HierarchicalWbc、SoT比较；字典序任务与加权任务；移动与操作优先级冲突的解决；双臂扭矩锥。 - 第74章. 非全向约束与滚动约束。 Pfaffian A(q)q̇=0；纯滚动、滑移、Pacejka；SE(2) 移动底盘运动学；编码为 OCS2 约束。 - 第75章. 动态接触集管理. 时域内添加/移除手臂与手部接触点；隐式接触目标（CITO、Aligator）；手臂扰动下的摩擦锥收紧.

第八部分 — D1 轮腿混合系统（6章） - 第76章. 轮足系统的硬件与驱动概况. ANYmal-wheels, Swiss-Mile, B2-W/Go2-W, Upkie, LimX W1；轮扭矩控制与轮毂电机. - 第77章. 经典轮足MPC（Bjelonic流派）. 研读2020年RA-L、2021年IROS三篇论文；OCS2实现详解；统一的轮足接触调度方案。 - 第78章. 轮足机器人地形感知。 带可通行性图层的elevation_mapping_cupy；Swiss-Mile导航栈；《Sci. Robotics》2024年自主导航管道。 - 第79章. 轮足系统的强化学习。 Wheel-Legged-Gym、Tron1-IsaacGym；模式涌现的奖励塑造；强化学习爬楼梯（ICRA 2024）。 - 第80章. 混合MPC+RL与模式切换。 滑行与步行的决策；考虑冲击的轨迹规划（T-RO 2025）；基于全身MPC的残差强化学习。 - 第81章. 轮足底盘上的机械臂（D1∩D3桥梁）。 B2W+机械臂系统；全身MPC的扩展；Upkie+机械臂研究原型。

第九部分 — D2 基于轮式底盘的移动操作（4章） - 第82章. OCS2移动操作器的深度解析。 Panda+Ridgeback的SQP+HPIPM；MPC_MRT集成；约束建模。 - 第83章. MoveIt 2 + Nav2集成。 任务构造器、Servo、MPPI、Smac；抓取候选项管道（contact-graspnet、AnyGrasp）。 - 第84章. 移动式ALOHA、Stretch-AI及双臂模仿。 移动底盘上的扩散策略；UMI数据采集范式；“固定手臂加底盘速度”接口。 - 第85章. 移动操纵的VLA。 OpenVLA、π0、π0-FAST、π0.5架构；FAST动作分词数学；流匹配头部；基于libtorch/ONNX/TensorRT的部署；移动物体场景下的SLAM集成。

第 X 部分 — D3 移动操纵（10 章 — 课程中最深入的部分） - 第 86 章. 四足机器人+机械臂动力学与控制概述。 ALMA、Sleiman 统一 MPC、qm_control；阅读书目；传感器与执行器管道。 - 第 87 章. qm_control 源代码详解。 OCS2 NMPC + 混合式全身控制；四个分支（主/力/顺应性/真实）；IROS 2024 顺应性论文。 - 第88章. 深度全身控制（Fu, Cheng, Pathak）。 6+n+m自由度的统一强化学习策略；正则化在线适应；课程设计与奖励工程。 - 第89章. 视觉全身控制（CMU/UCSD）。**两级强化学习（低层统一 + 上层视觉）；拾取多样化物体；B1+Z1平台上的模拟到真实环境。 - **第90章. 双腿上的UMI。**扩散策略与全身控制器之间的任务帧能量效率接口；iPhone里程计；ARX5栈；“策略可移植性”原则。 - **第91章. RAMBO及混合模型驱动+强化学习. 前馈QP扭矩+残差强化学习反馈；带操作的双足行走；与Cafe-MPC / VWBC / MPC-Net的关联。 - 第92章. 类人机器人全身控制 I — 经典方法. 针对操作任务重新审视LIPM/DCM/Capture Point；TALOS TSID； Kuindersma Atlas 系列；基于动量的全身控制。 - 第 93 章. 类人机器人全身强化学习 — 师徒学习与运动重定位。 HumanPlus、H2O、OmniH2O、ExBody/ExBody2；SMPL-X 重定位；AMASS 数据集；PHC/PULSE。 - 第94章. ASAP及模拟到实机的敏捷类人机器人技术。 Delta-action残差模型；两阶段预训练+实机部署；G1部署；与SysID及delta-dynamics基线的对比。 - 第95章. 强力类人机器人行走与操作。 FALCON双智能体强化学习（下肢稳定性 + 上肢跟踪，含隐式力补偿）；SoFTA（柔性能量平衡稳定化）；HOMIE外骨骼遥操作；开门与拉车任务。

第十一部分 — 跨领域前沿 + 博士生启动平台（5章，其中1章保留为综合项目） - 第96章. 复合机器人的VLA/基础模型。 π0.5, GR00T N1.5 (FLARE, DreamGen), Helix 01/02 (System-1/System-2架构, 7-9 Hz VLM + 200 Hz视觉运动控制); 在Jetson Thor上进行边缘部署。 - 第97章. SLAM与操作的耦合。 移动物体SLAM、动态SLAM、场景图SLAM；考虑机械臂遮挡的高程映射；移动操作过程中的主动SLAM。 - 第98章. 移动操作的世界模型。 DreamerV3类、Cosmos、1X世界模型；基于想象的MPC与策略学习。 - 第99章. 博士研究方向 — 定位。 将用户的SLAM+腿式机器人+强化学习背景映射到2025-2026年未解决问题清单；选择论文课题。 - 第100章. 毕业设计项目。 在G1或B2+Z1上构建完整管道：感知 → WBC → VLA引导的长时效任务，并记录端到端流程。

第二阶段需深入研读的5-8个核心代码库¶

skywoodsz/qm_control —— 最具指导意义的四足+手臂 MPC+WBC 代码库；1-2 周；涵盖 OCS2 扩展至 n+6+m 自由度、ros-control 集成、四种分支变体（运动/力/顺应性/实态），并直接衔接 Sleiman 2021 年的理论框架。必读。
real-stanford/umi-on-legs — 1-2 周；讲解任务帧-EE 接口，该接口现已成为桌面操作 VLA 与腿足底层系统之间的标准桥梁；包含易于阅读的 Python 代码、仿真训练及实际部署子模块；ARX5 SDK 和 iPhone 里程计组件可复用。
Ericonaldo/visual_wholebody (VBC) — 1 周；讲解两层强化学习架构（低层统一自由度策略 + 高层视觉策略），该架构是后续 Deep WBC 研究的模板。
MarkFzp/Deep-Whole-Body-Control — 1 周；关于基础统一强化学习策略的论文；需与 VBC 结合阅读以了解发展脉络。
LeCAR-Lab/ASAP + LeCAR-Lab/FALCON — 各1-2周；尽快研读关于G1平台上的模拟到真实delta-action方法论，以及基于G1和T1平台、采用双代理强化学习的FALCON力自适应人形机器人移动-操作方法；这两篇共同涵盖了人形机器人强化学习的SOTA成果。
Physical-Intelligence/openpi — 1-2 周；VLA 参考代码库（π0、π0-FAST、π0.5）；讲解流匹配动作头、FAST 分词、LeRobot 兼容性以及多具身微调——这是理解 D2 及开展 VLA-on-legs 项目的必备知识。
clearlab-sustech/Wheel-Legged-Gym — 1 周；D1 最清晰的强化学习基线；结合 Bjelonic 的 MPC 论文可获得完整的 D1 全景。
unitreerobotics/unitree_rl_gym + unitree_sdk2 — 合计 1 周；适用于 G1/H1/Go2/B2-W 部署的基线；作为本课程顶点项目的硬件基础，学员必须掌握此内容。

第二级阅读书目（可选，每篇3-5天）包括 leggedrobotics/ocs2、huggingface/lerobot、LeCAR-Lab/human2humanoid、facebookresearch/home-robot 和 upkie/upkie。

第三阶段需深入探讨的3-5个博士研究方向¶

鉴于用户兼具SLAM、腿式机器人、强化学习及C++系统方面的专业知识，最具潜力的博士论文选题包括：

**基于人形机器人的SLAM集成下，移动-操作任务的感知-控制联合优化。**用户在SLAM C++领域的背景是一项难得的优势。开放性问题：动态物体操作如何打破经典SLAM的假设？能否将因子图SLAM与MPC/VLA控制器协同设计，使机器人自身的操作动作生成最优的地图更新信号？具体切入点：在2024年ETH开门论文的基础上，引入将门视为铰接地标的在线SLAM。利用InEKF + GTSAM + OCS2。
具有形式稳定性的轮腿模式切换 RL+MPC 混合系统。 将 RAMBO 的混合设计理念扩展至 D1 平台。用户在腿式机器人 RL 方面的背景知识 + OCS2 + grid_map 技术栈可直接应用于此。具体切入点：Unitree B2-W，在Bjelonic风格的全身MPC基础上叠加残差RL策略，该策略通过带Lyapunov约束的残差学习*何时*启用轮子与何时启用腿部。
适用于非结构化环境中四足机器人和类人机器人行走-操作任务的VLA基础模型。 用户具备强化学习部署经验且熟悉 libtorch/ONNX，这种组合较为罕见。具体起点：在执行强力移动-操作（FALCON 风格任务）的 Unitree G1 上，对 GR00T N1.5 或 π0.5 进行微调，采用全身控制器作为 S1 而非学习到的视觉运动策略——这是一种混合型 VLA+MPC 方案，旨在解决安全缺口问题。
从四足+机械臂到类人机器人的跨具身运动-操纵迁移。 利用VBC/UMI-on-Legs任务框架-EE接口作为不变量。待解决的问题：当接口为“任务框架EE + 基速”时，预训练于Go2+Z1的单一策略能否零样本迁移至G1？这直接对应于《物理智能》中关于跨具体迁移的论点。具体起点：在G1机械臂上重新实现UMI-on-Legs，并测量性能差距。
基于世界模型的运动-操作规划，结合基于SLAM的想象。 将用户的SLAM背景与DreamerV3/Cosmos风格的世界模型相结合。待解决的问题：基于真实SLAM姿态和惯性状态训练的世界模型，能否替代合成MuJoCo推演，用于长时效人形机器人的运动-操作规划？起点：ASAP的delta-action模型被推广为delta-world-model，该模型基于G1机器人真实与模拟轨迹数据进行学习。

结论：自24章节的腿足机器人课程发布以来发生了哪些变化¶

自用户编写该多足控制课程以来，有三项变革推动了该领域的发展。首先，Unitree G1已成为默认的研究型类人机器人，这使得全身类人机器人研究能够纳入任何大学的预算范围，并使2025年几乎所有类人机器人论文都集中于这一平台；后续课程应将G1视为主要硬件主干，并将H1/H1-2视为功率-性能主干。其次，VLA基础模型（π0.5、GR00T N1.5、Helix 02）已从移动操作领域跃升至人形机器人的移动-操作领域，其中Helix 02于2026年1月实现的4分钟自主装载洗碗机任务标志着一个质的飞跃；任何在2026年编写却未将VLA作为核心章节的复合机器人课程，都已过时。第三，混合RL+MPC架构（RAMBO、ASAP的delta-action残差、FALCON的双代理分解） 已成为连接用户已掌握的MPC+WBC路径与领域正在奔向的RL+VLA路径的实用桥梁——这是后续课程必须重点强调的最重要的知识桥梁，因为正是这里，用户对双足+SLAM+RL组合的投入能获得最高的单位效率。上述25章计划的架构正是为了提供这一桥梁：一个高难度数学的共同基础、三个子方向的深度钻研，以及一个VLA+SLAM+博士结业项目，其中qm_control、umi-on-legs、ASAP、FALCON和openpi作为五个代码库，逐行研读这些代码将带来最大的研究杠杆效应。