Survey_课程规划与结论
综述:拟议的25章续篇课程¶
该课程体系前部集中讲授通用数学(第71-75章),随后深入探讨D1(第76-81章)、D2(第82-85章)和D3(第86-95章),最后以VLA + SLAM + 博士毕业设计(第96-100章)收尾。
第七部分 — 复合机器人基础(5章)
- 第71章. 从浮动底座到复合底座动力学。**统一的q = (q_base, q_leg, q_arm, q_hand)建模框架,混合链条的Pinocchio 3.x API,以及机械臂与底座之间的科里奥利力/重力耦合。
- **第72章. Pinocchio 3.x约束关节与闭链机构。 运动学环路、双向约束、受约束的ABA;车轮、平行连杆抓手及灵巧手的先决条件。
- 第73章. 复合系统中分层QP的再探讨。 TSID、HierarchicalWbc、SoT比较;字典序任务与加权任务;移动与操作优先级冲突的解决;双臂扭矩锥。
- 第74章. 非全向约束与滚动约束。 Pfaffian A(q)q̇=0;纯滚动、滑移、Pacejka;SE(2) 移动底盘运动学;编码为 OCS2 约束。
- 第75章. 动态接触集管理. 时域内添加/移除手臂与手部接触点;隐式接触目标(CITO、Aligator);手臂扰动下的摩擦锥收紧.
第八部分 — D1 轮腿混合系统(6章) - 第76章. 轮足系统的硬件与驱动概况. ANYmal-wheels, Swiss-Mile, B2-W/Go2-W, Upkie, LimX W1;轮扭矩控制与轮毂电机. - 第77章. 经典轮足MPC(Bjelonic流派). 研读2020年RA-L、2021年IROS三篇论文;OCS2实现详解;统一的轮足接触调度方案。 - 第78章. 轮足机器人地形感知。 带可通行性图层的elevation_mapping_cupy;Swiss-Mile导航栈;《Sci. Robotics》2024年自主导航管道。 - 第79章. 轮足系统的强化学习。 Wheel-Legged-Gym、Tron1-IsaacGym;模式涌现的奖励塑造;强化学习爬楼梯(ICRA 2024)。 - 第80章. 混合MPC+RL与模式切换。 滑行与步行的决策;考虑冲击的轨迹规划(T-RO 2025);基于全身MPC的残差强化学习。 - 第81章. 轮足底盘上的机械臂(D1∩D3桥梁)。 B2W+机械臂系统;全身MPC的扩展;Upkie+机械臂研究原型。
第九部分 — D2 基于轮式底盘的移动操作(4章) - 第82章. OCS2移动操作器的深度解析。 Panda+Ridgeback的SQP+HPIPM;MPC_MRT集成;约束建模。 - 第83章. MoveIt 2 + Nav2集成。 任务构造器、Servo、MPPI、Smac;抓取候选项管道(contact-graspnet、AnyGrasp)。 - 第84章. 移动式ALOHA、Stretch-AI及双臂模仿。 移动底盘上的扩散策略;UMI数据采集范式;“固定手臂加底盘速度”接口。 - 第85章. 移动操纵的VLA。 OpenVLA、π0、π0-FAST、π0.5架构;FAST动作分词数学;流匹配头部;基于libtorch/ONNX/TensorRT的部署;移动物体场景下的SLAM集成。
第 X 部分 — D3 移动操纵(10 章 — 课程中最深入的部分)
- 第 86 章. 四足机器人+机械臂动力学与控制概述。 ALMA、Sleiman 统一 MPC、qm_control;阅读书目;传感器与执行器管道。
- 第 87 章. qm_control 源代码详解。 OCS2 NMPC + 混合式全身控制;四个分支(主/力/顺应性/真实);IROS 2024 顺应性论文。
- 第88章. 深度全身控制(Fu, Cheng, Pathak)。 6+n+m自由度的统一强化学习策略;正则化在线适应;课程设计与奖励工程。
- 第89章. 视觉全身控制(CMU/UCSD)。**两级强化学习(低层统一 + 上层视觉);拾取多样化物体;B1+Z1平台上的模拟到真实环境。
- **第90章. 双腿上的UMI。**扩散策略与全身控制器之间的任务帧能量效率接口;iPhone里程计;ARX5栈;“策略可移植性”原则。
- **第91章. RAMBO及混合模型驱动+强化学习. 前馈QP扭矩+残差强化学习反馈;带操作的双足行走;与Cafe-MPC / VWBC / MPC-Net的关联。
- 第92章. 类人机器人全身控制 I — 经典方法. 针对操作任务重新审视LIPM/DCM/Capture Point;TALOS TSID; Kuindersma Atlas 系列;基于动量的全身控制。
- 第 93 章. 类人机器人全身强化学习 — 师徒学习与运动重定位。 HumanPlus、H2O、OmniH2O、ExBody/ExBody2;SMPL-X 重定位;AMASS 数据集;PHC/PULSE。
- 第94章. ASAP及模拟到实机的敏捷类人机器人技术。 Delta-action残差模型;两阶段预训练+实机部署;G1部署;与SysID及delta-dynamics基线的对比。
- 第95章. 强力类人机器人行走与操作。 FALCON双智能体强化学习(下肢稳定性 + 上肢跟踪,含隐式力补偿);SoFTA(柔性能量平衡稳定化);HOMIE外骨骼遥操作;开门与拉车任务。
第十一部分 — 跨领域前沿 + 博士生启动平台(5章,其中1章保留为综合项目) - 第96章. 复合机器人的VLA/基础模型。 π0.5, GR00T N1.5 (FLARE, DreamGen), Helix 01/02 (System-1/System-2架构, 7-9 Hz VLM + 200 Hz视觉运动控制); 在Jetson Thor上进行边缘部署。 - 第97章. SLAM与操作的耦合。 移动物体SLAM、动态SLAM、场景图SLAM;考虑机械臂遮挡的高程映射;移动操作过程中的主动SLAM。 - 第98章. 移动操作的世界模型。 DreamerV3类、Cosmos、1X世界模型;基于想象的MPC与策略学习。 - 第99章. 博士研究方向 — 定位。 将用户的SLAM+腿式机器人+强化学习背景映射到2025-2026年未解决问题清单;选择论文课题。 - 第100章. 毕业设计项目。 在G1或B2+Z1上构建完整管道:感知 → WBC → VLA引导的长时效任务,并记录端到端流程。
第二阶段需深入研读的5-8个核心代码库¶
skywoodsz/qm_control—— 最具指导意义的四足+手臂 MPC+WBC 代码库;1-2 周;涵盖 OCS2 扩展至 n+6+m 自由度、ros-control 集成、四种分支变体(运动/力/顺应性/实态),并直接衔接 Sleiman 2021 年的理论框架。必读。real-stanford/umi-on-legs— 1-2 周;讲解任务帧-EE 接口,该接口现已成为桌面操作 VLA 与腿足底层系统之间的标准桥梁;包含易于阅读的 Python 代码、仿真训练及实际部署子模块;ARX5 SDK 和 iPhone 里程计组件可复用。Ericonaldo/visual_wholebody(VBC) — 1 周;讲解两层强化学习架构(低层统一自由度策略 + 高层视觉策略),该架构是后续 Deep WBC 研究的模板。MarkFzp/Deep-Whole-Body-Control— 1 周;关于基础统一强化学习策略的论文;需与 VBC 结合阅读以了解发展脉络。LeCAR-Lab/ASAP+LeCAR-Lab/FALCON— 各1-2周;尽快研读关于G1平台上的模拟到真实delta-action方法论,以及基于G1和T1平台、采用双代理强化学习的FALCON力自适应人形机器人移动-操作方法;这两篇共同涵盖了人形机器人强化学习的SOTA成果。Physical-Intelligence/openpi— 1-2 周;VLA 参考代码库(π0、π0-FAST、π0.5);讲解流匹配动作头、FAST 分词、LeRobot 兼容性以及多具身微调——这是理解 D2 及开展 VLA-on-legs 项目的必备知识。clearlab-sustech/Wheel-Legged-Gym— 1 周;D1 最清晰的强化学习基线;结合 Bjelonic 的 MPC 论文可获得完整的 D1 全景。unitreerobotics/unitree_rl_gym+unitree_sdk2— 合计 1 周;适用于 G1/H1/Go2/B2-W 部署的基线;作为本课程顶点项目的硬件基础,学员必须掌握此内容。
第二级阅读书目(可选,每篇3-5天)包括 leggedrobotics/ocs2、huggingface/lerobot、LeCAR-Lab/human2humanoid、facebookresearch/home-robot 和 upkie/upkie。
第三阶段需深入探讨的3-5个博士研究方向¶
鉴于用户兼具SLAM、腿式机器人、强化学习及C++系统方面的专业知识,最具潜力的博士论文选题包括:
-
**基于人形机器人的SLAM集成下,移动-操作任务的感知-控制联合优化。**用户在SLAM C++领域的背景是一项难得的优势。 开放性问题:动态物体操作如何打破经典SLAM的假设?能否将因子图SLAM与MPC/VLA控制器协同设计,使机器人自身的操作动作生成最优的地图更新信号?具体切入点:在2024年ETH开门论文的基础上,引入将门视为铰接地标的在线SLAM。利用InEKF + GTSAM + OCS2。
-
具有形式稳定性的轮腿模式切换 RL+MPC 混合系统。 将 RAMBO 的混合设计理念扩展至 D1 平台。用户在腿式机器人 RL 方面的背景知识 + OCS2 + grid_map 技术栈可直接应用于此。 具体切入点:Unitree B2-W,在Bjelonic风格的全身MPC基础上叠加残差RL策略,该策略通过带Lyapunov约束的残差学习*何时*启用轮子与何时启用腿部。
-
适用于非结构化环境中四足机器人和类人机器人行走-操作任务的VLA基础模型。 用户具备强化学习部署经验且熟悉 libtorch/ONNX,这种组合较为罕见。具体起点:在执行强力移动-操作(FALCON 风格任务)的 Unitree G1 上,对 GR00T N1.5 或 π0.5 进行微调,采用全身控制器作为 S1 而非学习到的视觉运动策略——这是一种混合型 VLA+MPC 方案,旨在解决安全缺口问题。
-
从四足+机械臂到类人机器人的跨具身运动-操纵迁移。 利用VBC/UMI-on-Legs任务框架-EE接口作为不变量。待解决的问题:当接口为“任务框架EE + 基速”时,预训练于Go2+Z1的单一策略能否零样本迁移至G1?这直接对应于《物理智能》中关于跨具体迁移的论点。具体起点:在G1机械臂上重新实现UMI-on-Legs,并测量性能差距。
-
基于世界模型的运动-操作规划,结合基于SLAM的想象。 将用户的SLAM背景与DreamerV3/Cosmos风格的世界模型相结合。待解决的问题:基于真实SLAM姿态和惯性状态训练的世界模型,能否替代合成MuJoCo推演,用于长时效人形机器人的运动-操作规划? 起点:ASAP的delta-action模型被推广为delta-world-model,该模型基于G1机器人真实与模拟轨迹数据进行学习。
结论:自24章节的腿足机器人课程发布以来发生了哪些变化¶
自用户编写该多足控制课程以来,有三项变革推动了该领域的发展。首先,Unitree G1已成为默认的研究型类人机器人,这使得全身类人机器人研究能够纳入任何大学的预算范围,并使2025年几乎所有类人机器人论文都集中于这一平台;后续课程应将G1视为主要硬件主干,并将H1/H1-2视为功率-性能主干。 其次,VLA基础模型(π0.5、GR00T N1.5、Helix 02)已从移动操作领域跃升至人形机器人的移动-操作领域,其中Helix 02于2026年1月实现的4分钟自主装载洗碗机任务标志着一个质的飞跃; 任何在2026年编写却未将VLA作为核心章节的复合机器人课程,都已过时。第三,混合RL+MPC架构(RAMBO、ASAP的delta-action残差、FALCON的双代理分解) 已成为连接用户已掌握的MPC+WBC路径与领域正在奔向的RL+VLA路径的实用桥梁——这是后续课程必须重点强调的最重要的知识桥梁,因为正是这里,用户对双足+SLAM+RL组合的投入能获得最高的单位效率。上述25章计划的架构正是为了提供这一桥梁: 一个高难度数学的共同基础、三个子方向的深度钻研,以及一个VLA+SLAM+博士结业项目,其中qm_control、umi-on-legs、ASAP、FALCON和openpi作为五个代码库,逐行研读这些代码将带来最大的研究杠杆效应。