P5_经典论文脉络全景

第五部分：经典论文脉络全景¶

前四部分聚焦于教学架构、课程设计和工程工具链。本部分回到学术源头，系统梳理五大方向的经典论文演进脉络。这些论文不仅是前述30章教学大纲中每章"理论背景"的直接参考，也为读者提供了从算法原理到开源实现的完整追溯路径。

本报告系统梳理了机器人规划与控制领域五大方向共计 **110+ 篇经典论文**的完整演进脉络，覆盖从1987年Khatib操作空间控制到2024年VLA基础模型的近四十年发展史。每个方向均以"开山之作→关键迭代→当前SOTA"的逻辑组织，为SLAM工程师理解规控全貌提供论文级参考。五个方向的技术脉络在MPC框架、轨迹优化理论、全身控制范式三个层面深度交叉——掌握其中任一方向的基础理论，都能加速对其余四个方向的理解。

第一章无人机运动规划与控制¶

1.0 方向脉络总览¶

轨迹生成：Mellinger Min-Snap (2011) → Richter Polynomial (2016) → Fast-Planner (2019)
         → EGO-Planner (2021) → MINCO/GCOPTER (2022)

感知-规划：FASTER (2019) → FUEL (2021) → RAPTOR (2021) → RACER (2023, T-RO最佳论文)
          └→ MADER (2022) [多机动态]

控制：Lee SE(3) Geometric (2010) → Mueller Rapid Primitives (2015) → Faessler Diff-Flatness (2018)
     → Agilicious (Sci.Rob. 2022) → Swift RL Racing (Nature 2023)

集群：Crazyswarm (2017) → Vásárhelyi Flocking (Sci.Rob. 2018) → EGO-Swarm (2021)
     → Swarm in the Wild (Sci.Rob. 2022)

1.1 轨迹生成与优化——从minimum-snap到MINCO的十年演进¶

开山之作：Mellinger & Kumar, "Minimum Snap Trajectory Generation and Control for Quadrotors" (ICRA 2011, ~3000引用)。这篇来自UPenn GRASP实验室的论文首次将四旋翼的微分平坦特性与最小化snap（加加加速度）的QP优化结合，将轨迹生成转化为分段多项式上的约束二次规划问题。其数学优美性和实用性使之成为后续几乎所有无人机轨迹规划工作的理论起点。论文无官方开源仓库，但社区复现极多。

Richter, Bry & Roy (Springer 2016, ~1100引用) 在MIT提出了数值更稳定的无约束QP公式，ETH ASL团队基于此实现了 mav_trajectory_generation（GitHub ~750★），成为工业界广泛使用的开源标准。

关键迭代**发生在HKUST和浙大两个实验室。Zhou et al. 的 **Fast-Planner (RA-L 2019, ~1000引用, GitHub HKUST-Aerial-Robotics/Fast-Planner ~2300★) 提出了kinodynamic A*前端+B-spline后端+ESDF梯度优化的完整规划流水线，成为后续多个项目的代码基座。Zhou et al. 的 EGO-Planner (RA-L 2021, ~650引用, GitHub ZJU-FAST-Lab/ego-planner ~1200★) 则消除了对ESDF地图的依赖，直接从碰撞轨迹段提取避障梯度，将规划计算量降低约70%。

当前SOTA**方面，Wang et al. 的 **MINCO/GCOPTER (T-RO 2022, ~400引用, GitHub ZJU-FAST-Lab/GCOPTER ~650★) 引入了一类新的轨迹表示MINCO（Minimum Control），基于无约束控制能量最小化的最优性条件构建稀疏参数化，通过微分平坦映射的反向传播处理各类状态-输入约束，实现了比专用方法快数个数量级的优化速度，成为浙大FAST Lab后续工作的核心骨架。

Mueller, Hehn & D'Andrea 的 Rapid Motion Primitives (T-RO 2015, ~650引用, GitHub markwmuller/RapidQuadrocopterTrajectories ~250★) 提供了运动基元的闭式解，每秒可评估百万级轨迹基元，在搜索式规划中极具价值。

论文	Venue/年份	~引用	GitHub仓库	~Stars
Mellinger & Kumar – Min Snap	ICRA 2011	3,000	社区复现	—
Richter et al. – Polynomial Traj	Springer 2016	1,100	ethz-asl/mav_trajectory_generation	750
Zhou et al. – Fast-Planner	RA-L 2019	1,000	HKUST-Aerial-Robotics/Fast-Planner	2,300
Mueller et al. – Rapid Primitives	T-RO 2015	650	markwmuller/RapidQuadrocopterTrajectories	250
Zhou et al. – EGO-Planner	RA-L 2021	650	ZJU-FAST-Lab/ego-planner	1,200
Zhou et al. – RAPTOR	T-RO 2021	400	Fast-Planner内	—
Wang et al. – GCOPTER/MINCO	T-RO 2022	400	ZJU-FAST-Lab/GCOPTER	650

1.2 感知-规划一体化¶

MIT ACL实验室的 Tordesillas et al. 贡献了 FASTER (IROS 2019/T-RO 2021, ~375引用, mit-acl/faster ~350★)，通过MIQP在已知和未知空间同时规划，配合安全备份轨迹实现了高速未知环境飞行。后续的 MADER (T-RO 2022, ~225引用, mit-acl/mader ~350★) 使用MINVO基为多智能体和动态环境提供分布式轨迹规划。

HKUST Shen组的 FUEL (RA-L 2021, ~450引用, HKUST-Aerial-Robotics/FUEL ~550★) 通过增量维护的前沿信息结构(FIS)实现了3-8倍速于前人的探索效率。其扩展 RACER (T-RO 2023, ~175引用, SYSU-STAR/RACER ~250★) 将这一框架推广到去中心化多机协同探索，并获得了 2023年IEEE T-RO King-Sun Fu最佳论文奖。

1.3 无人机控制¶

开山之作：Lee, Leok & McClamroch, "Geometric Tracking Control of a Quadrotor UAV on SE(3)" (CDC 2010, ~3800引用)。这篇论文在SE(3)特殊欧几里得群上直接设计非线性跟踪控制器，避免了欧拉角/四元数的奇异性和歧义，实现了几乎全局渐近跟踪。这一几何控制框架成为现代四旋翼系统的标准控制方法，GitHub有多语言实现（fdcl-gwu/uav_geometric_control ~250★）。

Faessler et al. (RA-L 2018, ~375引用, uzh-rpg/rpg_quadrotor_control ~350★) 证明了含线性旋翼阻力的四旋翼动力学仍保持微分平坦性质，使高速飞行的前馈控制可直接从参考轨迹计算。

UZH RPG实验室的 Agilicious (Science Robotics 2022, ~250引用, uzh-rpg/agilicious ~550★) 提供了完整的开源开硬件敏捷飞行平台，支持模型控制器和神经网络控制器，在5g/70km/h条件下实现轨迹跟踪。Swift (Kaufmann et al., Nature 2023, ~450引用) 则是首个在真实FPV竞速中击败人类世界冠军的自主系统，使用深度RL+残差动力学模型弥合sim-to-real差距。Flightmare (Song et al., CoRL 2020, ~450引用, uzh-rpg/flightmare ~1100★) 提供了模块化仿真器，解耦渲染与物理引擎，支持数百并行智能体训练。

1.4 集群与多机¶

Crazyswarm (Preiss et al., ICRA 2017, ~550引用, USC-ACTLab/crazyswarm ~550★) 是面向Crazyflie纳米四旋翼的完整集群系统架构，已成为多机器人空中研究的事实标准平台。Vásárhelyi et al. (Science Robotics 2018, ~450引用) 通过进化优化的生物启发群集模型实现了30架无人机8m/s户外无中心控制飞行。

浙大FAST Lab的 EGO-Swarm (ICRA 2021, ~400引用, ZJU-FAST-Lab/ego-planner-swarm ~700★) 将EGO-Planner扩展为去中心化时空轨迹优化。其高光之作 "Swarm of Micro Flying Robots in the Wild" (Science Robotics 2022, ~400引用) 在茂密竹林等非结构化自然环境中实现了微型自主集群导航，登上Science Robotics封面。

1.5 必读清单（15篇）¶

Mellinger & Kumar – Minimum Snap (ICRA 2011)
Lee, Leok, McClamroch – SE(3) Geometric Control (CDC 2010)
Richter, Bry, Roy – Polynomial Trajectory (2016)
Mueller, Hehn, D'Andrea – Rapid Primitives (T-RO 2015)
Zhou et al. – Fast-Planner (RA-L 2019)
Zhou et al. – EGO-Planner (RA-L 2021)
Wang et al. – MINCO/GCOPTER (T-RO 2022)
Tordesillas et al. – FASTER (T-RO 2021)
Zhou et al. – FUEL (RA-L 2021)
Zhou et al. – RACER (T-RO 2023)
Faessler et al. – Diff Flatness with Drag (RA-L 2018)
Foehn et al. – Agilicious (Science Robotics 2022)
Preiss et al. – Crazyswarm (ICRA 2017)
Zhou et al. – Swarm in the Wild (Science Robotics 2022)
Kaufmann et al. – Swift (Nature 2023)

第二章四足机器人运动规划与控制¶

2.0 方向脉络总览¶

经典MPC路线：Di Carlo Convex MPC (IROS 2018) → Kim WBIC (IROS 2019) → Neunert Full-Body NMPC (RA-L 2018)
             → Grandia Feedback MPC (IROS 2019) → OCS2 Framework (持续演进)

轨迹优化/WBC：TOWR (RA-L 2018) → Farshidian SLQ (ICRA 2017) → Crocoddyl (ICRA 2020)
              → Sleiman Loco-Manipulation MPC (RA-L 2021)

强化学习路线：Domain Randomization (IROS 2017) → Hwangbo ANYmal RL (Sci.Rob. 2019)
             → Lee Blind Locomotion (Sci.Rob. 2020) → RMA (RSS 2021) / Legged Gym (CoRL 2021)
             → Miki Perceptive (Sci.Rob. 2022) → Walk These Ways (CoRL 2022)
             → Extreme Parkour / Robot Parkour (CoRL 2023 / ICRA 2024)

Sim-to-Real：Domain Randomization → Teacher-Student Distillation → Adaptation Modules
            → Vision-Proprioception Coupling → Neural Volumetric Memory

2.1 经典MPC+启发式控制——MIT/ETH双主线¶

开山之作：Di Carlo et al., "Dynamic Locomotion in the MIT Cheetah 3 Through Convex Model-Predictive Control" (IROS 2018, ~700+引用)。这篇来自MIT仿生机器人实验室的论文将四足力规划建模为单刚体动力学上的凸MPC问题，在20-30Hz频率下以不到1ms的时间求解到全局最优，用同一组参数实现了trot、gallop、bound、pace等多种步态，最高速度3m/s。其简洁有力的凸优化建模方式成为后续几乎所有MPC四足控制器的基准。

Kim et al. (IROS 2019, ~350引用, mit-biomimetics/Cheetah-Software ~1200★ C++) 在此基础上提出了WBIC（全身脉冲控制），将MPC输出的反力指令转化为全身力矩，在Mini Cheetah上实现了3.7m/s奔跑（Froude数~7）。**MPC+WBC的分层控制范式**自此成为四足控制的标准架构。

ETH方面，Neunert et al. (RA-L 2018, ~350引用, ethz-adrl/control-toolbox ~800★ C++) 率先实现了基于全刚体动力学的实时NMPC，在0.5秒时域内以190Hz求解，接触序列和时序均由求解器自动优化。这一工作演化为 OCS2框架 (Farshidian et al., leggedrobotics/ocs2 ~1500★ C++，持续维护)，提供SLQ/DDP/SQP/IPM多种求解器和ROS接口，成为ETH腿式机器人研究的工程骨干。Grandia et al. (IROS 2019, ~150引用) 进一步引入频率整形代价函数，抑制SEA柔性驱动器引起的高频振荡。

2.2 全身动力学与轨迹优化¶

TOWR (Winkler et al., RA-L 2018, ~400引用, ethz-adrl/towr ~900★ C++) 是最具影响力的腿式轨迹优化开源库，同时优化步态序列、落足点、摆腿运动和六自由度机体运动，仅约6000行代码，在100ms内完成求解，覆盖单足跳、双足行走、四足trot等多种形态。

Crocoddyl (Mastalli et al., ICRA 2020, ~350引用, loco-3d/crocoddyl ~800★ C++/Python，活跃维护) 提出了可行性驱动的DDP (FDDP)，使用Pinocchio提供稀疏解析导数和SE(3)几何运算，是OCS2之外最主要的接触丰富轨迹优化开源框架，广泛用于人形和四足研究。

Sleiman et al. (RA-L 2021, ~250引用) 将运动和操作统一为单一多接触最优控制问题，在ANYmal+DynaArm上实现实时MPC同时控制行走和门把手操作——这是四足操作(loco-manipulation)方向的里程碑。

2.3 强化学习控制——从sim-to-real的突破到极限跑酷¶

开山之作：Hwangbo et al., "Learning Agile and Dynamic Motor Skills for Legged Robots" (Science Robotics 2019, ~1500引用)。这是RL应用于复杂四足系统并成功sim-to-real迁移的首个里程碑。核心创新是使用神经网络学习精确的电机动力学模型（actuator network），在仿真中弥合了现实差距。ANYmal上实现了比MPC更快、更节能的运动和跌倒恢复。RaiSim仿真器（raisimTech/raisimLib）配套发布。

Lee et al. (Science Robotics 2020, ~1100引用) 证明仅使用本体感知（盲行）+简单地形仿真训练的策略，通过teacher-student蒸馏和时序卷积网络，即可零样本迁移到泥地、雪地、碎石、植被等极端环境，开创了"简单仿真→激进现实鲁棒性"的范式。

Kumar et al. 的RMA (RSS 2021, ~500引用) 提出了两阶段训练：先训练以环境外参为条件的基策略，再通过监督学习从本体感知历史预测外参的适应模块，实现毫秒级实时适应。这一自适应模块范式与teacher-student蒸馏并列，成为sim-to-real的两大主流路线。

Rudin et al. 的Legged Gym (CoRL 2021, ~700引用, leggedrobotics/legged_gym ~2500★ Python) 利用NVIDIA Isaac Gym的GPU并行仿真（4096机器人同时训练），将运动策略训练缩短到4分钟（平地）/20分钟（崎岖地形），引入游戏式地形课程。这一仓库彻底民主化了RL四足研究，后续绝大多数RL运动论文都基于此代码库。

Miki et al. (Science Robotics 2022, ~600引用) 结合LiDAR高程图和本体感知，使用teacher-student框架在ANYmal上实现了最鲁棒的感知运动。Margolis & Agrawal 的Walk These Ways (CoRL 2022, ~250引用, Improbable-AI/walk-these-ways ~600★ Python) 提出了行为多样性(MoB)框架，学习单个策略编码可实时调节的步态参数族，成为Go1/A1社区的标准开源控制器。

极限前沿：Cheng et al. 的 Extreme Parkour (ICRA 2024, ~200引用, chengxuxin/extreme-parkour ~500★) 和 Zhuang et al. 的 Robot Parkour Learning (CoRL 2023 Best Systems Paper候选, ~150引用, ZiwenZhuang/parkour ~400★) 各自在低成本四足上实现了端到端视觉驱动的跳跃、攀爬和钻缝。

论文	Venue/年份	~引用	GitHub	~Stars
Di Carlo et al. – Convex MPC	IROS 2018	700	mit-biomimetics/Cheetah-Software	1,200
Kim et al. – WBIC	IROS 2019	350	同上	—
Neunert et al. – Full-Body NMPC	RA-L 2018	350	ethz-adrl/control-toolbox	800
Grandia et al. – Feedback MPC	IROS 2019	150	leggedrobotics/ocs2	1,500
Winkler et al. – TOWR	RA-L 2018	400	ethz-adrl/towr	900
Farshidian et al. – SLQ/OCS2	ICRA 2017+	250+	leggedrobotics/ocs2	1,500
Mastalli et al. – Crocoddyl	ICRA 2020	350	loco-3d/crocoddyl	800
Sleiman et al. – Loco-Manipulation	RA-L 2021	250	基于OCS2	—
Bellicoso et al. – ANYmal Dynamic	RA-L 2018	250	RSL内部	—
Hwangbo et al. – ANYmal RL	Sci.Rob. 2019	1,500	raisimTech/raisimLib	—
Lee et al. – Blind Locomotion	Sci.Rob. 2020	1,100	未公开	—
Miki et al. – Perceptive Locomotion	Sci.Rob. 2022	600	未公开	—
Rudin et al. – Legged Gym	CoRL 2021	700	leggedrobotics/legged_gym	2,500
Kumar et al. – RMA	RSS 2021	500	ashish-kmr/rma-legged-robots	—
Margolis & Agrawal – Walk These Ways	CoRL 2022	250	Improbable-AI/walk-these-ways	600
Cheng et al. – Extreme Parkour	ICRA 2024	200	chengxuxin/extreme-parkour	500
Zhuang et al. – Robot Parkour	CoRL 2023	150	ZiwenZhuang/parkour	400
Fu et al. – Deep Whole-Body Control	CoRL 2022	200	—	—
Fu et al. – VP-Nav	CVPR 2022	200	—	—
Tobin et al. – Domain Randomization	IROS 2017	3,300	概念性，无单一仓库	—
Smith et al. – Keep on Learning	ICRA 2022	150	—	—
Yang et al. – Neural Volumetric Memory	CVPR 2023	80	—	—

2.4 必读清单（15篇）¶

Di Carlo et al. – Convex MPC (IROS 2018)
Kim et al. – WBIC + Mini Cheetah (IROS 2019)
Neunert et al. – Whole-Body NMPC (RA-L 2018)
Winkler et al. – TOWR (RA-L 2018)
Mastalli et al. – Crocoddyl (ICRA 2020)
Hwangbo et al. – ANYmal RL (Science Robotics 2019)
Lee et al. – Blind Locomotion (Science Robotics 2020)
Kumar et al. – RMA (RSS 2021)
Rudin et al. – Legged Gym (CoRL 2021)
Miki et al. – Perceptive Locomotion (Science Robotics 2022)
Margolis & Agrawal – Walk These Ways (CoRL 2022)
Tobin et al. – Domain Randomization (IROS 2017)
Sleiman et al. – Loco-Manipulation MPC (RA-L 2021)
Cheng et al. – Extreme Parkour (ICRA 2024)
OCS2 Framework (leggedrobotics/ocs2)

第三章轮足/腿轮混合机器人¶

3.0 方向脉络总览¶

早期探索：RHex (IJRR 2001) → Shrimp Rover (RAS 2002) [轮腿边界模糊的先驱]

优化控制路线（ETH ANYmal-on-Wheels）：
  Keep Rollin' (RA-L 2019) → Rolling in the Deep (RA-L 2020)
  → Whole-Body MPC (IROS 2021) → Lee et al. RL for WL (Sci.Rob. 2024, Swiss-Mile)

Cassie双足RL路线：Xie RL for Cassie (IROS 2018) → Gong Model-Based (ACC 2019)
  → Siekmann All Gaits (ICRA 2021) → Li Versatile Locomotion (ICRA 2021 → IJRR 2024)

其他形态：CENTAURO (RA-L 2019) → Ascento (ICRA 2019/2020)
          → Skaterbots (SIGGRAPH 2018) [计算设计]

3.1 ETH ANYmal-on-Wheels——从优化到学习的四篇递进¶

ETH RSL的Bjelonic主导了轮足四足机器人最系统的研究线。Keep Rollin' (RA-L 2019, ~300引用) 首次在力矩控制四足上展示了ZMP优化+分层全身控制的动态轮足混合运动，实现4m/s速度和比纯足行走低83%的能耗。Rolling in the Deep (RA-L 2020, ~150引用) 将方法扩展到在线MPC轨迹优化，在DARPA SubT挑战赛中实战验证。Whole-Body MPC (IROS 2021, ~120引用) 将轮和躯干运动统一到单一运动学动力学模型的MPC中，自动发现混合运动策略而无需手工设计启发式。

这条路线的 集大成之作**是 Lee et al. **"Learning Robust Autonomous Navigation and Locomotion for Wheeled-Legged Robots" (Science Robotics 2024, ~80引用，快速增长)。这是Swiss-Mile公司的技术论文，将RL运动控制（平滑行走/驱动切换）、移动感知导航和城市级路径规划完整集成，在苏黎世和塞维利亚实现了公里级自主城市导航，平均1.68m/s，比纯足ANYmal低53%的能耗。

3.2 Cassie/Digit双足RL路线¶

虽然严格来说是双足而非轮足，但Cassie平台的RL控制研究与轮足机器人共享核心技术。Xie et al. (IROS 2018, ~450引用, osudrl/cassie-mujoco-sim ~200★) 首次展示了深度RL在真实双足模型上的可行性。Siekmann et al. (ICRA 2021, ~250引用) 通过周期奖励合成实现了所有常见双足步态的sim-to-real迁移。Li et al. 从ICRA 2021 (~350引用, HybridRobotics/cassie_rl_walking ~100★) 演进到 IJRR 2024 综合版本，在真实Cassie上实现了3.4m/s奔跑和多种跳跃技能。Gong et al. (ACC 2019, ~350引用) 提供了基于虚拟约束的模型控制基线，其中Cassie骑Segway的演示是独特的轮足混合展示。

3.3 其他形态¶

CENTAURO (Kashiri et al., RA-L 2019, ~200引用) 是IIT的半人马形轮足操作平台，四条带可操纵轮的腿+人形上身，面向灾难响应场景。Ascento (Klemm et al., ICRA 2019, ~180引用) 是ETH的紧凑两轮双足机器人，8km/h速度+40cm跳跃高度。Skaterbots (SIGGRAPH 2018, ~80引用) 从计算设计角度对任意腿-轮组合进行设计优化和轨迹优化。RHex (Saranli et al., IJRR 2001, ~1200引用) 作为旋转柔性腿六足的经典先驱，模糊了轮与腿的边界。

3.4 必读清单（10篇）¶

Bjelonic et al. – Keep Rollin' (RA-L 2019)
Bjelonic et al. – Whole-Body MPC for WL (IROS 2021)
Lee et al. – Swiss-Mile (Science Robotics 2024)
Xie et al. – RL for Cassie (IROS 2018)
Siekmann et al. – All Bipedal Gaits (ICRA 2021)
Li et al. – Versatile Bipedal Locomotion (IJRR 2024)
Gong et al. – Cassie Feedback Control (ACC 2019)
Kashiri et al. – CENTAURO (RA-L 2019)
Klemm et al. – Ascento (ICRA 2019)
Saranli et al. – RHex (IJRR 2001)

第四章移动操作¶

4.0 方向脉络总览¶

经典规划：NAMO (IJRR 2008) → CBiRRT/TSR (IJRR 2011) → HERB (Proc.IEEE 2012)
         → HPN/TAMP (ICRA 2011) → PDDLStream (ICAPS 2020) → SayCan (CoRL 2022)

足式操作：ALMA (ICRA 2019) → Sleiman Unified MPC (RA-L 2021) → Guided RL (2024)

基础模型：Levine Visuomotor (JMLR 2016) → QT-Opt (CoRL 2018) → RT-1 (RSS 2023)
         → RT-2 VLA (2023) → Open X-Embodiment (ICRA 2024) → Octo / OpenVLA (2024)
         ACT/ALOHA (RSS 2023) → Mobile ALOHA (2024)
         Diffusion Policy (RSS 2023) → π₀系列

全身控制：Khatib Operational Space (1987) → Sentis WBC (2005/2006)
         → Dietrich Impedance (2015) → OCS2 WB-MPC (持续)

4.1 经典规划——从NAMO到基于LLM的任务规划¶

Stilman & Kuffner 的 NAMO (IJRR 2008, ~350引用) 定义了NP-hard的可移动障碍物导航问题，通过逆向规划的人工约束指数级缩减搜索空间。Berenson et al. 的 TSR/CBiRRT (IJRR 2011, ~600引用) 引入了任务空间区域作为末端约束的直觉化、可高效采样的表示，CBiRRT2成为约束操作规划的标准方法。HERB (Srinivasa et al., Autonomous Robots 2010 / Proc. IEEE 2012, ~1000+引用) 是CMU最有影响力的移动操作平台之一，集成了感知、规划(CBiRRT)和人机交互。

任务与运动规划(TAMP)方向，Kaelbling & Lozano-Pérez 的 HPN (ICRA 2011/IJRR 2013, ~1200引用) 引入了激进层次化分解和"planning in the now"概念。Garrett et al. 的 PDDLStream (ICAPS 2020, caelan/pddlstream ~800★ Python) 通过将PDDL扩展为"流"（用户自定义的连续参数采样函数），实现了符号任务规划与采样运动规划的无缝集成，成为TAMP领域的事实标准框架。

SayCan (Ahn et al., CoRL 2022, ~2500引用) 是连接大语言模型与机器人的分水岭论文，将LLM的任务相关性评分与学习的价值函数（执行可行性）结合，开启了"LLM for Robotics"范式。

4.2 足式操作¶

Bellicoso et al. 的 ALMA (ICRA 2019, ~150引用) 率先在ANYmal+机械臂上实现了动态行走时的同步操作。Sleiman et al. (RA-L 2021, ~250引用) 通过在OCS2框架上统一多接触最优控制显著推进了这一方向，后续2024年的工作将MPC轨迹优化与RL结合，实现鲁棒的弹簧门和重型洗碗机操作。

4.3 基础模型时代——从ACT到VLA¶

开山之作：Chi et al., "Diffusion Policy: Visuomotor Policy Learning via Action Diffusion" (RSS 2023, ~2160引用, real-stanford/diffusion_policy ~5000★)。将视觉运动策略表示为条件去噪扩散过程，自然处理多模态动作分布和高维动作空间，在15个任务上平均提升46.9%。这是2023年机器人学领域被引最多的论文，建立了扩散模型作为机器人策略学习主导范式的地位。

Zhao et al. 的ACT/ALOHA (RSS 2023, ~800引用, tonyzhaozh/act ~4000★) 以不到2万美元成本的双臂遥操作系统+Action Chunking with Transformers算法，仅10分钟演示数据即实现80-90%的精细双手操作成功率。Mobile ALOHA (Fu et al., 2024, ~438引用, mobile-aloha ~4370★) 将其扩展到移动底盘并发现了co-training的关键效果。

Google系列的 RT-1 (RSS 2023, ~1500引用, google-research/robotics_transformer ~2500★) 在130k真实演示上训练Transformer策略覆盖700+任务，开创了"机器人基础模型"范式。RT-2 (~822引用) 首次将VLM直接微调为VLA（Vision-Language-Action模型），使网络规模知识迁移到机器人控制。Open X-Embodiment (ICRA 2024, ~800引用, open_x_embodiment ~800★) 汇集21个机构的百万级跨具身数据集。OpenVLA (Kim et al., 2024, ~400引用, openvla/openvla ~3000★) 以7B参数在29个任务上超越55B RT-2-X达16.5%。Octo (RSS 2024, ~300引用, octo-models/octo ~3500★) 提供了93M参数的开源通用机器人策略。

4.4 全身控制理论¶

Khatib (IJRA 1987, ~5500+引用) 的操作空间公式是所有任务空间控制的根基。Sentis & Khatib (IJHR 2005/ICRA 2006, ~800引用) 将其扩展到全身人形控制的层次化任务优先级框架。Dietrich et al. (IJRR 2015, ~500引用) 提供了冗余机器人零空间投影和全身阻抗控制的严格稳定性分析。

4.5 必读清单（15篇）¶

Khatib – Operational Space (IJRA 1987)
Sentis & Khatib – Whole-Body Control (2005/2006)
Stilman & Kuffner – NAMO (IJRR 2008)
Berenson et al. – TSR/CBiRRT (IJRR 2011)
Kaelbling & Lozano-Pérez – HPN (ICRA 2011)
Garrett et al. – PDDLStream (ICAPS 2020)
Ahn et al. – SayCan (CoRL 2022)
Sleiman et al. – Unified Loco-Manipulation MPC (RA-L 2021)
Levine et al. – Deep Visuomotor Policies (JMLR 2016)
Chi et al. – Diffusion Policy (RSS 2023)
Zhao et al. – ACT/ALOHA (RSS 2023)
Fu et al. – Mobile ALOHA (2024)
Brohan et al. – RT-1 (RSS 2023)
Brohan et al. – RT-2 (2023)
Kim et al. – OpenVLA (2024)

第五章机械臂运动规划与控制¶

5.0 方向脉络总览¶

采样规划：PRM (T-RA 1996) → RRT (1998) → RRT-Connect (ICRA 2000)
         → RRT*/PRM* (IJRR 2011) → BIT* (ICRA 2015) → VAMP (RSS 2024)
         └→ OMPL (RAM 2012) → MoveIt (2014)

轨迹优化：CHOMP (ICRA 2009 → IJRR 2013) → STOMP (ICRA 2011)
         → TrajOpt (RSS 2013) → GPMP2 (IJRR 2018) → cuRobo (ICRA 2023)

逆运动学/动力学：Featherstone ABA (2008) → OpenRAVE/IKFast (2010) → TRAC-IK (2015)
               → Pinocchio (2019) → Drake (持续)

反应式控制：Khatib Operational Space (1987) → Sentis WBC (2005)
           → Ruckig (RA-L 2021) → cuRobo/VAMP (2023-2024)

学习型操作：Levine Visuomotor (2016) → QT-Opt (2018) → Dex-Net (2017)
           → Diffusion Policy (2023) → ACT/ALOHA (2023) → VLA系列 (2024)

5.1 采样规划——从PRM到VAMP的近三十年¶

开山之作一：Kavraki et al., "Probabilistic Roadmaps for Path Planning in High-Dimensional Configuration Spaces" (T-RA 1996, ~7500引用)。PRM引入了"学习-查询"两阶段框架：预计算阶段随机采样无碰撞构型并通过局部规划器连接为路标图，查询阶段在图上搜索路径。这是概率完备运动规划的开山之作。

开山之作二：LaValle, "Rapidly-exploring Random Trees" (TR 1998, ~5850引用)。RRT通过迭代地向随机采样点生长空间填充树，利用Voronoi偏置实现对高维空间的激进探索。Kuffner & LaValle 的 RRT-Connect (ICRA 2000, ~5500引用) 将其发展为双向搜索并加入贪心Connect启发式，成为MoveIt中的默认规划器和最常用的单查询规划算法。

Karaman & Frazzoli (IJRR 2011, ~7500引用) 的里程碑论文严格证明了标准RRT和PRM几乎必然收敛到次优解，然后提出了 RRT*和PRM*——通过近邻重连(rewiring)保证渐近最优性的变体。这是采样规划领域理论最重要的贡献之一。Gammell et al. 的BIT* (ICRA 2015, ~700引用) 将图搜索(A*)和采样规划(RRT*)的优势结合，使用启发式引导的隐式随机几何图批量搜索，收敛速度远超RRT*。

OMPL (Şucan, Moll, Kavraki, RAM 2012, ~1900引用, ompl/ompl ~1200★ C++) 是包含数十种采样规划算法的开源库，解耦了状态空间、碰撞检测和可视化接口，成为MoveIt的规划引擎和应用最广泛的运动规划库。MoveIt (Coleman et al., 2014, ~600引用, moveit/moveit2 ~2800★) 是最广泛采用的操作软件框架，集成OMPL、IKFast/TRAC-IK、OctoMap等，戏剧性降低了操作部署门槛。

最新SOTA：cuRobo (Sundaralingam et al., ICRA 2023, ~200引用, NVlabs/curobo ~1300★) 利用GPU大规模并行运行数千轨迹优化种子，实现比CPU规划快10-100倍的无碰撞运动生成。VAMP (Thomason et al., RSS 2024, ~40引用, KavrakiLab/vamp ~200★) 则证明在标准CPU上通过SIMD向量化和缓存感知数据结构，可将采样规划加速到微秒级。

5.2 轨迹优化——四大经典方法¶

CHOMP (Ratliff et al., ICRA 2009, ~1200引用; Zucker et al., IJRR 2013, ~1000引用) 使用协变梯度下降同时优化轨迹光滑性和避障性，可从直线初始轨迹出发迭代拉出碰撞。IJRR版本增加了Hamiltonian Monte Carlo逃逸局部极小和硬约束支持。STOMP (Kalakrishnan et al., ICRA 2011, ~1000引用) 使用随机轨迹滚动探索代价景观，不需要梯度信息，可优化非可微代价函数（如力矩限制）。TrajOpt (Schulman et al., RSS 2013, ~1200引用, joschu/trajopt) 将运动规划建模为序列凸优化(SQP)，使用符号距离场做连续时间碰撞检查，收敛速度极快。GPMP2 (Mukadam et al., IJRR 2018, ~350引用, gtrll/gpmp2 ~350★) 将运动规划建模为高斯过程因子图上的概率推断，优雅统一了轨迹光滑性和避障。

5.3 逆运动学与动力学库¶

Featherstone 的 Rigid Body Dynamics Algorithms (Springer 2008, ~5500引用) 是刚体动力学的权威参考，定义了空间代数符号和O(n)递推算法（RNEA、ABA、CRBA），是几乎所有现代机器人动力学库的数学基础。

Pinocchio (Carpentier et al., SII 2019, ~400引用, stack-of-tasks/pinocchio ~3100★ C++) 是Featherstone算法的高性能C++实现，提供解析导数、Lie群运算和自动微分兼容，是Crocoddyl和OCS2的动力学引擎。Drake (Tedrake et al., MIT/TRI, RobotLocomotion/drake ~3500★ C++/Python) 是综合性工具箱，提供多体动力学仿真（含复杂接触/摩擦）、基于优化的规划控制和数学规划接口。

TRAC-IK (Beeson & Ames, Humanoids 2015, ~350引用, traclabs/trac_ik ~200★) 并行运行两个IK求解器（SQP+随机重启Jacobian），求解率和速度远超KDL，成为MoveIt推荐的IK插件。IKFast/OpenRAVE (Diankov PhD 2010, ~700引用, rdiankov/openrave ~650★) 自动生成解析IK的C++代码，求解速度达微秒级。

5.4 实时与反应式控制¶

开山之作：Khatib, "A Unified Approach for Motion and Force Control of Robot Manipulators: The Operational Space Formulation" (IJRA 1987, ~5500引用)。这是机器人学被引用最多的论文之一，建立了直接在任务空间（而非关节空间）分析和控制操作臂的统一框架。操作空间公式推导了末端执行器动力学方程，解耦了任务空间和零空间行为，使运动控制和力控制统一表达，并解决了冗余分解和奇异性问题。后续所有任务空间控制方法——Sentis全身控制、Dietrich阻抗控制、现代QP全身控制——都以此为根基。

Ruckig (Berscheid & Kröger, RA-L 2021, ~150引用, pantor/ruckig ~700★) 提供时间最优、三阶（jerk受限）在线轨迹生成，计算时间<1μs，已集成到MoveIt 2和CoppeliaSim。

5.5 学习型操作¶

开山之作：Levine et al., "End-to-End Training of Deep Visuomotor Policies" (JMLR 2016, ~3500引用, cbfinn/gps ~800★)。首次展示了深度CNN从原始相机图像到电机力矩的端到端策略学习，使用引导策略搜索(GPS)让轨迹优化为策略学习提供监督，证明了联合训练感知和控制优于模块化方法。

QT-Opt (Kalashnikov et al., CoRL 2018, ~1200引用) 用分布式Q-learning在580k次真实抓取尝试上训练，达到96%抓取成功率。Dex-Net 2.0 (Mahler et al., RSS 2017, ~900引用, BerkeleyAutomation/dex-net ~500★) 在670万合成点云上训练GQ-CNN，实现0.8秒的鲁棒抓取规划。

Diffusion Policy、ACT/ALOHA和VLA系列的详细信息已在第四章覆盖，此处不再重复。这些工作同时属于机械臂操作和移动操作两个方向。

论文	Venue/年份	~引用	GitHub	~Stars
Kavraki et al. – PRM	T-RA 1996	7,500	ompl/ompl	1,200
LaValle – RRT	TR 1998	5,850	ompl/ompl	—
Kuffner & LaValle – RRT-Connect	ICRA 2000	5,500	ompl/ompl	—
Karaman & Frazzoli – RRT/PRM	IJRR 2011	7,500	ompl/ompl	—
Şucan et al. – OMPL	RAM 2012	1,900	ompl/ompl	1,200
Gammell et al. – BIT*	ICRA 2015	700	ompl/ompl	—
Ratliff et al. – CHOMP	ICRA 2009	1,200	moveit/moveit	1,800
Zucker et al. – CHOMP (IJRR)	IJRR 2013	1,000	moveit/moveit	—
Kalakrishnan et al. – STOMP	ICRA 2011	1,000	ros-industrial/stomp	60
Schulman et al. – TrajOpt	RSS 2013	1,200	joschu/trajopt	—
Mukadam et al. – GPMP2	IJRR 2018	350	gtrll/gpmp2	350
Khatib – Operational Space	IJRA 1987	5,500	概念性	—
Featherstone – RBDA	Book 2008	5,500	rbdl/rbdl	680
Carpentier et al. – Pinocchio	SII 2019	400	stack-of-tasks/pinocchio	3,100
Beeson & Ames – TRAC-IK	Humanoids 2015	350	traclabs/trac_ik	200
Diankov – IKFast/OpenRAVE	PhD 2010	700	rdiankov/openrave	650
Tedrake et al. – Drake	持续	—	RobotLocomotion/drake	3,500
Coleman et al. – MoveIt	JOSER 2014	600	moveit/moveit2	2,800
Berscheid et al. – Ruckig	RA-L 2021	150	pantor/ruckig	700
Sundaralingam et al. – cuRobo	ICRA 2023	200	NVlabs/curobo	1,300
Thomason et al. – VAMP	RSS 2024	40	KavrakiLab/vamp	200
Levine et al. – Visuomotor	JMLR 2016	3,500	cbfinn/gps	800
Kalashnikov et al. – QT-Opt	CoRL 2018	1,200	未公开	—
Mahler et al. – Dex-Net 2.0	RSS 2017	900	BerkeleyAutomation/dex-net	500

5.5 必读清单（15篇）¶

Kavraki et al. – PRM (T-RA 1996)
LaValle – RRT (TR 1998)
Kuffner & LaValle – RRT-Connect (ICRA 2000)
Karaman & Frazzoli – RRT*/PRM* (IJRR 2011)
Ratliff et al. / Zucker et al. – CHOMP (ICRA 2009 / IJRR 2013)
Schulman et al. – TrajOpt (RSS 2013)
Khatib – Operational Space (IJRA 1987)
Featherstone – Rigid Body Dynamics Algorithms (2008)
Carpentier et al. – Pinocchio (SII 2019)
Şucan et al. – OMPL (RAM 2012)
Coleman et al. – MoveIt (2014)
Levine et al. – Deep Visuomotor Policies (JMLR 2016)
Chi et al. – Diffusion Policy (RSS 2023)
Sundaralingam et al. – cuRobo (ICRA 2023)
Mahler et al. – Dex-Net 2.0 (RSS 2017)

第六章五大方向的交叉联系¶

MPC框架是最大的技术公约数¶

无人机（minimum-snap QP → 时域MPC）、四足（Di Carlo凸MPC → OCS2 NMPC）、轮足（Bjelonic Whole-Body MPC）、移动操作（Sleiman Unified MPC）四个方向都以模型预测控制为核心。OCS2 作为通用切换系统最优控制框架同时服务于四足、轮足和移动操作三个方向。学会OCS2的SLQ/DDP求解器和ROS接口，可以一石三鸟。

轨迹优化的方法论迁移¶

机械臂的CHOMP/TrajOpt概念（目标函数 = 光滑性 + 碰撞代价）直接映射到无人机的B-spline优化（Fast-Planner）和四足的TOWR/Crocoddyl。GPMP2的高斯过程因子图方法也被扩展到腿式接触规划。

全身控制的层次化范式¶

Khatib操作空间(1987) → Sentis全身控制(2005) → 四足WBC(Kim WBIC 2019) → 移动操作WBC(Sleiman 2021) 形成了一条清晰的技术传承链。理解操作空间公式和零空间投影是掌握所有方向全身控制的前提。

强化学习与sim-to-real的跨方向扩散¶

Domain Randomization (Tobin 2017) → 四足RL (Hwangbo 2019) → Legged Gym (Rudin 2021) 的技术链已扩散到无人机（Swift, Nature 2023）、轮足（Swiss-Mile, Science Robotics 2024）和操作（Diffusion Policy, ACT）。Teacher-student蒸馏和adaptation module两大范式在所有方向通用。

开源基础设施的贯穿作用¶

五个方向共享的底层基础设施包括：Pinocchio（动力学引擎，被Crocoddyl/OCS2/Drake共同使用）、OMPL/MoveIt（采样规划，从机械臂扩展到移动操作）、Isaac Gym/Isaac Lab（GPU并行训练，从四足扩展到全平台）。掌握这些核心库是所有方向的工程入门点。

基础模型的统一趋势¶

RT-1/RT-2 → Open X-Embodiment → OpenVLA/Octo 的演进正在模糊机械臂操作、移动操作和足式操作的边界。跨具身学习意味着在一个平台上收集的数据可以加速另一个平台的策略训练，五个方向的操作端正在向统一的VLA基础模型收敛。

注意事项：所有引用数为截至2026年4月的Google Scholar近似值，可能有10-20%浮动。GitHub Stars为近似值且持续变化。快速增长的论文（如Diffusion Policy、OpenVLA）实际引用可能显著高于报告数值。部分ETH RSL、MIT和Google内部代码未完全公开，但其核心贡献已被广泛复现。