Survey_D2_移动操作
D2 移动操作:VLA 模型已取代 MPC 栈¶
开源生态系统 (2024-2026)¶
D2 是 基础模型已取代经典模型堆栈、成为前沿研究主导方向的子领域。最活跃的代码库包括:Physical-Intelligence/openpi(Apache-2.0 许可,2025 年前快速增长;提供 π0、π0-FAST 和 π0.5 检查点,2025 年 9 月新增 PyTorch 支持); huggingface/lerobot(数万个星标,Apache-2.0;托管 π0 / π0-FAST 移植版本及 LeRobot 原生训练); MarkFzp/mobile-aloha 和 tonyzhaozh/aloha(MIT,双臂移动操作的参考模仿学习栈,孕育了整个ALOHA生态系统);facebookresearch/home-robot**及其后续版本 **stretch-ai(Meta + Hello Robot; 麻省理工学院;适用于 Stretch 类机器人的开放式基线,集成了 SLAM+抓取+VLM);hello-robot/stretch_ros2(BSD-3,生产级);leggedrobotics/ocs2 mobile_manipulator 模块(适用于 Panda-on-Ridgeback 风格配置的标准 SQP+HPIPM NMPC); moveit/moveit2 带伺服电机和任务构造器;ros-navigation/navigation2 (Apache-2.0);real-stanford/universal_manipulation_interface (UMI, MIT,用于便携式夹爪数据采集的模板,后来催生了 UMI-on-Legs); NVIDIA-Omniverse/IsaacLab 移动操作环境;斯坦福Robocasa / RoboCasa(Apache-2.0)用于家庭规模的仿真。已投入生产:MoveIt2、Nav2、stretch_ros2、openpi。研究原型:其余大部分。
代表性硬件平台¶
| 平台 | 底盘 | 机械臂 / 自由度 | 负载 | 年份 | 开放性 |
|---|---|---|---|---|---|
| Fetch | 差动式 | 7自由度机械臂 + 躯干提升 | 6 kg | 2015 | 开放式 ROS,硬件已停产 |
| PR2 (Willow) | 全向 | 2×7-DOF | 1.8 kg/臂 | 2010 | 完全开源,已弃用 |
| 丰田HSR | 全向 | 5-DOF + 抓手 | 1.2 kg | 2017 | 仅限合作伙伴 |
| PAL Tiago++ | 差动/全向 | 1 或 2 × 7-DOF | 3 kg | 2019 | ROS 开源 |
| Stretch 3 (Hello Robot) | 差动 | 棱柱式 + 腕部(有效 5-DOF) | 1.5 kg | 2024 | 完全开源,约 $25,000 |
| Mobile ALOHA | AgileX Tracer(差动) | 2×ViperX 6-DOF | ~0.75 kg/臂 | 2024 | 完全开源,约$32k |
| Galaxea R1 / R1 Pro | 轮式躯干 + 腰部 | 2×7-DOF + 2-DOF 腰部 | 5 kg/臂 | 2024-25 | 部分 SDK |
| AgileX Cobot Magic | 差动式 | 2×6-DOF | 3 kg | 2024 | SDK 开源 |
| Ridgeback + Panda | 全向(麦克纳姆轮) | 7自由度 Franka | 3 kg | — | ROS 开源 |
| Husky + UR5/UR10 | 滑移转向 | 6自由度 UR | 5-10 kg | — | ROS 开源 |
Spot+arm 属于边界情况(腿式而非轮式),归类于 D3 部分。
经典奠基性论文(2022 年前)¶
Khatib,《运动与力控制的统一方法:操作空间建模》(1987年,被引用超过8000次)仍是任务优先级WBC及所有现代分层QP求解器的根基。 Stilman,《可移动障碍物间的导航》(IJRR 2008,约500次引用)至今仍定义着当今TAMP论文中使用的NAMO分类法。Berenson等人,《任务空间区域/CBiRRT》(IJRR 2011)是典型的基于约束流形采样的规划器。 Srinivasa等人,《HERB 2.0:移动机械手开发经验总结》(PIEEE 2012)是系统集成的参考标准。Chitta等人,《MoveIt!》 (ICRA-M 2012) 以及 Quigley 等人的《ROS》 (ICRA 研讨会 2009) 界定了软件基础架构。Sentis 与 Khatib 的《通过行为原语的分层控制合成全身行为》 (IJHR 2005) 奠定了 WBC 研究脉络。 Brock & Khatib 的《弹性带:人类环境中的运动生成框架》(IJRR 2002)奠定了反应式重规划的基础。Diankov 的 OpenRAVE 博士论文(CMU 2010)提供了算法工具包。Bohg 等人的《数据驱动抓取合成——综述》(T-RO 2014,被引用超过1400次)仍是抓取领域文献的权威参考。**Garrett 等人的 PDDLStream(ICAPS 2020)是现代 TAMP 研究的重要切入点。
近期前沿论文(2023-2026)¶
2024-2026年的D2领域文献主要由基于学习的通用模型主导。Fu、Zhao、Finn的《Mobile ALOHA:基于低成本全身遥操作的双臂移动操作学习》(arXiv 2401.02117)点燃了双臂移动操作研究的热潮。 Aloha 2**和**ALOHA Unleashed(DeepMind 2024)实现了数据和扩散策略的规模化。 Black等人,《π0:一种用于通用机器人控制的视觉-语言-动作流模型》(arXiv 2410.24164,Physical Intelligence 2024)提出了基于7种具身形态和68项任务训练的流匹配VLA模型。 《Physical Intelligence》期刊发表的“π0.5:具备开放世界泛化能力的VLA”(arXiv 2504.16054,2025)展示了移动机械臂在**从未见过的住宅中完成10-15分钟的自主厨房/卧室清洁**——这在π0的基础上实现了质的飞跃。 Pertsch等人,《FAST:VLA的高效动作分词》(arXiv 2501.09747,2025)提出了基于DCT的动作分词方法。Open X-Embodiment + RT-X(ICRA 2024最佳论文)建立了跨具身预训练框架。 Kim等人,《OpenVLA》(CoRL 2024)发布了首个70亿参数的开源VLA模型。 NVIDIA GR00T N1(2025年3月)和**GR00T N1.5**(2025年5月,Computex)将双系统VLA(7-9 Hz的VLM系统2 + 动作专家系统1)引入类人机器人,并在**Fourier GR-1和1X NEO**上进行了演示; GR00T N1.5采用流匹配+FLARE潜变量对齐+DreamGen合成数据,仅需单个人类演示即可针对新任务进行微调。Wu等人,《TidyBot:基于大型语言模型的个性化机器人辅助》(AuRo 2023)普及了LLM→操作的架构。 Liu等人,《VoxPoser》(CoRL 2023)将语言映射到3D体素可操作性。OK-Robot(Meta/NYU 2024)、HomeRobot OVMM挑战赛**以及**RoboCasa(斯坦福大学 2024)共同构成了移动操作评估的格局。 Chi等人提出的“Diffusion Policy”(RSS 2023)和 UMI(Chi、Song,RSS 2024)是模仿学习的基石。 总体趋势:到2025年,前沿的D2架构将演变为**SLAM + nav2(导航)+ VLA(操作)+ 稀疏经典抓取备用方案**,而基于MPC的移动操作(OCS2)如今主要作为教育范例。
针对D2的C++库¶
MoveIt 2(任务构造器、Servo、Pilz运动规划器);Nav2**及其MPPI控制器、Smac规划器和TEB局部规划器;**OCS2 mobile_manipulator(适用于Ridgeback+Panda风格的SQP+HPIPM NMPC);Isaac Sim移动操作**环境; 用于抓取候选项的 **contact-graspnet / AnyGrasp / GraspIt! / Dex-Net;PDDLStream / Caelan Garrett TAMP;用于姿态-SLAM集成的 gtsam;通常采用Python实现的LLM编排(LangGraph、LlamaIndex),并通过ROS 2动作向C++暴露接口。 LeRobot 的运行时以 Python 为主,但社区正在将推理功能移植到 libtorch/ONNX-Runtime/TensorRT 以支持边缘部署。
数学增量¶
D2 引入:SE(2) 移动底盘规划(差分/全向/阿克曼运动学)与机械臂运动学耦合; 基于机械臂的雅可比矩阵耦合 J=[J_base | J_arm]∈ℝ^{6×(3+n)};带非全控约束的冗余消解;基于移动底盘的视觉伺服(IBVS/PBVS,存在底盘诱导的可观测性问题); TAMP符号-连续积分(PDDLStream风格);以及至关重要的**VLA动作分段化**(FAST = DCT + 基于50步区段的码本量化),这是一个在机器人学研究生课程中尚属新颖的数学对象,值得单独成章。
博士研究开放性问题(2025-2026)¶
(1) 长时效杂波操控,包含20多个子任务及优雅的故障恢复机制;(2) 基于移动底盘的不确定性感知抓取——底盘漂移估计与抓取重新规划的紧密耦合; (3) 跨具身VLA迁移:从轮式机械臂到腿足+机械臂系统(即物理智能领域所称的“跨具身迁移问题”);(4) 欠驱动机械臂的实时全身MPC(Stretch类棱柱机械臂需要非标准NMPC建模); (5) SLAM与操作的耦合:当机械臂移动同时充当视觉地标的物体时,经典SLAM会失效;(6) VLA + 显式安全(围绕学习策略的正式安全包络)。