跳转至

10_多机器人协作总论

多机器人协作规划与控制 C++ 进阶教学大纲(v0.1 · 八段式完整版)

定位:本大纲是规划与控制 C++ 进阶体系的**多机协作增量扩展**,面向已掌握单体腿足 MPC(OCS2/Crocoddyl/Pinocchio)、单体机械臂规控(MoveIt2/Pinocchio)和 RL 基础(PPO/SAC/IsaacLab)的机器人算法工程师,从**单体规控扩展到多机器人协作规控**。

覆盖的机器人类型: - 同构多机:多四足协同搬运(如双 Go2 搬运大物体)、多臂协同装配、四足+臂协同操作 - 异构多机:四足+无人机地空联合、四足+固定基座机械臂配合、地面+空中联合任务 - 明确排除:纯无人机集群(已有 EGO-Swarm/MADER 大纲覆盖),仅做简要对照

覆盖的技术层次:规控层(分布式 MPC、协同 WBC、阻抗协调)+ 任务分配层(CBBA/拍卖/MAPF)+ 通信与共识层(Laplacian 共识、延迟补偿)+ MARL 层(MAPPO/HAPPO/安全 MARL)

与已有大纲的关系:与腿足大纲 Ch47-70(单体四足/人形 MPC+RL)、机械臂大纲 M1-M15(单体操作规划)、复合机器人大纲 Ch71-100(单体 loco-manipulation)构成完整的"单体→多体"扩展链。

章节编号:共 13 章,约 22 周。Part 1(Ch1-Ch3,基础)→ Part 2(Ch4-Ch6,协同运动)→ Part 3(Ch7-Ch9,协同操作)→ Part 4(Ch10-Ch12,MARL)→ Part 5(Ch13,综合实战)。

数据基础:基于 35+ 篇顶会/顶刊论文(T-RO/RA-L/RSS/ICRA/IROS/CoRL/NeurIPS/ICLR/AAMAS/L4DC)、15+ 个开源项目、多轮深度调研的交叉验证。

前置假设:学员已掌握——OCS2/Crocoddyl 单体 MPC、Pinocchio 动力学、MoveIt2 运动规划、PPO/SAC RL 训练、IsaacLab 仿真、ROS2 高级(lifecycle/component/DDS)。在此基础上切入多机协作**不需要重新学单体规控**,只需补"图论共识 + 分布式优化 + 协同力学 + MARL"。

风格对齐:沿用本文档统一的**八段式**章节结构。

核心实验室缩写:Caltech AMBER(Ames/Hamed 组,多足协同 MPC+CBF)、ETH RSL(Hutter 组,多足学习)、Virginia Tech HARRIET(Hamed 组,分布式腿足控制)、MIT REALM(Fan 组,GCBF+ 安全)、MIT ACL(How 组,CBBA 任务分配)、CMU RI(多机协调)、Stanford MSL(Pavone 组,多机协调)、PKU(Kuba/HARL 多智能体 RL)、Tsinghua(MAPPO/Yu 组)、Stanford Zhao/Finn(Mobile ALOHA 双臂)、NTU(Verginis 协同操作)、KTH(Dimarogonas 分布式控制)、ETH CRL(De Vincenti/Coros 协同 loco-manipulation)。


整体路线图

单体规控基础已完成
  ├── 腿足 MPC: OCS2/Crocoddyl + WBC
  ├── 机械臂: MoveIt2 + Pinocchio
  ├── RL: PPO/SAC + IsaacLab
  └── ROS2: lifecycle/component/DDS
┌──────────────────────────────────────────────────────┐
│ Part 1:多机器人协作基础(Ch1-Ch3,~5 周)              │
│   Ch1 多机系统全景——架构、拓扑与建模                    │
│   Ch2 共识算法与分布式优化                             │
│   Ch3 多机任务分配与路径规划(CBBA/CBS/MAPF)           │
└──────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────┐
│ Part 2:多机协同运动规控(Ch4-Ch6,~5 周)              │
│   Ch4 分布式 MPC 用于多足编队与协同运动                 │
│   Ch5 多机协同搬运与力控——grasp matrix 与内力分配       │
│   Ch6 异构多机协同规划——地空联合与能力互补              │
└──────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────┐
│ Part 3:多机器人协同操作(Ch7-Ch9,~5 周)              │
│   Ch7 双臂与多臂协同操作——闭链运动学与力分配            │
│   Ch8 多足协同 loco-manipulation——协同步态与负载分配    │
│   Ch9 人形/四足+臂协同——层次化全身协同控制              │
└──────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────┐
│ Part 4:多智能体 RL 与混合范式(Ch10-Ch12,~5 周)       │
│   Ch10 MARL 基础——CTDE / MAPPO / QMIX / HAPPO         │
│   Ch11 MARL 用于多机器人运动协调                        │
│   Ch12 MARL + 传统规控混合架构与安全约束                │
└──────────────────────────────────────────────────────┘
┌──────────────────────────────────────────────────────┐
│ Part 5:综合实战(Ch13,~2 周)                         │
│   Ch13 Mini-MultiBot——多机协同系统从零搭建              │
└──────────────────────────────────────────────────────┘

全部投入:Part 1-5 共 ~22 周,全职等效约 5-6 个月;业余 15-20 小时/周约 10-14 个月。

与单体规控的对照

维度 多机协作规控(本大纲) 单体规控(已有基础)
状态空间 联合状态 \(x = [x_1,...,x_N]\)——维度 \(\times N\) 单体状态 \(x\)
通信约束 有限带宽 / 延迟 / 拓扑变化 无(板内总线)
可扩展性 核心挑战——N 增大时计算量爆炸 不涉及
优化架构 集中式 / 分布式 / 去中心化 集中式(单机)
安全约束 机间碰撞避免 + 单体自碰 仅单体自碰
动力学耦合 通过共享负载/接触力耦合 无外部耦合
RL 范式 CTDE(集中训练分布执行) 单智能体 PPO/SAC
典型求解器 ADMM 分布式 MPC / MAPPO OCS2 SQP / PPO
ROS2 挑战 多命名空间 / DDS 发现扩展性 单命名空间

三大认知跨越(从单体规控到多机协作)

跨越一:从"单体最优"到"团队协调"。 单体 MPC 优化一个机器人的轨迹;多机 MPC 需要在**联合动作空间**中找到**帕累托最优或纳什均衡**,且受限于通信拓扑。数学从**单体 QP/NLP** 转向**分布式优化(ADMM/dual decomposition/共识 ADMM)**。好消息是:OCS2 的 Riccati 递推与分布式 MPC 的块分解结构有天然对应。

跨越二:从"完全可观测"到"局部观测+通信"。 单体控制器可以访问全部状态;多机系统中每个 agent 只能观测自身状态和邻居信息,全局状态必须通过共识算法估计。这要求理解图论(Laplacian 矩阵、代数连通性 \(\lambda_2\))和通信延迟对控制性能的影响——SLAM 工程师的因子图直觉在此直接可迁移。

跨越三:从"确定性控制"到"涌现式协调"。 单体 RL 策略输出确定性动作;多智能体 RL 面临**非平稳性**(其他 agent 的策略在变)和**信用分配**(团队奖励无法归因到个体)。MAPPO/HAPPO 的 CTDE 范式部分解决了这些问题,但 sim-to-real 转移在多机场景下比单机**困难得多**(需要同时 domain randomize 多个 agent 的交互)。


单体规控 → 多机协作的技能迁移速查

已有技能 在多机协作中的对应 迁移难度
OCS2 单体 MPC 分布式 MPC 的单 agent 子问题——直接复用 零迁移
Pinocchio RNEA/ABA 多机联合动力学——需扩展为 N-body + 负载耦合
MoveIt2 运动规划 多臂协同规划需处理闭链约束——范式变化大
PPO/SAC 单智能体 RL MAPPO = 共享参数的 PPO——结构几乎相同 零迁移
IsaacLab 并行仿真 多智能体环境配置(MQE/IsaacLab multi-agent)
ROS2 节点/话题 多命名空间 + tf2 多坐标系——增量扩展
SLAM 因子图 (GTSAM) 分布式 SLAM / 多机共识——直接可迁移 零迁移
Eigen 矩阵运算 Laplacian 矩阵 + ADMM 分布式 QP——直接复用 零迁移
碰撞检测(FCL/HPP) 机间碰撞避免需 pairwise CBF——范式不同
reward shaping 多智能体 reward decomposition——新概念

Part 1:多机器人协作基础(Ch1-Ch3,~5 周)

本部分定位:Part 1 建立多机协作的数学地基——图论与共识(Ch1-Ch2)、任务分配与路径规划(Ch3)。这些是所有后续协同运动/操作/MARL 章节的共同前置。