10_多机器人协作总论
多机器人协作规划与控制 C++ 进阶教学大纲(v0.1 · 八段式完整版)¶
定位:本大纲是规划与控制 C++ 进阶体系的**多机协作增量扩展**,面向已掌握单体腿足 MPC(OCS2/Crocoddyl/Pinocchio)、单体机械臂规控(MoveIt2/Pinocchio)和 RL 基础(PPO/SAC/IsaacLab)的机器人算法工程师,从**单体规控扩展到多机器人协作规控**。
覆盖的机器人类型: - 同构多机:多四足协同搬运(如双 Go2 搬运大物体)、多臂协同装配、四足+臂协同操作 - 异构多机:四足+无人机地空联合、四足+固定基座机械臂配合、地面+空中联合任务 - 明确排除:纯无人机集群(已有 EGO-Swarm/MADER 大纲覆盖),仅做简要对照
覆盖的技术层次:规控层(分布式 MPC、协同 WBC、阻抗协调)+ 任务分配层(CBBA/拍卖/MAPF)+ 通信与共识层(Laplacian 共识、延迟补偿)+ MARL 层(MAPPO/HAPPO/安全 MARL)
与已有大纲的关系:与腿足大纲 Ch47-70(单体四足/人形 MPC+RL)、机械臂大纲 M1-M15(单体操作规划)、复合机器人大纲 Ch71-100(单体 loco-manipulation)构成完整的"单体→多体"扩展链。
章节编号:共 13 章,约 22 周。Part 1(Ch1-Ch3,基础)→ Part 2(Ch4-Ch6,协同运动)→ Part 3(Ch7-Ch9,协同操作)→ Part 4(Ch10-Ch12,MARL)→ Part 5(Ch13,综合实战)。
数据基础:基于 35+ 篇顶会/顶刊论文(T-RO/RA-L/RSS/ICRA/IROS/CoRL/NeurIPS/ICLR/AAMAS/L4DC)、15+ 个开源项目、多轮深度调研的交叉验证。
前置假设:学员已掌握——OCS2/Crocoddyl 单体 MPC、Pinocchio 动力学、MoveIt2 运动规划、PPO/SAC RL 训练、IsaacLab 仿真、ROS2 高级(lifecycle/component/DDS)。在此基础上切入多机协作**不需要重新学单体规控**,只需补"图论共识 + 分布式优化 + 协同力学 + MARL"。
风格对齐:沿用本文档统一的**八段式**章节结构。
核心实验室缩写:Caltech AMBER(Ames/Hamed 组,多足协同 MPC+CBF)、ETH RSL(Hutter 组,多足学习)、Virginia Tech HARRIET(Hamed 组,分布式腿足控制)、MIT REALM(Fan 组,GCBF+ 安全)、MIT ACL(How 组,CBBA 任务分配)、CMU RI(多机协调)、Stanford MSL(Pavone 组,多机协调)、PKU(Kuba/HARL 多智能体 RL)、Tsinghua(MAPPO/Yu 组)、Stanford Zhao/Finn(Mobile ALOHA 双臂)、NTU(Verginis 协同操作)、KTH(Dimarogonas 分布式控制)、ETH CRL(De Vincenti/Coros 协同 loco-manipulation)。
整体路线图¶
单体规控基础已完成
├── 腿足 MPC: OCS2/Crocoddyl + WBC
├── 机械臂: MoveIt2 + Pinocchio
├── RL: PPO/SAC + IsaacLab
└── ROS2: lifecycle/component/DDS
│
▼
┌──────────────────────────────────────────────────────┐
│ Part 1:多机器人协作基础(Ch1-Ch3,~5 周) │
│ Ch1 多机系统全景——架构、拓扑与建模 │
│ Ch2 共识算法与分布式优化 │
│ Ch3 多机任务分配与路径规划(CBBA/CBS/MAPF) │
└──────────────────────────────────────────────────────┘
▼
┌──────────────────────────────────────────────────────┐
│ Part 2:多机协同运动规控(Ch4-Ch6,~5 周) │
│ Ch4 分布式 MPC 用于多足编队与协同运动 │
│ Ch5 多机协同搬运与力控——grasp matrix 与内力分配 │
│ Ch6 异构多机协同规划——地空联合与能力互补 │
└──────────────────────────────────────────────────────┘
▼
┌──────────────────────────────────────────────────────┐
│ Part 3:多机器人协同操作(Ch7-Ch9,~5 周) │
│ Ch7 双臂与多臂协同操作——闭链运动学与力分配 │
│ Ch8 多足协同 loco-manipulation——协同步态与负载分配 │
│ Ch9 人形/四足+臂协同——层次化全身协同控制 │
└──────────────────────────────────────────────────────┘
▼
┌──────────────────────────────────────────────────────┐
│ Part 4:多智能体 RL 与混合范式(Ch10-Ch12,~5 周) │
│ Ch10 MARL 基础——CTDE / MAPPO / QMIX / HAPPO │
│ Ch11 MARL 用于多机器人运动协调 │
│ Ch12 MARL + 传统规控混合架构与安全约束 │
└──────────────────────────────────────────────────────┘
▼
┌──────────────────────────────────────────────────────┐
│ Part 5:综合实战(Ch13,~2 周) │
│ Ch13 Mini-MultiBot——多机协同系统从零搭建 │
└──────────────────────────────────────────────────────┘
全部投入:Part 1-5 共 ~22 周,全职等效约 5-6 个月;业余 15-20 小时/周约 10-14 个月。
与单体规控的对照:
| 维度 | 多机协作规控(本大纲) | 单体规控(已有基础) |
|---|---|---|
| 状态空间 | 联合状态 \(x = [x_1,...,x_N]\)——维度 \(\times N\) | 单体状态 \(x\) |
| 通信约束 | 有限带宽 / 延迟 / 拓扑变化 | 无(板内总线) |
| 可扩展性 | 核心挑战——N 增大时计算量爆炸 | 不涉及 |
| 优化架构 | 集中式 / 分布式 / 去中心化 | 集中式(单机) |
| 安全约束 | 机间碰撞避免 + 单体自碰 | 仅单体自碰 |
| 动力学耦合 | 通过共享负载/接触力耦合 | 无外部耦合 |
| RL 范式 | CTDE(集中训练分布执行) | 单智能体 PPO/SAC |
| 典型求解器 | ADMM 分布式 MPC / MAPPO | OCS2 SQP / PPO |
| ROS2 挑战 | 多命名空间 / DDS 发现扩展性 | 单命名空间 |
三大认知跨越(从单体规控到多机协作)¶
跨越一:从"单体最优"到"团队协调"。 单体 MPC 优化一个机器人的轨迹;多机 MPC 需要在**联合动作空间**中找到**帕累托最优或纳什均衡**,且受限于通信拓扑。数学从**单体 QP/NLP** 转向**分布式优化(ADMM/dual decomposition/共识 ADMM)**。好消息是:OCS2 的 Riccati 递推与分布式 MPC 的块分解结构有天然对应。
跨越二:从"完全可观测"到"局部观测+通信"。 单体控制器可以访问全部状态;多机系统中每个 agent 只能观测自身状态和邻居信息,全局状态必须通过共识算法估计。这要求理解图论(Laplacian 矩阵、代数连通性 \(\lambda_2\))和通信延迟对控制性能的影响——SLAM 工程师的因子图直觉在此直接可迁移。
跨越三:从"确定性控制"到"涌现式协调"。 单体 RL 策略输出确定性动作;多智能体 RL 面临**非平稳性**(其他 agent 的策略在变)和**信用分配**(团队奖励无法归因到个体)。MAPPO/HAPPO 的 CTDE 范式部分解决了这些问题,但 sim-to-real 转移在多机场景下比单机**困难得多**(需要同时 domain randomize 多个 agent 的交互)。
单体规控 → 多机协作的技能迁移速查¶
| 已有技能 | 在多机协作中的对应 | 迁移难度 |
|---|---|---|
| OCS2 单体 MPC | 分布式 MPC 的单 agent 子问题——直接复用 | 零迁移 |
| Pinocchio RNEA/ABA | 多机联合动力学——需扩展为 N-body + 负载耦合 | 中 |
| MoveIt2 运动规划 | 多臂协同规划需处理闭链约束——范式变化大 | 高 |
| PPO/SAC 单智能体 RL | MAPPO = 共享参数的 PPO——结构几乎相同 | 零迁移 |
| IsaacLab 并行仿真 | 多智能体环境配置(MQE/IsaacLab multi-agent) | 低 |
| ROS2 节点/话题 | 多命名空间 + tf2 多坐标系——增量扩展 | 低 |
| SLAM 因子图 (GTSAM) | 分布式 SLAM / 多机共识——直接可迁移 | 零迁移 |
| Eigen 矩阵运算 | Laplacian 矩阵 + ADMM 分布式 QP——直接复用 | 零迁移 |
| 碰撞检测(FCL/HPP) | 机间碰撞避免需 pairwise CBF——范式不同 | 高 |
| reward shaping | 多智能体 reward decomposition——新概念 | 中 |
Part 1:多机器人协作基础(Ch1-Ch3,~5 周)¶
本部分定位:Part 1 建立多机协作的数学地基——图论与共识(Ch1-Ch2)、任务分配与路径规划(Ch3)。这些是所有后续协同运动/操作/MARL 章节的共同前置。