10_多机器人协作总论

多机器人协作规划与控制 C++ 进阶教学大纲(v0.1 · 八段式完整版)¶

定位：本大纲是规划与控制 C++ 进阶体系的**多机协作增量扩展**，面向已掌握单体腿足 MPC（OCS2/Crocoddyl/Pinocchio）、单体机械臂规控（MoveIt2/Pinocchio）和 RL 基础（PPO/SAC/IsaacLab）的机器人算法工程师，从**单体规控扩展到多机器人协作规控**。

覆盖的机器人类型： - 同构多机：多四足协同搬运（如双 Go2 搬运大物体）、多臂协同装配、四足+臂协同操作 - 异构多机：四足+无人机地空联合、四足+固定基座机械臂配合、地面+空中联合任务 - 明确排除：纯无人机集群（已有 EGO-Swarm/MADER 大纲覆盖），仅做简要对照

覆盖的技术层次：规控层（分布式 MPC、协同 WBC、阻抗协调）+ 任务分配层（CBBA/拍卖/MAPF）+ 通信与共识层（Laplacian 共识、延迟补偿）+ MARL 层（MAPPO/HAPPO/安全 MARL）

与已有大纲的关系：与腿足大纲 Ch47-70（单体四足/人形 MPC+RL）、机械臂大纲 M1-M15（单体操作规划）、复合机器人大纲 Ch71-100（单体 loco-manipulation）构成完整的"单体→多体"扩展链。

章节编号：共 13 章，约 22 周。Part 1（Ch1-Ch3，基础）→ Part 2（Ch4-Ch6，协同运动）→ Part 3（Ch7-Ch9，协同操作）→ Part 4（Ch10-Ch12，MARL）→ Part 5（Ch13，综合实战）。

数据基础：基于 35+ 篇顶会/顶刊论文（T-RO/RA-L/RSS/ICRA/IROS/CoRL/NeurIPS/ICLR/AAMAS/L4DC）、15+ 个开源项目、多轮深度调研的交叉验证。

前置假设：学员已掌握——OCS2/Crocoddyl 单体 MPC、Pinocchio 动力学、MoveIt2 运动规划、PPO/SAC RL 训练、IsaacLab 仿真、ROS2 高级（lifecycle/component/DDS）。在此基础上切入多机协作**不需要重新学单体规控**，只需补"图论共识 + 分布式优化 + 协同力学 + MARL"。

风格对齐：沿用本文档统一的**八段式**章节结构。

核心实验室缩写：Caltech AMBER（Ames/Hamed 组，多足协同 MPC+CBF）、ETH RSL（Hutter 组，多足学习）、Virginia Tech HARRIET（Hamed 组，分布式腿足控制）、MIT REALM（Fan 组，GCBF+ 安全）、MIT ACL（How 组，CBBA 任务分配）、CMU RI（多机协调）、Stanford MSL（Pavone 组，多机协调）、PKU（Kuba/HARL 多智能体 RL）、Tsinghua（MAPPO/Yu 组）、Stanford Zhao/Finn（Mobile ALOHA 双臂）、NTU（Verginis 协同操作）、KTH（Dimarogonas 分布式控制）、ETH CRL（De Vincenti/Coros 协同 loco-manipulation）。

整体路线图¶

单体规控基础已完成
  ├── 腿足 MPC: OCS2/Crocoddyl + WBC
  ├── 机械臂: MoveIt2 + Pinocchio
  ├── RL: PPO/SAC + IsaacLab
  └── ROS2: lifecycle/component/DDS
         │
         ▼
┌──────────────────────────────────────────────────────┐
│ Part 1：多机器人协作基础（Ch1-Ch3，~5 周）              │
│   Ch1 多机系统全景——架构、拓扑与建模                    │
│   Ch2 共识算法与分布式优化                             │
│   Ch3 多机任务分配与路径规划（CBBA/CBS/MAPF）           │
└──────────────────────────────────────────────────────┘
         ▼
┌──────────────────────────────────────────────────────┐
│ Part 2：多机协同运动规控（Ch4-Ch6，~5 周）              │
│   Ch4 分布式 MPC 用于多足编队与协同运动                 │
│   Ch5 多机协同搬运与力控——grasp matrix 与内力分配       │
│   Ch6 异构多机协同规划——地空联合与能力互补              │
└──────────────────────────────────────────────────────┘
         ▼
┌──────────────────────────────────────────────────────┐
│ Part 3：多机器人协同操作（Ch7-Ch9，~5 周）              │
│   Ch7 双臂与多臂协同操作——闭链运动学与力分配            │
│   Ch8 多足协同 loco-manipulation——协同步态与负载分配    │
│   Ch9 人形/四足+臂协同——层次化全身协同控制              │
└──────────────────────────────────────────────────────┘
         ▼
┌──────────────────────────────────────────────────────┐
│ Part 4：多智能体 RL 与混合范式（Ch10-Ch12，~5 周）       │
│   Ch10 MARL 基础——CTDE / MAPPO / QMIX / HAPPO         │
│   Ch11 MARL 用于多机器人运动协调                        │
│   Ch12 MARL + 传统规控混合架构与安全约束                │
└──────────────────────────────────────────────────────┘
         ▼
┌──────────────────────────────────────────────────────┐
│ Part 5：综合实战（Ch13，~2 周）                         │
│   Ch13 Mini-MultiBot——多机协同系统从零搭建              │
└──────────────────────────────────────────────────────┘

全部投入：Part 1-5 共 ~22 周，全职等效约 5-6 个月；业余 15-20 小时/周约 10-14 个月。

与单体规控的对照：

维度	多机协作规控（本大纲）	单体规控（已有基础）
状态空间	联合状态 \(x = [x_1,...,x_N]\)——维度 \(\times N\)	单体状态 \(x\)
通信约束	有限带宽 / 延迟 / 拓扑变化	无（板内总线）
可扩展性	核心挑战——N 增大时计算量爆炸	不涉及
优化架构	集中式 / 分布式 / 去中心化	集中式（单机）
安全约束	机间碰撞避免 + 单体自碰	仅单体自碰
动力学耦合	通过共享负载/接触力耦合	无外部耦合
RL 范式	CTDE（集中训练分布执行）	单智能体 PPO/SAC
典型求解器	ADMM 分布式 MPC / MAPPO	OCS2 SQP / PPO
ROS2 挑战	多命名空间 / DDS 发现扩展性	单命名空间

三大认知跨越（从单体规控到多机协作）¶

跨越一：从"单体最优"到"团队协调"。 单体 MPC 优化一个机器人的轨迹；多机 MPC 需要在**联合动作空间**中找到**帕累托最优或纳什均衡**，且受限于通信拓扑。数学从**单体 QP/NLP** 转向**分布式优化（ADMM/dual decomposition/共识 ADMM）**。好消息是：OCS2 的 Riccati 递推与分布式 MPC 的块分解结构有天然对应。

跨越二：从"完全可观测"到"局部观测+通信"。 单体控制器可以访问全部状态；多机系统中每个 agent 只能观测自身状态和邻居信息，全局状态必须通过共识算法估计。这要求理解图论（Laplacian 矩阵、代数连通性 \(\lambda_2\)）和通信延迟对控制性能的影响——SLAM 工程师的因子图直觉在此直接可迁移。

跨越三：从"确定性控制"到"涌现式协调"。 单体 RL 策略输出确定性动作；多智能体 RL 面临**非平稳性**（其他 agent 的策略在变）和**信用分配**（团队奖励无法归因到个体）。MAPPO/HAPPO 的 CTDE 范式部分解决了这些问题，但 sim-to-real 转移在多机场景下比单机**困难得多**（需要同时 domain randomize 多个 agent 的交互）。

单体规控 → 多机协作的技能迁移速查¶

已有技能	在多机协作中的对应	迁移难度
OCS2 单体 MPC	分布式 MPC 的单 agent 子问题——直接复用	零迁移
Pinocchio RNEA/ABA	多机联合动力学——需扩展为 N-body + 负载耦合	中
MoveIt2 运动规划	多臂协同规划需处理闭链约束——范式变化大	高
PPO/SAC 单智能体 RL	MAPPO = 共享参数的 PPO——结构几乎相同	零迁移
IsaacLab 并行仿真	多智能体环境配置（MQE/IsaacLab multi-agent）	低
ROS2 节点/话题	多命名空间 + tf2 多坐标系——增量扩展	低
SLAM 因子图 (GTSAM)	分布式 SLAM / 多机共识——直接可迁移	零迁移
Eigen 矩阵运算	Laplacian 矩阵 + ADMM 分布式 QP——直接复用	零迁移
碰撞检测（FCL/HPP）	机间碰撞避免需 pairwise CBF——范式不同	高
reward shaping	多智能体 reward decomposition——新概念	中

Part 1：多机器人协作基础（Ch1-Ch3，~5 周）¶

本部分定位：Part 1 建立多机协作的数学地基——图论与共识（Ch1-Ch2）、任务分配与路径规划（Ch3）。这些是所有后续协同运动/操作/MARL 章节的共同前置。