跳转至

本文档属于 Robotics Tutorial 项目,作者:Pengfei Guo,达妙科技。采用 CC BY 4.0 协议,转载请注明出处。

S5 RL 与经典规控的贯穿关系与全方向收口(综述收官章)

文档类型:论文解读 / 综述贯穿(理论密度为主,少量伪代码与映射图) 定位:本章是整个「移动机器人规控方向」(10_时空 / 20_采样式MPC / 30_不确定性 / 40_博弈 / 50_多机 / 60_TAMP / 70_无人机,约 76 章 17000 行)的**最后一章**,也是 80_综述 五篇贯穿线(S1 时空 / S2 不确定性 / S3 博弈 / S4 交互预测 / S5 本章)的收口。它不再展开任何单一专题的技术细节——那些已在各 Part 详述——而是回答四个**贯穿性**问题:

  1. RL 与经典规控(MPC / 采样 / 搜索 / 博弈 / DP)在数学上是什么关系? 它们是对立的两派,还是同一枚硬币的两面?(统一视角与对偶,§1-§2)
  2. 面对一个具体任务,我该用 RL 还是经典方法? 有没有可操作的决策框架?(§3)
  3. 2023-2026 的主流为什么是"混合范式"? 混合有哪几类骨架?(§4)
  4. 七大方向的知识如何收口成一张图?学完之后往哪走?(§5-§7)

阅读前提:读者应已学过本方向至少一条主线(T / U / G / MPPI / Multi / D 之一),并具备 RL 基础(MDP、Bellman 方程、PPO/SAC、actor-critic)。若 RL 基础薄弱,本章 §1.1 会用 2-3 段重新激活核心概念,但不替代系统的 RL 课程。 预计阅读时间:4-5 小时(综述性章节,重在建立全局图景,不要求复现代码)。


前置自测

在进入正文前,请先尝试回答以下 5 题。若有 2 题以上答不出,建议先回到括号内指向的章节补齐——本章是收口章,默认你已经"见过"这些工具,只是没把它们串起来。

  1. (指向 MPPI_01 / U0) MPC 在每个控制周期做的事情,和 RL 的值迭代(value iteration)在数学上有什么共同的祖先?提示:两者都在求解同一个最优性原理(principle of optimality)的某种近似。

  2. (指向 U4) 一个用 LSTM 隐状态作为输入的 model-free RL 策略(如 R2D2、DreamerV3),它隐式地在近似 POMDP 里的什么量?为什么说"RNN 隐状态 ≈ belief 的充分统计"?

  3. (指向 G4 / Multi_10) Nash 均衡、Stackelberg 均衡和 MARL 里的 CTDE(centralized training decentralized execution)三者之间,哪个是"解概念",哪个是"训练范式"?把它们混为一谈会导致什么误解?

  4. (指向 U2 / U5) Tube MPC 里的 RPI(robust positively invariant)集合,和 Robust RL 里的 uncertainty set,在"对抗谁"这件事上是不是同一个对象?Safe RL 的 CMDP 约束和 Chance-Constrained MPC 的 chance constraint 在数学形式上能不能互相翻译?

  5. (指向 MPPI_05 / T6) 为什么说 Diffusion Policy 的逐步去噪(denoising)和 MPPI 的指数加权更新(exponential reweighting)在"把噪声样本推向高回报区域"这件事上是同一种操作?这个同构对"扩散规划是不是 RL"这个问题意味着什么?

自测说明:这 5 题没有标准答案的"填空",它们考的是**结构性理解**——你能不能在脑中把"经典规控的某个对象"和"RL 的某个对象"画上等号或不等号。本章的全部价值就是帮你把这张等号/不等号表补全。如果你现在答不出,读完本章再回来,应该能一句话说清每一题。


本章目标

读完本章,你应当能够:

  • 画出"经典规控 ↔ RL 同义/对偶表":对七大方向的每个核心范式,说出它在 RL 世界里的对应物,以及"等价在哪、不等价在哪"(这是 §4 阶段(RL 贯穿收官)课程作业的核心交付物)。
  • 用一张决策树回答"该用谁":给定任务的(模型已知性 × 维度 × 约束硬度 × 实时预算 × 安全要求 × 数据可得性)六维画像,判断该走经典优化、走 RL、还是走某种混合。
  • 辨识四类混合骨架:RL-for-MPC(学代价/权重/终端值)、MPC-for-RL(把 MPC 当可微策略层 / 安全滤波)、residual(残差叠加)、warm-start / amortization(一个摊销另一个),并说出每类的代表工作与适用边界。
  • 把七大方向收口成一张知识地图:时空 / 采样 / 不确定 / 博弈 / 任务 / 多机 / 无人机,理解它们共享的数学骨架(DP + 最优性原理)与各自的 RL 接口。
  • 规划后续学习与研究方向:知道自己处在"经典优化 → 混合 → 学习"光谱的哪个位置,下一步该补什么、可以做什么研究选题。

知识导航

S5 全章结构
├─ §1 统一视角:一切都从最优性原理长出来
│    ├─ §1.1 三个共同祖先:Bellman 最优性原理、HJB、动态规划
│    ├─ §1.2 经典规控是"已知模型的最优控制",RL 是"未知模型的最优控制"
│    └─ §1.3 一张总表:六个范式在统一坐标系里的位置
├─ §2 对偶关系:六组"同一枚硬币的两面"
│    ├─ §2.1 MPC ↔ 值迭代(Bertsekas 的 Newton-step 视角)
│    ├─ §2.2 采样式 MPC ↔ 策略梯度 / 去噪(MPPI≈REINFORCE≈DDPM)
│    ├─ §2.3 POMDP 搜索 ↔ model-based RL(belief=RNN 隐状态)
│    ├─ §2.4 Robust/CC/CVaR ↔ Safe / Robust / Distributional RL
│    ├─ §2.5 博弈求解 ↔ MARL(Nash↔均衡学习,PSRO↔double oracle)
│    ├─ §2.6 搜索式规划 ↔ 学习型搜索(A*↔Neural A*,MCTS↔MuZero)
│    └─ §2.7 六组对偶的统一全景:它们其实是同一组对偶
├─ §3 决策框架:面对一个任务,到底该用谁
│    ├─ §3.1 六维画像:模型/维度/约束/实时/安全/数据
│    ├─ §3.2 主决策树(一图流)
│    ├─ §3.3 五个边界案例的实证(自驾竞速、行人交互、四足、机械臂、集群)
│    └─ §3.4 反模式:常见的"用错工具"
├─ §4 混合范式:2023-2026 的主流形态
│    ├─ §4.1 为什么是混合:互补性的数学根源
│    ├─ §4.2 四类混合骨架的分类学
│    ├─ §4.3 骨架 A:RL-for-MPC(学代价/权重/终端值/可微 MPC)
│    ├─ §4.4 骨架 B:MPC-for-RL(安全滤波 / 可微策略层 / shielding)
│    ├─ §4.5 骨架 C:Residual(残差策略叠加)
│    ├─ §4.6 骨架 D:Amortization / Warm-start(互为初值)
│    ├─ §4.7 生成式规划:混合范式的当代集大成(Diffusion/TD-MPC2/VLA)
│    ├─ §4.8 一个走通的混合系统:把四类骨架拼进同一个自驾栈
│    └─ §4.9 选哪类混合骨架——一张速查表
├─ §5 全方向知识收口:七条线汇成一张图
│    ├─ §5.1 七方向 × RL 接口总览矩阵
│    ├─ §5.2 共享骨架:DP 是所有方向的最大公约数
│    ├─ §5.3 三条贯穿主轴(不确定性 / 交互 / 实时性)
│    └─ §5.4 七方向收口图(ASCII 全景)
├─ §6 学习路径总结:从这里往哪走
│    ├─ §6.1 三类读者的后续路径(工程 / 研究 / 交叉)
│    ├─ §6.2 "经典→混合→学习"光谱上的自我定位
│    └─ §6.3 阶段性能力检验清单
├─ §7 研究方向总结:开放问题地图
│    ├─ §7.1 七个高价值开放问题
│    └─ §7.2 选题建议与避坑
├─ 附 A:四专题 RL 贯穿关系(原始调研,保留)
├─ 附 B:四专题在 C++ 教学体系中的定位建议(原始调研,保留)
├─ 本章常见误解汇总
├─ 本章小结 + 速查表
├─ 故障排查手册(认知层面的"症状→病根")
└─ 延伸阅读

前置知识桥接

本章是收口章,几乎复用了整个方向的所有概念。为避免你来回翻页,这里用一张表重新激活将要反复出现的核心对象——每个对象给一句话定义 + 它出自哪一章。读到正文时若忘了某个词,回到这张表即可,不必翻回原章。

对象 一句话定义 出处 本章如何复用
最优性原理 "最优策略的尾段对尾段子问题仍最优"——DP 的公理 MPPI_01、U0 §1 证明经典与 RL 同源的支点
Bellman 方程 \(V^*(s)=\max_a [r(s,a)+\gamma\mathbb E V^*(s')]\),最优值的不动点方程 RL 基础、U4 §2.1 MPC = 它的有限步 Newton 近似
MPC(滚动时域) 每周期解一个有限时域 OCP,执行第一步,下周期重解 MPPI_01、D2、U2 全章的"经典"代表
MPPI(路径积分) 用指数加权的采样轨迹更新名义控制序列的采样式 MPC MPPI_01-02 §2.2 与策略梯度/去噪同构
POMDP 状态不可直接观测、需在 belief(状态后验)上决策的 MDP U4 §2.3 与 RNN-RL 的桥
belief(信念) 给定历史观测的状态后验分布,是 history 的充分统计 U4 §2.3 ≈ RNN 隐状态
Tube MPC 名义轨迹 + 不变管道(RPI 集),保证扰动下约束满足 U2 §2.4 RPI ≈ uncertainty set
CBF(控制屏障函数) 用前向不变集刻画安全的标量函数,配 QP 做安全滤波 U2 §4.4 安全滤波的代表
Chance Constraint 约束以概率 \(\ge 1-\delta\) 满足,而非硬满足 U3 §2.4 ≈ CMDP 的连续版
CVaR 尾部 \(\alpha\) 分位的条件期望,一致性风险度量 U5 §2.4 ≈ distributional RL 的风险头
Nash / Stackelberg 均衡 多智能体博弈的解概念(同时 / 领导-跟随) G0-G2 §2.5 ≈ MARL 收敛点
iLQGames / ALGAMES 求局部反馈 Nash / 约束 GNE 的实时博弈求解器 G2 §2.5 经典博弈代表
PSRO Nash meta-solver + best-response oracle 迭代扩策略池 G4 §2.5 = double oracle 的深度版
CTDE 集中训练、分散执行的 MARL 训练范式(≠解概念) Multi_10、G4 §2.5 澄清"范式≠解"
DP(动态规划) 用最优性原理把多步问题拆成递归子问题求解 贯穿全方向 §5.2 七方向的最大公约数
Diffusion Policy / Planner 把轨迹生成建成条件去噪过程的生成式规划 T6、MPPI_05 §4.7 混合范式集大成
TD-MPC2 在 learned latent world model 上做 MPPI + policy prior 的局部优化 MPPI_06 §4.7 model-based RL × 采样 MPC
VLA vision-language-action 大模型,像素/语言→连续动作 06_具身、S4 §4.7 端到端范式的顶层

本质洞察(贯穿全章的总纲) 本章只想让你记住一件事:经典规控和 RL 不是两门学科,而是同一个问题(序贯最优决策)在"模型是否已知、值函数是否显式、计算放在线上还是线下"三个轴上的不同切法。 把这三个轴想清楚,七大方向的所有方法——从 ST-A* 到 DreamerV3,从 Tube MPC 到 IQN,从 iLQGames 到 PSRO——都会落到同一张地图的不同坐标上。本章的全部章节,都是在给这张地图填坐标。

本章与前四篇综述(S1-S4)的关系

本章是 80_综述 五篇贯穿线的最后一篇。前四篇(S1-S4)各自从一个**专题视角**铺开了 RL 与经典规控的交界,本章(S5)则把它们**收口成一个统一框架**。理解这个分工,能帮你定位"本章在讲什么、不讲什么":

综述 视角 与本章的关系
S1 总览与时空联合规划 时空特化的发展脉络 + ST↔Neural A*/MuZero 本章 §2.6、§5.1 时空行的"母模板"来源
S2 不确定性规划 五条子路线 + 各自的 Safe/Dist RL 孪生 本章 §2.4 的专题细化在 S2,本章给统一翻译链
S3 博弈规划 博弈谱系 + MARL/PSRO 交界 本章 §2.5 的专题细化在 S3,本章给"解概念≠范式"
S4 交互意图预测 预测-规划一体化 + 生成式/VLA 本章 §4.7、§5.3 交互轴的素材来源
S5(本章) 七方向全收口 + 统一视角/对偶/选型/混合 把 S1-S4 的专题交界缝合成一张地图

一句话区分:S1-S4 是"逐个专题**讲 RL 怎么重新表达该专题的经典方法"(深度优先,单方向钻透);本章是"**跨所有方向**抽取共同的数学骨架与选型框架"(广度优先,建立全局坐标)。所以本章刻意不重复 S1-S4 的专题细节(那些细节作为本章附录 A/B 保留),而专注于"它们共享什么、如何收口"。**读本章前若对某个专题的交界细节生疏,回到对应的 S1-S4;读本章时,把注意力放在"统一"而非"细节"上。


§1 统一视角:一切都从最优性原理长出来 ⭐⭐⭐

为什么需要"统一视角"——先动机

初学者常把这门方向学成"互不相干的工具箱清单":周一学 MPC,周二学 PPO,周三学 POMCP,周四学 iLQGames……每个工具有自己的符号、自己的论文谱系、自己的开源库。学到最后,脑中是一堆并列的孤岛,遇到新任务时只能"凭印象"挑一个试试。

这种"工具箱"心智模型的根本缺陷,是它看不到方法之间的"翻译关系"。 当你真正理解"MPC 在做的事情其实是值迭代的一步 Newton 近似"时,你就不会再把"调 MPC 的终端代价"和"训 RL 的值函数"当成两件无关的事——它们在逼近**同一个对象**(最优值函数 \(V^*\)),只是一个在线显式解、一个离线隐式学。这种"翻译关系"才是专家和新手的真正分水岭。

反面来看:如果方法之间真的毫无关系,那么"用 RL 学出来的策略给 MPC 做 warm-start"(§4.6)、"用 MPC 给 RL 做安全滤波"(§4.4)这类混合范式根本不可能成立——它们能成立,恰恰证明了底层有一个共同的数学骨架在支撑。所以**统一视角不是哲学口号,而是混合范式的工程前提**。

历史上,这个统一视角并非一开始就清晰。1950s 的 Bellman(动态规划)和 Pontryagin(极大值原理)分别从"值函数递归"和"协态方程"两条路给出了最优控制的刻画;1980s-90s 的 Sutton、Barto、Watkins 把 DP 的思想搬到"未知模型 + 采样"的场景,催生了 RL;而把两者重新缝合成"一套符号、一张图"的系统努力,要到 2010s 才成熟——代表是 Bertsekas 的《Reinforcement Learning and Optimal Control》(2019)Recht 的 "A Tour of Reinforcement Learning: The View from Continuous Control" (2018),以及 ETH 把两者用统一记号合开成一门课《Optimal and Learning Control for Autonomous Robots》。本节就沿着这条"重新缝合"的线,建立全章的地基。

§1.1 三个共同祖先:最优性原理、HJB、动态规划

无论你学的是哪个方向的哪个方法,只要它在求解"如何序贯地做决策以最优化某个长期目标",它就一定可以追溯到下面这一个方程及其变体。

离散时间最优性原理(Bellman 方程)。 给定状态 \(s\)、动作 \(a\)、即时奖励 \(r(s,a)\)、转移 \(s'\sim P(\cdot|s,a)\)、折扣 \(\gamma\),最优值函数 \(V^*\) 满足不动点方程:

\[ V^*(s) \;=\; \max_{a}\Big[\,r(s,a) + \gamma\,\mathbb{E}_{s'\sim P(\cdot|s,a)}\,V^*(s')\,\Big]. \]

这一个方程,是**整个方向所有方法的最大公约数**。它说的事情极朴素:当前状态的最优长期价值 = 当前最好的一步收益 + 折扣后的"下一状态最优长期价值的期望"。最优性原理(principle of optimality)就是它的文字版:"最优轨迹的任意尾段,对其对应的尾段子问题而言仍然是最优的"。

连续时间版本(HJB 方程)。 把时间连续化、把求和变积分,Bellman 方程的极限就是 Hamilton-Jacobi-Bellman 偏微分方程:

\[ -\frac{\partial V^*}{\partial t}(x,t) \;=\; \min_{u}\Big[\,\ell(x,u,t) + \nabla_x V^{*\top} f(x,u,t)\,\Big], \]

其中 \(f\) 是系统动力学、\(\ell\) 是阶段代价。最优控制(optimal control)整个学科——LQR、iLQR、DDP、MPC——本质都在(近似)求解 HJB 或其必要条件(Pontryagin 极大值原理给出的协态方程)。

微分博弈版本(HJI 方程)。 把单个 \(\min_u\) 换成两方对抗的 \(\min_u\max_d\)(或 \(\sup\inf\)),HJB 就变成 G1 讲的 Hamilton-Jacobi-Isaacs 方程——这正是博弈规划与可达性分析的理论根。所以**博弈不是另起炉灶,而是在同一个方程里多塞了一个对手的极值算子**。

把"替换算子"这件事写成公式(让"特化"具象化)。 母方程 \(V^*(s)=\max_a[r(s,a)+\gamma\mathbb E\,V^*(s')]\) 里有几个可替换的"插槽",本方向的每个特化就是替换其中一个插槽。明确写出来:

\[ \begin{aligned} \text{母方程(MDP):}\quad & V^*(s)=\max_a\big[\,r+\gamma\,\textcolor{blue}{\mathbb E}\,V^*(\textcolor{red}{s'})\,\big] \\[2pt] \text{POMDP(U4):换状态}\;\textcolor{red}{s\to b}:\quad & V^*(b)=\max_a\big[\,r(b,a)+\gamma\,\mathbb E_{o}\,V^*(\textcolor{red}{b'})\,\big] \\[2pt] \text{风险敏感(U5):换算子}\;\textcolor{blue}{\mathbb E\to\rho}:\quad & V^*(s)=\max_a\big[\,r+\gamma\,\textcolor{blue}{\rho}\,V^*(s')\,\big],\;\;\rho=\mathrm{CVaR}_\alpha \\[2pt] \text{鲁棒(U2):换算子}\;\textcolor{blue}{\mathbb E\to\min_{w}}:\quad & V^*(s)=\max_a\textcolor{blue}{\min_{w\in\mathcal W}}\big[\,r+\gamma\,V^*(s'(w))\,\big] \\[2pt] \text{博弈(G):加玩家}\;\max_a\to\textstyle\min_u\max_d:\quad & V^*(s)=\textstyle\min_u\max_d\big[\,r+\gamma\,\mathbb E\,V^*(s')\,\big] \end{aligned} \]

看这五行:每一行只动了母方程的一处。 POMDP 把状态 \(s\) 换成 belief \(b\)(红色插槽),风险敏感把期望 \(\mathbb E\) 换成风险度量 \(\rho\)(蓝色插槽),鲁棒把 \(\mathbb E\) 换成对扰动取最坏 \(\min_w\),博弈把单方 \(\max_a\) 变成两方极值。这就是"特化 = 替换一个插槽"的字面意思——也是 §5.2 "七方向 = 母方程的七种特化"那句话的数学底座。理解了这张"插槽替换表",你就拿到了把任何新范式归位的母模板。

本质洞察 1:三个方程是同一棵树的三根枝。 Bellman(离散)、HJB(连续单方)、HJI(连续多方)不是三个独立的理论,而是同一个"最优性原理"在(时间离散性 × 玩家数量)两个维度上的三种实例化。U4 的 POMDP 是 Bellman 方程把状态 \(s\) 换成 belief \(b\) 的版本;U5 的 risk-sensitive 是把期望 \(\mathbb E\) 换成风险度量 \(\rho\)(如 CVaR)的版本。你每学一个"新"范式,先问:它把这个母方程里的哪个算子替换/近似了? 答案几乎总是:替换了 \(\{\)状态空间、期望算子、玩家数、求解时机\(\}\) 中的一个。

§1.2 经典规控是"已知模型的最优控制",RL 是"未知模型的最优控制"

有了母方程,经典规控和 RL 的分野就可以一句话讲清:

经典规控 = 当 \(\{f, P, r, \ell\}\) 已知(或可建模)时,(近似)求解 HJB/Bellman 的方法。 RL = 当 \(\{f, P, r\}\) 未知、只能通过采样交互获得数据时,(近似)求解同一个 Bellman 方程的方法。

这不是我个人的归纳,而是 RL 领域的标准定位之一("RL is optimal control when the dynamics are unknown",见 Recht 2018、Bertsekas 2019、Kober & Bagnell IJRR 2013 综述)。它立刻澄清了一连串初学者的困惑:

  • "为什么 LQR 和 DQN 看起来完全不同?" 因为 LQR 在已知线性动力学 + 二次代价下**解析地**解出了值函数(Riccati 方程是 Bellman 方程在 LQ 假设下的闭式不动点),而 DQN 在未知动力学下用神经网络**采样拟合**值函数。它们逼近的是同一个 \(V^*\),只是一个有解析捷径、一个没有。
  • "为什么 MPC 不需要训练,RL 需要?" 因为 MPC 把"求解"放在**每个控制周期的在线优化**里(模型已知,可以现场算),而 RL 把"求解"放在**离线训练**里(模型未知,必须先用数据把策略/值函数学出来,在线只做前向推理)。这正是 §1.3 里"在线 vs 离线"那根轴。
  • "为什么 model-based RL 像是两者的杂交?" 因为它先**学一个模型** \(\hat f\)(弥补"模型未知"),再在学到的模型上做**规划/优化**(借用经典方法)。DreamerV3、TD-MPC2、MuZero 全是这条路——它们是"用 RL 补齐模型,用经典方法做决策"的混合体,这也是 §4 混合范式的核心。

把 LQR↔DQN 这组对照做实(一张表看清"同一个 \(V^*\),不同的获取方式")。 LQR 和 DQN 在教科书里分属两个完全不同的章节,但它们求的是同一个东西。把求解链路并排写出来:

步骤 LQR(经典,已知模型) DQN(RL,未知模型)
目标 最优值 \(V^*(x)=x^\top P x\) 最优值 \(Q^*(s,a)\)(神经网络拟合)
用什么求 已知 \(f(x,u)=Ax+Bu\)、代价 \(x^\top Qx+u^\top Ru\) 未知 \(f\),只有交互样本 \((s,a,r,s')\)
如何求 \(V^*\) 解析:解 Riccati 方程 \(P=Q+A^\top PA-\dots\)(Bellman 在 LQ 下的闭式不动点) 采样拟合:最小化 TD 误差 \(\big(r+\gamma\max_{a'}Q(s',a')-Q(s,a)\big)^2\)
求解时机 离线一次解出 \(P\),得反馈增益 \(K\) 离线训练拟合 \(Q\)
在线做什么 \(u=-Kx\)(一次矩阵乘) \(a=\arg\max_a Q(s,a)\)(一次前向)
失效场景 模型非线性/未知时 \(P\) 无解析解 样本不足 / OOD 时 \(Q\) 拟合差

看这张表的关键:第一行(目标)两者都是"求 Bellman 方程的不动点 \(V^*/Q^*\)"——完全一样;分歧从第二行(模型是否已知)开始。 LQR 因为模型已知且是 LQ 结构,能走 Riccati 这条解析捷径;DQN 因为模型未知,只能用采样拟合这条"笨"路。它们不是两种东西,而是同一个不动点问题在"有没有解析捷径"上的两种走法。 一旦你能在脑中把任意一对"经典方法 vs RL 方法"都还原成这张表(目标相同、从模型已知性开始分叉),你就真正内化了统一视角——这也是 §2 六组对偶的通用模板。

对比性思维:不是"RL vs 经典",而是"已知模型 vs 未知模型"× "在线求解 vs 离线求解"。 真正区分方法的不是"它属于 RL 阵营还是控制阵营"(这是社区/会议的划分,不是数学的划分),而是两个正交问题:①模型是否已知?②求解放在线上还是线下?把这两个问题摆正,"RL"和"经典"这两个标签就退化成了同一张 2×2 表格里的四个格子(§1.3)。

§1.3 一张总表:六个范式在统一坐标系里的位置

现在把本方向的六大范式(时空搜索、采样 MPC、梯度 MPC、不确定性规划、博弈、RL)放进 §1.2 建立的坐标系。坐标轴有三根(为可读性,下表把"在线/离线"和"值函数显式/隐式"合并描述):

  • 轴 1:模型已知性 —— 动力学 \(f\) 和环境 \(P\) 是手工建模的(白盒)、学出来的(灰盒)、还是完全靠采样(黑盒)?
  • 轴 2:求解时机 —— 把优化放在每个控制周期的在线(online)求解,还是放在部署前的离线(offline)训练?
  • 轴 3:值函数表示 —— 是否显式维护一个值函数/代价-to-go?是解析的、查表的、还是神经网络拟合的?
范式(出处) 模型已知性 求解时机 值函数表示 求解的母方程算子 RL 对应物(详见 §2)
ST 搜索 / SIPP / A*(T2、Multi_03) 白盒(已知图/代价) 在线(每次重规划) 隐式(启发式 \(h\) 近似 to-go) Bellman,离散状态 Neural A*、MuZero(学 \(h\)/模型)
梯度 MPC / iLQR / DDP(D2、U2) 白盒(已知 \(f,\ell\) 在线(每周期 OCP) 隐式(终端代价≈to-go) HJB,局部二次近似 值迭代的 Newton 步(§2.1)
采样 MPC / MPPI / CEM(MPPI 线) 白盒或灰盒(仿真器即可) 在线(每周期采样) 隐式(rollout 估 to-go) HJB,路径积分形式 策略梯度 / 去噪(§2.2)
不确定性规划(U 线) 白盒 + 不确定集/分布 多为在线 隐式(带风险的 to-go) Bellman/HJB,期望→风险算子 Safe/Robust/Distributional RL(§2.4)
博弈规划(G 线) 白盒(已知各方 \(f,\ell\) 在线(每周期解均衡) 隐式(各方反馈 Nash 值) HJI,多方极值 MARL / PSRO(§2.5)
强化学习(贯穿) 黑盒或灰盒(学/采样) 离线训练 + 在线推理 显式(神经 \(V/Q/\pi\) Bellman,采样近似 —(它就是 RL)

这张表是本章后续所有讨论的"坐标原点"。请重点体会两件事:

第一,所有经典范式的"值函数表示"都是隐式的。 MPC 不显式存一个全局 \(V^*\),它用"有限时域 + 终端代价"来**局部地、临时地**逼近 to-go;A* 用启发式 \(h\) 逼近;MPPI 用 rollout 的样本均值逼近。唯独 RL 显式地把 \(V/Q/\pi\) 拟合成一个可重复调用的函数(神经网络)。 这就是 RL 最本质的"卖点":它把"求解"的成本一次性付清(训练),换取在线的极低延迟(一次前向传播)——代价是失去了在线重优化的灵活性和约束保证。

第二,"求解时机"那根轴是工程上最要命的轴。 经典方法把计算放在线上,所以它**不需要训练、可解释、约束天然满足,但每周期都要现算(延迟受优化器速度限制)、且依赖准确模型**;RL 把计算放在线下,所以它**在线极快、能处理黑盒和高维感知,但需要海量数据/仿真、可解释性差、约束只能软性鼓励**。§3 的整个决策框架,本质就是在这根轴上权衡"你愿意把计算和风险放在哪一端"。

练一遍:把三个"新"方法放进总表。 这张坐标系的价值在于它能安放**任何**方法,包括你没正式学过的。试着只凭名字和一句话描述,把下面三个方法定位到三根轴上——这正是 §6.3 能力清单第 5 条要的本事:

方法(一句话) 轴1 模型已知性 轴2 求解时机 轴3 值表示 落在哪
MuZero(学 latent 模型 + 在其上 MCTS) 灰盒(模型是学的) 离线训模型/值 + 在线 MCTS 显式(value/policy 网络) "学模型喂搜索"——介于 ST 搜索与 RL
GP-MPC(高斯过程学扰动 + MPC) 灰盒(名义白盒 + GP 学残差) 在线(每周期 MPC + GP 预测) 隐式(MPC 终端代价) 梯度 MPC 行 + 模型从白转灰
Diffusion Policy(条件去噪生成动作序列) 黑盒(从数据学,不需模型) 离线训生成器 + 在线去噪推理 隐式(生成器内隐含) 采样行 + 模型全黑、值离线摊销

做完这个练习你会发现:定位一个方法只需问三个问题,不需要读它的论文细节。 MuZero "模型是学的吗?是——灰盒;在线做什么?MCTS——在线搜索 + 离线训;有显式网络吗?有"——三问定位完毕。这就是坐标系作为"导航工具"的实战用法:任何新方法(哪怕是明年才出的)都能被这三问安放,从而立刻知道它的长处(落在哪格的优势)和死穴(那格的固有短板)。

理论-工程桥接(D 工具):统一视角如何指导你读代码。 当你打开任何一个规控开源库(acados、GCOPTER、despot、ilqgames、Stable-Baselines3、DreamerV3),先不要陷入它的 API。先问这张表的三个问题:①它假设模型已知吗(找 dynamics/step/model 的来源——是手写还是学的)?②它在哪里花最多时间(在线 solve()/plan() 还是离线 train())?③它有没有一个显式的值/策略网络?答完这三问,你就知道这个库站在表里的哪一格,也就知道它的长处和死穴在哪——这比读 100 页文档都快。本方向 100+ 个开源库,最终都落在这张 6 行表的某一格或某几格的组合里。

过渡:从"同源"到"对偶"。 §1 论证了所有方法共享同一个母方程(最优性原理),这是"同源"。但同源不等于"可互译"——苹果和橡树都从种子长出来,却不能互相替换。真正有工程价值的是更强的命题:某些经典范式和某些 RL 方法,是同一个数学操作的两种写法,可以逐项对应、互相翻译、甚至混合拼接。 这种"可互译"的关系,我们称为**对偶(duality)**。§2 就来逐一拆开六组最重要的对偶——每一组都给出"等价在哪、不等价在哪",因为这正是 §4 阶段课程作业要求学生交付的那张"经典 → RL 同义表达"映射图的内容。


§2 对偶关系:六组"同一枚硬币的两面" ⭐⭐⭐⭐

本节读法:六组对偶各自独立成段,结构统一为「经典侧在做什么 → RL 侧在做什么 → 数学桥(等价在哪)→ 边界(不等价在哪)→ 教学/工程含义」。你可以按需跳读自己最关心的方向:做无人机/自驾轨迹的看 §2.1-2.2,做不确定性的看 §2.3-2.4,做多机/博弈的看 §2.5,做搜索/MAPF 的看 §2.6。但强烈建议至少通读 §2.1(MPC↔值迭代),因为它是其余五组的"母对偶"。

§2.1 MPC ↔ 值迭代:Bertsekas 的 Newton-step 视角 ⭐⭐⭐⭐

这是六组里最深刻、也最该先理解的一组。Bertsekas 在《RL and Optimal Control》(2019) 及其 "Lessons from AlphaZero" (2022) 系列中给出的核心论断是:MPC 的一个滚动时域优化步,恰好等价于在最优值函数 \(V^*\) 上做一步 Newton 迭代。 把它讲透,其余对偶就都是它的变奏。

经典侧(MPC 在做什么)。 一个有限时域 MPC 在状态 \(s_0\) 求解:

\[ \min_{u_0,\dots,u_{N-1}} \;\; \sum_{k=0}^{N-1}\ell(s_k,u_k) + \underbrace{V_f(s_N)}_{\text{终端代价}}, \quad \text{s.t. } s_{k+1}=f(s_k,u_k),\; (s_k,u_k)\in\mathcal X\times\mathcal U. \]

执行 \(u_0^*\),下一周期在新状态重解。这里的**终端代价 \(V_f\) 是对"\(N\) 步之后的最优 to-go" \(V^*\) 的近似**。如果 \(V_f=V^*\)(且 \(N\ge1\)),那么 MPC 一步就给出**全局最优**控制——这是动态规划的直接推论。现实中我们不知道 \(V^*\),所以用一个粗糙的 \(V_f\)(常取 0、二次型、或某个 LQR 值)。

RL 侧(值迭代在做什么)。 值迭代反复应用 Bellman 算子 \(\mathcal T\)\(V_{i+1}=\mathcal T V_i\),其中 \((\mathcal T V)(s)=\max_a[r(s,a)+\gamma\mathbb E V(s')]\)\(\mathcal T\) 是一个压缩映射,迭代收敛到不动点 \(V^*\)

数学桥(等价在哪)。 Bertsekas 的洞察:把 \(\mathcal T\) 看成一个非线性方程 \(V=\mathcal T V\) 的算子,求 \(V^*\) 就是求 \(V-\mathcal T V=0\) 的根。对这个根求 Newton 迭代,每一步线性化 \(\mathcal T\),得到的迭代格式正好是"以当前 \(V_i\) 为终端代价、做一步前瞻(lookahead)优化"——这就是 MPC(当 \(N=1\) 时尤为精确)。 换言之:

\[ \boxed{\;\text{MPC(终端代价 }V_f\text{,前瞻 }N\text{ 步)} \;\equiv\; \text{在 }V_f\text{ 处对 Bellman 方程做一步(多步)Newton 修正}\;} \]

为什么"一步前瞻 = 一步 Newton"?(一个不诉诸黑箱的推导草图) 这个等价初看玄妙,其实可以用一行直觉讲透。Bellman 算子 \(\mathcal T\) 是分段线性、凹的(对 \(V\) 而言,因为它是若干仿射函数 \(r+\gamma P_a V\)\(\max\))。求 \(V^*\) 就是求 \(\mathcal T\) 的不动点,等价于求 \(F(V):=V-\mathcal T V=0\) 的根。对凹的 \(\mathcal T\) 求根的 Newton 法,每步要在当前 \(V_i\) 处用 \(\mathcal T\) 的**切线**(即固定住"当前最优动作"后 \(\mathcal T\) 退化成的那个仿射映射,对应一个固定策略 \(\mu_i\))替代 \(\mathcal T\) 本身,然后解这个线性化方程。而"固定策略 \(\mu_i\) 解线性化方程"恰好就是策略评估(policy evaluation),"再取一次 \(\max\) 更新切点"恰好就是策略改进(policy improvement)——合起来就是策略迭代(policy iteration)的一步。Bertsekas 的关键观察是:策略迭代 = Newton 法,而一步前瞻的 MPC(以 \(V_f\) 为终端代价)正是策略迭代的一步(前瞻负责"改进",\(V_f\) 充当被评估的"当前值")。这就是"MPC 一步 = Newton 一步"的来历——不需要记公式,记住"前瞻=改进、终端代价=被评估的值、凹算子求根的 Newton 就是策略迭代"这条链即可。

这个等价的威力在于它解释了三件经验事实:①**为什么 MPC 即使终端代价很粗糙也常常表现很好?** 因为 Newton 步有超线性局部收敛——哪怕初值(\(V_f\))不准,一步前瞻就能大幅拉近到 \(V^*\)。这也解释了 MPC 实践中的一个老经验:"终端代价的'方向'比'精确值'更重要"——Newton 步对初值的容忍度本就很高。②**为什么把 RL 学到的值函数 \(\hat V\) 当作 MPC 的终端代价 \(V_f\),效果会显著提升?** 因为你给 Newton 迭代喂了一个离 \(V^*\) 更近的初值(这正是 §4.3 的 RL-for-MPC 骨架,也是 AlphaZero 把神经网络 value 当 MCTS 叶节点估值的原理)。③**为什么增大前瞻 \(N\) 能补偿不准的 \(V_f\)?** 因为多步前瞻 ≈ 多步 Newton,对初值误差更不敏感——这定量地解释了"longer horizon, sloppier terminal cost"这条 MPC 调参经验法则:horizon 和终端代价精度之间存在可互换的权衡。

边界(不等价在哪)。 三点关键的不等价,初学者最容易忽略:

  1. 约束。 MPC 的 OCP 里那些硬约束 \((s_k,u_k)\in\mathcal X\times\mathcal U\),在标准值迭代里没有天然对应物——RL 只能把约束转成惩罚项软性鼓励。这是 MPC 相对 RL 的**结构性优势**,也是 §4.4「用 MPC 给 RL 做安全滤波」存在的根本理由。
  2. 在线 vs 离线。 MPC 每周期现做一步 Newton(在线、需要模型);值迭代离线把所有 Newton 步做完、存成 \(V^*\)(离线、需要遍历状态空间)。维度低时值迭代可行(查表),维度一高就只能靠 RL 的函数逼近——这就是"维度诅咒"把两者分开的地方。
  3. 模型依赖。 MPC 的 Newton 步需要显式的 \(f\) 来展开 lookahead;model-free RL 用采样的 TD 误差近似这一步,不需要 \(f\),但要付出方差和样本量的代价。

本质洞察 2:MPC 和值迭代逼近的是同一个 \(V^*\),区别只是"做几步 Newton、在线还是离线、要不要模型"。 一旦接受这个等价,"调 MPC 的终端代价权重"和"训 RL 的 critic"在你眼里就变成了**同一件事的两种做法**——都在改进对 \(V^*\) 的估计。这也是为什么 RL-for-MPC(学终端代价)是所有混合范式里最自然、最有理论支撑的一类(§4.3)。Bertsekas 甚至直接说:"MPC 就是 RL,RL 就是 MPC"——指的正是这层 Newton-step 等价。

§2.2 采样式 MPC ↔ 策略梯度 / 去噪:MPPI ≈ REINFORCE ≈ DDPM ⭐⭐⭐⭐

这一组对偶横跨三个看似无关的领域——采样式最优控制(MPPI/CEM)、策略梯度 RL(REINFORCE)、生成式模型(扩散/DDPM)——却共享同一个数学操作:用回报对采样做指数加权,把采样分布推向高回报区域。MPPI_01、MPPI_05 已分别推导过 MPPI↔REINFORCE 同构与 MPPI↔去噪同构,这里把三者并到一张图上收口。

经典侧(MPPI 在做什么)。 MPPI 在名义控制序列附近采样 \(K\) 条扰动轨迹,按各自代价 \(S_k\) 做 softmax 加权,更新名义序列:

\[ u^{\text{new}} \;=\; \sum_{k=1}^{K} w_k\, u_k, \qquad w_k = \frac{\exp(-\tfrac1\lambda S_k)}{\sum_j \exp(-\tfrac1\lambda S_j)}. \]

温度 \(\lambda\) 控制"贪婪程度":\(\lambda\to0\) 退化为只取最优样本,\(\lambda\to\infty\) 退化为均匀平均。这个指数加权来自 Kappen 的自由能-KL 对偶(path integral control)。

RL 侧之一(REINFORCE)。 策略梯度 \(\nabla_\theta J=\mathbb E_{\tau\sim\pi_\theta}[R(\tau)\nabla_\theta\log\pi_\theta(\tau)]\),用回报 \(R(\tau)\) 加权 log-likelihood 梯度,把策略分布的概率质量挪向高回报轨迹。当策略是高斯、用 score-function 估计时,REINFORCE 的更新和 MPPI 的加权更新形式同构——MPPI 是 REINFORCE 的"零阶、单步、模型已知"特例(用仿真器 rollout 代替环境采样,用 softmax 代替对数梯度)。

RL 侧之二(扩散/去噪)。 DDPM 的逐步去噪,每一步把带噪样本朝"数据流形上高似然区域"推一点;当用回报/价值做 classifier guidance 时(Diffuser、Decision Diffuser、Diffusion-Planner),去噪方向被回报梯度调制,等价于把样本朝高回报区域推——这与 MPPI 把样本朝低代价区域加权是同一种"reweighting toward good"操作,只是 MPPI 一步完成、扩散分多步迭代完成。

数学桥(等价在哪)。 三者都在做**信息投影 / 加权重采样**:给定一个提议分布(MPPI 的高斯、REINFORCE 的策略、扩散的噪声先验),用一个"好坏评分"(代价、回报、价值梯度)对样本重新加权,得到一个更靠近最优分布的新分布。形式上都可写成对 KL 正则化目标的求解:

\[ q^* \;=\; \arg\max_{q}\;\Big[\,\mathbb E_{x\sim q}[R(x)] \;-\; \lambda\,\mathrm{KL}\big(q\,\|\,q_0\big)\,\Big], \]

其中 \(q_0\) 是提议分布、\(R\) 是回报(或负代价)、\(\lambda\) 是温度。这个变分问题有**闭式解**——用变分法(对 \(q\) 求导并令其为零,或直接套 Gibbs 变分原理)可得:

\[ \boxed{\;q^*(x) \;=\; \frac{1}{Z}\,q_0(x)\,\exp\!\Big(\tfrac{1}{\lambda}R(x)\Big),\qquad Z=\int q_0(x)e^{R(x)/\lambda}\,dx\;} \]

即"提议分布 × 回报的指数"再归一化——这就是**指数倾斜(exponential tilting)。把这个唯一的闭式解和三种方法对照:①**MPPI 用有限样本 \(\{x_k\sim q_0\}\) 蒙特卡洛近似它,权重 \(w_k\propto e^{R(x_k)/\lambda}\) 正是上式离散化后的归一化权重(softmax);②**REINFORCE** 用梯度上升迭代逼近它,\(\nabla_\theta\mathbb E[R]=\mathbb E[R\nabla_\theta\log\pi_\theta]\) 是把参数 \(\theta\)\(q^*\) 方向推;③**扩散 guided denoising** 把它分解成多步,每步的 guidance 项 \(\nabla_x R/\lambda\) 正是 \(\log q^*\) 相对 \(\log q_0\) 的梯度增量。所以 MPPI 的 softmax、REINFORCE 的 score、扩散的 guided denoising,是同一个指数倾斜解 \(q^*\) 的三种数值实现——一个一步采样近似、一个迭代梯度、一个多步分解。看清这一个公式,三个领域的"加权更新"就再也不是三件事了。

边界(不等价在哪)。 ①**时域结构**:MPPI 每周期重采样一条新的有限时域轨迹(在线、滚动);策略梯度学一个可重复调用的策略网络(离线训练);扩散学一个可重复调用的生成器。②**模型依赖**:MPPI 需要仿真器做 rollout;REINFORCE 直接在真环境/仿真采样;扩散从离线数据集学,推理时不需要环境模型。③**多步迭代 vs 单步**:扩散的多步去噪能表达多峰分布(绕过障碍的左/右两条路都保留),MPPI 的单步 softmax 容易塌缩到单峰——这正是 2024-2025 用扩散先验增强 MPPI(Diffusion-MPPI、MPPI_05)的动机。

对比性思维:MPPI 不是"另一种 MPC",而是"把策略梯度的方差换成模型先验"的折中。 纯 RL 策略梯度方差大、需海量样本,但不需模型;纯梯度 MPC 需精确模型和可微性,但样本效率极高。MPPI 站在中间:用仿真器(弱模型假设,只需能 rollout,不需可微)做零阶估计,既绕开了梯度 MPC 对可微性的要求(所以能处理接触不连续、黑箱仿真),又比纯 RL 策略梯度的在线方差小(因为有模型 rollout 兜底)。这就是为什么 MPPI 在腿足/接触操作(MPPI_07)里如此受欢迎——那里梯度 MPC 因接触不连续失效,纯 RL 又太费样本。

§2.3 POMDP 搜索 ↔ model-based RL:belief = RNN 隐状态 ⭐⭐⭐⭐

这一组对偶回答 U4 反复强调的那句话——"belief 是 history 的充分统计"——在 RL 里到底对应什么。

经典侧(POMDP 求解在做什么)。 状态不可直接观测时,最优决策不能基于当前观测,而要基于 belief \(b_t=P(s_t\mid o_{1:t},a_{1:t-1})\)(状态后验)。POMDP 把 MDP 的状态空间换成 belief 空间,在其上做值迭代(SARSOP 的 \(\alpha\)-vector)或在线树搜索(POMCP/DESPOT 用粒子集表示 belief,做蒙特卡洛前瞻)。

RL 侧(model-free RL 怎么处理部分可观测)。 经验做法是给策略/值网络加一个 RNN(LSTM/GRU),让它从观测序列 \(o_{1:t}\) 中自行压缩出一个隐状态 \(h_t\),再基于 \(h_t\) 输出动作/价值。DRQN(Hausknecht & Stone 2015)、R2D2、IMPALA-LSTM、VariBAD 都是这条路。

数学桥(等价在哪)。 RNN 隐状态 \(h_t\) 是 belief \(b_t\) 的一个学出来的、有损的充分统计近似。 belief 之所以重要,是因为它是"对预测未来和做最优决策而言,history 的充分统计量"——理论上,知道 \(b_t\) 就不需要再看历史。RNN 隐状态在做同样的事:把变长历史 \(o_{1:t}\) 压缩成定长向量 \(h_t\),让 \(h_t\) 携带"做决策所需的全部历史信息"。DreamerV3(Nature 2025)把这点做到极致:它显式学一个 recurrent state-space model(RSSM),其隐状态既是 belief 近似、又是 world model 的状态——所以 DreamerV3 可以被精确地看成一个 amortized POMDP planner(用神经网络一次性摊销了 belief 更新 + 前瞻规划)。

边界(不等价在哪)。 ①**belief 的"正确性":POMCP/DESPOT 的粒子 belief 在已知观测模型 \(P(o|s)\) 下是渐近无偏的(粒子滤波保证);RNN 隐状态没有这个保证,它只是"对手头任务够用"的有损压缩——换个奖励函数,同一段历史该保留的信息可能不同。②**模型:POMDP 求解需要显式的转移/观测模型;model-free RNN-RL 不需要,但因此也无法做"反事实的前瞻"("如果我采取动作 \(a\),观测会怎样")。③**可解释性与剪枝**:DESPOT 的信念树有遗憾界(regret bound)和可检查的剪枝;RNN 隐状态是黑箱。这就是为什么 2024-2026 的 neural-guided POMDP(把策略/价值网络当作 DESPOT 的 default policy / bound)成为前沿——它想同时拿到"树搜索的保证"和"神经网络的泛化"。

一个可操作的判断清单:我这个任务到底要不要上 RNN/序列模型? 上面的对偶给了原则("任务是 POMDP 就要"),但实战中你需要更具体的信号。问下面四个问题,任意一个为"是"就强烈提示需要序列模型/belief 处理

  1. 瞬时观测能唯一确定该做什么吗? 若同一个瞬时观测在不同历史下需要不同动作(如"看到岔路口"但该左该右取决于之前看到的路标),则观测非充分统计 → 需要记忆。
  2. 有遮挡 / 传感器噪声 / 部分视野吗? 这些直接破坏"观测=状态",是 POMDP 的典型来源(行人被车挡住、激光打不到的死角)。
  3. 任务需要"主动信息收集"吗? 若最优策略包含"先去看一眼再决定"(active perception、active SLAM),那它本质在 belief 上做探索-利用权衡 → POMDP。
  4. 奖励/目标依赖于不可直接观测的隐变量吗? 如他人的意图、物体的质量、地面摩擦——这些是隐状态,需要从历史推断。

反过来,若四问全"否"(瞬时观测就是充分状态、全可观、无需主动感知、无隐变量),加 RNN 反而是负担(增加训练难度和过拟合风险,§3.4 反模式的变体)。这张清单把"要不要上 RNN"从玄学变成了四个可检查的信号。

本质洞察 3:部分可观测下,"维护一个状态后验"是绕不开的,区别只在于你显式算它(POMDP)还是让网络隐式学它(RNN-RL)。 这解释了一个常见困惑——"为什么我的 RL 策略在有遮挡/传感器噪声的任务上不加 RNN 就学不好?"因为不加 RNN,策略就只能基于瞬时观测决策,等于强行把 POMDP 当 MDP 解,理论上次优。加了 RNN,等于让网络自己去学 belief 更新。理解了这层对偶,你就知道"什么时候必须上 RNN/序列模型"(答案:当任务本质是 POMDP、瞬时观测不是充分统计时),而不是盲目试。

§2.4 不确定性规划 ↔ Safe / Robust / Distributional RL ⭐⭐⭐⭐

U 线的五条子路线(分支/鲁棒/机会约束/POMDP/CVaR)几乎每一条都在 RL 里有一个"风险化"的孪生兄弟。这一组对偶把它们配对,澄清前置自测第 4 题。

配对总表。

经典不确定性方法(出处) 核心数学对象 RL 孪生 共享的数学操作
Tube MPC / min-max MPC(U2) RPI 不变集 / 最坏扰动 Robust RL(对抗扰动下最大化最坏回报) \(\min_u\max_{w\in\mathcal W}\):对不确定集取最坏
Chance-Constrained MPC(U3) \(P(\text{violate})\le\delta\) Safe RL / CMDP(约束期望成本 \(\le d\) 约束优化(Lagrangian / 对偶)
CVaR / risk-sensitive(U5) 尾部条件期望 \(\mathrm{CVaR}_\alpha\) Distributional RL(C51/QR-DQN/IQN 学回报分布,取风险头) 把"期望算子"换成"风险度量 \(\rho\)"
分支/场景规划(U1) 共享根的场景树 Model-based RL 的想象分支(Dreamer 想象多条 rollout) 在不确定未来上展开多分支前瞻
POMDP / belief 规划(U4) belief 上的 Bellman RNN-RL / Dreamer(见 §2.3) 状态后验上的序贯决策

深入两组最容易混淆的配对。

(a) Tube MPC 的 RPI 集 ↔ Robust RL 的 uncertainty set(前置自测 4 上半题)。 两者**在"对抗谁"上确实是同一个对象**:都把不确定性建模成一个集合 \(\mathcal W\)(扰动/模型误差的取值范围),然后对这个集合取最坏情况。Tube MPC 用 RPI 集刻画"扰动驱使状态偏离名义轨迹能到达的最大范围",并据此收紧约束;Robust RL 用 uncertainty set 刻画"环境可能的最坏动力学",并最大化最坏情况回报。形式上都是 \(\min_u\max_{w\in\mathcal W}\) 的 robust optimization。不等价处:Tube MPC 的 \(\mathcal W\) 是手工给定的有界集(需要先验知道扰动范围),RPI 集可以离线精确算(Raković 算法);Robust RL 的 uncertainty set 常常是隐式的(通过域随机化采样体现),且最坏情况靠对抗训练近似,没有 RPI 的精确性保证。

(b) Chance Constraint ↔ CMDP 约束(前置自测 4 下半题)。 能互相翻译,且翻译关系很清晰:CMDP 约束"期望累积成本 \(\mathbb E[\sum c_t]\le d\)",当成本取指示函数 \(c_t=\mathbb 1[\text{violate at }t]\) 时,\(\mathbb E[\sum \mathbb 1]\le d\) 就是"期望违约次数 \(\le d\)",这正是 chance constraint 的一种期望版本。

更精确地说,翻译的中转站是 CVaR 与 chance constraint 的 Rockafellar-Uryasev 关系。回顾 CVaR 的变分定义(U5):

\[ \mathrm{CVaR}_{1-\delta}\big(g(x)\big) \;=\; \min_{t\in\mathbb R}\;\Big\{\,t + \tfrac{1}{\delta}\,\mathbb E\big[(g(x)-t)^+\big]\,\Big\}. \]

关键不等式是 CVaR 是 VaR(分位数)的凸上界,而 VaR 又直接对应 chance constraint:\(\mathrm{VaR}_{1-\delta}(g)\le 0 \iff P(g(x)>0)\le\delta\)。由 \(\mathrm{CVaR}\ge\mathrm{VaR}\) 得到链条:

\[ \mathrm{CVaR}_{1-\delta}\big(g(x)\big)\le 0 \;\;\Longrightarrow\;\; \mathrm{VaR}_{1-\delta}\big(g(x)\big)\le 0 \;\;\Longleftrightarrow\;\; \underbrace{P\big(g(x)>0\big)\le\delta}_{\text{chance constraint}}. \]

也就是说:满足 CVaR 约束就一定满足同水平的 chance constraint(CVaR 是更保守、但凸、可解的代理)。这就是"用 CVaR 约束来强制 chance constraint"在工程上行得通的数学根据——chance constraint 本身非凸难解,CVaR 约束凸且能写成 LP/QP(RU 的 \(\min_t\) 引入一个辅助变量即可)。而 CVaR 约束又是 distributional RL 能直接处理的对象(IQN 内置 CVaR 采样器,直接对回报分布的尾部优化)。所以三者构成一条**可逐步代换的翻译链**:

\[ \boxed{\;\text{chance constraint}\;\xleftarrow{\text{CVaR 上界}}\;\text{CVaR 约束(凸,可 LP 化)}\;\xrightarrow{\text{尾部采样}}\;\text{distributional RL 风险头}\;} \]

这条链是 U3-U5 与 Safe/Distributional RL 之间最重要的桥:左端(经典 chance-constrained 优化)和右端(distributional RL)通过中间的 CVaR 这个"公共货币"连通——你既可以在 OSQP 里解 CVaR-LP,也可以让 IQN 学 CVaR 风险头,两者优化的是同一个保守化的安全目标。

(c) 分支/场景规划 ↔ Dreamer 的想象 rollout(配对总表第四行的展开)。 这一组对偶常被忽略,却最直观。经典的分支/场景规划(U1 的 MPDM/EPSILON/scenario tree)做的是:对不确定的未来枚举若干"剧本"(他车会让/会抢、行人会停/会冲),在每个剧本上前向仿真,再综合各剧本的结果做决策——本质是"在不确定未来上展开多分支前瞻"。而 model-based RL 的 Dreamer 系做的是:在学到的 world model 里"想象"多条 rollout(每条对应一种可能的未来展开),用想象的回报来训练策略/值。两者的同构点一目了然:都是"在一个(手写或学出的)前向模型上,对不确定的未来展开多条分支,用分支结果指导当前决策"。差异在于:经典分支用手写的语义剧本(可解释、数量少、需人工设计剧本集),Dreamer 用学出的连续 latent rollout(不可解释、可大量采样、剧本集隐式)。这就是为什么 §附录 A.3 说"MPDM 前向仿真 = 带启发的 tree search"、CoRL 2022 Contingencies-from-Observations 与 Dreamer 系想象分支对应——它们是同一个"多分支前瞻"在经典与 RL 两侧的实现。

边界(共性之外的关键差异)。 经典侧(Tube/CC/CVaR-MPC)给的是**带证书的保证**——RPI 集保证约束满足、CVaR-LP 给确定的风险界;RL 侧(Robust/Safe/Distributional RL)给的是**统计意义上的、训练收敛后的近似保证**,且这些保证在分布外(OOD)状态可能失效。所以工程上常见的不是二选一,而是用 RL 学策略、用经典安全层兜底(§4.4 的安全滤波 / CBF + RL / shielding)——让 RL 负责性能、经典负责"绝不越界"。

理论-工程桥接:风险度量是连接控制与 RL 的"通用货币"。 一致性风险度量(coherent risk measure,Artzner 4 公理)这个数学对象,同时是 CVaR-MPC 的目标、distributional RL 的输出头、和 Safe RL 的约束形式。它像一种"通用货币"——一旦你的任务用风险度量 \(\rho\) 表达了目标(而不是只用期望),你既可以用经典优化解(CVaR-LP dual + OSQP),也可以用 distributional RL 学(IQN 内置 CVaR 采样器),还可以两者混合。这就是为什么 U5(CVaR)虽然 C++ 生态空白,却被定位为"理论顶帽"——它是整个不确定性谱系的统一语言。

§2.5 博弈求解 ↔ MARL:Nash↔均衡学习,PSRO↔double oracle ⭐⭐⭐

这一组对偶澄清前置自测第 3 题——把"解概念"和"训练范式"分清楚,是理解 G 线与 MARL 交界的关键。

先厘清三个常被混为一谈的词。

  • 解概念(solution concept):Nash 均衡、Stackelberg 均衡、相关均衡——这是"什么叫'解出了'这个博弈"的**定义**,与用什么算法求无关。
  • 经典求解器:iLQGames(求局部反馈 Nash)、ALGAMES(求约束 GNE)、HJI(求零和微分博弈值)——这是在**已知各方代价/动力学**时求解概念的方法。
  • 训练范式:CTDE(集中训练分散执行)、self-play、population-based training——这是 MARL 里**组织训练流程**的方式,不是解概念。把 CTDE 当成"一种均衡"是初学者最常见的范畴错误(前置自测 3 的陷阱)。

为什么"解概念 ≠ 训练范式"这件事必须分清——一个会出错的例子。 解概念回答"我想要什么样的解",训练范式回答"我用什么流程去逼近它",二者正交。最常见的错误是把它们耦合:比如默认"用 CTDE 训出来的就是 Nash"。但 CTDE 只是"训练时让 critic 看到全局信息、执行时各自只用局部观测"的流程,它本身不规定收敛到哪种均衡——同样的 CTDE,配不同的目标/对手集,可能逼近 Nash,也可能逼近别的不动点,甚至不收敛。再如"self-play 训出的策略一定鲁棒"也是误解:self-play 是训练范式,它逼近的解概念取决于对手分布(只跟最新自己打 ≠ 跟整个历史策略池打,后者才更接近 Nash,这正是 §2.5 后面 PSRO 要解决的)。正确的思维顺序永远是:先定解概念(我要同时博弈的 Nash?还是领导-跟随的 Stackelberg?),再选训练范式去逼近它,最后验证它确实收敛到了想要的解概念——三步分开,缺一不可(§3.4 反模式 3 是这个错误的工程版)。

Nash vs Stackelberg:解概念选错,结果南辕北辙。 同一个交互场景,选 Nash 还是 Stackelberg 会给出完全不同的策略,这不是算法细节而是建模决策:Nash 假设各方"同时"决策、互为最优响应(适合对等的、无明显先后的交互,如两车对向会车);Stackelberg 假设有"领导者"先动、"跟随者"看到后再最优响应(适合有明显主导方的交互,如 AV 主动影响人类驾驶——Sadigh 2016 正是把 AV 建成 leader)。选错的后果很具体:把本该 Stackelberg 的场景(AV 该主动试探、人类会让)当成 Nash 解,AV 会过于保守(假设对方不会因自己而改变);反之把对等场景当 Stackelberg,会高估自己的影响力而过于激进。所以"用 Nash 还是 Stackelberg"是博弈规划的第一个、也是最容易被跳过的建模决策——它属于"解概念"层,必须在选求解器/训练范式之前定下来。

经典侧 ↔ MARL 侧的逐项对偶。

经典博弈(G 线) MARL 孪生(Multi_10、G4)
Nash 均衡(解概念) Nash-Q、MADDPG/QMIX 收敛点 MARL 算法(隐式)收敛到的不动点常是某种 Nash
iLQGames 反馈 Nash actor-critic 在 LQ 博弈上的收敛 两者都在求反馈策略的不动点
ALGAMES 约束 GNE Constrained MARL / safe MARL 都在约束策略空间求均衡
PSRO(G4) = double oracle 的深度 RL 版 best-response oracle 用深度 RL 算,meta-solver 求策略池上的 Nash
HJI 零和微分博弈 Robust adversarial RL(RARL) \(\min\max\) 的连续时间 vs 采样版

深入 PSRO ↔ double oracle 这一组(最优雅的对偶)。 Double oracle 是博弈论里求大规模零和博弈 Nash 的经典迭代算法:维护一个策略子集,每轮①对当前子集上的 meta-game 求 Nash(meta-solver),②对该 Nash 求 best response(oracle)并加入子集,直到 best response 不再带来增益。把两个算法的骨架并排写出来,对偶关系一目了然:

Double Oracle(经典)                       PSRO(深度 RL 版,Lanctot 2017)
─────────────────────────────────          ─────────────────────────────────
初始化策略池 Π = {π0}                        初始化策略池 Π = {随机策略}
repeat:                                      repeat:
  M ← 在 Π×Π 上算各策略对的收益矩阵            M ← 让 Π 里的策略互相对打,估计收益矩阵
  σ ← meta-solver(M)  # 解 meta-game Nash      σ ← meta-solver(M)  # 仍解 Nash / α-rank
  for 每个玩家 i:                              for 每个玩家 i:
    br_i ← 精确 best response to σ_{-i}          br_i ← 用深度 RL(PPO/DQN) 训练近似 BR
    Π ← Π ∪ {br_i}                              Π ← Π ∪ {br_i}
until BR 不再改进收益                          until BR 不再显著改进(或预算耗尽)
输出: meta-Nash σ over Π                      输出: meta-Nash σ over Π(策略混合)

逐行对照可见:PSRO 只把 double oracle 的两处"算子"换成了深度 RL——①收益矩阵 \(M\) 从"解析计算"变成"对打估计",②best-response oracle 从"精确解"变成"深度 RL 近似",meta-solver(解 meta-game Nash)则原样保留。 所以 PSRO、JPSRO、\(\alpha\)-PSRO、Pipeline-PSRO 这一整个家族,都是"经典博弈算法骨架 + 深度 RL 内核"的混合——恰好是 §4.2 骨架 A(用 RL 替换经典算法里最难精确算的零件)在博弈领域的体现。AlphaStar 的 league training、AlphaGo 的 self-play 本质都是这套(self-play 可看作 PSRO 的特例:meta-solver 退化成"总是对最新策略求 BR")。这个对偶的美妙之处在于:它让"求博弈 Nash"这个 PPAD-hard 的问题,借由经典骨架获得了收敛结构(double oracle 保证有限步收敛到 Nash),又借由深度 RL 获得了对大策略空间的可扩展性——单用任何一边都做不到。

边界(不等价在哪)。 ①**均衡的存在性与求解性**:经典求解器(iLQGames)在 LQ 假设下求局部反馈 Nash 有较好的数值性质;一般博弈的 Nash 求解是 PPAD-hard,MARL 用梯度下降-上升(GDA)求均衡可能不收敛(循环、震荡)——这是 G4 和连续博弈 RL(Stackelberg actor-critic、GDA 收敛性分析)的核心难题。②**信息结构**:经典博弈明确区分开环/反馈、完全/不完全信息;MARL 的信息结构隐含在网络输入和 CTDE 的"集中 critic 能看到什么"里,容易被忽略而导致错误的均衡概念。③**可扩展性**:iLQGames 处理 N 人但 N 大时维度爆炸;PSRO 类方法能 scale 到大策略空间但每轮 oracle 训练昂贵。

本质洞察 4:博弈不是"多个 RL agent 各自学",而是"在耦合的最优性条件(HJI/GNE)上求不动点"。 这是初学者最大的认知升级。把多机问题简单地"每个 agent 跑一个独立 PPO"(independent learners),等于无视了"每个 agent 的最优策略依赖于别人的策略"这个耦合——会遇到非平稳性(环境随别人策略变化)和不收敛。正确的视角是:多智能体最优决策的解,是一组**互相满足最优性条件**的策略(Nash/GNE),无论你用经典求解器解它、还是用 CTDE/PSRO 学它,目标都是这个耦合不动点。理解这点,你就知道为什么 CTDE 的"集中 critic"是必要的(它让每个 agent 的更新考虑到别人),以及为什么独立学习常常失败。

§2.6 搜索式规划 ↔ 学习型搜索:A*↔Neural A*,MCTS↔MuZero ⭐⭐⭐

最后一组对偶收口 T 线(时空搜索)、Multi_03(MAPF)与 RL 的搜索分支。

经典侧(搜索式规划在做什么)。 A*/SIPP/Hybrid-A* 用启发式 \(h(s)\) 估计"从 \(s\) 到目标的最优 to-go",配合已花代价 \(g(s)\),按 \(f=g+h\) 展开节点。启发式 \(h\) 越接近真实 to-go(即越接近 \(V^*\)),搜索越高效;\(h\) 是可采纳的(admissible,不高估)就保证最优。MCTS 则用蒙特卡洛 rollout 估计节点价值,配 UCT 平衡探索-利用。

RL 侧(学习型搜索在做什么)。 Neural A*(ICML 2021)用 CNN 从地图预测一个 guidance map(本质是学出来的 \(h\) 或代价场),加速 A* 展开。MuZero(Nature 2020)更彻底:它学一个 latent dynamics model + value/policy 网络,在学到的模型上做 MCTS——用神经网络同时提供了"模型"(展开用)、"价值"(叶节点估值用)、"策略先验"(节点选择用)。GNN-guided CBS/SIPP(MAPF)用图神经网络预测冲突优先级,减少高层节点展开。

数学桥(等价在哪)。 学习型搜索 = 经典搜索 + 用神经网络学其中的 \(\{\)启发式 \(h\)、价值估计、模型 \(f\)、策略先验\(\}\) A* 的 \(h\) ≈ MuZero 的 value network ≈ MPC 的终端代价 ≈ RL 的 \(V\)——它们都在逼近 \(V^*\)(又回到 §2.1 的母对偶!)。MCTS 的 rollout 估值 ≈ MPPI 的 rollout 估值 ≈ TD 学习的 bootstrap——都在用前瞻样本估计 to-go。所以"经典搜索"和"RL 搜索"的差别,只是 \(V^*\) 的那些零件是手工设计还是神经网络学出来的

边界(不等价在哪)——把"可采纳性"这个核心权衡写清楚。 A* 的最优性保证依赖一个精确的条件:启发式 \(h\) 可采纳(admissible),即对所有 \(s\) 满足 \(h(s)\le h^*(s)\)(不高估真实 to-go)。在此条件下 A* 保证返回最优路径;进一步若 \(h\) 一致(consistent),还保证每个节点只展开一次。这里有一个**手工启发式根本绕不开的张力**:

\[ \underbrace{h\to 0}_{\text{退化为 Dijkstra,慢但安全}} \quad\longleftrightarrow\quad \underbrace{h\to h^*}_{\text{理想:直奔目标,但需先知道 }V^*} \quad\longleftrightarrow\quad \underbrace{h>h^*}_{\text{快但可能丢最优解}} \]

手工设计 \(h\) 时,你只能在"保守(可采纳但松、搜索慢)"和"激进(紧但可能高估、丢最优)"之间手调,而**最理想的 \(h=h^*\) 恰恰就是 \(V^*\)——你要是知道它就不用搜索了**。这正是 Neural A* 切入的缝隙:它**用神经网络学一个尽量贴近 \(h^*\) 但不保证可采纳的 \(h\),于是搜索极快(因为 \(h\) 紧),代价是**牺牲了最优性保证(学出的 \(h\) 可能局部高估,丢掉最优解)。所以这一组对偶的不等价处可以精确地表述为:

①**最优性保证**:经典 A* 在 admissible \(h\) 下保证最优;Neural A* 学的 \(h\) 不保证 admissible,换"快"丢"最优性证书"。②**模型来源**:经典搜索的转移模型是手工/已知图;MuZero 的模型是学的,可能在 OOD 状态出错。③**泛化 vs 保证**:神经零件带来跨实例泛化(学一次,多张地图都快),但失去逐实例的可验证保证——这是"学习型搜索"全家共同的权衡。理解了 \(h\) 可采纳性这个张力,你就懂了为什么"学启发式"是必然趋势(手工 \(h\) 难以同时紧又可采纳)、以及它的代价边界在哪(丢最优性证书)——以及在 MAPF(Multi_03)这类对最优性敏感的场景里,为什么人们要用"有界次优(bounded-suboptimal)"框架(如 focal search)来给学习型启发式套一个可控的次优界。

对比性思维:Neural A* 不是"用神经网络替代 A*",而是"用神经网络替代 A* 里那个最难手工设计的零件(启发式)"。 很多人误以为学习型搜索是"抛弃经典搜索、全用神经网络"。恰恰相反——它保留了 A*/MCTS 的搜索骨架(这部分有最优性结构、可控),只把骨架里**最依赖领域知识、最难手工调好的零件**(启发式 \(h\)、节点优先级、模型)换成神经网络。这是一种极聪明的分工:让经典结构提供保证和可控性,让神经网络提供那些"说不清但学得会"的先验。这个分工哲学,正是 §4 整个混合范式的缩影。

§2.7 六组对偶的统一全景:它们其实是同一组对偶 ⭐⭐⭐⭐

把 §2.1-§2.6 六组对偶并排看,一个更深的事实浮现:它们不是六个独立的巧合,而是同一组对偶在不同算子上的六次重演。 每一组的"经典侧"和"RL 侧",都在逼近母方程里的同一个对象——而那个对象,归根结底都是 \(V^*\)(或它的某种特化:belief 上的 \(V^*\)、风险化的 \(V^*\)、博弈的均衡值)。

对偶组 经典侧逼近什么 RL 侧逼近什么 共同逼近的母方程对象 同构操作
§2.1 MPC↔值迭代 终端代价 \(V_f\) critic \(\hat V\) \(V^*\) Newton 步 / 策略迭代
§2.2 MPPI↔策略梯度↔去噪 rollout 加权 score / guidance 指数倾斜的最优分布 \(q^*\) \(q^*\propto q_0 e^{R/\lambda}\)
§2.3 POMDP↔RNN-RL 粒子 belief RNN 隐状态 belief 上的 \(V^*\) history 的充分统计
§2.4 不确定性↔Safe/Dist RL 风险化 to-go distributional/robust value 风险算子下的 \(V^*\) 期望→风险度量 \(\rho\)
§2.5 博弈↔MARL 反馈 Nash 值 MARL 收敛点 HJI/GNE 的均衡值 耦合最优性的不动点
§2.6 搜索↔学习型搜索 启发式 \(h\) value/policy net \(V^*\)(to-go) 逼近 to-go 加速搜索

这张表是 §2 的"对偶的对偶"——它揭示六组对偶共享同一个母结构。 三件事值得反复体会:

  1. 第四列(共同逼近的对象)全是 \(V^*\) 的变体。 \(V^*\)、belief 上的 \(V^*\)、风险化 \(V^*\)、博弈均衡值——它们都是母方程 \(V^*=\mathcal T V^*\) 在不同算子(状态空间换 belief、期望换风险、单方换多方)下的不动点。所以六组对偶本质是一组:经典与 RL 都在逼近"母方程的不动点",只是母方程被特化成了不同形态。
  2. 第五列(同构操作)虽各异,却都是"用某种迭代/加权逼近不动点"。 Newton 步、指数倾斜、充分统计压缩、风险算子、不动点迭代、to-go 逼近——它们是逼近不动点的六种数值手段,但目标一致。
  3. 这解释了为什么混合范式(§4)能成立且自然。 既然经典与 RL 逼近的是同一个不动点,那么一方的中间产物(\(V_f\)、warm-start、belief、安全集)就能被另一方直接消费——这不是工程上的侥幸拼接,而是数学上的必然可对接。§4 的四类骨架,正是在这张全景表的不同列上"让经典和 RL 交换中间产物"。

本质洞察 4.5(§2 的总收口):你以为学了六组对偶,其实只学了一组——"经典与 RL 都在逼近母方程的不动点"。 这是把 §2 从"六个并列知识点"升维成"一个统一原理"的关键。初学者会把 MPC↔值迭代、MPPI↔策略梯度、POMDP↔RNN 当成六件要分别背的事;而一旦你看到第四列全是 \(V^*\) 的变体,六组就坍缩成一组。这种"把 N 个看似独立的事实统一成一个原理"的能力,正是 §1 开篇说的"专家与新手的分水岭"。 带着这个统一视角,你再去看 §4 的混合范式、§5 的全方向收口,会发现它们都是这同一个原理的展开。

过渡:从"对偶"到"决策"。 §2 的六组对偶,把"经典 ↔ RL 同义表达"这张映射图填满了——这正是 §4 阶段课程作业要交付的核心。但"知道它们对偶"还不等于"知道该用哪个"。苹果和橡树同源,但盖房子用橡木、做沙拉用苹果。下一节 §3 就把这些对偶关系翻译成可操作的**选型决策**:给定一个真实任务,到底落到 §1.3 总表的哪一格?


§3 决策框架:面对一个任务,到底该用谁 ⭐⭐⭐

为什么需要决策框架——先动机

学完整个方向,最容易陷入的不是"不会用工具",而是"面对新任务时不知道该挑哪个工具"。社区里充斥着两种极端误导:一种是"RL 是未来,经典方法都过时了"(多见于深度学习圈),另一种是"RL 不可靠,工业上还得靠 MPC"(多见于传统控制圈)。两种说法都把"该用谁"简化成了立场站队,而正确答案永远是"取决于任务的具体画像"。

最有说服力的反例,来自一项被反复引用的实证研究——Song, Romero, Müller, Koltun, Scaramuzza, "Reaching the limit in autonomous racing: Optimal control versus reinforcement learning," Science Robotics 2023。这项工作在同一个第一视角无人机竞速任务上,把精心调过的最优控制(MPC)和 RL 正面对比,结论极其精准、也极具教学价值:RL 赢了,但赢的不是"因为 RL 更聪明",而是因为这个任务的目标(贴着动力学极限飞最快)很难写成 MPC 需要的那种光滑、可微、低维的代价函数——RL 用回报信号绕开了"显式设计代价"这个瓶颈。换句话说,胜负不取决于"RL vs OC"这个标签,而取决于**任务的目标能否被经典优化所需的结构(光滑代价、准确模型、可解约束)干净地表达**。这正是本节要给你的决策框架的灵魂:先看任务画像,再选方法,而不是先有立场。

§3.1 六维任务画像

任何规控任务,都可以用下面六个维度刻画。填完这六个维度,方法选择就基本确定了——这是把 §1.3 总表"反过来用":总表告诉你每个方法站在哪一格,画像告诉你任务需要哪一格。

维度 问题 偏向经典(优化/搜索/MPC)当… 偏向 RL(学习)当…
D1 模型已知性 动力学 \(f\) 能准确建模吗? 能(刚体、轮式、四旋翼平坦模型) 不能(软体、复杂接触、像素→动作)
D2 状态/动作维度 状态维度多高?动作连续/离散? 中低维(< 几十维),结构清晰 高维(图像、点云)、长horizon
D3 约束硬度 安全约束是"必须满足"还是"尽量满足"? 硬约束(碰撞绝对禁止、力矩上限) 软约束(可用惩罚鼓励即可)
D4 实时预算 在线允许多少计算时间? 充裕(10-100ms 可解 OCP)或可离线 极紧(μs 级,只够一次前向)
D5 安全/可验证性 需要可证明的保证 / 可解释吗? 需要(认证、量产、安全关键) 不需要或有兜底层
D6 数据/仿真可得性 有高保真仿真器 / 海量数据吗? 不需要(模型即够) 有(否则 RL 无从训练)

怎么用这张表? 不是"多数票决",而是看**有没有"一票否决"的维度**:

  • D3 = 硬约束 且 D5 = 需要可验证(如载人系统、量产自驾的底层安全):几乎一票否决纯 RL,必须有经典安全层(至少是 §4.4 的安全滤波兜底)。
  • D1 = 模型不可建模(如柔性操作、像素到动作):几乎一票否决纯经典优化,必须引入学习(纯 RL 或 §4.7 的 world model)。
  • D6 = 无仿真无数据:一票否决纯 RL(没法训练),只能走经典或 model-based(先学模型)。
  • D4 = μs 级且 D2 高维:在线解 OCP 来不及,倾向"离线学策略 + 在线推理",即 RL 或 amortized 优化。

§3.2 主决策树(一图流)

把六维画像组织成一棵可操作的决策树。这棵树不是教条,而是"默认起点"——多数任务从这里出发能选对大方向,特殊情况再微调。

                          ┌─ 任务来了 ─┐
                          │ 填六维画像  │
                          └──────┬──────┘
                  ┌──────────────────────────────┐
                  │ Q1: 安全约束是硬约束          │
                  │     且需要可验证保证吗?(D3,D5)│
                  └───────┬───────────────┬──────┘
                       是 │               │ 否
                          ▼               ▼
          ┌───────────────────────┐   ┌────────────────────────┐
          │ 经典优化必须在场       │   │ Q3: 模型能准确建模吗?  │
          │ Q2: 模型可建模吗?(D1)  │   │     (D1)                │
          └────┬──────────────┬───┘   └─────┬──────────────┬────┘
            是  │              │ 否          │ 是           │ 否
               ▼              ▼             ▼              ▼
       ┌──────────────┐ ┌─────────────┐ ┌──────────┐ ┌──────────────┐
       │ 纯经典 MPC/  │ │ 混合:学模型/ │ │ Q4:维度高 │ │ Q5:有仿真/   │
       │ 搜索/博弈    │ │ 学代价 + 经典│ │ 或 μs级? │ │ 数据吗?(D6) │
       │ (acados,     │ │ 安全层兜底   │ │ (D2,D4)  │ │              │
       │  GCOPTER,    │ │ (§4.3/§4.4)  │ └──┬────┬──┘ └──┬───────┬──┘
       │  ilqgames)   │ └─────────────┘   是│    │否    是│       │否
       └──────────────┘                     ▼    ▼        ▼       ▼
                                      ┌────────┐┌──────┐┌──────┐┌────────┐
                                      │RL/学策略││经典  ││纯RL  ││退化:   │
                                      │+在线推理││优化  ││或    ││只能经典│
                                      │(可加安全││足够  ││world ││/ 先搭  │
                                      │ 滤波)   ││      ││model ││ 仿真   │
                                      └────────┘└──────┘└──────┘└────────┘

这棵树的核心逻辑(用三句话总结):

  1. 安全 + 硬约束 + 可验证 → 经典优化必须在场(哪怕只是作为 §4.4 的兜底滤波层)。这是不可让渡的底线,载人/量产系统尤其如此。
  2. 模型不可建模 → 学习必须在场(纯 RL 或先学 world model 再规划)。硬靠手写模型做优化会因模型失配而失败。
  3. 两者都不极端时 → 看维度和实时预算:低维 + 模型好 + 时间够,经典优化往往是更省心、更可靠的选择(别为了用 RL 而用 RL);高维感知 / μs 级 / 黑箱,才轮到 RL 的主场。

本质洞察 5:决策树的根问题永远是"安全约束硬不硬",而不是"哪个方法更先进"。 这是工业界和学术界最大的认知差。学术 benchmark 上,性能(成功率、回报)是唯一指标,所以"更先进的方法赢"。但真实系统里,违约一次的代价(撞人、坠机、设备损毁)可能是无穷大,此时"可证明不违约"压倒一切性能优势。这就是为什么量产自驾的底层仍是经典优化 + 安全证书,而把 RL/神经网络放在"提性能"的上层——风险被经典层挡住了,神经网络才能放心地激进。理解这个"风险-性能分层",你就理解了 §4 混合范式为什么是工程主流。

§3.3 五个边界案例的实证

抽象的决策树需要具体案例锚定。下面五个案例覆盖五大方向,每个都给出"画像 → 结论 → 为什么",并尽量引用有据可查的实证。

案例 1:无人机竞速贴极限飞行(D 方向)——RL 胜,但因为代价难写。 画像:D1 模型较好(四旋翼平坦),但 D2 目标维度上"贴动力学极限"这个目标极难写成光滑代价,D4 实时紧、D6 有高保真仿真。结论:RL(Song et al. Science Robotics 2023 实证 RL 跑出更快圈速)。 为什么:MPC 需要一个光滑、可微、能反映"逼近极限"的代价函数,而这个目标本质是非光滑的(极限处行为剧变);RL 用稀疏的"圈速"回报绕开了显式代价设计。教学含义:这不是"RL 比 MPC 强"的证据,而是"当目标难以解析表达时,RL 的回报信号是更自然的接口"的证据。

案例 2:城市自驾的行人交互决策(自驾 / U1 / S4)——POMDP/混合,纯经典或纯 RL 都不够。 画像:D1 行人意图不可精确建模(POMDP)、D3 安全硬约束、D5 需可验证、D6 仿真不完美。结论:经典 POMDP(DESPOT,NUS Bai 2015 行人交互驾驶是金牌案例)或"学预测 + 经典规划 + 安全层"的混合(Apollo 路线)。 为什么:纯 RL 难给安全保证(D3/D5 否决),纯确定性优化无法处理意图不确定(D1 否决),所以落到"belief 上决策"——经典走 POMDP 树搜索,工业走"神经预测喂给经典规划器 + CBF 兜底"。

案例 3:四足在崎岖地形的敏捷运动(C1 / MPPI_07)——RL 或采样 MPC,梯度 MPC 因接触失效。 画像:D1 接触动力学不连续、难精确建模,D2 全身高维,D4 实时紧。结论:RL(sim-to-real 域随机化,ANYmal/Cheetah 主流)或采样式 MPPI(DIAL-MPC)。 为什么:接触不连续让梯度 MPC 的可微性假设破裂(§2.2 已述),所以要么用零阶的采样 MPPI(不需梯度),要么用 RL(仿真里学、域随机化迁移)。这里**经典梯度优化被"接触不连续"这个 D1 子维度直接否决**。

案例 4:工厂机械臂重复抓取已知物体(B 方向)——经典优化足够,别上 RL。 画像:D1 模型好(刚体 + 已知物体)、D2 中维、D3 有力矩约束但可解、D4 时间充裕、D6 不一定有数据。结论:经典 MPC / 轨迹优化(acados、Crocoddyl)。 为什么:这是经典优化的舒适区——模型准、约束可解、重复性高。硬上 RL 反而是反模式:要造仿真、要调奖励、要担心 sim-to-real,换来的"泛化"在"重复抓取已知物体"这个固定任务上毫无价值。这个案例专门用来对治"RL 万能"的迷思。

案例 5:百级无人机集群协同(D10 / Multi)——分层混合,单一范式都不可扩展。 画像:D2 联合状态维度爆炸(百机)、D1 单机模型好但耦合复杂、D4 分布式实时。结论:分层混合——上层 MARL/PSRO 或学习型分配,下层每机经典 MPC/MINCO(ZJU EGO-Swarm 路线)。 为什么:集中式经典优化在百机维度爆炸(D2 否决集中经典),纯端到端 MARL 在百机上训练不收敛且无单机安全保证。所以**用学习处理"高层协调/分配"(维度高、难建模),用经典处理"单机轨迹"(低维、要安全)**——这正是 §5.3 "学习管调度、优化管执行"主轴的体现。

反事实分析:同一个任务,改一个画像维度,结论就翻转。 决策框架的真正威力,体现在"画像微变 → 结论可预测地变化"上。把上面五个案例各做一次"扰动一个维度"的反事实推演,你会看到选型对画像的敏感性——这也是 R6 对比性思维的核心训练:

基准案例 改动一个维度 结论如何翻转 教学含义
案例 1 竞速(RL 胜) D3 改为硬约束(赛道边界绝对不能越) 从纯 RL → RL + 安全滤波(§4.4),RL 仍管性能但 CBF 兜底 安全维度一变硬,经典层立刻被拉进来
案例 1 竞速(RL 胜) 目标可写成光滑代价(如最小时间 + 已知赛道几何) 从 RL → MPC 重新有竞争力(这正是 Song et al. 的微妙之处:胜负在于代价可写性) "RL 胜"不是绝对的,取决于代价能否解析表达
案例 4 抓取(经典够) D1 改为未知/可变形物体(抓毛巾、线缆) 从经典 → 学习(视觉抓取 RL/IL),模型不可建模否决经典 模型维度一变黑,学习立刻成为必需
案例 4 抓取(经典够) D2 改为像素直接输入(无物体姿态估计) 从经典 → 端到端学习或"感知学习 + 经典规划"混合 高维感知输入把经典优化推向上游
案例 3 四足(RL/MPPI) 改为平地缓速行走(接触规律、可线性化) 从 RL/MPPI → 凸 MPC 重新够用(MIT Cheetah convex MPC) 接触一旦可近似,梯度 MPC 回归
案例 2 行人(POMDP/混合) D6 改为有完美仿真 + 海量数据 belief 规划权重下降,end-to-end IL/RL(如 UniAD 路线)更有竞争力 数据维度改变学习的可行性
案例 5 集群(分层混合) D2 改为仅 3-5 机 集中式经典博弈/优化(iLQGames/集中 MPC)重新可行,无需 MARL 规模维度决定集中 vs 分布

这张反事实表是本节最该带走的东西。 它证明:选型不是"记住某任务用某方法",而是"理解每个画像维度如何把结论往哪边推"。 一旦掌握这种敏感性分析,你面对任何变体任务都能即时调整——这才是"会选型"的真正含义,远比背下五个案例的标准答案有用。

§3.4 反模式:常见的"用错工具"

把上面的正面案例反过来,列出五个高频反模式(陷阱)。每个按"错误描述 → 现象/后果 → 根本原因 → 正确做法"四要素展开(R9)。

反模式 1:在模型已知的低维任务上硬上 RL。 - 错误描述:明明是轮式机器人点到点导航(模型清楚、约束简单),却要训一个端到端 RL 策略。 - 现象/后果:花几周搭仿真、调奖励、处理 sim-to-real,最终性能还不如一个 200 行的 MPC,且无任何安全保证。 - 根本原因:把"RL 更先进"当成默认选择,忽略了任务画像(D1 模型好、D2 低维 → 经典优化的舒适区)。 - 正确做法:先问决策树 Q3/Q4——模型好 + 低维 + 时间够,直接经典优化。RL 的价值在 D1/D2 不利时才显现。

反模式 2:在安全关键系统里用纯 RL,无经典兜底。 - 错误描述:载人/近人系统直接部署一个 RL 策略做底层控制,期望它"学会安全"。 - 现象/后果:分布外状态(训练没见过的场景)下行为不可预测,可能违约(碰撞、超限);无法通过安全认证。 - 根本原因:误以为"奖励里加了惩罚项 = 安全保证"。软惩罚不是硬保证,OOD 下尤其失效(§2.4 边界)。 - 正确做法:决策树 Q1=是 → 经典安全层必须在场。用 §4.4 的安全滤波 / CBF-QP 给 RL 输出兜底,让经典层"绝不越界",RL 只在安全集内激进。

反模式 3:把 CTDE / self-play 当成"解概念"。 - 错误描述:声称"我用 CTDE 解出了这个博弈的均衡"。 - 现象/后果:分不清自己求的是哪种均衡(Nash?相关均衡?还根本没收敛?),导致对结果的错误解读和不可复现。 - 根本原因:混淆训练范式(CTDE)与解概念(Nash/Stackelberg)(§2.5 前置自测 3)。 - 正确做法:先明确解概念(你要的是同时博弈的 Nash 还是领导-跟随的 Stackelberg?),再选训练范式去逼近它,并验证收敛性。

反模式 4:忽略部分可观测,把 POMDP 当 MDP 解。 - 错误描述:在有遮挡/传感器噪声的任务上,用瞬时观测直接喂给前馈策略或 MDP 求解器。 - 现象/后果:策略学不好或次优,表现为"在需要记忆的地方反复犯错"。 - 根本原因:瞬时观测不是充分统计,任务本质是 POMDP(§2.3),强行当 MDP 解理论上次优。 - 正确做法:识别 POMDP 特征(观测 ≠ 状态),经典走 belief 规划(DESPOT),RL 走 RNN/序列模型(让网络学 belief)。

反模式 5:为了用扩散/大模型而用,无视实时与可验证需求。 - 错误描述:在 μs 级、安全关键的底层控制回路里塞一个大扩散模型或 VLA。 - 现象/后果:推理延迟远超控制周期、行为不可验证,系统失稳或不安全。 - 根本原因:把"前沿 = 适用"画等号,忽略 D4(实时)和 D5(可验证)。 - 正确做法:生成式大模型适合高层(任务规划、轨迹提议、慢回路),底层快回路仍交给轻量经典优化或蒸馏后的小策略(§4.7 的分层)。

过渡:选型之后,为什么答案常常是"都要"。 §3 的决策树常常把你导向一个"混合"的叶节点——加安全滤波、学代价 + 经典优化、分层。这不是巧合:真实任务的六维画像很少是"全偏经典"或"全偏 RL"的纯色,几乎总是"某些维度要经典的保证、某些维度要学习的灵活"。于是问题从"用谁"变成了"怎么把两者拼起来"。§4 就系统地回答这个"怎么拼"——给出四类混合骨架的分类学。


§4 混合范式:2023-2026 的主流形态 ⭐⭐⭐⭐

§4.1 为什么是混合:互补性的数学根源

如果 §3 的结论是"真实任务往往落在混合叶节点",那么一个自然的问题是:混合凭什么能成立、又凭什么能比单一范式更好? 答案藏在 §1-§2 建立的统一视角里。

经典优化(MPC/搜索/博弈)和 RL 的优劣,几乎是**逐项互补**的——一方的短板恰好是另一方的长板:

能力维度 经典优化(MPC/搜索) RL(学习) 互补点
约束 / 安全保证 强(硬约束、可证明) 弱(软惩罚、OOD 失效) 经典补 RL 的安全短板
在线计算延迟 受优化器限制(ms 级) 极低(一次前向,μs 级) RL 补经典的实时短板
模型依赖 强(需准确 \(f\) 弱(可黑箱/学模型) RL 补经典的建模短板
高维 / 感知输入 弱(维度诅咒) 强(神经网络天然处理) RL 补经典的高维短板
长期值估计 弱(有限时域 + 粗糙终端代价) 强(学全局 \(V\) RL 补经典的 to-go 短板
可解释 / 可调试 强(每步有物理意义) 弱(黑箱) 经典补 RL 的可解释短板
样本 / 数据需求 低(模型即够) 高(海量交互) 经典补 RL 的样本短板

这张表为混合提供了数学根据:既然双方的强弱项几乎正交,那么"让各方做自己擅长的部分"的组合,理论上能同时拿到两边的长板。这不是经验主义的拼凑,而是有 §2 的对偶关系作支撑——正因为它们逼近的是**同一个 \(V^*\)/同一个最优策略**(§1.2),所以一方的中间产物(值函数、warm-start、安全集)才能被另一方直接消费,拼接处才"接得上"。多篇 2024-2025 综述(自驾混合规划 arXiv 2406.05575、数据驱动最优控制 arXiv 2512.11944、Bertsekas MPC-RL 讲义)都把这种"互补性"列为混合范式兴起的核心驱动。

本质洞察 6:混合范式不是"折中妥协",而是"分工到各自最优"。 "混合"听起来像"两边都不极致的中庸",恰恰相反。它的理想形态是**让经典层把它能给的保证给满(安全、约束、可解释),让学习层把它能给的灵活给满(高维、泛化、长期值),两者在接口处对接**——结果是在保证不打折的前提下逼近学习的性能上限。Residual MPC 的论文标题"blending RL with GPU-parallelized MPC"、MPC-RL 把"RL 学权重、MPC 保安全"分开,都是这个分工哲学的实例。

反面:混合也会帮倒忙——"何时不该混合"的四个信号。 既然要培养判断力,就不能只讲混合的好。混合有真实成本(系统更复杂、更难调试、接口更多失败点、训练更昂贵),所以**它不是默认选择,而是"画像确实跨纯色时"才值得**。下面四个信号提示你"别为了混合而混合"(呼应 §3.4 反模式与 §7.2 避坑):

信号 为什么不该混合 该怎么做
任务画像是"纯色"的 若六维画像全偏经典(模型好+低维+约束可解+时间够),纯经典优化已最优,加 RL 只增加复杂度和不确定性 用纯经典(§3.3 案例 4 工厂抓取)
接口处的"中间产物"对不上 若经典层需要的输入(如安全集、终端代价)无法从学习层可靠获得(OOD、分布漂移),拼接处就是新的失败点 先解决接口可靠性,或退回单一范式
混合带来的收益 < 复杂度成本 若 RL 残差只带来 1-2% 性能、却让系统多两个失败模式和数倍调试成本,得不偿失 量化收益再决定;小收益不值复杂度
没有数据/仿真支撑学习侧 混合里的学习组件仍需训练数据;D6=无数据时,混合的学习侧无从训练,徒增空壳 退回纯经典,或先建仿真

对比性思维:混合是"有成本的工具",不是"更高级的默认"。 学界论文里混合范式光鲜,容易让人以为"混合 = 进步"。工程现实是:每多一个组件,就多一处会半夜报警的地方。所以成熟的判断是——先问"纯经典或纯 RL 能不能达标",只有当单一范式确实被某个画像维度否决、且混合的收益明显压过复杂度成本时,才上混合。这个"克制",和 §3.4 反模式 1(别为用 RL 而用 RL)是同一种工程审美的两面。

§4.2 四类混合骨架的分类学

混合的具体形态五花八门,但按"谁是主体、谁是辅助、在哪个层面对接"可以干净地归成四类骨架。记住这四类,你就能给任何一篇"RL + 经典"的论文快速归档

骨架 主体 / 辅助 对接层面 一句话 代表工作
A. RL-for-MPC MPC 主体,RL 辅助 RL 学 MPC 的"零件"(代价/权重/终端值/模型) 用学习改进优化器的输入 可微 MPC(acados+leap-c)、MPC-RL 学终端代价、AlphaZero value
B. MPC-for-RL RL 主体,MPC 辅助 MPC 当 RL 的安全层 / 可微策略层 / shielding 用优化给学习兜底或当结构 安全滤波、CBF+RL、MPC as policy layer、shielding
C. Residual 并列,输出相加 在动作/力矩层面叠加 经典出主控,RL 出修正量 Residual MPC、residual RL、residual policy learning
D. Amortization / Warm-start 一方摊销/初始化另一方 用一方的解做另一方的初值/蒸馏 互为热启动或蒸馏 RL warm-start MPC、MPC 蒸馏成策略、DAgger

下面逐类展开。每类给"机制 → 为什么有效(回到 §2 的对偶)→ 代表工作 → 边界/坑"。

§4.3 骨架 A:RL-for-MPC(学代价 / 权重 / 终端值 / 可微 MPC) ⭐⭐⭐⭐

机制。 MPC 的骨架(滚动时域、约束、优化器)保持不动,但它的某些"零件"由学习提供——最常见的是**终端代价 \(V_f\)、阶段代价权重、参考轨迹、甚至动力学模型**。极端形态是**可微 MPC**:把整个 MPC 求解器实现成一个可微的计算层(对其参数求梯度),于是 MPC 的代价/权重可以用 RL 的回报信号端到端反向传播来训练。最小心智模型:

# 骨架 A:RL 学 MPC 的零件 θ(终端代价/权重/模型),MPC 仍是主体
每个控制周期:
    θ = neural_net(s)                 # ← RL/学习提供的零件(如终端代价权重)
    u = MPC.solve(s, terminal_cost=V̂(·;θ), constraints=hard)  # 经典优化主体
    execute(u[0])
训练(可微 MPC 时):
    loss = -return(rollout) ; loss.backward()  # 梯度穿过 MPC 求解器回传到 θ

为什么有效(回到 §2.1 母对偶)。 §2.1 已证明 MPC 的终端代价 \(V_f\) 就是对最优 to-go \(V^*\) 的近似,而 RL 最擅长的就是学 \(V^*\)。所以**"用 RL 学 \(V_f\) 喂给 MPC"= 给 §2.1 的 Newton 迭代喂一个更接近 \(V^*\) 的初值**,理论上必然改善——这是所有混合里理论支撑最硬的一类。AlphaZero 把神经网络 value 当 MCTS 叶节点估值,本质就是这个骨架在树搜索版的体现(MCTS 是 MPC 的离散搜索亲戚)。

代表工作。 - 可微 MPC / acados + leap-c:让 NMPC 成为神经网络的一层,支持用 RL 梯度端到端训练 cost/权重(U2、本章原始调研均提及);同类还有 Theseus(Meta)、OptNet、diff-MPC。 - MPC-RL 学终端代价 / 权重:搜索结果中的电动车智能充电案例(DRL 实时选 MPC 终端代价权重,性能较经典 MPC 提升约 4.3% 且计算更省)、MPC4RL 软件包(把 RL 建立在 MPC 之上,Gros-Zanon 的"MPC as function approximator in RL"路线)是典型范式。 - 学动力学模型喂给 MPC:GP-MPC(Hewing-Zeilinger)、神经动力学 + MPC,用学到的 \(\hat f\) 替换/增强手写模型。

边界 / 坑。 ①可微 MPC 的反向传播要对 KKT 条件做隐函数微分,数值上可能不稳定(病态、退化约束处梯度爆炸)。②学出来的 \(V_f\) 若在 OOD 状态外推错误,会把 MPC 引向坏方向——所以常需限制 \(V_f\) 的作用范围或加正则。③训练这类系统需要同时跑优化器和梯度,计算昂贵。

§4.4 骨架 B:MPC-for-RL(安全滤波 / 可微策略层 / shielding) ⭐⭐⭐⭐

机制。 RL 是主体(负责性能、处理高维),但它的输出不直接执行,而是**先过一道经典优化构成的"安全闸门":给定 RL 提议的动作 \(a_{\text{RL}}\),安全层求解一个小优化,输出离 \(a_{\text{RL}}\) 最近、但满足硬约束的安全动作 \(a_{\text{safe}}\)。最常见的实现是 **CBF-QP 安全滤波(U2 详述)和 shielding(运行时屏蔽不安全动作)。另一变体是把 MPC 当作策略网络的一个**结构层**(policy-as-MPC),让策略的输出天然落在可行域内。最小心智模型:

# 骨架 B:RL 出动作,经典优化做"最小改动的安全投影"
a_RL = policy(s)                       # RL 主体(可能不安全)
a_safe = argmin_a ‖a - a_RL‖²          # CBF-QP:离 a_RL 最近的安全动作
         s.t.  ḣ(s,a) ≥ -α·h(s)        #   CBF 约束保证前向不变(绝不越界)
execute(a_safe)                        # 经典层兜底,RL 性能 + 经典保证

为什么有效(回到 §2.4 边界)。 §2.4 指出 RL 的约束只能软性鼓励、OOD 下失效,而经典优化的硬约束有证书。所以**让经典层做"绝不越界"的守门员、RL 做"在安全集内尽量激进"的前锋**,正好补上 RL 最致命的安全短板。这也是 §3.2 决策树 Q1=是(安全硬约束)时的标准落点。

代表工作。 - CBF + RL / 安全滤波:RL 策略输出经 CBF-QP 投影到安全集;shielding(probabilistic shielding)把 chance constraint 做成 runtime filter。开源生态如 OmniSafe、safety-gym。 - Predictive safety filter:用一个短时域 MPC 检查 RL 动作是否能被安全地"接住"(存在可行的后续轨迹回到安全集),不行就修正——把 MPC 的可行性当安全证书。 - Latent safety + RL:把安全约束编码进 RL 的动作空间或奖励的硬截断。

边界 / 坑。 ①滤波层会"改写"RL 的动作,造成 RL 训练时看到的动作与实际执行的不一致(distribution shift)——需要让 RL 在训练时就感知到滤波(differentiable safety layer 或把滤波纳入环境)。②CBF/安全集的设计本身需要模型知识,模型不准则安全集不准(保证打折)。③过度保守的滤波会把 RL 的性能优势"滤掉",退化成纯经典——安全与性能的边界要仔细调。

§4.5 骨架 C:Residual(残差策略叠加) ⭐⭐⭐

机制。 经典控制器(MPC / PID / 名义策略)给出主控信号 \(u_{\text{base}}\),RL 学一个**残差** \(\Delta u_{\text{RL}}\) 叠加上去:\(u = u_{\text{base}} + \Delta u_{\text{RL}}\)。RL 只需学"经典控制器没顾好的那部分修正",而不必从零学整个控制——学习问题被极大简化。最小心智模型:

# 骨架 C:经典出主控,RL 出(受限幅度的)残差修正
u_base = MPC.solve(s)                  # 经典主控(管 80%)
Δu = clip(residual_policy(s), -Δmax, +Δmax)   # RL 残差,幅度受限(保护 base 保证)
u = u_base + Δu                        # 相加执行
# RL 只需学"模型失配/扰动"那 20%,样本效率高,可解释主干保留

为什么有效。 经典控制器已经把 80% 的活儿干对了(在它建模准确的部分),RL 只补剩下 20%(模型失配、未建模动态、扰动)。这把 RL 的学习目标从"学整个 \(V^*\)/策略"降为"学一个小修正项",样本效率和稳定性大幅提升,且保留了经典控制器的可解释主干

代表工作。 - Residual MPC(搜索结果 arXiv 2510.12717):GPU 并行 MPC 出主控,residual policy 在力矩层做targeted 修正,"结合 model-based 的可解释性/约束处理与 RL 的适应性"——是这一骨架近期最清晰的范式。 - Residual policy learning / residual RL(机器人操作经典套路):在脚本化/MPC base 上叠 RL 残差,广泛用于接触操作、装配。 - 四足/无人机的 RL 残差 + 名义 MPC/几何控制器,处理风扰、地形等未建模项。

边界 / 坑。 ①残差的幅度需要约束(否则 RL 可以把残差开大到等于"接管全部控制",丧失 base 的保证)。②base 控制器太差时,残差要学的太多,退化成纯 RL,失去 residual 的优势。③稳定性分析变复杂(base + 残差的闭环稳定性需要重新论证)。

§4.6 骨架 D:Amortization / Warm-start(互为初值 / 蒸馏) ⭐⭐⭐

机制。 两种方向:①**RL → 经典(warm-start):用一个快速的 RL/学习策略给经典优化器提供一个好初值(warm start),让优化器从接近最优处起步,几次迭代就收敛——既保留经典优化的约束/最优性,又把它最慢的"从差初值迭代到收敛"那段省掉。②**经典 → RL(amortization / 蒸馏):用昂贵的经典优化器(在线解不动)离线生成大量"最优解"数据,蒸馏成一个快速策略网络(imitation / DAgger)——把"在线解 OCP"摊销(amortize)成"离线训练 + 在线一次前向"。最小心智模型:

# 骨架 D-①(warm-start):学习给优化器喂好初值
u0 = warm_start_net(s)                 # 学习提供接近最优的初值
u  = MPC.solve(s, init=u0)             # 经典优化从好初值起步,几步收敛

# 骨架 D-②(蒸馏/摊销):把昂贵的在线优化离线固化成快策略
离线: D = {(s, MPC.solve(s)) for s in 海量状态}     # 经典优化器当"专家"
      train  π(s) ≈ MPC.solve(s)  on D  (+ DAgger 增广 OOD)
在线: u = π(s)                          # 一次前向,不再解 OCP

为什么有效(回到 §1.3 在线/离线轴)。 §1.3 指出经典与 RL 的最大工程差异是"求解放在线上还是线下"。这一骨架正是在**这根轴上做转换**:warm-start 用学习加速在线优化(把离线学的先验注入在线求解),蒸馏用学习把在线优化变成离线(把在线优化的结果固化成策略)。两者都在"用一方的算力换另一方的算力"。

代表工作。 - RL/学习 warm-start 优化:学习提供 MPC/轨迹优化的初值或 active set 预测,广泛用于实时 NMPC、MIQP(如把 RL 用于混合整数最优控制的分支预测,搜索结果中的 F1 赛车策略 MIP 即此类)。 - 经典优化蒸馏成策略:MPC 蒸馏成神经网络策略("MPC-guided policy search"、Levine 的 GPS)、DAgger 把专家 MPC 蒸馏成快策略;TAMP 的符号-连续解蒸馏成策略。 - Amortized optimization:把"对每个问题实例解优化"摊销成"学一个从问题到解的映射"(amortized inference 的控制版)。

边界 / 坑。 ①warm-start 的学习初值若严重偏离可行域,反而拖慢优化(坏初值比无初值更糟)。②蒸馏的策略只在"经典优化器见过的分布"内可靠,OOD 退化——需要 DAgger 式的在线数据增广。③蒸馏丢失了经典优化的在线重优化能力(遇到新约束无法现场调整)。

§4.7 生成式规划:混合范式的当代集大成 ⭐⭐⭐⭐

2023-2026 最受关注的几条线——Diffusion Planner、TD-MPC2、可微 MPC、VLA——不是上述四类骨架的替代,而是它们的**深度组合与升华**。它们之所以是"集大成",因为每一条都同时踩了 §2 的多组对偶和 §4 的多类骨架。

(a) Diffusion Planner(Diffuser / Decision Diffuser / Diffusion Policy / Diffusion-Planner)。 - 踩的对偶:§2.2(去噪 ≈ MPPI 加权 ≈ 策略梯度)。它把轨迹优化折进扩散去噪,用回报/约束做 guidance。 - 踩的骨架:A(用学习的去噪器当"优化器")+ D(一次生成摊销了迭代优化)。 - 为什么强:多步去噪能表达**多峰轨迹分布**(绕障的左右两条路都保留),这是单峰 MPPI 和单点 MPC 做不到的;条件生成(return/constraint/skill)支持测试时组合约束。 - 边界:采样慢(多步去噪)、无硬约束保证(仍需 §4.4 兜底)、需大量离线数据。

(b) TD-MPC2(latent world model + 采样 MPC)。 - 踩的对偶:§2.1(MPC↔值迭代)+ §2.3(world model ≈ belief/model-based RL)+ §2.2(latent 空间的 MPPI)。 - 踩的骨架:A(学的 world model + value 喂给采样 MPC)。它在 learned latent 空间做 MPPI + policy prior 的局部轨迹优化,用学到的 value 当终端估值。 - 为什么强:一个配置跨 104 个任务不调参、317M 参数单 agent 训 80 任务超 SAC/DreamerV3——证明"学模型 + 在模型上做经典优化"的混合可以高度通用。 - 边界:latent 模型的 OOD 误差会误导规划;JAX/PyTorch 实现不适合直接 C++ 部署。

(c) 可微 MPC(acados + leap-c / Theseus)。 已在 §4.3 详述——是骨架 A 的极致形态,让 NMPC 成为可被 RL 端到端训练的神经网络层。它是"经典优化"和"深度学习"在**代码层面真正融为一体**的代表。

(d) VLA(OpenVLA / π0 / π0.5)。 - 踩的对偶:这是 §2 所有对偶的"顶层塌缩"——一个大模型直接从像素/语言映射到连续动作,把感知-预测-规划-控制全栈吞进一个网络。 - 踩的骨架:本质是 D 的极端(用海量数据把整个决策栈摊销成一次前向)+ IL/RL 混合训练(π0.5 走 co-training)。 - 产业背景:Tesla FSD v12 据报道用端到端神经网络替换"300k 行 C++ 控制代码"(注:源自发布会/媒体转述,非同行评审),是"神经网络吃掉 C++ 规控"路线的标志。 - 边界:黑箱、无安全证书、实时性受模型大小限制——所以 VLA 目前主要在**高层/慢回路**,底层快回路仍需轻量经典或蒸馏小策略兜底(§3.4 反模式 5)。

四条生成式线的横向对比(它们各自牺牲了什么换取了什么)。 这四条线常被笼统称为"前沿",但它们的取舍各不相同。把它们摆在同一张表上,你才能判断"我的任务该用哪条":

线 经典结构保留了多少 最大优势 最大代价 适合的回路
Diffusion Planner 中(轨迹优化的"提议"被去噪取代,可加约束 guidance) 多峰轨迹分布、测试时组合约束 采样慢、无硬约束保证 中频规划层(需配硬约束兜底)
TD-MPC2 高(仍是 MPC/MPPI,只是在 latent 空间 + 学的模型/值) 跨任务通用、样本高效 latent 模型 OOD 误差、难 C++ 部署 中高频控制(model-based RL)
可微 MPC 最高(MPC 结构完整,只是变可微) 保留约束/最优性 + 可端到端训 隐函数微分数值不稳、训练贵 各频段(结构最"经典")
VLA 最低(整栈塌缩成一个网络,几乎无显式结构) 泛化最强、语言可控、零件最少 黑箱、无证书、慢 高层慢回路

这张表的核心规律:从上到下"保留的经典结构递减、泛化能力递增、可验证性递减"。 可微 MPC 最"经典"(结构最全、最可验证、但最不灵活),VLA 最"学习"(最泛化、最灵活、但最不可验证)——它们正好铺满了 §6.1 那条"经典→学习"光谱的混合区到学习端。选哪条,本质还是 §3 的画像问题:要硬约束/可验证就靠左(可微 MPC),要泛化/语言交互就靠右(VLA),要通用且样本省就选 TD-MPC2,要多峰轨迹就选 Diffusion Planner。

本质洞察 7:当代前沿不是"RL 取代经典",而是"用一个可微的计算图把经典优化和神经网络焊在一起"。 把 §4.7 的四条线连起来看,一个清晰的趋势浮现:最强的系统正在变成端到端可微的混合体——可微 MPC 让优化器变成网络层,diffusion/world model 让"规划"变成可学习的生成过程,VLA 让整个栈变成一个网络。它们都在做同一件事:保留经典优化的结构(约束、滚动时域、最优性),但让结构的每个零件都可学、可端到端训练。这就是为什么本章反复强调"统一视角"——只有当你看清经典和 RL 共享一个 \(V^*\)、可以互译(§2),你才能理解为什么 2026 年的前沿能把它们焊成一个可微计算图。这,就是本方向未来五年的主旋律。

§4.8 一个走通的混合系统:把四类骨架拼进同一个自驾栈 ⭐⭐⭐

前面四类骨架是分开讲的,但真实系统往往**同时用上多类**。这里用一个(简化但贴近工业的)城市自驾规控栈,把 A/B/C/D 四类骨架和七大方向的多个特化拼到一起走一遍——让你看到"混合"在系统层面长什么样,而不是停在单个骨架的抽象。这也回应 §3.3 案例 2(行人交互)和 §5.3 三主轴:这个栈同时要处理不确定性、交互、实时三条轴。

系统分层(自上而下)与每层的骨架归属:

┌──────────────────────────────────────────────────────────────┐
│ L4 任务/路由层(慢回路, ~1Hz)                                 │
│   LLM/规则给出导航目标与语义指令("在前方路口左转,礼让行人")  │
│   → 骨架 D(高层用大模型,TAMP 特化:符号目标)                │
├──────────────────────────────────────────────────────────────┤
│ L3 预测层(~10Hz)                                             │
│   神经预测器(VectorNet+LSTM)输出他车/行人多模态轨迹分布      │
│   ego 计划反馈进预测(joint PnP)                              │
│   → 交互特化 + 骨架 A(学的预测喂给下游优化)                  │
├──────────────────────────────────────────────────────────────┤
│ L2 决策/博弈层(~10Hz)                                        │
│   场景分支(MPDM/EPSILON) + 对交互车做轻量博弈(iLQGames)         │
│   终端代价由离线 RL 学的 V̂ 提供                               │
│   → 博弈特化 + 不确定性特化(belief分支) + 骨架 A(学终端代价)    │
├──────────────────────────────────────────────────────────────┤
│ L1 轨迹优化层(~20-50Hz)                                      │
│   时空联合优化(MINCO/ST-QP),RL 残差微调舒适度/激进度          │
│   → 时空特化 + 骨架 C(残差策略叠加)                          │
├──────────────────────────────────────────────────────────────┤
│ L0 安全滤波层(~100Hz, 快回路)                               │
│   CBF-QP / predictive safety filter 兜底,绝不越界            │
│   → 不确定性特化(硬约束) + 骨架 B(MPC/CBF 给上层兜底)        │
└──────────────────────────────────────────────────────────────┘

逐层的"为什么这样混"——把决策框架(§3)落到每层:

  • L0 安全滤波(骨架 B):这是 §3.2 决策树 Q1=是(安全硬约束 + 可验证)的直接落点。无论上层(L1-L4)输出什么,L0 都用 CBF-QP 把它投影到安全集——这一层是整个栈的"安全地基",可形式化验证(OP2)。它的存在,使得上层可以放心地用不可验证的神经网络(风险被这层挡住了)。
  • L1 轨迹优化 + 残差(骨架 C):时空联合优化(MINCO/ST-QP,时空特化)保证轨迹平滑可行(D1 模型好、D3 有约束 → 经典优化舒适区),RL 只学一个小残差调"舒适度/激进度"这类**难以手工写进代价、但能从数据学到**的偏好。残差幅度受限(§4.5 边界),保证不破坏 L1 的可行性。
  • L2 决策/博弈 + 学终端代价(骨架 A):场景分支(belief 特化)处理"行人会不会横穿"这类不确定性(D1 意图难建模),轻量博弈(博弈特化)处理与交互车的耦合,而**离线 RL 学的 \(\hat V\) 当终端代价**(§2.1 母对偶 + §4.3)——把"长期价值"这个 MPC 最弱的部分交给 RL。
  • L3 预测 + joint PnP(骨架 A + 交互特化):神经预测器处理高维感知输入(D2,RL/学习主场),且把 ego 计划反馈进预测(PRECOG/PiP 的 joint 思想),避免"预测-规划解耦"的次优(§5.3 主轴二)。
  • L4 任务层(骨架 D + TAMP):大模型/规则给语义目标,是慢回路(D4 时间充裕),用 §4.6 的摊销/高层 LLM。

这个例子的三个教学要点(也是 §4 的总收口):

  1. 混合是分层的,不同层用不同骨架。 没有"一种混合骨架包打天下"——快回路要安全(B),优化层补偏好(C),决策层补长期值(A),高层用大模型(D)。层与层的接口,就是 §1.3 那根"在线/离线"轴的不同取值:L0 纯在线、L4 纯离线、中间各层混合。
  2. 越靠近执行(L0),越偏经典、越要保证;越靠近语义(L4),越偏学习、越要泛化。 这是 §6.1 光谱在系统纵向上的体现——一个系统内部就横跨了整条"经典→学习"光谱。
  3. 每一层都能独立替换/升级。 今天 L3 用 VectorNet,明天换成 MTR;今天 L2 用 iLQGames,明天换成可微博弈——只要接口(轨迹分布、终端代价、安全集)不变,单层升级不影响全栈。这种"骨架稳定、零件可换"的结构,正是 §5.4 收口图"母方程稳定、特化算子可组合"在工程上的回响。

本质洞察 7.5:真实系统不是"选一个范式",而是"在不同层各选最合适的范式并用接口焊起来"。 初学者问"自驾到底用 MPC 还是 RL",这个问题本身就问错了——答案是"L0 用 CBF-QP、L1 用 MINCO+RL残差、L2 用博弈+RL终端代价、L3 用神经预测、L4 用 LLM"。整个栈是一个混合体,每层的选择由该层的六维画像(§3.1)独立决定。 理解这点,你就从"范式信徒"升级成了"系统架构师"——而这正是本方向想培养的最终能力。

§4.9 选哪类混合骨架——一张速查表

如果说 §3.2 的决策树回答"用经典还是 RL 还是混合",那么当答案落到"混合"时,本节速查表进一步回答"用四类骨架里的哪一类"。它把"你最缺什么"映射到"该用哪个骨架"——因为每类骨架补的短板不同(呼应 §4.1 互补性表)。

你的主体范式是… 你最想补的短板 该用骨架 典型落点
MPC/优化(主体) to-go 估计差 / 代价权重难调 A:RL-for-MPC 用 RL 学终端代价/权重(§4.3),自驾 L2、四足 MPC
RL/学习(主体) 没有安全/约束保证 B:MPC-for-RL CBF-QP/安全滤波兜底(§4.4),安全关键系统
有个能用的经典 base base 在某些工况差一点 C:Residual RL 残差叠 MPC/几何控制器(§4.5),无人机抗扰、四足地形
经典优化在线解不动 / 想加速 在线延迟太高 / 想要好初值 D:Amortization 学策略 warm-start 或蒸馏(§4.6),实时 NMPC、MIQP
需要多峰/可组合的轨迹分布 单点 MPC 表达力不足 生成式(§4.7) Diffusion Planner、TD-MPC2,离线数据充足时

怎么用这张表(三步):**①先用 §3.2 决策树确认"确实该混合";②问自己"主体是经典还是 RL,最缺的短板是什么";③按上表定位骨架,再回 §4.3-§4.7 看该骨架的机制、伪代码和坑。**注意四类骨架并非互斥——§4.8 的自驾栈就同时用了 A/B/C/D(不同层用不同骨架)。所以这张表是"单层/单组件"的选择指南;系统级则是把多个骨架按层组合(§4.8)。

理论-工程桥接:这张速查表 + §3.2 决策树 + §3.1 六维画像,三者构成完整的"选型工具链"。 流程是:六维画像(任务长什么样)→ 决策树(经典/RL/混合)→ 若混合则查本表(哪类骨架)→ 对应小节(怎么实现)。把这条链走顺,你面对任何新任务,都能在几分钟内从"零认知"推进到"知道该搭什么架构、用哪个开源库起步"——这就是本章 §3-§4 想交付给你的、可立即上手的工程判断力。

过渡:从"方法关系"到"知识地图"。 §1-§4 完成了本章的"关系论证":同源(§1)→ 对偶(§2)→ 选型(§3)→ 混合(§4)。现在我们换一个视角——不再问"方法之间什么关系",而是问"我学过的七大方向,作为一个整体,长什么样?它们如何收口成一张可以挂在墙上的地图?"§5 就来画这张全方向收口图。


§5 全方向知识收口:七条线汇成一张图 ⭐⭐⭐

为什么要"收口"——先动机

本方向有七大 Part(10_时空 / 20_采样式MPC / 30_不确定性 / 40_博弈 / 50_多机 / 60_TAMP / 70_无人机),约 106.5 周的内容。学到这里,你脑中很可能是**七棵独立的知识树**——每棵树自己枝繁叶茂,但树与树之间是什么关系?它们共享什么根?这正是收口要解决的问题:把七棵树的根连起来,让你看到它们其实长在同一片土壤(DP + 最优性原理)上,只是朝不同方向(时间维 / 随机性 / 多智能体 / 任务层 / 协作 / 平台)生长。

不收口的代价是:你会觉得"换个方向就要从头学"。收口之后你会发现——时空规划的 ST-A*、采样 MPC 的 MPPI、不确定性的 POMDP、博弈的 iLQGames、多机的分布式 MPC,本质都在解同一个母方程(§1.1),只是各自把母方程里的某个算子特化了。 一旦看清这点,跨方向迁移就变成"换算子"而非"换学科"。

§5.1 七方向 × RL 接口总览矩阵

下表是本章最核心的"收口表"。它把七大方向逐一拆解为:这个方向特化了母方程的哪个算子、它的经典代表方法、它最强的 RL 接口、以及对应的混合骨架(§4.2)。这张表是 §4 阶段课程作业"经典 → RL 同义表达映射图"的方向级版本。

方向(Part) 特化了母方程的什么 经典代表(出处章) 最强 RL 接口 主导混合骨架
时空规划(T) 把**时间**加进状态维(\((x,t)\) 空间求解) ST-A*/SIPP、MINCO/GCOPTER、Apollo ST 图 Neural A*(学启发式)、Diffusion 采样整条轨迹、MuZero learned-model 搜索 A(学启发式/模型)+ D(扩散摊销)
采样式 MPC(MPPI) 用**采样 + 指数加权**近似 HJB(绕开可微性) MPPI、CEM、Tube-MPPI §2.2 同构于策略梯度/去噪;TD-MPC2 latent MPPI A(latent model)+ C(残差)
不确定性(U) 把**期望算子**换成 belief / 风险 / 最坏情况 Tube MPC、CC-MPC、DESPOT、CVaR-LP Safe/Robust/Distributional RL、Dreamer(§2.4) B(安全滤波兜底)
博弈(G) 把单方 \(\min\) 换成**多方极值**(HJI/GNE) iLQGames、ALGAMES、HJI MARL、PSRO(=深度 double oracle,§2.5) A(学 cost)+ PSRO 自带混合
多机(Multi) 把单体扩成**耦合的多体**(共识/分配/编队) CBS/LaCAM、分布式 MPC、ADMM MARL(CTDE/MAPPO/QMIX)、学习型分配 分层(学协调 + 经典单机执行)
任务运动(TAMP) 在连续 MDP 上加一层**符号/离散**决策 PDDL + 运动规划接口、逻辑-几何 LLM planner(SayCan/Code as Policies)、HRL D(符号-连续解蒸馏)+ LLM 高层
无人机(D) 不是新算子,而是**最干净的应用平台**(微分平坦让 ST 参数化最简) 微分平坦 + SE(3) 控制、MINCO、acados NMPC RL 飞控(Song et al. Science Robotics)、集群 MARL 全骨架的试验场

怎么读这张表(三个要点)。

  1. 第二列"特化了什么"是钥匙。 七个方向不是七个并列学科,而是母方程(§1.1)的七种特化:时空特化"状态维"、采样特化"求解方式"、不确定性特化"期望算子"、博弈特化"玩家数"、多机特化"体的数量与耦合"、TAMP 特化"加一层离散"、无人机不特化算子(它是平台)。这就是七方向的最大公约数与最小差异。
  2. 每个方向都有非空的 RL 接口。 没有任何一个方向是"RL 进不来"的——哪怕最经典的 ST 搜索,也有 Neural A*/MuZero。这印证了 §1.2 的论断:经典与 RL 是同一问题的两面,所以每个方向必然两面都有。
  3. 混合骨架在方向间复用。 安全滤波(B)不只用于不确定性,也用于无人机/多机;残差(C)不只用于采样 MPC,也用于无人机飞控。骨架是跨方向的"乐高接口"——学会一类骨架,七个方向都能用。

七方向逐一收口(把矩阵的每一行还原成一句"它在全局图里是谁")。 矩阵把每个方向压成一行,这里给每个方向一段话,明确它"特化了什么、为什么是这个特化、它的 RL 接口为什么是那个、在收口图里站哪"——读完这七段,你脑中的七棵树就真正连成一片森林了。

  • 时空规划(T)——把"时间"请进状态空间。 它的全部动机是:路径与速度解耦(先规划路径再规划速度)在动态障碍/时序约束下次优,所以把时间 \(t\) 升格为状态的一个维度,在 \((x,t)\)\((q,t)\) 空间一次性求解。母方程层面,它只是把状态 \(s\) 扩成 \((s,t)\),其余不变——这就是为什么 ST-A*/SIPP 仍是标准 Bellman 搜索、MINCO 仍是标准轨迹优化。它的 RL 接口(Neural A*/MuZero)之所以聚焦"学启发式/学模型",正因为时空搜索的瓶颈在"to-go 估计"(§2.6)。在收口图里,它是"状态维特化"那一列,也是无人机平台最先用上的方向。

  • 采样式 MPC(MPPI)——换一种"解 HJB"的方式。 它和梯度 MPC 解的是同一个最优控制问题,唯一区别是用采样 + 指数加权(零阶)代替梯度(一阶)来逼近 HJB——这让它能处理梯度 MPC 致命的"不可微/接触不连续/黑箱仿真"。它的 RL 接口最特殊:MPPI 本身就和策略梯度/去噪同构(§2.2),所以它与 RL 的边界最模糊,TD-MPC2 干脆把它搬进 learned latent 空间。在收口图里它是"求解方式特化",是连接经典优化与 RL 最短的一座桥。

  • 不确定性规划(U)——把"期望"换成更诚实的算子。 确定性规划假装世界没有噪声;真实世界有扰动(→鲁棒)、有概率约束(→机会约束)、有遮挡(→POMDP)、有尾部风险(→CVaR)。这四条子路线,本质都是把母方程里的期望算子 \(\mathbb E\) 换成"最坏情况 / 概率约束 / belief / 风险度量"。这就是为什么它的 RL 接口是一整排(Robust/Safe/RNN/Distributional RL,§2.4)——每个算子替换都有一个 RL 孪生。在收口图里它是"期望算子特化",也是三主轴里"不确定性"那条轴的化身。

  • 博弈规划(G)——把单方极值变成多方极值。 当世界里不止你一个决策者,"最优"就不再是单方 \(\min\),而是各方互相依赖的 Nash/Stackelberg 均衡(HJI 的 \(\min\max\)、GNE)。它的难点(PPAD-hard、不收敛)和它的 RL 接口(MARL/PSRO)都源于"耦合不动点"这个本质(洞察 4)。在收口图里它是"玩家数特化",是三主轴里"交互"那条轴走到博弈这一环。

  • 多机协作(Multi)——把单体复制成耦合的多体。 它和博弈共享"多智能体"这个外壳,但侧重合作(共识/分配/编队)而非对抗,且要面对"维度随机数爆炸"。所以它的经典解法是分布式(CBS/ADMM/分布式 MPC),RL 接口是 CTDE 类 MARL,而工程主流是分层(学协调 + 经典单机执行,§3.3 案例 5)。在收口图里它是"耦合多体特化",是"交互"轴上协作这一端。

  • 任务运动规划(TAMP)——给连续决策加一层离散大脑。 它在标准的连续 MDP 之上叠了一层符号/离散决策("先抓哪个、按什么顺序"),是唯一显式引入"离散+连续混合"的方向。它的 RL 接口(HRL、LLM planner)天然对应"高层离散、低层连续"的分层结构。在收口图里它是"加符号层特化",是把本方向和 06_具身智能/语言模型接起来的关键接口。

  • 无人机(D)——不特化算子,而是最干净的试验场。 它是七方向里唯一"不特化母方程"的——它是一个应用平台。之所以单列,是因为四旋翼的微分平坦性让时空参数化最干净、动力学最规整,使得上面六个方向的特化都能在它身上以最清晰的形态实现和验证(从 MINCO 到 RL 飞控到集群 MARL)。在收口图里它在所有列的下方,是"理论落地的标准考场"。

§5.2 共享骨架:DP 是所有方向的最大公约数

把 §5.1 再压缩一层,七方向的共享骨架可以浓缩成一句话:

动态规划(DP)/ 最优性原理,是移动机器人规控全部七个方向的最大公约数。

具体而言,每个方向都在求解"Bellman/HJB 母方程"的一个特化版本,只是:

                          母方程:最优性原理 (Bellman / HJB)
                          V*(s) = max_a [ r(s,a) + γ E V*(s') ]
        ┌──────────────┬──────────────┬──┴───────────┬──────────────┬──────────────┐
        ▼              ▼              ▼               ▼              ▼              ▼
   s → (x,t)      max_a 用采样     E → belief/      max_a →       单体 →        + 符号层
   【时空 T】      指数加权近似     风险/最坏        min·max·       耦合多体      (离散+连续)
                  【采样 MPPI】    【不确定 U】     【博弈 G】     【多机 Multi】 【TAMP】
        │              │              │               │              │              │
        └──────────────┴──────────────┴───────┬───────┴──────────────┴──────────────┘
                                  无人机 D:以上所有方向最干净的应用平台
                          每个特化都有"经典解法"和"RL 解法"两条腿(§2 对偶)
                          差别只在:模型已知? 求解在线/离线? 值函数显式/隐式? (§1.3)

这张图是整章的"压缩包"。如果只让你带走一张图,就是它。它说的是:你学的不是七门课,而是一门课(序贯最优决策)的七种特化 × 两种解法(经典/RL)× 三个工程轴(模型/时机/表示)。 把这个结构刻进脑子,你面对任何新论文、新任务、新方向,都能快速定位它在这张图的哪个位置。

本质洞察 8:七方向的差异在"特化了哪个算子",统一在"都是 DP 的特化"。 这是本方向最高层的认知收口。初学者看到的是七个不同的工具箱;专家看到的是一个母方程被七种方式特化。这个视角的实用价值极大:①**迁移**——四足的接触调度(特化"离散+连续")和自驾的场景分支(特化"belief")共享 DP 骨架,方法可互鉴;②**创新**——很多研究就是"把 A 方向的特化套到 B 方向"(如把博弈的 GNE 套进预测-规划得到 GameFormer);③**判断**——遇到任何"新方法",先问"它特化了母方程的哪个算子、用经典还是 RL 解",十有八九能秒懂它的定位。

把"迁移 = 换算子/叠算子"落成一张可操作的迁移地图。 洞察 8 的第①②点(迁移与创新)听起来抽象,但它其实给出了一个极具体的"做研究/做工程的招式":把母方程在 A 方向特化的算子,叠加或替换到 B 方向上。下表列出若干已发生(或正在发生)的跨方向迁移,每一行都是"某方向的特化算子被搬到另一方向"的实例——这正是大量论文的"创新点"的来源:

源方向(特化) 目标方向 迁移产物(叠算子的结果) 代表工作
博弈(多方极值 \(\min\max\) 预测-规划(交互) 把 ego-他车建成博弈 → 交互式联合预测 GameFormer(Level-k 博弈 + Transformer)
不确定性(belief 上决策) 时空规划 在 belief 空间做 ST 搜索 → belief-space MINCO/RRBT RRBT、belief-space planning
采样(指数加权 / 去噪) 时空规划 用扩散直接采样整条 \((x,t)\) 轨迹 + MINCO 投影 Diffuser + 轨迹投影、Diffusion-Planner
博弈(GNE) + 不确定性(belief) 自驾决策 belief-space 博弈 → 不完全信息交互决策 贝叶斯逆博弈、Auto-Encoding Bayesian Inverse Games
时空(接触序列 = 时序相位) 多机 loco-manip 多体 × 接触切换 × 物体动态的 ST + hybrid 多足协同 loco-manipulation
TAMP(符号层) 无人机/集群 给集群加任务级符号规划 → 语义化集群任务 LLM-planner + 集群(VoxPoser 思想外推)
不确定性(CVaR 风险头) 采样 MPC risk-aware MPPI(对 rollout 分布取 CVaR 而非均值) CVaR-MPPI、risk-sensitive sampling control

怎么用这张迁移地图(两个动作):**①**找空白格——表里没出现的"源×目标"组合,很多就是尚未做透的研究机会(如"把博弈的 GNE 系统性搬进腿足多接触"目前还很薄)。②**理解已有工作的本质**——下次读到一篇"新方法",先问"它把哪个方向的什么算子,搬到了哪个方向",十有八九能一句话说清它的贡献定位。这就是把"知识地图"从"被动记忆"变成"主动生成研究/工程思路"的工具——洞察 8 不只是理解的终点,更是创新的起点。

§5.3 三条贯穿主轴(不确定性 / 交互 / 实时性)

除了"DP 母方程"这条纵向骨架,七方向还被三条横向主轴串联。这三条轴是 S1-S4 综述反复出现的主题,在此收口。

主轴一:不确定性(从确定性世界到真实世界)。 确定性规划(T 线的基础)→ 加入扰动/模型误差(U2 鲁棒)→ 加入概率约束(U3)→ 加入部分可观测(U4 POMDP)→ 加入风险偏好(U5 CVaR)。RL 侧的镜像:MDP → Robust RL → Safe RL → RNN-RL/Dreamer → Distributional RL(§2.4 全配对)。这条轴回答"如何从教科书的理想世界走到有噪声、遮挡、风险的真实世界"。

主轴二:交互(从单体到多智能体)。 单体规控(T/U/MPPI)→ 把他人当障碍(被动)→ 预测他人(S4 交互预测)→ 与他人博弈(G 线)→ 与他人协作(Multi 线)。RL 侧的镜像:single-agent RL → 预测模型 → MARL/博弈学习/PSRO(§2.5)。这条轴回答"当世界里不止你一个智能体时,决策如何升级"。它也是"预测-规划一体化"(S4)的灵魂——预测和规划本是这条轴上相邻的两环,强行解耦才是次优的根源。

主轴三:实时性 / 计算时机(从离线到在线到摊销)。 离线求全局解(值迭代、SARSOP)→ 在线滚动优化(MPC、POMCP)→ 离线训练 + 在线推理(RL 策略)→ 摊销/蒸馏(§4.6)。这条轴就是 §1.3 的"求解时机"轴,贯穿所有方向——每个方向都要回答"我把计算放在部署前还是运行时"。无人机竞速(D9)选 RL 是因为这条轴上"在线 μs 级"的约束,工厂机械臂(B)选 MPC 是因为"在线时间充裕"。

把三轴坐标落到典型任务上(一张定位表)。 三轴坐标系的实用性,在于它能把"凭感觉选方法"变成"读坐标查落点"。下表给若干典型任务在三轴上的坐标读数及其结论——把它当成"三轴 → 方法"的查表,配合 §3 的六维画像一起用:

任务 不确定性轴 交互轴 实时轴 三轴合成的结论
工厂机械臂抓已知物体 低(模型准) 无(无他人) 充裕(时间够) 三轴全偏经典 → 纯 MPC/轨迹优化(案例 4)
城市自驾行人交互 高(意图隐变量) 强(多车多人) 中(10-50Hz) belief + 博弈 + 安全层 → POMDP/混合(案例 2)
无人机竞速贴极限 中(气动难建模) 弱(单机为主) 极紧(μs 级) 实时轴极端 → 离线学策略(RL,案例 1)
四足崎岖地形行走 中(接触不连续) 紧(高频全身) 接触否决梯度 MPC → RL/采样 MPPI(案例 3)
百级无人机集群 强(耦合多体) 分布式实时 交互轴 + 维度爆炸 → 分层混合(案例 5)
active SLAM / 主动感知 高(需主动减不确定) 不确定性轴主动收集 → POMDP/belief 规划
仓库多机 MAPF 低(环境已知) 强(路径冲突) 可离线预算 交互(冲突)+ 可离线 → 经典 CBS/LaCAM 搜索

读这张表的方式:先在三轴上给任务定坐标(哪条轴"拉满"了?),那条被拉满的轴往往就是决定性因素——竞速是实时轴拉满,行人交互是不确定性+交互轴拉满,工厂抓取三轴都不拉满(所以经典够用)。这与 §3.2 决策树的"一票否决"逻辑一致:某条主轴一旦走到极端,就基本锁定了方法大类。三轴坐标和六维画像是同一件事的两种粒度——三轴是"宏观三维定位",六维是"细化到可操作"。

对比性思维:三条主轴不是独立的,真实任务是三轴坐标。 一个具体任务在这三条轴上各有一个坐标:城市自驾行人交互 = (高不确定性 × 强交互 × 中实时)→ 落到 POMDP/混合(§3.3 案例 2);工厂抓取 = (低不确定性 × 无交互 × 充裕实时)→ 落到经典优化(案例 4);无人机竞速 = (中不确定性 × 弱交互 × 极紧实时)→ 落到 RL(案例 1)。学会用这三轴给任务定位,比记住任何单个算法都重要——算法会过时,三轴坐标系不会。

§5.4 七方向收口图(ASCII 全景)

最后,把 §5.1-§5.3 的所有线索合成一张可挂墙的全景图。这是本章、也是整个方向的"终极一图"。

╔══════════════════════════════════════════════════════════════════════════════╗
║         移动机器人规控 · 全方向收口图(以最优性原理为根)                       ║
╠══════════════════════════════════════════════════════════════════════════════╣
║                                                                                ║
║   根:序贯最优决策 = 最优性原理 (Bellman / HJB / HJI)                          ║
║        V*(s)=max_a[r+γE V*(s')]    ←── 整个方向的最大公约数                    ║
║                         │                                                      ║
║   ┌─────────────────────┴──────────────────────┐                              ║
║   │  两种解法(§2 对偶,逼近同一个 V*)          │                              ║
║   │   经典:模型已知、在线解、值隐式             │                              ║
║   │   RL  :模型未知、离线学、值显式             │                              ║
║   │   混合:§4 四骨架 (A/B/C/D) + 生成式         │                              ║
║   └─────────────────────┬──────────────────────┘                              ║
║                         │                                                      ║
║   七方向 = 母方程的七种特化:                                                  ║
║   ┌────────┬─────────┬──────────┬─────────┬──────────┬─────────┐              ║
║   │时空 T  │采样MPPI │不确定 U  │博弈 G   │多机 Multi│TAMP     │              ║
║   │+时间维 │采样近似 │期望→风险 │单→多方  │单→耦合体 │+符号层  │              ║
║   │ST-A*   │MPPI     │POMDP     │iLQGames │CBS/分布  │PDDL+运动│              ║
║   │MINCO   │CEM      │Tube/CVaR │ALGAMES  │MPC/MARL  │LLM 高层 │              ║
║   │↕Neural │↕策略梯度│↕Safe/Dist│↕PSRO    │↕CTDE     │↕HRL     │              ║
║   │ A*     │ /去噪   │ RL       │         │          │         │              ║
║   └────────┴─────────┴──────────┴─────────┴──────────┴─────────┘              ║
║                         │                                                      ║
║              无人机 D:以上全部的最干净应用平台(微分平坦)                    ║
║                         │                                                      ║
║   三条贯穿主轴(任务的三维坐标):                                             ║
║   ① 不确定性:确定 → 鲁棒 → 机会约束 → POMDP → 风险                            ║
║   ② 交互  :单体 → 预测他人 → 博弈 → 协作                                      ║
║   ③ 实时  :离线全局解 → 在线滚动 → 离线训练+在线推理 → 摊销蒸馏               ║
║                                                                                ║
║   选型 = 在三轴坐标上定位 + 六维画像(§3.1) → 决策树(§3.2) → 多半落到混合       ║
╚══════════════════════════════════════════════════════════════════════════════╝

理论-工程桥接:这张图就是你的"导航坐标系"。 以后无论读到什么新论文、接到什么新任务,做三件事:①找它在七列里属于哪个特化(或哪几个的组合);②判断它走经典/RL/混合哪条腿;③在三条主轴上给它定坐标。三步做完,新东西就被你"安放"进了这张已有的地图,而不是变成又一个孤立的知识点。这就是"收口"的终极价值——让你的知识从"清单"变成"地图",从此学得越多,地图越密,而不是清单越长越乱。

过渡:从"地图"到"路线"。 §5 给了你一张静态的全方向地图。但地图是用来走的——你现在站在地图的某个位置,下一步该往哪走?§6 就给三类读者(工程 / 研究 / 交叉)各画一条后续学习路线,并帮你在"经典→混合→学习"的光谱上定位自己。


§6 学习路径总结:从这里往哪走 ⭐⭐

你现在在哪——先定位

读完本章,你已经完成了本方向的"主体学习 + 收口"。但"学完综述"不等于"到达终点"——它更像是登上了一个观景台,看清了全貌,接下来要选一条路下山去做事。不同目标的读者,下山的路完全不同。 本节按三类典型读者画路线,你大概率属于其中之一(或介于两者之间)。

在选路之前,先用一句话给自己定位——你更信任"可证明的结构"还是"数据里学到的灵活"? 这决定你在下面这条光谱上的初始位置:

   纯经典优化 ◄──────────────────────────────────────────────► 纯端到端学习
   (acados/MPC)    RL-for-MPC   安全滤波   残差   蒸馏   world-model   (VLA)
   全可证明                        混合区(§4 四骨架)                  全数据驱动
        ▲                              ▲                                  ▲
     传统控制                      工程主流落点                      深度学习
     工程师起点                  (2026 的现实)                     研究者起点

本质洞察 9:成熟工程师的终点,几乎都在光谱中段(混合区),而不是两端。 两端(纯经典、纯端到端)都是"信仰纯粹"的位置,适合做研究或特定场景;但真实产品系统,因为同时要性能和安全(§3.4),几乎都落在混合区。所以无论你从哪端出发,职业成长的方向都是向中段移动——经典出身的人要学会"在哪里让位给学习",学习出身的人要学会"在哪里必须用经典兜底"。本章 §3-§4 给的就是这个"向中段移动"的地图。

§6.1 三类读者的后续路径

路径甲:工程落地型(目标:把规控系统做到能上车/上机)。 - 你的光谱起点:偏左(经典优化)。 - 下一步补什么:①把一个经典栈做到生产级——T4(Apollo/Autoware)或 D 线(PX4+acados)选一个吃透,到能读源码、能调参、能部署;②学一类混合骨架 B(安全滤波/CBF)——这是工程上最先用得上的混合,让你能在经典系统里"安全地"引入学习模块;③MPPI_10(Mini-MPPI 实战)或 D12(无人机综合实战)做一个端到端项目。 - 避坑:别一上来追前沿(VLA、diffusion),工程岗位最值钱的是"把一个栈做透、做稳、可维护",而不是"什么都试过但什么都没上线"。 - 能力终点:能独立交付一个有安全保证、可调试、可维护的规控系统,并知道在哪里可以安全地接入学习模块提性能。

路径乙:研究创新型(目标:发论文 / 做方法创新)。 - 你的光谱起点:偏右(学习),但需要补左边的"结构感"。 - 下一步补什么:①选一条主轴深挖——不确定性(U4/U5)、博弈(G3/G4)、或生成式规划(T6/MPPI_05/MPPI_06)选一个做到前沿;②吃透一类混合骨架的理论(可微 MPC 的隐函数微分、PSRO 的收敛性、distributional RL 的风险头);③跟踪 §7 的开放问题,找一个能"把 A 方向的特化套到 B 方向"的选题(§5.2 洞察 8 提到的创新模式)。 - 避坑:别只刷 benchmark 性能(§3.4 反模式 1 的学术版)。审稿人和真正的贡献,看的是"你解决了哪个结构性难题"(如安全保证、收敛性、可验证性),而不是"又涨了 2 个点"。 - 能力终点:能在某条主轴上提出有结构性贡献的方法,并清楚它在 §5 地图上的位置和边界。

路径丙:交叉融合型(目标:在 RL 与控制交界处做事,如具身智能、VLA、world model)。 - 你的光谱起点:通常已在中段,但两边的根基都不够深。 - 下一步补什么:①把本章 §1-§2 的统一视角和六组对偶真正吃透(这是你的核心竞争力——多数人只懂一边);②深入 §4.7 的生成式规划全部四条线(diffusion/TD-MPC2/可微 MPC/VLA),到能复现、能改进;③跨到 06_具身智能 和 S4 交互预测,把"规控"和"感知-语言-动作"接起来。 - 避坑:交叉方向最容易"两边都懂一点、两边都不深"。要么以控制为根、学习为翼,要么反之,避免悬空。 - 能力终点:能在 RL-控制交界处设计端到端可微的混合系统,并理解其每个零件的经典/学习归属与保证边界。

把三条路径落成"接下来 8-12 周做什么"的行动清单。 路线讲方向,清单讲动作——下面把三条路径各压成一个可立即开干的周计划骨架(具体周数按个人节奏伸缩),让"读完综述"直接对接"动手做事":

阶段 路径甲(工程落地) 路径乙(研究创新) 路径丙(交叉融合)
第 1-2 周 选定一个生产级栈(Apollo 或 PX4+acados),跑通官方仿真 选定一条主轴(U/G/生成式),精读其 3-5 篇核心论文 重读本章 §1-§2,手写"经典↔RL 对偶映射图"
第 3-5 周 读源码 + 改一个模块(如换个 cost、加一个场景) 复现一个 baseline(DESPOT/iLQGames/Diffuser 之一) 复现一条生成式规划线(TD-MPC2 或 Diffusion Policy)
第 6-8 周 加一层骨架 B 安全滤波(CBF-QP),验证零违约 针对一个"边界/坑"(§7.1 某 OP)做小实验,验证难点 跨到 06_具身/S4,把一个 RL 策略接回经典导航/控制栈
第 9-12 周 做一个端到端项目(Mini-MPPI / D12),写部署报告 把小实验扩成一个方法贡献,对照 §7.2 自查"补了什么保证" 设计一个小型端到端可微混合系统,标清每个零件的保证边界
交付物 可部署、可调试、有安全保证的栈 一个有结构性贡献的方法 + 它在 §5 地图的定位 一个 RL-控制交界的混合系统 + 零件归属分析

这张表的用法:挑你所属的那一列,从第 1 周开始,每个阶段结束时对照 §6.3 能力清单自查。三条路径在第 1 阶段都从"本章学过的东西"出发(栈/论文/对偶图),这不是巧合——本章的统一视角和选型框架,正是三条路共同的起跑线。

§6.2 "经典→混合→学习"光谱上的自我定位练习

光谱定位不是一次性的,而是随项目变化。做下面这个小练习,校准你当前的位置:

  1. 拿你手头/最近的一个任务,填 §3.1 的六维画像。 它把你导向决策树的哪个叶节点?
  2. 对照你实际用的方法——你用的方法在光谱的哪一段?和决策树的建议一致吗?
  3. 如果不一致,问为什么:是任务画像变了、是有非技术约束(团队只会某个栈、deadline 太紧),还是你"为了用某个方法而用"(§3.4 反模式)?
  4. 写下"如果重来会怎么选"——这一步是元认知,长期看比任何单个项目都重要。

对比性思维:光谱位置是"任务的属性",不是"人的标签"。 常见误区是把"我是 RL 派/控制派"当成身份标签,于是所有任务都往自己熟悉的一端拉。成熟的做法是:让任务的六维画像决定光谱位置,而不是让自己的偏好决定。同一个人,做工厂抓取就该往左(经典),做竞速飞行就该往右(RL)——这不是"立场摇摆",而是"专业"。

§6.3 阶段性能力检验清单

用这份清单自检你是否真正完成了本方向的学习(而不只是"读过")。能对每一条给出具体的、自己的回答,才算到位。

  • 统一视角:能向一个只懂 MPC 的人,用 3 分钟讲清"MPC 和 RL 逼近同一个 \(V^*\)"(§2.1)。
  • 对偶映射:能默写出至少 4 组"经典 ↔ RL"对偶,并说出每组"等价在哪、不等价在哪"(§2)。
  • 选型决策:给一个陌生任务,能填六维画像、走决策树、给出选型并说明理由(§3)。
  • 混合骨架:能把一篇随机抽取的"RL+经典"论文归到四类骨架之一,并指出它的边界(§4.2)。
  • 全方向收口:能凭记忆画出 §5.4 收口图的主干(母方程 → 七特化 → 两解法 → 三主轴)。
  • 反模式辨识:能在一个真实项目里指出至少一个"用错工具"的风险点(§3.4)。
  • 研究品味:能说出本方向至少 2 个你认为有价值的开放问题,并解释为什么(§7)。

理论-工程桥接:这份清单就是 §4 阶段(RL 贯穿收官)课程作业的验收标准。 课程要求学生交付"经典 → RL 同义表达映射图"——上面第 1、2、5 条就是这张图的内容;要求"能判断哪里该用经典 C++、哪里该让位给 Python+神经网络"——第 3、4、6 条就是这个判断力。这份清单同时也是你面试机器人规控/具身智能岗位时,区分"会用工具"和"理解工具"的分水岭。


§7 研究方向总结:开放问题地图 ⭐⭐⭐

为什么收尾要谈开放问题——先动机

一本好的教科书,最后一章不应该让你觉得"这个领域已经成熟、没什么可做了",而应该让你看到**地图的边缘还有大片空白,并且你已经具备了走进空白的工具**。本节就把 §1-§5 反复触及的"边界""不等价处""坑"收集起来,整理成一张开放问题地图。这些不是空泛的"未来展望",而是从本章每一节的"边界"讨论里自然浮现的、有抓手的研究方向。

§7.1 七个高价值开放问题

下面七个开放问题,每个都标注了它的"母节点"(来自本章哪节的边界讨论)、难点、和一个可上手的切入角度。

OP1:可微 MPC 的数值稳定性与可扩展性。(母节点 §4.3) - 难点:对 KKT 条件做隐函数微分,在退化约束/病态处梯度爆炸或不存在;高维问题反向传播昂贵。 - 切入角度:正则化的隐式微分、二阶方法、利用问题结构(稀疏性、平坦性)的高效微分;acados+leap-c 生态是现成实验台。 - 一个可做的小实验:在一个简单 NMPC(如四旋翼悬停)上,用 leap-c 端到端训练终端代价权重,刻意构造一个会触发约束退化(active set 切换)的工况,定量观察梯度何时爆炸、加 Tikhonov 正则后改善多少——这能直接复现并量化"病态处梯度不稳"这一难点。

OP2:神经-经典混合系统的形式化安全保证。(母节点 §4.4) - 难点:安全滤波/CBF 兜底能给"瞬时"安全,但 RL + 滤波的闭环长期行为(稳定性、活性 liveness、无死锁)缺乏统一的形式化保证;OOD 下安全集本身可能失真。 - 切入角度:可学习 CBF 的保证、neural Lyapunov/barrier 证书、把安全集的不确定性显式建模(conformal prediction + 安全滤波)。 - 一个可做的小实验:在一个 2D 导航任务里给 RL 策略加 CBF-QP 滤波,构造一个"瞬时安全但会被逼进死角(活性失败)"的场景,证明瞬时安全 ≠ 长期活性;再尝试用 predictive safety filter(多步前瞻)能否消除死锁——这把 OP2 的"瞬时 vs 长期"难点做成一个可演示的反例。

OP3:部分可观测下"belief 学习"的保证与可解释。(母节点 §2.3) - 难点:RNN 隐状态 ≈ belief 但无正确性保证;neural-guided POMDP 想要"树搜索保证 + 神经泛化"但理论尚不完整。 - 切入角度:带遗憾界的 neural-guided DESPOT、把 belief 的充分统计性作为辅助损失、可解释的 latent belief。 - 一个可做的小实验:在 tiger 或 rock_sample 上,对比"RNN-RL 的隐状态"与"DESPOT 的粒子 belief"在同一段观测序列后的状态后验——用一个解码器从 RNN 隐状态重建真实状态分布,定量看它离真 belief 多远,验证"有损充分统计"这一论断。

OP4:连续多智能体博弈的均衡求解收敛性。(母节点 §2.5) - 难点:一般博弈 Nash 求解 PPAD-hard,GDA 动力学可能不收敛(循环、震荡);连续动作 + 深度网络下更难。 - 切入角度:Stackelberg actor-critic 的收敛保证、最后迭代收敛(last-iterate convergence)的算法、PSRO 的样本效率。 - 一个可做的小实验:在一个 2 车交叉的连续博弈上,分别用 iLQGames(经典)与 independent-PPO(朴素 MARL)求解,画出后者的策略迭代轨迹证明它震荡/不收敛到 Nash,再换 PSRO 看是否稳定收敛——直观对比"耦合不动点"被解 vs 被学的差异(呼应洞察 4)。

OP5:风险敏感决策的统一框架与高效求解。(母节点 §2.4) - 难点:CVaR/coherent risk 在控制(CVaR-MPC)、RL(distributional RL)、安全(CMDP)里各有实现,缺乏统一、可端到端、有保证的框架;time-consistent dynamic risk 的高效求解仍难。 - 切入角度:把风险度量做成可微层接入任意管线、distributional RL + 经典风险约束的混合、nested CVaR 的高效近似。 - 一个可做的小实验:在一个有"低概率大损失"尾部风险的导航任务(如偶发强风)上,对比"期望-最优 MPC"、"CVaR-LP(OSQP)"、"IQN 的 CVaR 风险头"三者的轨迹,验证 §2.4 翻译链——三种实现是否在同一风险水平下给出相近的保守行为。

OP6:生成式规划的实时性与硬约束。(母节点 §4.7) - 难点:扩散规划采样慢(多步去噪)、无硬约束保证;如何在 μs 级回路用、如何保证生成轨迹严格可行。 - 切入角度:少步/一步扩散(consistency models)、约束投影与去噪的融合、扩散提议 + 经典 feasibility projection 的混合(已有 Diffuser+MINCO 雏形)。 - 一个可做的小实验:在 Maze2D 上跑 Diffuser,统计它生成的轨迹有多大比例违反障碍约束(无硬保证),再加一层 MINCO/QP feasibility projection,量化"提议 + 投影"混合在可行率和延迟上的代价——这把 OP6 的"无硬约束"难点和 §4.7 的混合解法连起来。

OP7:跨方向/跨平台的范式迁移。(母节点 §5.2 洞察 8) - 难点:很多方法是"某方向特化",迁到别的方向需要重新设计;缺乏"特化算子可组合"的理论。 - 切入角度:把博弈的 GNE 套进多机/预测(GameFormer 已做了一半)、把 TAMP 的符号层套进无人机集群、统一的"母方程特化语言"。 - 一个可做的小实验:从 §5.2 迁移地图里挑一个"空白格"(如"把 CVaR 风险头套进 MPPI 得到 risk-aware MPPI"),在一个有尾部风险的 MuJoCo 任务上实现"对 rollout 分布取 CVaR 而非均值"的 MPPI 变体,验证它比标准 MPPI 更避险——这是一个小而完整的"叠算子"研究练习。

§7.2 选题建议与避坑

把上面七个问题落到"怎么选题",给三条务实建议:

  1. 从"边界"而非"性能"切入。 本章每组对偶的"不等价处"、每个混合骨架的"坑",就是研究的金矿——它们是"已知的未解",比"再涨两个点"有价值得多。审稿人记住的是"你补上了哪个保证/解决了哪个结构难题"。
  2. 优先选"有现成实验台"的问题。 OP1(acados+leap-c)、OP3(DESPOT)、OP4(OpenSpiel/PSRO)、OP6(Diffuser/nuPlan)都有成熟开源台,能让你把精力放在方法而非搭框架上。承认 C++ 前沿生态的现实鸿沟(原始调研 §附B 的务实警示)——前沿多在 Python/JAX,C++ 多在工业部署,选题时想清楚你要站在哪一侧。
  3. 避坑——别做"为混合而混合"的工作。 §4 的混合骨架很诱人,但"把 A 和 B 拼起来"本身不是贡献,"为什么拼、拼了之后多拿到了什么保证/性能、拼接处的新难题是什么"才是贡献。能用 §4.1 互补性表说清"我让谁补了谁的什么短板",才算想清楚了。

一个判断"选题值不值得做"的五问 rubric。 把上面三条建议落成可自查的清单——一个研究选题,若五问都能给出清晰回答,多半值得做;若卡在某一问,先想清楚再动手:

问题 想确认的事 卡住的信号
Q1 它解决哪个"边界/不等价处"? 选题对准的是 §2 某组对偶的边界、或 §4 某骨架的坑,而非"再涨点" 答不出"补了什么结构性缺陷" → 可能是刷榜
Q2 它在 §5 地图的哪个坐标? 能说清它特化了母方程的哪个算子、走经典/RL/混合哪条腿 定位不了 → 对问题理解还不够
Q3 有现成实验台吗? 有开源 baseline/环境可起步(§7.2 建议 2) 要从零搭框架 → 评估时间成本
Q4 成功的判据是什么? 有明确的、可测的"补上了什么保证/性能"的指标 判据模糊 → 难以说服审稿人/自己
Q5 最坏情况下学到什么? 即使主假设不成立,过程也能产出有价值的负结果/洞察 全押一个假设 → 风险过高

这个 rubric 的精神和 §3 的选型框架一脉相承:都是"先想清楚画像/判据,再动手",而不是"凭热情或时髦"。研究和工程在这一点上是相通的——最贵的不是算力,是方向错了之后浪费的时间

本质洞察 10(全章收尾):你学的不是一套会过时的算法,而是一个不会过时的"提问框架"。 具体算法(DESPOT、iLQGames、PPO、Diffuser)都会被更新的方法取代——五年后榜单上多半是别的名字。但本章给你的东西不会过时:①母方程(最优性原理)是数学,永不过时;②"经典 vs RL = 模型已知性 × 求解时机 × 值表示"这个坐标系,能安放任何未来的新方法;③"六维画像 → 决策树 → 混合骨架"这套选型框架,是判断力而非知识点。所以当你五年后看到一个全新的方法,不要慌——把它丢进 §5.4 的收口图,问它特化了哪个算子、走哪条腿、补了谁的短板,它就被你驯服了。这,就是"贯穿"二字的终极含义:不是记住所有点,而是掌握把任何新点接入已有网络的能力。


附录 A:四横切专题的 RL 贯穿关系(专题级细化,原始调研保留)

本附录定位:§2 给的是"方向级"的六组对偶(粗粒度,覆盖七大方向);本附录是 80_综述 S1-S4 四个**横切专题**(时空 / 不确定性 / 博弈 / 预测-规划)的"专题级"RL 贯穿细化,列出每个专题最具体的论文-到-论文桥接。两者是"地图 vs 街景"的关系——§2 让你看清结构,本附录给你可直接引用的论文名。这部分内容来自本方向横切层的原始调研,作为细粒度参考保留。

这一附录不单独展开某专题,而把 RL 与四横切专题的五条交界缝合起来,作为专题级的贯穿视角补充。

A.1 POMDP 与 RL 的本质关系

RL (model-free) 本质在解 MDP;partial observability 下就是 POMDP(呼应 §2.3)。DRQN (Hausknecht & Stone 2015) 用 LSTM 处理 POMDP,在 Atari flickering 实验中比 4-frame DQN 更鲁棒。DreamerV3 (Hafner 2023, Nature 2025) 是 amortized POMDP planner 在 150+ 任务上的单配置 SOTA,首个不靠人类数据在 Minecraft 挖到钻石的 agent;关键机制包括 symlog observation、KL balancing + free bits、1% unimix categoricals、percentile return 归一化、symexp two-hot loss、block-GRU + RMSNorm + SiLU、LaProp 优化器。MuZero (Schrittwieser Nature 2020) 的 MCTS 在 learned model 上进行 planning,与 POMDP 在 belief space 搜索的思想共轭。教学上:DESPOT + Dreamer 构成"经典 + 深度"两视角;C++ 侧 DESPOT 主导,Python/JAX 侧 Dreamer 收官。

A.2 Safe RL 与 Risk-aware Planning

Constrained MDP (Altman 1999) 是理论起点(呼应 §2.4 的 chance constraint ↔ CMDP)。CVaR-RL:Chow-Ghavamzadeh NeurIPS 2014 + Chow-Ghavamzadeh-Janson-Pavone JMLR 2017/18 "Risk-Constrained RL with Percentile Risk Criteria"(百分位风险与 CVaR 的策略梯度,multi-timescale 收敛证明,是 CPPO、distributional-CVaR、robust-MDP 所有后续工作的基础)。Distributional RL:C51 (Bellemare ICML 2017)、QR-DQN (2018)、IQN (2018) 已是工业标配,IQN 内置 Wang/CPW/CVaR 采样器。2023-2026 safe RL:CPO、Lagrangian-PPO、safety-critic 方法;safety filter + RL(CBF + RL、shielding,呼应 §4.4);开源 OmniSafe、safety-gym。教学映射:CVaR-RL 讲在专题 U5;Robust RL 讲在专题 U2;CBF+RL shielding 跨 U2-U4

A.3 MCTS 与 Contingency Planning

MCTS 每次 rollout 展开一个 scenario,本质是 contingency(呼应 §2.6)。MuZero 的 learned-model planning、POMCP 的 POMDP+MCTS、AlphaStar/AlphaGo 的 self-play 与博弈搜索共享同一搜索骨架。教学上:MPDM=简化 MCTS、EPSILON=简化 POMCP 的类比使专题 U1-U4 与 MuZero 衔接自然。近 2-3 年出现把 policy/value network 作为 DESPOT default policy 的 neural-guided POMDP,是经典搜索 + RL 的合流标志。

A.4 Multi-Agent RL 与博弈规划

Nash Q-learning (Hu & Wellman 2003)、Nash-VI 是经典值方法(呼应 §2.5)。MADDPG (Lowe NeurIPS 2017) 采用 centralized-critic decentralized-execution 处理非平稳性,并支持 policy ensemble 与对手 policy 建模。QMIX (Rashid 2018)、VDN、MAPPO 隐式博弈求解。PSRO (Lanctot NeurIPS 2017) 泛化 Double Oracle 到策略空间,以 (深度 RL) best-response + meta-strategy solver 迭代扩展策略池,奠基 Pipeline PSRO、XDO、α-PSRO、JPSRO (Marris 2021)、APSRO (McAleer 2022);OpenSpiel 实现完整。连续动作博弈 RL:Stackelberg actor-critic (Fiez 2020);GDA dynamics 收敛性 (Giannou NeurIPS'22)。教学上:MARL 讲在专题 G4 / Multi_10;OpenSpiel 是**唯一成熟 C++ MARL 栈**;连续博弈用 ilqgames 收尾。

A.5 Diffusion / 生成式规划(2022-2026 最重要混合范式)

真正的"规划层 RL + 经典融合"在 2023-2026 的主流形态是 Diffusion PlannerTD-MPC2可微 MPCVLA(呼应 §4.7 的详细展开)。

  • Diffuser (Janner et al. ICML 2022 long talk) 把轨迹优化折进 diffusion 模型,迭代降噪整条轨迹;classifier-guided sampling 与 inpainting 重新诠释为 planning 策略;D4RL/Maze2D/MuJoCo 验证。
  • Decision Diffuser (Ajay et al. ICLR 2023 Oral) 用 return/constraint/skill 条件生成,classifier-free guidance + low-temperature sampling 绕过 DP,支持测试时组合约束与 skill。
  • Diffusion Policy (Chi et al. RSS 2023) 视觉运动 BC 作为条件 DDPM over action sequences + receding horizon,+46.9% 平均超过 SOTA;bimanual 真实机器人任务(打蛋器、叠衬衫等)。
  • TD-MPC2 (Hansen et al. ICLR 2024) 在 implicit decoder-free world model 的 latent 空间做 MPPI + policy prior 的局部轨迹优化;SimNorm 归一化、LayerNorm、Mish、Q-ensemble、离散回归;104 个任务不调参,317M 参数单 agent 训练 80 任务,超 SAC/DreamerV3/TD-MPC。
  • VLAOpenVLA (Kim et al. CoRL 2024) 7B 参数 Llama-2 + DINOv2/SigLIP,970k 集 Open X-Embodiment,超 RT-2-X (55B) 16.5% 绝对;π0 / π0.5 (Physical Intelligence 2024-2025) VLA + flow matching,50Hz 连续动作。
  • Learned heuristic for search:Neural A* (ICML 2021)、PlanT (CoRL 2022);GNN-guided CBS/SIPP(呼应 §2.6)。
  • 可微 MPC:acados + leap-c 让 NMPC 成为神经网络一层,支持 RL 梯度端到端训练 cost/权重;Theseus (Meta)(呼应 §4.3)。
  • LLM planner:SayCan、Code as Policies、VoxPoser(任务级 HLP,呼应 §5.1 TAMP 行)。

教学映射:Diffusion Planner 讲在专题 T6 / S4(与 joint prediction-planning 合流);TD-MPC2 讲在 MPPI_06(ST 优化 + model-based RL);可微 MPC 讲在 U2;VLA 讲在 S4 与机器人整体顶层;Neural A* 讲在 T 线


附录 B:四专题在 C++ 教学体系中的定位建议(原始调研保留)

本附录定位:本章主体(§1-§7)面向"理解贯穿关系";本附录回到更务实的"教学工程"层面,给出四横切专题在 C++ 教学体系中的定位矩阵与推进建议。它承接 S1-S4 的 C++ 生态评估,作为课程设计参考保留。

这四个专题作为"第四层经典规控范式横切层",应定位为**机器人规控课程的进阶模块**,建议放在学生已完成公共基础(优化、最优控制、SLAM 基础)与至少一个方向主线之后。综合 C++ 生态成熟度、概念难度、对各方向的覆盖面三维度,给出如下教学定位矩阵:

专题 概念难度 C++ 成熟度 方向覆盖 推荐定位 核心抓手
时空联合规划 ★★★★★ 全覆盖(无人机/自驾最强) 必修进阶,以无人机为主线 GCOPTER、ego-planner、MADER、Apollo、OMPL
Contingency/MPDM ★★★★ 自驾>机械臂>loco 必修进阶(与 MCTS 衔接) EPSILON、Apollo scenario_manager
Robust/Tube MPC ★★★★ 无人机/机械臂/四足强 必修(MPC 深化) acados、OCS2、Crocoddyl、TinyMPC
Chance-Constrained ★☆ 自驾/无人机 选修 + 大作业 学生自写(Eigen+OSQP+RRT*)
POMDP / Belief-space 中高 ★★★★★ 自驾/机械臂/active SLAM 必修(不确定性核心) DESPOT、SARSOP、OPPT、TAPIR
Risk-Sensitive / CVaR ★☆ 全覆盖但应用浅 理论顶帽 + 小作业 CVaR LP dual + 分布 RL(Python)
博弈规划 ★★★ 多机/HRI/自驾 进阶选修(双语言:C++ 骨架 + Julia SOTA) ilqgames + OpenSpiel + Algames.jl
Joint Pred-Planning ★☆ 自驾/社交导航/VLA 前沿窗口(主讲 Python + Apollo C++ 锚) Apollo modules/prediction + openpilot + nuPlan devkit

教学推进建议(单学期 15-18 周):

第 1 阶段(时空+鲁棒,~6 周):时空规划以 GCOPTER-MINCO 与 Apollo ST 图为核心,Robust MPC 用 acados + do-mpc 建立 NMPC 与 tube 直觉。

第 2 阶段(不确定性核心,~5 周):POMDP 以 DESPOT 为教学主轴,tiger/rock_sample → ROS laser_tag → 行人交互式驾驶 Bai 2015;穿插 EPSILON 讲 MPDM;CC-MPC 与 CVaR 作为小作业(CC-MPC、CVaR-LP in C++)。

第 3 阶段(博弈与预测-规划,~4 周):博弈以 ilqgames 为主,作业为三车交叉、无人机 2v2 追逃;预测-规划用 Apollo modules/prediction 读码 + nuPlan devkit / PLUTO / GameFormer-Planner 做 Python 对照。

第 4 阶段(RL 贯穿收官,~2-3 周):把 DreamerV3、TD-MPC2、Diffusion Policy、OpenVLA、MuZero、PSRO 作为"当代 RL 如何重新表达经典四范式"的收束讨论,不要求 C++ 复现,只要求学生能画出"经典 → RL 同义表达"的映射图(即本章 §2 + §5.1 两张表的内容)。

最后一条写入课程概述的务实警示:四个专题里,CVaR 与预测-规划一体化 在 C++ 侧基本空白,不可强求学生用 C++ 复现前沿;承认"Python → C++ 部署"的现实鸿沟,恰恰是让学生理解工程-研究分工、建立跨语言审美的最好机会。Tesla FSD v12 的 "300k 行 C++ 被神经网络替换"(厂商披露、未经同行评审)与 π0/OpenVLA 的 VLA 范式,本身就是第四层横切专题在 2026 年必须正视的产业背景——这层课程的意义不是死守 C++,而是教会学生判断"哪里该用经典 C++、哪里该让位给 Python+神经网络"(即本章 §3 决策框架的能力)。


本章常见误解汇总

把全章散落的"对比性思维"与"反模式"收成一张误解表。左列是初学者常持的错误观念,中列是为什么错,右列指向纠正它的小节。这张表是本章 G4 门禁(认知深度)的浓缩自检表。

# 常见误解(❌) 为什么是错的(✓) 纠正出处
1 "RL 和经典控制是两个对立学科" 它们逼近同一个 \(V^*\),是"模型已知性×求解时机×值表示"上的不同切法 §1.2、§1.3
2 "MPC 不需要值函数,RL 才需要" MPC 的终端代价就是对 \(V^*\) 的隐式近似;MPC=值迭代的 Newton 步 §2.1
3 "MPPI 是一种特殊的梯度 MPC" MPPI 是零阶采样法,与策略梯度/去噪同构,恰恰不需要梯度 §2.2
4 "给 RL 奖励加惩罚项 = 安全保证" 软惩罚不是硬保证,OOD 下失效;硬约束需经典优化/CBF §2.4、§3.4 反模式 2
5 "Tube 的 RPI 集和 Robust RL 的 uncertainty set 是两回事" 在"对抗谁"上是同一对象(不确定集取最坏),差别在精确性与给定方式 §2.4
6 "CTDE / self-play 是一种均衡" 它们是训练范式,不是解概念;解概念是 Nash/Stackelberg §2.5、§3.4 反模式 3
7 "Neural A* 用神经网络替代了 A*" 它只替代了 A* 最难手工设计的零件(启发式),保留搜索骨架 §2.6
8 "RL 更先进,所以新任务默认用 RL" 选型取决于六维画像;模型好+低维+时间够时经典优化更省心可靠 §3.1-§3.4 反模式 1
9 "混合范式是性能上的中庸折中" 混合是"分工到各自最优",理想下保证不打折而逼近学习性能上限 §4.1 洞察 6
10 "把瞬时观测喂前馈网络就能解部分可观测任务" POMDP 需 belief(历史的充分统计),要么显式算要么用 RNN 学 §2.3、§3.4 反模式 4
11 "扩散/VLA 是前沿,应该用在所有层" 大模型慢且无证书,适合高层慢回路;底层快回路需轻量经典/蒸馏 §4.7、§3.4 反模式 5
12 "七大方向是七门独立的课" 七方向是同一母方程的七种特化,共享 DP 骨架,可跨向迁移 §5.2 洞察 8

本章小结

本章是整个移动机器人规控方向的收口章。它不教任何新算法,只做一件事:把你学过的所有方法和方向,串成一张以"最优性原理"为根的统一地图。

四步主线回顾:

  1. 同源(§1):经典规控与 RL 都从 Bellman/HJB/HJI 母方程长出,区别只在"模型已知性 × 求解时机 × 值函数表示"三个轴。经典=已知模型的最优控制,RL=未知模型的最优控制。
  2. 对偶(§2):六组"同一枚硬币的两面"——MPC↔值迭代(Newton 步)、MPPI↔策略梯度/去噪、POMDP↔RNN-RL、不确定性规划↔Safe/Robust/Distributional RL、博弈↔MARL/PSRO、搜索↔学习型搜索。每组都给了"等价在哪、不等价在哪"。
  3. 选型(§3):六维任务画像 → 主决策树 → 五个边界案例 → 五个反模式。核心是"先看任务画像,再选方法",根问题永远是"安全约束硬不硬"。
  4. 混合(§4):四类骨架——RL-for-MPC(学代价/值)、MPC-for-RL(安全滤波)、Residual(残差叠加)、Amortization(互为初值/蒸馏),外加生成式规划(Diffusion/TD-MPC2/可微 MPC/VLA)这一当代集大成。

两步收口:

  1. 全方向收口(§5):七方向 = 母方程的七种特化(时空特化时间维、采样特化求解、不确定特化期望算子、博弈特化玩家数、多机特化耦合体、TAMP 特化离散层、无人机是平台);DP 是最大公约数;三条主轴(不确定性/交互/实时)是任务的三维坐标;§5.4 收口图是终极一图。
  2. 路径与方向(§6-§7):三类读者的后续路线、"经典→混合→学习"光谱自我定位、七个高价值开放问题。

速查表:经典 ↔ RL 对偶速记

经典 RL 孪生 同构的数学操作
MPC 滚动优化 值迭代一步 Newton \(V_f\) 处对 Bellman 方程做 Newton 修正
MPPI softmax 加权 REINFORCE / 去噪 guidance \(q^*\propto q_0\exp(R/\lambda)\) 指数加权
POMDP belief 更新 RNN 隐状态 history 的充分统计压缩
Tube MPC RPI 集 Robust RL uncertainty set \(\min_u\max_{w\in\mathcal W}\) 取最坏
Chance constraint CMDP 约束 经 CVaR 互译的约束优化
CVaR-MPC Distributional RL 风险头 期望算子 → 风险度量 \(\rho\)
Nash / GNE 求解 MARL 收敛点 / PSRO 耦合最优性条件的不动点
A* 启发式 \(h\) MuZero value / Neural A* 都在逼近 \(V^*\)

速查表:六维选型画像

维度 偏经典 偏 RL
D1 模型已知性 可精确建模 难建模/黑箱
D2 维度 中低维 高维/感知输入
D3 约束硬度 硬约束 软约束
D4 实时预算 充裕/可离线 μs 级
D5 可验证性 需要 不需要/有兜底
D6 数据可得性 不需要 有仿真/数据

本章的一句话总结:移动机器人规控的七大方向,是"序贯最优决策"这一个问题在七个维度上的特化,每个特化都有"经典"和"RL"两条逼近同一最优解的腿,而 2026 年的工程主流是把两条腿焊成一个端到端可微的混合体——理解了这句话,你就理解了整个方向。


知识点总表

知识点 难度 核心结论 出处
三个共同祖先(Bellman/HJB/HJI) ⭐⭐⭐ 同一最优性原理在(时间离散×玩家数)上的实例 §1.1
经典=已知模型OC,RL=未知模型OC ⭐⭐⭐ 区分两者的是模型已知性与求解时机,非阵营 §1.2
六范式统一坐标系 ⭐⭐⭐ 三轴:模型已知性/求解时机/值表示 §1.3
MPC↔值迭代 Newton 步 ⭐⭐⭐⭐ 终端代价=\(V^*\)近似,MPC=一步 Newton §2.1
MPPI↔策略梯度↔去噪 ⭐⭐⭐⭐ 共享指数加权 \(q^*\propto q_0e^{R/\lambda}\) §2.2
belief↔RNN 隐状态 ⭐⭐⭐⭐ RNN 隐状态是 belief 的有损充分统计 §2.3
不确定性规划↔Safe/Dist RL ⭐⭐⭐⭐ chance→CVaR→distributional RL 翻译链 §2.4
博弈↔MARL/PSRO ⭐⭐⭐ PSRO=深度 double oracle;解概念≠训练范式 §2.5
搜索↔学习型搜索 ⭐⭐⭐ 神经网络替代搜索骨架里的难调零件 §2.6
六维画像 + 决策树 ⭐⭐⭐ 先画像再选型,根问题是安全约束硬度 §3.1-§3.2
五边界案例 + 五反模式 ⭐⭐⭐ 用错工具的高频场景与纠正 §3.3-§3.4
混合互补性 ⭐⭐⭐⭐ 强弱项正交→分工到各自最优 §4.1
四类混合骨架 A/B/C/D ⭐⭐⭐⭐ RL-for-MPC/MPC-for-RL/残差/摊销 §4.2-§4.6
生成式规划集大成 ⭐⭐⭐⭐ Diffusion/TD-MPC2/可微MPC/VLA 踩多组对偶 §4.7
七方向×RL接口矩阵 ⭐⭐⭐ 七特化,每个都有非空 RL 接口 §5.1
DP 是最大公约数 ⭐⭐⭐ 七方向=母方程的七种特化 §5.2
三条贯穿主轴 ⭐⭐⭐ 不确定性/交互/实时=任务三维坐标 §5.3
七方向收口图 ⭐⭐⭐ 终极一图,导航坐标系 §5.4
七个开放问题 ⭐⭐⭐⭐ 从"边界"而非"性能"切入选题 §7.1

故障排查手册(认知层面的"症状 → 病根")

本章是综述收口章,没有可运行代码,所以故障排查表针对的是**学习/理解/选型层面的"认知故障"**——你在学完整个方向后最可能卡住的几个症状,以及对应的"病根"和"复健"路径。

# 症状 可能的病根 排查/复健步骤 相关小节
1 "学了一堆方法,但面对新任务还是不知道选哪个" 停在"工具箱清单"心智模型,没建立统一坐标系 ①重读 §1.3 总表,把你会的每个方法填进去;②对新任务填 §3.1 六维画像走决策树 §1.3、§3
2 "总觉得 RL 和 MPC 是两回事,混合范式看不懂为什么能拼" 没接受 §2.1 的 MPC↔值迭代等价 ①重推 §2.1 Newton 步等价;②理解"两者逼近同一 \(V^*\)"是混合的前提(§4.1) §2.1、§4.1
3 "我的 RL 策略在有遮挡/噪声的任务上学不好" 把 POMDP 当 MDP 解,瞬时观测非充分统计 ①确认任务是否 POMDP(观测≠状态?);②加 RNN/序列模型,或走 belief 规划 §2.3、§3.4-4
4 "在安全关键系统里部署纯 RL,偶发危险行为" 误把软惩罚当硬保证,OOD 失效 ①决策树 Q1=是 → 加经典安全层;②CBF-QP/predictive safety filter 兜底 §2.4、§4.4、§3.4-2
5 "说不清自己求的多智能体解是什么均衡" 混淆训练范式(CTDE)与解概念(Nash) ①先定解概念(同时博弈Nash?领导-跟随Stackelberg?);②再选范式逼近并验收敛 §2.5、§3.4-3
6 "把两个方法拼成混合,但审稿人说没贡献" 为混合而混合,没说清补了谁的什么短板 ①用 §4.1 互补性表说清分工;②聚焦"拼接处的新难题/新保证"而非拼接本身 §4.1、§7.2
7 "在低维、模型好的任务上硬上 RL,效果还不如 MPC" "RL 万能"迷思,无视任务画像 ①重看 §3.3 案例 4(工厂抓取);②承认经典优化的舒适区,别为用 RL 而用 §3.1、§3.4-1
8 "学完感觉这领域已经没什么可做了" 只看到"点"(算法),没看到"边界"(开放问题) ①把每组对偶的"不等价处"、每个骨架的"坑"列出来;②对照 §7.1 七个开放问题找选题 §7

延伸阅读

统一视角与对偶(§1-§2 的源头): - Bertsekas, Reinforcement Learning and Optimal Control (2019) 及 "Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control" (2022)——MPC↔值迭代 Newton-step 视角的权威出处。 - Recht, "A Tour of Reinforcement Learning: The View from Continuous Control" (Annual Review of Control 2019 / arXiv 2018)——从连续控制视角看 RL 的统一论述。 - Kober, Bagnell & Peters, "Reinforcement Learning in Robotics: A Survey" (IJRR 2013)——机器人 RL 与最优控制关系的经典综述。 - ETH Zürich, Optimal and Learning Control for Autonomous Robots (课程讲义)——用统一记号合讲 OC 与 RL。

何时用谁(§3 的实证基础): - Song, Romero, Müller, Koltun, Scaramuzza, "Reaching the limit in autonomous racing: Optimal control versus reinforcement learning" (Science Robotics 2023)——OC vs RL 最具说服力的同任务正面对比。 - 综述:"A Survey of RL-Based Motion Planning for Autonomous Driving"(arXiv 2503.23650)、"A Survey on Hybrid Motion Planning Methods for Automated Driving"(arXiv 2406.05575)、"A Review of Learning-Based Motion Planning: Toward a Data-Driven Optimal Control Approach"(arXiv 2512.11944)。

混合范式(§4 的代表工作): - Residual MPC: "Residual MPC: Blending Reinforcement Learning with GPU-Parallelized Model Predictive Control"(arXiv 2510.12717)——骨架 C 的清晰范式。 - MPC-RL 学权重/终端代价:MPC4RL 软件包(arXiv 2501.15897)、Gros & Zanon "Data-Driven Economic NMPC using RL"(IEEE TAC 2020)——骨架 A 的理论与工具。 - 可微 MPC:acados + leap-c、Theseus (Meta)、Amos et al. "Differentiable MPC for End-to-end Planning and Control" (NeurIPS 2018)。 - 生成式规划:Janner et al. Diffuser (ICML 2022)、Ajay et al. Decision Diffuser (ICLR 2023)、Chi et al. Diffusion Policy (RSS 2023)、Hansen et al. TD-MPC2 (ICLR 2024)、Kim et al. OpenVLA (CoRL 2024)。

专题级深入:见本方向各 Part 的详细大纲(T/U/G/MPPI/Multi/TAMP/D)与 80_综述 S1-S4,以及本章附录 A/B 列出的逐篇桥接论文。


后续章节关系

本章是整个移动机器人规控方向的**最后一章**,向后不再有正文章节。它的"后续"是读者自己的实践与研究:

  • 向工程:回到 T4 / D 线把一个栈做到生产级,用 §6.1 路径甲。
  • 向研究:选 §7.1 一个开放问题,用 §6.1 路径乙,参考各 Part 详细大纲的"前沿工作与开放问题"小节。
  • 向交叉:跨到 06_具身智能/(VLA/world model)与本方向 S4(交互预测),用 §6.1 路径丙。
  • 向上游回看:若本章某个对偶(如可微 MPC、POMDP、博弈)让你意犹未尽,回到对应 Part(U2/U4/G)的详细章节深挖——本章给的是地图,那里给的是街景。

至此,移动机器人规控方向(约 76 章、106.5 周、100+ 开源项目、200+ 论文)全部收口完毕。愿这张以"最优性原理"为根的地图,成为你此后面对任何新方法、新任务时的导航坐标系。