跳转至

方向级综述(一):移动机器人规控全景与时空联合规划

所属:移动机器人规控方向 · 综述层(Part-S)· 第一篇定位:本文是整个"移动机器人规划与控制"方向(横切六大专题 + 无人机应用 + 综述)的**最高层导航图**。它不深入任何单一算法的推导(那是各专题章的职责),而是站在方向尺度回答四个问题:① 这个方向到底由哪几块拼成、它们彼此什么关系?② 把这些方法摆在同一组坐标轴上,它们如何分布、如何演进?③ 在所有横切范式里,时空联合规划**为什么是那条最值得先吃透的主干,它的发展脉络、流派分化、优劣矩阵、选型决策是什么?④ 还有哪些悬而未决的开放问题,决定了这个方向未来五年往哪走? **文档类型:方向级综述(综述/对比类,参照论文解读与理论教学规范——重在**脉络梳理**与**对比综合**,而非从零推导;几乎无代码)。 与专题内综述的区别:本方向有两层综述。专题内综述(如 04/10_时空规划/80_综合对比与附录.md)打通的是单个专题的 T1–T6 六章——是"专题内部的林"。本文是方向级综述——打通的是七大专题彼此之间、以及它们与无人机应用之间的关系,是"专题之上的林海"。读专题内综述前先读本文建立全局坐标系;读完所有专题后再回看本文,检验自己能否在"方法空间"里自由导航。 怎么用这篇综述:第一次进入移动规控方向时通读一遍第一、二节,拿到"全方向地图";准备深入时空联合规划专题前精读第三至六节;学完若干专题后回看第七、八节(开放问题与选型决策),把零散的方法收束成判断力。


〇、写在最前面:综述要解决的"只见树木不见林"问题

如果你是按推荐路径走到这里的,你大概已经读过 SLAM 主线、补齐了凸优化与非线性优化的公共基础,甚至已经动手实现过某个具体规划器——给四旋翼生成过 min-snap 轨迹,给机械臂做过时间参数化,或者在 Apollo 里调过一次 EM Planner 的参数。

换句话说,你已经会"用"某些规划方法了。但很可能你脑中的这些方法是**彼此孤立的岛屿**:MINCO 是一个岛,CBS 是另一个岛,MPPI 又是一个岛,POMDP、CBF、iLQGames 各自漂在远处——你知道每个岛上有什么,却说不清这些岛是怎么连成一片大陆的,更说不清"给我一个新问题,我该上哪个岛"。

本质洞察(综述存在的理由):单个专题章教你**把一棵树看透**——MINCO 的梯度怎么闭式求、CBS 的冲突怎么解、POMDP 的 belief 怎么更新。但工程师真正稀缺的能力,不是"会用某一棵树",而是**在森林里快速定位**——面对一个陌生场景,三十秒内判断"这属于哪一类问题、该调哪一族方法、代价是什么、坑在哪里"。这种判断力来自把所有方法压到同一组坐标轴上反复对比,而这正是综述(而非专题章)的独有职责。专题章给你深度,综述给你导航。

这篇综述的写法,刻意区别于专题章:它**不推导**(推导在专题章里)、不贴代码(代码走读在专题章里),而是密集地**对比、归类、画地图**。读它的正确姿势不是"学新知识",而是"把已学的知识重新摆放,摆成一张能用来做决策的地图"。

本文与全套文档的关系

本文(方向级综述)= 全方向的"林海图"
   ├── 第一节:全方向地图(7 专题 + 无人机应用,它们是什么、怎么连)
   ├── 第二节:方法空间的统一坐标轴(把所有方法摆到同一张图上)
   ├── 第三~六节:时空联合规划深度综述(主干专题,脉络/流派/矩阵/选型)
   │      发展脉络 → 流派分化 → 优劣矩阵 → 选型决策树
   ├── 第七节:跨专题的横向联系(时空规划 ↔ 其他六专题的接口)
   └── 第八节:开放问题与未来方向(决定本方向往哪走)
后续四篇方向级综述(不确定性 / 博弈 / 交互预测 / RL 贯穿)各深挖一个专题

前置自测

这几道题不考记忆,是确认你具备读懂这篇方向级综述的最小背景。综述假设你**已经接触过**至少两三个具体规划方法——如果下面 ≥ 3 题完全没概念,建议先选一个专题(推荐时空联合规划 T1)入门后再回看本文。

  1. **路径-速度解耦(PVD)**是经典规划栈的地基。请用一句话说清它"先做什么、后做什么",再举一个它会**悄无声息失效**的具体场景。(答不出 → 本文 §3.1 会重述,但你应先有直觉)
  2. 同样是"找一条轨迹",搜索类(A*/RRT)、优化类(QP/NLP)、采样类(MPPI/CEM)三族方法的根本区别是什么?各自最怕遇到什么样的问题?(答不出 → §2.2 系统对比)
  3. "完备性(completeness)"和"最优性(optimality)"是两个不同的算法性质。一个算法"完备但不最优"在工程上意味着什么?为什么很多大规模方法主动放弃最优性?(答不出 → §2.3)
  4. 自动驾驶规划近年有两条范式之争:模块化管线(pipeline) vs 端到端(end-to-end)。它们的分界线划在哪里?端到端最大的软肋是什么?(答不出 → §3.2、§8.3)
  5. (开放题,凭直觉答)如果让你给"移动机器人规控"这个方向画一张地图,你会用哪几个维度当坐标轴?你觉得"无人机规划"和"自动驾驶规划"的最大差异在哪一维上?(无标准答案 → §2 给出本文采用的坐标系,读完对照你的直觉)

本章目标

读完本章,你应当能够:

  1. **画出**移动机器人规控方向的全景地图——说清七大横切专题(时空联合 / 采样式 MPC / 不确定性 / 博弈 / 多机协作 / 任务运动规划)+ 无人机应用实例之间"谁是方法、谁是应用、谁消费谁"的关系。
  2. **建立**一组统一坐标轴(联合程度 / 求解范式 / 不确定性处理 / 交互建模 / 计算负担),并能把任意一个规划方法快速定位到这张坐标系里的某个区域。
  3. **复述**时空联合规划从 1986 PVD 到 2026 扩散式生成的完整发展脉络,说清每一代解决了上一代的什么问题、又引入了什么新局限。
  4. **辨析**时空联合规划的四大流派(解耦迭代 / 走廊+QP / 连续优化 / 端到端生成)的本质差异,并在一张优劣矩阵里说清它们在最优性、实时性、可验证性、生态成熟度上的得失。
  5. **运用**选型决策树——给定一个具体场景(高速结构化 / 城市强交互 / 泊车竞速 / 多机协调 / 研究探索),快速定位到合适的方法族,并讲清选它的理由与代价。
  6. **指出**本方向 5–8 个真正悬而未决的开放问题(可验证的学习式规划、实时性 vs 联合性的根本张力、交互的鸡生蛋问题、长尾安全等),并说清每个问题卡在哪里。

本章知识导航

本章是一篇"双层"综述——前半部分(§1–§2)是**方向级宏观图**,后半部分(§3–§8)是**时空联合规划这一主干专题的深度综述**。两半的关系是"先给整片林海定位,再放大其中最大那座山"。

小节 内容 在地图中的角色 难度
§1 全方向地图:七专题 + 无人机应用 林海全景 ⭐⭐
§2 方法空间统一坐标轴 给林海画经纬度 ⭐⭐⭐
§3 时空联合规划发展脉络(1986→2026) 放大主干山脉的"地质史" ⭐⭐⭐
§4 四大流派分化与对比 主干山脉的"水系分流" ⭐⭐⭐
§5 优劣矩阵与代表方法卡片 主干山脉的"等高线图" ⭐⭐⭐
§6 选型决策树 "登山路线推荐" ⭐⭐⭐
§7 跨专题横向联系 主干与其他山脉的"山脊连线" ⭐⭐⭐⭐
§8 开放问题与未来方向 "尚未勘探的区域" ⭐⭐⭐⭐

推荐阅读路径:**初次**通读 §1→§2 建立全局观,§3→§6 重点精读(这是本文核心),§7→§8 略读留印象;**回看**时直接跳 §6(选型)和 §8(开放问题),它们是最有"回查价值"的两节。

前置知识桥接

本文站在所有专题之上,因此它"回顾"的不是某一章,而是整个方向已建立的概念底座。这里只激活三个贯穿全文的核心概念,细节在对应专题章:

  • 回顾"轨迹 = 路径 + 速度剖面":一条机器人轨迹 \(\boldsymbol{\xi}(t)\) 可以拆成"几何路径"\(\sigma(s)\)(走哪条线)和"速度剖面"\(s(t)\)(沿这条线何时多快)两部分。经典规划的地基 PVD 正是利用这个拆分**分两步**求解。本文反复用到的"时空联合程度"这条主轴,量的就是一个方法在多大程度上**拒绝**这个拆分、把空间与时间放在一起解。
  • 回顾"凸 vs 非凸":凸问题(如 QP)的局部最优即全局最优,可实时可靠求解;非凸问题(如带碰撞约束的完整轨迹优化)可能有多个局部最优、对初值敏感、求解慢。本方向几乎所有"实时性 vs 最优性"的权衡,根子都在"要不要、敢不敢解非凸问题"。
  • 回顾"模型有多可信":经典最优控制假设模型精确、状态可观;现实里模型不完美(鲁棒规划要管)、状态部分可观(POMDP 要管)、他人有自己的目标(博弈要管)。本方向的不同专题,本质是在**逐层松绑这些理想假设**。

如果跳过本章会怎样

不读这篇方向级综述,你仍然可以逐个专题地学下去——但会遇到两类具体困境:

  1. 学到一半迷路:当你在不确定性规划专题读到"EPSILON 的 belief tree"时,会突然发现它和时空规划专题的"时空走廊"是同一套 SSC 代码——但因为没有全局地图,你会以为这是两个无关的东西,重复学、学不透。综述的"跨专题横向联系"(§7)正是为了防止这种"同一个东西在不同专题里被当成两个"的认知浪费。
  2. 学完不会选型:你可能把七个专题全学完,却在面对一个真实项目时依然卡壳——"这个城市路口加塞场景,我该用 EPSILON 的分支、CILQR 的连续优化、还是 MPPI 的采样?"没有把方法压到同一坐标轴上对比过,就没有这种横向决策能力。这正是 §6 选型决策树要给你的。

预计阅读时间

阅读方式 时间 适合谁
精读(含对照自己的方法库重新归类) 4–5 小时 准备系统进入移动规控方向、想先建全局观的读者
速读(跳过 §7 跨专题细节) 2 小时 已学过 2–3 个专题、想补一张全局地图的读者
速查(只看 §1 全景表 + §5 优劣矩阵 + §6 决策树) 30 分钟 做选型决策时回来查的读者

一、全方向地图:移动机器人规控由哪几块拼成

在放大任何一座山之前,先要看清整片林海的轮廓。这一节回答最基础的问题:"移动机器人规划与控制"这个方向,到底由哪几块组成?它们彼此是什么关系?

§1.1 一个统一的问题,七种"理想假设松绑"的方式

先给整个方向一句话定性。移动机器人规划与控制要解决的根问题只有一个

在一个**不完美、动态、可能有他人**的世界里,为机器人算出一条**安全、可行、优**的运动,并实时执行它。

这句话里的每个形容词,对应着一个理想假设的松绑,也对应着一个专题:

如果世界是… 那问题就退化为… 松绑这个假设的专题
静态、空间时间可分 经典"先路径后速度"(已会,是基线) —(地基,PVD)
动态、空间时间不可分 时空必须联合求解 时空联合规划(10)
代价不可微、模型是黑箱 不能用梯度,只能采样 采样式 MPC / MPPI(20)
模型不完美、感知不完全 必须在不确定性下规划 不确定性规划(30)
有他人,且他人有自己的目标 不是避障,是博弈 博弈规划(40)
不止一个机器人 要协调多体共享时空 多机器人协作(50)
任务本身需要先做离散决策 任务层与运动层要联合 任务与运动规划 TAMP(60)

本质洞察(七专题的统一视角)这七个专题不是七个并列的"话题",而是同一个根问题在逐层松绑七个理想假设后裂变出的七个分支。 经典规划(PVD)站在最理想的世界——静态、可分、模型精确、无他人、单体、任务已定。每松开一个假设,就长出一个专题。理解这一点,你就不会把它们当成七堆零散知识,而会看到它们共享同一棵根、彼此用同一套底层工具(搜索/优化/采样/学习),只是各自多扛了一种"现实的不完美"。

这个视角立刻解释了一个初学者常困惑的现象:为什么这些专题的方法长得这么像、还经常互相调用? 因为它们本就同源——CBS(多机)的低层用的是 SIPP(时空规划),EPSILON(不确定性)的走廊用的是 SSC(时空规划),分布式 MPC(多机)用的是单体 MPC(最优控制基础),MARL(多机)和博弈(博弈规划)共享 Nash 均衡的语言。专题之间的边界是"松绑了哪个假设",而不是"用了哪套工具"。

§1.2 方法 vs 应用:横切专题与无人机实例的关系

上面七个是**横切专题**——它们不属于任何单一机器人形态(无人机/地面车/机械臂/足式),而是为所有形态提供通用方法论。但光有方法论是悬空的,所以本方向还配了一整块**应用实例**:

横切专题(10–60)          无人机应用(70)          综述(80)
═══ 方法论工具箱 ═══       ═══ 完整应用实例 ═══      ═══ 贯穿连接线 ═══

时空联合规划 ──┐                                      本文(全景 + 时空)
采样式 MPC  ──┤                                      不确定性综述
不确定性规划 ──┼──► 在无人机上"落地"成 ──► 微分平坦/MINCO/  ◄── 博弈综述
博弈规划    ──┤      具体可飞的系统        感知引导/集群/RL    交互预测综述
多机器人协作 ──┤                          敏捷飞行/仿真       RL 贯穿综述
任务运动规划 ──┘                                      

为什么单独挑无人机做应用实例? 三个原因,每个都值得记住:

  1. 微分平坦让数学最干净:四旋翼是微分平坦系统——整条轨迹及其所需控制量,都能由"位置 + 偏航"这 4 个平坦输出及其导数代数地表达出来。这意味着时空轨迹的参数化在无人机上最简洁(MINCO 的闭式梯度就建立在此),是理解"时空联合"最不受形态细节干扰的载体。
  2. 闭环最短、反馈最快:无人机从规划到看见效果的闭环短(仿真里几分钟就能看到一条轨迹飞出来),适合"学方法 → 立刻看效果"的教学节奏。
  3. 生态最完整:从仿真(PX4 SITL/Gazebo/OmniDrones)到轨迹生成(GCOPTER/EGO-Planner)到集群(EGO-Swarm/MADER)到 RL 飞控,无人机侧有一条端到端、全开源、可复现的链路——这是地面车(受限于真车)和足式(受限于硬件)都不具备的。

对比性思维(无人机应用 vs 自动驾驶基线):本方向把**无人机当"完整应用实例"、把**自动驾驶当"贯穿各专题的通用基线",这个分工是刻意的。无人机的优势在"链路完整、数学干净",适合从头跟到尾走一遍;自动驾驶的优势在"场景丰富、工业代码公开(Apollo/Autoware)",适合作为每个专题"工业上怎么做"的对照锚点。学方法时跳进无人机看实际效果,学应用时回溯横切专题理解底层原理——这是本方向架构的核心使用方式。

"方法-应用"双层架构解决了一个教学的根本两难。 纯讲方法(横切专题)容易悬空——学了一堆算法不知道在真实系统里长什么样;纯讲应用(如"从零搭一台无人机")容易碎片化——为了让系统跑起来,每个模块都只能浅尝辄止,学不到方法论的深度。双层架构的解法是:横切专题把每个方法讲到"方法论深度"(为什么这样设计、有哪些流派、怎么选),无人机应用把这些方法串成"系统级完整度"(它们怎么协同、接口怎么对、实飞要注意什么)。 一个给深度,一个给完整度,互补而非重复。

本质洞察(为什么需要"双层"而非"单层"):很多教材要么是"算法大全"(只有方法、无系统),要么是"项目教程"(只有系统、方法浅)——它们的共同缺陷是单层。单层的根本问题在于:方法的深度和系统的完整度,是两个无法在同一条叙述线里同时最大化的目标。 讲方法讲到深处必然偏离系统主线(要展开流派、推导、对比),串系统串到通畅必然牺牲单个方法的深度(要赶进度让系统跑起来)。双层架构承认这个矛盾,用两条线分别承载——横切专题这条线只管深度(不必让系统跑起来),应用实例这条线只管完整度(复用专题已讲透的方法,不再重复推导)。 理解这个设计,你就知道读本方向时该怎么配合:遇到"这个方法为什么这样"的疑问去横切专题,遇到"这些方法怎么拼成系统"的疑问去无人机应用——别在应用实例里找方法论深度,也别在横切专题里找系统完整度,各取所长。

§1.3 七专题的"成熟度 vs 难度"全景表

把七个横切专题放在一张表里,用三个对工程师最实用的维度刻画:概念难度(学起来多烧脑)、C++ 生态成熟度(能不能直接上车)、当前热度(值不值得押注未来)。这张表是整篇综述里"回查价值"最高的一张之一。

专题 松绑的假设 概念难度 C++ 生态成熟度 当前热度 一句话定位
时空联合规划(10) 时空可分 ⭐⭐⭐ 极高(Apollo/GCOPTER/OMPL/MADER) C++ 抓手最丰富的**主干专题**,先学它
采样式 MPC(20) 代价可微/模型白箱 ⭐⭐⭐ 高(自写为主,GPU 友好) 高(世界模型/扩散加持) 不可微/黑箱场景的"万能兜底"
不确定性规划(30) 模型精确/全可观 ⭐⭐⭐⭐ 中(EPSILON/DESPOT 各撑一路) 中高 概念跨度最大,从 Tube MPC 到 CVaR-POMDP
博弈规划(40) 无他人/他人无目标 ⭐⭐⭐⭐ (仅 ilqgames/HJ,SOTA 在 Julia) 唯一需"C++ 骨架 + Julia SOTA"双语言
多机器人协作(50) 单体 ⭐⭐⭐ 高(CBS/RVO2/MADER + MARL) 消费前五专题成果的系统级集成
任务运动规划(60) 任务已定 ⭐⭐⭐⭐ 中(PDDLStream/OMPL) 中(LLM+TAMP 复兴) 离散任务层与连续运动层的缝合
无人机应用(70) —(是应用不是方法) ⭐⭐⭐ 极高(全链路开源) 方法论的完整落地实例

本质洞察(生态成熟度的"反直觉规律"):把"当前热度"和"C++ 生态成熟度"两列对照着看,会发现一条贯穿全方向的**反相关规律**——越前沿热门的方向,C++ 生态往往越不成熟。博弈规划热度中等却 C++ 生态最薄(SOTA 跑去了 Julia),端到端学习(在时空专题 T6)最前沿却几乎无 C++ 原生实现(全是 PyTorch)。原因是方法从论文到工业级 C++ 沉淀需要数年,且学习式/黑箱方法天然不契合 C++ 强调的确定性与可验证性。 这条规律给学习投入定了一个清醒的标尺:要"现在就能上车的技能",重心放在时空联合(10)/多机(50)/无人机(70)这些成熟生态;要"押注未来做研究",博弈(40)和学习式规划是方向,但要接受其工程不成熟。 这一点在 §8 开放问题里还会从"前沿性 vs 可落地性"的角度再深挖。

§1.4 为什么综述从"时空联合规划"切入

本文是方向级综述的**第一篇**,后续还有四篇分别深挖不确定性、博弈、交互预测、RL 贯穿。为什么第一篇的深度综述部分选时空联合规划,而不是别的?

三条理由,构成一个递进:

  1. 它是地基松绑的第一步。七专题里,时空联合规划松绑的"时空可分"是**最贴近经典基线、最容易理解**的一个假设——你已经会"先路径后速度",只需理解"它何时失效",就跨进了这个专题。其他专题(POMDP、博弈)松绑的假设抽象得多,不适合作为综述的切入点。
  2. 它的方法谱系最完整、最有代表性。从纯搜索(SIPP)到纯优化(MINCO)到纯学习(扩散式),时空联合规划一个专题就横跨了**本方向所有四大求解范式**(搜索/优化/采样/学习)。吃透它的流派分化,等于预演了整个方向的方法地图。
  3. 它的 C++ 生态最成熟,最适合"读代码学方法"。Apollo、GCOPTER、OMPL、MADER 提供了从工业级到学术级的完整 C++ 抓手。综述里讲的每一个流派,都能在真实代码里找到对应——这让"对比综合"不悬空。

本质洞察(综述的主干选择策略):选哪个专题作为方向级综述的"放大对象",本身就是一种判断力的体现——应选那个"最能以一斑窥全豹"的专题。时空联合规划恰好满足:它的演进史(§3)浓缩了整个领域"实时性 vs 最优性 vs 可验证性"的根本张力,它的流派分化(§4)覆盖了所有求解范式,它的选型逻辑(§6)可以平移到任何其他专题。读完这一篇深度综述,你拿到的不只是"时空规划的地图",而是"读任何规划专题综述的方法论"。

§1.5 七专题速写:每座山的核心问题、招牌方法与当前前沿

前面给了七专题的"成熟度表"(§1.3),但表格只有坐标、没有血肉。这一节为每个横切专题做一段"速写"——用统一的三句式(核心问题 / 招牌方法 / 当前前沿)勾勒它的轮廓。这是后续四篇方向级综述的"预告片",也让你在深入任何一个专题前,先知道它大概长什么样。

专题 10 · 时空联合规划(本文主干,§3–§8 深挖) - 核心问题:空间和时间不可分离时(cut-in/动态绕障/多机穿林),如何同时决定"走哪"和"何时多快"。 - 招牌方法:Frenet ST 图(解耦基线)、SSC 时空走廊、MINCO 连续优化、扩散式生成。 - 当前前沿:扩散加速逼近实时、可微优化层、世界模型上的时空搜索。

专题 20 · 采样式 MPC(MPPI) - 核心问题:代价函数不可微、动力学是黑箱仿真器时,怎么做实时规划(梯度类失效)。 - 招牌方法:路径积分 MPPI、CEM 家族、GPU 并行 rollout、世界模型 TD-MPC2。 - 当前前沿:扩散启发的采样 MPC、可微 MPC(acados + leap-c)、世界模型 + MPPI 的 model-based RL。

专题 30 · 不确定性规划 - 核心问题:模型不完美、感知不完全时,如何规划出对不确定性鲁棒/敏感的轨迹。 - 招牌方法:五条子路线——分支场景(MPDM/EPSILON)、鲁棒 Tube MPC、机会约束(CC-MPC)、POMDP/信念规划(DESPOT/SARSOP)、风险敏感(CVaR)。 - 当前前沿:CVaR-POMDP、distributional RL、安全滤波器 + 学习策略。 - 特点:概念跨度全方向最大——从实践成熟的 Tube MPC 到理论前沿的 CVaR-POMDP,是第二篇方向级综述的主题。

专题 40 · 博弈规划 - 核心问题:环境里的"他人"有自己的目标、且会响应自车动作时,避障变成了博弈。 - 招牌方法:微分博弈 + HJI 可达性、实时博弈求解器(iLQGames/ALGAMES)、逆博弈、Level-k。 - 当前前沿:可微 Nash、贝叶斯逆博弈、博弈安全证书、MARL 交界(PSRO)。 - 特点:唯一需"C++ 骨架 + Julia SOTA"双语言策略的专题(SOTA 多迁到 Julia),是第三篇方向级综述的主题。

专题 50 · 多机器人协作 - 核心问题:从单体到多体,N 个机器人如何在共享时空里互不冲突、协同完成任务。 - 招牌方法:共识 + 分布式优化(ADMM)、MAPF(CBS/LaCAM/PIBT)、分布式 MPC、协同搬运、MARL(MAPPO/QMIX)。 - 当前前沿:千台级去中心化实时协调、MARL 与传统规控混合、异构地空协同。 - 特点:消费前五专题成果的"系统级集成层"——CBS 用时空规划的 SIPP、分布式 MPC 用最优控制、MARL 用博弈语言。

专题 60 · 任务与运动规划(TAMP) - 核心问题:任务本身需要先做离散决策(先抓 A 还是 B、走哪个房间)时,离散任务层与连续运动层如何联合。 - 招牌方法:PDDL/PDDLStream 流式集成、LGP(逻辑几何规划)、分层任务网络。 - 当前前沿:LLM + TAMP(用大模型做高层语义任务分解)的复兴、可微 TAMP。 - 特点:离散搜索(任务层)与连续优化(运动层)缝合,下层的"几何"本质就是时空规划(§7.5)。

专题 70 · 无人机应用(完整实例,非方法) - 核心问题:把上述方法论落到一个具体形态上,跑通从仿真到实飞的端到端链路。 - 招牌内容:微分平坦 + 几何控制、多项式/B样条/MINCO 轨迹、感知引导自主探索、集群协同、RL 敏捷飞行。 - 当前前沿:sim-to-real RL 飞控、视觉-惯性敏捷飞行、大规模集群。 - 特点:本方向的"完整应用实例"——数学最干净(微分平坦)、生态最完整(全开源链路),是观察所有方法论落地的最佳窗口。

本质洞察(七速写连起来就是后续综述的版图):把这七段速写并排读,你会发现五篇方向级综述的分工自然浮现——本文(一)讲时空规划 + 全景,综述(二)深挖不确定性,综述(三)深挖博弈,综述(四)深挖交互预测,综述(五)缝合 RL 贯穿。 采样式 MPC(20)、多机(50)、TAMP(60)、无人机(70)不单独成方向级综述,因为它们要么是"求解方法论"(MPPI 贯穿各范式)、要么是"系统集成层"(多机消费前五专题)、要么是"应用实例"(无人机)——它们的综述价值已分散融入其他四篇。看懂这个版图,你就知道每一篇方向级综述在整张地图上补的是哪一块、彼此怎么衔接——这正是 §0 强调的"先有林海图再看每棵树"的最高层兑现。


二、方法空间的统一坐标轴:把所有规划方法摆到同一张图上

第一节给了林海的轮廓(七专题各是什么)。但"轮廓"还不够——要能做选型决策,需要给这片林海画上**经纬度**:一组统一的坐标轴,让任意一个规划方法(无论它来自哪个专题)都能被定位到坐标系里的某个区域,从而能彼此比较。

这一节的目标,是建立这组坐标轴。这是整篇综述**对比综合**能力的地基——后面所有的优劣矩阵、选型决策,都建立在这五条轴上。

§2.1 五条坐标轴:刻画一个规划方法的五个本质维度

一个规划方法,无论表面多复杂,都可以用以下五个维度刻画。这五条轴不是随意选的——它们各自对应着第一节里"一个理想假设的松绑",因此**正交、完备、贴合根问题**。

量什么 一端 ←──────→ 另一端 对应松绑的假设
轴1 时空联合程度 多大程度拒绝"先路径后速度" 完全解耦 ←→ 完全联合/天然联合 时空可分
轴2 求解范式 用什么数学机器找解 搜索 / 优化 / 采样 / 学习 (正交于假设,是手段)
轴3 不确定性处理 怎么对待"模型/感知不完美" 确定性 ←→ 鲁棒 ←→ 概率 ←→ 风险敏感 模型精确/全可观
轴4 交互建模 怎么对待"环境里的他人" 无视/障碍 ←→ 预测 ←→ 博弈 无他人/他人无目标
轴5 计算负担位置 算力压在何时 全在线 ←→ 部分离线 ←→ 几乎全离线 (正交,是实现策略)

下面逐条解释每条轴的两端各意味着什么,以及为什么这条轴对选型至关重要。

轴1:时空联合程度(本文主轴)。 这是贯穿整篇综述、也是时空规划专题的核心轴。它量的是一个方法在多大程度上把"走哪条线"(空间)和"何时多快"(时间)放在一起决定:

完全解耦 ───── 半联合 ───── 联合搜索 ───── 完全联合 ───── 天然联合
(纯 PVD)      (EM 迭代)    (走廊+QP)      (连续优化)     (端到端生成)
先路径后速度   分两步多轮    联合空间圈      时间是决策      网络直接吐
一锤定音      迭代逼近      安全区再优化     变量一次解      (x_t,y_t)序列

为什么这条轴重要?因为它直接决定一个方法**能不能处理强耦合场景**(cut-in、动态绕障、抢行)。解耦端高效但在强耦合下失效,联合端能处理强耦合但更贵。§3–§6 整个时空规划深度综述,就是沿这条轴展开的。

轴2:求解范式(手段轴)。 不管解什么问题,最终都要用某种数学机器找解。本方向只有四族机器,理解它们的边界是工程师的基本功(§2.2 详展):

范式 核心机器 适合 不适合
搜索 图上展开节点(A*/RRT/SIPP/CBS) 离散/低维、需完备性或全局最优 高维连续(维度灾难)
优化 梯度/牛顿迭代(QP/NLP/iLQR/MINCO) 连续、代价可微、要平滑最优 非凸多模态、不可微代价
采样 大量 rollout 打分(MPPI/CEM) 不可微代价、黑箱模型、GPU 并行 高精度最优、维度极高
学习 神经网络拟合映射(IL/RL/扩散) 复杂模式、多模态、长尾 可验证性、分布外、可解释

轴3:不确定性处理。 量的是方法怎么对待"模型不完美、感知不完全"。从"假装一切精确"(确定性,绝大多数经典方法)到"对最坏情况鲁棒"(Robust/Tube MPC)到"显式建模概率分布"(POMDP/机会约束)到"优化尾部风险"(CVaR)。这条轴是不确定性规划专题(30)的主轴,但它**横切所有方法**——任何确定性方法都可以问"如果模型错了会怎样",从而沿这条轴往右走。

轴4:交互建模。 量的是方法怎么对待"环境里的他人"。从"无视/当静态障碍"(最简单)到"预测他人未来轨迹再规划"(预测-规划,主流自驾)到"承认他人会响应我的动作"(博弈,最难)。这条轴是博弈规划(40)和交互预测的主轴。它的右端藏着本方向最深的一个开放问题——交互的"鸡生蛋"循环(§8.4)。

轴5:计算负担位置。 量的是算力压在何时。从"全在线求解"(经典优化/搜索,每帧重算)到"部分离线"(预计算地图/查找表/warm-start)到"几乎全离线"(端到端,离线训练海量算力、在线只做前向)。这条轴看似是实现细节,实则**暗中决定了一个方法能同时做到多强的联合性和多快的实时性**——这是 §3、§8 反复点出的"暗线"。

本质洞察(五轴的关系:三条"假设轴" + 两条"手段轴"):这五条轴不是平权的。轴1/轴3/轴4 是"假设轴"——它们各自对应一个被松绑的理想假设(时空可分/模型精确/无他人),刻画的是一个方法**敢面对多复杂的现实**。轴2/轴5 是"手段轴"——求解范式和计算负担位置,刻画的是一个方法**用什么招、把力气花在何时**。一个方法的完整画像 = 它敢面对的现实(三条假设轴的坐标)+ 它选用的手段(两条手段轴的坐标)。选型的本质,就是先用假设轴框定"我的场景有多不理想",再用手段轴挑"哪套招最划算"。

§2.2 求解范式四象限:搜索 / 优化 / 采样 / 学习的根本边界

轴2(求解范式)值得单独展开,因为它是工程师最容易混淆、也最影响落地的一条轴。四族范式不是"谁比谁先进",而是各自占据问题空间的不同象限。用两个最关键的问题把它们分开:代价/动力学可微吗?解空间是离散还是连续?

                   解空间连续
              优化       │       采样
        (QP/NLP/iLQR/    │   (MPPI/CEM/
         MINCO/MPC)      │    扩散采样)
        要可微、要平滑    │   不要可微、要并行
    ────────────────────┼────────────────────► 代价不可微/黑箱
        搜索             │       学习
     (A*/RRT/SIPP/       │   (IL/RL/端到端)
      CBS/LaCAM)         │   离线学映射
      离散、要完备/最优   │   连续或离散皆可
                   解空间离散

这张四象限图怎么用? 拿到一个规划问题,先问两个问题定位象限:

  1. 代价函数和动力学可微吗? 可微 → 左半(搜索/优化)有戏;不可微/黑箱(如"舒适度"难以写成可微式、动力学是仿真器)→ 右上(采样)或右下(学习)。
  2. 解空间天然离散还是连续? 离散(选哪个 lane、哪个同伦类、哪个任务顺序)→ 下半(搜索/学习);连续(一条平滑轨迹的无穷多控制点)→ 上半(优化/采样)。

对比性思维(四范式不是替代而是互补):初学者常犯的错是把四范式当成"进化关系"——以为学习最先进、该取代搜索和优化。这是根本误解。 真相是它们各占象限、长期共存,且**现代系统几乎总是混合使用**:搜索给优化提供初值(front-end search + back-end optimization,时空规划的标准架构)、采样在优化卡住(非凸、不可微)时兜底、学习给搜索提供启发(Neural A*)或给采样提供先验(扩散引导 MPPI)。不是"用哪个",而是"在管线的哪一环用哪个"。 这个"分工而非替代"的认知,是看懂本方向所有混合架构的钥匙。

一个具体的混合范式例子(贯穿全方向):时空联合规划的现代标准管线就是三范式接力—— - 前端搜索(A*/kinodynamic RRT/SIPP)在离散空间快速找一个"大致走哪、何时到"的初解,跨越同伦类; - 中端构造**安全飞行走廊(SFC/SSC,把非凸的避障约束转成凸约束); - **后端优化(MINCO/QP)在走廊内把初解精修成平滑、动力学可行、时空联合的轨迹。

搜索负责"全局选对篮子(同伦类)",优化负责"篮子里磨出最优"。这个分工不是巧合——它精确对应四象限:选同伦类是**离散**问题(搜索的象限),磨平滑轨迹是**连续可微**问题(优化的象限)。

§2.3 两个常被混淆的算法性质:完备性与最优性

在用上面的坐标轴做选型前,还要厘清两个贯穿全方向、却极易被混淆的性质。它们不是坐标轴(不是连续维度),而是算法的**离散标签**,但对选型判断至关重要。

完备性(Completeness):如果存在解,算法**保证**能找到它(无解时能报告无解)。

  • 分辨率完备(resolution-complete):在给定离散分辨率下完备(如栅格 A*——栅格够细就找得到)。
  • 概率完备(probabilistically complete):采样数趋于无穷时,找到解的概率趋于 1(如 RRT/PRM)。
  • 不完备:可能找不到存在的解(如纯梯度优化——会卡在局部最优或不可行域)。

最优性(Optimality):找到的解是否代价最小。

  • 最优:保证全局最优(如 A* 配可采纳启发、凸 QP)。
  • 渐近最优(asymptotically optimal):采样数趋于无穷时收敛到最优(如 RRT*、SST)。
  • 次优 / 局部最优:只保证可行或局部最优(如 RRT、一般非凸 NLP、PIBT、ORCA)。

本质洞察(为什么大规模方法主动放弃最优性):这两个性质常被初学者当成"越强越好",但工程现实是**强保证 = 高代价**。最优 + 完备的方法(如最优 MAPF 的 CBS)在规模上爆炸——10 个智能体还能解,100 个就跪。于是大规模方法(PIBT、LaCAM、ORCA、EGO-Swarm)主动放弃最优性、甚至放弃完备性,换取"几百上千智能体实时可解"。选型时的关键判断不是"要不要最优",而是"我的规模/实时预算下,能负担多强的保证"——小规模高价值任务(泊车、竞速)值得上最优方法,大规模实时任务(仓储集群、人群避让)必须接受次优。这条判断贯穿多机协作(50)和时空规划的多智能体部分(§6 选型会反复用到)。

§2.4 求解范式的混合模式:现代系统如何在一条管线里串联四象限

§2.2 强调四范式"互补非替代、混合使用"。这一节把"怎么混合"系统化——因为现代规划系统几乎从不用单一范式,理解常见的**混合模式**是看懂任何真实系统架构的钥匙。把四范式的串联方式归成四种典型模式:

混合模式 结构 典型例子 为什么这样混
搜索→优化(前端-后端) 搜索出粗解/初值 → 优化精修 时空规划标准管线、Hybrid A* + OBCA 搜索负责跨同伦类选篮子(离散),优化负责篮子内磨最优(连续)
学习→搜索(神经启发) 网络预测启发/cost → 搜索用它加速 Neural A*、GNN-guided CBS 学习压缩搜索空间,搜索保住完备性
学习→优化(神经先验) 网络出先验/初值 → 优化做可行性投影 扩散出轨迹 + MINCO 投影、可微 MPC 学习提供多模态创意,优化保证动力学可行
生成→验证(创意-安全) 学习生成候选 → 经典栈验证过滤 工业自驾 E2E + 经典兜底 学习提供能力上限,经典提供安全下限

这四种混合模式有一个共同结构——都是"用一个范式补另一个范式的裸维":

  • 搜索的裸维是"连续精度差"→ 用优化补;
  • 优化的裸维是"非凸挑初值、跨不过同伦类"→ 用搜索或学习补;
  • 学习的裸维是"无硬保证"→ 用优化/验证补;
  • 搜索/优化的裸维是"想不出人没设计的解"→ 用学习补。

本质洞察(混合是常态,纯粹是特例):初学者读论文时,习惯问"这篇用的是搜索还是优化还是学习"——这个问题本身就预设了"方法是单一范式",而现实恰恰相反:成熟系统几乎都是混合的,纯单一范式反而是教学简化或早期工作。 正确的问法是"这篇在管线的哪一环用了哪个范式、它们怎么接力"。比如时空规划的现代标准管线就是"搜索→优化"两段接力,工业自驾是"生成→验证"两段接力。当你拿到任何一个真实规划系统,先别问它"是什么范式",而问它"由哪几个范式按什么顺序串成"——这个视角能让你瞬间看穿绝大多数看似复杂的系统架构。 这也呼应了 §8.7 的组合创新——混合模式不仅是工程常态,更是创新的主战场。

§2.5 把一个方法摆上坐标系:三个完整定位示范

理论讲完,做三个完整的"定位示范"——把三个有代表性的方法逐一摆到 §2 的五条轴 + 四象限上,演示这套工具怎么用。这是把 §2 从"概念"变成"肌肉记忆"的关键一步。

示范一 · Apollo EM Planner

坐标 判断依据
轴1 联合程度 半联合 Path↔Speed EM 迭代,分步但多轮逼近
轴2 求解范式 优化(DP+QP,左上+左下接力) DP 搜索初解 + QP 精修,"搜索→优化"混合
轴3 不确定性 确定性 把预测当固定,不显式建模概率
轴4 交互 预测后当障碍 用他车预测但不建模其响应
轴5 计算负担 全在线 每帧重算,无离线训练
→ 定位结论:左下-偏中区域,可验证、实时、半联合的工业基线。

示范二 · MINCO/GCOPTER

坐标 判断依据
轴1 联合程度 完全联合 段时间 \(T_i\) 是显式优化变量
轴2 求解范式 优化(左上,需搜索 warm-start) 连续可微优化 + 前端搜索初值
轴3 不确定性 确定性 假设环境已知
轴4 交互 障碍(静/动态已知) 走廊避开时空禁入区,不博弈
轴5 计算负担 全在线(可在线重规划) 闭式梯度让在线求解够快
→ 定位结论:右上-完全联合区域,最优、灵活,但挑初值。

示范三 · UniAD

坐标 判断依据
轴1 联合程度 天然联合 网络直接吐 \((x_t,y_t)\)
轴2 求解范式 学习(右下,IL + 模块化) 模仿学习 + query 贯通
轴3 不确定性 隐式(数据中学) 不显式建模,从数据吸收
轴4 交互 隐式建模(MotionFormer 预测) 网络内隐式处理预测-规划耦合
轴5 计算负担 几乎全离线 海量离线训练 + 在线前向
→ 定位结论:最右上+学习象限,能力最强但黑箱、计算前置离线。

本质洞察(定位的价值:把"陌生"变"已知"):做完这三个定位,回看 §5.2 的 9 张卡片,你会发现它们其实就是九次这样的定位。这套定位工具的终极价值,是把任何陌生方法"翻译"成五个坐标——一旦翻译完成,你就能立刻拿它和你已知的方法比较(坐标接近的就是亲戚),并预判它的得失(坐标决定了它在 §5.1 优劣矩阵里的大致行为)。 这就是为什么 §0 说综述教的是"导航"而非"知识"——导航的本质,就是给陌生的东西标上你熟悉的坐标。练到能对任意新方法脱口而出它的五轴坐标,你就真正出师了。

§2.6 五条轴并非独立:它们之间的相关性

最后点出一个深层结构——这五条轴不是相互独立的,它们之间存在系统性相关。 理解这些相关,能让你在选型时"一叶知秋":定了一条轴的位置,往往就大致框定了其他几条轴的可行范围。

相关性 表现 为什么
轴1(联合)↗ 轴5(离线) 联合程度越高,越倾向把计算前置离线 完全/天然联合在线算不动,只能靠离线训练(§3.2 暗线)
轴1(联合)↗ 求解非凸性 联合程度越高,问题越非凸 把时间也当变量、约束精确,必然破坏凸性
轴2=学习 → 轴5=离线 + 可验证性↘ 选了学习范式,几乎必然计算离线 + 不可验证 学习的本质是离线拟合,黑箱不可验证(§4.5)
轴3(不确定性)↗ 计算成本 越认真处理不确定性,计算越贵 概率/风险约束比确定性约束难解(机会约束、POMDP)
轴4(交互)↗ 轴3 + 计算成本 越认真建模交互(博弈),越要处理不确定性、越贵 博弈耦合了对他人意图的不确定性推断(§8.4)

本质洞察(轴间相关性 = "选型的连锁反应"):这些相关性意味着选型**不是五个独立的旋钮,而是一组联动的滑块**——你推高一个,另几个会跟着动。比如你决定"要最高的时空联合程度"(轴1 推满),那么轴5 几乎必然被拉向"离线"、求解几乎必然变非凸、若走学习路线则可验证性必然下滑。这就是为什么选型不能"既要又要"——你想要联合程度满分、又要可验证满分、又要在线实时,这三个要求在轴间相关性下相互矛盾(正是 §8.1 的根本张力、§5.4 散点图右上角的空白)。 看懂轴间相关性,你就明白选型的本质是**在一组联动的约束里找一个自洽的组合**,而非在每条轴上独立挑最优。这是 §2 全节最深的一层——从"五条独立的轴"上升到"一个相互纠缠的约束系统"。

把 §2 的五条轴 + 四象限 + 两性质 + 混合模式 + 定位示范 + 轴间相关性合起来,你现在拥有了一套完整的"方法定位与组合工具"。下面从 §3 开始,我们用这套工具放大本方向最大的那座山——时空联合规划——做一次深度综述,演示这套工具如何把一个专题的所有方法梳理成可决策的地图。


三、时空联合规划的发展脉络:从 PVD 到扩散式生成(1986→2026)

现在放大主干山脉。综述深挖一个领域,第一步永远是**梳理脉络**——不是罗列方法,而是讲清"每一代解决了上一代的什么问题、又留下了什么新坑给下一代"。一条好的脉络线,能让你理解的不是 N 个孤立方法,而是一条连贯的演进逻辑。

§3.1 起点:为什么需要"时空联合"——PVD 的成功与失效

任何脉络都得从"起点为什么是这个起点"讲起。时空联合规划的起点,是它的**反面**——路径-速度解耦(Path-Velocity Decomposition, PVD),由 Kant & Zucker 在 1986 年提出。

PVD 做了什么。 它把"规划一条轨迹"这个难问题,拆成两个容易的子问题:

  1. 路径规划:先在静态环境里找一条几何路径 \(\sigma(s)\)(走哪条线),暂时不管速度;
  2. 速度规划:再在这条固定路径上排一个速度剖面 \(s(t)\)(沿这条线何时多快),处理动态障碍。

为什么这个拆分如此成功,统治了整个经典规划栈三十年? 因为它把一个高维、非凸、难解的联合问题,降维成两个**低维、近凸、可实时求解**的子问题。在结构化道路(高速公路)上,路径基本由车道和参考线定死、主要决策是速度——此时路径与速度**弱耦合**,分两步几乎不损失最优性,却换来了实时性和工程可靠性。这就是为什么 Apollo 这样的工业系统至今仍以 PVD 为骨架。

它何时失效? 当路径与速度**强耦合**时——也就是"走哪"取决于"多快"、"多快"取决于"走哪",二者无法先后决定。三个经典场景:

场景 为什么强耦合 PVD 的困境
Cut-in(加塞) 让它(减速不变道)还是超它(加速不变道)还是绕它(变道)——最优路径取决于打算用什么速度通过 先定路径就堵死了速度的最优选择,反之亦然
动态绕障 绕障的左右选择,和何时加减速死死绑定 固定路径可能让速度规划无解(为不撞必须急刹)
多机穿林 每架的避障路径,取决于其他架在每个时刻飞到哪 N 架轨迹相互耦合,无法各自先定路径

本质洞察(整个专题的灵魂):时空联合规划的全部存在理由,就是**"PVD 在强耦合场景下会悄无声息地失效"**这一句话。注意"悄无声息"——PVD 不会报错,它会给你一个**看似合理实则次优甚至危险**的解(比如急刹、或绕了不该绕的路)。整个专题的演进史,就是一部"如何在 PVD 失效的地方,把空间和时间重新捏回一起解"的历史。理解了这个起点,后面每一代方法的动机你都能自己推出来——它们都在回答同一个问题:"如何在保住实时性的前提下,把 PVD 丢掉的时空耦合赎回来?"

一个 cut-in 场景的完整走查:看 PVD 怎么"悄无声息"地给出坏解。 抽象的"强耦合失效"不够直观,走一遍具体场景:你在中间车道匀速行驶,右侧一辆车正以一定角度切入你的车道前方。PVD 会这样处理:

  1. 第一步(定路径,不管速度):路径规划器看当前静态快照,发现本车道前方暂时没有完全占据的障碍(切入车还在车道线上),于是规划出"保持车道直行"的路径。
  2. 第二步(在这条直行路径上排速度):速度规划器现在面对一个既成事实——路径已定为直行,而切入车即将占据前方。它唯一能做的就是**在直行路径上减速**,甚至急刹,来给切入车让出空间。

问题出在哪? PVD 的两步各自都"正确",但组合起来是坏解——因为**最优应对可能是"轻微左偏 + 维持速度"**(路径和速度协同微调),既不急刹也不被逼停。但 PVD 第一步定死直行路径时,把"左偏"这个选项**永久关闭**了;第二步只能在被关闭了选项的残局里挑最不坏的(急刹)。

PVD 的解 时空联合的解
路径 先定死直行 轻微左偏(与速度协同)
速度 被迫急刹 维持匀速
结果 顿挫、不舒适、可能追尾风险 平顺、安全
根因 第一步关闭了第二步需要的选项 路径速度同时定,不互相锁死

对比性思维(PVD 的失效本质是"过早承诺"):PVD 失效的根,不是"分了两步"本身,而是**"第一步在信息不足时就对路径做了不可撤销的承诺"。它在还没考虑速度(也就没考虑切入车的时序)时,就把路径定死了——这是一种"过早承诺"。时空联合的所有流派,本质都在**推迟这个承诺,直到把空间和时间一起考虑清楚再定。流派二(走廊)推迟到"圈出时空安全区后",流派三(连续优化)推迟到"联合优化收敛时",流派四(端到端)干脆不显式承诺、让网络隐式权衡。理解"过早承诺"这个失效机理,你就抓住了所有时空联合方法的共同动机——它们都是'反过早承诺'的设计。

§3.1bis 为什么偏偏是"时间"这一维如此特殊

读到这里可能会有一个疑问:避障问题里要协调的维度很多(横向、纵向、朝向…),为什么单单"时间"被拎出来、专门有一个"时空联合"专题,而没有"空间-朝向联合"专题?这个问题值得正面回答,因为它点出了时间维的独特性。

时间维的三个特殊之处:

  1. 时间是单向的、不可逆的。空间维度可以来回(左了可以右、前了可以后),但时间只能向前——这让"何时到某处"成为一种**硬约束**(动态障碍在 \(t_1\) 占据某格,你早到或晚到都行,但不能在 \(t_1\) 到)。这种单向性使时间约束的结构与空间约束根本不同。
  2. 时间把"静态避障"变成"时序会合/错开"问题。在纯空间里,避障是"别和障碍占同一个点";加入时间后,变成"别和障碍在同一时刻占同一个点"——你可以和障碍占同一个空间点,只要不同时。这是 SIPP"安全区间"思想的根基,也是时空规划比纯空间规划"多一个自由度"的来源(可以用时序错开换空间冲突)。
  3. 时间耦合了路径与速度这两个本来分属不同物理量的东西。横向和纵向都是"位置",本就同质、容易一起优化;但路径(几何)和速度(运动学)是异质的——PVD 正是利用这种异质性把它们拆开。时间维是**唯一同时牵动几何和运动学的维度**,所以"是否联合处理时间"成了规划范式的分水岭。

本质洞察(时间维是规划的"特殊维度"):这三点合起来解释了为什么"时空联合"配得上一个独立专题,而"空间各维联合"不配——因为时间维既是硬约束(单向不可逆)、又提供新自由度(时序错开)、还耦合异质物理量(几何×运动学)。 它不是众多空间维里普通的一维,而是一个**性质完全不同的维度**。这也是为什么把时间显式写进搜索状态(time-bounded lattice,§3.2 时代II 的开山)会被视为一个里程碑——它第一次正面对待了这个特殊维度,而非把它藏在速度剖面里当隐变量。理解时间维的特殊性,你就理解了整个专题为什么存在、以及它的名字为什么叫"时空联合"而非"多维联合"。

§3.2 脉络主线:四个时代的演进

把 1986–2026 的时空联合规划放在时间轴上,恰好分成四个时代,每个时代由一个核心矛盾驱动。下面这张脉络表是本节的骨架,随后逐时代展开。

时代 年份 核心矛盾 代表工作 突破点
I. 解耦时代 1986–2009 实时性 vs 联合性,选了实时性 PVD(1986)、Frenet(2010 前夜) 用分解换可解性
II. 显式时空时代 2009–2018 把时间升格为搜索/约束维度 ST-lattice(2009)、Frenet ST(2010)、SIPP(2011)、Apollo EM(2018) 时间不再藏在速度里,成为独立维度
III. 连续优化时代 2018–2022 把时间变成可优化的决策变量 MADER(2021)、EGO-Swarm(2021)、MINCO/GCOPTER(2022)、ST-RRT*(2022) 段时间 \(T_i\) 闭式可微,时空一次解
IV. 学习生成时代 2022–2026 用离线训练绕开在线实时性瓶颈 Diffuser(2022)、UniAD(2023)、Diffusion Policy(2023)、PLUTO(2024)、Diffusion Planner(2025) 网络直接吐时空轨迹,联合"不再是问题"

时代 I(1986–2009)解耦时代——用分解换可解性。 这个时代的主旋律是"承认时空联合太难,先分而治之"。PVD(1986)是奠基,随后 Frenet 坐标系(在 Werling 2010 集大成)提供了结构化道路上做解耦的标准语言——把笛卡尔坐标换成沿参考线的 \((s, l)\),让路径规划(SL 图)和速度规划(ST 图)各有清晰的低维舞台。这个时代的成就是把规划"做实时了",代价是把时空耦合"丢掉了"。 它不是错误,而是算力受限年代的理性妥协——也是后面三个时代要逐步偿还的"技术债"。

时代 II(2009–2018)显式时空时代——时间升格为独立维度。 转折点是 Kushleyev & Likhachev 2009 的 time-bounded lattice:首次把时间 \(t\) 显式写进搜索状态,在 \((x, t)\) 空间里搜索,用"时间窗外退化为 2D"缓解组合爆炸。这是脉络上第一次**正面承认时间是一个搜索维度**,而非藏在速度剖面里的隐变量。随后两条线并进:

  • 搜索线:Phillips & Likhachev 2011 的 SIPP(Safe Interval Path Planning) 是这个时代最关键的加速器——它不把时间离散成一格一格(那会让节点数爆炸),而是把每个格子的时间轴压缩成若干"安全区间",搜索状态变成 \((\text{格子}, \text{安全区间})\)。SIPP 至今仍是 ST-A* 的工业级底座,在 MAPF(多机)和 MoveIt 动态避障里长期流通——这是一个跨专题复用的典型例子(§7 详述)。
  • 工程线:百度 Apollo 在 2017–2018 把 Path-Time(ST)图 + 动态规划(DP)+ 二次规划(QP)工程化为 EM Planner,成为 L4 自动驾驶 ST 规划的代表栈。它的"半联合"(Path↔Speed 的 EM 迭代)是时代 I 解耦和时代 III 完全联合之间的过渡形态。

对比性思维(时代 II 的两条线:搜索 vs 工程):SIPP 走的是"学术上把时间维压缩得最优雅"的路,Apollo EM 走的是"工业上把解耦做到可量产"的路。二者看似无关,实则是同一个矛盾的两种答案——都在问"如何在引入时间维后还能实时"。SIPP 用安全区间压缩状态空间,Apollo 用 EM 迭代避免一次性解联合问题。这种"学术求优雅、工业求可靠"的双线并进,是本方向几乎每个专题都会重演的模式。

时代 III(2018–2022)连续优化时代——时间成为可优化的决策变量。 这是机器人侧(尤其无人机)的爆发期,核心突破是**把段时间 \(T_i\) 本身当成优化变量**,让空间形状与时间分配在同一个优化问题里联合求解。三个里程碑:

  • MINCO / GCOPTER(Wang Zhepei et al., T-RO 2022):用"航点 + 段时间"的稀疏参数化表示轨迹,关键创新是空间梯度和时间梯度都能**闭式求导**——这让"时间分配"从过去的外层启发式搜索,变成了和空间一起做梯度下降的内层变量。这是"完全联合"最干净的实现,也是无人机轨迹生成的当代标杆。
  • MADER(Tordesillas & How, T-RO 2021):面向多无人机 + 动态障碍,用 Bernstein 基 + 凸分解 + 异步协商,把多机时空规划做成 MIQP。
  • EGO-Swarm(Zhou et al., RA-L 2021):去中心化、ESDF-free 的梯度规划 + 多机时空共识,把单机的梯度规划扩展到 swarm。
  • ST-RRT*(Grothe et al., ICRA 2022):把时间最优采样规划并入 OMPL,让采样类方法也能原生处理 space-time。

这个时代偿还了时代 I 的大部分技术债——时空耦合被"完全联合"赎回来了。但它撞上了一堵新墙:非凸性 vs 实时性。完整时空轨迹优化通常非凸,求解慢、对初值敏感、可能陷局部最优。各方法(MINCO 的闭式梯度、CILQR 的二次近似、TEB 的稀疏结构)本质都在"想办法让这个非凸问题解得快一点"——但它们都没能跳出"在线求解"这个根本约束。

时代 IV(2022–2026)学习生成时代——离线训练绕开在线瓶颈。 最新的一代做了一件前三代都没敢做的事:不在线求解了,改成离线训练 + 在线前向。神经网络从数据直接学出"观测 → 时空轨迹"的映射,输出带时间戳的点序列 \((x_t, y_t)\),路径和速度信息浑然一体——"时空联合"在这里甚至不再是一个需要单独处理的问题,因为网络直接吐出完整轨迹。脉络上的关键工作:

  • Diffuser(Janner et al., ICML 2022):开山之作,把轨迹优化折进扩散模型,迭代降噪整条轨迹,classifier-guided 采样重新诠释为 planning。
  • UniAD(Hu et al., CVPR 2023 Best Paper):模块化端到端,query 贯通感知-预测-规划,规划头直接输出轨迹。
  • Diffusion Policy(Chi et al., RSS 2023):视觉运动 BC 作为条件扩散 over action sequences,机器人操作侧的标杆。
  • PLUTO(2024)、Diffusion Planner(Zheng et al., ICLR 2025 Oral):自驾侧的扩散/模仿规划,把多模态(路口"抢行 vs 让行"两个都合理的解)天然表达出来。

本质洞察(时代 IV 是时代 I 的"算力平反"):这是整条脉络最深刻的一个反转。时代 IV 在数学上回到了时代 I 一开始就放弃的"完整轨迹直接生成"——只不过用神经网络的离线训练,换掉了在线求解的算力瓶颈。 PVD(时代 I)当年放弃完整联合,是因为在线算不动;连续优化(时代 III)把联合赎回来了,但仍卡在在线实时性;学习生成(时代 IV)把计算负担整体挪到离线,在线只做轻量前向,于是"既快又联合"。回看 §2 的轴5(计算负担位置)——整条脉络的本质,是"计算负担从在线向离线持续转移"的历史。 这也预示了未来:谁能把更多计算前置到离线、在线只留推理,谁就能在"联合程度"和"实时性"上同时取胜。但时代 IV 也带回了一个时代 I–III 从未有过的新问题——黑箱不可验证(§8.3)。

§3.3 一张脉络全景图:四时代如何沿"联合程度"和"计算负担"两轴移动

把四个时代同时投影到 §2 的两条关键轴上,能看出演进的方向性:

计算负担位置
  几乎全离线 │                                    ◄ 时代IV 学习生成
            │                                      (UniAD/Diffusion)
   部分离线  │                  ◄ 时代III 连续优化
            │                    (MINCO/MADER)
            │       ◄ 时代II 显式时空
   全在线   │ ◄时代I  (ST-lattice/SIPP/Apollo)
            │ 解耦
            └──────────────────────────────────────► 时空联合程度
              完全解耦   半联合   联合搜索  完全联合  天然联合

这张图揭示了一个清晰的趋势:四个时代沿对角线从左下(解耦 + 在线)走向右上(天然联合 + 离线)。每一代都同时在两个维度上往右上挪一点——联合程度更高、计算更多地前置到离线。

对比性思维(演进不是"新的取代旧的"):看这张图最容易犯的错,是以为右上角(学习生成)取代了左下角(解耦)。事实恰恰相反——四个时代的方法今天全都在用,而且常常在同一个系统里协同。 工业自动驾驶的现实架构是"时代 IV 生成候选 + 时代 I–III 兜底验证":让端到端网络出有创意的候选轨迹,再用解耦/优化/搜索这些**可验证**的经典方法做安全把关。为什么?因为右上角的黑箱性质让它**不敢单独上车**(§8.3)。演进给了我们更强的工具,但没有废弃任何旧工具——它只是让工具箱更丰富,让"在管线哪一环用哪代方法"的选型更讲究。

§3.4 代表性论文脉络表:把演进钉在具体工作上

脉络(§3.2)讲的是"逻辑演进",但综述还需要把这条逻辑**钉在具体的、可查证的论文上**——这样读者能按图索骥去读原始工作。下表按时代列出时空联合规划的里程碑论文,标注它在脉络上的"角色"(开山/加速器/工程化/桥接/SOTA),并用一句话说清"它把脉络往前推了哪一步"。

年份 论文 / 工作 载体 脉络角色 把脉络往前推了哪一步
1986 PVD(Kant & Zucker) IJRR 反面起点 确立"先路径后速度"的解耦地基(后三代要偿还的债)
2009 Time-bounded Lattice(Kushleyev & Likhachev) ICRA 开山 首次把时间显式写进搜索状态,时间从"速度的隐变量"升格为"独立维度"
2010 Frenet Frame Planner(Werling et al.) ICRA 标准语言 把高速驾驶建模为 (s,d,t) 联合采样,给结构化道路一套标准坐标语言
2011 SIPP(Phillips & Likhachev) ICRA 加速器 用安全区间压缩时间维,让时空搜索从"逐时刻爆炸"变为工业可用
2017–18 Apollo EM Planner(Fan et al.) arXiv 工程化 把 ST 图 + DP + QP 工程化为量产栈,确立"半联合 EM 迭代"过渡形态
2021 MADER(Tordesillas & How) T-RO 多机扩展 Bernstein + 凸分解 + 异步协商,多无人机 + 动态障碍的 MIQP
2021 EGO-Swarm(Zhou et al.) RA-L 去中心化 ESDF-free 梯度规划 + swarm 时空共识,去中心化集群
2022 MINCO / GCOPTER(Wang et al.) T-RO 范式标杆 段时间闭式可微,把"时间分配"从外层搜索变成内层梯度变量——完全联合最干净的实现
2022 ST-RRT*(Grothe et al.) ICRA 采样补全 时间最优采样规划并入 OMPL,让采样类也原生处理 space-time
2022 Diffuser(Janner et al.) ICML 学习开山 把轨迹优化折进扩散模型,开启"用生成模型直接吐轨迹"的时代 IV
2023 UniAD(Hu et al.) CVPR Best 端到端标杆 query 贯通感知-预测-规划的模块化端到端,规划头直接输出时空轨迹
2023 Diffusion Policy(Chi et al.) RSS 操作侧标杆 条件扩散 over action sequences,机器人操作侧的天然多模态生成
2024–25 PLUTO / Diffusion Planner arXiv / ICLR SOTA 自驾侧扩散/模仿规划,把多模态决策(抢行 vs 让行)做成可学习的分布

本质洞察(论文脉络表的读法:看"角色"而非"年份"):这张表最有价值的列不是"年份",而是"脉络角色"。一个领域的论文可以按角色分成几个固定类型——开山(开新方向)、加速器(让方向工程可用)、工程化(落地量产)、桥接/补全(连接两条线)、标杆/SOTA(确立新范式上限)。 读综述时,识别一篇论文的"角色"比记住它的年份重要得多:开山之作教你"为什么这个方向存在",加速器教你"它如何变得实用",标杆教你"当前能力上限在哪"。当你能给任意一篇新论文判定角色,你就能立刻把它插进脉络的正确位置——这又是综述训练的元能力(呼应 §5.2 卡片库洞察、§8.6 开放问题落点)。

§3.5 跨形态迁移:同一套时空脉络在五大机器人形态上的落地差异

时空联合规划是**横切方法论**——同一套脉络要落到无人机、地面车、机械臂、四足、人形/复合体五种形态上。但落地难度和形态特性差异极大。这一节做一次横向迁移对比,回答"为什么本方向推荐'无人机 → 自动驾驶 → 机械臂 → 四足/人形'的难度递进"。

形态 时空规划相关度 为什么这个难度 典型方法
无人机 / swarm ★★★★★ 微分平坦让时空参数化最干净——整条轨迹由平坦输出代数表达,MINCO 闭式梯度直接可用 EGO-Swarm、MADER、GCOPTER
自动驾驶(基线) ★★★★ 结构化道路 + Frenet 坐标让 (s,l,t) 解耦/联合都有成熟工业代码 Apollo EM、Frenet ST、EPSILON
机械臂(动态避障) ★★★★ 高维构型空间 + 动态障碍,采样类(SIPP-RRT)友好但维度灾难压力大 Safe Interval RRT*、SIPP-MoveIt
四足 / 人形 ★★★ 步态本身就是接触序列 + 时序相位——时空联合隐含在接触调度里,但混合动力学(连续 + 离散接触切换)极难 TOWR、Crocoddyl(本质是 ST 联合优化)
Loco-manipulation(复合体) ★★★★ 移动基座 × 末端接触切换 × 物体动态,天然 ST + hybrid,维度与耦合最复杂 移动操作的时空 + 混合规划

对比性思维(为什么从无人机入手最划算):把这张表按"相关度"和"难度"交叉看,会发现一个反直觉的推荐顺序——相关度最高(★★★★★)的无人机反而是入门最佳,因为微分平坦让它的时空参数化最干净、最不受形态细节干扰。 四足/人形相关度看似低一档(★★★),实则更难——它的时空联合藏在"接触序列调度"这个混合动力学问题里,初学者很难一眼看出"步态规划本质就是时空联合优化"。所以本方向的难度递进不是按相关度排,而是按"时空联合在这个形态上有多直观可见"排:无人机最直观(一条平滑轨迹),自驾次之(ST 图可视化),机械臂再次(高维但仍是轨迹),四足/人形最隐晦(藏在接触里)。这解释了 §1.2 为什么选无人机做完整应用实例——它是观察"时空联合"最清澈的窗口。

本质洞察(横切方法论的"形态不变量"与"形态差异量"):跨五种形态看时空规划,能分离出两层东西——形态不变量(无论什么机器人,"时间是一个需要和空间一起决定的维度"这个核心思想不变,§3.1 的 PVD 失效逻辑普适);形态差异量(时空联合在不同形态上"长什么样"差异巨大——无人机是平滑轨迹、四足是接触序列、复合体是混合动力学)。学一个横切专题的正确姿势,是先抓住形态不变量(这是专题的灵魂,跨形态复用),再针对你的目标形态学差异量(这是落地的细节)。 抓反了——只学某一形态的细节而没抓住不变量——你换个形态就得重学;抓住了不变量,换形态只需补差异量。这是本方向"横切专题 + 应用实例"双层架构的认知红利。

§3.6 脉络的暗面:哪些路被走过又被淘汰了

一条完整的脉络,不只包含"成功活下来的方法",还应包含"试过但被淘汰/边缘化的路"——因为**理解为什么某条路走不通,和理解为什么某条路走得通同样重要**。这些"暗面"往往不写进教科书,但对避免重复踩坑极有价值。

被淘汰/边缘化的路 曾经的想法 为什么走不通/边缘化 留下的教训
朴素时间离散搜索 把时间按固定步长离散成网格,直接 A* 节点数随时间步长爆炸(一个格子变几百个时空节点) 催生了 SIPP 的"安全区间"压缩——别硬离散连续维
纯人工势场做动态避障 用斥力场实时推开障碍 局部极小、震荡、无法保证可行性 势场只配做辅助,不配做主规划器
全局重规划每帧从零算 每帧都把整条轨迹从头优化 算力浪费 + 帧间不连贯(抖动) 催生了 warm-start / 增量优化——复用上一帧的解
追求"一个求解器解所有场景" 一个万能优化器通吃高速/泊车/竞速 不同场景的最优结构差异太大,万能=都不精 催生了场景化 FSM(Apollo scenario manager)——分场景用专门方法
纯端到端"传感器→控制"(早期) 一个网络从像素直接出方向盘 不可验证 + 数据效率低 + 不可调试 催生了"模块化端到端"(UniAD)——保留可解释的中间表示

本质洞察(淘汰史是另一种脉络):这张"暗面表"和 §3.2 的"成功脉络"是同一段历史的两面——每一个被淘汰的方法,几乎都催生了一个成功的方法:朴素时间离散的爆炸催生了 SIPP,全局重规划的浪费催生了 warm-start,纯端到端的不可调试催生了模块化端到端。这揭示了技术演进的一个深层规律:成功的方法往往不是凭空设计的,而是'对某个失败的精确反应'。 所以读综述时,遇到一个看似"理所当然"的设计(如 SIPP 为什么用安全区间),别只记住它怎么做,要去问"它在反对什么失败"——找到那个被它替代的失败,你才真正理解它的设计动机。淘汰史不是历史垃圾,而是理解成功方法的钥匙。 这也是为什么本方向反复强调"先动机后理论"(R5)——动机往往就藏在某个被淘汰的前驱里。


四、四大流派分化:同一座山的四条水系

脉络(§3)是按时间纵向看演进。这一节横向切——把今天**并存**的方法按"怎么处理时空耦合"归成四大流派,逐一剖析其核心思想、换来了什么、付出了什么。这四大流派恰好对应 §3 脉络里沉淀下来、至今仍在用的四种范式,也精确分布在 §2 轴1(时空联合程度)的四个区段上。

本质洞察(流派 vs 脉络的区别):脉络回答"先有谁后有谁",流派回答"今天有哪几类、怎么选"。一个领域成熟的标志,就是早期的"时间先后"沉淀成了稳定的"并存流派"——后来者不再废黜前辈,而是各占生态位。读综述时,脉络给你历史感(理解动机),流派给你决策框架(指导选型)。 二者缺一不可。

四流派一览(详展见 §4.1–§4.4,这里先给一张定位锚):

流派 联合程度(轴1) 核心机制 一句话灵魂 代表
一 解耦迭代 半联合 先路径后速度 + EM 迭代补偿 假装能分离,再迭代修正 Apollo EM
二 走廊+QP 联合搜+优 在 (s,l,t) 圈凸走廊再 QP 在联合空间圈出安全地带 SSC/EPSILON
三 连续优化 完全联合 时间作决策变量一次解 时间是变量,联合到底 MINCO/TEB/OBCA
四 端到端 天然联合 网络直接吐时空轨迹 不建模,从数据学联合 UniAD/Diffusion

这四行沿 §2 轴1 从上到下单调递进——这不是巧合,而是 §3 脉络"补洞链"(§4.6)沉淀的结果。下面逐流派深挖。

§4.1 流派一:解耦迭代(PVD + EM)——半联合

核心思想。 坚持 PVD 的"先路径后速度"分解,但用 **EM 迭代**补偿耦合损失:Path 优化和 Speed 优化交替进行、互相用对方的最新结果更新自己的约束,多轮迭代后两者趋于一致。代表是 Apollo EM Planner。

时空联合程度:半联合。 联合不是在一次求解里完成,而是通过 Path↔Speed 的**迭代**逐步逼近。每一轮内部仍是解耦的(固定一个优另一个),只是多轮后收敛。比纯 PVD 强(不止一轮),比一次性联合弱(仍分步)。

换来 / 付出: - 换来:实时性 + 工程可靠性。每个子问题是凸的(或近凸),可用成熟 QP(OSQP)毫秒级求解,SL/ST 两图可分别可视化、分别调参——工业系统敢用、好调。 - 付出:强耦合场景失效。城市路口需同时定"绕行还是直行"和"加速还是减速",分步迭代可能收敛到次优,甚至来回震荡。EM 迭代是给这个赌注上的"保险",但保险不万能——迭代次数有限、每轮仍解耦。

§4.2 流派二:走廊 + QP——联合搜索 + 联合优化

核心思想。 不先定路径,而是直接在 \((s, l, t)\) 三维联合空间里,把"安全可通行区域"表示为一串**凸多面体(cube)序列**——这就是时空走廊(spatio-temporal corridor)。先用搜索(ST 图 DP / 时空 A*)找走廊骨架,再在走廊约束内用 QP 优化平滑轨迹。代表是 HKUST 的 SSC(Spatio-temporal Semantic Corridor)和建于其上的 EPSILON。

时空联合程度:联合搜索 + 联合优化。 关键跃迁是——安全区域本身就定义在时空联合空间里。每个 cube 同时约束空间位置 \((s, l)\) 和时间 \(t\):"在 \(t_1\)\(t_2\) 这段时间,车必须待在这个空间立方体内"。动态障碍被表示为时空里的"禁入区",走廊自动绕开。路径和速度被走廊几何同时约束,不再分两步。

换来 / 付出: - 换来:对动态交互的自然处理。横穿车流、切入车辆这类需"时空配合"的场景,走廊直接表达"何时该在哪",比 EM 迭代更直接、不易震荡。 - 付出:走廊生成的复杂度。如何从 ST 图/语义生成一串"既安全又不过度保守"的凸走廊本身有难度——太窄过保守(错过可行解),太宽含不安全区。

对比性思维(流派二 vs 流派一):流派一是"先选一条路,再看这条路上时间怎么安排";流派二是"先圈出所有时空上安全的区域,再在里面找轨迹"。前者像"先订好路线再看红绿灯",后者像"先看清整个路口的时空通行规则,再规划怎么穿过"。后者天然适合动态交互,因为它从一开始就把时间当作约束的一部分,而非事后补上的第二步。 这也是为什么城市强交互场景(HKUST EPSILON 主打)偏爱走廊而非纯 EM 迭代。

§4.3 流派三:连续优化——完全联合

核心思想。 把**时间直接作为优化变量**,在完整状态空间 \((x, y, \theta, v, t)\) 里一次性求解整条时空轨迹,没有任何分解。代表方法谱系很广: - CILQR(约束迭代 LQR):把问题转成一串 LQR 子问题,自驾局部规划主流; - TEB(Timed-Elastic-Band):把轨迹建模成带时间戳的弹性带,用 g2o 稀疏图优化,ROS 导航生态标配; - OBCA(Optimization-Based Collision Avoidance):把碰撞约束对偶化为可微形式,专攻泊车等紧凑场景; - MINCO / GCOPTER:最小控制量参数化 + 时间分配闭式优化,无人机轨迹生成当代主力。

时空联合程度:完全联合。 空间、速度、时间在同一优化问题里同时决定。时间可固定(MPC 的固定 horizon)也可优化(MINCO 的时间分配、CPC 的时间最优)。这是"时空联合"最纯粹的形态。

换来 / 付出: - 换来:最优性 + 灵活性。一次性优化能找到全局协调的轨迹,约束(动力学、碰撞、舒适)可精确表达。竞速(CPC 时间最优)、泊车(OBCA 紧凑空间)这类对轨迹质量要求极高的场景,必须用连续优化。 - 付出:非凸性 vs 实时性的矛盾。完整时空轨迹优化通常非凸,求解慢、可能局部最优、对初值敏感。这正是流派一当年要用 PVD 妥协的根源——连续优化数学最干净,但计算最吃力。各方法(CILQR 二次近似、TEB 稀疏结构、MINCO 闭式梯度)本质都在"让这个非凸问题解快一点"。

本质洞察(流派三是流派一的"理想反面"):流派一(解耦)和流派三(连续优化)是同一个问题的两极——解耦为了实时性牺牲了联合性,连续优化为了联合性牺牲了实时性。 中间的流派二(走廊)是折中(搜索缩小范围 + QP 保证凸性)。理解这个"实时性 vs 联合性"的根本权衡,就理解了三大流派为什么这样分布——它们是同一条权衡曲线上的三个取点。而流派四(学习生成)的出现,正是因为有人想跳出这条曲线本身。

§4.4 流派四:端到端生成——天然联合

核心思想。 让神经网络从数据直接学"观测 → 时空轨迹"的映射,输出带时间戳的点序列 \((x_t, y_t)\),完全绕过显式的路径/速度/代价建模。代表是 UniAD(模块化端到端,query 贯通感知-预测-规划)和 Diffusion Planner(扩散式,把轨迹生成建模为去噪过程)。

时空联合程度:天然联合。 网络输出的就是带时间戳的轨迹点序列,路径和速度浑然一体、从未分开。这不是"联合求解",而是"联合根本不是一个需要单独处理的问题"。

换来 / 付出: - 换来:信息保真 + 目标一致 + 多模态。绕过人为接口(检测框、代价函数)避免信息损失;端到端优化最终目标(把车开好)而非中间指标;扩散等生成模型天然表达多模态(路口"抢行 vs 让行"两个都合理)。 - 付出:可解释性与可验证性。神经网络是黑盒,无法形式化证明"绝不撞"——这是它至今难大规模量产的核心障碍。工业界的务实答案是"生成-验证":网络生成候选 + 经典栈(流派一/二/三)做安全兜底。

对比性思维(流派四 vs 前三流派:性质差异而非程度差异):前三种流派都是"人告诉机器怎么算"(设计代价、约束、求解器),第四种是"机器从数据学怎么算"。这不是程度差异,是性质差异。 前三种的能力上限由工程师的设计水平决定,第四种由数据规模决定。长期看数据驱动可能跑赢人工设计——但前提是解决可验证性。所以流派四不是前三者的"替代者",而是"上游创意引擎 + 经典栈兜底"混合架构里的一半。

§4.5 四流派的统一视角:三个棱镜看同一组方法

把四大流派放在一起,沿 §2 轴1 看到的是"时空联合程度单调增强"。但同一组流派从不同棱镜看,会显出不同纹理——多棱镜交叉印证,才能真正看透它们的关系。

棱镜 四流派呈现的规律 这个棱镜解释了什么
计算棱镜(轴5) 计算负担从在线向离线转移 为什么流派四能"又快又联合"——它把难的部分挪到了离线
信息棱镜 信息损失逐步减少 为什么流派四在复杂场景潜力大——它丢的信息最少(连代价函数都不要了)
工程棱镜 可验证性逐步丧失 为什么工业界对流派四又爱又怕——它最强,但赌不起安全

多视角的价值(本质洞察):同一组流派,计算棱镜看到"算力转移"、信息棱镜看到"损失减少"、工程棱镜看到"可控性丧失"——三个棱镜指向同一个权衡的不同侧面:能力越强(信息损失越少),可控性越差(可验证性越低),代价是把计算押到了离线。 这不是三个独立现象,而是同一枚硬币的三面。看懂这一点,你对"为什么不能简单地说流派四比流派一好"就有了立体理解——它们在不同棱镜下各有胜负。这也是综述区别于教程的标志:教程教你每个流派怎么用,综述教你用多个棱镜同时审视它们的取舍。

§4.6 流派演进的内在逻辑:每一派都是在补前一派的"洞"

把四大流派按时空联合程度排成一条线后,会发现它们不是随机散布的,而是一条**"补洞链"**——每一派的诞生,都是为了补前一派留下的某个具体的洞。理解这条补洞逻辑,比单独记住四个流派的特性更深一层。

流派一 解耦迭代
   洞:强耦合场景失效(分步丢耦合信息)
   ↓ 补洞 →
流派二 走廊+QP
   补了什么:在联合空间圈安全区,强耦合下不再分步
   新洞:走廊生成保守、依赖障碍轨迹已知、时间仍受走廊形状约束
   ↓ 补洞 →
流派三 连续优化
   补了什么:时间成为完整决策变量,约束精确,最优性可证
   新洞:非凸→慢、挑初值、实时性差、仍需人工设计代价
   ↓ 补洞 →
流派四 端到端生成
   补了什么:离线训练绕开在线实时性,连代价函数都不用设计
   新洞:黑箱不可验证、分布外脆弱——这个洞至今没补上(§8.2)

这条补洞链揭示了三件事:

  1. 演进有方向性,不是随机试错。 每一派都精确瞄准前一派最痛的那个洞——流派二瞄准解耦的"强耦合失效",流派三瞄准走廊的"时间受限/保守",流派四瞄准连续优化的"在线慢"。方法演进是**问题驱动**的,不是技术炫技。
  2. 补洞总是引入新洞,没有终极方法。 流派四补上了"在线慢",却挖出了"黑箱不可验证"这个更难的洞——而且这个洞至今没人补上(这正是 §8.2 的开放问题)。这暗示:方法演进可能永远在补洞,而非走向某个完美终点。
  3. 新洞往往比旧洞更难。 旧洞(强耦合失效、非凸慢)是"工程难题",有渐进的解法;流派四的新洞(可验证性)是"原理难题",可能需要范式级突破才能补上。演进不是单调变好,而是把问题推向越来越根本的层次。

本质洞察(补洞链与"债务转移"是同一回事的两种说法):§3.2 说演进是"计算负担从在线向离线转移",这里说演进是"补洞链"——二者是同一过程的两个视角。 流派一欠下的"耦合债"(§3.1),流派二/三逐步偿还(补洞),但流派三偿还耦合债时又借了"实时性债"(非凸慢),流派四用"离线训练"还掉实时债、却借了"可验证性债"。债从来没有被消灭,只是从一种形式转成另一种形式、从一个地方挪到另一个地方。 这个"债务永不消失、只会转移"的规律,是理解本方向(乃至整个工程领域)演进的一把万能钥匙——它在 §8.1(实时vs联合的张力只能转移不能消灭)里会再次出现。真正的工程智慧,不是幻想还清所有债,而是判断'当前应用最能承受哪种债',然后把债转移到那里。

§4.7 同一场景,四流派各怎么做:一次正面对决

最能看清四流派差异的方式,是把它们放进**同一个场景**,看各自怎么处理。沿用 §3.1 的 cut-in 场景(右侧车切入你的前方),逐流派走查它们的应对,这是最直接的"对比综合"。

流派 怎么处理 cut-in 产出 这个产出暴露了什么
一 解耦迭代 第一轮定直行路径、排速度(被迫减速);EM 迭代后路径微调、速度再调,多轮逼近 减速为主 + 路径小幅修正 迭代能部分补偿,但起点是"先定死路径",修正有限
二 走廊+QP 把切入车建成 (s,l,t) 时空禁入区,构造绕开它的时空走廊,QP 在走廊内求解 左偏 + 维持速度(走廊自然引导) 时空走廊天然表达"何时该在哪",强耦合处理直接
三 连续优化 把路径、速度、时间放进一个 NLP,碰撞约束含切入车轨迹,一次联合求解 全局协调的最优轨迹(左偏 + 速度微调) 最优但需好初值;非凸求解慢
四 端到端 网络见过海量类似 cut-in 数据,直接吐出一条(或多条候选)应对轨迹 多模态候选(让行/超越/绕行各一条) 多模态天然,但为何这样吐说不清(黑箱)

把四个产出并排看,差异一目了然:

  • 流派一的解**最保守**(减速为主),因为它的起点是过早承诺路径;
  • 流派二/三的解**质量更高**(左偏 + 维持速度),因为它们正面联合处理时空;
  • 流派四的解**最丰富**(多模态候选),但**最不可解释**(说不清为什么)。

本质洞察(正面对决揭示的"能力-代价"对应):这次对决把抽象的流派差异钉死在一个具体产出上——你能清楚看到"更联合"换来了"更优的解"(流派一的减速 → 流派二/三的左偏维速),而"学习化"换来了"多模态"但丢了"可解释"(流派四的候选丰富但黑箱)。 这正是 §5.1 优劣矩阵每一行的微观来源——矩阵里"强耦合场景能力"流派一两星、流派二/三四星,对应的就是这里"减速 vs 左偏维速"的产出差;"多模态表达"流派四五星,对应的就是这里"多条候选"。当你能把一张优劣矩阵还原成一个具体场景里的不同产出,你就真正理解了这张矩阵——它不再是抽象评分,而是一组可预期的、看得见的行为差异。 这是综述对比综合的最高境界:让抽象的对比,落地成具体的、可验证的行为预期。


五、优劣矩阵与代表方法卡片

§4 定性地比了四大流派。这一节给出**定量的优劣矩阵**——把四大流派(及其代表方法)摆在一组评分维度上打分,再为最值得记住的几个方法做"标准化卡片"。这是综述里"对比综合"最浓缩的产物,也是 §6 选型决策的直接依据。

§5.1 四流派优劣矩阵

评分维度选 §2 五轴里对选型最关键的几条,外加工程现实最关心的"生态成熟度"和"实时性"。评分用相对刻度(⭐ 越多越强 / 越满足),不是绝对值——综述的对比矩阵,重在**横向相对关系**而非精确数字。

维度 流派 流派一 解耦迭代 流派二 走廊+QP 流派三 连续优化 流派四 端到端
时空联合程度 ⭐⭐(半联合) ⭐⭐⭐⭐(联合搜+优) ⭐⭐⭐⭐⭐(完全) ⭐⭐⭐⭐⭐(天然)
强耦合场景能力 ⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
实时性(在线) ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐(非凸慢) ⭐⭐⭐⭐⭐(前向快)
最优性保证 ⭐⭐(迭代次优) ⭐⭐⭐(走廊内最优) ⭐⭐⭐⭐(局部最优可证) ⭐(无保证)
可验证性 / 可解释 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐(黑箱)
多模态表达 ⭐⭐(需显式枚举) ⭐⭐⭐(同伦类枚举) ⭐⭐(单解为主) ⭐⭐⭐⭐⭐(天然)
C++ 生态成熟度 ⭐⭐⭐⭐⭐(Apollo) ⭐⭐⭐⭐(SSC/SIPP) ⭐⭐⭐⭐(GCOPTER/TEB/acados) ⭐(PyTorch 为主)
对初值敏感度(越少星越敏感) ⭐⭐⭐⭐(鲁棒) ⭐⭐⭐⭐ ⭐⭐(敏感,需 warm-start) ⭐⭐⭐(端到端无初值概念)
调试 / 落地友好度 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐(难调、难定位失败)

怎么读这张矩阵? 三个关键观察:

  1. 没有一行全是五星——没有"最好的流派",只有"最适合某场景的流派"。 流派四在联合程度、多模态、实时性上碾压,却在可验证性、生态成熟度上垫底;流派一反之。这正是 §4.5"同一枚硬币三面"的量化体现。
  2. "实时性"和"可验证性"两行,流派一和流派四同时高/低,对角呼应。 流派一靠"分步求解凸子问题"既快又可验证;流派四靠"离线训练 + 在线前向"快,但黑箱不可验证。它们的快是两种完全不同的快——一个是"问题简单所以快",一个是"算力前置所以快"。
  3. "C++ 生态成熟度"这一行与"时空联合程度"几乎反相关——再次印证 §1.3 的反直觉规律:越前沿越不成熟。

本质洞察(优劣矩阵的正确用法):初学者拿到这种矩阵,容易去数"谁的星星总数最多"——这是误用。 矩阵的价值不在"总分排名",而在**让你看清每个流派的"强项-弱项配对":流派一是"可靠但不够联合",流派三是"最优但慢且挑初值",流派四是"最强但黑箱"。**选型不是选总分最高的,而是选"强项命中你的硬需求、弱项落在你能容忍的地方"的那个。 比如车规量产的硬需求是可验证性——那一刻流派四的满天五星瞬间归零,因为它的弱项(黑箱)落在了你绝不能容忍的地方。这就是 §6 决策树的底层逻辑。

§5.2 代表方法卡片(标准化速查)

为本专题最值得记住的方法各做一张标准化卡片——这是综述的"长期参考资产",做选型或回忆时直接查。每张卡片统一字段:所属流派 / 求解范式(§2 轴2)/ 一句话核心 / 最适场景 / 最大软肋 / C++ 抓手

卡片 1 · Apollo EM Planner - 流派:一(解耦迭代)|范式:优化(DP + QP 迭代) - 核心:SL 图定路径、ST 图排速度,Path↔Speed EM 迭代补偿耦合 - 最适:高速结构化道路、需工业级可靠性与可调试性 - 软肋:城市强耦合场景次优/震荡 - C++:ApolloAuto/apollo modules/planning(Apache-2.0,~26k⭐)——全专题最值得精读的工业 C++

卡片 2 · SIPP(Safe Interval Path Planning) - 流派:二(时空搜索)|范式:搜索(A* 变体) - 核心:把每格时间轴压成"安全区间",状态 = (格子, 安全区间),避免逐时刻离散的节点爆炸 - 最适:动态障碍下的栅格/lattice 时空搜索、做前端初解、MAPF 低层 - 软肋:依赖障碍轨迹已知/可预测;连续动力学需额外处理 - C++:libMultiRobotPlanning(MIT,含 SIPP/CBS/ECBS);MoveIt 动态避障插件

卡片 3 · SSC / EPSILON - 流派:二(走廊+QP)|范式:搜索 + 优化 - 核心:在 (s,l,t) 构造语义时空走廊(凸 cube 序列),把非凸避障转成凸 QP;EPSILON 在其上加 EUDM 行为分支 - 最适:城市动态交互(cut-in、横穿、抢行让行) - 软肋:走廊生成的"保守 vs 激进"难平衡;分支数受算力限 - C++:HKUST-Aerial-Robotics/EPSILON(MIT,~677⭐,纯 C++/ROS)——城市交互的唯一生产级 C++ 抓手

卡片 4 · MINCO / GCOPTER - 流派:三(连续优化)|范式:优化(无约束梯度 + 时间变量) - 核心:航点 + 段时间稀疏参数化,空间与时间梯度**闭式可微**,时空一次联合优化 - 最适:无人机轨迹生成、对轨迹质量/平滑度要求高、需在线重规划 - 软肋:非凸需好初值(前端搜索 warm-start);约束以走廊形式引入 - C++:ZJU-FAST-Lab/GCOPTER(MIT,~1.2k⭐,header-only)——现代时空优化教科书代码

卡片 5 · TEB(Timed-Elastic-Band) - 流派:三(连续优化)|范式:优化(g2o 稀疏图) - 核心:轨迹 = 带时间戳的位姿序列(弹性带),时间间隔是优化变量,超图稀疏优化 - 最适:地面移动机器人局部规划、ROS Nav 生态、中低速动态避障 - 软肋:局部最优、多模态需并行多带;高速/高动态偏弱 - C++:teb_local_planner(BSD,ROS/ROS2 官方导航插件)

卡片 6 · OBCA(Optimization-Based Collision Avoidance) - 流派:三(连续优化)|范式:优化(对偶化碰撞约束 NLP) - 核心:把"凸物体不重叠"对偶化为光滑可微约束,配 Hybrid A* warm-start - 最适:泊车、开放空间、紧凑低速、需精确避障的场景 - 软肋:高维/高速实时性差;依赖 warm-start 质量 - C++:XiaojingGeorgeZhang/H-OBCA、Apollo open_space 模块

卡片 7 · MADER / EGO-Swarm - 流派:三(连续优化)+ 多机扩展|范式:优化(MADER: MIQP;EGO: 梯度) - 核心:单机时空轨迹优化 + 多机互斥约束 + 去中心化异步协商 - 最适:多无人机 + 动态障碍、去中心化集群 - 软肋:通信延迟/丢包鲁棒性(RMADER 部分解决);规模受限于协商开销 - C++:mit-acl/mader(~600⭐)、ZJU-FAST-Lab/ego-planner-swarm(GPLv3)

卡片 8 · ST-RRT* - 流派:二/三(采样式时空)|范式:采样(渐近最优 RRT) - 核心:在 space-time 上做时间最优采样规划,概率完备 + 渐近最优 - 最适:高维机械臂动态避障、无良好参考线的非结构化场景 - 软肋:收敛慢、解质量初期差;高维下采样效率低 - C++:ompl/ompl(BSD,原生支持 space-time)

卡片 9 · UniAD / Diffusion Planner - 流派:四(端到端生成)|范式:学习(IL + 模块化 / 扩散) - 核心:网络从感知直接输出时空轨迹;扩散天然多模态 - 最适:复杂城市场景、多模态决策、追求信息保真与目标一致(研究/预研) - 软肋:黑箱不可验证、分布外脆弱、C++ 部署鸿沟 - C++:无原生(PyTorch;部署需 ONNX/TensorRT 自研封装)

本质洞察(卡片库就是一张"方法地图"):把这 9 张卡片的"流派 + 范式 + 最适场景"抽出来排成一行,你会发现它们恰好覆盖了 §2 轴1(联合程度,从 Apollo 的半联合到 UniAD 的天然联合)和轴2(求解范式,搜索 SIPP / 优化 MINCO / 采样 ST-RRT* / 学习 UniAD)的**完整谱系**。这不是巧合——一个成熟领域的代表方法,必然在它的核心坐标轴上铺满。当你能把一个陌生新方法快速归到这 9 张卡片中最接近的一张旁边,你就真正掌握了这个领域的地图。 这正是综述训练的终极能力:不是记住所有方法,而是建立一个能容纳新方法的坐标系。

§5.3 设计空间全景:从"参数化"和"约束处理"两个正交维度切

§5.1 的优劣矩阵是"结果导向"的对比(最优性、实时性等)。但要真正理解四大流派**为什么**有这些得失,还需要切到"机制导向"的设计空间——看它们在两个最核心的设计选择上如何取舍。这两个维度是时空规划方法的"内部基因":① 轨迹怎么参数化?② 避障约束怎么处理(怎么把非凸的避障变得可解)?

维度一:轨迹参数化(决定解空间的形状与维度)。

参数化方式 代表方法 时间怎么处理 优劣
分段多项式(固定时间) Apollo piecewise-jerk、Frenet 多项式 时间是预设的固定网格 凸、快;但时间不可优化
B 样条 / Bézier(凸包性质) EGO-Planner、MADER 控制点 + 节点向量隐含时间 凸包性质让走廊约束变线性约束
MINCO(航点 + 段时间) GCOPTER 段时间 \(T_i\) 是显式决策变量 时空联合最干净,闭式梯度
带时间戳的位姿序列 TEB 时间间隔逐段优化 直观、稀疏图友好;维度高
状态-时间网格(离散) SIPP、ST-A* 时间是搜索维度(或安全区间) 完备/最优;但离散爆炸
隐式(网络输出) UniAD、Diffusion 时间戳由网络直接吐出 天然联合;不可解析约束

维度二:避障约束处理(决定问题凸不凸、能不能实时解)。

避障的本质是"轨迹不能进入障碍占据的区域"——这是一个**非凸**约束(障碍外部不是凸集)。整个时空规划的求解难度,很大程度上取决于"怎么把这个非凸约束变得可解"。四种主流手段:

约束处理手段 代表方法 把非凸变成什么 代价
凸走廊分解 SSC、SFC、IRIS 一串凸多面体(轨迹在走廊内 = 线性约束) 走廊生成的保守性
对偶化(OBCA) OBCA、H-OBCA 光滑可微的对偶约束(KKT) 引入对偶变量、规模增大
软约束惩罚 TEB、EGO-Planner 代价函数里的惩罚项(碰撞惩罚) 不保证硬安全、需调权重
离散枚举(搜索) SIPP、CBS 在离散图上直接避开占用节点 分辨率/状态爆炸
数据隐式学习 UniAD、Diffusion 网络从数据学"什么轨迹安全" 无硬保证、分布外脆弱

本质洞察(两个设计维度解释了所有得失):§5.1 优劣矩阵里的每一个评分,几乎都能从这两个设计维度推出来。为什么流派三(连续优化)最优但慢? 因为它用 MINCO/对偶化追求"时间可优化 + 约束精确"——这必然引入非凸,所以慢。为什么流派一(解耦)快但不够联合? 因为它用"固定时间网格 + 凸走廊/box 约束"把问题压成凸 QP——凸所以快,但固定时间就放弃了时空联合。为什么流派四(端到端)联合但黑箱? 因为它用"隐式参数化 + 数据隐式学约束"——绕过了所有显式建模,所以联合且快,但也因此无硬安全保证。看懂这两个维度,你就不再是'记住'四流派的优劣,而是能'推导'出它们——给定任意一种新的参数化 + 约束处理组合,你能预判它的得失。 这是从"知道结论"到"理解机制"的跨越,也是综述设计空间分析的终极目的。

§5.4 方法散点图:在"联合程度 × 可验证性"平面上看全谱系

把 §5.2 的代表方法投影到两条最关键的轴上——横轴时空联合程度(轴1)、纵轴可验证性——能一眼看清整个谱系的分布,以及那条贯穿全文的权衡曲线。

可验证性
   高 │ Apollo●        ●SSC/EPSILON                       
      │ (解耦,半联合)   ●SIPP    ●TEB                       
      │                          ●MINCO  ●OBCA              
      │                          ●MADER  ●ST-RRT*           
      │                                    (连续,完全联合)   
   低 │                                          ●UniAD     
      │                                          ●Diffusion 
      └──────────────────────────────────────────────────► 时空联合程度
        半联合      联合搜优      完全联合           天然联合

这张散点图揭示一条清晰的"反对角线"——方法大致沿"左上(可验证但不够联合)到右下(联合但不可验证)"分布,左上角无方法(没有"既不联合又不可验证"的方法,那毫无价值),右上角是**空白**——那里本该是"既完全联合又完全可验证"的理想方法,但它**不存在**(这正是 §8.2 的圣杯、§8.1 的根本张力)。

本质洞察(散点图的空白处就是研究前沿):读这种方法散点图,最有价值的不是有点的地方,而是没点的地方。 右上角的空白(联合 + 可验证)不是因为没人想做,而是因为这个组合在数学上极难——可验证性要求显式、可解析的结构,而最高联合程度(天然联合)目前只有黑箱网络能达到,二者天然矛盾。这个空白,就是整个领域最大的研究机会所在(§8.2 的"可验证学习式规划"正是冲它去的)。学会读散点图的空白,你就能在任何领域里**用一张图定位出"值得攻的方向"——这是综述训练给你的、比记住任何具体方法都珍贵的能力。**有点的地方是已知,空白的地方是未来。

§5.5 一个"误用优劣矩阵"的反例剖析

为了让你真正学会用矩阵,剖析一个**典型的误用**——这比正面教学更能防止犯错。

误用场景:某团队要给一个**低速园区配送车**选规划方案。他们打开 §5.1 优劣矩阵,数了数每列的星星总数,发现流派四(端到端)在"时空联合程度、强耦合能力、实时性、多模态"四行都是满星,总分最高,于是决定上端到端。

错在哪? 三层错误,逐层剖析:

  1. 数总分本身就错(§5.1 观察)。矩阵不是用来算总分的——流派四那些满星(联合、多模态)对"低速园区配送"这个场景**根本不是硬需求**。园区路况简单、速度低、交互弱,既不需要强耦合能力,也不需要多模态决策。给不需要的能力打满分,对选型毫无意义。
  2. 忽略了致命的弱项行。流派四在"可验证性"和"C++ 生态成熟度"两行垫底——而园区配送车是要**实际部署、要安全**的产品,这两行恰恰是它的硬需求。流派四的强项落在用不上的地方,弱项落在要命的地方——这是最差的匹配。
  3. 跳过了范式层判断(§6.4)。配送车虽不像 Robotaxi 那样高危,但仍是要落地的产品,范式层就该优先考虑可验证、生态成熟的方案。

正确的做法:这个场景路况简单、弱耦合、要落地——按 §6.1,Q1 判定弱耦合,直接**流派一(解耦)甚至更简单的方案就够**,重心放在工程可靠性而非算法先进性。用流派一的低成本,解决一个本就不需要流派四能力的问题。

本质洞察(误用矩阵的根:用"方法的强项"而非"场景的需求"驱动选型):这个反例的根本错误,是**让"方法有什么强项"驱动选型,而非让"场景需要什么"驱动选型**——看到流派四满星就想用它,而没先问"我的场景到底需要哪几行"。正确的选型流程是反过来的:先列出你的场景的硬需求(哪几行是必须满足的、哪几行无所谓),再去矩阵里找'硬需求行都达标、且代价可接受'的流派。 这是一个"需求驱动"而非"方法驱动"的过程。记住:矩阵的列(方法)是给定的,你要做的是用你的场景去筛选列,而不是被列的星星总数牵着走。 这个"需求驱动选型"的纪律,配合 §6.6 的反模式清单和 §6.7 的速查卡,构成了完整的选型免坑体系。


六、选型决策:给定场景,该用哪个流派

前面建立了脉络(§3)、流派(§4)、优劣矩阵(§5)。这一节把它们收束成**可执行的决策**——拿到一个真实场景,三十秒内定位到合适的流派与方法。这是整篇综述最有"回查价值"的一节。

§6.1 三个决策问题:用假设轴框定场景

选型不要一上来就问"用 MINCO 还是 EPSILON"——那是问错了层次。正确的顺序是先用 §2 的**假设轴**框定"我的场景有多不理想",再用手段轴挑招。三个问题按优先级排开:

Q1(轴1 联合程度):路径和速度强耦合吗?
   ├─ 否(高速结构化,路基本定死,主要决策速度)
   │     → 流派一 解耦迭代(Apollo EM)就够,别上重武器
   └─ 是(cut-in / 动态绕障 / 抢行 / 竞速 / 泊车)
         → 必须时空联合,继续问 Q2

Q2(场景规模与空间结构):单体还是多体?结构化还是开放空间?
   ├─ 单体 + 结构化道路 + 强交互
   │     → 流派二 走廊+QP(SSC/EPSILON)
   ├─ 单体 + 开放空间/紧凑(泊车)或竞速(极致质量)
   │     → 流派三 连续优化(OBCA 泊车 / MINCO 竞速 / TEB 地面导航)
   └─ 多体(集群/仓储)
         → 流派三多机扩展(MADER/EGO-Swarm)或多机专题 CBS/LaCAM

Q3(是否押注未来 / 接受黑箱):要可验证还是要能力上限?
   ├─ 要可验证(车规量产、安全攸关)
   │     → 锁定流派一/二/三,流派四只能做"生成候选 + 经典兜底"的上游
   └─ 押注未来 / 研究探索 / 复杂长尾
         → 流派四 端到端(UniAD/Diffusion),但接受工程不成熟

§6.2 场景 → 方法决策表

把常见场景直接映射到推荐方法,做成一张可直接查的表。每行给"为什么"和"代价"——选型不能只知道"用什么",必须知道"为什么用它、用它要付什么代价"。

场景 推荐流派/方法 为什么 代价 / 注意
高速公路巡航/跟车 流派一 Apollo EM 路径弱耦合,解耦够用且最可靠 上联合方法是杀鸡用牛刀
城市路口 cut-in/抢行 流派二 EPSILON 强交互需"何时该在哪",走廊天然表达 + 行为分支 走廊保守度需调;分支数受限
自动泊车/窄位 流派三 OBCA + Hybrid A* 低速紧凑、算力充裕,可负担非凸精确避障 实时性差,仅适合低速;依赖 warm-start
无人机竞速/极限轨迹 流派三 MINCO/CPC 对轨迹质量极致要求,时间最优必须完全联合 非凸、挑初值;需前端搜索 warm-start
地面机器人室内导航 流派三 TEB ROS 生态成熟、中低速动态避障够用 局部最优;高动态偏弱
多无人机集群穿障 流派三多机 MADER/EGO-Swarm 去中心化、动态障碍、可扩展 通信鲁棒性;规模受协商开销限
大规模仓储 AGV(百台+) 多机专题 LaCAM/PIBT(次优) 规模优先,主动放弃最优换实时(§2.3) 牺牲最优性;需中心调度
高维机械臂动态避障 流派二/三 ST-RRT*/SIPP-RRT 高维连续 + 动态障碍,采样类友好 收敛慢;解质量初期差
复杂城市长尾/多模态决策 流派四 UniAD/Diffusion(+经典兜底) 多模态、信息保真,人工设计难穷举 黑箱不可验证;必须经典栈兜底

遇到"跨多行的复合场景"怎么办? 真实项目常常不是单行——比如"城市自动驾驶"同时包含高速段(弱耦合)、路口(强交互)、泊车(紧凑空间)。此时**不要试图用一个方法通吃所有段**(这正是 §3.6 淘汰史里"追求万能求解器"的坑),而应**按场景分段、各段用各段最优的方法,用一个场景管理器(FSM)在它们之间切换**——这正是 Apollo scenario_manager 的设计:车道保持用解耦、泊车用 OBCA、路口用带交互的规划,FSM 根据当前场景调度对应的规划器。复合场景的选型答案,不是"选一个方法",而是"选一组方法 + 一个调度器"。 这个"分场景 + 调度"的思路,是工业规划栈应对场景多样性的标准答案。

§6.3 一个常被忽视的选型陷阱:过度联合

选型综述如果只讲"什么时候要更联合",会诱导一个危险的倾向——以为越联合越好,遇事就上连续优化甚至端到端。这是错的。

本质洞察(反向选型同样重要:不要过度联合):选型有两个方向,"该联合时别解耦"和"不该联合时别瞎联合"同等重要。高速公路上路径弱耦合,硬上完整时空连续优化,换来的是:求解慢了一个数量级、引入了非凸局部最优风险、调试难度暴增——而最优性几乎没提升(因为本来就弱耦合)。这是用流派三的成本买流派一的收益,纯亏。 §6.1 把 Q1(强耦合吗)放在第一位,正是为了先挡住这种"过度联合"的冲动。好的工程师不是会用最强的方法,而是会用最便宜的能解决问题的方法。 这条判断不止适用于时空规划——它是整个本方向选型的元原则。

§6.4 决策的元层次:选型本身也分三层

最后点出一个综述层面的洞察——上面讲的都是"算法选型",但真实项目的选型其实是三层嵌套的,算法只是最里层:

层次 选什么 关键问题 本文覆盖
范式层 解析方法 vs 学习方法 要可验证还是要能力上限? §4.4、§6.1 Q3
流派层 四大流派选哪个 时空耦合多强、规模多大? §6.1 Q1/Q2、§6.2
实现层 具体库/方法选哪个 生态成熟度、团队熟悉度、许可证? §5.2 卡片

对比性思维(三层选型的优先级):新手常常直接跳到实现层纠结"用 GCOPTER 还是 TEB",却没先在范式层和流派层想清楚。正确顺序是从外往里:先定范式(这个项目敢不敢用黑箱)→ 再定流派(时空要多联合)→ 最后定实现(哪个库最顺手)。 外层定错了,里层选得再精也是白费——比如一个安全攸关的量产项目,范式层就该排除端到端,这时在实现层比较各种扩散模型库毫无意义。综述给你的,正是这种"从外往里、逐层收敛"的选型纪律。

§6.5 完整选型走查:两个真实场景从零决策

光有决策树和表还不够,综述的选型部分最该给的是**示范一次完整的决策过程**——把 §6.1–§6.4 的所有工具串起来用一遍。下面走查两个对比鲜明的场景,让你看清"逐层收敛"在实践中长什么样。

场景 A:城市 Robotaxi 的路口左转(要穿过对向车流 + 行人)

【范式层】这是安全攸关的量产场景,出事要追责
  → 范式层立刻排除"纯端到端"(流派四不可单独上车,§8.3)
  → 锁定解析方法(流派一/二/三),流派四最多做上游候选生成
【流派层】Q1(强耦合吗?):左转穿对向车流 + 让行人——
  "走哪条线"和"何时通过"死死绑定 → 强耦合,排除流派一(解耦不够)
        Q2(结构化?单体?):结构化道路、单车 → 不是开放空间(排除 OBCA)
  → 锁定流派二(走廊+QP),城市强交互正是它的主场
【实现层】要处理"对向车让不让"的多种意图 →
  EPSILON(SSC 走廊 + EUDM 行为分支)命中——每个意图一条时空走廊
  C++ 生态:EPSILON 是城市交互唯一生产级 C++ 抓手(卡片3)
【兜底】流派四(如预测网络)可作上游给出他车意图分布,
        但最终轨迹由 EPSILON 的可验证 QP 产出 → 生成-验证混合
最终:EPSILON 为主 + 学习式预测为辅,可验证性保住

场景 B:无人机穿越未知森林的自主竞速

【范式层】研究/竞赛场景,无量产追责压力,追求极致性能
  → 范式层可以更激进,但竞速要极致轨迹质量 → 仍以解析优化为主
【流派层】Q1(强耦合吗?):竞速要时间最优,速度与路径极致耦合
  → 强耦合,必须完全联合 → 排除流派一/二(不够联合)
        Q2(结构化?单体?):非结构化(森林)、单机
  → 无参考线,Frenet 不适用;开放三维空间
  → 锁定流派三(连续优化),完全联合 + 时间最优
【实现层】无人机 + 需在线重规划 + 时间最优 →
  MINCO/GCOPTER 命中(闭式梯度、段时间可优化,卡片4)
  前端:kinodynamic A*/SIPP 出初值(warm-start,因为非凸挑初值)
  C++ 生态:GCOPTER(header-only,MIT)
【对比场景A】注意两场景都"强耦合",但落到不同流派——
  A 是结构化交互(走廊),B 是非结构化竞速(连续优化)
  → Q1 相同、Q2 分流,这正是决策树分层的意义
最终:GCOPTER 连续优化 + 前端搜索 warm-start,无需可验证性兜底(研究场景)

本质洞察(两场景对照揭示的决策本质):把场景 A 和 B 并排看,二者在 Q1(都强耦合)上一致,却在最终流派上分道扬镳——A 去了流派二、B 去了流派三。分流点在 Q2(结构化 vs 开放空间)和范式层(量产 vs 研究)。 这说明一个深刻的选型真相:没有"强耦合就用某个固定方法"的简单映射,决策是多个维度联合作用的结果。 同样"强耦合",结构化道路偏走廊(有参考线、要可验证)、开放竞速偏连续优化(无参考线、要极致)。这就是为什么 §6.1 的决策树是"多个问题串联"而非"一个问题定终身"——真实选型是在 §2 五轴构成的多维空间里找一个点,不是在一条线上选段。 能熟练走这种多维走查,就是综述训练出的核心判断力。

§6.6 选型反模式清单:六个最常踩的坑

选型综述不仅要教"怎么选对",更要标出"最常见的选错方式"——反模式(anti-pattern)比正面建议更能防止犯错。下表列出本方向选型最常踩的六个坑,每个给出"症状-根因-纠正"。

反模式 症状 根因 纠正
唯新论 凡事先想用最新最 fancy 的方法(端到端/扩散) 误把"前沿"当"适用"(误解2) 先过范式层 Q3——量产场景前沿方法直接出局(§6.1)
过度联合 弱耦合场景硬上完整时空连续优化 以为越联合越好(误解1) Q1 先判强弱耦合,弱耦合用解耦就够(§6.3)
跳层选型 直接纠结"GCOPTER 还是 TEB",没想范式/流派 不知道选型分三层(误解8) 从外往里:范式→流派→实现(§6.4)
唯最优论 大规模场景坚持要全局最优 不懂"强保证=高代价"(误解4) 大规模主动放弃最优换可扩展(§2.3)
忽视生态 选了理论最优但无 C++ 实现的方法,落地卡死 只看论文不看工程现实 把"C++ 生态成熟度"纳入实现层硬指标(§5.1)
范式洁癖 坚持"纯经典"或"纯学习",排斥混合 把流派当对立而非互补(误解2/3) 拥抱"生成-验证"等混合架构(§3.3、§8.3)

本质洞察(反模式的共同根:把"维度"当"优劣"):六个反模式里有五个(唯新论、过度联合、唯最优论、范式洁癖、部分跳层)共享同一个认知错误——把 §2 的某条坐标轴误读成"优劣轴",以为"越往某个方向越好"(越新越好、越联合越好、越最优越好、越纯越好)。但坐标轴是"维度"不是"优劣"——它描述的是方法落在哪个位置,不是哪个位置更高级。 治本的办法只有一个:牢牢记住 §4.5 的"同一枚硬币三面"——每个维度上往一端走,必然在另一个维度上付出代价,没有免费的"更好"。 把坐标轴当地图(定位用)而非阶梯(攀登用),就能一次性避开这五个反模式。这是 §6 全节的精神内核。

§6.7 一页纸选型速查卡

把 §6 的全部决策逻辑压缩成一张可直接查的速查卡——做实际选型时,先看这张卡,再回查对应小节展开。

┌─────────────────────────────────────────────────────────┐
│            时空规划选型速查卡(先从上往下走)                  │
├─────────────────────────────────────────────────────────┤
│ STEP 0 范式层:这个项目敢用黑箱吗?                            │
│   安全攸关/量产 → 排除纯端到端,经典为主(流派四仅做上游)       │
│   研究/预研     → 可激进,端到端可作主力                       │
├─────────────────────────────────────────────────────────┤
│ STEP 1 联合度:路径和速度强耦合吗?                            │
│   弱(高速巡航) → 流派一 Apollo EM【别过度联合】               │
│   强            → 继续 STEP 2                              │
├─────────────────────────────────────────────────────────┤
│ STEP 2 结构与规模:                                         │
│   结构化道路+强交互 → 流派二 EPSILON(走廊+行为分支)           │
│   开放空间/泊车     → 流派三 OBCA + Hybrid A*                │
│   竞速/极致质量     → 流派三 MINCO + 前端搜索warm-start       │
│   地面室内导航      → 流派三 TEB                             │
│   多机集群(<50)    → 流派三多机 MADER/EGO-Swarm             │
│   大规模(100+)     → 多机 LaCAM/PIBT【放弃最优换规模】        │
│   高维机械臂        → 采样 ST-RRT*/SIPP-RRT                 │
├─────────────────────────────────────────────────────────┤
│ STEP 3 兜底:选了学习方法?→ 必配经典栈做安全验证               │
├─────────────────────────────────────────────────────────┤
│ 元原则:选最便宜的能解决问题的,不选最强的(§6.3/§6.6)         │
│ 元纪律:范式→流派→实现,从外往里收敛(§6.4)                   │
└─────────────────────────────────────────────────────────┘

使用建议:这张速查卡是 §6 的"执行摘要"。真实选型时,按 STEP 0→3 顺序走一遍,每一步卡住就回查对应小节。 卡片刻意把"元原则"和"元纪律"放在最底——因为它们是凌驾于所有具体步骤之上的两条铁律:再精确的决策树,也敌不过"选最便宜的"和"从外往里"这两条心法。把这张卡截图存下来,比记住任何单个方法都实用。


七、跨专题横向联系:时空规划与其他六专题的接口

到这里,时空联合规划这座主干山脉已经梳理完(脉络 + 流派 + 矩阵 + 选型)。但方向级综述的独特职责,是还要画出**这座山与其他山脉的山脊连线**——时空规划的方法如何被其他六个专题复用、又如何消费它们的成果。这是 §1.1"七专题同源"的具体兑现,也是专题内综述**做不到**的事(它只看一座山)。

§7.1 时空规划 ↔ 多机器人协作(50):SIPP/走廊的跨专题复用

这是全方向最紧密的一对接口。多机协作专题的核心算法 CBS(Conflict-Based Search),其低层单体规划用的正是时空规划的 SIPP——CBS 在高层解决"哪两个智能体冲突",每次重规划单个智能体时,调 SIPP 在"已被其他智能体占用的时空"里找安全路径。

多机协作专题            时空规划专题
   CBS 高层  ──调用──►  SIPP 低层(卡片2)
 (解冲突树)            (单体时空搜索)
   MADER/EGO-Swarm ──── 单机 MINCO/走廊 + 多机互斥约束
 (多机时空协商)          (来自时空规划流派三,卡片4/7)

本质洞察("同一个东西在两个专题里"):SIPP 在时空规划专题里是"单体动态避障的搜索器",在多机专题里是"CBS 的低层引擎"——它是同一份代码、同一套数学,只是被嵌进了不同层级的框架。 这正是 §1.1"专题边界是松绑了哪个假设、而非用了哪套工具"的活例:多机专题松绑的是"单体"假设,但它解决"单体在动态时空里怎么走"这个子问题时,直接复用了时空专题的成果。如果不读方向级综述,你会在两个专题里各学一遍 SIPP,以为是两个东西——这就是 §0 说的"认知浪费"。

§7.2 时空规划 ↔ 不确定性规划(30):从确定时空到带不确定性的时空

时空规划默认障碍轨迹**已知**(SIPP 需要知道每格何时被占)。不确定性规划松绑这个假设——障碍未来轨迹是**概率分布**。两个专题的接口在此:

  • EPSILON(不确定性专题的分支场景核心)的时空走廊用的就是 SSC(时空专题卡片3)——它在 SSC 之上加了对他车多种意图的分支(EUDM),每个分支是一条时空走廊。
  • 机会约束规划(CC-MPC)把时空规划的硬约束"轨迹在走廊内"松弛为概率约束"以 95% 概率在走廊内"——几何骨架来自时空规划,概率外衣来自不确定性规划

§7.3 时空规划 ↔ 博弈规划(40):从"预测他人"到"他人会响应我"

时空规划处理动态障碍时,默认障碍轨迹**不响应**自车(要么已知、要么预测后当固定)。博弈规划松绑这个假设——他人会**响应**自车动作。接口在"交互的耦合程度"上递进:

对他人的假设 所属 时空轨迹怎么算
静态障碍 经典 避开固定区域
动态但不响应(已知/预测) 时空规划 避开时空禁入区(SIPP/走廊)
动态且响应自车 博弈规划 求 Nash/Stackelberg 均衡轨迹(iLQGames)

对比性思维(时空规划是博弈规划的"退化情形"):博弈规划里,如果假设"他人完全不响应我",Nash 均衡就退化成"我单方面对固定的他人轨迹做最优"——这恰好就是时空规划处理动态障碍的做法。 所以时空规划可以看成博弈规划在"无响应"假设下的特例。理解这个包含关系,你就明白为什么博弈规划比时空规划"难一档"——它多扛了"他人会反应"这个最难建模的耦合(§8.4 的鸡生蛋问题)。

§7.4 时空规划 ↔ 采样式 MPC(20):当时空代价不可微

时空规划的连续优化流派(流派三)要求代价可微、动力学有梯度。当这个条件不满足——代价含不可微项(如离散的"是否压线")、动力学是黑箱仿真器——就轮到采样式 MPC(MPPI)接管。两专题在"求解范式"轴2 上互补:

  • 时空规划占"优化"象限(可微、要平滑最优);
  • MPPI 占"采样"象限(不可微、黑箱、GPU 并行);
  • 现代趋势是二者融合——扩散启发的采样 MPC 把时空规划的轨迹先验(如走廊)作为扩散的引导,既保留采样的灵活又注入结构知识。

§7.5 时空规划 ↔ 任务运动规划(60):离散任务层之下的连续时空层

TAMP 处理"任务本身需要离散决策"(先抓 A 还是先抓 B)。它的下层——每个离散任务确定后"怎么动"——正是一个时空规划问题。接口是**分层**:TAMP 的几何层(geometric layer)调用时空规划生成满足时序约束的连续轨迹。LGP(逻辑几何规划)里的"几何"那一半,本质就是带时序约束的时空优化。

§7.6 一张跨专题接口全景图

把以上五对接口收进一张图,看清时空规划在方向中的"枢纽"地位:

                    任务运动规划(60)
                     离散任务层
                         │ 调用下层
   博弈规划(40) ◄──退化── 时空联合规划(10) ──复用──► 多机协作(50)
   他人会响应          【方向枢纽】           SIPP→CBS
                    确定动态时空              MINCO→MADER
        ▲                │  │                    
        │松绑"不响应"      │  │松绑"可微"            
   不确定性规划(30)        │  ▼                    
   障碍是概率分布     ◄────┘  采样式MPC(20)         
   走廊→机会约束             不可微/黑箱时接管        

本质洞察(时空规划为何是"方向枢纽"):这张图揭示了为什么本文选时空规划作为方向级综述的主干——它在七专题里处于枢纽位置,与其他每一个专题都有直接接口。 向上它是 TAMP 的几何执行层,向左它是博弈规划的退化特例、不确定性规划的几何骨架,向右它的成果被多机协作复用、它的优化在不可微时让位给采样 MPC。吃透时空规划,等于同时拿到了通往其他六个专题的六张门票。 这也是 §1.4"以一斑窥全豹"的最终兑现——主干选对了,整片林海的连线就都通了。

§7.7 全方向依赖图:谁复用谁、谁消费谁

§7.1–§7.6 是从时空规划出发看它与各专题的接口。但要真正理解整个方向的结构,需要把视角拉到所有七专题之上,画出**完整的"复用-消费"依赖图**——哪些专题提供基础能力(被复用),哪些专题消费这些能力做集成(复用别人)。这是方向级综述最高层的综合。

                  【被广泛复用的基础能力层】
   时空规划(10)          最优控制基础           博弈(40)
   SIPP/走廊/MINCO       MPC/iLQR/QP            Nash/均衡
        │                    │                    │
        │复用                │复用                 │复用
        ▼                    ▼                    ▼
   ┌─────────────────────────────────────────────────┐
   │            【消费基础能力的集成层】                  │
   │  多机协作(50):CBS用SIPP + 分布式MPC用单体MPC        │
   │                + MARL用博弈语言 + Nash用博弈        │
   │  TAMP(60):几何层用时空规划 + 任务层用离散搜索        │
   │  不确定性(30):走廊用SSC + 鲁棒用Tube MPC           │
   └─────────────────────────────────────────────────┘
        │全部落地到                                
   ┌─────────────────────────────────────────────────┐
   │              【完整应用实例层】                      │
   │  无人机(70):把上述所有方法跑通从仿真到实飞           │
   └─────────────────────────────────────────────────┘
        │横切贯穿(提供求解方法 + 学习视角)          
   采样式MPC(20) ──── 不可微时的通用求解器(贯穿所有层)   
   RL 贯穿 ────────── 学习视角(贯穿所有层,第五篇综述)   

这张依赖图揭示了三个层次:

  1. 基础能力层(时空规划、最优控制、博弈):提供"原子方法",被其他专题反复调用。时空规划的 SIPP/走廊/MINCO 是其中被复用最广的。
  2. 集成层(多机、TAMP、不确定性):很少发明全新的原子方法,主要是**把基础能力层的方法按新的结构组装**——多机把单体方法装进"协调框架",TAMP 把运动规划装进"任务框架",不确定性把确定性方法装进"概率框架"。
  3. 应用实例层(无人机):把上述全部落到一个具体形态,验证端到端可行性。
  4. 横切贯穿(采样式 MPC、RL):不属于任何单层,而是**纵向贯穿所有层**——采样式 MPC 在任何层遇到不可微/黑箱时接管,RL 给任何层提供"从数据学"的替代视角。

本质洞察("基础-集成-应用"三层结构是本方向的骨架):这个三层结构,是看懂整个移动规控方向的最高层框架。它解释了一个初学者的核心困惑——"为什么有些专题(多机、TAMP)感觉在'拼装'别人的方法,而有些专题(时空、博弈)在'发明'方法?" 因为它们处在不同层:基础能力层在发明原子方法,集成层在组装这些原子。这也给学习顺序定了纪律:先学基础能力层(尤其时空规划这个被复用最广的),再学集成层(这时你会发现集成层的方法你已认识一大半,因为它们的原子来自基础层),最后用应用实例层(无人机)串起来。 反过来——先学多机却没学时空规划——你会在 CBS 低层卡住,因为你不认识它调用的 SIPP。先基础、后集成、再应用、横切贯穿随用随补,这是本方向唯一正确的学习拓扑序。

§7.8 一个跨专题的认知陷阱:把"集成层创新"误当"基础层创新"

依赖图还能帮你避开一个读论文时的常见陷阱。

本质洞察(分清创新发生在哪一层):读一篇集成层的论文(如某个新 MAPF 方法、某个新 TAMP 框架)时,初学者容易把它的"组装方式创新"误读成"原子方法创新"。比如一篇多机论文提出了新的冲突解决策略——它的创新在"怎么组装单体规划器"(集成层),而非"单体规划器本身"(基础层,它直接复用了 SIPP/MINCO)。 分不清这一点,你会误以为这篇论文重新发明了底层规划,从而高估它、也学错重点。正确的读法是:先识别这篇工作处在依赖图的哪一层,再判断它的创新是"新原子"还是"新组装"。 基础层论文该精读其方法推导,集成层论文该精读其组装结构(而非底层原子,那些去基础层专题学)。这个"分层阅读"的纪律,能让你在读海量论文时始终抓住每篇的真正贡献点——又一个综述独有的元能力。

§7.9 时空规划在五大机器人方向的衔接点(速查)

最后给一张"衔接点速查表"——本方向(移动规控)不是孤岛,它与项目里其他四大方向(SLAM、运动控制、具身智能、数学基础)都有衔接。这张表帮你在更大的机器人知识图谱里定位时空规划,知道"往上游回溯找谁、往下游交付给谁"。

衔接方向 衔接点 时空规划在这里扮演什么 方向位置
SLAM / 感知(上游) 地图与障碍轨迹 消费 SLAM 的地图(ESDF/占据栅格)和感知的障碍预测,作为时空规划的输入 03_SLAM/
运动控制(下游) 轨迹跟踪 时空规划输出轨迹,交给底层控制器(MPC/几何控制)跟踪执行 05_运动控制/
具身智能 / VLA(平行前沿) 端到端规划 流派四(端到端/扩散)与 VLA 共享"从数据学规划"的范式 06_具身智能/
数学基础(底层工具) 优化与李群 时空规划的 QP/NLP/凸优化、SE(3) 轨迹都建立在数学基础上 01_数学/
本方向内(横向) 七专题接口 见 §7.1–§7.6,时空规划是方向枢纽 04_移动机器人规控/

本质洞察(时空规划的"上游-下游-平行"定位):把这张表读成一句话——时空规划向上游消费 SLAM/感知的地图与预测,向下游交付轨迹给运动控制执行,与具身智能在端到端范式上平行竞合,向下扎根于数学基础。 它在整个机器人栈里处于"感知之后、控制之前"的**中枢位置**——这正是为什么它既要懂上游(地图怎么来、预测多可信),又要懂下游(轨迹要满足控制器的可跟踪性)。理解这个上下游定位,你就不会把时空规划学成一个孤立的算法专题——它是连接"机器人看到什么"和"机器人怎么动"的桥。 学它时遇到"地图从哪来"的问题去 SLAM 找,遇到"轨迹怎么执行"的问题去运动控制找,遇到"凸优化怎么解"的问题去数学基础找——这张表就是你的跨方向索引。


八、开放问题与未来方向

一篇合格的综述,除了梳理"已知",更要诚实地标出"未知"——哪些问题至今没有好答案,它们卡在哪里,决定了这个方向未来五年往哪走。这一节列出本方向(以时空规划为核心、辐射全方向)真正悬而未决的开放问题。它们不是"还需更多实验"这种增量问题,而是**范式级的硬骨头**。

§8.1 开放问题一:实时性 vs 联合性的根本张力,能否被彻底化解?

这是贯穿全文的那条暗线,也是最根本的开放问题。§3、§4 反复点出:联合程度越高,在线求解越贵;流派四(端到端)用"离线训练"暂时绕开了这个张力,但代价是黑箱不可验证。

卡在哪里? 真正想要的是"既完全联合、又实时、又可验证"——但目前没有任何方法三者兼得。流派一/二/三牺牲联合性或实时性换可验证,流派四牺牲可验证换前两者。

前沿尝试与悬念: - 可微优化层(differentiable optimization,如 acados + leap-c、可微 MPC):把优化器变成可微模块嵌进网络,试图"用学习加速优化、用优化保证可行"。但可微优化层的可验证性介于二者之间,尚未定论。 - 神经求解器(Neural A*、学习预测时间分配):用网络预测优化的初值/启发,加速在线求解。但加速的同时是否引入不可控失败,仍是开放的。

本质洞察:这个张力可能**根本无法被彻底化解,只能被转移**。从 PVD 到端到端,每一代都没有消灭这个张力,只是把它从"在线 vs 联合"转移到"训练成本 vs 在线性能"、再转移到"可验证性 vs 能力"。未来的突破,更可能是找到一个"对当前应用最划算的转移点",而非真正让三者兼得。 这也是为什么"混合架构"(生成 + 验证)而非"纯学习",是当前最现实的工程答案。

§8.2 开放问题二:学习式时空规划的可验证安全,怎么办?

流派四能力最强却最不敢上车,核心障碍是**无法形式化证明"绝不撞"**。神经网络对分布外输入(训练没见过的诡异场景)可能给出灾难性的轨迹,且无法预先知道何时会这样。

卡在哪里? 形式化验证(formal verification)一个百万参数的网络在所有可能输入下的安全性,目前计算上不可行;而长尾场景的穷举测试又永远不充分("开了一亿公里没撞"不等于"绝不撞")。

前沿方向(都还不成熟): - 安全滤波器(safety filter,如 CBF-QP 兜底):让学习策略出建议、用可证明安全的滤波器修正。问题是滤波器太保守会废掉学习的能力。 - 可达性分析(reachability,HJ)+ 学习:用可达集刻画"绝对安全集",约束学习策略。问题是高维可达性计算昂贵。 - 生成-验证架构:网络生成候选,经典栈(流派一/二/三)验证。这是当前工业最务实的答案,但本质是"用经典栈的能力上限封顶学习的能力上限"。

§8.3 开放问题三:模块化管线 vs 端到端,最终会怎样收敛?

自动驾驶规划近年最大的范式之争:模块化管线(感知→预测→规划→控制,各模块独立可验证)vs 端到端(一个网络从传感器到轨迹)。这不只是技术问题,是整个行业的路线之争。

两边的根本论点:

模块化管线 端到端
支持论点 可验证、可调试、可归因(出事知道哪个模块错) 信息无损、目标一致、长尾潜力大
软肋 模块间接口损失信息、误差累积、人工设计难穷举 黑箱、不可归因、分布外脆弱
代表 Apollo、Autoware(流派一/二/三) UniAD、特斯拉 FSD(流派四)

卡在哪里? 两条路线各有不可替代的优势,短期内谁也吃不掉谁。当前的现实收敛点是**"模块化骨架 + 端到端组件"的混合**——比如用端到端做预测、用经典栈做规划兜底;或 UniAD 式的"模块化端到端"(可微的模块化,既保留模块边界又端到端训练)。但混合的最优配比、哪些模块该学习化、远未定论。

对比性思维(这场争论的元层次):这场争论表面是"两种架构",深层是 §4.5 那枚硬币的行业级显现——能力(端到端) vs 可控(模块化)的权衡,在产业落地的尺度上重演。 它不会有"一方完胜"的结局,因为不同应用对"能力 vs 可控"的需求点不同:Robotaxi(安全攸关、责任明确)会更靠模块化,消费级辅助驾驶(成本敏感、可接受人类兜底)会更激进地拥抱端到端。收敛点不是一个,而是一条按应用风险偏好排开的谱系。

§8.4 开放问题四:交互的"鸡生蛋"循环,如何打破?

这是博弈规划(40)和预测-规划一体化的核心难题,也辐射时空规划的强交互场景。问题是:我的最优轨迹取决于他人会怎么动,但他人怎么动又取决于我会怎么动——预测和规划相互依赖,形成循环。

卡在哪里? 经典做法是"先预测他人(当他们不响应我)、再对预测做规划"——但这忽略了他人会响应我,在强交互(密集路口、博弈式加塞)下失真。真正的博弈求解(Nash/Stackelberg)计算昂贵、且依赖对他人目标函数的假设(他人真的在最优化我以为的那个目标吗?)。

前沿方向: - 预测-规划一体化(joint prediction-planning,如 GameFormer、UniAD 的 MotionFormer):让预测显式条件于自车的候选规划,在网络里隐式求解这个循环。 - 逆博弈(inverse game):从观测数据反推他人的目标函数,再做博弈规划。问题是逆问题病态、数据需求大。 - Level-k / 有限理性博弈:假设他人只做 k 层递归推理(而非无穷层 Nash),降低计算。问题是 k 取多少、不同人 k 不同。

§8.5 开放问题五:长尾与分布外——规划的"未知的未知"

无论解析还是学习方法,都面临**长尾场景**(罕见但致命,如逆行的救护车、掉落的货物)和**分布外泛化**(训练/设计时没考虑到的情况)。

卡在哪里? 解析方法的长尾困境是"人工设计的代价/约束无法穷举所有情况";学习方法的困境是"训练数据无法覆盖长尾"。两边都败在同一件事——世界的复杂度超过了任何有限设计或有限数据的覆盖能力。

这个问题为什么特别难? 因为它是"未知的未知"(unknown unknowns)——你甚至不知道自己漏了什么。可达性、形式化方法能处理"已知的未知"(已建模的不确定性),但对"完全没想到的场景"无能为力。当前没有令人满意的答案,只有缓解(持续运营数据回流、仿真长尾生成、异常检测兜底)。

§8.6 其他值得关注的方向(速览)

方向 一句话 所在前沿
大模型 + 规划 LLM/VLM 做高层语义决策 + 经典栈做底层执行(含 LLM+TAMP 复兴) TAMP(60)、VLA
世界模型 + 规划 学一个可想象未来的世界模型,在 latent 空间做时空搜索(TD-MPC2、Dreamer) 采样式 MPC(20)、RL 贯穿
可微全栈 感知-预测-规划-控制全可微,端到端梯度优化最终目标 端到端、可微优化
扩散加速 扩散式规划的采样步数从几十步压到几步,逼近实时 流派四工程化
去中心化大规模 千台级集群的去中心化实时时空协调 多机协作(50)

本质洞察(开放问题的共同根源):把这五大开放问题(+ 速览)放在一起看,它们其实共享**两个根源**:① 能力与可控的权衡(§8.1/§8.2/§8.3 都是它的变体)——这是 §4.5 那枚硬币的不同投影;② 有限设计/数据 vs 无限复杂世界(§8.4/§8.5)——交互的循环和长尾,本质都是"现实比我们能建模的更复杂"。这个方向未来五年的所有重要进展,几乎都会落在这两个根源的某个具体战场上。 看懂了这两个根源,你读任何一篇 2026 之后的新论文,都能立刻判断"它在攻哪个开放问题、用什么招、可能的软肋在哪"——这就是综述给你的、超越任何具体方法的元能力。

§8.6bis 近期 vs 远期:哪些会先落地,哪些还要等

综述对未来的判断,不能只列方向、不分时序。这一节把前沿方向按"距离落地的远近"分成三档——这对工程师的职业押注(学什么、投入多少)极有参考价值。判断的依据是"它卡在工程难题(近)还是原理难题(远)"。

时序 方向 为什么是这个时序 落地的关键瓶颈
近期(已在落地/1-2 年) 生成-验证混合架构 工程难题,工业已在做(特斯拉/Waymo) 验证层的覆盖率与效率
近期 扩散加速(采样步数压缩) 工程难题,纯算法优化 加速后的质量保持
近期 可微优化层(acados+leap-c) 工程难题,组件已成熟 可微优化的训练稳定性
中期(3-5 年) 预测-规划一体化 半原理半工程,鸡生蛋循环有进展但未根治 交互建模的泛化与实时性
中期 世界模型 + 规划 半原理,长时序漂移待解 learned model 的可靠 horizon
中期 LLM + TAMP 工程为主但 LLM 几何可行性是硬伤 LLM 输出的可执行性保证
远期(5+ 年/可能永远) 可验证的学习式规划 原理难题,形式化验证黑箱网络尚不可行 验证百万参数网络的计算可行性
远期 长尾/分布外的根本解 原理难题,"未知的未知"无通解 世界复杂度超过有限设计/数据

本质洞察(近期 vs 远期的判据:工程难题 vs 原理难题):这张表的分档不是拍脑袋,而是基于一个清晰判据——卡在工程难题的方向会先落地(因为工程难题有渐进解法、可被算力和工程投入推进),卡在原理难题的方向要等甚至可能永远等下去(因为它需要范式级突破)。 生成-验证、扩散加速卡的是工程(怎么更快、覆盖更全),所以近;可验证学习、长尾根本解卡的是原理(黑箱能否被验证、有限能否覆盖无限),所以远。给工程师的押注建议:近期方向值得现在就投入实操(它们正在变成生产力);远期方向值得理解和跟踪(它们是研究前沿),但别指望靠它们解决眼下的工程问题——眼下的安全攸关系统,仍要靠成熟的经典方法 + 务实的混合架构。 区分"工程难题"和"原理难题",是判断任何技术方向落地时序的通用方法。

§8.7 跨专题组合创新:把七座山的方法两两相乘

综述的一个独特产出,是**指出跨专题组合的机会**——当两个专题的方法被放在同一张地图上,它们的"相乘"往往是未被充分探索的研究空白。下表用结构化方式列出几个高价值的跨专题组合方向(沿用 §7 接口图的连线),每个给出"组合方案 / 预期效果 / 可行性 / 最大风险"。这不是要你立刻去做,而是示范"综述如何把对比综合升级为创新种子"。

组合方案 来自哪两座山 预期效果 可行性 最大风险
时空走廊 + 机会约束 时空(10) × 不确定性(30) 走廊边界随障碍预测不确定性自适应收缩,比硬走廊更不保守 高(EPSILON 已有雏形) 概率约束的实时求解开销
MINCO 连续优化 + 博弈均衡 时空(10) × 博弈(40) 把"他人会响应"写进 MINCO 的代价,生成博弈感知的时空轨迹 中(iLQGames 是参照) 博弈求解的非凸 + 实时性
CBS 高层 + MINCO 低层 多机(50) × 时空(10) 高层搜索选无冲突拓扑、低层连续优化磨平滑轨迹,兼顾完备与质量 高(已有混合工作) 低层优化失败时高层重搜的代价
扩散生成 + 经典验证 时空学习(10-T6) × 时空经典(10) 扩散出多模态候选、经典栈做可验证安全过滤——生成-验证架构 高(工业已在做) 验证层成为能力瓶颈
世界模型 + 时空搜索 采样MPC(20) × 时空(10) 在 learned latent 动力学上做 SIPP/ST-A* 搜索(MuZero 式) 中(学术原型阶段) 学习模型的长时序漂移
LLM 任务分解 + 时空运动层 TAMP(60) × 时空(10) LLM 出高层语义计划、时空规划出底层可行轨迹 中(LLM+TAMP 复兴) LLM 的几何不可行计划、幻觉
CVaR 风险 + 多机协调 不确定性(30) × 多机(50) 多机协调时优化最坏 k% 的碰撞风险而非平均,更安全 分布式 CVaR 估计的通信开销

本质洞察(组合创新的方法论):这张表揭示了综述孕育创新的一般套路——取两个专题各自成熟的"骨架"和"外衣",把一个的骨架套上另一个的外衣。 比如"时空走廊的几何骨架 + 不确定性的概率外衣 = 机会约束走廊","MINCO 的优化骨架 + 博弈的均衡外衣 = 博弈感知轨迹"。为什么这种组合常有戏?因为每个专题在自己的核心维度上已做到很深,但在别的维度上是"裸"的——时空规划几何强但不确定性裸,博弈交互强但实时性裸。 把两座山的强项缝起来、用一方补另一方的裸维,正是研究空白最密集的地方。这也是为什么方向级综述(能看到所有山)比专题内综述(只看一座山)更容易孕育创新——创新往往不在山顶,而在山脊连线上。

§8.8 范式总结:一句话收束整个方向

读完八节,把整个移动机器人规控方向收束成一句话:

这个方向的全部努力,是在"一个不完美、动态、有他人的世界"里,为机器人算出"安全、可行、优"的运动——而它的全部张力,来自三个永恒的权衡:联合性 vs 实时性(时空轴)、能力 vs 可控(学习轴)、保证 vs 规模(多体轴)。所有方法、所有专题、所有开放问题,都是在这三个权衡的某个取点上落子。

理解了这一句,你就理解了为什么本方向**没有"最好的方法"、只有"最适合某个权衡取点的方法"——因为三个权衡都没有免费午餐。工程师的判断力,就体现在面对一个具体场景时,能准确判断"我的权衡取点在哪",然后选那个落子最划算的方法。**这,就是这篇方向级综述想交到你手里的唯一一样东西。

§8.9 如何持续跟踪这个快速演进的方向

综述有时效性——本文锁定在 2026 年中的认知,而这个方向(尤其学习式规划)演进极快。最后给一份"持续跟踪"指南,让这篇综述的价值不随时间衰减。核心思路是:不追单篇论文,而是把新工作往本文建立的坐标系/脉络/开放问题上挂。

跟踪动作 怎么做 用本文的什么工具
给新方法定位 读到新方法,先标它的五轴坐标 §2.1 五轴、§2.5 定位示范
判断新方法的脉络角色 它是开山/加速器/工程化/桥接/SOTA? §3.4 论文脉络表的"角色"列
识别它攻哪个开放问题 它在攻 §8.1–§8.5 哪个?卡在工程还是原理难题? §8 开放问题、§8.6bis 近远期判据
判断它处在依赖图哪一层 基础层新原子 / 集成层新组装? §7.7 依赖图、§7.8 分层阅读
更新优劣矩阵 它在哪一行刷新了星级?是否填了散点图空白? §5.1 矩阵、§5.4 散点图空白

本质洞察(综述的"抗衰减"设计):一篇只罗列方法的综述,会随新方法涌现而迅速过时;但一篇建立了**坐标系 + 脉络 + 开放问题地图**的综述,能"消化"未来的新工作——因为新方法再多,也只是往这套坐标系里多添几个点、往脉络里多接一段、或往某个开放问题上落一子。 这就是本文为什么花大力气在 §2(坐标系)、§3(脉络)、§8(开放问题)上——它们是"框架",框架比"内容"抗衰减。给你的最终建议:别把这篇综述当"2026 年方法清单"来记(那会过时),把它当"一套终身可用的方法论"来用——每读一篇新论文,就用上表的五个动作把它挂进框架。这样,这篇综述会随你读的论文越来越多而越来越值钱,而非越来越旧。 这是综述区别于教程的终极价值:教程教完即止,综述越用越活。


本章常见误解汇总

综述类章节最容易滋生"似懂非懂"的误解——读者拿到一堆方法名和对比表,很容易形成一些听起来合理、实则错误的判断。下表汇总本方向初学者最常见的误解及其纠正,每条都在正文有对应展开。

# 常见误解 正确理解 正文
1 时空联合一定比解耦好,越联合越先进 强耦合场景才需要联合;弱耦合场景(高速公路)解耦更划算,过度联合是纯亏 §6.3
2 端到端(流派四)是终极方向,迟早取代经典方法 端到端最强但黑箱不可验证,当前现实是"端到端生成 + 经典栈兜底"的混合,且二者各占生态位长期共存 §3.3、§4.4、§8.3
3 求解范式越新越好(学习 > 采样 > 优化 > 搜索) 四范式各占问题象限、互补而非替代,现代系统几乎总是混合使用(前端搜索 + 后端优化 + 采样兜底 + 学习启发) §2.2
4 算法应该追求完备 + 最优,保证越强越好 强保证 = 高代价(规模爆炸);大规模实时任务必须主动放弃最优性甚至完备性换可扩展 §2.3
5 七个专题是七堆并列的零散知识 七专题同源——是同一根问题逐层松绑七个理想假设的裂变,共享同一套底层工具 §1.1
6 SIPP 在时空专题和多机专题里是两个不同的东西 是同一份代码、同一套数学,只是被嵌进不同层级的框架(多机 CBS 的低层就是 SIPP) §7.1
7 越前沿热门的方法,工程生态越成熟 恰恰反相关——前沿方法从论文到工业级 C++ 需数年沉淀,且黑箱方法不契合 C++ 的确定性要求 §1.3、§5.1
8 选型就是选一个最强的算法 选型是三层嵌套(范式层→流派层→实现层),从外往里逐层收敛;且要选"最便宜的能解决问题的"而非"最强的" §6.3、§6.4
9 实时性 vs 联合性的张力终将被技术彻底化解 这个张力可能无法消灭、只能转移;混合架构(找最划算的转移点)比"纯方法三者兼得"更现实 §8.1
10 预测和规划可以干净地分两步(先预测他人再规划) 强交互下二者相互依赖形成"鸡生蛋"循环,分两步会失真,需博弈/一体化求解 §8.4

本章小结

本章是移动机器人规控方向的最高层导航图,做了两件事:先给整片林海定位(§1–§2 全方向地图 + 统一坐标轴),再放大其中最大那座山(§3–§8 时空联合规划深度综述)。

核心收获速查

维度 一句话结论
全方向结构 七专题 = 同一根问题逐层松绑七个理想假设(时空可分/可微/精确/无他人/单体/任务已定)的裂变
统一坐标轴 五轴(联合程度/求解范式/不确定性/交互/计算负担)= 三条"假设轴" + 两条"手段轴"
求解范式 搜索/优化/采样/学习四象限,互补非替代,现代系统混合使用
时空规划脉络 四时代(解耦 1986 → 显式时空 2009 → 连续优化 2018 → 学习生成 2022),沿"联合程度↑ + 计算前置离线"对角演进
四大流派 解耦迭代(半联合)/ 走廊+QP(联合搜优)/ 连续优化(完全联合)/ 端到端(天然联合)
选型元原则 先用假设轴框定场景不理想程度,再用手段轴挑最便宜的招;不该联合时别瞎联合
方向枢纽 时空规划与其他六专题都有接口(退化于博弈、骨架供不确定性、成果供多机、不可微让位采样、执行层供 TAMP)
开放问题根源 两个根源:能力 vs 可控的权衡、有限设计/数据 vs 无限复杂世界

时空规划方法卡片总表

把 §5.2 的 9 张卡片浓缩成一张总表,便于回查。这是本章最高频的"回查资产"。

方法 流派 范式 最适场景 最大软肋 C++ 抓手
Apollo EM 一 解耦迭代 优化(DP+QP) 高速结构化 强耦合次优 apollo planning(Apache,26k⭐)
SIPP 二 时空搜索 搜索 动态障碍栅格/MAPF低层 需障碍轨迹已知 libMultiRobotPlanning(MIT)
SSC/EPSILON 二 走廊+QP 搜索+优化 城市强交互 走廊保守度难调 EPSILON(MIT,677⭐)
MINCO/GCOPTER 三 连续优化 优化(闭式梯度) 无人机轨迹/竞速 非凸挑初值 GCOPTER(MIT,1.2k⭐)
TEB 三 连续优化 优化(g2o) 地面机器人导航 局部最优 teb_local_planner(BSD)
OBCA 三 连续优化 优化(对偶NLP) 泊车/紧凑空间 高速实时差 H-OBCA / Apollo open_space
MADER/EGO-Swarm 三+多机 优化(MIQP/梯度) 多机集群 通信鲁棒性 mader(600⭐)/ego-swarm(GPL)
ST-RRT* 二/三 采样 采样(渐近最优) 高维机械臂动态避障 收敛慢 OMPL(BSD)
UniAD/Diffusion 四 端到端 学习(IL/扩散) 复杂长尾/多模态 黑箱不可验证 无原生(PyTorch)

核心术语表

本章引入/反复使用的核心术语及其含义,首次出现位置见对应节。

术语 英文 含义 首次出现
路径-速度解耦 Path-Velocity Decomposition (PVD) 先定几何路径再排速度剖面的分步规划范式,经典栈地基 §1
时空联合程度 spatio-temporal coupling degree 一个方法在多大程度上拒绝 PVD、把空间与时间一起解(本文主轴) §2.1
安全区间 Safe Interval 某格子时间轴上无障碍占用的连续时段,SIPP 用以压缩状态空间 §3.2
时空走廊 spatio-temporal corridor (SSC/SFC) 在 (s,l,t) 联合空间里表示安全区域的凸多面体序列 §4.2
同伦类 homotopy class 不碰障碍前提下能连续形变互达的轨迹等价类(如左绕/右绕) §2.2
完备性 completeness 有解必能找到、无解能报告的算法性质 §2.3
渐近最优 asymptotic optimality 采样数趋于无穷时解收敛到最优 §2.3
微分平坦 differential flatness 系统状态与控制可由若干平坦输出及其导数代数表达(四旋翼具备) §1.2
生成-验证架构 generate-and-verify 学习模型生成候选 + 经典栈做安全兜底的混合架构 §3.3、§8.2
安全滤波器 safety filter 用可证明安全的模块(如 CBF-QP)修正学习策略输出 §8.2

知识点总表

编号 知识点 核心要点 对应节 难度
K1 七专题同源视角 同一根问题逐层松绑理想假设的裂变 §1.1 ⭐⭐
K2 方法 vs 应用分工 横切专题是方法论,无人机是完整应用实例 §1.2 ⭐⭐
K3 五轴坐标系 三假设轴 + 两手段轴定位任意方法 §2.1 ⭐⭐⭐
K4 求解范式四象限 搜索/优化/采样/学习按"可微?离散?"分象限 §2.2 ⭐⭐⭐
K5 完备性与最优性 强保证=高代价,大规模主动放弃 §2.3 ⭐⭐⭐
K6 时空规划四时代脉络 解耦→显式→连续优化→学习生成 §3.2 ⭐⭐⭐
K7 计算负担转移暗线 演进本质是算力从在线向离线转移 §3.2、§8.1 ⭐⭐⭐⭐
K8 四大流派分化 半/联合搜优/完全/天然,沿主轴递进 §4 ⭐⭐⭐
K9 优劣矩阵读法 看强项-弱项配对,不看总分排名 §5.1 ⭐⭐⭐
K10 三层选型纪律 范式→流派→实现,从外往里收敛 §6.4 ⭐⭐⭐
K11 跨专题枢纽地位 时空规划与其他六专题都有接口 §7 ⭐⭐⭐⭐
K12 开放问题两根源 能力vs可控、有限设计vs无限世界 §8 ⭐⭐⭐⭐

练习

综述类练习不是"套公式",而是**导航与判断**训练——要求你把方法摆到坐标系里、做选型决策、批判性评估。建议在纸上画图、列表作答,再对照正文检验。

基础题(巩固地图)

练习 1(方法定位):用 §2 的五条坐标轴,分别给以下三个方法打坐标(每条轴给一个定性位置):① Apollo EM Planner;② MINCO/GCOPTER;③ UniAD。然后指出:这三者在哪条轴上差异最大?在哪条轴上反而接近?

提示:注意 Apollo 和 UniAD 在"实时性"轴上都偏快,但快的机理完全不同(§5.1 观察2)。

练习 2(脉络复述):不看正文,画出时空联合规划四个时代的演进图,每个时代写出:① 核心矛盾;② 一个代表方法;③ 它解决了上一代什么问题、又留下什么新坑。重点解释"为什么说学习生成时代(IV)是解耦时代(I)的'算力平反'"。

练习 3(范式归类):把下列方法归到 §2.2 求解范式四象限的正确象限,并说明判断依据(问"可微吗?离散吗?"):CBS、MPPI、CILQR、Neural A*、ST-RRT*、Diffusion Policy。其中哪些是"跨象限"的混合方法?

进阶题(选型与对比)

练习 4(选型决策):你的团队要做一个**仓储多机器人调度系统**,规模约 200 台 AGV,要求实时(每台决策 < 50ms)、不要求全局最优但要无碰撞。走一遍 §6.1 的三个决策问题,给出推荐方法族,并说清:为什么这里**主动放弃最优性**是对的?如果规模降到 5 台、且追求总路程最短,推荐会怎么变?

练习 5(反向选型/批判):某同学说"我们的高速公路 ACC 项目要用最先进的扩散式端到端规划,这样最准"。用 §6.3 和 §8.3 的论点反驳他——指出这是哪种典型错误(提示:过度联合 + 范式层选错),并给出更划算的方案及理由。

练习 6(优劣矩阵应用):§5.1 的优劣矩阵里,"可验证性"一行流派四只有一星。假设有一天出现了一种"可形式化验证的学习式规划器"(§8.2 的圣杯),这一星变成五星。重新审视整张矩阵:这个突破会让流派四在哪些场景**立刻**取代流派一/二/三?哪些场景仍不会?为什么?

跨专题综合题(每章至少一道)

练习 7(跨专题接口):§7.1 指出 CBS(多机专题)的低层用 SIPP(时空专题)。请进一步分析:① 如果把 CBS 低层的 SIPP 换成时空规划流派三的 MINCO(连续优化),会带来什么好处和什么新问题?② 这种"高层搜索 + 低层连续优化"的混合,对应 §2.2 四象限的哪两个象限的接力?③ 举一个本方向其他专题里"高层离散 + 低层连续"的类似分层例子(提示:看 TAMP §7.5)。

练习 8(开放问题落点):找一篇 2024 年之后的时空规划或自动驾驶规划论文(可用本章延伸阅读里的综述按图索骥),判断:它在攻 §8 的哪个开放问题?用了什么招(对应哪个流派/范式)?它的软肋可能落在 §8 总结的哪个"根源"上?

这道题训练的是综述给你的元能力——用开放问题地图快速定位任意新工作。


延伸阅读

综述章的延伸阅读分两类:方向级综述论文(帮你建立更宽的全局观)和**本专题各章**(帮你深入每座山)。按需选读,不必一次读完。

方向级综述论文(建立全局观)

文献 一句话 难度
Motion Planning for Autonomous Driving: The State of the Art and Future Perspectives(arXiv:2303.09824) 自动驾驶运动规划的权威综述,pipeline + 端到端双线梳理,本章 §3/§8 的重要参照 ⭐⭐⭐
A Survey of Autonomous Vehicle Behaviors: Trajectory Planning Algorithms(Sensors 2024, 24(15):4808) 局部轨迹规划算法分类 + 碰撞风险感知,偏工程视角 ⭐⭐
A Survey of Decision-Making and Planning Methods for Self-Driving Vehicles(Front. Neurorobot. 2025) 决策与规划方法的系统分类,行为决策 + 运动规划两阶段 ⭐⭐
A Survey of RL-Based Motion Planning for Autonomous Driving(arXiv:2503.23650, 2025) 从任务视角梳理 RL 规划,呼应本方向"RL 贯穿综述" ⭐⭐⭐
A Survey of World Models for Autonomous Driving(arXiv:2501.11260, 2025) 世界模型 + 规划,§8.6"世界模型方向"的入口 ⭐⭐⭐⭐

本专题各章(深入每座山)

  • 时空规划专题(10):T0 总论 → T1 Frenet/ST → T2 走廊与搜索 → T3 轨迹优化 → T4 Apollo/Autoware → T5 多智能体 → T6 端到端扩散 → 专题内综述。本章是它们的"林海图",那 8 章是"每棵树"。
  • 专题内综述04/10_时空规划/80_综合对比与附录.md——比本章更细地打通 T1–T6 六章(含 27 篇论文分级清单、23 个开源项目分优先级、四条学习路线)。本章给方向级地图,它给专题级清单,二者互补。
  • 其他六专题总论:各专题的 10_*总论.md(采样式MPC/不确定性/博弈/多机/TAMP)——读完本章 §1/§7 后,按兴趣挑专题深入。

关键开源代码(动手验证)

仓库 对应流派 用途
ApolloAuto/apollo modules/planning 工业级解耦规划,最值得精读
ZJU-FAST-Lab/GCOPTER MINCO 官方实现,header-only
HKUST-Aerial-Robotics/EPSILON 城市交互走廊 + 行为分支
ompl/ompl 二/三采样 通用采样库,原生 space-time
mit-acl/mader 三多机 多无人机动态避障

本章与后续章节的关系

本章是方向级综述的**第一篇**,也是整个移动规控方向的入口地图。它与后续内容的关系如下:

后续内容 与本章的关系 本章哪节为其铺垫
时空规划专题 T1–T6 + 专题内综述 本章 §3–§7 是它们的方向级总览;深入前先读本章建坐标系 §3 脉络、§4 流派、§5 矩阵
方向综述(二)不确定性规划 本章 §7.2 给了时空↔不确定性的接口;那篇深挖五条子路线 §1.1、§7.2
方向综述(三)博弈规划 本章 §7.3 指出时空规划是博弈的"退化特例";那篇深挖博弈四章 §7.3、§8.4
方向综述(四)交互意图预测 本章 §8.4 的"鸡生蛋"循环是它的核心;那篇深挖预测-规划一体化 §8.4
方向综述(五)RL 与经典规控贯穿 本章 §2.2 范式四象限的"学习"象限、§8.6 是它的入口 §2.2、§3.2 时代IV、§8.6
采样式 MPC / 多机 / TAMP 各专题 本章 §7.4/§7.1/§7.5 给了它们与时空规划的接口 §7

使用建议:把本章当作**反复回看的地图**,而非读一遍就过。每学完一个专题,回到 §6 选型表和 §7 接口图,把新学的方法标到坐标系里——这样积累下来,你脑中的"方法地图"会越来越密、越来越能用来做决策。这正是 §0 说的综述独有价值:专题章给深度,本章给导航。


🔧 故障排查手册

综述类章节的"故障"不是代码报错,而是**学习与认知层面的卡点**——读综述时容易陷入的几种思维误区,以及如何排查、纠正。

# 症状 可能原因 排查步骤 相关节
1 读完仍不会选型——面对真实场景依然卡壳"该用哪个" 只记住了方法名和优缺点,没把方法压到统一坐标轴上对比过 ① 重做练习1(给方法打坐标);② 走一遍 §6.1 三个决策问题;③ 用 §6.2 决策表对照你的场景 §2.1、§6
2 混淆"先进"与"适用"——总想用最新最强的方法 误以为联合程度/范式有"进化优劣"(误解1/2/3) ① 重读 §4.5"同一枚硬币三面";② 重读 §6.3 过度联合陷阱;③ 自问"我的场景的硬需求落在矩阵哪一行" §4.5、§5.1、§6.3
3 同一方法在不同专题里学两遍——觉得 SIPP/走廊"怎么到处都是" 没建立"七专题同源、工具跨专题复用"的全局观 ① 重读 §1.1 七专题同源;② 看 §7 跨专题接口图,确认哪些是"同一份代码嵌入不同框架" §1.1、§7
3.5 以为综述能替代专题章——读完综述就以为掌握了方法 误把"导航地图"当成"实地勘探"——综述不推导、不贴代码 ① 明确综述只给"林海图",深度在专题章;② 按 §6.2 选定一个方法后,去对应专题章精读其推导与代码 §0、本章定位
4 被开放问题劝退——觉得"既然都没解决,学了也白学" 误解开放问题的意义——它们标的是研究前沿,不是否定已有方法的工程价值 ① 重读 §8.3:现实是混合架构,经典方法仍是量产主力;② 区分"研究开放"与"工程可用"——前沿未定不妨碍成熟方法落地 §1.3、§8
5 记不住方法谱系——9 张卡片/四时代/四流派混作一团 试图死记硬背,而非挂到坐标轴上 ① 只记两条主轴(联合程度 §2.1、范式四象限 §2.2);② 把每个方法挂到这两轴的某个位置,谱系自然浮现(§5.2 末洞察) §2.1、§2.2、§5.2

排查的元原则:综述类内容的认知卡点,几乎都源于"没有把方法摆到统一坐标系里"。无论遇到上面哪种症状,回到 §2 的五条轴 + 四象限重新定位,是最通用的解法。综述不是让你记住更多方法,而是让你**有一个能容纳和比较所有方法的坐标系**——卡住时,先问自己"我把这些方法摆到坐标系里了吗"。


研究实践建议

给初入本方向的读者:不要试图线性读完所有专题再开始动手。正确路径是——读完本章建立全局地图后,按 §1.4 的理由先深入时空联合规划专题(它是枢纽、生态最成熟、最能以一斑窥全豹),动手跑通 GCOPTER 或 Apollo planning 的一个 demo,建立"方法-代码"的实感。然后回到本章 §6/§7,按你的目标方向(自驾/无人机/多机)挑下一个专题。地图先行,但不要停在地图上——每张地图都要落到一次动手验证。

给有经验的读者:本章最大的价值不在 §3–§5 的脉络与对比(这些你可能已熟),而在 §2 的统一坐标轴**和 **§7 的跨专题接口图——它们提供的是"把你已有的零散经验重新组织成可决策框架"的脚手架。建议做一次练习:把你做过的所有规划项目,逐一标到 §2 五轴坐标系里,看它们聚在哪个区域、留白在哪个区域——留白处往往就是你的能力边界和下一步该补的方向。对资深工程师,综述的价值是"重新组织已知"而非"获取未知"。


本文档属于 Robotics Tutorial 项目。采用 CC BY 4.0 协议,转载请注明出处。