专题 3:博弈规划(Game-theoretic Planning)——方向级综述¶
本章定位:这是"经典规控范式横切专题层"中**博弈规划方向**的方向级综述章。它不是某个具体算法的教学章(那些在
04_移动机器人规控/40_博弈规划/的 G0–G4 正文里),而是站在整个方向的高度,回答四个问题:这个方向解决什么根本问题、它是怎么一步步发展到今天的、有哪些技术流派、它和你已掌握的传统规控是什么关系。与正文 G 系列的分工:
40_博弈规划/的 G0 总论讲"进入前的地图"、G1–G4 讲具体技术、附录讲"学完后的整合"。本综述章则是**更高一层的鸟瞰**——它把博弈规划放到"移动机器人规控全景"里定位,用学术综述的笔法梳理三十年发展脉络、流派谱系、求解器对比、与传统规控/MARL/学习方法的边界,以及悬而未决的开放问题。如果你已经读完 G0–G4,本章帮你把零散的知识点连成一张"领域演化地图";如果你还没读 G 系列,本章可以作为**进入前的高层导览**,读完后你会知道该按什么路径深入。为什么单独写一章方向级综述:博弈规划是规控里认知门槛最高、且学术演化脉络最清晰的方向之一。从 1965 年 Isaacs 的微分博弈,到 2020 年 iLQGames 让博弈"实时跑在车上",再到 2023 年 GameFormer 把博弈结构"焊进" Transformer,最后到 2024–2026 年逆博弈、贝叶斯博弈、Stackelberg MARL 的安全化浪潮——这是一条**有明确主线、有清晰转折点、有可辨识流派**的技术演化史。把这条史脉讲清楚,比孤立地讲任何一个算法都更能帮你建立"方向感"。这正是方向级综述的价值。
本章是综述/导览性质:与 G0 总论、博弈附录一样,本章重在"横向打通"与"演化梳理",不含可运行代码与逐行论文精读(那些在 G1–G4 正文)。本章的笔法接近学术综述(survey),但保留教学文档的认知工具(多视角、对比、本质洞察、陷阱)和循序渐进的展开方式。
前置自测¶
本章是方向级综述,前置门槛低于 G1–G4 正文。但若以下 5 题答不出 ≥ 3 题,建议先读完
40_博弈规划/10_博弈规划总论.md(G0)再回来——综述里会反复用到这些基本概念。
- (最优控制 vs 博弈) 单智能体最优控制求的是 \(\min_u J(x,u)\),凸情形下有唯一全局最优。当场景里出现"另一个有自己目标的决策者"时,"最优"这个词为什么不再良定义?它会塌缩成什么概念?(→ G0)
- (Nash 均衡) 什么是 Nash 均衡?"每个人在别人策略固定时无法单方面改善"这句话里,为什么"别人策略固定"是关键?石头剪刀布有纯策略 Nash 均衡吗?(→ G0 / 博弈论入门)
- (Nash vs Stackelberg) Nash 均衡假设所有玩家**同时**决策,Stackelberg 均衡假设有一个 leader **先**决策、follower **后**响应。在"自动驾驶变道"场景里,把 ego 建成 leader 还是 follower,会导致什么不同的行为?(→ G0 / G3)
- (预测-规划解耦的病) 传统自动驾驶管线是"先预测他车轨迹,再把预测当约束规划 ego"。这个解耦在"密集车流强行汇入"场景里会产生什么著名的失败模式?(提示:机器人不敢动)(→ G3 §3.4)
- (HJI vs HJB) 单人最优控制的值函数满足 Hamilton–Jacobi–Bellman(HJB)方程。当问题变成两人零和博弈时,它推广成哪个方程?这个方程为什么"算不动"?(→ G1)
本章目标¶
读完本章,你应当能够:
- 复述博弈规划的三十年发展脉络:从 Isaacs(1965)的微分博弈奠基,到 Basar–Olsder(1999)的 LQ 博弈标准化,到 Sadigh(2016)把人车交互建成 Stackelberg、Fridovich-Keil(2020)的 iLQGames 实时化、Peters(2021)的逆博弈、GameFormer(2023)的学习化、再到 2024–2026 的贝叶斯/Stackelberg-MARL 安全浪潮——能说清每个阶段"解决了上一阶段的什么遗留问题"。
- 辨识博弈规划的八大技术流派:HJI 可达性、LQ/iLQ 系列、约束 GNE 求解器、迭代最佳响应+灵敏度、层级/分解、可微博弈/学习混合、Level-k/认知层级、博弈+安全证书——给定一篇论文或一个开源项目,能判断它属于哪一派、该派的核心思想与适用边界。
- 理解 Nash 与 Stackelberg 两大均衡流派的分野:能说清"同时决策 vs 序贯决策"如何导致不同的均衡概念、不同的求解结构(耦合 KKT vs 双层优化)、不同的工程含义(对称交互 vs 谁让谁)。
- 对比主流实时求解器的取舍:iLQGames(反馈 Nash、快、约束弱)、ALGAMES(开环 GNE、约束严、需高频 MPC)、SE-IBR(启发式、工程性好、可选均衡)、GameFormer(学习式、SOTA 精度、无硬保证)——能根据场景给出选型建议。
- 厘清博弈规划与三个邻域的关系:与**传统规控**(它把"障碍"升级为"决策者")、与**MARL**(一个用显式建模+数值求解、一个用自博弈学习,求的都是博弈均衡)、与**学习式预测-规划**(GameFormer 把博弈结构注入网络)。
- 说清这个方向尚未解决的开放问题:均衡选择的不唯一性、有界理性建模、可扩展性、安全保证与博弈最优的张力、sim-to-real、以及"C++ SOTA 真空"这一工程现实。
知识导航¶
本章按"史—派—器—界—问"五段式展开,这也是读一个技术方向最自然的顺序:先看它**从哪来**(发展脉络),再看它**有哪些分支**(流派谱系),然后**横向对比工具**(求解器),接着**划清边界**(与传统规控/MARL/学习),最后**直面未解之惑**(开放问题)。
| 节 | 标题 | 回答的问题 | 难度 |
|---|---|---|---|
| §3.1 | 发展脉络:四个时代 | 这个方向是怎么一步步演化到今天的? | ⭐⭐ |
| §3.2 | 两大均衡流派:Nash 与 Stackelberg | "均衡"到底有几种?它们如何分野? | ⭐⭐⭐ |
| §3.3 | 八大技术流派谱系 | 解博弈有哪些路线?各自的核心思想与边界? | ⭐⭐⭐ |
| §3.4 | 实时求解器横向对比 | iLQGames / ALGAMES / SE-IBR / GameFormer 怎么选? | ⭐⭐⭐ |
| §3.5 | 与传统规控的关系 | 博弈规划是怎么从单智能体规控"长出来"的? | ⭐⭐ |
| §3.6 | 与 MARL、学习式方法的交界 | 显式求解 vs 自博弈学习,怎么分工? | ⭐⭐⭐ |
| §3.7 | 开放问题与未来方向 | 这个方向还有哪些悬而未决的硬骨头? | ⭐⭐⭐⭐ |
| §3.8 | 本章小结与速查 | 一张表记住整个方向 | ⭐ |
前置知识桥接¶
本章是综述,复用的前置概念不多,但有三块需要在脑中预热:
-
回顾 G0(单智能体规控的"被动世界"假设):你已掌握的 A*/RRT、MPC、LQR、CBF、卡尔曼滤波这套工具箱,有一个共同的隐含假设——世界不会因为你的决策而策略性地改变。墙不会因你靠近而移动,噪声不会针对你,可预测障碍只按自己的规律走。在这个"被动世界"里,"唯一最优解"是良定义的。博弈规划的全部出发点,就是打破这个假设——把"他人"从障碍升级为**会观察你、会响应你**的决策者。本章 §3.5 会详细展开这个"长出来"的过程。
-
回顾博弈论三个最小概念:Nash 均衡(无人能单方面改善的策略组合)、Stackelberg 均衡(leader 先动、follower 最优响应,leader 预判这个响应来优化自己)、零和 vs 一般和(zero-sum:你赢即我输,对抗;general-sum:可以双赢/双输,更贴近真实交通)。这三个概念是本章的"通用货币",§3.2 会系统展开。
-
回顾"预测-规划解耦"的工程现状:传统自动驾驶/移动机器人是两段式管线——感知预测模块吐出他车未来轨迹,规划模块把这些轨迹当成动态障碍约束、求 ego 的最优轨迹。这个解耦在弱交互场景(高速跟车)工作良好,但在强交互场景(汇入、抢行、谈判式让行)会产生 frozen robot problem(机器人因为把所有可能轨迹都当障碍而不敢动)。博弈规划的"预测即均衡"范式正是冲着这个病来的,§3.4、§3.6 会反复提到。
预计阅读时间:通读全篇约 150–180 分钟(综述章,可跳读,不必线性读完)。强烈建议按需走附录 D 的三条阅读路径,而非从头读到尾:
- 快速建立全局坐标系(约 30 分钟):§3.1 发展脉络 → §3.2 两大均衡 → §3.8 小结四张速查表 → §3.11.2 自查清单。
- 技术选型导向(约 45 分钟):§3.4 求解器对比 → §3.4.4 选型决策树 → §3.6.9 范式决策树 → §3.9 失败模式/计算画像 → §3.10 全栈案例 → 附录 C 形态迁移度。
- 研究前沿导向(约 60 分钟):§3.5–3.6 两条边界 → §3.7 七大开放问题 → §3.9.3 收敛趋势 → 附录 A.5 前沿索引。
第一次进入博弈方向,先走"快速建立全局坐标系"路径拿到地图;有具体项目时走"技术选型"路径;做研究/读前沿时走"研究前沿"路径。三条路径详见附录 D.2。
§3.1 发展脉络:博弈规划的四个时代 ⭐⭐¶
本节解决的问题:博弈规划不是某一年突然出现的,它是一条跨越六十年的技术演化河流。本节把这条河流切成四个时代,每个时代回答"上一时代留下了什么问题、这一时代怎么解决、又留下什么新问题"——让你看到整个方向的**因果链**,而不是一堆孤立的论文名字。
3.1.1 为什么要先讲历史¶
在扎进任何一个具体算法(HJI 方程、iLQGames、逆博弈)之前,先理解这个方向的演化史有三个不可替代的价值:
第一,历史揭示动机。iLQGames 为什么要把博弈"局部 LQ 近似"?因为它的前驱 HJI 方程虽然给出全局最优,却被维度诅咒卡死在 4–5 维——理论上对、工程上跑不动。不知道这段历史,你会觉得 iLQGames 的近似"凭空而来、莫名其妙地损失了最优性";知道这段历史,你会明白它是"为了能跑起来而做的、必要的妥协"。这正是编写规范 R5"先动机后理论"在方向尺度上的体现。
第二,历史揭示流派。今天看到的八大技术流派(§3.3),不是有人坐下来设计出来的分类,而是历史上不同研究组、为解决不同子问题、沿不同数学工具自然分化出来的。HJI 派源于 Isaacs 的微分对策与 Tomlin 的航空避撞;iLQ 派源于把单人 iLQR 的成功经验"搬"到博弈;逆博弈派源于"对手代价未知"这个 iLQGames 回避的硬伤。理解了分化的历史动因,流派分类就不再是死记硬背,而是有逻辑可循。
第三,历史揭示趋势。从"理论最优但算不动"(HJI)→"实时但代价已知"(iLQGames)→"代价可推断"(逆博弈)→"端到端学习"(GameFormer)→"安全兜底"(Stackelberg-MARL + CBF),这条主线指向一个清晰的趋势:博弈规划正在从"纯模型驱动的求解器"演化为"模型与学习融合、且带硬安全保证的交互决策系统"。看清趋势,你才能判断哪些是值得长期投入的方向、哪些是已经被时代超越的技术。
本质洞察(技术史是一条"补漏链"):博弈规划六十年的演化,本质上是一条**"前一代留下的漏洞,被后一代针对性修补"**的链条。每一个里程碑工作,都可以用一句话概括为"它修补了前驱的哪个致命假设"。HJI 修补了"单智能体最优控制无法处理对抗";iLQGames 修补了"HJI 算不动";逆博弈修补了"iLQGames 假设对手代价已知";CBF-博弈修补了"逆博弈推断可能出错"。把握住这条"补漏链",你就握住了整个方向的主轴——后文每介绍一个时代,都会明确指出它补的是哪个漏。
3.1.2 第一时代(1965–1999):理论奠基¶
这个时代解决的问题:如何用数学语言精确刻画"两个对抗的决策者在连续时间、连续状态下博弈"?
博弈规划的源头,是 Rufus Isaacs 1965 年的专著《Differential Games》。Isaacs 在兰德公司研究军事追逃问题(pursuit-evasion)——一架战斗机追另一架、一艘舰艇拦截另一艘——把它形式化为**零和微分博弈**:两个玩家同时操控一个耦合的微分方程系统,一个想最小化某代价(被捕获时间),另一个想最大化它。Isaacs 给出了刻画这类博弈值函数的偏微分方程,后人称之为 Hamilton–Jacobi–Isaacs(HJI)方程——它是单人最优控制 HJB 方程的博弈推广,把 HJB 里的单个 \(\min_u\) 换成了 \(\min_u\max_v\)(或 \(\max_v\min_u\))。
多视角理解(HJI 方程的三种看法): - 控制论视角:HJI 是 HJB 的"对抗版"——把单人优化的"哈密顿量最小化"换成"鞍点(minimax)"。像/不像:像在于都是值函数满足的一阶非线性 PDE,求解思路(特征线、水平集)一脉相承;不像在于鞍点的存在性需要额外条件(Isaacs 条件,即 \(\min\max=\max\min\)),而单人 min 总是良定义的。 - 博弈论视角:HJI 刻画的是连续时间零和博弈的 Nash 均衡(零和情形下 Nash = minimax = 鞍点,三者重合)。 - 安全验证视角:当代价取"到危险集的带符号距离"时,HJI 的解(值函数的零水平集)恰好是"无论对手怎么动都会进入危险的状态集合"——这就是**可达性分析(reachability)**,是后来 G4 安全证书的理论源头。
紧随其后的奠基性工作是 Tamer Basar 与 Geert Jan Olsder 1999 年的《Dynamic Noncooperative Game Theory》(实为 1982 年初版、1995/1999 修订)。如果说 Isaacs 开创了连续微分博弈,Basar–Olsder 则把**动态非合作博弈的整套理论框架标准化**了:它系统地区分了 Nash 与 Stackelberg 均衡、开环与反馈信息结构、零和与一般和博弈,并给出了**线性二次(LQ)博弈的闭式解**——一组耦合的 Riccati 方程。这组耦合 Riccati 方程极为重要:它是后来 iLQGames 每一步迭代所解的子问题(正如单人 LQR 的 Riccati 是 iLQR 每步迭代的子问题)。Basar–Olsder 至今仍是动态博弈领域的标准研究生教材。
这个时代留下的问题:理论框架完备了,但 HJI 方程的数值求解面临**维度诅咒**——状态空间需要离散成网格,状态每多一维、网格点数指数爆炸,实际可解的维度被卡在 4–5 维。而真实机器人交互(哪怕是两辆车的简单博弈,各自 4 维状态就有 8 维联合状态)远超这个上限。"理论上对、工程上算不动",成了第一时代留给后人的核心遗产与核心难题。
3.1.3 第二时代(1999–2016):从纯理论到机器人交互¶
这个时代解决的问题:如何把抽象的微分博弈理论,对接到真实的多机器人/人车交互场景?
这个时代横跨约十五年,是博弈规划从"控制理论的一个分支"逐渐渗透进"机器人学"的过渡期。几条线索并行:
多机概率追逃与航空避撞。Berkeley 的 Hespanha–Kim–Prandini–Sastry 把追逃博弈推广到多机器人、带概率不确定性的版本。Tomlin 组(Mitchell、Bayen、Tomlin 2005 的经典 T-AC 论文)把 HJI 可达性分析做成航空避撞(TCAS)的安全验证工具——给定两架飞机的相对动力学,计算"无论对方怎么飞都无法避免碰撞"的危险集。这条线确立了 **HJI 可达性 = 严格安全证书**的范式,也暴露了它的可扩展性天花板(实用上限约 5 维相对状态)。这些工作后来汇成 BEACLS、helperOC 等可达性工具箱,是 G1 与 G4 安全证书的工程源头。
里程碑:Sadigh 2016 把人车交互建成 Stackelberg。真正把博弈规划"拉进"主流机器人会议的转折点,是 Dorsa Sadigh、Shankar Sastry、Sanjit Seshia、Anca Dragan 在 RSS 2016 的 "Planning for Autonomous Cars that Leverage Effects on Human Actions"。这篇论文的范式转变在于:它不再把人类驾驶员当成"需要被预测、被避让的动态障碍",而是建成一个**会对 ego 行为做出响应的 follower**——ego 是 leader,人是 follower,构成一个 Stackelberg 博弈(也称 underactuated dynamical system,欠驱动系统:ego 通过自己的动作"间接操控"人类的反应)。更进一步,它用**逆强化学习(IRL)**从人类驾驶数据中学出人类的代价函数。
本质洞察(Sadigh 2016 的真正贡献不是算法,是视角翻转):在 Sadigh 之前,"人车交互"在自动驾驶里是个**预测问题**("那辆车接下来会去哪?")。Sadigh 把它翻转成一个**博弈问题**("如果我这样开,那辆车会怎么反应?我能不能用我的动作'引导'它让行?")。这个翻转的威力在于:它让 ego 主动利用交互——比如微微向车道线挪动来"试探"并促使旁车减速让行,而不是被动等待预测结果。这种"主动影响他人"的能力,是任何把他人当障碍的方法永远无法获得的。这个视角后来被 Fisac、Tian、GameFormer 等一路继承发扬。
这个时代留下的问题:Sadigh 的方法虽然范式先进,但计算上仍然偏重(嵌套优化 + IRL),难以做到高频实时;而且它聚焦两人 leader-follower,对**多玩家、一般和、实时反馈**的博弈尚无高效解法。"如何让博弈规划真正高频跑在车上",成了第三时代的核心命题。
3.1.4 第三时代(2018–2021):实时化爆发¶
这个时代解决的问题:如何在保留博弈交互结构的前提下,把求解时间从"离线分钟级"压到"在线毫秒级",让博弈规划真正进入 MPC 控制回路?
这是博弈规划方向最热闹、产出最密集的三年。核心思路高度一致——放弃 HJI 的全局最优,转而求局部均衡,用迭代优化逼近。几个标志性工作沿不同数学路线同时发力:
Spica–Schwager RSS 2018:迭代最佳响应(IBR)+ 灵敏度。两人无人机竞速场景,提出 Sensitivity-Enhanced Iterated Best Response(SE-IBR):在标准"我固定你、优化我;你固定我、优化你"的交替迭代中,额外加入一个**灵敏度项**,让每个玩家在优化时考虑"对手的最优响应会如何随我的策略变化"。这让求解器能主动选出"让对手最受限"的均衡,涌现出 block(堵抢位)、overtake(超车)等竞技行为。SE-IBR 工程性极好,后来被 Wang–Schwager 在 T-RO 2021 推到 **Audi TTS 实车级**自动驾驶赛车。
Fisac ICRA 2019:层级博弈规划。Jaime Fisac 等提出把博弈规划**分解成两层**——上层"战略博弈"在粗粒度(长时域、低频)上求解谁让谁的全局意图,下层"战术规划"在细粒度(短时域、高频)上执行。这种**时空分解**缓解了"既要长时域博弈、又要高频实时"的根本张力,是处理可扩展性的经典工程套路。
里程碑:Fridovich-Keil ICRA 2020 的 iLQGames。这是第三时代最具影响力的工作。David Fridovich-Keil、Ellis Ratner、Lasse Peters、Anca Dragan、Claire Tomlin 把单人的 iLQR(迭代 LQR)直接推广到 N 人一般和博弈:在每个时刻把非线性博弈**局部二次/线性化**成一个 LQ 博弈,解 Basar–Olsder 那组耦合 Riccati 方程得到反馈策略,前向 rollout,反复迭代直到收敛。论文报告 14 维状态场景下滚动时域求解 < 50 ms——真正的毫秒级实时。
本质洞察(iLQGames = "iLQR 换内核"):iLQGames 与单人 iLQR 的算法骨架**完全一致**——线性化、二次化、反向 Riccati、前向 rollout、line search——唯一的区别是反向那一步解的是**耦合的** N 人 Riccati(每个玩家一个,互相耦合)而非单人 Riccati。这个"换内核"的洞察极其重要:它意味着**几十年积累的单人最优控制工程经验(iLQR 的收敛技巧、正则化、warm start)几乎可以原样迁移到博弈**。这正是 iLQGames 能快速成熟、并成为本方向唯一主力 C++ 抓手(HJReachability/ilqgames)的根本原因。像/不像:像在于算法流程、代码结构高度同构;不像在于输出的是反馈 Nash 均衡(多个互相最优响应的策略)而非单一最优策略,且收敛到的是局部均衡、可能不唯一。
里程碑:Le Cleac'h RSS 2020 的 ALGAMES。Simon Le Cleac'h、Mac Schwager、Zac Manchester 走了另一条路——直接把广义 Nash 均衡(GNE)的 KKT 条件当作一个大型根搜索问题,用**增广拉格朗日(Augmented Lagrangian)+ 拟牛顿**严格处理**硬约束**(碰撞约束、控制限幅)。这弥补了 iLQGames"硬约束处理弱"的短板,报告 60 Hz MPC 实时。代价是它输出的是**开环 GNE**(一条轨迹而非反馈策略),需要高频 MPC 滚动才能获得闭环反馈效果。
这个时代留下的问题:iLQGames、ALGAMES、SE-IBR 全都假设**对手的代价函数已知**——iLQGames 要你写出对手的代价项,ALGAMES 要你知道对手的约束,SE-IBR 要对对手的优化问题求灵敏度。可现实里,路口那辆车想直行还是右转、对向司机激进还是谦让、行人会不会突然加速,对手的真实意图恰恰是未知的。"代价已知"这个隐含前提,成了第四时代要攻克的硬骨头。
3.1.5 第四时代(2021–2026):逆博弈、学习化与安全浪潮¶
这个时代解决的问题:(1)对手代价未知怎么办?(2)能否端到端学习博弈交互?(3)当推断/学习可能出错时,如何保证硬安全?
这是博弈规划当下正在发生的时代,三股浪潮交织:
浪潮一:逆博弈(inverse games)——从"代价已知"到"代价可推断"。Lasse Peters 等 RSS 2021 / IJRR 2023 "Inferring Objectives in Continuous Dynamic Games" 是这条线的奠基。核心思想:把"从观测到的多智能体轨迹反推每个玩家的代价"写成一个**最大似然估计(MLE)问题——把 Nash 解看成代价参数的隐函数,用**隐函数定理**求"均衡对参数的梯度",从而构造一个**可微的博弈求解器(differentiable game solver),用一阶优化反推代价。这是一个范式跃迁:博弈求解器从"黑板上的均衡概念"变成"可以嵌进 PyTorch/Flux、用梯度训练的一层"。后续 Li 等 AAMAS 2023 把它扩展到**带噪声部分观测、不完整轨迹**的反馈博弈;Liu 等 WAFR 2024 "Auto-Encoding Bayesian Inverse Games" 用 VAE + 可微 Nash 求解器**给出对手代价的**贝叶斯后验(不只是点估计,而是带不确定性的分布);2025–2026 进一步出现高维多模态观测下的贝叶斯逆博弈、以及 Level-2 逆博弈(推断"对手认为别人会怎么做",即 theory-of-mind 的博弈版)。
浪潮二:学习化——把博弈结构焊进神经网络。代表是 Zhiyu Huang 等 ICCV 2023 的 GameFormer。它把 Level-k 认知层级**思想嵌进 Transformer 的层级 decoder:第 \(k\) 层的预测以第 \(k-1\) 层所有智能体的预测为条件,逐层精化交互——本质是用神经网络**隐式逼近**博弈均衡的迭代过程。GameFormer 在 Waymo 交互预测和 nuPlan 闭环规划上拿下 SOTA,证明"博弈结构 + 端到端学习"能同时获得**博弈的交互合理性**与**学习的精度和泛化。这条线与"交互意图预测"专题(本横切层 §4)深度交叠——DIPP、GameFormer、PLUTO 都站在博弈与学习的交叉点上。
浪潮三:安全化——给会出错的博弈兜底。当逆博弈推断的代价不准、Level-k 估错了对手层级、GameFormer 的学习预测违反真实约束时,"基于均衡的规划"可能算出不安全的动作。于是出现两条兜底路线:(a)博弈 + 控制屏障函数(CBF)——多个机器人各解一个带共享 CBF 约束的最小范数 QP,这组 QP 的 KKT 条件**联合等价于一个 GNE**,安全证书自动成为博弈均衡的一部分;前沿是用图神经网络把这套证书**学**出来、扩展到上千 agent(GCBF+,T-RO 2025)。(b)Stackelberg / 安全 MARL——在多智能体强化学习里引入 Stackelberg 结构(leader 承诺、follower 响应)来稳定训练、并把安全约束作为博弈的一部分;2022–2024 出现大量 "Oracles & Followers"、"differential Stackelberg equilibria"、welfare-equilibria 等工作,试图让自博弈学出的策略既收敛又安全。
本质洞察(第四时代的统一主题是"承认不确定、并为之兜底"):前三个时代有一个共同的乐观假设——博弈的设定是确定且正确的(代价已知、模型准确、对手理性)。第四时代集体放弃了这个乐观:逆博弈承认"对手代价未知,要推断",贝叶斯逆博弈进一步承认"推断本身有不确定,要给后验",学习化承认"精确建模困难,不如从数据学",安全化承认"推断和学习都可能错,要有不依赖它们正确性的硬兜底"。这条从"假设确定"到"拥抱并管理不确定"的转变,与整个机器人学(乃至整个 AI)的大趋势完全一致。
这个时代尚未解决的问题:均衡选择的不唯一性、有界理性的精确建模、大规模可扩展性、安全与最优的张力、以及一个尴尬的工程现实——SOTA 几乎全在 Julia/Python,C++ 侧只剩 iLQGames 一个主力且已停止维护。这些将在 §3.7 开放问题中详细展开。
3.1.6 四个时代的代表性工作一览¶
把四个时代的里程碑工作汇成一张表,作为本节的"地图"。建议读完本节后回看这张表,确认你能说清每个工作"补了前驱的什么漏"。
| 时代 | 年份 | 代表工作 | Venue | 核心贡献 | 补了什么漏 |
|---|---|---|---|---|---|
| 一·奠基 | 1965 | Isaacs《Differential Games》 | Wiley | HJI 方程、零和微分博弈 | 单智能体最优控制无法处理对抗 |
| 1999 | Basar & Olsder《Dynamic Noncooperative Game Theory》 | SIAM | Nash/Stackelberg、LQ 博弈耦合 Riccati 闭式解 | 缺乏统一理论框架与标准教材 | |
| 2005 | Mitchell–Bayen–Tomlin | IEEE T-AC | HJI 可达性 = 航空避撞安全证书 | 抽象博弈缺安全验证落地 | |
| 二·机器人化 | 2016 | Sadigh et al. | RSS | 人车交互建成 Stackelberg + IRL 学人类代价 | 把"他人"从障碍升级为决策者 |
| 2018 | Spica–Schwager | RSS | SE-IBR:两人无人机竞速求 Nash | IBR 缺主动选均衡的机制 | |
| 2019 | Fisac et al. | ICRA | 层级博弈(战略+战术分解) | 长时域博弈与高频实时的张力 | |
| 三·实时化 | 2020 | Fridovich-Keil et al.(iLQGames) | ICRA | iLQR 推广到 N 人一般和,毫秒级反馈 Nash | HJI 算不动(维度诅咒) |
| 2020 | Le Cleac'h et al.(ALGAMES) | RSS / AURO | 增广拉格朗日求带硬约束 GNE,60 Hz | iLQGames 硬约束处理弱 | |
| 2021 | Wang et al. | IEEE T-RO | 实车级 SE-IBR(Audi TTS,涌现竞技行为) | 博弈规划缺实车验证 | |
| 四·推断/学习/安全 | 2021 | Peters et al.(逆博弈) | RSS / IJRR | 可微博弈求解器 + MLE 反推代价 | iLQGames 假设对手代价已知 |
| 2023 | Huang et al.(GameFormer) | ICCV | Level-k 嵌入 Transformer,端到端 SOTA | 显式建模精度/泛化不足 | |
| 2024 | Liu et al.(贝叶斯逆博弈) | WAFR | VAE + 可微 Nash,给代价的贝叶斯后验 | 逆博弈只给点估计、无不确定性 | |
| 2025 | GCBF+ | IEEE T-RO | 神经图 CBF,安全证书扩展到上千 agent | 推断/学习可能出错、缺硬安全兜底 |
对比性思维(不是"新方法淘汰旧方法",而是"各占生态位"):读技术史最容易犯的错,是以为"后一代淘汰前一代"。博弈规划恰恰相反——四个时代的方法**今天仍并存且各有不可替代的位置**。HJI 没被淘汰:它仍是**安全证书的金标准**(虽然只能用于低维);iLQGames 没被逆博弈淘汰:逆博弈在内层**调用** iLQGames 这类正向求解器;GameFormer 没取代 iLQGames:前者精度泛化强但无硬保证、后者可解释且能给反馈策略。把"演化"理解成"生态分化"而非"线性替代",是读懂任何技术方向的关键认知。
3.1.7 过渡:从"史"到"派"¶
上面我们沿时间轴走了一遍,看到了博弈规划如何从 Isaacs 的微分对策一路演化到今天的贝叶斯逆博弈与安全 MARL。但时间轴是**一维**的,而真实的技术版图是**多维**的——同一时代往往有多条技术路线并行,不同路线又会在后续时代交汇分叉。
所以接下来两节,我们换一个切面:§3.2 先讲"均衡概念"这条最根本的分野(Nash vs Stackelberg——这是所有博弈规划方法的"世界观"差异),§3.3 再讲"求解技术"的八大流派谱系(怎么算出均衡)。理解了"求什么均衡"和"怎么求"这两个正交维度,你就能给任何一篇博弈规划论文精确定位。
§3.2 两大均衡流派:Nash 与 Stackelberg ⭐⭐⭐¶
本节解决的问题:博弈规划里反复出现"Nash 均衡""Stackelberg 均衡""广义 Nash 均衡(GNE)""反馈 Nash""开环 Nash"等一堆带"均衡"的词。它们到底什么关系?为什么有这么多种?本节把均衡概念这条最根本的分野梳理清楚——这是理解后续所有求解器的"世界观"基础。
3.2.1 为什么"均衡"取代了"最优"¶
回顾 G0 的核心认知跨越:在单智能体世界里,"最优"是良定义的——你优化你的代价 \(\min_u J(x,u)\),世界不还手,凸情形下存在唯一全局最优。但一旦场景里出现第二个有自己目标的决策者,"最优"就**塌缩成了"均衡"**。
原因很简单:你的最优动作依赖对手的动作,而对手的最优动作又依赖你的动作——这是一个**鸡生蛋、蛋生鸡的循环依赖**。没有"客观最优"可言,只有"自洽"的策略组合:一组策略,使得在这组策略下,没有任何玩家能通过单方面改变自己的策略而获益。这样的自洽策略组合,就是 Nash 均衡。
多视角理解(Nash 均衡的三种直觉): - 不动点视角:定义"最佳响应映射" $BR_i(\text{其他人策略}) = $ 玩家 \(i\) 在别人策略固定时的最优策略。Nash 均衡就是这个映射的**不动点**——所有人都在对别人最佳响应,没人想动。像/不像:像数值分析里的不动点迭代(IBR 就是迭代这个映射求不动点);不像在于不动点可能不唯一、可能不存在(纯策略下)、迭代可能不收敛。 - "没人后悔"视角:均衡处,每个玩家事后回看都不后悔——"即便我现在知道别人会这么做,我也不会改变我的选择"。这是均衡"稳定"的本质。 - 物理平衡视角:像多个弹簧连接的质点系统达到力平衡——每个质点都不再受净力(无改善方向),但平衡点可能有多个(多稳态),也可能因扰动而失稳。
3.2.2 Nash 均衡:同时决策的对称世界¶
**Nash 均衡**假设所有玩家**同时**做决策,谁也不比谁先动、谁也不被谁领导——这是一个**对称**的设定。它适合刻画"地位平等的交互":两辆车在无信号灯路口同时到达、多架无人机竞速、多机器人编队协调。
Nash 均衡内部又按**信息结构**分两种,这个区分在工程上极其重要:
| 维度 | 开环 Nash(Open-Loop) | 反馈 Nash(Feedback / Markovian) |
|---|---|---|
| 策略形式 | 一条预先算好的动作序列 \(u_i(t)\) | 一个状态反馈律 \(u_i = \pi_i(x,t)\) |
| 承诺假设 | 每个玩家在 \(t=0\) 承诺整条轨迹,不再改 | 每个玩家随时根据当前状态重新决策 |
| 对扰动的鲁棒性 | 弱——扰动后仍执行旧序列 | 强——扰动后自动按新状态响应 |
| 求解难度 | 相对低(一组耦合两点边值问题) | 高(需解耦合 Riccati / HJI) |
| 典型方法 | ALGAMES(输出开环 GNE) | iLQGames(输出反馈 Nash) |
| 工程含义 | 需高频 MPC 滚动重算才有反馈效果 | 天然带反馈,单次求解即可闭环 |
本质洞察(开环 vs 反馈的本质是"何时观测对手"):开环 Nash 假设所有玩家在博弈开始时就把整条轨迹"拍死",之后不再互相观测、不再调整——好比两个棋手赛前各自写好全部 100 步、然后闭眼按本子下。反馈 Nash 假设玩家**持续观测当前状态并实时响应**——好比正常对弈,每步都看着棋盘下。真实交互显然更像后者(你会盯着旁车的实时动作调整),所以反馈 Nash 更贴近现实、对扰动更鲁棒;但它的求解(耦合 Riccati / HJI)也更难。这就是为什么 iLQGames(求反馈 Nash)被视为"更强"的解、而 ALGAMES(求开环 GNE)需要靠高频 MPC 滚动来"补"出反馈效果。
广义 Nash 均衡(GNE)**是 Nash 的一个重要推广:标准 Nash 里每个玩家的可行域是独立的,而 GNE 里玩家们**共享耦合约束(最典型的就是"任意两个机器人不能碰撞"——这个约束同时涉及多个玩家的状态)。共享约束让玩家的可行域互相依赖,求解结构也随之变化(KKT 条件里出现共享约束的拉格朗日乘子)。ALGAMES、CBF-博弈求的都是 GNE。GNE 是机器人交互里最常见的均衡类型,因为"避碰"这个核心约束天然是共享的。
3.2.3 Stackelberg 均衡:序贯决策的领导-跟随世界¶
Stackelberg 均衡**打破了 Nash 的对称性:有一个 **leader(领导者)先决策并承诺,follower(跟随者)观测到 leader 的决策后再做最优响应。关键在于——leader 不是盲目先动,而是预判 follower 会如何最优响应,并据此优化自己的决策。
这导致一个**双层(bi-level)优化结构**:
外层 leader 优化自己的代价,但代价里嵌套着内层"follower 对 leader 决策的最优响应函数" \(u_F^*(u_L)\)。求解这个结构的关键技术是**对内层用隐函数定理求导**("follower 的最优响应如何随 leader 的决策变化"),这与 SE-IBR 的灵敏度项、逆博弈的梯度引擎是同一套数学。
对比性思维(Nash vs Stackelberg 不是"哪个更对",而是"建模谁领导"): 一个极具迷惑性的问题是"我该用 Nash 还是 Stackelberg?"。答案不是"哪个更先进",而是**"你的场景里存在领导关系吗?"。 - 用 **Nash:当交互双方**地位对称、同时决策**——无信号灯路口两车同时到达、竞速、对等编队。 - 用 Stackelberg:当存在**明确的领导-跟随关系**——自动驾驶里 ego 想"主动引导"人类司机(Sadigh 2016,ego 是 leader);或反过来,把人类建成 leader、机器人谦让跟随(人机协作里常见,HRI 的 cooperative Stackelberg)。 注意同一物理场景可以有不同建模选择,且选择直接决定行为:Sadigh 把 ego 建成 leader → ego 会试探性地引导旁车让行;若建成 follower → ego 会保守地等旁车先动。建模选择即行为选择,这是博弈规划区别于传统规控的深刻之处——传统规控里"我"永远是唯一主体,无所谓领导关系。
3.2.4 一张图厘清均衡概念的谱系¶
把上面的概念整理成一棵"均衡概念树",这是本节最该记住的结构:
博弈均衡
│
┌──────────────────┴──────────────────┐
同时决策(对称) 序贯决策(非对称)
Nash 均衡 Stackelberg 均衡
│ (leader-follower)
┌────┴────┐ 双层优化结构
信息结构 约束结构 隐函数定理求内层响应
│ │ 典型:Sadigh 2016、HRI 协作
┌──┴──┐ ┌───┴────┐
开环 反馈 独立约束 共享约束
(ALGAMES)(iLQGames)(标准Nash)(GNE: ALGAMES/CBF-博弈)
再叠加一个正交维度——零和 vs 一般和:
| 零和(zero-sum) | 一般和(general-sum) | |
|---|---|---|
| 含义 | 一方所得 = 另一方所失,纯对抗 | 玩家代价独立,可双赢/双输 |
| 均衡特性 | Nash = minimax = 鞍点(三者重合) | Nash ≠ minimax,可能多均衡 |
| 典型场景 | 追逃、空战、对抗博弈 | 交通汇入、变道、协作(绝大多数真实交互) |
| 代表方法 | HJI(Isaacs)、可达性 | iLQGames、ALGAMES、GameFormer |
本质洞察(真实交通几乎都是"一般和",这件事比想象中重要):很多人对博弈的第一印象来自零和游戏(棋类、扑克、追逃),于是误以为博弈规划就是"你死我活的对抗"。但真实道路交互**绝大多数是一般和**——汇入时双方都希望"安全且高效",理想结果是双赢(你让一点、我也让一点,都不堵)。这件事的深远影响在于:零和博弈有漂亮的理论性质(鞍点存在唯一、minimax 定理),而**一般和博弈的 Nash 均衡可能不唯一、不存在纯策略、求解器只能收敛到局部均衡**——这正是 §3.7 "均衡选择"开放问题的根源。把"真实交互是一般和"刻进认知,你才能理解为什么博弈规划比下棋 AI 难得多。
3.2.5 把抽象落地:无保护左转里 Nash 与 Stackelberg 给出什么不同的解¶
均衡概念抽象,用一个贯穿全方向的例子——无保护左转(ego 要左转,对向有一辆直行车)——把 Nash 和 Stackelberg 的差异落到具体行为上。
- 建模为 Nash(同时决策):ego 和对向车**同时**决定加速/减速,各自假设对方也在最优响应。求出的 Nash 可能是"ego 让、对向先过",也可能是"ego 抢、对向让"——有多个 Nash(§3.7.2 均衡选择问题在此具体显形)。若双方对"该停在哪个 Nash"的理解不一致(ego 以为对方让、对方以为 ego 让),就会僵在路口甚至对撞。
- 建模为 Stackelberg(序贯决策):假设有明确的先后——比如 ego 作为 leader 先动(轻轻往前探),对向车作为 follower 观察后最优响应(看到 ego 探头就减速让)。ego 在决策时**预判**了"我探头、对方会让"这个响应,于是敢于果断左转。Stackelberg 解通常**唯一**(给定谁是 leader),消除了 Nash 的多均衡僵局。
| 维度 | Nash 建模 | Stackelberg 建模 |
|---|---|---|
| 谁先动 | 同时 | leader 先(ego 探头) |
| 解的数量 | 可能多个(僵局风险) | 通常唯一(给定 leader) |
| ego 的行为 | 保守(怕选错均衡) | 果断(预判对方会让) |
| 适用前提 | 真正对称、无明确路权 | 有明确先后/路权,或 ego 能主动引导 |
| 风险 | 多均衡协调失败 → 僵局/对撞 | "谁是 leader"假设错 → 误判(你以为你 leader,对方不认) |
对比性思维(同一个左转场景,建模为 Nash 还是 Stackelberg,决定了车"敢不敢果断"):这个例子最锋利的启示是——均衡概念的选择不是数学品味,而直接决定了机器人的行为风格与失败模式。建模为 Nash,车会"保守"(因为它知道有多个均衡、怕选错,倾向于等一个明确信号),失败模式是僵局(双方都等对方);建模为 Stackelberg,车会"果断"(因为它假设自己是 leader、预判对方会让),失败模式是误判(假设了错误的 leader 角色,对方根本不认你这个 leader、不让,就有危险)。像/不像:两种建模像在于都求博弈均衡、都在处理同一个左转;不像在于对"谁先谁后"的假设——Nash 假设对称同时,Stackelberg 假设有明确先后。这正回扣 §3.2.3 和 G2 §2.1 的核心——Sadigh 2016 的范式转变,本质就是发现"把驾驶交互建模为 Stackelberg(ego 主动引导)比建模为 Nash 更能让车果断、更贴合'人类司机其实在互相试探引导'的现实"。选 Nash 还是 Stackelberg,是建模者替机器人做的一个性格决定。
3.2.6 过渡:从"求什么均衡"到"怎么求均衡"¶
§3.2 厘清了**求什么**(Nash/Stackelberg、开环/反馈、零和/一般和、标准/广义)。但知道"目标是哪种均衡"还不够——同一种均衡可以用截然不同的算法求解。HJI 用偏微分方程、iLQGames 用迭代 LQ、ALGAMES 用根搜索、GameFormer 用神经网络。怎么求,就是下一节 §3.3 八大技术流派要回答的问题。
§3.3 八大技术流派谱系 ⭐⭐⭐¶
本节解决的问题:博弈规划的求解方法五花八门,初学者面对一堆论文常常一头雾水——HJI、iLQGames、ALGAMES、SE-IBR、GameFormer、PSRO……它们是平行的吗?有交集吗?本节把求解技术系统地分成**八大流派**,给出每派的核心思想、代表工作、适用边界,让你拿到任何一篇论文都能快速归类、判断其位置与局限。
3.3.1 流派分类的两个坐标轴¶
在列举八派之前,先建立两个**正交的分类坐标**,它们决定了八派的相对位置:
- 坐标一·模型驱动 ↔ 数据驱动:是显式写出动力学和代价、用数值方法求解(模型驱动,如 HJI、iLQGames),还是从数据中学出策略/均衡(数据驱动,如 GameFormer、PSRO)?
- 坐标二·全局精确 ↔ 局部近似:是追求全局最优均衡(如 HJI 的全局博弈值),还是只求局部均衡以换取实时性(如 iLQGames 的局部反馈 Nash)?
八大流派在这两个坐标上的大致分布:
| 流派 | 模型↔数据 | 全局↔局部 | 一句话定位 |
|---|---|---|---|
| (1) HJI 可达性 | 纯模型 | 全局精确 | 理论金标准,安全证书,≤5 维 |
| (2) LQ/iLQ 系列 | 纯模型 | 局部近似 | 反馈 Nash,实时,主力工程线 |
| (3) 约束 GNE 求解器 | 纯模型 | 局部(KKT 根) | 硬约束严格,开环 GNE |
| (4) 迭代最佳响应 + 灵敏度 | 纯模型 | 局部启发 | 工程性好,可选均衡,实车落地 |
| (5) 层级/分解 | 模型为主 | 分层近似 | 拆战略+战术解可扩展性 |
| (6) 可微博弈/学习混合 | 模型+数据 | 局部+可学 | 求解器当 PyTorch 层,cost 推断 |
| (7) Level-k / 认知层级 | 模型+数据 | 局部(有界理性) | 人类非完美理性的建模 |
| (8) 博弈 + 安全证书 | 模型 | 局部+硬保证 | CBF-QP=GNE,安全兜底 |
多视角理解(八派之间不是互斥,而是"可叠加的积木"):初学者容易把八派当成"八选一"的互斥选项。实际上它们大量**叠加组合**:iLQGames(派2)可以做成层级(派5)来扩展规模;逆博弈(派6)在内层调用 iLQGames(派2)做正向求解;CBF-博弈(派8)求的 GNE 本身就用派3的求解器解;GameFormer(派7+派6的混合)把 Level-k 思想用神经网络实现。所以正确的心智模型是:八派是八种"积木",真实系统往往是几块积木的拼装。下面逐派讲解时会反复指出这些叠加关系。
3.3.2 流派(1):HJI 可达性——理论最强、scale 最差¶
核心思想:用 Hamilton–Jacobi–Isaacs 偏微分方程刻画零和博弈的全局值函数,其零水平集给出严格的安全/危险集。这是博弈规划唯一能给出**全局最优**和**严格安全证书**的流派。
代表工作:Isaacs 1965(奠基)、Mitchell–Bayen–Tomlin 2005(可达性 = 避撞证书)、Bansal–Chen–Herbert–Tomlin 系列(level-set 数值方法、FaSTrack 分解)。工具箱:BEACLS、helperOC、Level Set Toolbox。
适用边界:状态空间需离散成网格,**维度诅咒**把实用上限卡在 4–5 维。所以它的现实角色是:(a)低维相对动力学的安全验证(两机相对位姿约 5 维);(b)为高维方法提供"对的标尺"——用它在小问题上验证近似方法的解有多接近全局最优;(c)通过分解(FaSTrack 把"规划器 + 跟踪误差 tube"解耦)间接服务高维系统。
对比性思维(HJI 不是"过时的方法",而是"高精度低产能的金标准"):拿 HJI 和 iLQGames 对比就像拿"精密天平"和"电子秤"对比——天平(HJI)极准但称一次很慢、量程小(低维);电子秤(iLQGames)快、量程大(高维),但精度是近似的。你不会因为有了电子秤就扔掉天平——校准电子秤时还得靠天平。同理,HJI 在博弈规划里永远占据"理论标尺与安全金标准"的生态位。
3.3.3 流派(2):LQ/iLQ 系列——实时反馈 Nash 的主力线¶
核心思想:把一般非线性博弈在每个时刻**局部线性化/二次化**成一个 LQ 博弈,解 Basar–Olsder 那组耦合 Riccati 得到反馈策略,前向 rollout,迭代至收敛。本质是"iLQR 换内核"(§3.1.4 已详述)。
代表工作:Fridovich-Keil et al. ICRA 2020(iLQGames)、Laine et al. SIAM JCO 2023(Approximate GFNE,反馈 GNE 近似算法基础)、feedback-linearized iLQGames(用反馈线性化改善收敛)、Williams 2023(Potential-iLQR,势博弈版)。
适用边界:求局部反馈 Nash,支持 MPC 级实时(毫秒级,十几维状态),是博弈规划落到工程的**主力线**,也是唯一有成熟 C++ 实现(HJReachability/ilqgames)的流派。短板:硬约束处理弱(碰撞约束只能软惩罚,可能违反),收敛到局部均衡且可能不唯一,依赖良好初值。
与其他派的叠加:可做成层级(派5)扩展规模;是逆博弈(派6)和 CBF-博弈(派8)的内层求解引擎;势博弈版(Potential-iLQR)连接派(8)的势博弈理论。
3.3.4 流派(3):约束 GNE 求解器——硬约束的严格处理¶
核心思想:把广义 Nash 均衡(GNE)的 KKT 条件堆叠成一个大型方程组 \(F(z)=0\),用根搜索/互补问题(MCP)方法求解,严格处理硬约束(碰撞、限幅)。
代表工作:Le Cleac'h et al. RSS 2020 / AURO 2022(ALGAMES,增广拉格朗日 + 拟牛顿)、Zhu–Borrelli 的 DG-SQP(序列二次规划求 GNE)、forrestlaine/TensorGames.jl(混合策略 Nash via PATH 互补求解器,且可微)。
适用边界:约束处理严格(适合碰撞约束硬性满足的安全关键场景),输出开环 GNE(需高频 MPC 滚动补反馈)。短板:根搜索的收敛性依赖初值与 Jacobian 条件数,玩家数多时方程组规模膨胀。SOTA 实现几乎全在 Julia(Algames.jl、TensorGames.jl)。
3.3.5 流派(4):迭代最佳响应 + 灵敏度——工程落地的"实用派"¶
核心思想:交替"固定对手、优化自己"(迭代最佳响应 IBR),并加入**灵敏度项**让玩家考虑"对手响应如何随我变化",从而主动选出有利的均衡(SE = Sensitivity-Enhanced)。
代表工作:Spica–Schwager RSS 2018(两人无人机竞速 SE-IBR)、Wang–Schwager T-RO 2021(Audi TTS 实车级,涌现 block/overtake/fake 等竞技行为)、Wang RAS 2020。
适用边界:启发式但**工程性极好**——IBR 把 N 人博弈拆成 N 个单人优化子问题,每个子问题可用成熟的单人 MPC 求解器;灵敏度项给了"主动选均衡"的能力。这是**实车落地最多**的流派之一。短板:理论保证弱(收敛性、均衡质量缺严格证明),灵敏度项计算需对手优化问题可微。
本质洞察(派3与派4是"严格 vs 实用"的经典张力):约束 GNE 求解器(派3)把所有玩家的 KKT **联立**成一个大方程组一次性解——数学上严格(真正的耦合均衡),但方程组庞大、收敛敏感。IBR(派4)则**解耦**成 N 个小问题轮流解——工程上轻便(复用单人求解器)、易并行,但"轮流优化"未必收敛到联立解、理论保证弱。这是优化领域永恒的"整体求解 vs 交替求解(如 ADMM、坐标下降)"张力在博弈里的投影。选哪个取决于你更看重"严格性"还是"工程鲁棒性与速度"。
3.3.6 流派(5):层级/分解——对付可扩展性¶
核心思想:把博弈在**时间或空间尺度上分解**——上层"战略博弈"粗粒度、低频地决定全局意图(谁让谁、走哪条路),下层"战术规划"细粒度、高频地执行。
代表工作:Fisac et al. ICRA 2019(hierarchical game-theoretic planning,战略+战术两层)、Markovian Stackelberg 分解、各类"先离散博弈定意图、再连续优化定轨迹"的两段式方法。
适用边界:缓解"长时域博弈 vs 高频实时"的根本张力,是处理可扩展性的经典工程套路。短板:分层引入次优性(上下层目标可能不一致),层间接口设计是工程难点。
3.3.7 流派(6):可微博弈/学习混合——求解器变成神经网络的一层¶
核心思想:用隐函数定理把"博弈均衡对参数的梯度"算出来,使博弈求解器**可微**,从而能嵌进 PyTorch/Flux 的计算图,用梯度下降反推代价(逆博弈)、或把均衡求解作为网络的一层端到端训练。
代表工作:Peters et al. RSS 2021 / IJRR 2023(differentiable game solver + MLE cost inference,逆博弈奠基)、Li et al. AAMAS 2023(噪声部分观测下的反馈博弈 cost inference)、Liu et al. WAFR 2024(Auto-Encoding Bayesian Inverse Games,VAE + 可微 Nash 给贝叶斯后验)、Peters AAMAS 2020(博弈论模仿学习)。
适用边界:解决"对手代价未知"这一前三派共有的硬伤,把博弈从"求解器"升级为"推断引擎"。短板:可微性依赖均衡求解器内层 Jacobian 可逆(均衡退化或多均衡时失效),梯度计算开销大,SOTA 全在 Julia/Python(iLQGames.jl、可微 Nash 层)。
与其他派的叠加:典型的"派6 套派2/派3"——外层用可微框架推断代价,内层调用 iLQGames(派2)或约束 GNE 求解器(派3)算正向均衡。
3.3.8 流派(7):Level-k / 认知层级——给"有限理性的人"建模¶
核心思想:人类不是完美的 Nash 玩家(求 Nash 需要无限层"我想你想我……"的递归)。Level-k 用**有限层递归**截断这个无限回路:Level-0 是不考虑他人的朴素行为,Level-1 是"假设别人是 Level-0、我对它最优响应",Level-2 是"假设别人是 Level-1……",以此类推。这给**有界理性(bounded rationality)**提供了可计算的建模。
代表工作:Sadigh 2016(隐含 Level-1 视角)、Tian et al.(Level-k 博弈用于交互驾驶)、Li(Michigan)的认知层级、GameFormer ICCV 2023(把 Level-k 嵌进 Transformer decoder)、Level-2 inverse games 2025(推断"对手认为别人会怎么做")。常配合 Boltzmann-rational 模型(人类以正比于 \(\exp(-\text{代价}/温度)\) 的概率选动作,温度刻画理性程度)。
适用边界:比"假设人完美理性求 Nash"更贴近真实人类行为,且 Level-k 的有限递归天然可计算(不必求不动点)。短板:层级 \(k\) 难以先验确定(不同人不同 \(k\)、同人不同场景不同 \(k\)),估错层级会导致预测偏差——这正是 §3.7 "有界理性建模"开放问题。
对比性思维(Nash 玩家 vs Level-k 玩家:完美理性 vs 有限递归):Nash 均衡要求每个玩家都假设对手是完美理性的、并求出互为最佳响应的不动点——这是一个"无限深"的相互推理(我想你想我想你……直到收敛)。Level-k 则**人为截断**这个递归到有限层。像/不像:像在于都建模"我考虑你的反应";不像在于 Nash 要求递归收敛到不动点(计算上要解耦合方程),Level-k 只递归固定层数(计算上是前向迭代,更轻)。实验心理学证据表明,真实人类的推理层级通常很浅(多数人是 Level-1 或 Level-2),所以 Level-k 反而可能比"完美 Nash"更准确地预测人类行为——这是一个"不那么精确的模型反而更贴近现实"的深刻案例。
3.3.9 流派(8):博弈 + 安全证书——给会出错的博弈兜底¶
核心思想:把控制屏障函数(CBF)与博弈耦合——多个机器人各解一个带共享 CBF 约束的最小范数 QP,这组 QP 的 KKT 条件**联合等价于一个 GNE**,于是安全证书自动成为博弈均衡的一部分,提供"无论对手怎么动都不碰撞"的硬保证。
代表工作:Wang–Ames–Egerstedt(CBF-QP 多机协调)、Notomista–Schwager–Egerstedt(SENNA + CBF)、GCBF+ T-RO 2025(神经图 CBF,学出证书、扩展到上千 agent)、game-theoretic reachability(HJI 派与本派的交叉)。
适用边界:提供**不依赖对手模型正确性**的硬安全层,是逆博弈/学习方法的兜底。短板:CBF 的构造(找到有效的屏障函数)本身困难,保守性可能过强,大规模时需学习式 CBF(GCBF+)但学出的证书又失去严格性保证。
3.3.10 八派全景速查表¶
把八派的关键信息汇成一张速查表,这是本节最该带走的成果:
| # | 流派 | 核心思想 | 代表工作 | 求的均衡 | 实时性 | 主要短板 | 主力语言 |
|---|---|---|---|---|---|---|---|
| 1 | HJI 可达性 | PDE 刻画全局值函数 | Isaacs、Tomlin、FaSTrack | 全局 Nash(零和) | ✗(离线) | 维度诅咒 ≤5 维 | C++/MATLAB |
| 2 | LQ/iLQ 系列 | 迭代 LQ 近似 + 耦合 Riccati | iLQGames、Laine GFNE | 局部反馈 Nash/GNE | ✓✓ ms 级 | 硬约束弱、局部均衡 | C++/Julia |
| 3 | 约束 GNE 求解器 | KKT 堆叠 + 根搜索/AL | ALGAMES、DG-SQP | 开环 GNE | ✓ 60Hz | 收敛敏感、需 MPC 补反馈 | Julia |
| 4 | IBR + 灵敏度 | 交替最佳响应 + 灵敏度选均衡 | Spica、Wang(实车) | 局部 Nash | ✓ | 理论保证弱 | 各异 |
| 5 | 层级/分解 | 战略+战术时空分解 | Fisac hierarchical | 分层近似 | ✓ | 分层次优、层间接口 | 各异 |
| 6 | 可微博弈/学习混合 | 隐函数定理使求解器可微 | Peters 逆博弈、贝叶斯逆博弈 | 推断代价 + 均衡 | △ | 内层 Jacobian 退化、开销大 | Julia/Python |
| 7 | Level-k/认知层级 | 有限层递归建模有界理性 | Tian、GameFormer | 有界理性均衡 | ✓(学习式快) | 层级难定 | Python |
| 8 | 博弈+安全证书 | CBF-QP = GNE,硬安全 | GCBF+、Notomista | GNE + 硬约束 | ✓ | CBF 构造难、保守 | Python/C++ |
本质洞察(八派的演化方向都指向同一个终点:模型与学习的融合、且带硬保证):纵览八派,能看到一条清晰的演化矢量——纯模型派(1-5)在"求得更快、约束更严、规模更大"上做文章,学习混合派(6-7)在"代价可推断、行为可学习"上突破,安全派(8)在"会出错也不致命"上兜底。三股力量正在收敛于同一个理想系统:一个能从数据学习交互、能推断对手意图、求解足够快能上车、又有不依赖模型正确性的硬安全保证的博弈决策器。今天还没有任何单一方法同时做到这四点——这正是整个方向最激动人心的开放空间(§3.7)。
3.3.11 八派的二维定位图:模型↔数据 × 软↔硬¶
§3.3.1 提出了"模型驱动↔数据驱动"和"软约束↔硬约束"两个坐标轴,这里把八派显式画到这张二维图上,一眼看清谁和谁相邻、谁占哪个象限:
硬约束 ↑
│ (1)HJI可达性 (3)约束GNE/ALGAMES
│ ·精确安全证书 ·增广拉格朗日硬约束
│ (8)CBF-博弈/GCBF+
│ ·证书=GNE,右上角偏数据
│
───────┼──────────────────────────────────────────────→
模型驱动│ 数据驱动
│ (2)LQ/iLQ系列 (4)迭代最佳响应 (6)可微博弈
│ ·iLQGames软惩罚 ·SE-IBR软子问题 ·融合,跨象限
│ (7)Level-k/GameFormer
│ ·有界理性,右下角
软约束 ↓
(粗略定位,仅示意相对位置:纵轴越上约束越硬,横轴越右越靠数据驱动。)
多视角理解(这张二维图把"八个名字"变成了"四个象限的居民"):死记八个流派的名字很累,但把它们安顿到这张二维图的四个象限里,就好记多了,且能"推"出选型——**左上(模型+硬约束)**住着 HJI、ALGAMES,是"安全关键、信得过模型"的首选;**左下(模型+软约束)**住着 iLQGames、SE-IBR,是"要实时反馈、软惩罚够用"的主力;**右下(数据+软约束)**住着 Level-k、GameFormer,是"有数据、要拟人泛化、不强求硬保证"的选择;**右上(数据+硬约束)**是最难也最前沿的象限,CBF-博弈/GCBF+ 和可微博弈正在往这里挤——因为"既要数据驱动的灵活、又要硬安全"是终极目标(§3.7.7)。像/不像:这张图和 §3.3.10 速查表像在于覆盖同样八派;不像在于速查表是"逐个查属性"(线性列表),二维图是"看相对位置与象限归属"(空间关系)。空间关系的价值在于:它让"选型"变成"先定我要哪个象限(看场景对'模型vs数据''软vs硬'的需求),再看那个象限住着谁"——这比从八个孤立选项里挑高效得多。也再次印证 §3.8.3 那句——记住这两轴,胜过死记八个名字。
3.3.12 过渡:从"流派谱系"到"求解器横向对比"¶
§3.3 给了八派的**全景地图**,但地图是"鸟瞰"——对真正要动手的工程师,更需要的是把几个最主流、最常被拿来比较的**具体求解器**放在一起,逐项对比它们的取舍。下一节 §3.4 聚焦四个最具代表性的求解器——iLQGames、ALGAMES、SE-IBR、GameFormer——给出可直接用于选型决策的横向对比。
§3.4 实时博弈求解器横向对比 ⭐⭐⭐¶
本节解决的问题:当你真要在一个交互场景里跑博弈规划时,到底该选哪个求解器?本节把四个最主流的求解器——iLQGames、ALGAMES、SE-IBR、GameFormer——拉到同一张台子上逐项对比,并给出基于场景特征的选型决策树。这是把前三节的"史—派"知识落到"我该用什么"的关键一节。
3.4.1 四个求解器的"一句话画像"¶
先用一句话抓住每个求解器的灵魂,再展开细节:
- iLQGames——"iLQR 换内核"。把博弈局部 LQ 化,反复解耦合 Riccati,毫秒级输出**反馈** Nash。求解器界的"瑞士军刀":快、通用、有 C++ 实现,但碰撞约束只能软惩罚。
- ALGAMES——"KKT 当方程组解"。增广拉格朗日严格处理硬约束,输出**开环** GNE,60 Hz。求解器界的"约束专家":碰撞约束硬性满足,但要靠高频 MPC 滚动补反馈,且 SOTA 实现在 Julia。
- SE-IBR——"交替优化 + 主动选均衡"。迭代最佳响应加灵敏度项,启发式但**工程性极好、实车落地最多**。求解器界的"实战老兵":理论保证弱,但真车上跑得起来、能涌现竞技行为。
- GameFormer——"博弈结构焊进 Transformer"。Level-k 嵌入神经网络 decoder,端到端学习,SOTA 精度与泛化。求解器界的"新生代":精度高、泛化好,但无硬安全保证、需大量数据训练、是黑箱。
3.4.2 七维度横向对比表¶
把四个求解器在七个工程关键维度上逐项对比。这张表是本节的核心,建议反复回看:
| 维度 | iLQGames | ALGAMES | SE-IBR | GameFormer |
|---|---|---|---|---|
| 所属流派 | (2) LQ/iLQ | (3) 约束 GNE | (4) IBR+灵敏度 | (6)+(7) 学习混合+Level-k |
| 求的均衡 | 局部反馈 Nash | 开环 GNE | 局部 Nash | 隐式 Level-k 均衡 |
| 硬约束处理 | 弱(软惩罚) | 强(增广拉格朗日) | 中(各子问题可加约束) | 弱(学出,可能违反) |
| 反馈 vs 开环 | 反馈(单次求解即闭环) | 开环(需 MPC 滚动) | 开环(需 MPC 滚动) | 反馈(每帧重推) |
| 实时性 | 毫秒级(<50ms@14维) | 60 Hz | 实时(实车验证) | 实时(GPU 推理) |
| 对手代价 | 需已知 | 需已知 | 需已知 | 从数据隐式学,无需显式写 |
| 理论保证 | 局部收敛、可能多均衡 | KKT 收敛、约束满足 | 弱(启发式) | 无(黑箱) |
| 泛化/精度 | 取决于模型准确度 | 取决于模型准确度 | 取决于模型准确度 | 强(数据驱动 SOTA) |
| 可解释性 | 高(白盒优化) | 高(白盒优化) | 高(白盒优化) | 低(黑箱网络) |
| 主力语言/抓手 | C++(ilqgames)/Julia | Julia(Algames.jl) | 各异(实车闭源居多) | Python(PyTorch) |
| 数据需求 | 无(在线优化) | 无(在线优化) | 无(在线优化) | 大(需训练集) |
| 典型场景 | 三车交叉/变道 | 三车匝道汇入 | 无人机/赛车竞速 | nuPlan/Waymo 城市驾驶 |
3.4.3 三组关键的两两对比¶
光看表还不够,几组最常被纠结的两两对比值得单独拎出来讲透:
对比一:iLQGames vs ALGAMES——反馈强还是约束严?
这是最经典的一组取舍。iLQGames 输出反馈 Nash(单次求解就得到一个状态反馈律,扰动后自动响应,鲁棒),但碰撞约束只能写成软惩罚项(代价里加一个"靠太近就罚"的项),理论上可能违反约束(罚得不够重时车会蹭上)。ALGAMES 反过来——用增广拉格朗日**硬性满足**碰撞约束(绝不蹭车),但输出开环 GNE(一条预先算好的轨迹,本身不带反馈),**必须靠 60 Hz 的 MPC 滚动重算**才能获得反馈效果。
对比性思维("反馈强"与"约束严"为何难兼得):本质原因是数学结构的对立。反馈 Nash 需要解耦合 Riccati(一个关于反馈增益的方程),这套机器天然处理"二次代价 + 线性动力学",硬不等式约束塞不进 Riccati 框架(Riccati 是等式递推,不含互补松弛)。而硬约束的严格处理需要 KKT 的互补松弛条件,这套机器天然是"求一条满足约束的轨迹"(开环),不直接产出反馈律。所以"反馈 + 硬约束"要同时要,要么用 Approximate GFNE(Laine 2023,反馈 GNE 近似,复杂)、要么用 ALGAMES + 高频 MPC(用滚动频率"换"反馈)。这个张力至今没有完美解,是 §3.7 的开放问题之一。
对比二:SE-IBR vs iLQGames/ALGAMES——启发式实用 vs 理论严格?
iLQGames 和 ALGAMES 都把博弈**整体**求解(耦合 Riccati / 联立 KKT),数学上是"真"博弈解,但求解器复杂、对初值敏感。SE-IBR 把博弈**拆**成 N 个单人优化轮流解,每个子问题可以直接复用你已有的成熟单人 MPC 求解器(acados、CasADi)——工程上轻便得多。代价是"轮流优化"不保证收敛到真正的耦合均衡,理论保证弱。但实践证明它**在实车上最容易跑起来**(Audi TTS 赛车用的就是它),因为它能复用成熟的单人优化基础设施、且灵敏度项给了"主动选有利均衡"的能力。
对比三:GameFormer vs 前三者——学习黑箱 vs 模型白盒?
这是"模型驱动 vs 数据驱动"的正面交锋。前三者都是**白盒优化**——你写出动力学和代价,求解器算均衡,每一步可解释、可调试,但**对手代价必须显式给定**(而真实对手代价未知)、且模型不准时解就不准。GameFormer 是**黑箱学习**——从海量驾驶数据里学出交互模式,不需要显式写对手代价(数据里隐含了),精度和泛化在 nuPlan/Waymo 上是 SOTA,但**无硬安全保证**(可能输出违反物理约束的预测)、需要大量训练数据、且决策不可解释。
本质洞察(白盒与黑箱的边界正在模糊:可微博弈是"第三条路"):白盒(iLQGames)与黑箱(GameFormer)看似对立,但 §3.3.7 的**可微博弈**正在融合两者——把白盒求解器做成可微的,嵌进神经网络,既保留博弈结构的可解释性与硬约束能力,又能用数据端到端训练代价。GameFormer 其实已经站在这条融合路上(它用神经网络逼近 Level-k 博弈迭代);而逆博弈则从另一端逼近(用可微 iLQGames 反推代价)。可以预见,未来的主流不会是"纯白盒"或"纯黑箱",而是**"带博弈结构先验的可学习求解器"**——这是 §3.7 最值得押注的方向。
3.4.4 选型决策树¶
把选型逻辑收束成一棵可操作的决策树。面对一个新的交互规划问题,按下面的顺序问自己:
问题1:对手代价/意图已知吗?
├─ 未知,且有大量交互数据 ──→ GameFormer(学习式)或 逆博弈+iLQGames(推断式)
└─ 已知(或可合理假设)──→ 进入问题2
│
问题2:碰撞约束必须硬性满足吗(安全关键)?
├─ 必须硬满足 ──→ ALGAMES(+高频 MPC)或 CBF-博弈(派8兜底)
└─ 软惩罚可接受 ──→ 进入问题3
│
问题3:需要反馈策略(强扰动环境)还是开环够用?
├─ 需要反馈、且要 C++ 实现 ──→ iLQGames(唯一主力 C++ 抓手)
└─ 开环够用、且想复用单人 MPC ──→ SE-IBR(工程最轻便)
│
问题4(横切):玩家数很多(>10)或博弈很大?
└─ 是 ──→ 层级分解(派5)或 学习式(GameFormer/PSRO/GCBF+)
多视角理解(选型不是"找最好的",而是"匹配场景约束"):初学者总想找"最好的求解器",但博弈规划里**没有全场景最优的求解器**。安全关键的城市驾驶(必须不撞)选 ALGAMES/CBF-博弈;高动态竞速(要反馈、要快)选 iLQGames/SE-IBR;有海量数据的量产驾驶(要泛化)选 GameFormer。像/不像:像在于都求博弈均衡;不像在于各自在"约束严格性、反馈、实时性、数据依赖、可解释性"这个五维空间里占据不同角落。选型的本质是**把你的场景约束投影到这个五维空间,找最匹配的那个角落**。
3.4.5 一个绕不开的工程现实:C++ SOTA 真空¶
横向对比之外,有一个必须正视的工程现实,它深刻影响选型与教学:博弈规划的 SOTA 几乎全在 Julia/Python,C++ 侧只剩 iLQGames 一个主力且已停止维护。
具体而言:
| 求解器/方向 | 主力语言 | C++ 可用性 |
|---|---|---|
| iLQGames | C++(HJReachability/ilqgames,~182⭐,BSD-3)+ Julia | 唯一主力 C++,但 2021 后停更、依赖 DearImGui 偶发编译问题、不支持硬约束 |
| ALGAMES | Julia(Algames.jl,~119⭐) | 无生产级 C++ |
| 可微/贝叶斯逆博弈 | Julia(iLQGames.jl)+ Python | 无 C++ |
| Level-k / GameFormer | Python(PyTorch) | 无 C++ |
| PSRO / MARL | Python + OpenSpiel(C++17 核心) | OpenSpiel 是博弈-MARL 接口唯一成熟 C++ 栈,但偏 extensive-form 离散博弈 |
对比性思维(这与"不确定性规划"专题形成鲜明反差):回看本横切层 §2 不确定性规划——它有 EPSILON(677⭐ MIT 纯 C++)、acados(1.2k⭐ C 内核)、DESPOT(270⭐)等一整套成熟 C++ 栈,足以支撑"读代码—改代码—跑仿真"的完整闭环。博弈规划恰恰相反:它是整个横切层里 C++ 工程化最薄弱的方向。这个反差不是偶然——博弈规划的 SOTA 集中在学术圈(Berkeley、Stanford、UT Austin 的几个组),而这些组的快速迭代偏好 Julia(科学计算 + 可微编程友好)和 Python(深度学习生态),而非工程化的 C++。其工程含义是:博弈规划的教学与落地必须接受语言异构——用 iLQGames(C++)建立工程直觉,用 Julia/Python 接触 SOTA。这一点 §3.7 会作为"工程现实"开放问题再次强调。
3.4.6 五维雷达:把四个求解器投到同一组坐标轴¶
§3.4.4 的决策树和 §3.4.3 的两两对比反复提到"五维空间",这里把它显式化——四个求解器在**约束严格性、反馈能力、实时性、数据依赖、可解释性**这五个轴上的定性打分(●●●● 最强、● 最弱),让你一眼看出每个求解器"占据哪个角落":
| 求解器 | 约束严格性 | 反馈能力 | 实时性 | 低数据依赖 | 可解释性 | 占据的"角落" |
|---|---|---|---|---|---|---|
| iLQGames | ●● | ●●●● | ●●● | ●●●● | ●●●● | 反馈强 + 白盒 + 不要数据 |
| ALGAMES | ●●●● | ●● | ●● | ●●●● | ●●●● | 硬约束 + 白盒 |
| SE-IBR | ●●● | ●●● | ●●●● | ●●●● | ●●● | 工程最轻 + 复用单人 MPC |
| GameFormer | ● | ●●● | ●●●●* | ● | ● | 数据驱动 + 泛化(*推理快但要海量数据训练) |
多视角理解(五维雷达把"选型"从文字描述变成了"空间定位"):这张五维雷达表是 §3.4.4 选型决策树的"几何版"——决策树是"问答式"(一步步问、走到叶子),雷达表是"空间式"(把每个求解器画成五维空间里的一个点,把你的场景需求也画成一个点,找最近的)。像/不像:两者像在于服务同一个选型目标、结论一致;不像在于思维方式——决策树适合"我有明确的硬性优先级"(比如"必须硬约束"就直奔 ALGAMES),雷达表适合"我要综合权衡多个维度"(比如"我要反馈强、实时好、还不能太依赖数据",一看雷达 iLQGames 这三轴都高就选它)。两种工具配合用:先用雷达建立"每个求解器的整体画像",再用决策树按硬性优先级收敛。这也再次印证 §3.4.4 那个核心论断——没有一个求解器五轴全满(那是不存在的理想点),选型就是在五维空间里找离你场景需求最近的那个现实点。GameFormer 那一行最能说明问题:它的约束严格性、低数据依赖、可解释性三轴几乎垫底,但反馈和实时(推理)很高——它占的是一个极其偏科的角落("用海量数据 + 不可解释 + 无硬约束"换"泛化 + 推理快"),适合且仅适合"有金矿般数据、且有证书兜底"的量产场景。
3.4.7 过渡:从"怎么选"到"它从哪来"¶
§3.1–§3.4 我们已经把博弈规划这个方向的"史、派、器"讲透了——它的演化脉络、流派谱系、求解器对比。但还有一个更根本的问题没有正面回答:博弈规划和你已经熟悉的传统规控(A*、MPC、LQR、CBF)到底是什么关系?是另起炉灶,还是一脉相承? 这个问题的答案,决定了你能否把已有的规控功力顺利迁移到博弈。下一节 §3.5 专门回答它。
§3.5 与传统规控的关系 ⭐⭐¶
本节解决的问题:博弈规划不是凭空出现的新学科,它是从单智能体规控**自然生长**出来的。本节系统梳理"博弈规划如何从传统规控的每一件工具延伸而来"——让你看到自己已有的规控功力(MPC、LQR、KKT、CBF)如何几乎原样迁移到博弈,从而消除"博弈规划是另一个陌生领域"的畏难心理。
3.5.1 一个核心命题:博弈规划是传统规控的"多主体推广"¶
回顾 G0 反复强调的核心认知:你已掌握的单智能体规控工具箱(A*/RRT、MPC、LQR、CBF、卡尔曼滤波)有一个**共同的隐含假设**——世界上只有一个决策者(你),环境要么静止、要么按已知规律运动、要么是随机噪声,但**它不会因为你的决策而策略性地改变**。
博弈规划做的唯一一件事,就是**打破这个假设**——把环境里的"他人"从"被动障碍"升级为"会观察你、会响应你、有自己目标的决策者"。一旦做了这个升级,传统规控的每一件工具都有一个对应的"博弈推广":
| 传统规控工具 | 单主体形态 | 博弈推广形态 | 推广的本质 |
|---|---|---|---|
| 最优控制 | \(\min_u J(x,u)\) | Nash 均衡(互为最佳响应) | 单个 min → 多个耦合 min |
| HJB 方程 | 单人值函数 PDE | HJI 方程(\(\min\max\)) | min → minimax |
| LQR / 耦合 Riccati | 单人 Riccati | N 人耦合 Riccati | 一个 Riccati → 一组耦合 Riccati |
| iLQR / DDP | 单人迭代 LQ | iLQGames(迭代 LQ 博弈) | "换内核",骨架不变 |
| KKT 条件 | 单问题 KKT | 堆叠 KKT(GNEP) | 一组 KKT → 多组联立 KKT |
| MPC | 单人滚动优化 | 博弈 MPC(每步求均衡) | 优化子问题 → 均衡子问题 |
| CBF / 安全滤波 | 单人 QP | 多机 CBF-QP(= GNE) | 一个 QP → 联立 QP = 博弈 |
| 卡尔曼滤波 | 估计状态 | 逆博弈(估计对手代价) | 估状态 → 估意图/代价 |
| IRL | 学单人代价 | 博弈论 IRL(学多人代价) | 单代价 → 多代价 + 均衡解释 |
本质洞察("换内核"是贯穿博弈规划的元模式):仔细看上表,会发现一个反复出现的元模式——博弈规划极少推倒重来,几乎都是把单主体工具的"内核"换成"多主体耦合版",而外层算法骨架原样保留。iLQGames 保留 iLQR 的全部流程(线性化—二次化—反向递推—前向 rollout—line search),只把反向那步的单人 Riccati 换成耦合 Riccati;博弈 MPC 保留 MPC 的滚动时域骨架,只把内层的优化换成求均衡;逆博弈保留滤波/IRL 的"从观测反推"骨架,只把"反推状态/单代价"换成"反推对手代价 + 均衡解释"。这个"换内核"元模式的工程含义极其正面:你为单智能体规控积累的几乎所有工程经验(求解器调参、warm start、正则化、收敛技巧)都能迁移到博弈。这就是为什么一个扎实的 MPC/iLQR 工程师,能比较平滑地过渡到博弈规划。
3.5.2 三条最关键的"长出来"路径详解¶
上表给了全景,下面挑三条最能体现"博弈从规控长出来"的路径,展开讲清"怎么长的"。
路径一:iLQR → iLQGames(最直接的延伸)
单人 iLQR 求 \(\min_u J(x,u)\) 的流程是:在当前轨迹附近把动力学线性化、代价二次化,得到一个 LQ 问题,反向解 Riccati 得反馈增益,前向 rollout 更新轨迹,加 line search 保证下降,反复迭代。iLQGames 把这套流程**原封不动**搬到 N 人博弈,唯一改动是:反向那步,不再是解一个单人 Riccati,而是解 N 个**互相耦合**的 Riccati(玩家 \(i\) 的 Riccati 里含有其他玩家的增益)。这组耦合 Riccati 正是 Basar–Olsder 1999 给出的 LQ 博弈闭式解。
这条路径的迁移性是最强的——会写 iLQR 的人,理解 iLQGames 只需多理解"耦合 Riccati 怎么解"这一件事。
路径二:单人 KKT → GNEP 堆叠 KKT(约束博弈的根基)
单人带约束优化 \(\min_x f(x)\ \text{s.t.}\ g(x)\le 0\) 的最优解满足 KKT 条件(梯度条件 + 互补松弛 + 可行性)。在博弈里,每个玩家各有自己的带约束优化问题,且通过**共享约束**(避碰)耦合。把所有玩家的 KKT 条件**堆叠**成一个大方程组 \(F(z)=0\),求解这个方程组就得到广义 Nash 均衡(GNE)。ALGAMES、CBF-博弈走的就是这条路。
多视角理解(CBF-QP "本来就是" 一个博弈):一个让很多人恍然大悟的视角——你在 U 线学的多机器人 CBF 安全滤波(每个机器人解一个带共享避碰约束的最小范数 QP),它的 KKT 条件联立起来,数学上恰好就是一个广义 Nash 均衡!也就是说,你早在学 CBF 时就已经在"解博弈"了,只是当时没意识到。像/不像:像在于多机 CBF-QP 与 GNE 的 KKT 完全同构;不像在于 CBF-QP 通常是"瞬时"的(每个时刻独立解 QP),而完整博弈是"时域"的(跨时间耦合)。这个视角的价值在于:它把"安全控制"和"博弈"统一进同一个数学框架——这正是 G4 §4.1 的核心,也是流派(8)的根基。
路径三:卡尔曼滤波/IRL → 逆博弈(感知侧的推广)
传统感知侧,卡尔曼滤波从噪声观测估计**状态**,IRL 从专家轨迹学**单个智能体的代价**。逆博弈把这条"从观测反推"的思路推广到多智能体:从观测到的**多智能体交互轨迹**,反推**每个玩家的代价**——而且反推时用的"前向模型"不是单人最优控制,而是**博弈均衡**(Nash 解作为代价参数的隐函数)。LucidGames 甚至直接把它做成"动态博弈上的 UKF"——用无迹卡尔曼滤波在线估计对手代价,把滤波和博弈缝在一起。
对比性思维("估状态" vs "估意图":感知任务的升维):传统卡尔曼滤波估的是"对手现在在哪、速度多少"(状态),逆博弈估的是"对手想要什么"(代价/意图)。这是感知任务的一次**升维**——从"物理量估计"到"目标/偏好估计"。像/不像:像在于都是贝叶斯式的"从观测更新对隐变量的信念",数学骨架(隐函数定理、雅可比、协方差传播)相通;不像在于隐变量从"低维物理状态"变成"高维代价参数",且前向模型从"已知动力学"变成"需要求解的博弈均衡"(更难、可能不唯一)。这个升维正是博弈规划在感知-决策一体化上比传统管线更深刻的地方。
3.5.3 博弈规划"治愈"了传统管线的一个顽疾:frozen robot¶
博弈规划相对传统规控最有说服力的价值,是它从根上消除了传统"先预测后规划"管线的一个著名顽疾——frozen robot problem(机器人冻结问题)。
传统两段式管线:感知预测模块吐出他车/行人的未来轨迹(一组可能的轨迹),规划模块把这些轨迹**当成动态障碍约束**、求 ego 的最优轨迹。问题在于:在密集交互场景(强行汇入、人群中穿行),预测模块会吐出**大量可能的轨迹**,把它们全当障碍后,ego 的可行空间被挤压到几乎为零——机器人因为"哪儿都可能有人"而不敢动,活活冻在原地。
本质洞察(frozen robot 的病根是"预测无视了 ego 的影响"):传统管线的致命缺陷在于——它**先**预测他人轨迹,再**规划 ego,这个顺序假设"他人的轨迹与 ego 无关"。但现实里,他人会**因为 ego 的动作而改变轨迹(你往前蹭,旁车会减速让你)!传统管线把这个交互切断了,于是只能假设最坏情况(旁车不让),导致 ego 永远在等一个不会到来的"安全间隙"。博弈规划的"预测即均衡"范式从根上治好这个病:"预测"就是博弈均衡中对手的最优响应,"规划"就是 ego 的最优响应,两者同时求解——预测天然考虑了 ego 的影响,于是 ego 知道"我往前蹭、旁车会让",从而敢于行动。这个"预测-规划一体化"是博弈规划最深刻、也最实用的贡献,G3 §3.4 有完整展开。
3.5.4 "换内核"的边界:哪些东西没法迁移¶
前面三条路径强调了"博弈高度承袭单智能体规控"。但综述的诚实之处,在于也要讲清**"换内核"的边界——哪些东西没法从单智能体平移过来、必须重新建立**。否则会给人"博弈不过是带下标的 MPC"的错觉,低估它的难度。
至少有四样东西**无法迁移**,且恰好对应 §3.7 的四个源生开放问题:
| 没法迁移的东西 | 单智能体侧的"舒适" | 博弈侧的"塌陷" | 对应开放问题 |
|---|---|---|---|
| 解的唯一性 | 凸问题唯一最优,挑它即可 | 多个 Nash,挑哪个是协调问题 | §3.7.2 均衡选择 |
| 解的存在性 | 可行域非空则最优存在 | 非凸博弈纯 Nash 不保证存在 | §3.7.3 存在性 |
| 数值收敛保证 | 优化有目标函数兜底、收敛理论成熟 | 解方程组无目标兜底、条件数差易发散 | §3.7.4 数值脆弱 |
| 代价的自知性 | 你的代价你自己定,已知 | 对手代价未知、需病态反推 | §3.7.5 代价辨识 |
本质洞察("换内核"换的是'方法骨架',换不掉的是'多决策者带来的四个塌陷'):把"能迁移的"(§3.5.1–3.5.3)和"不能迁移的"(本节)放在一起,才得到关于"博弈与单智能体关系"的完整图景——能迁移的是'方法的骨架与工程经验'(流程、求解器调参、warm start、正则化),不能迁移的是'良定义性的四个保证'(唯一、存在、收敛、代价自知)。这个区分极其重要,因为它精确划出了"博弈到底比单智能体难在哪":不是难在算法流程(流程几乎照搬),而是难在**这四个被'多决策者耦合'打破的良好性质**——它们是 §3.7 全部开放问题的根,也是 §3.7.1"耦合是万恶之源"的具体清单。像/不像:博弈像单智能体在于"怎么算"(骨架同构);不像在于"算出来的解可不可信、好不好求、对手想要什么"(四个塌陷)。所以一个诚实的认知是——"换内核"给你迁移的信心,但这四个塌陷给你应有的敬畏;前者让你敢入门,后者让你不轻视。这正是 §3.8.6 那条"信心 vs 敬畏"主线在 §3.5–§3.7 之间的精确铰链。
3.5.5 过渡:从"与传统规控的关系"到"与学习方法的交界"¶
§3.5 讲清了博弈规划如何从传统规控"长出来"——它是单主体工具的多主体推广,"换内核"元模式让工程经验高度可迁移,但唯一性/存在性/收敛/代价自知这四个良好性质无法迁移(这正是 §3.7 开放问题的根)。除了向下与传统规控的关系,博弈规划还有另一条同样重要的边界——它与**多智能体强化学习(MARL)和学习式预测-规划**的交界。两者求的都是博弈均衡,但一个用"显式建模 + 数值求解",一个用"自博弈学习"。它们如何分工、如何融合?下一节 §3.6 专门厘清这条交界。
§3.6 与 MARL、学习式方法的交界 ⭐⭐⭐¶
本节解决的问题:博弈规划和多智能体强化学习(MARL)这两个领域,初学者最容易混淆——它们**求的都是博弈均衡**(Nash、相关均衡),却分属"控制/优化"与"机器学习"两个几乎不交流的社区,术语不同、工具不同、会议不同。本节系统厘清这条交界:两者在数学上是什么关系、各自擅长什么场景、它们在 2023–2026 如何加速合流。读完你应能回答:"给我一个多智能体决策问题,我该上数值博弈求解器,还是上 MARL,还是把两者缝起来?"
3.6.1 一个让人困惑的事实:博弈规划和 MARL 求的是同一个东西¶
先点破一个最该早知道的事实——博弈规划(differential/dynamic games)和多智能体强化学习(MARL)求的是同一类对象:博弈的均衡。
- 微分博弈求的是连续时间动态博弈的 Nash 均衡(iLQGames、ALGAMES)或 Stackelberg 均衡(Sadigh 范式);
- MARL 求的也是 Markov game(随机博弈)的 Nash 均衡(Nash-Q)、或更弱的**相关均衡 / 粗相关均衡(CE/CCE)**(PSRO、CFR 收敛到的解)。
它们的**数学目标重叠**,但**社区几乎不交流**——博弈规划长在控制论/机器人圈(RSS、CDC、ICRA、T-RO),MARL 长在机器学习圈(NeurIPS、ICML、ICLR、AAMAS)。同一个"求 Nash"的目标,两个圈子用完全不同的语言描述、完全不同的工具求解。这就是为什么很多人学了 iLQGames 又学 MAPPO,却始终没意识到"它俩在做同一件事"。
本质洞察("博弈"是连接控制与学习的统一语言):把博弈规划与 MARL 摆在一起看,会发现**"博弈均衡"是横跨控制论与机器学习的一座桥**。控制侧(iLQGames、ALGAMES、CBF-博弈)用"显式写出动力学和代价 + 数值求解"逼近均衡;学习侧(PSRO、Nash-Q、MAPPO)用"反复自博弈 + 函数逼近"逼近均衡。两者是同一座山的两条上山路:一条带着精确的地图(模型)从优化侧爬,一条蒙着眼睛靠反复试探(采样)从学习侧爬。理解这一点,你就能在"模型够准就用求解器、模型太复杂就用学习"之间自如切换,而不是把它们当成两个互不相干的领域。这也正是 G4(§4.1 CBF-博弈、§4.3 MARL/PSRO)刻意把"安全控制"与"多智能体学习"放进同一章的原因——它们共享"博弈"这个底层语言。
3.6.2 两条路的根本分野:模型驱动 vs 采样驱动¶
博弈规划与 MARL 虽求同一个均衡,但**逼近均衡的方式截然不同**。这个分野,和单智能体世界里"最优控制(model-based)vs 强化学习(model-free)"的分野**完全同构**——只是从"单人最优"升维到了"多人均衡"。
| 维度 | 数值博弈求解器(博弈规划) | 多智能体强化学习(MARL) |
|---|---|---|
| 典型代表 | iLQGames、ALGAMES、SE-IBR、HJI | MAPPO、QMIX、Nash-Q、PSRO、CFR |
| 是否需要显式模型 | 必须(动力学 \(f\) + 代价 \(J_i\) 都要写出来) | 不需要(从环境采样中学,model-free) |
| 求解机制 | 数值优化(耦合 Riccati / KKT / 值迭代) | 采样 + 函数逼近 + 梯度下降 / 自博弈 |
| 均衡类型 | 局部 Nash / GNE(连续动作) | Nash / CCE(常含混合策略,离散动作居多) |
| 维度/玩家数承受力 | 玩家少(2–5)、连续低维状态 | 玩家可多(数十~上千 swarm)、可处理高维观测 |
| 实时性 | 在线滚动求解(10–100 Hz 可达) | 训练离线(耗时巨大)、部署在线(一次前向,极快) |
| 可解释性 / 硬约束 | 强(白盒,可加硬约束) | 弱(黑箱,约束靠惩罚或投影,难硬保证) |
| 数据需求 | 几乎不需要数据(需要模型) | 需要海量交互数据 / 仿真步数 |
| 失败模式 | 模型不准则解不准;初值敏感、可能不收敛 | 非平稳、不收敛、奖励工程脆弱、sim-to-real gap |
这张表是本节的"主索引"。下面把几个最关键的对立点逐一展开。
多视角理解("博弈求解器 ↔ MARL" = "最优控制 ↔ 单智能体 RL" 的升维复刻):如果你已熟悉单智能体世界的"model-based 最优控制 vs model-free RL"之争,那么博弈侧的分野**几乎是它的逐字复刻**:博弈求解器 = 多智能体版的最优控制(要模型、白盒、求解快但怕模型错),MARL = 多智能体版的 RL(不要模型、黑箱、要数据但能 scale)。像/不像:像在于"模型 vs 采样""白盒 vs 黑箱""少数据 vs 多数据"这三对张力原样保留;不像在于多智能体侧多了一层"非平稳"的诅咒——MARL 里每个 agent 学习时,其他 agent 也在变,环境对单个 agent 而言是**移动靶子**(§3.6.4 详述),这是单智能体 RL 没有的根本困难。
3.6.3 数值博弈求解器擅长什么:少玩家、要实时、要硬约束、缺数据¶
数值博弈求解器(iLQGames/ALGAMES 系)的舒适区非常清晰——玩家少(2–5)、动作连续、要在线实时、要硬安全约束、且没有大规模交互数据可学。这恰好是**安全关键的近距交互**场景的画像:无保护左转、强行汇入、赛车超车、密集人群中的导航。
为什么这些场景偏向求解器而非 MARL?
- 要硬约束。安全关键场景里"绝不碰撞"是硬约束,ALGAMES 的增广拉格朗日能严格满足;MARL 只能把碰撞写进奖励惩罚,无法给出"一定不撞"的保证。
- 缺数据。无保护左转的"危险交互"样本在真实数据里极稀(正因为危险,所以少见),MARL 学不充分;而求解器只要有动力学模型就能算,不依赖罕见样本。
- 要实时反馈。iLQGames 单次求解就给出反馈律,扰动后自动响应;接 MPC 后能 10–100 Hz 滚动。
- 白盒可调试。出了事故能复盘"是代价权重错了还是约束写漏了";MARL 出了事故只能重训,难定位。
对比性思维("危险样本稀缺"恰好是求解器 vs MARL 的分水岭):一个反直觉但极其关键的点——越是安全关键的场景,越偏向用求解器而非学习。直觉上"安全关键应该用最强的方法(学习)",但事实相反:安全关键场景的核心难点是**罕见危险交互**(碰撞前一刻的博弈),而这类样本在数据里极稀疏,数据驱动的 MARL/模仿学习恰恰**学不到它们**(数据里几乎没有碰撞,模型以为"碰撞永不发生")。而模型驱动的求解器只要有动力学就能在这些罕见状态上算出正确响应,不受数据稀缺性影响。这就是为什么 Waymo/Cruise 这类公司在最后的安全兜底层仍大量依赖模型驱动的求解器与可达性分析,而非纯学习——学习负责"常见场景的拟人化",求解器负责"罕见场景的安全性"。
3.6.4 MARL 擅长什么:多玩家、高维观测、可离线训练、有海量仿真¶
MARL 的舒适区与求解器**互补**——玩家多(数十~上千)、观测高维(图像/点云/几十个 agent 的场景张量)、可离线大规模训练、有海量仿真或日志数据。典型场景:大规模无人机 swarm 协同、城市级多 agent 交通流仿真、扑克/围棋/星际争霸这类大型离散博弈、量产自动驾驶的"拟人化"行为生成(从千万公里日志里学)。
为什么这些场景偏向 MARL?
- 玩家太多,求解器算不动。50 架无人机的耦合 Riccati 维度爆炸;MARL 用参数共享 + 集中训练分布式执行(CTDE)能扩展到上千 agent(GCBF+ 就是这条路)。
- 代价写不出来。"拟人化"驾驶的代价函数根本无法手写(人类偏好太复杂),只能从数据里学(GameFormer、模仿学习)。
- 观测高维。从原始图像/点云端到端决策,求解器无从下手;神经网络天生擅长。
- 能离线吃算力。训练可以在仿真里跑几十亿步,把所有算力压在离线,部署时只需一次前向(极快)。
本质洞察(求解器与 MARL 的算力花在"相反的时间"):一个常被忽略的工程本质——两条路把算力花在完全相反的阶段。数值博弈求解器把算力花在**在线**(每个控制周期都要重新解一次博弈,部署时很贵、训练时几乎免费);MARL 把算力花在**离线**(训练耗费天量算力,部署时只是一次神经网络前向、极便宜)。这个"算力时间分布"的差异有深刻的工程含义:算力受限的嵌入式实时系统(车规芯片)若用求解器,必须接受每周期的在线计算预算(这正是 iLQGames 要做到 50 Hz 的压力来源);若用 MARL,则把压力前移到数据中心的离线训练,车上只跑轻量前向。这也催生了第三条路——amortized game solving(摊销式博弈求解):离线把"解博弈"这件事学进一个网络,在线一次前向就近似输出均衡(如 2024 年的 LMPG,Learned Model Predictive Game,把 MPG 的在线博弈摊销进网络以降低延迟),相当于"用 MARL 的离线训练换求解器的在线速度"。
3.6.5 三种融合范式:边界正在快速模糊(2023–2026)¶
§3.6.3–§3.6.4 像是在划清边界,但 2023 年以来真正的趋势是**两条路在加速合流**。求解器太慢/太脆、MARL 无保证/要太多数据,于是研究者开始系统地"取长补短"。归纳起来有三种融合范式:
融合范式一:可微博弈求解器(把求解器嵌进神经网络)。
这是融合度最高、也最被看好的一条路(§3.3.7 流派(6)的核心)。做法是把博弈求解器做成**可微的**——对 iLQGames 这类 LQ 博弈,均衡解可写成代价参数的(隐式)函数,用**隐函数定理**就能算出"均衡对代价参数的梯度"。一旦求解器可微,就能把它当成神经网络的一层,端到端反传梯度、用数据学代价函数。这样既保留了博弈结构的可解释性与硬约束能力(白盒优势),又能用数据训练(黑箱优势)。
2024 年的代表性进展是 Auto-Encoding Bayesian Inverse Games(arXiv 2402.08902)——把一个**可微 Nash 博弈求解器嵌进 VAE**,让采样落在"可解释的博弈参数"上(而非无意义的隐空间),从无标注交互数据里学出博弈参数的后验分布,再用这个后验做更安全、更高效的博弈式运动规划。2026 年初进一步扩展到**高维多模态观测**(arXiv 2601.00696)——直接从图像级观测做贝叶斯逆博弈。这条路把"逆博弈(推断代价)"和"深度生成模型"缝在了一起,是当前最活跃的方向之一。
融合范式二:no-regret 学习求解大博弈的均衡(用学习的收敛工具解博弈)。
第二条路反过来——用 MARL/在线学习社区发展出的"无悔学习(no-regret learning)"工具,去求博弈规划社区关心的均衡。无悔学习(如 regret matching、CFR)有一个漂亮的理论性质:所有玩家各自跑无悔算法,其**经验平均策略收敛到粗相关均衡(CCE)**。这给"求大博弈均衡"提供了一条不依赖求解耦合方程的路径。
2024 年的代表是 Bayesian Game 方法做决策-规划一体化(arXiv 2409.13993)——把多模态意图不确定性下的自动驾驶决策建模为**贝叶斯博弈**,用基于 no-regret learning 的通用求解器求出**贝叶斯粗相关均衡(Bayesian CCE)**,从而同时完成决策与轨迹规划,且结果对"对手意图的期望"是最优的。这条路把"博弈论的均衡概念(CCE)"和"在线学习的收敛保证(no-regret)"结合,绕开了 GNEP 耦合 KKT 难解、条件数差的痛点(这正是 §3.7 会提到的"耦合求解数值脆弱"开放问题)。
融合范式三:势博弈近似 + 安全证书学习(用结构/学习换可扩展性)。
第三条路针对**可扩展性**——当玩家很多时,既不想要求解器的维度爆炸,也不想要纯 MARL 的无保证。两个抓手:
- 近势博弈(near-potential game)近似:把一般和博弈用一个"最接近的势博弈"近似,势博弈保证纯 Nash 存在且分布式最佳响应收敛。2024 年底的 Real-Time Algorithms for Game-Theoretic Motion Planning using Near-Potential Function(arXiv 2412.08855)就用这个思路做实时赛车博弈——用近势函数把多车竞速博弈变得可实时求解。
- 安全证书学习(GCBF+):用图神经网络把 CBF 安全证书**学**出来,单一证书泛化到任意数量的 agent(G4 §4.1 的核心),把"博弈 + 安全 + 可扩展"三者一次性解决;2024–2025 的 Safe MARL with convergence to Generalized Nash Equilibrium(arXiv 2411.15036,提出 MADAC 算法)则从理论上保证了带状态约束的合作 Markov game 收敛到 GNE——把"安全""收敛""均衡"三个保证在 MARL 框架里统一起来。
把三种融合范式压成一张对比表,便于横向把握它们各自"从哪端逼近、注入什么先验、攻什么痛点、代表作":
| 融合范式 | 从哪端逼近 | 注入的博弈先验 | 主攻痛点 | 代表作 |
|---|---|---|---|---|
| ① 可微博弈求解器 | 求解器→可微→嵌进网络 | 博弈求解器做成可微层(结构即归纳偏置) | 代价未知(§3.7.5)+ 端到端可学 | Auto-Encoding Bayesian Inverse Games (2402.08902)、可微 iLQGames |
| ② no-regret 求大博弈均衡 | 学习的收敛工具→求博弈的均衡 | 用博弈均衡概念(CCE)定义学习目标 | 存在性 + 耦合数值脆弱(§3.7.3–4) | Bayesian Game + no-regret → Bayesian CCE (2409.13993) |
| ③ 势博弈近似 + 证书学习 | 结构/学习→换可扩展性与保证 | 用博弈结构性质(势函数/CBF 证书) | 可扩展性 + 安全×学习(§3.7.6–7) | Near-Potential 实时赛车 (2412.08855)、GCBF+、Safe-MARL→GNE/MADAC (2411.15036) |
本质洞察(三种融合范式的共同内核:把"博弈结构"作为先验注入学习):把上面三条融合路并排看,会发现它们共享同一个深层内核——都在往数据驱动的学习里注入"博弈结构"这个先验。可微博弈求解器把博弈结构做成可微层(结构即归纳偏置);no-regret 求解大博弈用的是博弈论的均衡概念(CCE)来定义学习目标;近势博弈/GCBF+ 用博弈的结构性质(势函数、CBF 证书)来换可扩展性与保证。这印证了 §3.4.3 那个判断——未来的主流不是"纯白盒"或"纯黑箱",而是"带博弈结构先验的可学习求解器"。纯 MARL(无结构先验)样本效率低、无保证;纯求解器(无学习)要模型、难 scale;而"博弈结构 + 学习"恰好取两者之长。这是整个博弈规划方向在 2026 年最值得押注的元趋势。
3.6.6 一张"分工 + 融合"全景图¶
把 §3.6 的分工与融合收束成一张图,作为本节的可视化总索引:
求的都是【博弈均衡】(Nash / Stackelberg / CCE)
│
┌─────────────────────────┴─────────────────────────┐
│ │
【数值博弈求解器】(模型驱动) 【多智能体 RL】(采样驱动)
iLQGames / ALGAMES / SE-IBR / HJI MAPPO / QMIX / Nash-Q / PSRO / CFR
│ │
擅长:少玩家(2-5)、连续动作、 擅长:多玩家(数十~上千)、高维观测、
要实时反馈、要硬约束、缺数据 可离线训练、有海量仿真/日志
│ │
痛点:玩家多则维度爆炸、 痛点:非平稳、不收敛、无硬保证、
模型不准则解不准、初值敏感 要海量数据、sim-to-real gap
│ │
└──────────────────┬──────────────────┬──────────────┘
│ 三种融合范式正在合流 │
▼ ▼
① 可微博弈求解器(求解器→可微层→嵌进神经网络)
代表:Auto-Encoding Bayesian Inverse Games(VAE+可微Nash)、可微iLQGames
② no-regret 学习求大博弈均衡(学习的收敛工具→求博弈的CCE)
代表:Bayesian Game + no-regret → Bayesian CCE(决策-规划一体化)
③ 势博弈近似 + 安全证书学习(结构/学习→换可扩展性与保证)
代表:Near-Potential Function 实时赛车、GCBF+、Safe-MARL→GNE(MADAC)
│
▼
元趋势:【带博弈结构先验的可学习求解器】
(白盒的可解释/硬约束 + 黑箱的数据驱动/可扩展)
多视角理解(这张图就是 G4 一整章的"压缩版"):本节这张分工-融合图,本质上是博弈方向 G4(安全证书与 MARL 交界)一整章的高度压缩。G4 §4.1(CBF-博弈/GCBF+)对应图中融合范式③的安全证书学习;G4 §4.3(MARL 三主线 + PSRO)对应右侧"多智能体 RL"整支;G4 §4.4(OpenSpiel)则是右侧那支的统一工程框架。像/不像:像在于覆盖的方法集合一致;不像在于 G4 用"论文精读 + 代码走读"把每个方法讲到能动手实现,而本综述只做"摆位置、划边界、指趋势"。读完本节建立坐标系后,再去 G4 逐个深入,会事半功倍。
3.6.7 一张总账:每个方法到底求的是"哪一级均衡"¶
§3.2 讲了均衡概念的谱系(Nash/Stackelberg/局部 Nash/GNE/CCE),§3.3–§3.6 又逐个介绍了各流派与求解器,但有一件事一直散落在各处、没有合并——每个具体方法到底求的是哪一级均衡? 这件事极其关键,因为"求哪级均衡"直接决定了一个方法的**保证强度**(解有多"可信")和**适用前提**(要假设对手多理性)。把它合成一张总账:
| 方法 | 求的均衡 | 信息结构 | 对对手理性的假设 | 保证强度 |
|---|---|---|---|---|
| HJI 可达性 | 零和鞍点(minimax 值) | 反馈 | 对手完全理性、最坏情况 | 最强(精确、最坏情况安全) |
| iLQGames | 局部反馈 Nash | 反馈 | 对手理性、同时决策 | 中(局部、软约束) |
| ALGAMES | 开环 GNE | 开环 | 对手理性、同时决策 | 中–强(硬约束,但开环) |
| SE-IBR | 迭代最佳响应不动点 | 取决于子问题 | 对手理性、轮流最佳响应 | 弱–中(不保证真耦合均衡) |
| Stackelberg 求解器 | Stackelberg 均衡 | 序贯 | 对手是理性 follower | 中(依赖"谁先动"假设正确) |
| Level-k / GameFormer | 有界理性的 level-k 解 | 学习式 | 对手只做 k 步推理(非完全理性) | 弱(拟人但无硬保证) |
| Bayesian Game + no-regret | Bayesian CCE | 取决于建模 | 对手理性、有协调信号 | 中(CCE 存在性好、比 Nash 弱) |
| CBF-博弈 / GCBF+ | GNE(瞬时)+ 安全证书 | 反馈 | 不依赖对手代价(只需运动界) | 强(硬安全,弱化理性假设) |
| MARL(PSRO/Nash-Q) | Nash / CCE(学出) | 学习式 | 对手也在学(自博弈) | 弱–中(收敛到 CCE,无硬约束) |
本质洞察("求哪级均衡"是读懂任何博弈方法的第一把钥匙):这张总账揭示了一个贯穿全章的隐藏主线——一个博弈方法的全部性质,几乎都可以从"它求哪一级均衡"推导出来。求最强的均衡(HJI 的 minimax 鞍点)保证最强(精确最坏情况安全)但代价最大(维度诅咒);求中等的均衡(iLQGames 的局部 Nash、ALGAMES 的 GNE)保证中等但能实时;求最弱的均衡(Level-k 的有界理性解、MARL 的 CCE)保证最弱但最灵活、最贴合真实人类。像/不像:这与 §3.7.3"求更弱的均衡换可得性"的务实策略是同一枚硬币的两面——那里讲"为什么退而求更弱的均衡",这里讲"退到不同程度的均衡各得到什么"。不像在于这张表把它落到了每个具体方法上。读懂这把钥匙后,你拿到任何一篇博弈论文,第一个该问的问题就是"它求的是哪一级均衡"——答案一出,它的保证强度、适用前提、和别的方法怎么比,就都有了着落。CBF-博弈那一行尤其值得玩味:它通过"只求瞬时 GNE + 不依赖对手代价、只需对手运动的界"这个巧妙设计,用一个相对弱的均衡概念换来了一个相对强的安全保证——这正是它能在安全关键场景兜底的根本原因(§3.7.7)。
3.6.9 决策辅助:求解器、MARL,还是融合?¶
§3.4.4 给了"四个求解器之间怎么选"的决策树,但那是在"已经决定用数值求解器"的前提下。更上一层的决策是——到底该走数值求解器、走 MARL、还是走融合范式? 把 §3.6.3–§3.6.5 的分工逻辑收成一棵决策树,作为比 §3.4.4 更高一层的选型入口:
问题A:玩家数有多少?
├─ 多(>10,swarm 级)─────────────────────────────┐
│ ▼
│ 走【MARL / 可扩展融合】(势博弈、GCBF+、PSRO、MADAC)
│ —— 整体求解已不可行(宽度爆炸 §3.7.6)
│
└─ 少(2–10)──→ 问题B:对手代价/意图能写出来吗?
│
├─ 能(或可合理假设)──→ 问题C:有没有海量交互数据?
│ │
│ ├─ 没有 ──→ 走【数值求解器】(iLQGames/ALGAMES/SE-IBR,按 §3.4.4 选)
│ │ —— 模型驱动,缺数据也能算(§3.6.3)
│ │
│ └─ 有 ────→ 走【融合:可微博弈】(可微求解器嵌网络端到端学)
│ —— 既要博弈结构又要数据驱动(§3.6.5 范式①)
│
└─ 不能(对手代价未知)──→ 问题D:有海量数据吗?
│
├─ 有 ──→ 走【学习式 / 融合】(GameFormer、Bayesian 逆博弈)
│ —— 从数据隐式学交互/反推代价(§3.6.5 范式①②)
│
└─ 没有 ──→ 走【逆博弈 + 数值求解器】(在线推断代价再求均衡)
—— LucidGames 式在线推断(§3.7.5)
横切所有分支的一条铁律(§3.7.7):只要是安全关键场景,无论上面走到哪个叶子,都必须叠加一层安全证书(CBF/可达性)兜底——学习层/求解层负责性能,证书层负责"绝不撞"。
多视角理解(这棵树比 §3.4.4 高一层:先选"范式"再选"具体方法"):选型其实有两层决策,初学者常把它们混在一起。第一层(本节这棵树)是**选范式**——数值求解器 vs MARL vs 融合,由"玩家数、代价是否已知、数据是否丰富"三个根本问题决定;第二层(§3.4.4 那棵树)是在选定"数值求解器"范式后,选具体求解器——iLQGames vs ALGAMES vs SE-IBR,由"要不要反馈、要不要硬约束、要不要复用单人 MPC"决定。像/不像:两棵树像在于都是 if-else 决策树、都服务选型;不像在于决策的"粒度/层级"——本节这棵是"战略层"(走哪条大路),§3.4.4 那棵是"战术层"(大路上走哪条车道)。正确的用法是**先用本节的树定范式,若落到"数值求解器"再用 §3.4.4 的树定具体求解器**。把这两层decision分开,选型就从"一团乱麻里凭感觉抓一个"变成了"两步清晰的漏斗"。这也回扣了 §3.4.4 的核心论断——选型不是找最好的,而是把场景约束逐层投影、收敛到最匹配的那个角落。
3.6.10 过渡:从"边界"到"未解之惑"¶
§3.5 与 §3.6 联手划清了博弈规划的两条边界——它向下(与传统规控)一脉相承、"换内核"即得,它向旁(与 MARL/学习)求同一均衡、正加速合流。至此,博弈规划这个方向的"史(§3.1)、派(§3.2–3.3)、器(§3.4)、界(§3.5–3.6)"已经全部讲透。但一个成熟的方向认知,不能只看它"已经解决了什么",更要看它"还没解决什么"——那些悬而未决的硬骨头,恰恰决定了这个方向未来五年往哪走、值不值得你押注。下一节 §3.7 系统盘点博弈规划的开放问题。
§3.7 开放问题与未来方向 ⭐⭐⭐⭐¶
本节解决的问题:综述的最高价值不在复述已有成果,而在**勾勒前沿的边界**——哪些问题至今没有满意答案、为什么难、当前进展到哪、未来可能怎么破。本节系统盘点博弈规划的七个根本性开放问题。它们不是零散的技术难点,而是这个方向**结构性的张力**——每一个都源于博弈相对单智能体优化多出来的那层复杂性(多个耦合的决策者)。读完你应能在读任何一篇博弈规划新论文时,迅速判断"它在攻哪个开放问题、攻到了什么程度"。
3.7.1 为什么开放问题要"成体系"地看¶
在逐个展开前,先建立一个统领性的视角:博弈规划的开放问题**不是孤立的**,它们几乎全部源于同一个根——"多个决策者耦合"打破了单智能体优化赖以成立的三个良好性质。
回顾单智能体最优控制为什么"好做":① 解**存在且唯一**(凸问题有唯一最优);② 解**可数值稳定地求**(梯度法、Riccati 收敛性好);③ 代价**已知**(你的代价是你自己定的)。博弈把"一个 min"换成"多个耦合的 min"后,这三个性质**全部塌陷**:
- 唯一性塌陷 → 均衡选择问题(§3.7.2,可能有多个 Nash);
- 存在性塌陷 → 存在性与 well-posedness(§3.7.3,可能没有纯 Nash);
- 数值稳定性塌陷 → 耦合求解的数值脆弱(§3.7.4,条件数差、不收敛);
- 代价已知塌陷 → 对手代价/理性的可辨识性(§3.7.5,对手代价未知且可能错)。
在这四个"源生张力"之上,再叠加三个"工程/前沿张力"——可扩展性(§3.7.6,玩家多则爆炸)、安全保证与学习的结合(§3.7.7,黑箱无硬保证)、工程化与 C++ 生态真空(§3.7.8,SOTA 全在 Julia/Python)。
本质洞察(博弈的所有难题都是"耦合"这一个字的衍生物):把七个开放问题追到根,会发现它们是**同一个本源的不同侧面**——多个决策者通过共享状态/约束相互耦合。单智能体优化里,"你"是世界唯一的优化变量来源,所以解唯一、好求、代价自知。一旦引入"耦合的他人",你的最优依赖他人的策略、他人的最优又依赖你的策略,这个**循环依赖**就是一切麻烦的源头:循环依赖可能有多个自洽点(多均衡)、可能没有自洽点(不存在)、求自洽点的迭代可能发散(数值脆弱)、而他人的目标你还不知道(代价不可辨识)。理解这个"耦合是万恶之源"的统一视角,比记住七个孤立的难题重要得多——它让你在遇到任何博弈新问题时,都能本能地追问"这个困难是耦合的哪个侧面造成的"。
3.7.2 开放问题一:均衡选择(多个 Nash,该停在哪个?)⭐⭐⭐⭐¶
问题陈述:一般和博弈通常有**多个 Nash 均衡**,而求解器(iLQGames、ALGAMES)只能收敛到**其中一个**——收敛到哪个,由初始化决定(§3.3.3、§3.4 反复强调的"初始化决定停在哪个 Nash")。但不同 Nash 对应**截然不同的交互结果**:在无保护左转里,一个 Nash 是"ego 先走、对方让",另一个是"ego 让、对方先走"——两个都是自洽的均衡,但选错了(你以为对方会让、对方以为你会让)就会**对撞**。
为什么难:均衡选择**本质上是个协调问题(coordination problem)——没有纯粹数学上的"最优 Nash",哪个均衡"对"取决于**双方共享的社会约定 / 先验(谁有路权、当地驾驶习惯、是否有眼神/转向灯沟通)。这超出了纯优化的范畴,进入了"约定俗成"的灰色地带。数学上,多均衡意味着求解器的解**对初值不连续**——初值微小扰动可能跳到完全不同的均衡,这让"解的稳定性"无从谈起。
当前进展: - 灵敏度引导主动选均衡:SE-IBR 用代价对对手策略的灵敏度项,主动引导收敛到对 ego 有利的均衡(§3.3.5),这是"被动接受初值决定"到"主动选择"的一步。 - 加 tie-breaking 先验:在代价里加入路权/社会规范先验(如"有路权方代价更低"),让"符合约定的均衡"成为吸引子。 - 多假设并行:Multi-Hypothesis Interactions in Game-Theoretic Motion Planning(arXiv 2011.06047)同时维护多个均衡假设、在线根据观测筛选,而非赌单一均衡。 - 均衡精化(refinement)概念引入:借经济学的均衡精化思想(如风险占优、帕累托占优)给多均衡排序。
仍未解决:至今**没有一个被广泛接受的、可计算的"均衡选择准则"**适用于一般机器人交互。这是博弈规划最深、最哲学化的开放问题——因为它的根不在数学,而在"多个理性体如何就一个共同未来达成默契"。
对比性思维(均衡选择 vs 单智能体的"局部最优",不是一回事):初学者容易把"多个 Nash"类比成单智能体优化里的"多个局部最优",认为"挑代价最低的那个就行"。这个类比**会严重误导**。像/不像:像在于都是"解不唯一";不像在于——单智能体的多个局部最优**只关乎你自己**,挑哪个由你单方面说了算(挑全局最优即可);而多个 Nash 关乎所有玩家的协调,你挑了"对你最好的"那个均衡(你先走),但对方可能挑了"对他最好的"那个(他先走),两人各自的选择**不自洽**就会酿成事故。换言之,单智能体多局部最优是"选择问题"(你一个人选),博弈多均衡是"协调问题"(大家得选到同一个)——后者根本难得多。
3.7.3 开放问题二:均衡的存在性与 well-posedness ⭐⭐⭐⭐¶
问题陈述:单智能体优化只要问题良定义、可行域非空,最优解(或至少下确界)总存在。博弈则**不保证纯策略 Nash 均衡存在**——经典反例是石头剪刀布(无纯 Nash,只有混合 Nash)。在连续动作的微分博弈里,问题更微妙:非凸代价 + 非线性动力学下,纯反馈 Nash 可能不存在、或不唯一、或解对参数不连续,求解器可能在"本就没有解"的问题上空转不收敛。
为什么难:Nash 存在性定理(如有限博弈的混合 Nash 必存在、凹博弈的纯 Nash 存在)依赖**凸性/凹性**假设,而真实机器人博弈的代价(含碰撞惩罚、非线性动力学)几乎总是非凸的。非凸博弈的纯 Nash 存在性**没有一般性保证**。更麻烦的是 well-posedness——即便存在,解是否**连续依赖于问题参数**(代价权重、初始状态)?若不连续(多均衡区的边界),则数值解极不稳定。
当前进展: - 退化到有保证的子类:势博弈(potential game,§4.2)保证纯 Nash 存在且分布式收敛;近势博弈(near-potential game,arXiv 2412.08855)把一般博弈用最近的势博弈近似,借用其存在性保证。 - 混合策略 / CCE 放松:放弃"纯 Nash 一定存在",转而求一定存在的更弱均衡——混合 Nash、粗相关均衡(CCE)。Bayesian Game + no-regret(arXiv 2409.13993)求 Bayesian CCE 正是此路:CCE 在很一般的条件下都存在且可由 no-regret 学习收敛得到。 - 局部 Nash 概念:在连续博弈里只要求"局部 Nash"(每个玩家在邻域内无法改善),放宽全局存在性,iLQGames 求的正是局部反馈 Nash。
本质洞察("求更弱的均衡"是应对存在性的主流务实策略):面对"纯 Nash 不保证存在",整个领域的务实选择不是去证明它存在(往往证不出来),而是**主动降低对均衡的要求**——从"纯 Nash"退到"混合 Nash",再退到"(粗)相关均衡 CCE",再退到"局部 Nash"。这条"均衡概念的下降阶梯"是有代价的:越弱的均衡,玩家的协调假设越松(CCE 允许有个"协调信号"),但换来的是**存在性更有保证、计算更可行**。这与单智能体优化里"求不到全局最优就退而求局部最优/KKT 点"的务实精神一脉相承——都是**用"解的强度"换"解的可得性"**。读论文时看一篇博弈工作求的是哪一级均衡,就能判断它在"强度 vs 可得性"上站在哪。
3.7.4 开放问题三:耦合求解的数值脆弱性 ⭐⭐⭐⭐¶
问题陈述:求 GNE 要解所有玩家堆叠的 KKT 方程组 \(F(z)=0\)(§3.3.4),或解耦合 Riccati(§3.3.3)。这些耦合系统的**数值条件数往往很差**,导致 Newton 类迭代**收敛脆弱**——对初值敏感、易发散、易卡在非均衡的驻点。web 检索到的近期评述直言:"computing generalized Nash equilibria in dynamic games remains challenging, with equilibrium computation typically entailing structural couplings that lead to poor numerical conditioning and fragile convergence behavior"(耦合带来的病态条件数让收敛脆弱)。
为什么难:单智能体优化的 Newton 法收敛性有成熟理论(凸问题全局收敛、强凸二次收敛)。但堆叠 KKT 系统**不是任何单一目标的优化**——它是多个目标的"联立一阶条件",对应的雅可比矩阵**不对称、不保证正定**,标准的优化收敛理论(依赖目标下降)全部失效。本质上你在解一个**一般非线性方程组**而非优化问题,而非线性方程组的全局收敛极难保证。
当前进展(具体数字见 §3.4 横向对比,这里给量级): - 增广拉格朗日(ALGAMES):用 AL 处理约束,比内点法在博弈里更稳,4 车场景 ~110 ms 量级;但仍对初值敏感。 - 迭代最佳响应(SE-IBR):彻底绕开耦合求解,拆成 N 个单人子问题轮流解,复用成熟单人 QP 求解器,工程上最稳,代价是不保证收敛到真耦合均衡。 - warm start + 正则化 + line search:把单智能体优化的数值技巧(热启动、Levenberg-Marquardt 正则、回溯线搜索)迁移到博弈求解器,缓解但不根治。 - 摊销求解(LMPG):离线学一个网络近似均衡,在线一次前向,绕开在线 Newton 迭代的收敛风险。
量级现实:检索数据显示,纯学术实现里 iLQGames 单次求解约 350 ms、ALGAMES 约 110 ms(2 车量级);到 4 车**场景两者均升至 **700–860 ms(约 1 Hz),"inadequate for time-critical applications such as autonomous racing"。换言之,未经工程优化的求解器在 4 车以上就已经掉出实时区——这是数值脆弱性在实时性上的直接代价,也是工程化(§3.7.8)的紧迫性所在。
对比性思维("解方程组" vs "解优化":博弈数值难的根在这):把博弈求解的数值难度追到根,关键认知是——单智能体优化是"解优化问题",博弈求解是"解方程组"。这一字之差是数值稳定性鸿沟的根源。优化问题有"目标函数"这个全局向导,任何迭代都能用"目标是否下降"来判断进展、保证收敛(至少到局部最优);而堆叠 KKT 是个**没有统一目标函数的非线性方程组**,迭代时没有"下降"可言,只能盯着"残差 \(\|F(z)\|\) 是否变小",而残差下降**不被任何凸性保证**。像/不像:像在于都用 Newton 类迭代;不像在于优化的 Newton 有目标函数兜底(Hessian 正定区收敛好),方程组的 Newton 的雅可比可能奇异/不定,随时可能发散。这就是为什么 SE-IBR 这种"把博弈拆回 N 个优化"的务实路线在工程上反而更受欢迎——它把"解方程组"退回成"解一串优化",重新拿回了优化的收敛保证。
3.7.5 开放问题四:对手代价与理性的可辨识性 ⭐⭐⭐¶
问题陈述:所有基于模型的博弈求解器都**假设对手的代价函数已知**(你要写出 \(J_{\text{对手}}\) 才能求均衡)。但现实里**对手的代价/意图是未知的**——你不知道旁边那辆车是激进还是保守、是想超车还是想让行。逆博弈(§3.3 流派、G3)试图从观测轨迹反推对手代价,但这是个**病态的反问题**:① 不同代价可能产生几乎相同的观测轨迹(不可辨识);② 对手可能**并非完全理性**(人类不算 Nash,而是有界理性,§3.3.8 Level-k);③ 在线推断要快(边开边推),但逆博弈内层要反复解正向博弈,很贵。
为什么难:这是**双层耦合 + 病态反演 + 有界理性**三重困难的叠加。逆博弈的外层(推断代价)套着内层(解均衡),梯度要穿过"均衡解是代价的隐函数"这层(靠隐函数定理,§3.3.7);而即便算得动,"从行为反推偏好"在信息论上**本就可能不可辨识**(多个偏好解释同一行为);再加上人类对手根本不按 Nash 出牌(要建有界理性模型,又多一层不确定)。
当前进展: - 可微逆博弈 + UKF 在线化:LucidGames 把逆博弈做成"动态博弈上的无迹卡尔曼滤波",在线估计对手代价(§3.5.2 路径三)。 - 贝叶斯逆博弈:Auto-Encoding Bayesian Inverse Games(2402.08902)学的是对手代价的**后验分布**而非点估计——直面"不可辨识",用分布表达"对手可能是这几种类型",再扩展到高维多模态观测(2601.00696)。 - 认知层级建模有界理性:Level-k / Cognitive Hierarchy(§3.3.8)放弃"对手是完全理性的 Nash 玩家",改建"对手只做 k 步推理",更贴合人类。 - Level-2 逆博弈(递归一层):2025 年的 What Do Agents Think Others Would Do?(arXiv 2508.03824)把逆博弈推进到 level-2——不仅推断"对手想要什么",还推断"对手以为别人想要什么",把对手对他人的信念也辨识出来,用可微 MCP 求解。
多视角理解(逆博弈是"卡尔曼滤波"在意图空间的升维,但反问题病态得多):理解可辨识性难题的最佳类比是卡尔曼滤波(§3.5.2 已埋线)——传统滤波从带噪观测估**状态**(对手在哪、速度多少),逆博弈从交互轨迹估**代价/意图**(对手想要什么)。像/不像:像在于都是"从观测更新对隐变量的信念"的贝叶斯框架,协方差传播、雅可比线性化这套机器相通;不像有两层——其一,隐变量从"低维物理状态"升到"高维代价参数",可观性差得多(物理状态通常可观,偏好常不可辨识);其二,前向模型从"已知动力学"变成"需要求解的博弈均衡"(且可能不唯一),既更贵又更病态。所以逆博弈是卡尔曼滤波思想的升维,但升维后反演的病态程度远超原版——这正是它至今未被工程化攻克的根本原因。
3.7.6 开放问题五:可扩展性(玩家数与规模的诅咒)⭐⭐⭐⭐¶
问题陈述:博弈求解的复杂度随**玩家数**与**状态维度**急剧上升。HJI 可达性受维度诅咒,三四维状态就算不动(§3.3.2);iLQGames/ALGAMES 的耦合系统规模随玩家数增长,前述数字显示 4 车已掉出实时区。而真实城市路口可能有**数十个 agent**(车 + 行人 + 自行车),swarm 应用更是上百上千——远超数值求解器的承受力。
为什么难:耦合是组合性的——N 个玩家两两交互,耦合项随 \(O(N^2)\) 增长,堆叠 KKT 的规模、耦合 Riccati 的维度都随之膨胀;HJI 的状态空间则随联合状态维度**指数**爆炸。这不是常数优化能解决的,是**复杂度阶数**的问题。
当前进展: - 层级/分解(§3.3.6 流派(5)):把大博弈分解为"高层离散决策博弈 + 低层连续轨迹博弈",或按交互强度把 agent 分组、组内博弈组间解耦,把 \(O(N^2)\) 砍成近似 \(O(N)\)。 - 只与"相关"对手博弈:注意力/邻域机制只对近距、强交互的 agent 做博弈,远处当背景障碍(GameFormer 的注意力、CBF 的局部邻域)。 - 图神经网络 + 单一证书(GCBF+):用 GNN 学一个对 agent 数量**置换不变、可泛化**的安全证书,单一模型扩展到上千 agent(G4 §4.1)——这是当前可扩展性最有希望的突破口。 - 学习摊销 + 参数共享(MARL):CTDE + 参数共享让 MARL 天然 scale 到大群体(§3.6.4)。 - 近势函数实时化(2412.08855):用近势博弈把多车竞速博弈降到可实时求解。
对比性思维(可扩展性瓶颈:求解器是"宽度爆炸",HJI 是"深度爆炸"):博弈的可扩展性诅咒有**两种不同的爆炸**,区分它们才能对症下药。iLQGames/ALGAMES 这类耦合求解器面临的是**"宽度爆炸"——玩家数 N 增加,耦合项 \(O(N^2)\)、堆叠方程规模线性/平方增长,这是"横向变宽";而 HJI 可达性面临的是"深度爆炸"**——联合状态每多一维,值函数网格指数膨胀,这是"纵向变深"。像/不像:像在于都让"精确求解"变得不可行;不像在于破解手段不同——宽度爆炸用"分解/分组/注意力"把大博弈拆成小博弈(GCBF+、层级),深度爆炸用"函数逼近"把指数网格换成神经网络(深度可达性、DeepReach 类方法)。读一篇做"可扩展博弈"的论文,先判断它攻的是宽度还是深度爆炸,就知道它该用哪类武器。
3.7.7 开放问题六:安全保证与学习的结合 ⭐⭐⭐⭐¶
问题陈述:§3.6.5 的融合趋势把学习引入博弈,但带来一个尖锐矛盾——学习式方法(GameFormer、MARL、神经预测)没有硬安全保证,可能输出违反物理/碰撞约束的决策;而安全关键应用(自动驾驶、人机协作)要求"可证明不碰撞"。如何让"数据驱动的灵活性"和"可证明的安全性"共存,是博弈规划落地的命门。
为什么难:硬安全保证(CBF 不变性、可达性避险集)依赖**白盒模型 + 可验证的数学性质**;而学习的表达力恰恰来自**黑箱、难验证**。两者的认识论根基对立——你无法对一个上亿参数的神经网络证明"它在所有输入上都满足碰撞约束"。这是 AI 安全的普遍难题在博弈场景的具体化。
当前进展: - 软硬两层安全栈(项目甲架构,G4 §4.1):上层用学习式/博弈式规划器(GameFormer/iLQGames)出"高质量但无保证"的轨迹,下层用 CBF 安全滤波**强行投影到安全集**——学习负责性能,证书负责安全。这是目前最务实、最主流的工程范式。 - 学出来的安全证书(GCBF+):用 GNN 学 CBF,但通过构造/训练时的约束让学出的证书**仍满足 CBF 不变性**(带保证的学习)。 - 带收敛/安全保证的 MARL(MADAC,2411.15036):从理论上证明带状态约束的合作 Markov game 收敛到 GNE,把"安全 + 均衡 + 收敛"三个保证在学习框架里统一。 - 可达性给学习兜底:用 HJI 可达集作为"最后的安全壳",学习策略只在可达安全集内自由发挥,越界则切换到可达性保守策略。
本质洞察("软硬分层"是当前安全-学习矛盾的最优工程解,但不是终极解):面对"学习无保证 vs 安全要保证"的矛盾,整个领域当前的最优工程答案是**职责分离的软硬两层栈**——让学习和安全各干各最擅长的:学习层(黑箱、灵活、负责"开得好/拟人")在上,安全层(白盒、可证、负责"绝不撞")在下做最后投影。这个分层之所以是当前最优,是因为它**不要求"证明神经网络安全"这件不可能的事**,而是用一个可证明的薄薄外壳把不可证的内核包起来。但它不是终极解,有两个未愈的痛点:① 安全层的硬投影可能让学习层精心规划的交互意图"失真"(投影后的轨迹不再是那个聪明的博弈解);② 安全层本身仍需一个(可能不准的)对手运动模型来定义"安全"。终极的"端到端可证安全的学习式博弈"仍是开放的圣杯。这与单智能体侧"安全 RL"面临的矛盾同构,但博弈的多主体耦合让它更难。
3.7.8 开放问题七:工程化与 C++ 生态真空 ⭐⭐⭐¶
问题陈述:这是一个不那么"学术"但极其现实的开放问题——博弈规划的 SOTA 几乎全在 Julia/Python,C++ 侧只剩 iLQGames 一个主力且已停更(§3.4.5 详述)。这与同属横切层的"不确定性规划"形成刺眼反差:后者有 EPSILON(677⭐ 纯 C++)、acados(C 内核)、DESPOT 等成熟 C++ 栈,能支撑"读码—改码—跑车"的完整闭环;而博弈规划**是整个规控横切层里 C++ 工程化最薄弱的方向**。
为什么难/为什么这样:不是技术不能,而是**研究生态的路径依赖**——博弈规划 SOTA 集中在 Berkeley、Stanford、UT Austin 的几个组,这些组为了快速迭代与可微编程偏好 Julia(科学计算友好,iLQGames.jl/ALGAMES.jl/ParametricMCPs.jl 全在 Julia)和 Python(深度学习生态)。工程化的 C++ 实现需要大量"非创新性"的苦工,学术界缺乏动力做,工业界(Waymo/Cruise 等)做了也不开源。于是形成"学术 SOTA 在 Julia/Python、生产 C++ 闭源、开源 C++ 真空"的局面。
当前进展 / 务实应对: - 接受语言异构:用 iLQGames(C++,HJReachability/ilqgames)建立工程直觉与实时基线,用 Julia/Python 接触 SOTA(逆博弈、可微博弈、GameFormer)。 - OpenSpiel(C++17 核心):博弈-MARL 接口里唯一成熟的 C++ 栈,但偏离散扩展式博弈(扑克/棋类),不直接覆盖连续微分博弈。 - acados/CasADi 复用:SE-IBR 这类"拆成单人 MPC"的路线能直接复用成熟的 C++/C 优化后端,是把博弈"塞进现有 C++ 生态"的最现实路径。 - 摊销求解降低部署门槛:把博弈解摊销进一个网络(LMPG),部署侧只需一次轻量前向,绕开"在 C++ 里实现复杂求解器"的工程负担。
对比性思维(C++ 生态真空与"不确定性规划"的鲜明反差,揭示一个方向的成熟度信号):把博弈规划与不确定性规划的 C++ 生态并排看,本身就是一个**判断方向成熟度的信号**。不确定性规划有 EPSILON/acados/DESPOT 一整套生产级 C++ 栈,说明它已经走过"学术验证"进入"工程沉淀"阶段;博弈规划 C++ 真空、SOTA 全在 Julia/Python,说明它仍处在"学术快速迭代"阶段,工程沉淀尚未发生。像/不像:像在于两者都是规控横切层的活跃方向;不像在于成熟度——一个的代表作能 git clone 下来在车规芯片上跑(EPSILON),另一个的代表作是 Julia notebook(iLQGames.jl)。这个反差的实践含义对学习者极其重要:学博弈规划必须接受"用 iLQGames(C++)练手、用 Julia/Python 追前沿"的语言异构现实,不能指望像学 MPC 那样有现成的 C++ 主干一路到底。它同时也是一个机会信号——博弈规划的高质量开源 C++ 实现是当前生态的明显空白,谁补上谁就占住生态位。
3.7.9 七大开放问题速查表¶
把七个开放问题压成一张表,作为本节的可检索索引——读任何博弈规划新论文时,对照此表判断"它在攻哪个、攻到哪步":
| # | 开放问题 | 根源(耦合的哪个侧面) | 难在哪 | 当前最有希望的方向 | 难度 |
|---|---|---|---|---|---|
| 1 | 均衡选择 | 唯一性塌陷 | 协调问题,无纯数学最优 Nash | 灵敏度引导 + 社会规范先验 + 多假设 | ⭐⭐⭐⭐ |
| 2 | 存在性/well-posedness | 存在性塌陷 | 非凸博弈纯 Nash 不保证存在 | 退到 CCE/势博弈/局部 Nash | ⭐⭐⭐⭐ |
| 3 | 耦合求解数值脆弱 | 数值稳定性塌陷 | 解方程组而非优化,条件数差 | AL/IBR/warm-start/摊销 | ⭐⭐⭐⭐ |
| 4 | 对手代价可辨识 | 代价已知塌陷 | 双层 + 病态反演 + 有界理性 | 贝叶斯逆博弈 + Level-k + UKF | ⭐⭐⭐ |
| 5 | 可扩展性 | 耦合的组合爆炸 | 宽度(\(O(N^2)\))/深度(指数)双爆炸 | 层级分解 + GNN 单一证书 + 摊销 | ⭐⭐⭐⭐ |
| 6 | 安全 × 学习 | 黑箱不可验证 | 学习无硬保证 vs 安全要保证 | 软硬两层栈 + 学出的证书 | ⭐⭐⭐⭐ |
| 7 | 工程化/C++ 真空 | 研究生态路径依赖 | SOTA 全在 Julia/Python | 语言异构 + 复用 acados + 摊销 | ⭐⭐⭐ |
多视角理解(七大开放问题构成一张"前沿地图",而非待办清单):初学者容易把开放问题列表读成"一份待攻克的 TODO",逐条想"哪条先解决"。更有用的读法是把它当成**一张前沿地图**——它告诉你这个方向的"地形":哪里是深谷(均衡选择,哲学性的协调难题,可能永远只有部分解)、哪里是正在推进的战线(安全×学习、可扩展性,2024–2026 论文最密集)、哪里是工程洼地(C++ 真空,等人来填)。像/不像:像在于都是"未解之事的集合";不像在于待办清单假设"逐条做完就结束",而前沿地图承认"有些问题(如均衡选择)是方向的内在张力、不会被彻底'解决'、只会被更好地'管理'"。带着地图的视角读前沿论文,你会更快看出一篇工作的真实分量——它是在填洼地(工程化)、推战线(安全×学习),还是在深谷里又凿进了一寸(均衡选择的新准则)。
3.7.10 横切视角:哪个开放问题"咬"哪个机器人形态最狠¶
七大开放问题不是均匀地压在所有应用上的——不同机器人形态被不同的开放问题"咬"得最狠。把开放问题(§3.7)与形态(附录 C)交叉,能得到一张极实用的"按形态看痛点"地图:知道你做的形态最该担心哪几个开放问题,就知道该把工程资源压在哪。
| 形态 | 咬得最狠的开放问题 | 为什么 | 优先工程对策 |
|---|---|---|---|
| 自动驾驶 | ④代价辨识 + ①均衡选择 + ⑥安全×学习 | 对手意图未知、路口要协调谁先走、学习式上车要兜底 | 贝叶斯逆博弈 + 多假设 + 软硬两层栈 |
| 竞速 | ③数值脆弱 + ②存在性 + 实时性 | 强对抗近零和、要极致实时、耦合求解易发散 | 近势函数实时化 + 摊销求解 + warm start |
| 多机 swarm | ⑤可扩展性(压倒性) | 玩家上千,宽度爆炸 | 势博弈 + GNN 单一证书 + 本地邻域 |
| 机械臂(人机协作) | ⑥安全×学习 + ④代价辨识 | 人不可预测、共享空间撞人不可接受 | CBF-博弈硬投影 + 人意图在线推断 |
| 人形 / loco-manip | ⑤可扩展 + ⑥安全 + ⑦工程化(复合) | 多层栈、复合交互、生态最不成熟 | 分层 + 全身 CBF + 接受语言异构 |
本质洞察("通用开放问题"落到具体形态会重新排序,这是从综述走向落地的关键一跃):§3.7.9 那张表给的是"方向级"的开放问题全景,但工程师真正需要的是"我这个形态最该担心哪几个"。这张交叉表揭示了一个重要规律——同一批开放问题,在不同形态上的"杀伤力排序"截然不同:可扩展性(⑤)对 swarm 是压倒性的命门,对竞速却几乎不是问题(就 2–4 车);代价辨识(④)对自动驾驶/人机协作是头号难题(对手是不可预测的人),对 swarm 却轻得多(协作 agent 的目标已知)。像/不像:像在于七个开放问题对所有形态都"存在";不像在于"咬的力度"——而力度排序,恰好由该形态的"交互类型 + 玩家数 + 数据丰度"决定(呼应附录 C.2 的三因子规律)。这一跃——从"方向有哪些开放问题"到"我的形态最该解哪个"——正是从读综述(建立全局认知)走向做项目(落地决策)的关键转换。带着这张交叉表,你不会再泛泛地担心"博弈规划好多没解决的问题",而是精准地知道"我做 swarm,就死磕可扩展性,其余六个先放一放"。
3.7.11 过渡:从"未解之惑"到"全章收束"¶
§3.7 盘点的七大开放问题,把博弈规划这个方向的"边界之外"也勾勒清楚了——它们几乎全是"多决策者耦合"打破单智能体良好性质的衍生物,构成了这个方向未来五年的主战场。至此,从 §3.1 的发展脉络到 §3.7 的开放问题,博弈规划的全貌已经铺陈完毕。在收束成速查表之前,先集中清算一批读这篇综述时最容易形成的误解。
本章常见误解汇总¶
博弈规划认知门槛高,初学者极易形成一批"似是而非"的误解。下表把全章散落各处的高频误解集中清算,每条给出"错误认知→为什么错→正确认知→相关小节"。这张表与章末"故障诊断手册"互补——那张针对"做选型/用方法时的操作困惑",这张针对"理解概念时的认知偏差"。
| # | 错误认知 | 为什么错 | 正确认知 | 相关小节 |
|---|---|---|---|---|
| 1 | "博弈规划是个全新的陌生领域,要从零学起" | 它几乎全是单智能体工具的多主体推广,符号都只是加了下标 \(i\) | "换内核"元模式——外层骨架不变,只换耦合内核,单智能体功力高度可迁移 | §3.5.1, 附录 B.2 |
| 2 | "博弈一定能求出唯一最优解" | 多决策者耦合打破唯一性,一般和博弈通常有多个 Nash | 博弈求的是"均衡"非"最优",且均衡可能多个/不存在/不稳定 | §3.2.1, §3.7.1 |
| 3 | "多个 Nash 就像多个局部最优,挑代价最低的就行" | 局部最优是你一人的选择问题;多 Nash 是所有人的协调问题 | 选错均衡(你以为对方让、对方以为你让)会对撞,需共享先验协调 | §3.7.2 |
| 4 | "博弈规划和 MARL 是两个无关领域" | 两者求的都是博弈均衡(Nash/CCE),只是逼近方式不同 | 博弈是连接控制与学习的统一语言:求解器从模型侧爬、MARL 从采样侧爬 | §3.6.1 |
| 5 | "安全关键场景应该用最强的方法——学习" | 安全关键的核心难点是罕见危险交互,而数据里几乎没有这类样本 | 越安全关键越偏模型驱动求解器(不受数据稀缺影响);学习负责常见、求解器负责罕见 | §3.6.3 |
| 6 | "学习式方法(GameFormer)精度高,可以直接上车" | 它无硬安全保证,OOD 上会输出"自信的错误"且不自知 | 必须配软硬两层栈,用 CBF/可达性证书兜住低可观测的失败 | §3.7.7, §3.9.1 |
| 7 | "把博弈求解器扩展到几十个 agent 只是慢一点" | 耦合是组合性的,宽度爆炸(\(O(N^2)\))让整体求解彻底不可行 | 玩家数是相变点而非参数,跨过 >10 整个工具箱要换(分布式+局部+可泛化) | §3.7.6, §3.10.3 |
| 8 | "iLQGames 算出意外结果 = 代码有 bug" | 多均衡下初值决定收敛到哪个 Nash,这是数学性质非 bug | 检查初始化、加灵敏度引导/社会规范先验来选目标均衡 | §3.3.3, §3.7.2 |
| 9 | "速度越高/玩家越多/场景越凶,才越需要博弈" | 决定要不要博弈的是交互强度,与速度/玩家数/凶险度不直接相关 | 低速窄空间近距(园区配送)交互很强需博弈;高速跟车交互弱无需博弈 | §3.10.4, §3.5.3 |
| 10 | "理论最先进的方法就该优先用于产品" | 先进与成熟常反相关——最被看好的可微博弈还在论文里 | 产品选成熟度(iLQGames/SE-IBR/CBF),研究追先进性(可微博弈/GCBF+) | §3.9.4 |
| 11 | "逆博弈就是给对手轨迹做个回归预测" | 逆博弈反推的是代价/意图(隐变量),且前向模型是要求解的博弈均衡 | 它是卡尔曼滤波在意图空间的升维,反问题病态、可能不可辨识 | §3.7.5, §3.5.2 |
| 12 | "博弈规划像 MPC 一样有现成 C++ 主干可一路到底" | SOTA 全在 Julia/Python,C++ 只剩停更的 iLQGames | 接受语言异构:iLQGames(C++)练手 + Julia/Python 追前沿 + 复用 acados | §3.4.5, §3.7.8 |
本质洞察(这 12 条误解几乎全部指向同一个认知盲区:用"单智能体直觉"套"多智能体世界"):把这 12 条误解追到根,会发现它们几乎全是**同一个认知错误的不同表现——拿单智能体优化的直觉去套多智能体博弈的世界**。误解 2(以为有唯一最优)、误解 3(把多 Nash 当多局部最优)、误解 7(以为扩展只是变慢)、误解 8(把多均衡当 bug),全都源于"我习惯了一个决策者的世界,下意识假设那套规律还成立"。而博弈的全部困难恰恰来自打破"只有我一个决策者"这个假设(§3.7.1 耦合是万恶之源)。像/不像:单智能体直觉在博弈里像在于很多记号、工具、流程都还能用(§3.5"换内核");不像在于"唯一性、存在性、数值稳定、代价自知"这四个良好性质全塌了。所以学博弈规划最该做的一次"认知升级",不是记住多少新算法,而是**时刻警惕自己的单智能体直觉在哪里会失效**——每当你下意识觉得"这不显然就该有个最优解吗""扩展不就是慢点吗",那很可能正是单智能体直觉在误导你。带着这份警惕,上面 12 条误解就都能在它们形成之前被拦下。
§3.8 本章小结与速查 ⭐¶
本节定位:这是全章的"压缩存档"。前面七节是展开的"林海",本节把它折叠成几张可随时回查的速查表——一张记住四个时代、一张记住八大流派、一张记住四个求解器、一张记住七大开放问题。读完全章后,本节是你"温故"的入口;准备技术选型或面试时,本节是你"速查"的索引。
3.8.1 一句话总括博弈规划¶
如果只能用一句话概括整个方向:博弈规划是把单智能体规控的每一件工具(最优控制、HJB、LQR、KKT、MPC、CBF、卡尔曼滤波、IRL)从"一个决策者"推广到"多个互相耦合的决策者",用"博弈均衡"取代"唯一最优",从而让机器人能与会观察它、会响应它、有自己目标的他人进行策略性交互。
它最深刻的贡献是用"预测即均衡"范式根治了传统"先预测后规划"管线的 frozen robot 顽疾(§3.5.3);它最核心的张力是"多决策者耦合"打破了单智能体优化的唯一性、存在性、数值稳定性、代价已知四个良好性质,由此衍生出全部开放问题(§3.7)。
3.8.2 速查表一:四个时代(史)¶
| 时代 | 年代 | 关键词 | 代表工作 | 一句话定位 |
|---|---|---|---|---|
| 第一时代 | 1965–1999 | 理论奠基 | Isaacs 微分博弈、Basar–Olsder LQ 博弈闭式解 | 数学框架建立,但"对的却算不动" |
| 第二时代 | 1999–2016 | 纯理论→机器人交互 | Mitchell–Bayen–Tomlin HJI 可达性、Sadigh Stackelberg 范式 | 博弈进入机器人/驾驶,可达性给安全证书 |
| 第三时代 | 2018–2021 | 实时化爆发 | iLQGames、ALGAMES、SE-IBR | 局部 Nash/GNE 可实时求解,落到实车 |
| 第四时代 | 2021–2026 | 逆博弈/学习化/安全 | 逆博弈、GameFormer、GCBF+、可微博弈、Bayesian 逆博弈 | 推断对手代价、融合学习、安全兜底、加速合流 |
本质洞察(四个时代是"算得动"这一条主线在驱动):把四个时代连起来看,会发现推动整个方向演进的核心动力始终是同一个——让博弈"算得动"且"算得对"。第一时代有了理论(Isaacs)却算不动(维度诅咒);第二时代用可达性在小维度上算对了安全证书,但仍 scale 不了;第三时代的 iLQGames/ALGAMES 是历史转折点——用"迭代 LQ 近似"第一次让一般博弈实时算得动;第四时代则在"算得动"的基础上回头补"算得对"(对手代价未知就逆博弈推断、模型可能错就 CBF 兜底、玩家太多就学习摊销)。这条"先求能算、再求算准、再求能扩展"的主线,和几乎所有数值方法领域的演化规律一致。
3.8.3 速查表二:两大均衡 + 八大流派(派)¶
两大均衡流派:
| 均衡 | 决策时序 | 一句话 | 典型场景 |
|---|---|---|---|
| Nash | 同时决策 | 无人能单方面改善(对称) | 汇入、对向会车、赛车并行 |
| Stackelberg | 序贯决策 | leader 先动并预判 follower 的最优响应 | 有明确路权先后、ego 主动引导对手 |
八大技术流派:
| # | 流派 | 核心思想 | 代表 | 强项 | 弱项 |
|---|---|---|---|---|---|
| 1 | HJI 可达性 | 解 minimax PDE 求博弈值+安全集 | Mitchell-Bayen-Tomlin | 理论最强、精确安全证书 | 维度诅咒(≤4-5 维) |
| 2 | LQ/iLQ 系列 | 反复 LQ 近似解耦合 Riccati | iLQGames | 实时反馈 Nash、C++ 可用 | 软约束、初值敏感 |
| 3 | 约束 GNE 求解器 | 堆叠 KKT + 增广拉格朗日 | ALGAMES | 硬约束严格满足 | 开环、数值脆弱 |
| 4 | 迭代最佳响应+灵敏度 | 拆成 N 个单人优化轮流解 | SE-IBR | 工程最轻便、复用单人 MPC | 不保证收敛到真均衡 |
| 5 | 层级/分解 | 大博弈拆成高层离散+低层连续 | 各类 hierarchical | 对付可扩展性 | 分解可能丢全局最优 |
| 6 | 可微博弈/学习混合 | 求解器做成可微层嵌进网络 | 可微 iLQGames、Auto-Encoding Bayesian Inverse Games | 白盒+黑箱融合、可学代价 | 仍在发展、训练复杂 |
| 7 | Level-k/认知层级 | 给有界理性的人建模 | Cognitive Hierarchy、GameFormer | 贴合人类行为 | 层级估计可能错 |
| 8 | 博弈+安全证书 | CBF-QP=GNE,给会出错的博弈兜底 | CBF-博弈、GCBF+ | 硬安全、可扩展(GNN) | 需对手运动模型 |
多视角理解(八大流派沿"约束严格性 × 模型 vs 数据"两轴分布):八个流派不是杂乱罗列,把它们投到 §3.3.1 的两个坐标轴上就一目了然——横轴"模型驱动↔数据驱动":流派 1–5 偏模型驱动(写动力学+代价、数值求解),流派 6–7 偏数据驱动(学代价/学交互),流派 8 横跨(CBF 是模型、GCBF+ 是学习);纵轴"软约束↔硬约束":流派 2/4/7 偏软(惩罚项),流派 1/3/8 偏硬(可达集/AL/CBF 证书)。像/不像:像在于八派都求博弈均衡;不像在于各占这个二维空间的不同角落——选型的本质(§3.4.4)就是把你的场景约束投到这两轴上、找最匹配的那个角落。记住这两轴,比死记八个流派的名字有用得多。
3.8.4 速查表三:四大实时求解器(器)¶
| 求解器 | 均衡类型 | 信息结构 | 约束处理 | 实时性(量级) | 语言 | 一句话选型 |
|---|---|---|---|---|---|---|
| iLQGames | 局部反馈 Nash | 反馈(强) | 软惩罚 | 2车350ms,4车700ms* | C++/Julia | 要反馈 + 要 C++ 抓手 |
| ALGAMES | 开环 GNE | 开环(需 MPC 补反馈) | 硬约束(AL) | 2车110ms,4车860ms* | Julia | 要硬碰撞约束 |
| SE-IBR | 迭代最佳响应解 | 取决于子问题 | 复用单人 MPC | 工程最轻 | Julia/Python | 想复用成熟单人 MPC |
| GameFormer | 隐式(Level-k 学习) | 学习式预测 | 无硬保证 | 一次前向(快) | Python | 有海量数据 + 要泛化 |
* 量级数字来自学术实现的横向评测(§3.4、§3.7.4 检索),未经工程优化;4 车均已掉出实时区(~1 Hz),生产部署需大量工程优化。
三组关键取舍(详见 §3.4.3):iLQGames(反馈强)vs ALGAMES(约束严)—反馈与硬约束难兼得;SE-IBR(实用)vs iLQGames/ALGAMES(严格)—工程轻便 vs 理论严格;GameFormer(数据黑箱)vs 前三者(模型白盒)—泛化无保证 vs 可解释有约束。
3.8.5 速查表四:七大开放问题(问)¶
(完整版见 §3.7.9)一句话索引:① 均衡选择(多 Nash 选哪个,协调难题);② 存在性(纯 Nash 不保证存在,退到 CCE);③ 数值脆弱(解方程组非优化,条件数差);④ 代价辨识(对手代价未知 + 病态反演);⑤ 可扩展性(宽度/深度双爆炸);⑥ 安全×学习(黑箱无硬保证);⑦ C++ 真空(SOTA 全在 Julia/Python)。
七者同根——全是"多决策者耦合"打破单智能体良好性质的衍生物(§3.7.1)。
3.8.6 三条认知主线(一定要带走的)¶
读完全章,如果其他都忘了,请带走这三条:
-
"换内核"元模式(§3.5.1):博弈规划极少推倒重来,几乎都是把单智能体工具的"内核"换成"多主体耦合版",外层骨架原样保留(iLQR→iLQGames、KKT→堆叠 KKT、滤波→逆博弈)。你的单智能体规控功力高度可迁移。
-
"预测即均衡"范式(§3.5.3):博弈规划把"预测他人"和"规划自己"**同时求解**为一个博弈均衡,从根上治好了"先预测后规划"管线的 frozen robot 病——预测天然考虑了 ego 的影响。这是博弈规划**最实用**的贡献。
-
"耦合是万恶之源"(§3.7.1):博弈所有的难题(多均衡、不存在、数值脆弱、代价未知、不可扩展)都是"多决策者循环依赖"这一个本源的不同侧面。理解这个统一视角,胜过记住一堆孤立难题。
本质洞察(这三条主线分别对应"信心、价值、敬畏"):这三条认知主线在心理上各有一个作用,缺一不可。"换内核"给你**信心**——博弈不是陌生新大陆,是你已有功力的自然延伸,别怕;"预测即均衡"给你**价值感**——博弈不是炫技,它真的解决了传统管线解决不了的实际顽疾(frozen robot),值得学;"耦合是万恶之源"给你**敬畏**——博弈比单智能体优化本质上难一个量级,多出来的那层耦合带来了一整套至今未解的硬骨头,别轻视。带着"信心、价值、敬畏"这三种心态进入 G1–G4 的深入学习,比只记住技术细节走得更稳更远。
3.8.7 与博弈方向深度教程(G0–G4)的回指地图¶
本综述是**方向级**的鸟瞰(摆位置、划边界、指趋势),不做推导、不贴代码。要把每个知识点学到能动手实现,请回到博弈方向的深度教程 G0–G4:
| 本综述小节 | 对应深度教程章节 | 在那里你会得到 |
|---|---|---|
| §3.1 发展脉络 | G0 总论(40_博弈规划/10_博弈规划总论.md) |
三大认知跨越、八条路线全景、翻译词典 |
| §3.2 两大均衡 | G2 §2.1(30_实时博弈求解器.md) |
Nash/Stackelberg 数学定义、开环 vs 反馈 |
| §3.3 八大流派 + §3.4 求解器 | G1(20_微分博弈与HJI.md)+ G2 |
HJI/Isaacs 推导、iLQGames/ALGAMES 完整算法 + 可跑代码 |
| §3.5 与传统规控关系 | G0 翻译词典 + G2 iLQR→iLQGames | "换内核"的逐步推导 |
| §3.6 与 MARL 交界 + §3.7 安全×学习 | G4(50_安全证书与MARL.md) |
CBF-博弈=GNE、GCBF+、PSRO、OpenSpiel 精读 + 代码 |
| §3.7 代价辨识/逆博弈 | G3(40_逆博弈与预测规划.md) |
逆博弈 MLE、隐函数定理梯度、GameFormer、LucidGames 代码 |
| §3.4.5 + §3.7.8 工程现实 | G 附录(60_综合对比与附录.md) |
开源项目表、论文精读路线、C++/Julia/Python 生态 |
多视角理解(综述与深度教程是"地图"与"实地"的关系):本综述和 G0–G4 深度教程的关系,像一张"国家地图"和"逐城的街景导览"。像/不像:像在于覆盖的疆域一致(同一个博弈方向);不像在于分辨率与用途——地图(综述)让你一眼看清城市间的相对位置、主干道走向、还没修通的路(开放问题),用于"建立全局坐标系、做路线决策";街景(深度教程)让你走进某一条街看清每块砖(推导每一步、代码每一行),用于"真正学会走这条街"。正确的用法是**先看地图建坐标系(读本综述),带着"我现在在地图哪个位置"的意识走进街景(读 G0–G4),学完某片区域再回看地图(回查本综述)检验自己能否在方法空间里自由导航**。地图和街景互为索引,缺任何一个,要么"见树不见林"(只读深度教程),要么"见林不见树"(只读综述)。
§3.9 两个补充对比维度:失败模式与计算画像 ⭐⭐⭐¶
本节解决的问题:§3.4 的横向对比聚焦"正常工作时各求解器怎么样",但综述的对比价值还有两个常被忽略的维度——被推到极限时各方法怎么坏(失败模式),以及**算力到底花在哪(计算画像)**。这两个维度对工程选型至关重要:选型不仅要看"最好情况下谁强",更要看"最坏情况下谁怎么死、死了好不好救",以及"我的算力预算落在它的哪个阶段"。本节补上这两张对比。
3.9.1 失败模式对比:每条流派"被推到极限时怎么坏"¶
每个方法都有"工作区"和"失效区"。工程上更危险的不是"在工作区不够好",而是"滑进失效区时悄无声息地坏掉"。下表系统对比八大流派/四大求解器被推到极限时的**典型失败模式**与**失败的可观测性**(坏了你能不能立刻知道):
| 方法 | 被推到极限的触发条件 | 典型失败模式 | 失败可观测性 | 工程兜底建议 |
|---|---|---|---|---|
| HJI 可达性 | 状态维度 >4–5 | 算不动(离线就跑不完) | 高(离线即暴露,不会上车) | 降维 / 分解 / 深度可达性逼近 |
| iLQGames | 初值差 / 强非凸 | 收敛到坏 Nash 或不收敛 | 中(残差可监控,但"坏 Nash"难自检) | warm start + 残差阈值 + CBF 兜底 |
| ALGAMES | 约束无可行解 / 病态 | 数值发散 / 无可行解 | 中(求解器报 infeasible) | relaxed 约束 + 高频 MPC 重解 |
| SE-IBR | 强耦合博弈 | 轮流优化振荡不收敛 | 中(迭代不收敛可见) | 阻尼 / 限制迭代次数 + 取最优可行 |
| 层级/分解 | 层间假设被违反 | 高低层不一致、抖动 | 低(看似在跑,实则次优) | 层间一致性检查 |
| 可微博弈/学习 | 分布外输入 (OOD) | 输出违反约束的"自信错误" | 低(黑箱,错得理直气壮) | OOD 检测 + 安全层强投影 |
| Level-k | 对手层级估错 | 误判对手意图 → 对撞风险 | 低(你以为对方让,其实不让) | 贝叶斯多假设 + 保守先验 |
| CBF-博弈 | 多机死锁 / 无可行 QP | 死锁卡住 / QP 无解 | 中(卡住可见,但不解死锁) | relaxed CBF + 死锁打破启发式 |
本质洞察(最危险的失败是"低可观测性"的失败,而它恰好集中在学习式方法):把上表的"失败可观测性"一列单独拎出来看,会发现一个对安全工程极其重要的规律——模型驱动方法(HJI/ALGAMES/SE-IBR)的失败大多"高/中可观测"(算不动、报 infeasible、迭代振荡,你能立刻知道出事了),而学习式方法(可微博弈、Level-k、GameFormer)的失败大多"低可观测"——它们会输出一个"看起来很合理、实则违反约束或误判意图"的结果,且对自己的错误毫无察觉(OOD 上的"自信错误")。这个规律的工程含义是决定性的:低可观测的失败比高可观测的失败危险得多——后者你能 fallback,前者你根本不知道要 fallback。这正是为什么安全关键系统坚持"软硬两层栈"(§3.7.7)——用一个高可观测、可证明的安全层(CBF/可达性)去**兜住**学习层那些低可观测的自信错误。选型时,不能只问"哪个方法平均表现最好",更要问"哪个方法坏起来我能第一时间发现"。
3.9.2 计算画像对比:算力到底花在离线还是在线¶
§3.6.4 已点出"求解器把算力花在在线、MARL 花在离线"。这里把它细化成一张完整的**计算画像**表——对每个方法标注算力在"离线训练 / 在线求解 / 在线前向"三个阶段的分布,以及对车规算力的友好度:
| 方法 | 离线(训练/预计算) | 在线(每控制周期) | 在线本质 | 车规算力友好度 |
|---|---|---|---|---|
| HJI 可达性 | 重(离线算值函数/可达集) | 轻(查表) | 查预计算的表 | 高(在线只查表,但表占内存) |
| iLQGames | 无 | 中–重(每周期迭代 LQ) | 在线数值迭代 | 中(取决于玩家数、horizon) |
| ALGAMES | 无 | 重(每周期解 AL 子问题) | 在线数值迭代 | 低–中(4 车已 ~1Hz) |
| SE-IBR | 无 | 中(N 个单人 QP 轮流) | 在线数值迭代 | 中(复用成熟 QP 后端) |
| 可微博弈(训练后) | 重(端到端训练) | 中(含可微求解层前向) | 前向 + 轻求解 | 中 |
| GameFormer | 极重(海量数据训练) | 极轻(一次网络前向) | 神经网络前向 | 高(前向快,但模型大) |
| GCBF+ | 重(训练 GNN 证书) | 轻(GNN 前向 + QP) | 前向 + 轻 QP | 高(可扩展到上千 agent) |
| 摊销求解(LMPG) | 重(学摊销网络) | 轻(一次前向近似均衡) | 神经网络前向 | 高 |
对比性思维("算力时间分布"决定了一个方法适合什么样的部署平台):选型时一个被严重低估的维度是——这个方法把算力压在离线还是在线,直接决定它适配什么部署平台。像/不像:纯在线求解型(iLQGames/ALGAMES)像"现做现卖的厨房"——不需要提前备货(无需训练数据/离线算力),但每一单都要现炒(每周期都要解博弈),对"出餐速度"(车规芯片的实时算力)压力大;离线摊销型(GameFormer/GCBF+/LMPG)像"中央厨房预制菜"——前期投入巨大(海量数据 + 离线训练),但门店只需加热(一次前向),对门店算力极友好。不像在于代价结构相反:现做现卖怕"高峰期出餐慢"(实时算力瓶颈、玩家多就掉帧),预制菜怕"菜谱没覆盖的新需求"(OOD、分布外场景失效)。这个类比给选型一个清晰的判据:**算力受限但场景规整的嵌入式平台**倾向预制菜(离线摊销);**算力充裕但场景多变、要求可解释**的研发平台倾向现做现卖(在线求解)。
3.9.3 演进趋势综合:博弈规划在 2024–2026 正在"收敛"吗¶
把 §3.6.5 的三种融合范式和 §3.7 的开放问题进展放在一起,可以回答一个元问题:这个方向是在发散(流派越来越多、越来越碎)还是在收敛(流派在融合、形成共识范式)?
答案是:正在收敛,且收敛方向清晰。三个收敛信号:
-
方法论上向"博弈结构 + 学习"收敛(§3.6.5 元趋势)。纯白盒求解器和纯黑箱 MARL 这两极都在向中间靠——可微博弈、no-regret 求 CCE、GCBF+ 都是"把博弈结构作为先验注入学习"。"带博弈结构先验的可学习求解器"正在成为公认的主流范式。
-
均衡概念上向"更弱但更可得的均衡"收敛(§3.7.3)。从执着于纯 Nash,到普遍接受 CCE/局部 Nash/势博弈近似——领域在"解的强度 vs 可得性"上达成了务实共识:宁要可得的弱均衡,不要不可得的强均衡。
-
安全架构上向"软硬两层栈"收敛(§3.7.7、§3.9.1)。"学习层负责性能 + 证书层负责安全"几乎成了所有安全关键博弈系统的标准架构,分歧只在证书层用什么(CBF/可达性/学出的证书)。
本质洞察(一个方向"开始收敛"是它走向成熟的标志,但博弈规划的收敛还差最后一块拼图):判断一个研究方向成熟度的一个可靠信号是——它是否从"百花齐放的发散期"进入"范式收敛期"。博弈规划在方法论、均衡概念、安全架构三条线上的收敛,说明它正从第三时代(实时化爆发、流派井喷)过渡到一个更成熟的阶段。但它的收敛还差最关键的一块拼图——工程生态的收敛(§3.7.8):方法在收敛,但没有一个像 acados/EPSILON 那样被广泛采用的开源 C++ 主干来承载这些收敛后的共识范式。像/不像:博弈规划当前的状态像深度学习框架"前 TensorFlow/PyTorch 时代"——理论与算法已相当成熟,但缺一个统一的、工程级的、被社区共同维护的实现底座。哪一天博弈规划出现了它的"PyTorch 时刻"(一个统一、可微、C++/GPU 友好、覆盖连续博弈的开源框架),这个方向的收敛才算真正完成。这既是 §3.7.8 那个开放问题的终局,也是这个方向当前最大的生态机会。
3.9.4 成熟度雷达:八大流派各处在"理论—实车"的哪一段¶
综述的最后一个对比维度,是把八大流派放到一条"成熟度标尺"上——从"纯理论(只在论文里)"到"实车部署(量产/赛事跑过)",看每条流派当前走到了哪一段。这回答了一个工程上极现实的问题:"我能不能现在就用它上车?还是它还停留在 notebook 里?"
借用技术成熟度(TRL,Technology Readiness Level)的思路,给八大流派一个粗略定位:
| 流派 | 成熟度定位 | 证据 | 现在能上车吗 |
|---|---|---|---|
| HJI 可达性 | 理论成熟,工程受限 | 数学完备,但维度诅咒;多用作离线安全验证/兜底壳 | 仅小维度子系统(如纵向安全) |
| LQ/iLQ(iLQGames) | 实验室成熟,准工程 | 有 C++ 实现、实车赛车验证(Audi TTS 量级) | 可(需自行工程优化降延迟) |
| 约束 GNE(ALGAMES) | 实验室成熟 | Julia 实现、仿真 + 小规模硬件验证 | 受限(无生产 C++、4 车掉出实时) |
| 迭代最佳响应(SE-IBR) | 准工程 | 实车赛车用过、复用成熟单人 MPC 后端 | 可(工程最轻便) |
| 层级/分解 | 工程常用 | 自动驾驶决策栈广泛使用分层 | 可(但多为定制实现) |
| 可微博弈/学习混合 | 研究前沿 | 2024–2026 论文密集,少量原型 | 否(仍在学术验证) |
| Level-k/认知层级 | 实验室成熟 | 驾驶交互建模验证较多 | 部分(作为意图模型嵌入) |
| CBF-博弈 / GCBF+ | CBF 工程成熟,GCBF+ 前沿 | 单机 CBF 已工程化;GCBF+ 是 2025 T-RO 新成果 | CBF 可,GCBF+ 实验阶段 |
对比性思维("成熟度"和"先进性"常常是反相关的):把成熟度雷达和 §3.8.3 的流派强项表并排看,会发现一个对工程选型至关重要、却反直觉的规律——越先进的流派,往往越不成熟(越不能直接上车);越能上车的流派,往往不是最先进的。可微博弈/学习混合是 §3.6.5 公认最被看好的未来方向,但它停在研究前沿、现在上不了车;而 iLQGames/SE-IBR 不是理论上最漂亮的(软约束、不保证全局均衡),却是当前唯一能真正在实车上跑起来的主力。像/不像:这与单智能体规控里"最优控制理论最美但 MPC 才落地、MPPI 不够优雅但工程好用"的规律完全同构;不像仅在于博弈侧的"先进与成熟的鸿沟"更宽(因为博弈整体更年轻、工程沉淀更少)。这个规律给工程选型一个清醒的提醒:做产品选"成熟度"那一列(iLQGames/SE-IBR/CBF),做研究追"先进性"那一列(可微博弈/GCBF+),千万别用产品的工期去赌一个还在论文里的先进方法。这也正是 §3.4 横向对比反复强调"工程现实"的原因——综述若只讲"谁理论最强"而不讲"谁现在能用",就会误导工程选型。
§3.10 全栈选型案例:把选型走到底的三个机器人形态 ⭐⭐⭐¶
本节解决的问题:§3.4.4 给了选型决策树,但决策树是抽象的"if-else"。本节把它"走到底"——拿三个真实机器人形态(城市自动驾驶、自主竞速、多机器人 swarm),从场景特征出发,一步步走完整条选型逻辑,给出"该用哪条流派、哪个求解器、怎么配安全兜底"的完整答案。这是把前九节的对比综合应用到底的"压力测试",也是你面对真实项目时的填空模板。
3.10.1 案例一:城市自动驾驶(强交互 + 安全关键 + 有海量数据)¶
场景特征:城市路口(无保护左转、汇入、行人横穿);交互强(必须考虑双向博弈,否则 frozen robot);安全关键(绝不能撞);玩家多变(路口可能十几个 agent);对手代价未知(不知道对方车是激进还是保守);有海量量产车队日志。
走选型决策树(§3.4.4): - 问题1:对手代价已知吗?→ 未知,但有海量数据 → GameFormer(学习式预测)或逆博弈推断。 - 问题2:碰撞必须硬满足吗?→ 必须(安全关键)→ 需要 CBF/可达性兜底。 - 综合 → 学习式预测(GameFormer,吃数据、处理多 agent、出拟人化交互)+ CBF 安全证书兜底(保证不撞),即 §3.7.7 的软硬两层栈。
完整方案: - 预测-规划层:GameFormer 类隐式博弈(从日志学交互、处理几十个 agent、用"预测即均衡"消除 frozen robot);强交互的关键近距对象(如左转对向车)可叠加显式博弈(iLQGames)做高保真交互。 - 意图推断:逆博弈 / Level-k 在线推断关键对手的代价/层级(应对"激进 vs 保守"),用贝叶斯多假设而非赌单一意图(应对 §3.7.5 可辨识性、§3.7.2 均衡选择)。 - 安全兜底层:CBF 安全滤波(多机 CBF-QP = GNE)做最后投影,保证硬碰撞约束;极端情况退到可达性保守策略。 - 失败防护:针对学习层"低可观测的自信错误"(§3.9.1),加 OOD 检测 + 证书层强投影。
本质洞察(城市自动驾驶是博弈规划"全套武器"的唯一用武之地):城市自动驾驶几乎是唯一一个**同时需要博弈规划全部子能力**的形态——它要学习式方法吃数据(量产车队的金矿)、要逆博弈推断未知对手、要显式博弈处理强近距交互、要 CBF 证书保证安全、要多假设应对均衡选择。其他形态通常只需要其中一两样。这就是为什么博弈规划的研究 80% 以自动驾驶为背景——它是这个方向所有技术的"集大成试验场"。其工程含义是:学博弈规划,以城市驾驶为主线案例串起所有技术,是最高效的路径;而把博弈规划用到其他形态时,往往是"从这套全家桶里挑用得上的子集"。
3.10.2 案例二:自主竞速(强对抗 + 要反馈 + 极致实时)¶
场景特征:赛车/无人机竞速;强对抗(接近零和——你超车成功即对手失位);要反馈(高速下扰动大,开环序列会被吹偏);玩家少(2–4 车近距缠斗);对手代价相对明确(都想最快/挡住你);极致实时(高速下控制频率要求高);对手代价已知(竞速目标清晰)。
走选型决策树: - 问题1:对手代价已知吗?→ 已知(都想最快)→ 进入问题2。 - 问题2:碰撞必须硬满足吗?→ 重要但可软(赛车允许贴身但要避撞)→ 可软惩罚 + 兜底。 - 问题3:需要反馈还是开环?→ 必须反馈(高速扰动)→ iLQGames(反馈 Nash + C++ 抓手)。 - 问题4:玩家很多吗?→ 否(2–4 车)→ 无需层级分解。
完整方案: - 核心求解器:iLQGames(反馈 Nash,单次求解即得反馈律,高速扰动下自动响应);若要硬避撞约束,叠加 ALGAMES + 高频 MPC,或近势函数实时求解(arXiv 2412.08855 正是为实时赛车设计)。 - 降延迟:若纯在线求解掉出实时区,用摊销求解(LMPG,离线学博弈、在线一次前向)把延迟压下来。 - 均衡选择:用灵敏度引导(SE-IBR 思路)主动选"对 ego 有利的均衡"(抢占有利线位)。 - 安全兜底:CBF 做避撞硬投影(贴身但不撞)。
对比性思维(竞速 vs 城市驾驶:几乎是博弈规划光谱的两端):把竞速和城市驾驶并排看,它们几乎站在博弈规划需求光谱的**两端**,对比极具教学价值。像/不像:像在于都是强交互、都用博弈、都要安全兜底;不像在于几乎每个维度都相反——对抗性:竞速近零和(你赢我输),城市近一般和(可双赢让行);数据:竞速数据稀少(赛道场景少),城市数据海量(量产车队),所以竞速偏模型驱动(iLQGames)、城市偏数据驱动(GameFormer);反馈需求:竞速极度要反馈(高速扰动),城市相对温和;玩家数:竞速少(2–4),城市多(十几个)。这个"两端对比"完美印证了 §3.4.4 的核心论断——没有全场景最优的求解器,选型是把场景约束投影到方法空间找最匹配的角落。竞速投到"模型驱动 + 反馈 + 少玩家"角,城市投到"数据驱动 + 多假设 + 多玩家 + 强安全"角。
3.10.3 案例三:多机器人 swarm(玩家极多 + 协作为主 + 要可扩展)¶
场景特征:无人机/地面机器人 swarm(编队、覆盖、协同搜索);玩家极多(数十~上千);以协作为主(共同完成任务,非对抗);要分布式(无中心、各机本地决策);要可扩展(agent 数量可变);安全要求高(互不碰撞 + 不掉队)。
走选型决策树(这里决策树的"问题4:玩家很多吗"直接命中): - 玩家极多(>10)→ 层级分解(流派5)或学习式(GCBF+/PSRO/势博弈)。 - 协作为主 → 势博弈(§4.2,存在势函数则自私优化=优化全局目标,保证纯 Nash 存在且分布式收敛)。 - 要可扩展 + 安全 → GCBF+(GNN 学单一安全证书,置换不变、泛化到上千 agent)。
完整方案: - 协调机制:势博弈框架(Voronoi 覆盖、编队都能写成势博弈),保证分布式最佳响应收敛到纯 Nash(§4.2 理论)。 - 安全证书:GCBF+(图神经网络学一个对 agent 数量置换不变的 CBF 证书,单一模型扩展到上千 agent,本地邻域决策)。 - 学习收敛保证:若用 MARL 训练,选有收敛保证的方法(MADAC,2411.15036,保证带状态约束的合作 Markov game 收敛到 GNE)。 - 避免维度爆炸:绝不用 HJI(深度爆炸)或全耦合 iLQGames(宽度爆炸),只与本地邻域 agent 交互。
多视角理解(swarm 是"宽度爆炸"逼出来的全新方法论):swarm 形态把 §3.7.6 的"宽度爆炸"推到极致,从而逼出了一套与前两个案例**完全不同**的方法论。像/不像:像在于仍是求博弈均衡、仍要安全;不像在于——城市驾驶和竞速还能用"整体求解"的求解器(iLQGames/ALGAMES 把所有玩家一起解),但 swarm 的玩家数让"整体求解"彻底不可行,必须转向**分布式 + 局部 + 可泛化**的范式:势博弈(保证分布式收敛)、GNN 证书(置换不变、可泛化到任意规模)、本地邻域交互(只与近邻博弈)。这三样在前两个案例里几乎用不到,却是 swarm 的命脉。这印证了一个深层判断——玩家数不是一个"参数",而是一个"相变点":少玩家(2–5)和多玩家(>10)需要的是质变不同的方法论,跨过这个相变点,整个工具箱都要换。
3.10.4 反例校准:一个"直觉会选错"的场景¶
前三个案例的选型都比较顺直觉。但综述的对比价值,还在于揭示**直觉会出错的场景**——这类校准比顺直觉的案例更能锤炼判断力。
场景:低速园区/园内最后一公里配送小车,在有少量行人的人行道上行驶。乍看这是个"温和"场景——速度低、玩家少、不像城市驾驶那么凶险。
直觉选型(会错):很多人的第一反应是"低速温和、玩家又少,用最简单的——预测行人轨迹当障碍 + 单人 MPC 避让就行,何必上博弈"。
为什么错:这恰好踩中 §3.5.3 的 frozen robot 陷阱。低速 + 人行道窄 + 行人近距,意味着**强交互**——行人会因为小车的动作而调整(小车往前蹭,行人会侧身让;小车一停,行人以为它要永远让、就慢悠悠不动)。用"预测当障碍 + 单人 MPC"切断了这个交互,结果是:行人多一点、走位随机一点,小车就把所有可能轨迹当障碍、冻在原地不敢动,配送效率归零。低速不等于弱交互——交互强度由"空间紧凑度 + 距离"决定,而非速度。
正确选型:这是个**强交互(虽低速)+ 安全关键(撞人不可接受)+ 玩家少**的场景,恰恰需要博弈——用轻量博弈(iLQGames 或 Stackelberg,把行人建模为会响应的 follower)实现"预测即均衡",让小车知道"我往前走、行人会让",从而敢于行动;叠加 CBF 保证不撞人。这与城市无保护左转**同构**,只是速度低、玩家少。
本质洞察("是否需要博弈"的判据是交互强度,不是速度/玩家数/场景凶险度):这个反例校准出一个极易被误用的判据——决定"要不要上博弈"的,不是速度高低、玩家多少、场景看起来凶不凶,而是单一一个量:交互强度(他人是否会因你的动作而策略性调整、且这个调整你必须考虑)。低速园区配送(直觉觉得温和)交互其实很强(窄空间近距人车互让),所以需要博弈;高速公路定速跟车(直觉觉得"高速很危险")交互其实很弱(各走各道、不互相谈判),反而不需要博弈、单人 MPC 足矣。像/不像:像在于两者都涉及他车/行人;不像在于"他人的响应是否进入你的决策闭环"——进入了(园区互让)就是强交互必须博弈,没进入(高速跟车)就是弱交互无需博弈。把"是否需要博弈"从"看场景吓不吓人"的直觉,校准成"测交互强度"的判据,是这个反例最该带走的元判断。它直接呼应 §3.5.3——博弈规划的核心价值(治 frozen robot)只在强交互场景兑现,而强交互 ≠ 高速 ≠ 多玩家 ≠ 场景凶险。
故障诊断手册(章末速查)¶
本表针对**读这篇综述、或用它做博弈规划技术选型/认知**时最常见的困惑与误用,给出"症状→可能原因→排查步骤→相关小节"的结构化排查。注意:本综述是方向级导航,故障多为"认知/选型/定位"层面,而非具体代码报错(后者见 G1–G4 深度教程各章的故障手册)。
| # | 症状 | 可能原因 | 排查步骤 | 相关小节 |
|---|---|---|---|---|
| 1 | 分不清博弈规划和 MARL 到底什么关系,以为是两个无关领域 | 没建立"两者求同一均衡"的统一视角 | ① 回看 §3.6.1:"都求博弈均衡" ② 对照 §3.6.2 分野表(模型 vs 采样)③ 记住"博弈是连接控制与学习的语言" | §3.6.1–3.6.2 |
| 2 | 选型时总想找"最好的求解器",但发现每个都有硬伤、选不出来 | 误以为存在全场景最优求解器 | ① 接受 §3.4.4 论断"没有全场景最优" ② 把场景约束投到五维空间 ③ 走 §3.4.4 决策树 + §3.10 案例对照 | §3.4.4, §3.10 |
| 3 | iLQGames 算出的结果和预期不符,但代码没报错 | 收敛到了"另一个 Nash"(多均衡 + 初值决定) | ① 确认这是均衡选择问题非 bug ② 检查初始化 ③ 加灵敏度引导/社会规范先验选目标均衡 | §3.7.2, §3.3.3 |
| 4 | 想把博弈求解器扩展到几十个 agent,发现完全算不动 | 撞上"宽度爆炸"(耦合 \(O(N^2)\)) | ① 判断是宽度还是深度爆炸 ② 宽度→层级分解/只与近邻博弈/GNN 证书 ③ 转向势博弈/GCBF+/MARL | §3.7.6, §3.10.3 |
| 5 | 用学习式博弈(GameFormer)上车,偶发输出违反碰撞约束 | 学习层无硬保证 + OOD 自信错误 | ① 确认是 §3.9.1 的"低可观测失败" ② 加软硬两层栈:CBF 证书强投影 ③ 加 OOD 检测 | §3.7.7, §3.9.1 |
| 6 | 找不到博弈规划的生产级 C++ 实现,无法像 MPC 那样落地 | 撞上 C++ 生态真空(SOTA 全在 Julia/Python) | ① 接受语言异构现实 ② iLQGames(C++)练手 + Julia/Python 追前沿 ③ SE-IBR 复用 acados/CasADi | §3.4.5, §3.7.8 |
| 7 | 逆博弈推断的对手代价不稳定/不准 | 病态反演 + 可能不可辨识 + 有界理性 | ① 确认是 §3.7.5 的可辨识性难题 ② 改点估计为贝叶斯后验(多假设)③ 用 Level-k 建有界理性 | §3.7.5, §3.3.8 |
| 8 | 读一篇博弈新论文,看不出它的真实贡献/分量 | 没有"开放问题地图"作参照系 | ① 对照 §3.7.9 七大开放问题表 ② 判断它攻哪个问题、攻到哪步 ③ 区分"填洼地/推战线/凿深谷" | §3.7.9 |
| 9 | 以为博弈规划是全新陌生领域,畏难不敢入门 | 没建立"换内核"认知 | ① 回看 §3.5.1"换内核"元模式 ② 对照单智能体↔博弈翻译词典 ③ 从 iLQR→iLQGames 这条最短路径切入 | §3.5.1, §3.8.6 |
| 10 | 把"多个 Nash"当成"多个局部最优",以为挑代价最低的就行 | 混淆"选择问题"与"协调问题" | ① 回看 §3.7.2 对比"局部最优 vs 多 Nash" ② 理解协调问题需双方选到同一均衡 ③ 加共享先验/路权约定 | §3.7.2 |
§3.11 结语:从"会用某个求解器"到"看清整个博弈版图" ⭐⭐¶
3.11.1 这篇综述到底想让你获得什么¶
回到本章开篇"知识导航"许下的承诺——本综述不教你推导 HJI、不带你写 iLQGames 的代码(那是 G1–G4 深度教程的职责),它要给你的是**导航力**:面对一个陌生的多智能体交互问题,能在三十秒内判断"这属于博弈规划的哪一类、该上哪条流派、用哪个求解器、坑在哪里、还有哪些没解决"。
这种导航力,来自把博弈规划的"史、派、器、界、问"压到同一组坐标轴上反复对比:
- 史(§3.1):四个时代,由"让博弈算得动、算得对、能扩展"这条主线驱动;
- 派(§3.2–3.3):两大均衡(Nash/Stackelberg)+ 八大流派,沿"约束严格性 × 模型 vs 数据"两轴分布;
- 器(§3.4, §3.9):四个求解器(iLQGames/ALGAMES/SE-IBR/GameFormer),在"反馈、约束、实时、数据、可解释"五维上各占一角,且各有失败模式与计算画像;
- 界(§3.5–3.6):向下与传统规控"换内核"即得(一脉相承),向旁与 MARL 求同一均衡(正加速合流);
- 问(§3.7):七大开放问题,全是"多决策者耦合"打破单智能体良好性质的衍生物。
本质洞察(综述的终极价值是把"知识"炼成"判断力"):读完整篇综述,如果你只是多记住了几个算法名字和几张表,那这篇综述对你是失败的。它真正想完成的转化是——把零散的"知识"(每个算法是什么)炼成结构化的"判断力"(面对新问题该怎么定位、怎么选、怎么预判坑)。判断力和知识的区别在于:知识是"我知道 iLQGames 是反馈 Nash 求解器",判断力是"这个高速强对抗少玩家场景该上 iLQGames、但要警惕它收敛到坏 Nash、所以配灵敏度引导和 CBF 兜底"。前者是记忆,后者是把整个版图内化后的本能反应。这种把知识炼成判断力的转化,正是综述(而非深度教程)不可替代的独有价值。
3.11.2 读者自查清单:你"看清版图"了吗¶
合上这篇综述前,用下面 8 个问题自查。能流畅回答 ≥6 个,说明你已建立博弈规划的导航力;答不出的,回对应小节重读:
- 博弈规划和单智能体规控最根本的区别是什么?为什么这个区别让"唯一最优解"不再成立?(→ §3.5.1, §3.7.1)
- Nash 和 Stackelberg 均衡的核心区别是什么?什么场景用哪个?(→ §3.2)
- iLQGames、ALGAMES、SE-IBR、GameFormer 各自的一句话画像和适用场景?(→ §3.4, §3.8.4)
- "预测即均衡"范式如何根治 frozen robot 问题?(→ §3.5.3)
- 博弈规划和 MARL 求的是不是同一个东西?它们如何分工、如何融合?(→ §3.6)
- 博弈规划的七大开放问题中,哪几个源于"耦合打破唯一性/存在性/数值稳定/代价已知"?(→ §3.7)
- 为什么安全关键场景反而偏向模型驱动求解器而非学习?(→ §3.6.3)
- 给你一个"50 架无人机协同覆盖"的问题,你会怎么选型、为什么不能用 iLQGames?(→ §3.10.3, §3.7.6)
多视角理解(自查清单是"导航力体检",不是"知识考试"):这 8 个问题刻意设计成"判断/选型/对比"型,而非"定义/推导"型。像/不像:像普通章末自测在于都检验掌握程度;不像在于考察的能力维度——普通自测查"你记住了吗"(定义、公式),这份清单查"你会用吗"(面对场景能否定位、选型、预判)。比如问题 8 不问"势博弈的定义",而问"50 架无人机该怎么选、为什么 iLQGames 不行"——它逼你把"宽度爆炸""势博弈""GCBF+""分布式"这些散点串成一条选型推理链。答得出,说明这些知识已经在你脑中连成了可调用的判断网络,而非孤立的记忆碎片。
3.11.3 进一步阅读:从这片版图走向更大的疆域¶
读完本综述,有三条延伸路径:
-
向内深入(学会动手):回到博弈方向深度教程 G0–G4(§3.8.7 回指地图),把每个流派学到能实现。推荐最短路径:G0 总论建心智模型 → G2 §2.3 iLQGames(最能体现"换内核",且有可跑代码)→ G3 逆博弈(感知侧推广)→ G4 CBF-博弈 + PSRO(安全与学习交界)。
-
向旁打通(连接其他横切专题):博弈规划是移动规控七大横切专题之一。它与**不确定性规划**(
80_综述/20_不确定性规划.md,博弈处理"策略性不确定",不确定性规划处理"随机/认知不确定")、交互意图预测(80_综述/40_交互意图预测.md,预测是博弈的输入)、RL 与经典规控贯穿(80_综述/50_RL与经典规控贯穿关系与结论.md,MARL 是博弈的学习侧)紧密相邻。读完这几篇姊妹综述,你能在整个规控横切层自由导航。 -
向前追踪(盯住前沿):博弈规划是 2024–2026 的活跃方向。重点盯三条战线(§3.9.3 收敛趋势):可微博弈/贝叶斯逆博弈(Lasse Peters 等组)、安全 MARL 收敛性(GNE 保证)、可扩展安全证书(GCBF+ 系)。附录 A 给出了核心论文与最新进展的索引。
3.11.4 最后一句¶
博弈规划的全部出发点,是承认一件朴素却深刻的事——你的机器人不是世界唯一的决策者。一旦接受"他人会观察你、会响应你、有自己的目标",单智能体规控那套"求唯一最优"的舒适世界就此瓦解,取而代之的是"均衡"这个更谦逊、也更真实的目标:没有谁能单方面说了算,所有决策者必须在彼此的策略中找到一个自洽的平衡点。学会在这个"没有唯一最优、只有相互均衡"的世界里思考,就是这篇综述想留给你的最大收获。
而当你真正在这个世界里站稳脚跟,会发现它并不可怕——因为你已经带着三样东西上路:信心(§3.5"换内核"告诉你,博弈不过是你已有规控功力的多主体推广,符号都只是加了下标)、价值感(§3.5.3"预测即均衡"告诉你,博弈真的治好了 frozen robot 这个传统管线治不了的顽疾,值得学)、以及恰如其分的**敬畏**(§3.7"耦合是万恶之源"告诉你,多决策者打破了唯一性、存在性、收敛性、代价自知四个良好性质,这是七大开放问题的共同根,别轻视)。带着信心入门、带着价值感坚持、带着敬畏深入——这套心态,比这篇综述里任何一张速查表都更值得你带走。
从这里出发,去 G0–G4 把每个流派学到能动手(§3.8.7 回指地图),去读那些正在攻坚开放问题的前沿论文(附录 A.5 索引),去把博弈的思维用到你自己的机器人上。这篇综述的使命到此为止——它给了你一张地图;接下来的路,要靠你自己一步步走成判断力。
附录 A:博弈规划奠基与里程碑论文索引 ⭐⭐⭐¶
本附录把全章提到的关键工作按"奠基—实时化—感知/逆博弈—安全/MARL—2024-2026 前沿"五类整理成索引,便于按图索骥。标注难度供取舍。深度教程 G 附录(
60_综合对比与附录.md)有更详的"必读 10 篇 + 推荐 8 篇"精读路线,本表侧重"在本综述脉络中的定位"。
A.1 奠基理论(第一、二时代)¶
| 工作 | 年代 | 在脉络中的定位 | 难度 |
|---|---|---|---|
| Isaacs, Differential Games | 1965 | 微分博弈与 Isaacs 方程的起源,零和博弈的 minimax PDE | ⭐⭐⭐⭐ |
| Basar & Olsder, Dynamic Noncooperative Game Theory | 1999 | LQ 博弈的耦合 Riccati 闭式解(iLQGames 的理论根基) | ⭐⭐⭐⭐ |
| Mitchell, Bayen & Tomlin, HJI 可达性 | 2005 | 把 HJI 做成可数值求解的可达性分析,给安全证书 | ⭐⭐⭐⭐ |
A.2 实时化爆发(第三时代)¶
| 工作 | 年代 | 在脉络中的定位 | 难度 |
|---|---|---|---|
| Sadigh et al., Stackelberg 驾驶范式 | 2016 | 把驾驶交互建模为 Stackelberg 博弈,ego 主动引导对手 | ⭐⭐⭐ |
| Fridovich-Keil et al., iLQGames | 2020 | 迭代 LQ 博弈,实时反馈 Nash,唯一主力 C++ 实现 | ⭐⭐⭐ |
| Le Cleac'h et al., ALGAMES | 2020/2021 | 增广拉格朗日解约束动态博弈,硬约束 GNE | ⭐⭐⭐ |
| Wang, Ames & Egerstedt, 多机 CBF 安全 | — | 多机 CBF-QP 的 GNE 诠释,安全证书=博弈均衡 | ⭐⭐⭐ |
A.3 感知侧 / 逆博弈(第四时代前半)¶
| 工作 | 年代 | 在脉络中的定位 | 难度 |
|---|---|---|---|
| Peters et al., 逆博弈(feedback game cost inference) | 2021–2023 | 从交互轨迹反推对手代价,耦合状态推断与参数估计 | ⭐⭐⭐⭐ |
| LucidGames | 2021 | 把逆博弈做成"动态博弈上的 UKF",在线估对手代价 | ⭐⭐⭐ |
| Tian et al., Level-k 驾驶 | — | 用认知层级给有界理性的人建模 | ⭐⭐⭐ |
| Huang et al., GameFormer | 2023 | 把 Level-k 博弈嵌进 Transformer,端到端隐式博弈 | ⭐⭐⭐ |
A.4 安全 / MARL(第四时代后半)¶
| 工作 | 年代 | 在脉络中的定位 | 难度 |
|---|---|---|---|
| Lanctot et al., PSRO | 2017 | 把 Double Oracle 推广到深度 RL,种群博弈统一框架 | ⭐⭐⭐⭐ |
| Monderer & Shapley, 势博弈 | 1996 | 势函数保证纯 Nash 存在 + 分布式收敛(多机协调根基) | ⭐⭐⭐ |
| GCBF+(神经图 CBF) | 2025 (T-RO) | GNN 学单一安全证书,泛化到上千 agent | ⭐⭐⭐⭐ |
A.5 2024–2026 前沿(本综述新增追踪)¶
| 工作 | arXiv/出处 | 攻哪个开放问题 | 一句话贡献 |
|---|---|---|---|
| Scenario-based Game Theory for Interactive AD: A Survey | arXiv 2509.05777 (2025) | 全方向梳理 | 场景化的交互驾驶博弈决策综述(与本文互补的同主题外部综述) |
| Integrated Decision & Planning via Bayesian Game | arXiv 2409.13993 (2024) | 存在性 + 均衡选择 | no-regret 求 Bayesian CCE,决策-规划一体化、对意图期望最优 |
| Auto-Encoding Bayesian Inverse Games | arXiv 2402.08902 (2024) | 代价辨识 + 安全×学习 | 可微 Nash 求解器嵌进 VAE,从无标注数据学博弈参数后验 |
| Bayesian Inverse Games, High-Dim Multimodal Obs | arXiv 2601.00696 (2026) | 代价辨识(高维) | 把贝叶斯逆博弈扩展到图像级高维多模态观测 |
| Level-2 Inverse Games (What Do Agents Think Others Would Do) | arXiv 2508.03824 (2025) | 代价辨识(递归) | 推断"对手以为别人想要什么",可微 MCP 求 level-2 逆博弈 |
| Real-Time Near-Potential Function Racing | arXiv 2412.08855 (2024) | 存在性 + 可扩展 + 实时 | 用近势函数把多车竞速博弈降到可实时求解 |
| Safe MARL → Generalized Nash Equilibrium (MADAC) | arXiv 2411.15036 (2024) | 安全×学习 | 证明带状态约束合作 Markov game 收敛到 GNE |
| Open-Loop & Feedback Nash Racing with iLQGames | arXiv 2402.01918 (2024) | 求解器对比 | 系统评测 iLQGames 在竞速里的反馈 vs 开环交互行为 |
| LMPG (Learned Model Predictive Game) | 2024 | 数值脆弱 + 实时 | 摊销 MPG 博弈进网络降延迟,硬件实验胜 MPG/MPC 基线 |
本质洞察(A.5 这张表的"攻哪个开放问题"列,本身就是一份前沿地形图):把 2024–2026 前沿表的"攻哪个开放问题"一列竖着读,会得到一份极有价值的情报——当前学术火力集中在哪几个开放问题上。可以清楚看到:**代价辨识(逆博弈)**和**安全×学习**是两条最密集的战线(贝叶斯逆博弈、level-2 逆博弈、可微博弈嵌 VAE、Safe-MARL→GNE 都在这两条线上扎堆),而**均衡选择**这个最深的开放问题(§3.7.2)反而少有正面强攻(因为它本质是协调难题、难有纯数学解)。这个"火力分布"印证了 §3.7.9 那个判断——开放问题是地形而非待办:有些是正在猛攻的战线(代价辨识、安全×学习),有些是绕着走的深谷(均衡选择)。盯住火力密集的战线,就盯住了这个方向未来两三年最可能出突破的地方。
附录 B:核心术语中英对照与统一符号表 ⭐⭐¶
综述跨越八大流派,术语密集。本附录把全章反复出现的术语和符号收成两张表,作为阅读时的"随手词典"。
B.1 核心术语中英对照与一句话定义¶
| 术语(中) | 术语(英) | 一句话定义 |
|---|---|---|
| 纳什均衡 | Nash Equilibrium (NE) | 没有任何玩家能单方面改变策略而获益的策略组合 |
| 广义纳什均衡 | Generalized Nash Equilibrium (GNE) | 玩家的可行策略集相互依赖(含共享约束)时的 Nash |
| 斯塔克尔伯格均衡 | Stackelberg Equilibrium | leader 先动、follower 最优响应,leader 预判此响应来优化自己 |
| 局部纳什均衡 | Local Nash Equilibrium | 每个玩家在策略邻域内无法改善(连续博弈里 iLQGames 求的解) |
| 相关均衡 / 粗相关均衡 | (Coarse) Correlated Equilibrium, CE/CCE | 引入协调信号后的更弱均衡,存在性更有保证、可由 no-regret 收敛得到 |
| 开环 / 反馈信息结构 | Open-loop / Feedback Information Structure | 策略是时间的函数(开环)vs 状态的函数(反馈,可抗扰动) |
| 零和 / 一般和博弈 | Zero-sum / General-sum Game | 一方所得即另一方所失(对抗)vs 可双赢双输(更贴近真实交通) |
| 微分博弈 | Differential Game | 连续时间、动力学约束下的动态博弈 |
| 逆博弈 | Inverse Game | 从观测到的交互轨迹反推每个玩家的代价函数 |
| 迭代最佳响应 | Iterated Best Response (IBR) | 把博弈拆成 N 个单人优化轮流求解(SE-IBR) |
| 控制屏障函数 | Control Barrier Function (CBF) | 保证状态留在安全集内的证书,CBF-QP 的 KKT = GNE |
| 势博弈 | Potential Game | 存在势函数使所有玩家自私优化等价于优化同一全局目标 |
| 认知层级 / Level-k | Cognitive Hierarchy / Level-k | 给有界理性建模:玩家只做 k 步递归推理而非算 Nash |
| 多智能体强化学习 | Multi-Agent RL (MARL) | 从自博弈/采样中学博弈均衡(VDN/QMIX/MAPPO/PSRO) |
| 种群博弈 / 双 oracle | PSRO / Double Oracle | 维护策略子集、轮流加入最佳响应,逼近大博弈的 Nash |
| 机器人冻结问题 | Frozen Robot Problem | 把所有预测轨迹当障碍后 ego 不敢动,博弈"预测即均衡"治此病 |
| 隐函数定理 | Implicit Function Theorem | 让"均衡解对代价参数"可微,逆博弈/可微博弈的核心工具 |
| 摊销求解 | Amortized Solving | 离线把"解博弈"学进网络,在线一次前向近似输出均衡(LMPG) |
B.2 统一符号表¶
| 符号 | 含义 | 出现处 |
|---|---|---|
| \(x\) | 系统(联合)状态 | 全章 |
| \(u_i\) | 玩家 \(i\) 的控制输入 | 全章 |
| \(J_i\) | 玩家 \(i\) 的代价函数 | §3.2, §3.5 |
| \(f\) | 系统动力学 \(\dot x = f(x, u_1,\dots,u_N)\) | §3.5, §3.7 |
| \(V\) | 值函数(HJB/HJI 的解) | §3.3.2 |
| \(g(x)\le 0\) | (共享)约束(如避碰) | §3.5.2, §3.3.4 |
| \(h(x)\) | CBF 的安全函数,安全集 \(\mathcal{C}=\{x:h(x)\ge 0\}\) | §3.6, 附录 B |
| \(F(z)=0\) | 堆叠 KKT 方程组(求 GNE) | §3.3.4, §3.7.4 |
| \(N\) | 玩家数 | §3.7.6 |
| \(k\) | 认知层级(Level-k 的推理深度) | §3.3.8 |
| \(\min\max / \max\min\) | 上值/下值(零和博弈,先动者吃亏) | §3.3.2 |
多视角理解(符号表里藏着"换内核"元模式的证据):仔细看 B.2 符号表,会发现一个印证 §3.5.1"换内核"的细节——博弈的符号几乎全是单智能体优化符号"加了个下标 \(i\)":单人代价 \(J\) → 玩家 \(i\) 的 \(J_i\),单人控制 \(u\) → 玩家 \(i\) 的 \(u_i\),单问题 KKT → 堆叠的 \(F(z)=0\)。像/不像:像在于核心符号(状态 \(x\)、动力学 \(f\)、值函数 \(V\)、约束 \(g\))与单智能体优化完全一致;不像仅在于多了"玩家索引 \(i\)"和"耦合"(每个 \(i\) 的最优依赖其他 \(j\) 的策略)。这个"符号只是加了下标"的观察,是"博弈是单智能体工具的多主体推广"这一核心论断最直观的证据——连记号都是顺着长出来的,何况方法。
附录 C:五大机器人形态上的博弈规划迁移度 ⭐⭐⭐¶
§3.10 走了三个全栈选型案例(城市驾驶、竞速、swarm)。本附录把视角扩到**五大机器人形态**(自动驾驶、四旋翼无人机、机械臂、四足、人形/loco-manip),系统对比博弈规划在每种形态上的"用武程度"与"用法差异"——回答"我做的是 X 形态,博弈规划对我有多重要、怎么用"。
C.1 五形态迁移度总表¶
用 ★ 表示博弈规划在该形态上的**相关度/成熟度**(★ 越多越重要、越成熟):
| 形态 | 博弈相关度 | 主导交互类型 | 最适用的流派 | 一句话定位 |
|---|---|---|---|---|
| 自动驾驶 | ★★★★★ | 强交互、一般和、安全关键 | 全套(GameFormer+逆博弈+CBF) | 博弈规划的"集大成试验场" |
| 四旋翼无人机 | ★★★★ | 竞速对抗 / swarm 协作 | iLQGames(竞速)/ 势博弈+GCBF+(swarm) | 两极分化:单机对抗 or 大群协作 |
| 机械臂 | ★★ | 人机协作、共享工作空间 | CBF-博弈 / Stackelberg(人 leader) | 交互稀疏,博弈用于人机共存安全 |
| 四足 | ★★ | 多足协同 / 人群导航 | 势博弈(步态协调)/ 学习式(人群) | 博弈多在"腿间协调"或"人群穿行" |
| 人形 / loco-manip | ★★★ | 人机协作 + 人群 + 操作 | 复合(CBF-博弈 + 学习 + 层级) | 复合度最高,博弈是多层之一 |
C.2 逐形态展开¶
自动驾驶(★★★★★):唯一同时用到博弈规划全部子能力的形态(§3.10.1 已详述)——强交互逼出"预测即均衡"、安全关键逼出 CBF 兜底、海量数据喂养学习式、未知对手逼出逆博弈。博弈规划 80% 的研究以它为背景。
四旋翼无人机(★★★★):呈**两极分化**——单机竞速(无人机穿环赛、空中缠斗)是强对抗少玩家,与赛车同构(iLQGames + 近势函数实时求解,§3.10.2);swarm 协作(编队、覆盖、搜索)是多玩家协作,走势博弈 + GCBF+(§3.10.3)。两极之间的中间地带反而少。
机械臂(★★):交互相对稀疏,博弈主要用于**人机协作的共享工作空间安全**——人和机械臂共用一片空间作业,把"人"建模为 leader(人主导节奏)、机械臂为 follower 的 Stackelberg 博弈,或用 CBF-博弈保证"无论人怎么动机械臂都不撞人"。与移动机器人的"行驶交互"不同,机械臂博弈是"操作空间共存"。
四足(★★):博弈出现在两个层面——腿间协调(多足步态可视为"腿"之间的协调博弈,势博弈框架)和**人群导航**(四足机器人在人群中穿行,与自动驾驶的行人交互同构,但动力学是混合的、更复杂,故优化型博弈求解器偏弱,更依赖学习式)。
人形 / loco-manip(★★★):复合度最高**的形态——同时涉及人机协作(被牵着走、协同搬运)、人群穿行(导航)、双臂操作(共享空间)。博弈规划在这里不是主角,而是**多层栈中的一层(如:高层博弈式决策 + 中层 loco-manip 轨迹优化 + 底层全身 CBF 安全),与全身控制、接触规划等深度耦合。
本质洞察(博弈规划的"用武程度"由"交互强度 × 安全关键 × 数据丰度"三者乘积决定):把五形态的 ★ 数排开,会发现一个清晰规律——博弈规划越重要的形态,越是"交互强 + 安全关键 + 数据多"三者兼备。自动驾驶三者全占(★★★★★),无人机占交互强+部分安全(★★★★),机械臂/四足只占稀疏交互(★★)。像/不像:像在于五形态都偶尔需要博弈;不像在于"需要的深度"差异巨大——这个差异不是随机的,恰好由"交互强度 × 安全关键度 × 数据丰度"三个因子的乘积决定。这个规律有很强的预测力:当你面对一个新形态(比如水下机器人集群、太空多臂装配),不必死记它该不该用博弈,只需评估它在这三个因子上的得分——三者皆高则博弈是主力,仅交互高则博弈是工具之一,交互稀疏则博弈可有可无。这把"形态 → 博弈重要性"的判断从记忆题变成了可推理的乘积。
C.3 跨形态的一条共性:博弈几乎总是"和别的东西缝在一起"¶
对比五形态,还能看出一条贯穿性的工程现实——在任何真实形态里,博弈规划几乎从不单独使用,总是和别的模块缝在一起:
- 在自动驾驶里,博弈缝着感知预测(GameFormer = 预测 + 博弈)、缝着安全控制(CBF-博弈);
- 在无人机 swarm 里,博弈缝着分布式控制(势博弈 = 博弈 + 分布式协调);
- 在机械臂/人形里,博弈缝着全身控制、接触规划,作为多层栈的一层。
对比性思维("博弈是主菜" vs "博弈是调料":两种截然不同的用法心态):跨形态对比揭示了博弈规划两种用法心态的分野。像/不像:在竞速这类形态里,博弈是**主菜**——整个规划器就是一个博弈求解器(iLQGames),其他都围着它转;而在机械臂、人形这类形态里,博弈是**调料**——主体仍是单智能体的轨迹优化/全身控制,只在"需要考虑他人策略性响应"的那一小块(人机共存安全)撒上一点博弈。不像在于投入产出比的考量完全不同:主菜形态值得为博弈求解器做深度工程优化(哪怕啃下 Julia/C++ 异构),调料形态则倾向用最轻量的博弈层(一个 Stackelberg 假设、一个 CBF-博弈 QP)够用即可、不值得重投入。判断你的项目里博弈是主菜还是调料,直接决定了你该在博弈上投多少工程资源——这是 §3.4.4 选型决策树之外、另一个极其实用的元判断。
附录 D:全篇章节关系图与三条阅读路径 ⭐⭐¶
本综述十一节 + 四附录,结构上有清晰的依赖关系。本附录给出关系图和三条按需阅读路径,帮你在不通读全文的情况下也能高效取用。
D.1 章节依赖关系图¶
§3.1 发展脉络(史)
│ 提供时间轴坐标
▼
§3.2 两大均衡 ──────► §3.3 八大流派(派)
(Nash/Stackelberg) (流派沿两轴分布)
│ 流派落到具体工具
▼
§3.4 四大求解器横向对比(器)
(iLQGames/ALGAMES/SE-IBR/GameFormer)
│ │
┌────────────┘ └────────────┐
▼ ▼
§3.5 与传统规控关系(界·下) §3.9 失败模式 + 计算画像
(换内核、frozen robot) (器的补充对比)
│ │
▼ ▼
§3.6 与 MARL/学习交界(界·旁) §3.10 全栈选型三案例
(求同一均衡、三种融合) (选型走到底)
│ │
└──────────────┬────────────────────────────────┘
▼
§3.7 七大开放问题(问)
(耦合打破四个良好性质)
│
▼
§3.8 小结速查 + §3.11 结语
(压缩存档 + 炼成判断力)
│
┌────────────────┼────────────────┬──────────────┐
▼ ▼ ▼ ▼
附录A 论文索引 附录B 术语符号 附录C 五形态 附录D 关系图
(按图索骥) (随手词典) (迁移度) (本图)
D.2 三条阅读路径¶
路径一:快速建立全局坐标系(30 分钟,第一次进入博弈方向)。 读 §3.1(史)→ §3.2(两大均衡)→ §3.8(小结速查四张表)→ §3.11.2(自查清单)。目标:拿到"博弈方向地图",知道有哪些时代、哪些流派、哪些求解器,但不深究。
路径二:技术选型导向(45 分钟,手上有个具体交互规划项目)。 读 §3.4(求解器对比)→ §3.4.4(选型决策树)→ §3.9(失败模式 + 计算画像)→ §3.10(三个全栈案例选最接近你的)→ 附录 C(你的形态)。目标:把你的项目场景投影到方法空间,定出"用哪条流派、哪个求解器、怎么兜底"。
路径三:研究前沿导向(60 分钟,要做博弈规划研究/读前沿论文)。 读 §3.5–3.6(两条边界)→ §3.7(七大开放问题,重点)→ §3.9.3(收敛趋势)→ 附录 A.5(2024–2026 前沿索引)。目标:搞清这个方向"还没解决什么、火力集中在哪、最值得押注什么",建立读前沿论文的参照系。
多视角理解(三条路径对应三类读者的三种"稀缺能力"):这三条路径不是随意切分,而是对应三类读者最稀缺的能力。像/不像:三条都从同一篇综述取材;不像在于服务的"稀缺能力"不同——初学者稀缺的是**全局观**(路径一,怕见树不见林),工程师稀缺的是**选型判断力**(路径二,怕选错求解器走弯路),研究者稀缺的是**前沿嗅觉**(路径三,怕押错方向做无用功)。一篇好的方向级综述,应当能同时服务这三类读者的不同稀缺——这也是本综述刻意把"史派器界问 + 选型案例 + 开放问题 + 附录"都纳入的原因:它不是写给单一读者的线性教程,而是一张能从多个入口取用的"方向地图"。按需选路径,比从头读到尾更符合综述的使用方式。
版本与维护¶
- 文档类型:方向级综述(综述/对比类,参照论文解读与理论教学规范——重在**脉络梳理**与**对比综合**,几乎无代码)。
- 定位:博弈规划方向(专题 3)的方向级综述,是移动机器人规控综述层(Part-S)的第三篇,与
10_总览与时空联合规划.md、20_不确定性规划.md、40_交互意图预测.md、50_RL与经典规控贯穿关系与结论.md构成姊妹篇。 - 与深度教程的关系:本综述做"摆位置、划边界、指趋势",不做推导、不贴代码;要学到能动手,回到博弈方向深度教程 G0–G4(
04_移动机器人规控/40_博弈规划/下10_博弈规划总论.md~60_综合对比与附录.md),回指地图见 §3.8.7。 - 覆盖范围:四个时代(史)、两大均衡 + 八大流派(派)、四大实时求解器 + 失败模式/计算画像(器)、与传统规控/MARL 两条边界(界)、七大开放问题(问),外加三个全栈选型案例、五形态迁移度、论文索引与术语表。
- 前沿截止:纳入 2024–2026 关键进展(贝叶斯逆博弈、level-2 逆博弈、可微博弈嵌 VAE、近势函数实时赛车、Safe-MARL→GNE/MADAC、LMPG 摊销求解、scenario-based 交互驾驶外部综述等,索引见附录 A.5)。