博弈规划附录：综合对比、选型与速查¶

本章定位：这是博弈规划方向（Part-G）的**出口整合**，与入口的 G0 总论遥相呼应。如果说 G0 是"进入前的地图"，附录就是"学完后的整合手册"——它把 G1–G4 四章横向打通，回答总论无法回答的问题：四章学完了，它们之间是什么关系？遇到一个真实问题，我该用哪一章的哪个方法？想深入某个主题，该读哪篇论文、用哪个开源项目？

怎么用这份附录：它不是用来"读"的，而是用来"查"的。读完 G1–G4 后通读一遍建立整合视角，之后把它当速查手册——做技术选型时查"综合选型决策"、想深入时查"论文精读路线"、要动手时查"开源项目参考表"、跨方向迁移时查"与其他大纲的衔接"。

与 G0 总论的分工：G0 讲"为什么学、学什么、怎么学"（前瞻地图）；本附录讲"学完后如何整合、如何选型、如何深入"（回顾手册）。两者一前一后，把整个博弈方向框成闭环。G0 的"翻译词典"（单智能体↔博弈概念对照）和本附录的"综合选型决策"是两个最常回查的工具，建议配合使用。

本附录是辅助文件：和 G0 总论一样，它是整合/速查性质，不含可运行代码与论文精读（那些在 G1–G4 正文）。它的价值在"横向打通"与"决策支持"，不在长度。

一、四章的数学本质对比¶

学完四章，最该建立的整合视角是：它们在数学上各是什么、彼此如何衔接。不是四个孤立专题，而是一条"理论底座 → 工程核心 → 感知-规划桥梁 → 扩展层"的递进。

维度	G1 微分博弈/HJI	G2 实时求解器	G3 逆博弈/预测一体化	G4 安全证书/MARL
角色	理论底座	工程核心	感知-规划桥梁	扩展层
数学本质	HJI 偏微分方程 + 可达性	迭代 LQ 近似 + 耦合 Riccati / 增广拉格朗日	双层优化（外层推断 + 内层求均衡）	CBF-QP（=GNE）/ 势函数 / no-regret 学习
求什么	博弈值 + 安全集（精确）	局部 Nash / GNE（实时近似）	对手代价 + 交互均衡（联立）	硬安全证书 / 纯 Nash / 近似均衡（CCE）
核心方法	Isaacs 方程、可达集	iLQGames、ALGAMES、SE-IBR	逆博弈、Level-k、GameFormer	CBF+博弈、GCBF+、势博弈、PSRO、CFR
关键约束	维度诅咒（≤4-5 维）	实时性（kHz） + 均衡选择	推断准确性 + 双层耦合	模型鲁棒性 + 可扩展性（上千 agent）
代表论文	Isaacs、Basar-Olsder、Mitchell-Bayen-Tomlin	Fridovich-Keil（iLQGames）、Le Cleac'h（ALGAMES）	Peters（逆博弈）、Tian（Level-k）、Huang（GameFormer）	Wang-Ames-Egerstedt、GCBF+、Monderer-Shapley、Lanctot（PSRO）
承接关系	—	把 G1 实时化	补 G2 的"代价已知"前提	给 G3 兜底 + 扩展规模

逐章的数学定位：

G1（微分博弈/HJI）是理论底座。 它用 HJI 偏微分方程刻画连续时间博弈的值函数，用可达性分析给出精确的安全证书（哪些状态无论如何都会进入危险）。数学上最完备——给出全局博弈值。代价是维度诅咒：状态每多一维，计算量指数爆炸，三四维以上就算不动了。所以 G1 是"对的但算不动"的理论标尺，后面三章都在它建立的语言（值函数、均衡、安全集）上展开。

G2（实时求解器）是工程核心。 它把 G1 的理论"实时化"：用迭代 LQ 近似（iLQGames，把非线性博弈局部线性化、解耦合 Riccati）或增广拉格朗日（ALGAMES，处理硬约束）或灵敏度最佳响应（SE-IBR），放弃全局最优、换取局部 Nash 的 kHz 级实时求解。数学本质是"把单智能体的 iLQR/增广拉格朗日推广到多人耦合"。它是全方向最核心、最该精读的一章。

G3（逆博弈/预测一体化）是感知-规划桥梁。 它解决 G2 遗留的"对手代价已知"前提——现实中对手代价未知。数学本质是双层优化：外层从对手历史行为反推代价（逆博弈/MLE/贝叶斯），内层用推断的代价求均衡（正向博弈）。同时用"预测即均衡"把预测融入博弈，消除 frozen robot。它把博弈从"已知对手"推进到"读懂对手"。

G4（安全证书/MARL）是扩展层。 它补 G3 的两个缺口：推断可能错（需硬安全兜底）、规模受限（需扩展到上千 agent）。数学上横跨三块——CBF-QP（其 KKT 等价于广义 Nash 均衡，提供不依赖对手模型的硬安全）、势博弈（势函数保证分布式协调收敛）、MARL（PSRO 的种群博弈、CFR 的 no-regret 学习，从自博弈中逼近均衡）。它连接经典博弈与现代学习。

本质洞察（四章是"精确性"与"现实性"的逐步交换）：把四章的数学本质连起来看，有一条清晰的主线——用精确性换现实性。 G1 最精确（全局博弈值、精确安全集）但最不现实（算不动）；G2 牺牲全局最优（局部 Nash）换实时；G3 牺牲"代价已知"的确定性（改为推断，可能错）换对真实交互的处理能力；G4 牺牲"软的最优安全"（改为 CBF 的硬兜底，可能保守）换鲁棒性与规模。一句话：博弈规划从 G1 到 G4，是一条不断用"数学上的精确/最优"交换"工程上的可用/鲁棒"的路——每一章都比前一章更不"漂亮"、但更能用。 这与单智能体规控里"HJB 精确 vs MPC 实用"是同一种工程哲学：理论标尺指方向，工程近似才落地。理解这条交换主线，你就懂了为什么四章缺一不可——G1 给标尺，G2-G4 逐步把标尺变成能上路的系统。

系统性分类（四章按"它在系统里的位置"归类）：除了按"数学本质"看，还可以按"在一个真实博弈系统里各占什么位置"把四章归类——这对搭实际系统更有指导性。 离线/设计时（G1）：HJI 可达性通常离线算，给出安全集和理论标尺，是设计阶段用的——不在实时回路里。 实时回路核心（G2）：iLQGames/ALGAMES 在每个控制周期跑，是系统的实时计算主体——这是延迟最敏感、最该优化的部分。 感知-决策接口（G3）：逆博弈/预测在线推断对手，位于"感知"和"规划"之间——它的输出（对手代价）喂给 G2 的实时回路。 安全兜底层 + 离线训练（G4）：CBF 安全滤波在实时回路的最后一层（出口处兜底），而 GCBF+/PSRO 的训练是离线的（训练好再部署）。一句话：搭一个真实博弈系统时，四章各就各位——G1 在设计时定标尺与安全集、G2 是实时回路核心、G3 是感知到规划的接口、G4 是出口的安全兜底（在线）加训练（离线）。这个"系统位置"视角，比"数学本质"视角更直接地告诉你：每一章的产物该放在系统架构的哪一层、对延迟有多敏感、是在线还是离线。项目甲（自驾交互规划器）正是这样把四层拼成一个系统的。

二、综合选型决策：遇到一个真实问题，该用哪一章¶

这是附录最实用的一节——把四章的方法组织成一个**面向问题的决策框架**。遇到一个真实的多智能体场景，照着下面的问题逐层往下走，就能定位到该用哪一章的哪个方法。

你的问题：多个决策者相互影响，怎么决策？
         │
   ① 这是博弈吗？（他人会因你的行为而策略性改变吗）
         │
    ├─ 否（他人是可预测的固定障碍）→ 用单智能体规控（MPC/CBF）即可，不需要 Part-G
         │
    └─ 是 ↓
   ② agent 规模多大？
         │
    ├─ 少数（2~十几个，连续控制：自驾/竞速/HRI）↓ 走 G1-G3 主线
    │      │
    │   ③ 对手代价已知吗？
    │      ├─ 已知 → G2 直接求解（iLQGames/ALGAMES）
    │      └─ 未知 → G3 先推断（逆博弈/Level-k）再用 G2 求解
    │      │
    │   ④ 需要可证明的安全/全局性质吗？
    │      ├─ 需要安全验证 → G1（HJI 可达性，离线算安全集）
    │      └─ 需要硬安全兜底 → G4（CBF+博弈，在线滤波）
    │
    └─ 大规模（几十~上千，swarm/棋牌/策略博弈）↓ 走 G4
           │
        ⑤ 是合作还是竞争？
           ├─ 合作（共享目标，多机覆盖/编队）→ G4 势博弈 / 合作 MARL（QMIX/MAPPO）
           ├─ 竞争/混合（大博弈，扑克/星际）→ G4 PSRO / OpenSpiel
           └─ 要大规模安全避碰（swarm）→ G4 GCBF+

把这个决策树展开成一张更细的选型表，按"你的场景特征 → 推荐方法 → 所在章节"组织：

你的场景特征	推荐方法	章节	为什么
双人对抗、要安全验证（追逃、拦截）	HJI 可达性	G1	零和博弈均衡唯一，可达性给精确安全集
少数车交互、代价已知、要实时	iLQGames	G2	迭代 LQ，kHz 实时求局部 Nash
少数车交互、有硬约束（不能撞、速度限）	ALGAMES / DG-SQP	G2	增广拉格朗日/SQP 处理约束 GNE
无人机竞速、实车实时	SE-IBR	G2	灵敏度最佳响应，实车验证过
对手意图未知（自驾交互）	逆博弈 + iLQGames	G3+G2	外层推断代价，内层求均衡
和人交互、人非完全理性	Level-k / 贝叶斯逆博弈	G3	有界理性建模，递归层级
要端到端学"预测+规划"	GameFormer	G3	Transformer 隐式博弈，消除 frozen robot
推断可能错、要保证不碰撞	CBF+博弈（安全滤波层）	G4	硬安全，不依赖对手模型正确性
上千 agent 安全避碰（swarm）	GCBF+	G4	GNN 学图 CBF，单一证书任意规模
多机协作、共享目标（覆盖/编队）	势博弈 / QMIX / MAPPO	G4	势函数保证分布式收敛
大博弈、竞争（扑克/星际/对战）	PSRO / CFR / OpenSpiel	G4	种群博弈/no-regret 逼近均衡

本质洞察（选型的两把标尺：规模 + 信息）：上面的决策树看似复杂，但它本质只由两个维度决定——agent 规模（少数连续控制 vs 大规模/离散）和**信息完备度**（对手代价已知 vs 未知 vs 模型可能错）。规模决定主干：少数 agent 连续控制走 G1-G3（求解器路线），大规模/离散走 G4（学习/势博弈路线）。信息决定细节：代价已知用 G2 直接求解，未知用 G3 推断，模型可能错用 G4 兜底。一句话：做博弈方法选型，先问"几个 agent"（定主干）、再问"对手信息有多全"（定细节）——这两个问题就能把你导向四章里正确的那个方法。 其余的场景特征（合作/竞争、连续/离散、要不要硬安全）都是这两个主维度下的分支。记住这两把标尺，比记住十几个方法名更有用。

多视角理解（选型决策 ↔ 单智能体规控的选型）：这套"先规模、再信息"的选型逻辑，其实和单智能体规控的选型同构。单智能体里你也先问规模（低维用动态规划/HJB，高维用采样/MPC），再问信息（模型已知用 MPC，未知用 RL/学习）。博弈只是把每个维度"多人化"了：规模从"状态维度"变成"agent 数量"，信息从"我的模型是否已知"变成"对手的代价是否已知"。一句话：博弈方法的选型框架，是单智能体选型框架的"多人版"——同样先规模后信息，只是两个维度都加了"多智能体"的内涵。 这再次印证 G0 的核心信息：博弈是单智能体规控的自然推广，连选型的思维方式都一脉相承。

三、开发生态对比：C++ / Julia / Python¶

博弈规划社群有一个鲜明的特点——Julia 是事实上的研究原型语言，C++ 用于部署，Python 用于学习式方法。理解这个生态分工，能帮你在动手时选对工具，少走弯路。

章节	C++ 生态	Julia 生态	Python 生态	教学推荐路径
G1 HJI	BEACLS（C++/CUDA，低活跃）	—	optimized_dp（HeteroCL）、hj_reachability（JAX）、helperOC（MATLAB）	MATLAB 入门建直觉 → JAX 进阶
G2 求解器	ilqgames（BSD-3，kHz 实时）	iLQGames.jl、Algames.jl、Altro.jl	DGSQP（CasADi）	Julia 快速原型 → C++ 部署
G3 逆博弈	ilqgames 内含	GameInference.jl、TensorGames.jl、MCP.jl	GameFormer（PyTorch）	Julia 为主，学习式用 PyTorch
G4 MARL	OpenSpiel（Apache-2.0，C++17 核心）	—	OpenSpiel Python 绑定、MARLlib、EPyMARL、gcbfplus（JAX）	C++ 精读 + Python 实验

本质洞察（"Julia 原型 + C++ 部署 + Python 学习"的三层分工）：博弈规划的工具生态不是随意的，而是反映了这个领域的研究-工程现实。 Julia 层：博弈求解涉及大量自动微分（对耦合 Riccati 求导）、灵活的数值优化——Julia 的自动微分生态（ForwardDiff/Zygote）和接近 C 的性能，使它成为博弈算法研究原型的首选（iLQGames.jl、Algames.jl、TensorGames.jl 都是 Julia）。 C++ 层：实车部署要 kHz 实时——ilqgames（C++）和 OpenSpiel（C++17 核心）承担"把原型变成产品"。 Python 层：学习式方法（GameFormer、GCBF+）天然在 PyTorch/JAX 里，且 Python 是教学和实验的通用语言。一句话：博弈规划的"Julia 原型 → C++ 部署 → Python 学习"三层分工，是这个领域'数值密集（要 Julia/C++）+ 学习交叉（要 Python）'双重特性的自然结果——选工具时，研究原型优先 Julia，要上车用 C++，碰学习式方法用 Python。这和纯学习领域（几乎全 Python）或纯控制领域（C++/MATLAB 为主）都不同，是博弈规划生态的独特之处。

"C++ 骨架 + Julia SOTA"双语言教学策略：博弈规划的事实工业模式是"Julia 原型 + C++ 部署"，建议的动手路径： 1. Julia 快速原型：iLQGames.jl（10 行跑 2-player 博弈）→ Algames.jl（加约束）→ TensorGames.jl（张量博弈/MCP）→ GameInference.jl（逆博弈）。Julia 让你快速验证算法想法。 2. C++ 工程部署：ilqgames（kHz 实时，自驾可用）→ OpenSpiel（离散博弈 C++17 核心，扑克/棋类）。C++ 把原型变成能跑在真实系统上的产品。 3. Python 学习层：GameFormer（端到端 Transformer，自驾预测-规划）→ gcbfplus（JAX，大规模安全 swarm）→ DGSQP（CasADi 研究原型）。学习式方法和大规模实验在这一层。

四、学习顺序与时间规划¶

把 G0 总论的路线图落到具体的时间表。完整学完 Part-G 约 8–10 周（全职等效）：

G1 微分博弈理论（2 周）—— 建立 HJI 直觉 + 可达性，理论底座
    ↓
G2 实时求解器（3 周）—— 核心工程能力（iLQGames + ALGAMES），最该精读
    ↓
G3 逆博弈 + Level-k（2 周）—— 连接感知与学习，推断对手
    ↓
G4 安全 + MARL（2 周）—— 扩展到多智能体 + 硬安全
    ↓
附录整合（0.5 周）—— 横向打通 + 选型 + 论文/项目速查

如果只有 4 周（压缩路径）：跳过 G1（在 G2 里补最少够用的 LQ 博弈基础）→ G2 压到 2 周（重点 iLQGames）→ G3 压到 1 周（重点逆博弈 + 预测即均衡）→ G4 压到 1 周（重点 CBF+博弈）。压缩时优先保 G2（工程核心）和 G3（消除 frozen robot 的关键），G1 的 HJI 深入和 G4 的 MARL 可后补。

按应用裁剪：自驾交互重点 G2+G3；无人机竞速重点 G2（SE-IBR）；多机协调/swarm 重点 G4（势博弈+GCBF+）；棋牌/策略 AI 重点 G4（PSRO+OpenSpiel）。

五、附录 A：论文精读路线¶

按"读它的理由 + 怎么读"组织，不只是列书目。星级是精读优先级（★越多越该精读）。引用以各章正文核实版本为准——其中 CBF+博弈的奠基论文，骨架曾标注为 Notomista-Egerstedt T-RO 2021，经核实应为下面修正的版本。

必读论文（10 篇核心）¶

#	论文	章节	读它的理由 / 怎么读
1	Basar & Olsder, "Dynamic Noncooperative Game Theory"（SIAM 1999）	G1	★★★★ 动态博弈的圣经。读 Ch1（基本概念）+ Ch6（LQ 博弈与耦合 Riccati）。建立"博弈值、反馈/开环 Nash"的严格语言
2	Mitchell, Bayen, Tomlin, "A Time-Dependent HJ Formulation of Reachable Sets"（IEEE TAC 2005）	G1	★★★★ 可达集 ↔ HJI 的奠基。读懂"可达集如何由 HJI PDE 刻画"，这是 G1 安全证书的数学核心
3	Sadigh et al., "Planning for Autonomous Cars that Leverage Effects on Human Actions"（RSS 2016）	G1→G2	★★★★ 自驾博弈的范式转变之作。第一次把"ego 影响人类行为"正式建模，是 frozen robot 问题的经典反例与博弈解法源头
4	Fridovich-Keil et al., "Efficient Iterative LQ Games"（ICRA 2020）	G2	★★★★★ G2 的核心。精读 iLQGames 如何把 iLQR 推广到多人耦合 Riccati。配 ilqgames（C++）或 iLQGames.jl 源码读
5	Le Cleac'h et al., "ALGAMES"（RSS 2020 / AuRo 2022）	G2	★★★★ 约束博弈求解的代表。读增广拉格朗日如何处理博弈中的硬约束（GNE），对比 iLQGames 的无约束
6	Wang et al., "Game-Theoretic Planning for Autonomous Racing"（SE-IBR，IEEE T-RO 2021）	G2	★★★★ 灵敏度最佳响应 + 实车。读 SE-IBR 如何迭代最佳响应 + 灵敏度，无人机/赛车竞速实车验证
7	Peters et al., "Inferring Objectives in Continuous Dynamic Games from Noise-Corrupted Partial State Observations"（RSS 2021 / IJRR 2023）	G3	★★★★★ 逆博弈的核心。精读双层结构——从带噪部分观测反推对手代价，是 G3 的地基
8	Huang et al., "GameFormer"（ICCV 2023）	G3	★★★★ 预测-规划一体化的代表。读 Transformer 如何隐式建模博弈 + Level-k 层级，端到端消除 frozen robot
9	Wang, Ames, Egerstedt, "Safety Barrier Certificates for Collisions-Free Multirobot Systems"（IEEE T-RO 2017, 33(3):661-674） + GCBF+（Zhang-So-Garg-Fan, IEEE T-RO 2025）	G4	★★★★★ CBF+博弈的奠基（2017，多机 CBF 安全证书）+ 神经图 CBF 的前沿（2025，GNN 学证书、扩展上千 agent）。注意：这是 CBF+博弈的正确奠基引用；骨架原列的"Notomista T-RO 2021"有误，Notomista-Egerstedt 的相关工作是 ACC 2019（约束驱动协调）
10	Lanctot et al., "OpenSpiel: A Framework for RL in Games"（arXiv:1908.09453） + PSRO（Lanctot et al., NeurIPS 2017, arXiv:1711.00832）	G4	★★★★ 博弈-MARL 统一框架（OpenSpiel）+ 种群博弈奠基（PSRO，把 Double Oracle 推广到深度 RL）。读 PSRO 的 meta-solver 如何统一诸多 MARL 方法

六、附录 B：开源项目快速参考表¶

按优先级（★）组织，配"用它做什么 / 选用建议"。星数为骨架调研时（2026 年 4 月）的量级，仅供参考活跃度判断。

优先级	项目	语言	License	章节	用它做什么 / 选用建议
★★★★★	ilqgames	C++	BSD-3	G2, G3	iLQGames 的权威 C++ 实现，kHz 实时。要部署到真实系统、或精读 iLQGames 源码，选它
★★★★★	OpenSpiel	C++/Python	Apache-2.0	G4	博弈-MARL 全家桶（CFR/PSRO/AlphaZero + 80+ 游戏）。做离散博弈、扑克/棋类、对比 MARL 算法，选它
★★★★☆	iLQGames.jl	Julia	MIT	G2	iLQGames 的 Julia 实现，10 行跑 2-player。快速验证博弈算法想法的首选
★★★★☆	Algames.jl	Julia	MIT	G2	ALGAMES 的 Julia 实现，处理约束 GNE。要带硬约束的博弈求解原型，选它
★★★★☆	TensorGames.jl	Julia	MIT	G3, G4	张量博弈/MCP 求解。混合策略 Nash、一般和博弈的 Julia 工具
★★★★☆	gcbfplus（MIT-REALM）	Python/JAX	MIT	G4	GCBF+ 官方实现，大规模安全 swarm（含 SingleIntegrator/DubinsCar/drone 环境）。做神经图 CBF、上千 agent 避碰，选它
★★★☆☆	GameInference.jl	Julia	MIT	G3	逆博弈的 Julia 实现。从观测反推对手代价的原型工具
★★★☆☆	DGSQP	Python/CasADi	—	G2	DG-SQP 研究原型，SQP 求开环 GNE。CasADi 生态、要可微优化，选它
★★★☆☆	hj_reachability	Python/JAX	MIT	G1	HJI 可达性的 JAX 实现，GPU 加速。算可达集/安全集，现代首选（替代老的 MATLAB helperOC）
★★★☆☆	optimized_dp	Python/HeteroCL	MIT	G1	HJI 动态规划的优化实现，比纯 Python 快。中等规模可达性计算
★★★☆☆	helperOC / BEACLS	MATLAB / C++	—	G1	经典 HJI 工具箱。helperOC 适合入门建直觉，BEACLS 是 C++/CUDA 版（活跃度低）
★★☆☆☆	Altro.jl	Julia	MIT	G2	轨迹优化求解器，是部分博弈求解器的底层基础设施
★★☆☆☆	MARLlib / EPyMARL	Python	—	G4	多智能体 RL 算法库（QMIX/MAPPO 等）。做合作 MARL 实验、标准化评估，选它

多视角理解（项目选用的三条线索：语言 / 阶段 / 任务）：面对这十几个项目，怎么选？三条线索。 按语言：你的技术栈是 Julia → 优先 iLQGames.jl/Algames.jl/TensorGames.jl；C++ 部署 → ilqgames/OpenSpiel；Python/学习 → gcbfplus/MARLlib/hj_reachability。 按阶段：研究原型阶段 → Julia 系（快）；产品部署阶段 → C++ 系（ilqgames/OpenSpiel）；学习式探索 → Python/JAX 系。 按任务：连续博弈求解 → ilqgames/Algames.jl；可达性 → hj_reachability；逆博弈 → GameInference.jl；大规模安全 → gcbfplus；离散/MARL → OpenSpiel/MARLlib。一句话：选开源项目时，用"语言栈 + 项目阶段 + 任务类型"三条线索交叉定位——而不是盲目选星数最高的。 比如同样做 G2 的 iLQGames，研究原型选 iLQGames.jl（Julia，快），上车选 ilqgames（C++，实时）——星数相近，但适用阶段不同。

七、附录 C：与其他方向的衔接点¶

博弈规划与规控其他方向有深刻的、往往是数学层面的联系。这张表帮你在跨方向迁移时找到锚点，也是把博弈放进整个规控知识体系的关键。

其他方向	衔接章节	衔接说明（数学/概念层面）
v8 SLAM（GTSAM 因子图）	G2	耦合 Riccati 的块三对角结构 ≅ 因子图的 Hessian——博弈求解的线性代数和 SLAM 后端同构
不确定性规划 U1（分支规划）	G2, G3	分支规划的策略枚举 ↔ 博弈的最佳响应迭代；都在处理"多种可能的应对"
不确定性规划 U2（CBF）	G4	CBF-QP 的 KKT 条件 ↔ 广义 Nash 均衡的 KKT——这是 G4 §4.1 的核心等价，U2 是 G4 的直接前置
不确定性规划 U4（POMDP）	G3	贝叶斯博弈 ≡ POMDP 的博弈版——不完全信息博弈是 POMDP 在多决策者下的推广
不确定性规划 U5（CVaR）	G2, G3	CVaR 可嵌入博弈目标（风险敏感博弈）；MARC 即用 CVaR 双层结构
时空联合规划（共享约束）	G2, G4	时空走廊的碰撞约束 ‖pᵢ(t)-pⱼ(t)‖≥d 本质是 Rosen 1965 GNE 的共享约束；CBS/MAPF 在博弈视角下是 multi-agent best response
采样式 MPC（MPPI）	G2	MPPI 提供无梯度求解，可服务于"代价不可微/动力学黑箱"的博弈场景——多智能体 MPPI → 博弈 MPPI
多机器人协作	G4	非合作多机 = 博弈论框架；G4 的 MARL（CTDE/MAPPO/QMIX）是多机协作线的核心；势博弈是分布式协调基石
四足（OCS2）	G4	多四足协调 ↔ 势博弈 Voronoi 覆盖；腿足全身控制 + 博弈协调
无人机 D2（MPC）	G2	iLQGames 是 iLQR→多人推广；acados 可做 GT-MPC（博弈论 MPC）
博士前数学（李群）	G1	SE(3) 上的追逃博弈——微分博弈在李群上的推广
强化学习 / 深度学习	G4	MARL 建在 RL 基础上；GCBF+ 用 GNN、PSRO 用深度 RL 训练 oracle——博弈连接经典控制与现代学习

本质洞察（博弈是规控的"交互层"，与所有方向交叉）：这张衔接表的规律，呼应了 G0 总论的核心论断——博弈不是和其他方向并列的"第 N 个方向"，而是横切所有"多智能体交互"场景的通用语言层。看衔接点的分布：它和 SLAM 在线性代数层面同构（耦合 Riccati ≅ 因子图）、和不确定性规划在概念层面重叠（贝叶斯博弈 ≡ 博弈版 POMDP、CBF-QP ≡ GNE）、和时空规划在约束层面统一（共享约束 = GNE）、和多机/RL 在方法层面交汇（MARL）。一句话：只要一个规控问题涉及"多个能动者相互影响"，无论它原本属于哪个方向，都会与博弈产生衔接——这就是为什么博弈被定位为横切专题，它是规控里专门处理"交互"这一维度的语言。学完博弈方向，你获得的不只是几个算法，而是一套能套用到任何交互场景的思维框架。

八、四章联合：搭一个完整交互系统的范例¶

前面的选型决策告诉你"单个问题用哪一章"，但真实系统往往**同时用到多章**。这一节用项目甲（自动驾驶交互博弈规划器）作范例，展示四章如何拼成一个端到端系统——这是 Part-G 整合能力的集中体现。

目标场景：自动驾驶车在城市路口处理交互（无保护左转、汇入、变道），既要高效完成任务，又要可证明安全。

系统架构（四章各就各位）：

                    ┌─────────────────────────────────────┐
   感知输入 ──────→ │ G3 逆博弈推断层（感知-决策接口）       │
  (对手轨迹历史)     │  从对手历史行为在线推断其代价/激进度   │
                    │  输出：对手代价参数 θ̂                  │
                    └──────────────┬──────────────────────┘
                                   │ θ̂（推断的对手目标）
                                   ▼
                    ┌─────────────────────────────────────┐
   设计时离线 ─────→ │ G2 实时博弈求解层（实时回路核心）     │
  (G1 给的安全集     │  用 θ̂ + iLQGames/ALGAMES 实时求 Nash  │
   作为约束/标尺)    │  输出：标称交互轨迹 u_nom（预测即均衡） │
                    └──────────────┬──────────────────────┘
                                   │ u_nom（最优但可能依赖推断）
                                   ▼
                    ┌─────────────────────────────────────┐
                    │ G4 CBF 安全滤波层（出口硬安全兜底）    │
                    │  把 u_nom 最小修正到满足 CBF 约束      │
                    │  输出：u_safe（保证不碰撞，推断错也安全）│
                    └──────────────┬──────────────────────┘
                                   ▼
                              执行 u_safe

每一层的职责与来源： - G3 推断层（输入端）：从对手历史轨迹在线推断它想要什么（激进抢行还是保守礼让），输出对手代价 θ̂。用"预测即均衡"避免 frozen robot。这是感知到决策的接口。 - G1 安全标尺（设计时）：离线用 HJI 可达性算出"哪些态势绝对危险"，作为安全集/约束喂给下游。不在实时回路，是设计阶段的产物。 - G2 求解层（实时核心）：用推断的 θ̂ 在每个控制周期求博弈 Nash，输出标称交互轨迹 u_nom。这是延迟最敏感的实时计算主体。 - G4 安全层（输出端）：把 u_nom 最小修正到满足 CBF 约束，输出 u_safe。即使 G3 推断错了对手意图，CBF 也保证不碰撞。这是出口的硬安全兜底。

本质洞察（四章拼成系统 = 一条"推断→求解→兜底"的数据流）：这个范例最关键的启示是——四章在系统里不是并列的，而是串成一条数据流：感知 → G3 推断对手 → G2 求交互均衡 → G4 安全兜底 → 执行。每一层的输出是下一层的输入：G3 的 θ̂ 喂给 G2，G2 的 u_nom 喂给 G4，G1 的安全集作为 G2/G4 的约束。它们各自解决一个子问题，串起来才是完整系统。一句话：学完 Part-G 真正要会的，不是孤立地用某一章，而是把四章串成"推断→求解→兜底"的数据流搭出一个完整系统——这才是项目甲的本质，也是博弈规划工程能力的终极体现。单独的 iLQGames 只是个求解器，加上 G3 的推断（知道对手要什么）和 G4 的兜底（推断错也安全），才成为一个能上路的交互规划器。

理论-工程桥接（从论文方法到系统架构的落地）：把这个范例和前面的论文路线对照，能看清"论文方法"如何变成"系统模块"。 Peters 的逆博弈（论文）→ G3 推断层（模块）；Fridovich-Keil 的 iLQGames（论文）→ G2 求解层（模块）；Wang-Ames-Egerstedt 的 CBF 安全证书（论文）→ G4 安全层（模块）；Mitchell-Bayen-Tomlin 的 HJI 可达性（论文）→ G1 离线安全集（设计时）。一句话：每篇核心论文对应系统里的一个模块——读论文时想"它在项目甲里是哪一层"，搭系统时想"这一层该用哪篇论文的方法"，论文与工程就双向打通了。 这是论文解读教学的终点：不是读懂孤立的论文，而是知道每篇论文在真实系统里的位置。

九、常见整合误区¶

学完四章、开始整合时，有几个反复出现的误区，在这里集中校准（它们是 G0 总论"五个认知误区"在整合阶段的延续）。

整合误区一：以为四章是"四选一"，挑一个最好的用。 校准：四章是**互补的层**，不是竞争的方案。真实系统（项目甲）同时用 G2（求解）+ G3（推断）+ G4（安全），G1 提供设计时的安全标尺。问"用哪章"问错了，该问"这个子问题该用哪章"——不同子问题用不同章，串成系统。

整合误区二：以为有了 G4 的 CBF 硬安全，就不需要 G3 的推断了。 校准：CBF 保证不碰撞，但不保证高效——只靠 CBF 会过保守（绕路、僵死）。G3 的推断让系统"懂对手、高效交互"，G4 的 CBF 让系统"推断错也不碰"。前者管性能、后者管安全，两者责任分离、缺一不可（呼应 G4 §4.1 的软硬两层安全栈）。

整合误区三：以为离散博弈（OpenSpiel）和连续博弈（iLQGames）可以混用。 校准：它们处理**不同类型的博弈**——OpenSpiel 面向离散扩展式博弈（棋牌），iLQGames 面向连续微分博弈（自驾轨迹）。机器人规控的交互几乎都是连续微分博弈，用 G2 的求解器；不要因为 OpenSpiel 名气大就拿它解连续控制（呼应 G4 §4.4 陷阱）。

整合误区四：以为博弈方法学完就能直接上车，不需要其他方向。 校准：博弈是"交互层"，但一个真实自驾系统还需要感知（检测对手）、预测（轨迹历史）、定位（SLAM）、控制（底层执行）——博弈规划解决"交互决策"这一层，要和其他方向（附录 C 的衔接点）组合成完整系统。博弈不是全部，是关键的一层。

多视角理解（整合误区的根源：把"层"误当成"方案"）：这四个整合误区，根源都是同一个——把本该"分层协作"的四章，误当成"互相替代的完整方案"。误区一是这个错误的直接形式（四选一）；误区二是它在安全维度的变体（CBF 替代推断）；误区三是它在博弈类型上的变体（离散替代连续）；误区四是它在系统边界上的变体（博弈替代整个系统）。一句话：校准所有整合误区的统一钥匙，是理解"Part-G 四章是一个系统的不同层，不是四个互相替代的方案"——它们协作而非竞争，各管一层而非各做一遍。 一旦建立"分层协作"的整合观，这些误区会自然消解。这也是从"学会单个方法"到"会搭完整系统"的认知跃迁。

十、版本历史¶

版本	日期	变更
v0.1	2026-04-20	初版骨架：4 章（G1-G4）+ 综合对比 + 附录 A-C
v1.0	本次	扩充为完整整合手册：数学本质对比深化、新增综合选型决策框架、生态对比深化、论文路线配读法（修正 CBF+博弈奠基引用为 Wang-Ames-Egerstedt T-RO 2017 + GCBF+ T-RO 2025，订正骨架的 Notomista T-RO 2021 之误）、项目表配选用建议、衔接表深化

引用订正说明：本附录在整合时，对照 G1–G4 正文核实了关键引用。最重要的一处订正：CBF+博弈（G4 §4.1）的奠基论文，骨架原列为"Notomista & Egerstedt, IEEE T-RO 2021"，经核实——多机 CBF 安全证书的奠基是 Wang, Ames, Egerstedt, IEEE T-RO 2017（33(3):661-674, DOI 10.1109/TRO.2017.2659727）；Notomista-Egerstedt 的相关工作是 ACC 2019（约束驱动协调，arXiv:1811.02465）；而神经图 CBF 的前沿是 GCBF+, IEEE T-RO 2025（Zhang-So-Garg-Fan, arXiv:2401.14554）。本附录与 G4 正文一致采用修正后的引用。

博弈规划附录完结，Part-G 全线合龙。 本附录把 G1–G4 横向打通：四章的数学本质对比（理论底座→工程核心→感知桥梁→扩展层，一条"精确性换现实性"的主线）、面向问题的综合选型决策（先规模后信息两把标尺）、Julia/C++/Python 三层生态分工、配读法的论文精读路线、配选用建议的开源项目表、与其他方向的衔接。

至此，博弈规划方向（Part-G）的 6 个文件构成完整闭环：G0 总论（进入前的认知地图）→ G1 微分博弈/HJI（理论底座）→ G2 实时求解器（工程核心）→ G3 逆博弈/预测一体化（感知桥梁）→ G4 安全证书/MARL（扩展层）→ 本附录（学完后的整合手册）。从"环境里的他人是心智不是物体"这个认知出发，经过理论、求解、推断、安全四层，最终你应当能把一个真实的多智能体交互场景，建模成博弈、实时求解、推断对手、并加硬安全兜底——这就是博弈规划要带你抵达的能力终点。

从横切专题进入方法论专项：博弈规划是三大核心横切专题之一（与时空联合规划、不确定性规划并列），它回答"策略性交互中如何找到均衡"。接下来的 MPPI（采样式 MPC）和多机器人协作两份专项，是横切于这三大专题的方法论工具与系统集成——MPPI 为博弈求解（G2）中代价不可微的场景提供无梯度范式，多机协作则把 Nash 均衡（G1-G2）、MARL（G4）与 CBS/分布式 MPC 汇合于多智能体系统。

#	论文	章节	读它的理由
11	Fisac et al., "Hierarchical Game-Theoretic Planning for Autonomous Vehicles"（ICRA 2019）	G2-G3	层级博弈——长时域策略博弈 + 短时域轨迹优化的分层，自驾实用架构
12	Spica et al., "A Real-Time Game-Theoretic Planner for Autonomous Two-Player Drone Racing"（RSS 2018）	G2	SE-IBR 在无人机竞速的早期代表，理解灵敏度最佳响应的起源
13	Laine et al., "The Computation of Approximate Generalized Feedback Nash Equilibria"（GFNE，SIOPT 2023）	G2	广义反馈 Nash 均衡的计算，约束博弈求解的理论深化
14	Mehr et al., "Maximum-Entropy Multi-Agent Dynamic Games"（IEEE T-RO 2023）	G3	最大熵博弈——把 MaxEnt IRL 思想引入博弈，建模有界理性的另一条路
15	Liu et al., "Bayesian Inverse Games"（WAFR 2024）	G3	贝叶斯逆博弈——不只点估计对手代价，而是维护后验分布，处理推断的不确定性
16	Zhu & Borrelli, "A Sequential Quadratic Programming Approach to the Solution of Open-Loop Generalized Nash Equilibria"（DG-SQP，ICRA 2024）	G2	SQP 求开环 GNE，约束博弈求解的现代方法
17	Hu & Wellman, "Nash Q-Learning for General-Sum Stochastic Games"（JMLR 2003, 4:1039-1069）	G4	表格式多人 RL 奠基——把 Q-learning 的 max 换成 stage game 的 Nash，理解 MARL 的博弈论起源
18	Leonardos et al., "Global Convergence of Multi-Agent Policy Gradient in Markov Potential Games"（ICLR 2022） + Ding et al.（ICML 2022）	G4	Markov 势博弈中 policy gradient 全局收敛的证明——合作 MARL 收敛性的理论支柱，连接 G4 势博弈与 MARL