跳转至

本文档属于 Robotics Tutorial 项目,作者:Pengfei Guo,达妙科技。采用 CC BY 4.0 协议,转载请注明出处。

数学方向综合教学大纲

版本: v3.0 | 日期: 2026-05-14

定位: 面向机器人学博士生与高级工程师的全景数学路线图,覆盖 SLAM/规控/RL 三大方向的数学并集。 数据基础: 75+ 份子大纲的源码级分析;内容按 2026-05 前后版本锁定 Pinocchio 3.9.0 / Drake v1.52 / GTSAM 4.3 / MuJoCo 3.x / Isaac Lab 2.x,具体 API 与版本特性以各项目当前官方文档和 release notes 为准。 总投入: 10 个模块目录(10_纯数学基础 ~ 95_随机分析),75 份教学文件,约 2100–3200 学时(档位3核心)。


快速路径(Quick-Start Track)

不是每个人都需要完整 2100–3200 学时。以下三条最小路径让你快速获得目标方向的**核心数学能力**:

路径一:SLAM/状态估计方向(~1400h)

10_纯数学基础(全部, ~1200h)
  → 20_微分几何与李群(全部, ~250h)
  → 30_优化理论/10~50(凸分析到非线性优化, ~100h)
  → 60_概率与估计(全部, ~250h)
  → 30_优化理论/60(AD, ~30h)

重点模块: 20_微分几何与李群(特别是 30_李群基础、40_雅可比、50_不确定性)、60_概率与估计(全部) 选修补充: 40_控制理论/50_LQR、40_控制理论/70_Lyapunov、90_深度学习数学/60_等变网络

路径二:最优控制/MPC 方向(~1600h)

10_纯数学基础(全部, ~1200h)
  → 20_微分几何与李群/10~40(流形到雅可比, ~150h)
  → 30_优化理论(全部, ~160h)
  → 40_控制理论(全部, ~220h)
  → 50_刚体动力学/10~50(空间代数到解析微分, ~70h)

重点模块: 30_优化理论(全部)、40_控制理论(全部)、50_刚体动力学(10~50) 选修补充: 80_接触力学、60_概率与估计/10~30

路径三:强化学习/具身智能方向(~1500h)

10_纯数学基础(重点 90_实分析、100_测度论、110_泛函分析, ~800h)
  → 30_优化理论/10~40(凸分析到算法, ~80h)
  → 40_控制理论/30~50,70,90(DP/HJB/LQR/Lyapunov/DDP, ~80h)
  → 70_强化学习数学(全部, ~140h)
  → 90_深度学习数学(全部, ~140h)
  → 95_随机分析(SDE基础, ~40h)

重点模块: 70_强化学习数学(全部)、90_深度学习数学(全部)、10_纯数学基础/110_泛函分析 选修补充: 40_控制理论/80_CLF_CBF、80_接触力学/40_可微接触


计算与硬件需求

模块 GPU 真机/传感器 备注
10_纯数学基础 纯理论 + 笔算 + Jupyter
20_微分几何与李群 Sophus/manif C++ 实验
30_优化理论 Boyd 习题 + Ceres/CasADi 实验
40_控制理论/10~80 CasADi/Drake 仿真
40_控制理论/90~160 ⚠️ 推荐真机 ACADOS/Crocoddyl + Jetson 部署
50_刚体动力学 Pinocchio/MuJoCo 仿真
60_概率与估计 GTSAM/g2o 数据集实验
70_强化学习数学 ✅ 训练需 Isaac Lab / MuJoCo MJX
80_接触力学 ⚠️ GPU仿真推荐 MuJoCo/Drake 接触实验
90_深度学习数学 ✅ A100/4090 推荐 PyTorch 逼近/扩散实验
95_随机分析 SymPy/Jupyter SDE 仿真

工业 vs 研究标记

标记 含义 代表模块
I 工业落地核心 30_优化理论(Ceres/OSQP), 40_控制理论/120~140(MPC实时/C++), 60_概率与估计/50~60(GTSAM/iSAM2)
R 研究前沿 60_概率与估计/80(Certifiable), 80_接触力学/40~70(可微接触/非光滑前沿), 90_深度学习数学/40~60(Diffusion/VLA/等变)
I+R 工业+研究兼有 40_控制理论/90~100(DDP/Crocoddyl), 70_强化学习数学/20(PPO), 50_刚体动力学/50(解析微分)

前置知识依赖矩阵

本大纲模块 前置模块 关键知识点
20_微分几何与李群 10_纯数学基础(全部) 拓扑/群论/实分析/测度论
30_优化理论 10_纯数学基础/90_实分析, 30_内积空间 多元微积分、内积/伪逆
40_控制理论 10/90_实分析, 10/120_ODE, 30_优化(全部) 压缩映射/Lyapunov/NLP
50_刚体动力学 10_纯数学基础(A2全部, B4), 20_微分几何与李群 对偶空间/SE(3)/Adjoint
60_概率与估计 10/100_测度论, 10/110_泛函分析, 20_微分几何与李群, 30_优化 Haar测度/\(L^2\)投影/GN-LM
70_强化学习数学 10/100_测度论, 10/110_泛函分析, 10/120_ODE, 40_控制理论/30~50 Banach不动点/DP/LQR
80_接触力学 50_刚体动力学, 30_优化理论, 10/120_ODE 约束动力学/KKT/SOC
90_深度学习数学 10/100_测度论, 10/110_泛函分析, 30_优化, 70_RL数学 Hahn-Banach/UAT/SDE
95_随机分析 10/100_测度论, 10/120_ODE \(L^2\)完备性/Picard-Lindelof

三层前置口径: - 最低可启动: 10_纯数学基础/10~50(集合论到Jordan)+ 90_实分析。可支撑 Quick Start 的 SLAM 路径。 - 推荐补齐: 10_纯数学基础全部。适合完整学习所有模块。 - 完整前置: 10_纯数学基础全部 + 高中物理力学基础。


生态速览(截至 2026-05)

生态层 核心栈 最新动态
线性代数 Eigen 3.4 C++17 constexpr, ARM NEON 优化
李群库 Sophus 1.x / manif 0.x Sophus 维护模式; manif Jacobian-aware 持续更新
动力学引擎 Pinocchio 3.9 + Coal + ProxQP 闭环链/MJCF 解析/Delassus 算子/NumPy 2 兼容
优化求解 Ceres 2.x / OSQP / HPIPM / CasADi Ceres Manifold API; HPIPM Riccati 加速
因子图/SLAM GTSAM 4.3 / g2o / Ceres GTSAM iSAM2 增量; IMU预积分因子
MPC 框架 ACADOS / Crocoddyl / OCS2 ACADOS RTI+HPIPM 嵌入式; Crocoddyl ProxDDP
仿真器 MuJoCo 3.x / Drake v1.52 / Isaac Lab 2.x MJX GPU 可微仿真; Drake SAP 接触; Isaac Lab 大规模并行
RL 训练 RSL-RL / CleanRL / Stable Baselines3 GPU 并行 4096 环境 PPO ~20min 训练
扩散/VLA Diffusion Policy / pi-0 / pi-0.5 Flow Matching 50Hz 实时控制
符号计算 SymPy / Wolfram / SageMath SymPy 1.13 改进积分; Wolfram MCP 接口

交叉引用地图(数学 → 其他方向)

本数学方向为 Robotics Tutorial 的其他 5 个方向提供数学基础:

数学模块 → 02_C++基础与进阶 → 03_SLAM → 04_移动规控 → 05_运动控制 → 06_具身智能
10_纯数学基础 线性代数/概率 全部基础 ODE/分析 线代/ODE 测度/泛函
20_微分几何与李群 SO(3)/SE(3)/BCH 构型空间 关节空间几何 等变理论
30_优化理论 BA/GN-LM 轨迹优化/NLP DDP/SQP 策略优化
40_控制理论 MPC/Lyapunov/CBF LQR/WBC/MPC CLF-CBF安全层
50_刚体动力学 IMU模型 浮基动力学 RNEA/ABA/解析微分 仿真器内核
60_概率与估计 全栈后端 状态估计
70_RL数学 PPO/SAC理论
80_接触力学 腿足接触MPC 力控/抓取 可微仿真
90_深度学习数学 Transformer/Diffusion/VLA
95_随机分析 MPPI控制 Diffusion Policy

关键交叉引用: - 05_运动控制/20_机械臂/ 的力控章节 ← 40_控制理论/70_Lyapunov + 50_刚体动力学/20_Lagrange - 03_SLAM/ 的后端优化 ← 30_优化理论/50_非线性优化 + 60_概率与估计/50_因子图 - 04_移动规控/ 的 MPC ← 40_控制理论/90~140 + 50_刚体动力学/30_递推算法 - 06_具身智能/ 的 VLA ← 90_深度学习数学/30~50 + 95_随机分析/10_SDE


第一部分:全景总览

1.1 为什么需要这份路线图

机器人学博士生普遍面临一个**结构性的数学断层**:本科工科训练止步于"工程数学四件套"(高数、线代、概率、复变),而现代机器人研究的前沿文献——Barfoot 的流形上状态估计、Chirikjian 的 Lie 群随机分析、Del Moral 的粒子系统测度论、Tedrake 的欠驱动最优控制——需要完整的研究生级分析—代数—拓扑—测度论—泛函的**联合素养**。

断层的严重性在三个方向呈不同形态显现。SLAM 理论派的博士生读不懂粒子滤波一致性证明中的 Radon–Nikodym 与弱收敛论证——这些工具来自 B2 测度论和 B3 泛函分析,工科概率论课程从未涉及。规控派读不懂 HJB 方程的黏性解与 Banach 不动点迭代——黏性解需要泛函分析的弱拓扑语言,Banach 不动点需要完备度量空间的严格理论,两者都不在工科 ODE 课程的覆盖范围内。RL 理论派读不懂 Bellman 算子的压缩性与 Robbins–Monro 随机逼近——压缩映射原理虽然在 B1 实分析中就能讲清楚,但 RL 中它作用的空间是无穷维的 \(\ell^\infty(\mathcal{S})\),需要 B3 泛函分析才能严格化。

三方向的数学需求存在一个不大但不可忽视的**公共交集**。基于对 MIT 6.832、CMU 16-711/16-831/16-833、Stanford CS 237/EE 363、ETH 151-0563/0593 的课程大纲交叉比对,三方向真正共享的工具仅有 SVD + 基础概率 + Banach 不动点**三件套;其余差异相当显著。这也解释了为什么四所顶级学校都没有统一的"机器人博士数学资格考",而是由导师根据方向个案指定。本路线图的价值正在于:为尚未定向、或需要横跨三方向的博士生提供一份**终身可参考的并集式地图,宁可多学也不留断层。


1.2 设计哲学与三条铁律

路线图的设计逻辑是"从地基到屋顶":先加固分析与代数基础(第零批),再沿"几何→优化→控制→动力学→估计→学习→接触→智能"八条主线递进展开。核心结论:优化理论是机器人数学的绝对枢纽——五所高校无一例外将其列为核心必修;其次是线性代数与概率论。

三条设计铁律:

第一,极端严格无断层。 每一个定义、每一个证明步骤的前置知识必须在路线图内部闭合。不允许出现"此处需用某某定理,详见他处"的悬空引用。这意味着第零层的 A1 集合论从一阶逻辑的语法/语义开始铺设,而不是假设读者"应该知道"什么是量词。

第二,三方向并集。 SLAM(感知/状态估计)+ 规控(运动规划与控制)+ 学习(RL/具身智能)的数学需求做并集而非交集,宁可冗余不可遗漏。这直接导致了路线图的"宽而深"特征——A4 抽象代数对纯 RL 方向看似冗余,但对理解 SE(3) 的半直积结构和等变网络的表示论至关重要;B4 ODE 对纯 SLAM 方向看似多余,但 Lyapunov 稳定性是 MPC 和 CLF-CBF 的数学根基,而 Gronwall 不等式是 sim-to-real gap 的定量母定理。

第三,终身参考友好。 采用分层、模块化、定理编号制,使读者在博士第三年读 Del Moral 或 Brezis 时仍能逆向回查地基。第零层总大纲中的 98 条核心定理被逐一编号、标注证明深度(完整/骨架/陈述)和机器人应用关键词,形成一份"每年至少复核一次"的清单。


1.3 四层架构

路线图分为四层,由下至上:

第零层:纯数学地基。 含 8 个任务(A1 集合论、A2 高等线性代数五子任务、A3 点集拓扑、A4 抽象代数、B1 实分析、B2 测度论、B3 泛函分析、B4 常微分方程),约 1200 学时,建立分析、代数、拓扑、测度论、泛函分析、ODE 的统一基础。这一层的目标是让读者在 8–18 个月内把地基打透,使后续所有批次能直接调用 ε-δ 语言、测度积分、流形概念而无需"回头补课"。第零层自然分成两条支柱——Batch A(代数/拓扑支柱)**和 **Batch B(分析支柱)——两条支柱在 B3 泛函分析处汇合。B3 四向硬依赖 A2+A3+B1+B2,是检验第零层是否打透的"综合考"。

第一层:几何分析工具层。 对应第一批的 6 个专题(光滑流形、Retraction、李群/SE(3)、雅可比/BCH、李群概率、等变理论),将第零层的纯数学搬上流形与概率空间。核心价值是把"隐函数定理的局部参数化"全局化为光滑结构,使 SO(3)/SE(3)/机械臂位形空间获得微分与积分的合法语言。Lee《Introduction to Smooth Manifolds》为标准教材,Solà 2018 的 micro Lie theory 论文是机器人视角的最佳桥梁。

第二层:九批机器人数学专题。 第二至第八批把前两层的纯数学与具体机器人工程问题对接。每一批对应一个核心领域:优化(第二批)、最优控制/MPC(第三批)、刚体动力学(第四批)、状态估计/SLAM(第五批)、强化学习(第六批)、接触力学(第七批)、深度学习/具身AI(第八批,规划中)。

第三层:C++ 源码映射层。 贯穿所有批次,把定理和算法落到 GTSAM、Drake、OCS2、Pinocchio、CasADi、MuJoCo 等开源实现。生态关系链:Eigen(线性代数基石)→ Sophus/Manif(李群类型)→ Pinocchio(动力学引擎)→ Crocoddyl(最优控制)→ GTSAM(因子图/iSAM2)→ Drake(一体化平台)。


1.4 九批完整架构速览

本节给出九批的宏观信息。每一批的详细展开见后续各部分。

第零批——数学基础加固(8 任务,950–1620h,98 条核心定理)。全路线图的地基层,补齐本科数学与博士研究之间的鸿沟。Batch A(代数/拓扑支柱)提供"离散—结构—不变量"的代数直觉,Batch B(分析支柱)提供"连续—收敛—逼近"的分析直觉。两条支柱在 B3 泛函分析处汇合——泛函分析同时吸收 A2 的内积与谱、A3 的完备度量与紧性、B1 的一致收敛、B2 的 Lᵖ 与对偶,是第零层真正的终局。推荐教材:Rudin PMA、Axler LADR 4e、Folland Real Analysis、Munkres Topology。C++ 库:Eigen。

第一批——光滑流形与李群理论(6 专题,200–280h)。机器人学的几何语言层。SO(3)、SE(3) 不是向量空间,必须用流形和李群的框架才能正确定义导数、优化和不确定性传播。CMU 16-811 和 Carlone 的 SE-Sync 工作均以此为基石。核心教材:Lee Smooth Manifolds、Solà 2018 论文。C++ 库:Sophus、Manif。依赖:第零批。

第二批——凸优化、非线性优化与自动微分(6 专题,120–160h)。全路线图的方法论枢纽——Tedrake 说"最终一切归结为优化",Carlone 的 certifiable perception 是 SDP,Hutter 的 MPC 是 NLP。优化是机器人数学中使用频率最高的工具。核心教材:Boyd Convex Optimization(免费 PDF)、Nocedal Numerical Optimization。C++ 库:Ceres Solver、CasADi、OSQP、Ipopt。依赖:第零批。

第三批——最优控制与 MPC 完整理论(14 专题,160–220h)。规控理论的核心脊柱——从变分法到 Pontryagin 极大值原理到 HJB 方程,再到现代 DDP/iLQR 和 MPC 实时求解,构建从理论到工程的完整链路。本批与第六批(RL)存在深层概念对偶:离散 DP 的 Bellman 方程(3.3)与 MDP 的 Bellman 方程(6.1)是**同一个方程**的确定性/随机两个版本;LQR(3.5)是 RL 在线性高斯下的**精确特例**(6.4);HJB(3.4)与 TD 学习(6.3)共同继承自 Bellman 方程——前者是连续时间极限,后者是离散采样近似。核心教材:Bertsekas DP and OC、Kirk、Rawlings MPC、Khalil Nonlinear Systems。C++ 库:ACADOS、Crocoddyl。依赖:第零批 + 第二批。

第四批——刚体动力学(7 专题,80–120h)。机器人的"物理引擎"——把 SE(3) 几何语言与 Newton-Euler 力学统一为空间向量代数(6D 表示),推导 RNEA/ABA/CRBA 等 O(N) 递推算法,建立 Euler-Poincaré 方程的李群视角。本批是第一批(李群)在动力学中的**物理实现**:twist/wrench 对偶(A2a 的对偶空间)、惯性张量(A2e 的对称2-张量)、Adjoint 变换(第一批专题3)全部在这里获得物理意义。核心教材:Featherstone RBDA、Murray-Li-Sastry。C++ 库:Pinocchio、Drake。依赖:第零批 + 第一批。

第五批——概率与现代状态估计(9 子专题,200–260h)。SLAM/VIO/导航的数学引擎。从贝叶斯框架出发,经 KF→EKF→UKF→ESKF→InEKF 建立完整滤波族谱系,然后转入因子图/非线性最小二乘/iSAM2/Bayes 树建立优化族,最后以 InEKF 论文精读、Certifiable SLAM(SDP 松弛)、鲁棒估计收尾。本批的一个深层洞察是:Kalman 滤波 = L²(Ω,F,P) 空间中向观测子空间的正交投影——这是 B3 泛函分析的 Riesz 表示定理在概率空间中的直接应用。另一个重要等价是:迭代 EKF ≡ 单时间步 Gauss-Newton——在加性高斯噪声模型下,滤波和优化不是两种方法,而是同一算法的两种表述。核心教材:Barfoot 2e、Thrun Probabilistic Robotics、Dellaert & Kaess。C++ 库:GTSAM、g2o、Ceres。依赖:第零批 + 第一批 + 第二批。

第六批——强化学习数学(6 专题,100–140h)。以控制人的视角重写 RL——Bertsekas(2019) 桥接 DP 与 RL,Meyn(2022) 用确定性探测重构收敛性证明。本批不教调参,只建数学骨架。核心内容:MDP 形式化与 Bellman 算子的压缩性(= B3 Banach 不动点定理在 ℓ∞(S) 空间的应用)、策略梯度定理的严格推导(需 B2 的 DCT 保证积分-微分交换合法性)、TD 学习的收敛性(需 SA-ODE 方法,依赖 B4 的 Lyapunov 稳定性)。核心教材:Bertsekas RL and OC (2019)、Meyn Control Systems and RL (2022, 免费草稿)。C++ 库:libtorch、MuJoCo。依赖:第零批 + 第二批 + 第三批。

第七批——接触力学与混合动力系统(7 专题 + 1 份整合导读,100–140h)。机器人与真实世界交互的数学——地面反力、抓取力、碰撞冲击都涉及不连续动力学,传统光滑方法失效。核心数学是**互补问题** \(0 \le f \perp g \ge 0\)(连接到第二批的 KKT 条件)、摩擦锥的 SOCP 松弛(连接到第二批的锥优化层级)、非光滑 ODE 的时间离散(Moreau-Jean 时步法,连接到 B4 的 Peano 非唯一性理论)、可微接触(用 B1 的隐函数定理绕过不可微性)。本批的工程终点是**接触隐式轨迹优化与 MPC**——把接触的 make/break 时间作为优化变量内生涌现,十年来从 Posa-Tedrake 2014 到 Kim et al. 2025 的 HOUND 四足 CI-MPC 一脉相承。核心教材:Brogliato Nonsmooth Mechanics、Acary & Brogliato。C++ 库:MuJoCo、Drake。依赖:第二批 + 第四批。

第八批——深度学习与具身智能数学(规划中,100–140h)。路线图的"屋顶层"——不教 PyTorch 调参,而是建立神经网络的数学理解:万能逼近定理、PAC 学习与泛化界、Transformer 的注意力机制与位置编码数学、Diffusion Model 的前向/逆向 SDE 与 score matching、VLA 框架的输入输出数学描述。依赖:第零批 + 第二批 + 第六批。


1.5 六条主干连接链

路线图最大的价值不在于"列了多少知识点",而在于**知识点之间的连接网络**。以下六条贯穿多批次的主干链是整个路线图的骨架。理解这些链,意味着理解了机器人数学的**深层统一性**——看似分散的领域其实共享相同的数学结构。

链1:代数-几何链("空间的语言")。 这条链从 A1 的集合论起步,经 A2a 建立向量空间和对偶空间的基本语法,在 A2e 引入张量积和外代数,在 A4 建立群的概念和半直积结构,然后在第一批升级为光滑流形和李群,最终在第四批落地为 SE(3) 上的几何力学。核心统一概念是"对偶性":A2a 中 twist/wrench 的数学原型是向量空间与其对偶空间的配对 \(\langle f, v \rangle\);A2e 中惯性张量是对称协变2-张量 \(I \in \mathrm{Sym}^2(V^*)\);A4 中 SE(3) = ℝ³ ⋊ SO(3) 的半直积结构;第一批中 Adjoint 表示 Ad_g 把 twist 在不同坐标系之间搬运;第四批中 Newton-Euler 方程同框出现了自伴算子(惯量矩阵)、Lie 代数 adjoint(速度乘积项 ad_V)、和对偶映射(wrench 变换 [ad_V]^T)——一个公式里包含三种"伴随"。掌握这条链,意味着读 Featherstone 的空间代数、Solà 的李理论手册、和 Pinocchio 的解析微分论文时能**无缝翻译**不同记号体系。

链2:分析-收敛链("极限的语言")。 从 B1 的压缩映射原理起步,经 B2 的三大收敛定理(MCT/Fatou/DCT)和 Radon-Nikodym 导数,在 B3 升级为 Banach 空间上的算子理论,在 B4 具体化为 ODE 的 Picard-Lindelöf 存在唯一性和 Gronwall 误差传播不等式,最终在第六批成为 Bellman 算子收敛性和 SA-ODE 方法的数学引擎。核心统一概念是"不动点":B1 中的压缩映射原理说"完备度量空间上的压缩映射有唯一不动点";B4 中 Picard 迭代把 ODE 的解重新表述为积分算子 \(T\)\(C([t_0-\delta, t_0+\delta])\)(一个 Banach 空间)上的不动点;第六批中 Bellman 算子 \(T^\pi V = r + \gamma P^\pi V\)\(\ell^\infty(\mathcal{S})\)(另一个 Banach 空间)上是 γ-压缩映射——三次出现,三种身份,同一个定理。理解这条链后,遇到任何"迭代算法是否收敛"的问题,第一反应应该是:"目标空间是否完备?算子是否压缩?"

链3:优化枢纽链("求最优的语言")。 从 A2b 的最小二乘/伪逆起步,在第二批建立完整的 KKT/GN-LM/内点法/AD 工具箱,然后向四个方向辐射:第三批(DDP/iLQR/MPC = 动态系统上的优化)、第五批(BA/因子图/iSAM2 = 图上的最小二乘)、第六批(策略优化/natural gradient = 随机优化)、第七批(接触隐式优化/MPCC = 非光滑优化)。核心统一概念是"KKT 条件"——MPC 的终端约束、SLAM 的边缘化、接触力学的互补条件、RL 的约束策略优化,全部归结为不同形式的 KKT 系统。Tedrake 说"最终一切归结为优化",这条链解释了为什么。

链4:概率-估计链("不确定性的语言")。 从 B2 的测度论/条件期望起步,在第一批专题5 搬上李群(集中高斯、Haar 测度),在第五批 A 系列建立 KF→EKF→ESKF→InEKF 的完整滤波族,在第五批 B-C 转入因子图和 iSAM2 的优化视角,在第五批 D-E 达到 InEKF 收敛性证明和 Certifiable SLAM 的前沿。核心统一概念是"正交投影":Kalman 滤波 = L² 空间的正交投影(B3 的 Riesz 表示定理);信息滤波 = 对偶空间(A2a)中的等价表述;InEKF 的一致性 = 李群对称性(第一批专题6)使误差动力学与状态解耦——Barrau-Bonnabel 2017 的 group-affine + log-linear 定理是这条链的分水岭。

链5:控制-学习统一链("决策的语言")。 这条链揭示了最优控制与强化学习的**深层统一**。第三批 3.3 的离散 DP 和第六批 6.1 的 MDP 共享**同一个 Bellman 方程**,只是一个在确定性世界推导,另一个在随机世界推导。第三批 3.5 的 LQR 和第六批 6.4 的线性高斯 RL 是**同一个问题**的两种解法——Riccati 方程就是 RL 的 Q-function 在二次假设下的闭式。第三批 3.4 的 HJB 方程和第六批 6.3 的 TD 学习共同继承自 Bellman 方程的不同极限形式:HJB 是**连续时间连续状态**的极限(解析解存在性由黏性解理论保证),TD 学习是**离散时间 Bellman 方程的在线采样近似**(收敛性由 SA-ODE 方法保证),两者在 LQR 特例下精确吻合。Bertsekas(2019) 和 Meyn(2022) 的新书代表的不是两个领域的平行叙事,而是同一个 Bellman 方程的两种推导路径。把握这种统一性,是 E 型综合方向的最大竞争优势。

链6:接触-混合链("不连续的语言")。 从 B4 的 Peano 存在定理(仅连续不保证唯一——非光滑动力学的数学根源)和 Poincaré 映射(极限环稳定性)出发,在第七批依次展开互补问题(LCP/NCP)、摩擦锥的 SOCP 松弛、Moreau-Jean 时步法、可微接触仿真、混合动力系统与 Saltation 矩阵、接触隐式轨迹优化,最后以非光滑分析(Clarke 次微分、Mordukhovich 次微分)收尾。核心统一概念是"互补性":接触力学的数学本质是互补条件 \(0 \le \phi_n \perp \lambda_n \ge 0\)(法向间隙与法向力互补);摩擦锥的凸松弛把互补转为 SOCP(连接到链3);可微接触用隐函数定理(B1,连接到链2)绕过不可微性;Saltation 矩阵是链式法则在不连续处的修正。这条链解释了为什么 MuJoCo、Drake、Bullet 在仿真失败模式上有本质差异——差异来自它们对互补问题的不同松弛策略。


1.6 关键交叉节点

以下概念是多条链的交叉点。它们在路线图中反复出现,每次以不同面目登场。学习时应特别注意跟踪它们的"变身史"。

**SVD(A2d)**是链1+链3+链4的交叉。在链1中它给出可操作度椭球的半轴结构(σ_i 是 JJ^T 的特征值平方根)和 Yoshikawa 指标 \(w = \prod \sigma_i\);在链3中它通过 Moore-Penrose 伪逆 \(A^+ = V\Sigma^+U^T\) 统一最小二乘与最小范数解,是 BA 和 SLAM 后端的数值核心;在链4中极分解 \(A = UP\) 从噪声矩阵"投影回" SO(3)(Procrustes 问题 / ICP 内核)。一个公式,六种解读——这是 A2d 的中心洞察。

S-01 编号说明:A2 五个子任务的编号在精炼摘要(A2c=张量,A2d=分解,A2e=李代数)、第零层速查表(A2c=谱/SVD,A2d=Jordan,A2e=张量/外代数)、和实际文件名三套系统之间存在差异。本文档正文统一以 §1.4 精炼摘要的定义为准:A2a=抽象向量空间与线性变换,A2b=内积空间与谱定理,A2c=张量代数与多线性,A2d=SVD/Jordan/Schur/QR/Cholesky 分解,A2e=矩阵李代数与指数映射。引用第零层速查表时以该表自身的列标题为准。

**Banach 不动点定理(B1→B3)**是链2+链5的交叉。在 B4 中它是 Picard-Lindelöf 的证明引擎;在第六批中它是 Bellman 算子收敛性的根本原因。两个应用看起来完全不同(一个是 ODE 解存在,一个是 RL 值函数收敛),但数学结构完全相同:在完备空间上的压缩映射有唯一不动点,而且迭代序列以几何速率收敛。

**KKT 条件(第二批)**是链3+链4+链6的交叉。MPC 的约束优化(第三批)、BA 的边缘化(第五批)、接触力学的 MPCC(第七批)全部归结为不同形式的 KKT 系统。理解 KKT 的几何含义——"梯度等于约束法锥中的线性组合"——是跨越三个领域的通用钥匙。

**Adjoint 表示(第一批)**是链1+链4的交叉。Ad_g: 𝔤→𝔤 在第一批中是抽象的李群概念,在第四批中具体化为 twist 的坐标系变换 \(V_b = [\mathrm{Ad}_{T_{ab}}] V_a\);coadjoint Ad* 则处理 wrench 变换 \(F_b = [\mathrm{Ad}_{T_{ab}}]^{-T} F_a\)。Newton-Euler 方程 \(F_b = \mathcal{G}_b \dot{V}_b - [\mathrm{ad}_{V_b}]^T \mathcal{G}_b V_b\) 同框出现了自伴算子(\(\mathcal{G}_b\) = 空间惯量)、Lie 代数 adjoint(\(\mathrm{ad}_{V_b}\) = Lie bracket)、和对偶映射(\([\mathrm{ad}_{V_b}]^T\) = coadjoint 作用),是区分五种"adjoint"的教学金标准。

**隐函数定理(B1)**是链2+链3+链6的交叉。在第一批中它保证子流形的局部存在(Regular Value Theorem);在第二批专题5中它是隐式微分的数学基础(OptNet、DEQ);在第七批专题4中它让可微接触仿真成为可能——通过互补约束的 KKT 系统反传梯度。

**Radon-Nikodym 导数(B2)**是链4+链5的交叉。在第五批中它是似然比和重要性采样的数学基础——粒子滤波的权重更新 \(w_k^{(i)} \propto p(z_k | x_k^{(i)})\) 就是 Radon-Nikodym 导数的离散近似;在第六批中策略梯度的推导依赖于策略分布 \(\pi_\theta\) 相对参考分布的 Radon-Nikodym 导数。


1.7 档位标准与方向映射

路线图使用五级档位标准,从工程师到博士毕业:

档位1(工程师):能调用库的 API,知道参数含义;遇到数学公式能"读懂大意"但无法推导。自测标准:能用 Ceres/GTSAM 跑通 SLAM demo,但无法解释 Schur 补为什么能加速求解。

档位2(硕士):能推导核心公式(如 EKF 更新步),理解算法假设条件;能阅读综述论文。自测标准:能手推 KF/EKF、LQR 的 Riccati 方程,能读懂 Barfoot 教材主要章节。

档位3(博士入学):能推导核心定理(如 Bellman 最优性、KKT 条件、SE(3) 上的 BCH 公式),能看懂会议论文的证明附录。自测标准:能独立推导 iLQR 算法、理解 Boyd 凸优化全书、读懂 ICRA/RSS 论文的数学部分。本路线图以档位3为基线目标。

档位3.5(Qual 通过):能识别论文中的数学漏洞,能将不同领域的工具交叉运用(如用 Lyapunov 方法分析 MPC 稳定性)。自测标准:能通过 CMU 16-811 水平的考试,能就一个研究问题写出 10 页的数学推导。

档位4(博士毕业+):能证明收敛性定理、建立新的理论框架、理解并改进前沿理论。自测标准:能在顶会发表含有非平凡数学证明的论文,能审稿指出证明错误。路线图中标注为"进阶"的内容对应此档位。

博士方向映射:E 型综合方向要求第零至第六批全部按档位3完成,第七、八批核心层按档位3、进阶层选择性按档位4深入。CMU RI 的 Course Qualifier 制度是 E 型的典范——四个方向(Perception/Cognition/Action/Math)各取一门。对于 SLAM 方向(C型),第一批和第五批是必修核心;对于规控方向(A型),第三批和 B4 ODE 是必修核心;对于 RL 方向(B型),第六批和 B2 测度论是必修核心。三种画像的裁剪依据来自对 Tsitsiklis 1994、Borkar-Meyn 2000、Dellaert 2017、Khalil、Bertsekas 等经典文献引用链的逆向追溯。


1.8 学习时间规划与关键里程碑

总学时估算(档位3):第零批约 1210 学时(中位),第一至第八批合计约 1060–1460 学时。全程约 2270–2670 学时

按**每周 40 小时(全职)计算,全程约 **13–14 个月;按每周 20 小时(半职博士生)计算,全程约 26–28 个月。以下里程碑按**全职 40h/周**设定:

第3个月末:完成第零批。(1210h / 40h/周 ≈ 30 周;此处假设有一定本科基础可跳过部分内容,加速至约 3 个月。)自测:能读懂 Rudin 前7章所有证明、能用 ε-δ 写极限证明、能独立推导 Rodrigues 公式、能用 Banach 不动点证明 Picard 迭代收敛。这是最关键的里程碑——没有第零层的地基,后续所有建筑都会倒塌。

第6个月末:完成第一、二批。 自测:能推导 SE(3) 的 exp/log 及左雅可比、能独立求解 Boyd 凸优化书中的习题、能解释 retraction 与 exp 映射的区别和联系。

第10个月末:完成第三至五批。 自测:能推导 iLQR 的 Bellman 递推公式、能理解 iSAM2 的 Bayes 树结构、能读懂 Barfoot 教材全书。

第14个月末:完成全部九批。 自测:能读懂 Bertsekas RL 全书的数学推导、能用 SA-ODE 方法分析 TD 学习的收敛性、能解释接触隐式优化中互补约束的 KKT 结构。

注意:若按 20h/周半职推进,上述里程碑月数应大致翻倍(第零批约 6–7 个月,全程约 26–28 个月)。第零层总大纲 §3.2 中"10 个月"的并行方案对应双车道合计 40h/周全日制。


1.9 八条常见错误路径

1. "先学完所有数学再碰代码"陷阱。 中国知乎和 Reddit 社区反复强调"补数学的过程中一定要编程"。正确做法是每学一个理论模块,立即在对应 C++ 库中实现——A2 学完 SVD 就用 Eigen 实现 ICP、B4 学完 Picard 就用 Euler 法写仿真器、第一批学完 exp/log 就用 Sophus 实现位姿复合。理论和代码交替推进才能形成牢固的双编码记忆。

2. 在纯数学深度上过度投入。 李泽湘教授的经验被多次引用:"机器人学虽然用到高级数学,但用得不会太深。"对于 E 型方向,档位3的广度比档位4的深度更重要——除非你的博士课题明确需要证明某个收敛定理(如 InEKF 的全局收敛性)。

3. 跳过第零批直接学李群。 没有 ε-δ 语言和群的抽象概念,学李群就是在"背公式"而非"理解结构"。Solà 的 micro Lie theory 论文虽好,但它假设读者有基本的代数和分析素养——切空间需要导子定义(A2a)、exp 映射需要矩阵指数(A2d)、Haar 测度需要测度论(B2)。

4. 只学 Boyd 凸优化而忽略 Nocedal 非线性优化。 机器人中的大多数实际问题(轨迹优化、SLAM 后端、MPC)是**非凸**的。凸优化提供理论框架和下界,但你每天调用的 Gauss-Newton、LM、SQP 都在 Nocedal 书里。两本书缺一不可。

5. 用 Sutton & Barto 作为唯一 RL 教材。 该书偏 AI/表格方法视角,缺乏连续控制和收敛性证明的严格处理。对控制背景的学生,Bertsekas(2019) 和 Meyn(2022) 是更自然的入口——它们从 Bellman 方程出发统一 DP 和 RL,能直接看到 LQR 作为 RL 特例的等价性。

6. 忽视概率论的严格化。 工科概率论课程通常跳过测度论,但博士阶段遇到条件期望的严格定义、鞅收敛定理、Radon-Nikodym 导数时会完全卡住。对 RL 方向,B2 测度论是策略梯度推导(积分-微分交换由 DCT 保证)和值函数收敛性证明(弱收敛/Portmanteau)的不可跳过前置。

7. 各批独立学习而不做交叉映射。 路线图的价值在于"看到联系"——LQR 是 RL 的特例、SLAM 后端是非线性最小二乘、MPC 的稳定性需要 Lyapunov 理论、Diffusion Model 是 SDE。每学完一批,花2小时画出它与其他批次的概念映射图——这 2 小时的投资回报率远超多学一章新内容。

8. 忽略数值实现的陷阱。 Gram-Schmidt 的经典版本(CGS)在浮点运算下数值不稳定,工程中必须用修正版(MGS)或 Householder——这个教训只有亲自实现才能领会。四元数在长时间积分后会漂离单位球面需要定期归一化、Euler 角在 θ=±90° 时有万向锁——这些都是"数学正确但工程灾难"的典型案例。


第二部分:第零层 — 数学地基(8 个任务 · 98 条核心定理)

2.0 第零层总论

第零层是全路线图的**纯数学地基**,含 8 个任务,约 950–1620 学时(中位 ≈ 1210),目标是让读者用 8–18 个月把地基打透,使后续所有批次能直接调用 ε-δ 语言、测度积分、流形概念而无需"回头补课"。

双支柱结构

第零层自然分成两条支柱——代数侧提供"离散—结构—不变量"的直觉,分析侧提供"连续—收敛—逼近"的直觉:

Batch A(代数/拓扑支柱) Batch B(分析支柱)
任务 A1 集合论 → A2 线代 → A3 拓扑 → A4 抽代 B1 实分析 → B2 测度 → B3 泛函 → B4 ODE
直觉类型 离散、结构、不变量 连续、收敛、逼近
汇合点 B3 泛函分析(四向硬依赖,第零层终局)

全景依赖图

                        A1 集合论/逻辑
                       / |   |   \
                      v  v   v    v
                     A2a A3' A4 抽代 ──────────────────┐
                    /|\  |                              │ (仅谱/张量轻耦合)
                   / | \ |                              │
                  v  v  v|                              │
                A2b A2c A2d ──► B1 实分析               │
                  \  |  /         |    \                │
                   \ | /          v     v               │
                    vvv         A3 完整点集拓扑         │
                    A2e           |     \               │
                     ^            v      v              │
                     |           B2 测度论   B4 ODE     │
                     |            \       /             │
                     |             v     v              │
                     └──────────► B3 泛函分析 ◄─────────┘

B3 四向硬依赖 A2(b,d) + A3 + B1 + B2,是检验第零层是否打透的"综合考"。B4 独立性最高,可与 B2 并行。A4 与分析线近乎解耦,是理想的"并行车道填充任务"。

速查总表

任务 节数 学时(中位) 核心定理 主教材 关键连接
A1 集合论 12 50 7 Halmos + Enderton → 全部后续(逻辑地基)
A2a 向量空间/对偶 25 55 4 Axler ch.1–5 → twist/wrench 对偶
A2b 内积/伴随 17 45 4 Axler ch.6–7 → Kalman 正交投影
A2c 谱/SVD/极分解 15 35 4 Horn-Johnson → ICP/BA/可操作度
A2d Jordan/极小多项式 17 55 3 Hoffman-Kunze → Rodrigues 闭式
A2e 张量/外代数 20 50 3 Greub → 微分形式/惯性张量
A3 点集拓扑 19 120 9 Munkres → 流形定义/弱拓扑
A4 抽象代数 15 180 11 Dummit-Foote → SE(3) 半直积
B1 实分析 17 140 12 Rudin PMA → IFT/压缩映射
B2 测度论 17 200 14 Folland → DCT/Radon-Nikodym
B3 泛函分析 16 180 14 Conway/Brezis → Banach 不动点
B4 ODE 16 100 13 Hirsch-Smale → Picard/Lyapunov
合计 ≈1210 98

2.1 A1 集合论与数理逻辑

为整个数学语言提供 ZFC 公理骨架与一阶逻辑符号系统。没有这一层,"对所有 ε>0 存在 δ>0"这种语句的精确含义都无法陈述。

字段 内容
学时 30–80h
前置 无(整个大纲起点)
教材 Halmos Naive Set Theory(速通)+ Enderton Elements of Set Theory(严格)
核心定理 (7) Zorn 引理 · 良序定理 · Cantor 对角线 · Cantor-Schröder-Bernstein · 超穷归纳 · Gödel 完备性(述) · 实数唯一性

模块路径:历史动机(Russell 悖论) → 一阶逻辑(语法/语义/Tarski) → ZFC 十公理 → 基本构造 → 关系/函数 → 自然数(Peano) → 序数 → 基数(\(\aleph_0\), \(\mathfrak{c}\)) → 选择公理(Zorn/良序等价链) → 构造 \(\mathbb{Z}, \mathbb{Q}, \mathbb{R}, \mathbb{C}\) → 累积层级 \(V_\alpha\) → 类/NBG

Zorn 引理是 Hahn-Banach 证明的引擎(→ B3),也保证向量空间基的存在性(→ A2a)和极大理想的存在性(→ A4)。这一条定理串起了代数和分析两条支柱。


2.2 A2 高等线性代数(五子任务)

把本科线代升级为**算子—谱—分解—Lie 代数**的研究生水准。机器人几乎所有方向的共通工具。

A2a 向量空间、线性变换与对偶空间

字段 内容
学时 40–70h · 25 节
核心定理 (4) 秩-零度定理 · \(\dim V^* = \dim V\) · 双对偶自然同构 \(V \cong V^{**}\) · 转置—零化子对偶

以坐标无关方式重建线性代数的语法。四幕结构:公理基础 → 维数理论(Steinitz 替换/基/Zorn) → 线性变换(秩-零度/同构定理) → 对偶理论\(V^*\)、对偶基、零化子、自然性——这是整个子任务的制高点)。

对偶是机器人力学的数学原型:twist \(\in \mathfrak{se}(3)\) vs wrench \(\in \mathfrak{se}(3)^*\) 的物理对偶就是 \(V\) vs \(V^*\);Jacobian 转置 \(\tau = J^T\mathcal{F}\) 是**纯对偶映射**(不需内积,来自虚功原理);协方差 \(\Sigma \in V \otimes V\) vs 信息矩阵 \(\Lambda \in V^* \otimes V^*\)——SLAM 中两种等价表述的代数根源在这里。

A2b 内积空间与伴随算子

字段 内容
学时 30–60h · 17 节
核心定理 (4) Cauchy-Schwarz · Riesz 表示 · 伴随存在唯一 · 正交投影定理

在 A2a 之上赋予内积 \(\langle\cdot,\cdot\rangle\),获得范数、正交、正交补 \(W \oplus W^\perp = V\)、Gram-Schmidt、伴随算子 \(T^*\)

**"伴随"五重歧义**是机器人文献的经典陷阱:

名称 符号 需要内积? 机器人语境
对偶映射/转置 \(T^t\) 静力学 \(\tau = J^TF\)
Hermitian 伴随 \(T^*\) 自伴算子(惯量、协方差)
经典 adjugate \(\mathrm{adj}(A)\) 已弃用
Lie 群 Adjoint \(\mathrm{Ad}_g\) SE(3) 换 twist 帧
Lie 代数 adjoint \(\mathrm{ad}_X\) \([X,Y]\),Newton-Euler 速度项

Newton-Euler 方程 \(F_b = \mathcal{G}_b\dot{V}_b - [\mathrm{ad}_{V_b}]^T\mathcal{G}_bV_b\) 同框出现后三种

A2c 谱定理、SVD 与极分解

字段 内容
学时 25–50h · 15 节
核心定理 (4) 复正规谱定理 · 实对称谱定理 · SVD 存在唯一 · 极分解 \(A=UP\)

SVD 是机器人日常计算的核心——一个公式六种解读:

\[A = U\Sigma V^T \quad\Longrightarrow\quad \text{旋转} \times \text{拉伸} \times \text{旋转}\]
解读 公式 应用场景
伪逆 \(A^+ = V\Sigma^+U^T\) 最小二乘 IK、BA
可操作度椭球 \(\sigma_i(J)\) 是椭球半轴 奇异性判据 \(\sigma_{\min}=0\)
Procrustes 对齐 \(R^* = U\mathrm{diag}(1,1,\det(UV^T))V^T\) ICP 点云配准
极分解 \(A = UP,\ P=\sqrt{A^TA}\) 从噪声矩阵投影回 SO(3)
条件数 \(\kappa = \sigma_{\max}/\sigma_{\min}\) BA 数值稳定性
低秩逼近 \(A_k = U_k\Sigma_kV_k^T\) PCA 降维

A2d 极小多项式、Cayley-Hamilton 与 Jordan 标准形

字段 内容
学时 40–70h · 17 节
核心定理 (3) Cayley-Hamilton \(p_A(A)=0\) · 极小多项式整除特征多项式 · Jordan 存在唯一

Rodrigues 公式为什么是三项? 因为 \([\hat\omega]_\times\) 的极小多项式是 \(m(x) = x^3 + \|\omega\|^2 x\),Cayley-Hamilton 保证 \([\hat\omega]_\times^3 = -\|\omega\|^2[\hat\omega]_\times\),截断了 exp 的无穷级数为三项闭式——一个公式贯穿 A2d(Cayley-Hamilton)+ A2e(Hodge 对偶 \(\mathfrak{so}(3)\cong\Lambda^2\mathbb{R}^3\))+ 第一批专题3(Rodrigues)

A2e 多线性代数、张量积与外代数

字段 内容
学时 45–70h · 20+8 节
核心定理 (3) 张量积泛性质 · 行列式即 \(\Lambda^n\) · Hodge 星同构

补齐行列式的坐标无关定义 \(\det T = \Lambda^n T\),为第一批微分形式铺设纯代数脚手架。

惯性张量 \(I_{ij} = \int\rho(r^2\delta_{ij}-r_ir_j)dV\) 是对称2-张量(→ 第四批);Plücker 线坐标是 \(\Lambda^2\mathbb{R}^4\) 中的单纯 2-向量;\(\mathfrak{so}(3) \cong \Lambda^2\mathbb{R}^3\) 解释了角速度"伪向量"实为 2-形式的 Hodge 对偶。


2.3 A3 点集拓扑

为分析与微分几何提供紧性、连通性、商拓扑的统一语言。流形的定义需要拓扑——Hausdorff + 二可数 + 局部欧氏 + 光滑图册。没有拓扑学,"连续映射""紧致性""连通性"这些概念都只是直觉而非严格工具。

字段 内容
学时 90–160h · 19 节 · 62 子节
前置 A1(集合/Zorn/选择公理);A2a/A2b(赋范空间诱导度量)
教材 Munkres Topology Part I(主教材);Lee Topological Manifolds(流形导向)
核心定理 (9) Heine-Borel · Tychonoff · Urysohn 引理 · Tietze 扩张 · Baire 纲 · Stone-Weierstrass · 连续保紧保连通 · Nagata-Smirnov 度量化 · 单位分解

核心模块路径

阶段 模块 核心内容 学时
基础 拓扑空间公理 开集族公理、连续性定义、同胚 8h
基础 基与子基 从基生成拓扑、二可数性 4h
构造 子空间/积/商拓扑 子空间继承拓扑、Tychonoff 积拓扑商拓扑的泛性质 15h
分离 分离公理 T0–T4 Hausdorff(T2)、正则(T3)、正规(T4) 8h
紧性 紧性与紧致化 Heine-Borel、管引理、序列紧、Stone-Čech 紧化 15h
连通 连通性 连通/道路连通、连通分支、局部连通 8h
可数 可数性公理 第一/第二可数、可分、Lindelöf 5h
延拓 Urysohn/Tietze Urysohn 引理(正规⟹完全正则)、Tietze 扩张 10h
高级 仿紧/单位分解 仿紧性、单位分解的存在性(流形上积分的合法性基础) 8h
收敛 网与滤子 Moore-Smith 收敛、超滤、广义收敛(Tychonoff 的滤子证明) 8h

教材对比

教材 难度 风格 最佳角色
Munkres Topology 2e ★★★ 直觉+严格,教学叙事最优 主教材(本大纲骨架来源)
Lee Topological Manifolds 2e ★★★ 流形导向,Ch.2–4 提供面向 Layer-1 的视角 流形衔接用
Willard General Topology ★★★★ 分离/可度量章节最完整 度量化参考
Kelley General Topology ★★★★ 网/滤子权威 广义收敛参考
Engelking General Topology ★★★★★ 百科式 反例查询手册

连接网络

方向 目标 具体连接
→ 下游 B2 测度论 Borel σ-代数 \(\mathcal{B}(X) := \sigma(\text{开集族})\) 需要拓扑定义开集
→ 下游 B3 泛函分析 弱拓扑 \(\sigma(X,X^*)\)、弱*拓扑需拓扑基础;Banach-Alaoglu 是 Tychonoff 的直接推论
→ 下游 第一批 流形 流形 = Hausdorff + 二可数 + 局部欧氏;商拓扑 → SO(3) = \(S^3/\{\pm1\}\)
→ 下游 第四批 动力学 构型空间 C-space 的紧性保证规划算法终止性
≡ 统一 B3 三大支柱 **Baire 纲定理**同时服务于开映射、Banach-Steinhaus、闭图像三大定理
≡ 统一 第一批专题1 **单位分解**是流形上积分合法性的前提——没有它微分形式的全局积分无法定义

常见陷阱

混淆积拓扑与箱拓扑——Tychonoff 乘积对无穷族用的是积拓扑(只有限多分量非全空间),不是箱拓扑。跳过 Baire 纲——看似抽象,但它是 B3 泛函分析三大支柱的共同基石,不学 Baire 就无法理解 Banach-Steinhaus 为什么成立。不做商空间习题——商拓扑的"看起来简单实则微妙"在 SO(3)、RP^n 的例子中表现最明显,必须亲手验证。


2.4 A4 抽象代数

群/环/域/模的统一结构学,为李群代数与对称性设计提供代数骨架。与分析线近乎解耦——是理想的并行学习任务。

字段 内容
学时 140–240h · 15 章 · 60+ 小节
前置 A1(Zorn/等价关系);A2(向量空间/张量积)
教材 Dummit-Foote(全参考)· Artin(从矩阵群切入,机器人最友好
核心定理 (11) 群同态基本定理 · Lagrange · Sylow I/II/III · 轨道-稳定子 · Jordan-Holder · f.g. Abel 群结构 · PID 上 f.g. 模结构定理 · 中国剩余定理 · 域扩张度公式 \([L:F]=[L:K][K:F]\) · Galois 基本定理(述) · 半直积 SE(n)=ℝⁿ⋊SO(n)

注(跨文档对齐):本清单现与第零层总大纲编号表 #35-#45 一致。"三大同构定理"归入群同态基本定理;ED->PID->UFD 链与 Yoneda 引理保留于学习路径中作为教学内容,但不独立计入 98 条核心定理编号。

三阶段学习路径

阶段 周数 核心内容 机器人连接
群论 ~6.5 群/子群/正规子群 → Lagrange → 同构定理 → 群作用/轨道-稳定子 → Sylow → 直积/半直积 → Abel 群分类 SE(3) = ℝ³⋊SO(3) 的半直积;等变理论的群作用基础
环与模 ~5 环/理想 → PID/UFD/ED 链 → PID 上 f.g. 模结构定理 反向耦合到 A2d 的 Jordan/有理标准型
域/Galois/范畴 ~3.5 域扩张 → Galois 基本定理(述) → 范畴论最小词汇(函子/自然变换/Yoneda) 范畴语言为"泛性质"提供框架——张量积、自由群等构造的统一表述

机器人核心公式

SE(3) 半直积乘法——这是 A4 给机器人学最直接的贡献:

\[(R_1, t_1) \cdot (R_2, t_2) = (R_1 R_2,\; R_1 t_2 + t_1)\]

其中 \(R_1 t_2\) 项正是"半直积"的体现。如果错误地当成直积 SO(3) × ℝ³ 处理(分别复合旋转与平移),结果会出错——旋转**耦合**进平移。

轨道-稳定子定理\(|G| = |\mathrm{Orb}(x)| \cdot |G_x|\))的连续版本解释了齐性空间的维度:\(\dim(G/H) = \dim G - \dim H\)。在第一批专题6中,\(\mathbb{R}^3 \cong \mathrm{SE}(3)/\mathrm{SO}(3)\) 就是这个定理的具体实例。

教材选择建议

方向 推荐教材 理由
SLAM/机器人 Artin Algebra 2e 从矩阵群切入,Ch.9 线性群与 SO(n)/SU(n) 直接相关
RL/控制 Dummit-Foote Ch.1–6 群论核心足够,可跳过 Galois
全面研究 Dummit-Foote 全书 + Lang Algebra 参考 百科全书式覆盖
范畴论视角 Aluffi Algebra: Chapter 0 从范畴论出发,现代视角

连接网络

方向 目标 具体连接
→ 下游 第一批专题3 矩阵群(GL/SO/SE)的代数验证;半直积→SE(3)结构
→ 下游 第一批专题6 群作用/轨道-稳定子定理→等变理论基础
← 反向耦合 A2d PID 上 f.g. 模结构定理给出 Jordan/有理标准型的代数证明路径
≡ 解耦 B1–B4 与分析线几乎完全解耦——仅在 B3 谱理论、A2c 张量积处轻耦合

学习建议:A4 是所有任务中与分析线解耦度最高的。若时间紧张,可压缩至**核心**(群作用/Sylow/PID/半直积/范畴最小词汇)即止——约 100h 而非 180h。对纯 RL 方向的学生,A4 甚至可推迟到需要理解等变网络时再学。


2.5 B1 实分析

ε-δ 语言下的序列/级数/一致收敛/多元微积分的严格化。B1 建立的不是"更难的微积分",而是一种**完全不同的思维方式**——从"计算答案"转向"证明存在性与唯一性"。压缩映射原理和隐函数定理是本任务对后续影响最深远的两个定理。

字段 内容
学时 120–180h · 17 节
前置 A1(ℝ 的 Dedekind 构造);A2a(向量空间);A3 可并行
教材 Rudin PMA(铁血)· Abbott Understanding Analysis(温和)· Tao Analysis I/II(自学首选)
核心定理 (12) Bolzano-Weierstrass · Heine-Borel · 一致收敛⇒交换极限与积分 · Weierstrass M-判别 · Weierstrass 多项式逼近 · Arzelà-Ascoli · 多元链式法则/Taylor · 反函数定理 · 隐函数定理 · Lagrange 乘数 · 中间值定理 · 单调收敛准则

核心模块路径

阶段 模块 核心内容 学时
基础 ℝ 的完备性 上确界公理、Dedekind 切割回顾、Cauchy 完备性等价 8h
基础 序列与级数 Bolzano-Weierstrass、Cauchy 判据、幂级数收敛半径 12h
连续 度量空间连续性 开集/闭集定义连续、紧集上连续达极值、一致连续 10h
微分 单变量微分 均值定理、L'Hôpital、Taylor 展开与余项 8h
积分 Riemann-Stieltjes 上/下积分、可积判据、与 Lebesgue 积分的对比预告 10h
关键 函数序列 **一致收敛**保连续/积分/微分、Weierstrass M-判别 12h
关键 等度连续 Arzelà-Ascoli 定理——最优控制解存在性的核心工具 8h
关键 压缩映射 Banach 不动点定理——Picard/Bellman/GN 的共同引擎 6h
多元 多变量微分 总导数 \(Df(a)\)、链式法则、二阶导数与 Hessian 10h
关键 反/隐函数定理 完整证明(压缩映射 → 反函数 → 隐函数),约束流形参数化 15h
应用 Taylor/凸性 高阶 Taylor、临界点分类、Jensen 不等式 8h
衔接 函数空间 \(C(X)\) 赋范空间预备、为 B3 泛函分析铺路 5h

标志性公式

压缩映射原理:设 \((X, d)\) 是完备度量空间,\(T: X \to X\) 满足 \(d(Tx, Ty) \le \gamma\,d(x, y)\)\(0 \le \gamma < 1\),则 \(T\) 有唯一不动点 \(x^* = \lim_{n\to\infty} T^n(x_0)\),收敛速率 \(d(x_n, x^*) \le \frac{\gamma^n}{1-\gamma}d(x_0, Tx_0)\)

链2的起点——同一个定理在三个批次中以三种身份出现:

出现位置 空间 算子 身份
B4 ODE \(C([t_0-\delta, t_0+\delta], \mathbb{R}^n)\) Picard 算子 \(Tx = x_0 + \int f(s,x(s))ds\) ODE 解的存在唯一性
第六批 RL \(\ell^\infty(\mathcal{S})\) Bellman 算子 \(T^\pi V = r + \gamma P^\pi V\) 值函数的收敛性
第五批 SLAM ℝ^n Gauss-Newton 迭代 局部收敛性(弱化版)

反函数定理(多元版):设 \(f: \mathbb{R}^n \to \mathbb{R}^n\)\(a\)\(C^1\),若 \(Df(a)\) 可逆,则 \(f\)\(a\) 的某邻域内是 \(C^1\) 微分同胚。

隐函数定理是链2+链3+链6的交叉节点

批次 应用 具体公式/概念
第一批 子流形定义 Regular Value Theorem:\(F^{-1}(c)\) 在正则值 \(c\) 处是子流形
第二批 隐式微分 \(\frac{dz^*}{d\theta} = -(\partial_z F)^{-1}\partial_\theta F\)(OptNet、DEQ)
第七批 可微接触 通过 KKT 系统的互补约束反传梯度

教材对比

教材 难度 风格 最佳角色
Rudin PMA ★★★★★ 极简优雅铁血,习题极难 证明训练的**金标准**(但不适合完全零基础入门)
Abbott Understanding Analysis ★★★ 注重"为什么",每章以讨论题引入 分析学**入门首选**——先读 Abbott 再读 Rudin
Tao Analysis I/II ★★★★ 从 Peano 公理重建,逻辑极其完整 自学最佳——Tao 的博客风格讲解比任何教授都清晰
Pugh Real Mathematical Analysis ★★★★ Rudin 的友好替身,习题优秀 Abbott 和 Rudin 之间的**折中选择**

常见陷阱

一致收敛 vs 逐点收敛——\(f_n \to f\) 逐点但不一致时,极限函数可能不连续、不可积、不可微。这不是抽象陷阱:数值优化中函数序列的收敛模式直接影响算法的理论保证。反函数定理的证明不要跳过——这是本任务最重要的一个完整证明链条(压缩映射 → 反函数 → 隐函数),口试中最常被考到。不要以为"学过高数就等于学过分析"——高数教的是"怎么算",分析教的是"为什么能算",两者的思维方式完全不同。


2.6 B2 测度论与 Lebesgue 积分

Lebesgue 积分、概率测度、\(L^p\) 空间的完整严格化。机器人学的数学语言到 2020 年代已经几乎完全被测度论重写——SLAM 后验 \(\pi_t(A) = P(X_{0:t} \in A \mid Z_{1:t})\) 是 SE(3)\(^{t+1}\) 上的概率测度;Kalman 滤波是 \(L^2(\Omega, \mathcal{F}, P)\) 上的正交投影;粒子滤波的经验测度 \(\mu_t^N = \frac{1}{N}\sum_i \delta_{x_t^{(i)}}\) 弱收敛到 \(\pi_t\)。没有测度论,这些语句连写都写不出来。

字段 内容
学时 160–260h · 17 节 · 8–12 周
前置 A3(Borel σ-代数/紧致性);B1(序列极限/连续性)
教材 Folland Real Analysis 2e(标准)· Tao Intro to Measure Theory(自学)· Cohn 2e(概率过渡)
核心定理 (14) Carathéodory 扩张 · π-λ 定理 · MCT · Fatou · DCT · Fubini-Tonelli · Radon-Nikodym · Lebesgue 分解 · \(L^p\) 完备性(Riesz-Fischer) · Jensen · Hölder/Minkowski · 弱收敛/Portmanteau

核心模块路径

阶段 模块 核心内容 学时
动机 Riemann→Lebesgue Dirichlet 函数不可 Riemann 积分但 Lebesgue 积分=0;极限交换失败的反例 5h
基础 σ-代数与可测空间 σ-代数公理、生成 σ-代数、Borel σ-代数 \(\mathcal{B}(X)=\sigma(\text{开集})\)π-λ 定理 12h
构造 测度定义与性质 可数可加性、由下/上连续性、Borel-Cantelli 引理、测度完备化 10h
构造 Carathéodory 扩张 外测度 → Carathéodory 可测集 → 从预测度扩张到 σ-代数上的测度 15h
构造 Lebesgue 测度 ℝ^n 上的 Lebesgue 测度构造、Vitali 不可测集(选择公理) 8h
积分 可测函数与积分 简单函数逼近、Lebesgue 积分三步走(简单→非负→一般) 15h
关键 三大收敛定理 MCT(单调收敛)→ Fatou 引理DCT(控制收敛)——三者的逻辑链 15h
关键 乘积测度 Fubini-Tonelli——何时可以交换积分顺序 10h
关键 \(L^p\) 空间 Hölder/Minkowski 不等式、Riesz-Fischer\(L^p\) 完备性) 12h
关键 Radon-Nikodym 绝对连续 \(\mu \ll \nu\) ⟹ 密度 \(d\mu/d\nu\) 存在、条件期望的严格定义 15h
高级 符号测度与分解 Jordan 分解、Lebesgue 分解、Hahn 分解 8h
高级 弱收敛 Portmanteau 定理——粒子滤波一致性证明的核心工具 8h

三个核心定理的机器人身份

定理 数学陈述 机器人应用
DCT \(f_n \to f\) 逐点 + \(\|f_n\| \le g \in L^1\)\(\int f_n \to \int f\) 贝叶斯推断积分-微分交换;策略梯度 \(\nabla_\theta \mathbb{E}[R] = \mathbb{E}[\nabla_\theta \log\pi \cdot R]\) 的合法性
Radon-Nikodym \(\mu \ll \nu\)\(\exists f = d\mu/d\nu\) 似然比 \(p(z\|x)\)、重要性采样权重、KL 散度 \(D_{KL}(p\|q) = \int \log(dp/dq)\,dp\)
Riesz-Fischer \(L^p\)\(\|\cdot\|_p\) 下完备 Kalman 滤波的 \(L^2(\Omega)\) 正交投影需要完备性(否则最近点可能不存在)

机器人学中的测度论语境

概念 数学定义 机器人实例
σ-代数 \(\mathcal{F}_t\) \(\sigma(z_{1:t}, u_{1:t})\) 信息过滤——"t 时刻已知信息"的精确编码
条件期望 \(\mathbb{E}[X\|\mathcal{F}_t]\) Radon-Nikodym 导数 滤波 $\hat{x}_{t
弱收敛 \(\mu_n \Rightarrow \mu\) \(\int f\,d\mu_n \to \int f\,d\mu\) 对所有有界连续 \(f\) 粒子滤波经验测度**一致性**的数学表述
Haar 测度 李群上的左不变测度 SE(3) 上的"均匀分布"——第一批专题5的前置

教材对比

教材 难度 优势 最佳角色
Folland Real Analysis 2e ★★★★ 测度+泛函+Fourier 一体,研究生标准 主教材(但密度高,需配合 Tao)
Tao Intro to Measure Theory ★★★ 练习为主,博客改编,动机讲解极佳 自学入门——先读 Tao 建直觉再用 Folland
Cohn Measure Theory 2e ★★★★ Markov 核、条件期望讲得最好 概率论过渡——从测度到概率的最佳桥梁
Rudin Real and Complex Analysis ★★★★★ Riesz 表示路线独特优雅 参考——第二遍阅读用

常见陷阱

混淆 σ-代数与代数——σ-代数要求**可数**并封闭(不是有限并),这正是让"极限事件"可测的关键。忽略 DCT 的条件——逐点收敛本身**不保证**积分极限交换(Riemann 框架下就有反例),必须有控制函数 \(g \in L^1\)认为"密度函数 \(p(x)\)"是基本概念——密度只是概率测度相对 Lebesgue 测度的 Radon-Nikodym 导数,在 SO(3) 这种非欧流形上没有 Lebesgue 测度,"密度"连定义都谈不上——必须用 Haar 测度替代。


2.7 B3 泛函分析

把有限维线代推广到无穷维——第零层的汇聚终局,四向硬依赖 A2 + A3 + B1 + B2。学完 B3 后你会看到:Kalman 滤波、PCA、Fourier 展开这些看似独立的工具全是**Hilbert 空间几何**的不同侧面。

字段 内容
学时 150–240h · 16 节
前置 四向硬依赖:A2(b,d) 内积与谱 + A3 完备度量与紧性 + B1 一致收敛 + B2 \(L^p\) 与对偶
教材 Conway A Course in FA(标准)· Brezis FA, Sobolev and PDEs(应用友好,习题含答案)
核心定理 (14) Hahn-Banach(解析+几何) · Baire 纲(Banach 版) · Banach-Steinhaus · 开映射 · 闭图像 · Riesz 表示(Hilbert) · Riesz-Markov · Banach-Alaoglu · Eberlein-Smulian · 紧算子谱定理 · Fredholm 替代 · 投影定理 · 谱定理(自伴无界) · Lax-Milgram

四大板块

板块 核心内容 对机器人的意义
三大支柱 Hahn-Banach(分离/延拓)、开映射/闭图像、Banach-Steinhaus(一致有界) 凸分离→对偶 LP;可控性对偶;算子族稳定性
Hilbert 空间几何 正交投影、Riesz 表示、紧自伴谱定理 Kalman 滤波 = \(L^2(\Omega)\) 投影;PCA = 协方差算子谱分解
弱拓扑 弱/弱*收敛、Banach-Alaoglu 最优控制轨迹解的**存在性**(弱*紧性)
Sobolev/不动点 Lax-Milgram、Schauder 不动点 PDE 弱解(柔性机器人);Nash 均衡存在性

有限维直觉在无穷维的三大崩塌

有限维 无穷维 后果
闭有界集 = 紧集 闭有界集 紧集(Riesz 引理) 序列紧性需额外条件(Arzelà-Ascoli、弱紧性)
线性映射自动连续 线性映射**不一定**连续 需"有界"假设;存在**处处不连续的线性泛函**(注:此类泛函的存在性依赖选择公理,通过 Hamel 基构造,不可构造性地存在)
\(V \cong V^{**}\) 自然同构 \(X^{**} \neq X\) 一般成立 自反性成为独立性质;\(\ell^1, L^1\) 不自反

关键定理的机器人身份

定理 数学内容 机器人身份
投影定理 Hilbert 空间中闭凸集存在唯一最近点 Kalman 增益 \(K = PH^T(HPH^T+R)^{-1}\) 的**最优性保证**
Riesz 表示 Hilbert 空间上有界线性泛函 ↔ 内积表示 观测算子 \(H\) 与对偶空间的对应
Banach-Alaoglu 对偶空间闭单位球弱*紧 最优控制问题解的**存在性**——控制输入序列有弱*收敛子列
Banach 不动点 完备空间上压缩映射有唯一不动点 Bellman 算子 \(T^\pi\)\(\ell^\infty(\mathcal{S})\)\(\gamma\)-压缩 → 值函数**唯一存在**

连接网络

方向 目标 具体连接
→ 下游 第三批3.4 值函数住在无穷维函数空间;HJB 的黏性解需弱拓扑
→ 下游 第五批A1 Kalman 滤波 = \(L^2(\Omega, \mathcal{F}, P)\) 中向观测子空间的正交投影
→ 下游 第六批6.1 Bellman 算子收缩 = Banach 不动点在 \(\ell^\infty\) 上的应用
→ 下游 第六批6.5 SA-ODE 方法的收敛分析需 Banach 空间框架
→ 下游 第八批 万能逼近定理(UAT):单隐层网络在 \(C(K)\) 中稠密,证明工具为 Hahn-Banach(Cybenko 1989)或类 Stone-Weierstrass 思路(Hornik 1989),是独立定理而非 S-W 直接推论
≡ 汇聚 第零层全部 同时吸收 A2 的内积与谱、A3 的完备度量与紧性、B1 的一致收敛、B2 的 \(L^p\)

学习建议:B3 是第零层中最难的任务,不要尝试在 B2 完成前就开始。推荐路径:先读 Kreyszig Introductory Functional Analysis(工程导向,降低抽象度)建立直觉,再用 Conway 或 Brezis 做严格化。Brezis 的优势是习题含答案,对自学者极友好。


2.8 B4 常微分方程

机器人本质上就是在流形上运动的 ODE——\(M(q)\ddot{q} + C(q,\dot{q})\dot{q} + g(q) = \tau\) 化为一阶系统后就是 \(\dot{x} = f(x, u, t)\)每一次 sim.step() 都是在数值求解这条 ODE。 没有 ODE 的严格理论,"仿真器给出的轨迹唯一吗?扰动下的误差有界吗?PD 控制真的稳定吗?"这些博士论文中必然遇到的问题就只能凭经验回答。

字段 内容
学时 80–140h · 16 节 · 独立性最高,可与 B2 并行
前置 B1(压缩映射/Arzelà-Ascoli);A2a/d(线性系统/矩阵指数)
教材 Hirsch-Smale-Devaney(现代)· Perko(定性理论)· Khalil Nonlinear Systems(控制导向) · Teschl ODE and DS免费 PDF
核心定理 (13) Picard-Lindelöf · Peano · Gronwall · 延拓定理 · 矩阵指数 · 线性基本矩阵 · Floquet · Lyapunov I · Lyapunov II · LaSalle · Hartman-Grobman · 稳定/中心流形 · Poincaré-Bendixson

核心模块路径

阶段 模块 核心内容 学时
存在性 Picard-Lindelöf 压缩映射证明(← B1);Lipschitz 条件的必要性 10h
存在性 Peano / 非唯一 仅连续 → 解存在但不唯一(非光滑动力学的根源 → 第七批) 5h
正则性 延拓 / Gronwall 最大存在区间、Gronwall 不等式、全局存在充分条件 8h
线性 矩阵指数 / 基本矩阵 \(e^{tA}\) 与 A2d Jordan 形的联系、线性系统解结构 10h
定性 相图 / 流 自治系统相流 \(\phi_t\)(→ 第一批:流形上的单参数微分同胚群) 8h
稳定性 Lyapunov 直接法 正定函数 \(V(x)\) + \(\dot{V} \le 0\) → 稳定性结论 12h
稳定性 LaSalle 不变原理 放松 \(\dot{V} < 0\)\(\dot{V} \le 0\),用不变集分析渐近稳定 6h
周期 Poincaré / Floquet 映射 → 极限环稳定性(双足步行 → 第七批专题5) 8h
分岔 中心流形 / Hopf 参数变化导致的定性行为突变 6h
数值 辛积分器 辛 Euler / Störmer-Verlet(→ MuJoCo/Drake 的积分器选择) 5h

标志性公式

Picard-Lindelöf 的核心——IVP 改写为积分方程,Picard 算子在 Banach 空间上的不动点:

\[x(t) = x_0 + \int_{t_0}^{t} f(s, x(s))\,ds \quad\Longleftrightarrow\quad x = Tx, \quad T: C([t_0-\delta, t_0+\delta]) \to C([t_0-\delta, t_0+\delta])\]

Lipschitz 条件 \(\|f(t,x_1)-f(t,x_2)\| \le L\|x_1-x_2\|\) 保证 \(T\) 是压缩映射(← B1)。机器人动力学 \(f(x,\tau)\) 在有界状态集上 \(C^1\)(因为 \(M(q) \succ 0\) 连续且光滑),自动满足 Lipschitz——这是"仿真器结果可复现"的数学前提。

Gronwall 不等式——sim-to-real gap 的母定理:

\[u(t) \le \alpha + \int_{t_0}^{t} \beta(s)u(s)\,ds \quad\Longrightarrow\quad u(t) \le \alpha\exp\!\left(\int_{t_0}^{t}\beta(s)\,ds\right)\]

应用模板:\(u(t) = \|x_{\text{sim}}(t) - x_{\text{real}}(t)\|\)\(\alpha\) 是初始误差,\(\beta\) 反映模型偏差的 Lipschitz 常数。误差以指数速率增长——这解释了为什么长时间开环仿真的 sim-to-real gap 会爆炸,也解释了为什么 MPC 用短时域反复重规划是对抗 Gronwall 指数的正确策略。

Lyapunov 连接链——从 B4 到 MPC 和 RL

B4 §Lyapunov 直接法(能量函数 V(x),dV/dt ≤ 0)
     ├─→ 第三批 3.7:非线性系统稳定性分析(Khalil 的完整理论)
     │       │
     │       ├─→ 3.8 CLF-CBF:控制 Lyapunov 函数 + 控制障碍函数 → QP 安全控制
     │       │
     │       └─→ 3.11 MPC 稳定性:终端代价 V_f(x) 作为 Lyapunov 函数 → 闭环稳定性证明
     └─→ 第六批 6.5:SA-ODE 方法用 Lyapunov 分析确定性 ODE ẋ=h(x) 的稳定性
                       → 推出随机逼近迭代 x_{k+1}=x_k+α_k(h(x_k)+noise) 的收敛性

一个方法从 ODE 理论一路贯穿到 MPC 和 RL 的收敛性证明。 掌握 Lyapunov 直接法后,理解 CLF-CBF 只需要"把 V 的候选函数从能量函数换成安全函数",理解 MPC 稳定性只需要"把终端代价当作 Lyapunov 函数",理解 SA-ODE 只需要"把离散迭代的 ODE 极限当作 Lyapunov 稳定性分析的对象"。

常见陷阱

忽略 Peano 非唯一性的工程后果——非光滑动力学(滑模控制的 sign 函数、刚性接触、摩擦突变)普遍存在 Lipschitz 失效,解不唯一意味着仿真器选择哪条轨迹完全取决于数值离散方式(→ 第七批的核心主题)。把 Gronwall 当"定理"而非"工具"——Gronwall 的价值不在于它本身,而在于它是**估计任何 ODE 解误差增长的万能模板**,需要大量练习才能灵活应用。跳过辛积分器——MuJoCo 的 semi-implicit Euler 和 Drake 的 implicit Euler 在长时间仿真中的能量漂移行为完全不同,选择错误的积分器会导致"能量凭空出现"的物理荒谬——辛积分器保证能量误差有界而非累积。


2.9 第零层学习里程碑

里程碑 完成标准 自测要点
M1 完成 A1+A2 线性代数硕士级 独立推导 Rodrigues、构造 Jordan 标准形、解释行列式在 Axler 中被推迟的原因
M2 完成 A3+A4 代数/拓扑结构 证明 SO(3)≅ℝP³、推导 SE(3) 半直积结构、Tychonoff 定理
M3 完成 B1+B2 测度论能用 用 DCT 推导粒子滤波收敛、用 Radon-Nikodym 推导重要性采样
M4 完成 B3+B4 泛函/动力学 Kalman 作为 \(L^2\) 投影、Banach 不动点证 Bellman 收敛、CLF 稳定性
M5 完成全部 终局能力 能独立阅读 Chirikjian Vol.2、Barfoot Ch.7–8、Del Moral Ch.1–3

35 条必完证清单(闭卷独立书写完整证明):#9 Cayley-Hamilton, #13 实对称谱定理, #16 SVD, #23 Rodrigues, #26 Heine-Borel, #34 Baire 纲, #53 Arzelà-Ascoli, #55 反函数定理, #56 隐函数定理, #62 DCT, #65 Radon-Nikodym, #72 Hahn-Banach, #77 Riesz 表示, #83 投影定理, #86 Picard-Lindelöf, #88 Gronwall, #94 Lyapunov II, #95 LaSalle 等。这是一份"每年至少复核一次"的清单。


第三部分:第一批 — 光滑流形与李群理论

3.0 第一批总论:为什么李群是机器人数学的心脏

机械臂的 \(n\) 个旋转关节构成的构型空间是 \(n\) 维环面 \(T^n\),自由刚体的位姿空间是李群 SE(3),视觉定位中的子空间估计涉及 Grassmann 流形——这些对象都**不是**欧氏空间,却都是光滑流形。一般流形理论提供了三件事:在弯曲空间上做微积分的严格框架、切空间→流形映射(Retraction)的数学基础、以及李群理论的底层语言。先掌握一般流形,再将其特殊化到李群,是最高效的学习路径。

第一批共 6 个专题,总学时约 200–280 小时(档位3),外加进阶内容约 60–80 小时(档位4)。专题之间的依赖关系呈线性推进:光滑流形的一般语言(专题1)是一切的起点;Retraction 理论(专题2)在切空间与流形之间架设桥梁,为后续的流形优化铺路;李群基础(专题3)在流形上叠加群结构,建立 SO(3)/SE(3) 的完整剖析;雅可比与 BCH(专题4)是整个 SLAM 数学体系的枢纽——所有非线性最小二乘最终归结为在李群上对残差求 Jacobian;李群概率(专题5)把不确定性从欧氏空间搬到流形上,是 InEKF 和 IMU 预积分的共同起点;等变理论(专题6)收官全批,揭示 InEKF、Certifiable SLAM、等变网络和几何控制共享同一个对称性框架。

核心教材路线:Tu An Introduction to Manifolds(速读入门,2–3 周)→ Lee Introduction to Smooth Manifolds(主参考)→ Hall Lie Groups, Lie Algebras, and Representations(李群数学视角)→ Solà et al. 2018 论文(机器人视角桥梁)→ Barfoot 2e Ch.7–8(SLAM 直接对口)→ Boumal Optimization on Smooth Manifolds 2023(流形优化)。C++ 库:Sophus(ORB-SLAM/DSO 标配)、manif(配套 Solà 论文,Jacobian-aware)、GTSAM geometry(retract/localCoordinates 接口)。

第一批内部依赖图

专题1 (光滑流形一般理论)
    ├─→ 专题2 (Retraction / 流形优化基础)
    │       └─→ [第二批专题4: 非线性优化中的流形优化部分]
    └─→ 专题3 (李群基础 / SO(3) / SE(3))
            ├─→ 专题4 (雅可比 / BCH)
            │       └─→ [第五批: BA/PGO/VIO 中的 Jacobian]
            ├─→ 专题5 (李群上概率 / 不确定性)
            │       └─→ [第五批A3: ESKF/InEKF]
            └─→ 专题6 (等变理论 / 前沿)
                    └─→ [第五批D: InEKF精读; 第八批: 等变网络]

3.1 专题1:光滑流形的一般理论

光滑流形是描述机器人构型空间的统一数学语言。本专题要求在一般流形上严格定义切空间、切映射、向量场与微分形式,为后续李群和 Retraction 理论铺设地基。没有这一步,就无法理解"为什么欧拉角会有万向锁"——因为 SO(3) 上不存在全局坐标卡。

规模与学时:8 个核心模块,约 50 小时(含习题)。推荐路径:Tu 全书速读(8–10 天)→ Lee Ch.1–6, 8–11, 14 精读(15–20 天)→ Milnor Topology from the Differentiable Viewpoint(64 页,思想性补充,2 天)。

核心模块路径:拓扑流形与光滑结构(局部欧氏、图册、转换函数,5h)→ 切空间的三种等价定义(几何/代数/导子,导子定义通向李代数,8h)→ 切丛/余切丛/向量丛(TM 的光滑结构,6h)→ 光滑映射与微分(Pushforward dF / Pullback F*,5h)→ 秩定理家族(反函数/隐函数/Rank theorem / 浸入与淹没,6h)→ 子流形(Regular vs immersed,Preimage theorem: SO(3)={R: R^TR=I} 作为 ℝ⁹ 的子流形,4h)→ 向量场与流(积分曲线、Lie bracket、Lie 导数入门,8h)→ 微分形式(1-形式、Λ^k(T*M)、外微分 d、Stokes 定理,8h)。

切空间三种定义的重要性:导子定义(将切向量视为满足 Leibniz 律的线性算子 \(v: C^\infty(M) \to \mathbb{R}\))是后续通向李代数的关键路径——李代数 \(\mathfrak{g} = T_eG\) 上的 Lie bracket 在导子语言下就是两个向量场的交换子。几何定义(曲线等价类 \([\gamma]\))提供直觉。代数定义(余切空间 \(\mathfrak{m}_p/\mathfrak{m}_p^2\) 的对偶)在证明中有技术优势。理解三者等价是本专题最重要的概念跨越

核心定理(7 条,档位3):反函数定理(流形版)、Regular Value Theorem(正则值原像是子流形)、Rank Theorem、Sard 定理(临界值集测度为零)、Whitney 嵌入(弱版)、Frobenius 可积性定理(非完整约束的可达性分析)、Stokes 定理(微分形式版)。

专题1的连接网络

上游依赖:本专题硬性依赖第零层的三个任务。A3 点集拓扑提供 Hausdorff、二可数、商拓扑等流形定义的前置(流形 = Hausdorff + 二可数 + 局部欧氏的拓扑空间 + 光滑图册)。B1 实分析的反函数定理和隐函数定理是秩定理家族的核心引擎。A2a 的向量空间和对偶空间提供切空间和余切空间的代数语义——切空间 \(T_pM\) 就是一个 \(\dim M\) 维向量空间,余切空间 \(T_p^*M\) 就是它的对偶。A2e 的外代数 \(\Lambda^k V^*\) 是微分形式一章的纯代数基础——外代数的多线性代数基础若不扎实,微分形式一章会寸步难行

下游输出:→ 专题2(Retraction \(R_x: T_xM \to M\) 依赖切丛结构)→ 专题3(李群 = 光滑流形 + 群运算光滑)→ 第四批(构型空间 \(Q\) 是流形,Lagrange 力学在 \(TQ\) 上建立,Hamilton 力学在 \(T^*Q\) 上建立)→ 第五批(位姿流形 SE(3)\(^n\) 上的协方差建模需要切空间上的概率论)。

概念统一:流形理论的核心价值是把"隐函数定理的局部参数化"全局化为光滑结构——B1 中的隐函数定理给出局部坐标,本专题将其升级为全局流形上的严格语言。

常见陷阱

最致命的错误是**把切向量理解为嵌入空间中的"箭头"。切向量是内蕴定义的导子或曲线等价类,不依赖嵌入。一旦养成"箭头"习惯,到 Grassmann 流形等无自然嵌入的空间时就会崩溃。其次是**混淆切丛与向量场:切丛 \(TM\)\(2n\) 维流形,向量场是 \(TM\) 的一个截面(光滑映射 \(X: M \to TM\),满足 \(\pi \circ X = \mathrm{id}_M\))。第三是**跳过习题直接读下一章**:Tu 习题偏简单恰好建立信心,Lee 习题真正测试理解深度,两者都不可跳。第四是**死抠定义而不看例子**:每学一个定义,立刻在 \(S^2\)\(\mathbb{RP}^n\)、SO(3) 上验证,否则定义永远是空壳。


3.2 专题2:Retraction 理论与流形优化基础

Retraction 是"切空间→流形"的一般回拉映射,它让流形上的优化算法成为可能。欧氏空间中梯度下降的更新 \(x_{k+1} = x_k - \alpha\nabla f(x_k)\) 在流形上失效——因为 \(x_k - \alpha\nabla f(x_k)\) 通常不在流形上。Retraction 正是解决这一矛盾的核心工具:先在切空间做"欧氏式"的一步,再通过 retraction 映射回流形。

规模与学时:5 个核心模块,档位3 约 25–35 小时,档位4 额外 15–25 小时。

两个关键认知必须在本专题建立。第一,李群 exp 只是 retraction 的一个特例,而且常常是计算成本最高的选择——QR retraction、polar retraction、Cayley map 在 Stiefel 流形和 SO(n) 上比矩阵指数快一个数量级。各流形上常见 retraction 的计算复杂度对比是本专题的核心表格之一:球面 \(S^{n-1}\) 上归一化只需 \(O(n)\),Stiefel 流形上 QR retraction 需 \(O(nk^2)\) 而 exp 需 \(O(n^3)\),SE(3) 上分解 retraction(旋转+平移分别处理)比 group exp(含三角函数的 Rodrigues 闭式)更快——在大规模 PGO(数万 pose)中累积差异显著。第二,李群指数映射(代数对象)和 Riemannian Exp(测地线的几何对象)是两件事,二者仅在 bi-invariant 度量下恰好重合。SO(3) 有 bi-invariant metric 所以一致,SE(3) 没有 bi-invariant metric 所以两者不等——这个事实被大量工程师忽略,却直接影响 SE(3) 上优化算法的收敛性分析。

核心模块路径:Retraction 的一般定义(Absil-Mahony-Sepulchre 框架:\(R_x(0_x)=x\)\(\mathrm{D}R_x(0_x)=\mathrm{id}\),一阶 retraction 对一阶优化已足够)→ 常见 retraction 的例子与计算成本(球面/Stiefel/Grassmann/SO(n)/SE(3))→ Vector transport(共轭梯度/动量方法需要将上一步梯度"搬运"到新切空间)→ Riemannian 度量与梯度(没有度量就没有梯度:\(\langle \mathrm{grad}\,f, \xi \rangle = \mathrm{D}f[\xi]\),嵌入子流形的 Riemannian gradient = 欧氏梯度的正交投影)→ 流形上的一阶优化算法(Riemannian GD + Armijo on manifold,全局收敛性,\(O(1/\varepsilon^2)\) 复杂度与欧氏 GD 的 sharp rate 匹配)。

核心教材:Boumal An Introduction to Optimization on Smooth Manifolds (2023)——当代流形优化的最佳入门,免费 PDF(nicolasboumal.net/book),配套 EPFL MATH-512 完整视频(14 周 × 90 分钟,B 站有搬运 BV1hHFJe8E7z)。Absil-Mahony-Sepulchre Optimization Algorithms on Matrix Manifolds (2008)——奠基之作,各章 PDF 免费(Princeton University Press 官网),理论更严谨但不适合首次学习。Nocedal & Wright Numerical Optimization 作为欧氏对照参考。

专题2的连接网络

上游依赖:← 专题1(切空间 + 光滑映射是 retraction 定义的地基)。

下游输出:→ 专题3(建立"exp 只是 retraction 特例"的视角后,李群专题可聚焦于群结构本身而非将 exp 神秘化)→ 专题4(retraction 的微分 \(\mathrm{D}R_x(\xi)\) 就是流形版雅可比)→ 第二批专题4(流形优化 = 非线性优化在流形上的推广,Armijo/trust-region 的流形版是欧氏版的自然推广)→ 第五批B(GTSAM 的 retract()/localCoordinates() 接口 = 本专题理论的直接工程化)→ 第五批E(SE-Sync 的 Riemannian trust-region 用 Stiefel 流形上的 Burer-Monteiro 方法实现可认证全局最优 PGO)。

工程映射:GTSAM retract() / Ceres Manifold::Plus() / Pinocchio integrate() 都是 retraction 在不同库中的化身。

常见陷阱

把 RGD 理解为"先梯度下降再投影"——正确理解是:先在切空间计算 Riemannian gradient(已是投影后的),然后经 retraction 回到流形。顺序和概念都不同于"project-after-step"。忽视 vector transport 在动量方法中的必要性——欧氏空间中 \(v_{k+1}=\beta v_k + \nabla f(x_{k+1})\) 的两项在同一空间;流形上必须将 \(v_k\) transport 到新切空间。误以为 retraction 必须是 exp——一阶优化只需一阶 retraction,QR/polar/Cayley 往往更快且数值更稳定。


3.3 专题3:李群基础与 SO(3)/SE(3) 专论

机器人感知、规划、控制的核心对象——刚体位姿——天然地活在 SO(3) 和 SE(3) 上。李群的独特价值在于:它同时具备光滑流形的几何结构和群的代数结构,这意味着你可以在其上做微积分的同时利用群运算处理坐标变换与复合运动。其对应的李代数 \(\mathfrak{g}=T_eG\) 是线性空间,可以进行普通的加法和标量乘法——这正是所有"在流形上做优化"方案的底层逻辑。

字段 内容
学时 档位3 约 40–50h;档位4 额外 20–30h
核心教材 Lynch-Park Ch.3 → Solà 2018 论文 → Barfoot 2e Ch.7–8 → Hall Ch.1–5
C++ 库 Sophus、manif、GTSAM geometry、Ceres Manifold
前置 专题1 + 专题2 + A4(群论) + A2d(Cayley-Hamilton)

核心模块一览

# 模块 核心公式/概念 学时
1 李群定义与矩阵李群 Cartan 闭子群定理:GL(n) 的闭子群自动继承光滑结构 4h
2 李代数三种等价定义 \(\mathfrak{g} = T_eG\) = 左不变向量场 = one-parameter subgroup 生成元 5h
3 指数映射 \(\exp(X) = \sum_{k=0}^{\infty} X^k/k!\)(矩阵级数),局部微分同胚 5h
4 SO(3) 完整剖析 Rodrigues 公式 + 四元数 + 拓扑 10h
5 SE(3) 完整剖析 半直积 + twist/wrench + exp 闭式 8h
6 伴随表示 Ad/ad 坐标系间 twist/wrench 变换的"翻译词典" 6h
7 度量与测地线 bi-invariant metric 的存在性及工程后果 4h

SO(3) 的三种参数化对比

表示 参数数 约束 奇异性 典型用途
旋转矩阵 \(R \in \mathbb{R}^{3\times3}\) 9 6 个 (\(R^TR=I\) 提供 6 个连续约束;\(\det R=1\) 为离散约束,选择 O(3) 的连通分支,不额外减少自由度) 理论推导、矩阵运算
单位四元数 \(q \in S^3\) 4 1 个 (\(\|q\|=1\)) 无(但 2:1 覆盖) VIO/IMU 插值、滤波
轴角 \(\theta\mathbf{n} \in \mathbb{R}^3\) 3 \(\|\theta\|=\pi\) 处符号歧义 优化中的最小参数化

为什么三参数表示必有奇异性? SO(3) \(\cong \mathbb{R}P^3\) 是**紧致** 3 维流形,而 \(\mathbb{R}^3\) 的任何开子集不紧致,因此不存在从 \(\mathbb{R}^3\) 的开子集到整个 SO(3) 的微分同胚——即任何三参数表示都至少有一个奇异点。\(\pi_1(\mathrm{SO}(3)) = \mathbb{Z}_2\) 的意义在于:SO(3) 的万有覆叠空间 \(S^3\) 恰好是四元数群,\(q\)\(-q\) 对应同一旋转。

标志性公式

Rodrigues 公式——SO(3) 指数映射的闭式:

\[R = \exp(\theta[\hat{\mathbf{n}}]_\times) = I + \sin\theta\,[\hat{\mathbf{n}}]_\times + (1-\cos\theta)\,[\hat{\mathbf{n}}]_\times^2\]

闭式存在的深层原因(连接 ← A2d):\([\hat\omega]_\times\) 的极小多项式是 \(x^3 + \|\omega\|^2 x\),Cayley-Hamilton 定理保证 \([\hat\omega]_\times^3 = -\|\omega\|^2 [\hat\omega]_\times\),使 exp 的无穷级数坍缩为三项。一个公式贯穿 A2d + A2e + 本专题

SE(3) 指数映射——含旋转-平移耦合的 \(V\) 矩阵:

\[\exp\begin{pmatrix}[\boldsymbol\omega]_\times & \boldsymbol\rho \\ 0 & 0\end{pmatrix} = \begin{bmatrix}\exp([\boldsymbol\omega]_\times) & V\boldsymbol\rho \\ 0 & 1\end{bmatrix}, \quad V = I + \frac{1-\cos\theta}{\theta^2}[\boldsymbol\omega]_\times + \frac{\theta-\sin\theta}{\theta^3}[\boldsymbol\omega]_\times^2\]

关键区分\(\boldsymbol\rho\) 不是平移本身,而是 twist 的平移分量。SE(3) 是**半直积** \(\mathbb{R}^3 \rtimes \mathrm{SO}(3)\)——群乘法中 \(p_{\text{new}} = R_1 p_2 + p_1\),旋转**耦合**进平移。如果错误地当成直积处理(分别复合旋转与平移),结果会出错。

伴随表示速查

层级 映射 矩阵李群形式 机器人用途
群→群 内自同构 \(\Psi_g(h)=ghg^{-1}\) 共轭
群→代数自同构 \(\mathrm{Ad}(g): \mathfrak{g}\to\mathfrak{g}\) \(\mathrm{Ad}(g)X = gXg^{-1}\) twist 换帧
代数→代数自同态 \(\mathrm{ad}(X): \mathfrak{g}\to\mathfrak{g}\) \(\mathrm{ad}(X)Y = [X,Y]\) Jacobian 推导基础

SO(3) 的巧合\(\mathrm{Ad}(R)\omega = R\omega\)(伴随表示就是旋转本身)。SE(3) 的 6×6 Adjoint 矩阵则更复杂,含 \([p]_\times R\) 耦合项。

SE(3) 无 bi-invariant metric——一个被广泛忽略的事实

李群 bi-invariant metric? 李群 exp = Riemannian Exp?
SO(3) ✅ 有 ✅ 一致
SE(3) 不存在 不一致

三大工程后果:(1) 不存在"自然"的距离度量来同时衡量旋转与平移误差;(2) 任何度量都需引入**长度尺度参数**平衡角度与位移的权重;(3) 李群 exp 与 Riemannian Exp 不一致——直接影响 SE(3) 上优化算法的收敛性分析。实践中通常选用**左不变度量**,保证参考坐标系选取的不变性。

连接网络

A2d (极小多项式/Cayley-Hamilton)  ─→  Rodrigues 闭式的结构原因
A2e (Λ²ℝ³ ≅ 𝔰𝔬(3))              ─→  hat 映射 = Hodge 对偶
A4  (半直积)                      ─→  SE(3) = ℝ³ ⋊ SO(3) 的群结构
专题2 (Retraction)                ─→  "exp 只是 retraction 的一个特例"
    【本专题: 李群/SO(3)/SE(3)】
    ┌────┼────┬─────────────┐
    ▼    ▼    ▼             ▼
 专题4  专题5  第四批        第五批
 雅可比  概率   空间向量代数   EKF/InEKF
 /BCH   /不确定 /Euler-Poincaré /因子图

约定陷阱(跨库协作必读)

问题 库A 库B 后果
Jacobian 求导对象 Sophus: 对**表示向量** manif: 对**切空间扰动** 混用 Jacobian 维度/数值全错
切向量排序 GTSAM: \([\omega, v]\)(旋转在前) Sophus/manif: \([v, \omega]\)(平移在前) 6×6 矩阵行列含义互换
四元数存储 Eigen 构造: (w,x,y,z) Eigen coeffs(): 返回 [x,y,z,w] 内存顺序与接口不一致

3.4 专题4:雅可比矩阵体系与 BCH 公式

所有非线性最小二乘——Bundle Adjustment、Pose-Graph Optimization、VIO 预积分——最终都归结为**在李群上对残差求 Jacobian**。专题3给出了 exp/log/Adjoint 的闭式表达,但实际优化中需要的是这些映射**对扰动参数的导数**。

字段 内容
学时 档位3 约 30–40h;档位4 额外 15–20h
前置 专题3(exp/log/Adjoint 闭式)
核心产出 能独立推导 SLAM 论文中出现的**所有** Jacobian 表达式

左扰动 vs 右扰动——一切 Jacobian 的起点

扰动类型 公式 物理含义 典型使用者
左扰动 \(X = \mathrm{Exp}(\delta\xi)\cdot\bar{X}\) 世界帧扰动 Barfoot 书、Eade 笔记
右扰动 \(X = \bar{X}\cdot\mathrm{Exp}(\delta\xi)\) Body 帧扰动 Solà 论文、manif、GTSAM

两者通过 Adjoint 互转:\(\mathrm{Exp}(\delta\xi_L)\cdot\bar{T} = \bar{T}\cdot\mathrm{Exp}(\mathrm{Ad}(\bar{T})^{-1}\cdot\delta\xi_L)\)选定 convention 后须全程一致,混用是最常见的错误来源。

标志性公式

左/右 Jacobian 的积分定义

\[\mathbf{J}_l(\boldsymbol\phi) = \int_0^1 \exp(t\,\mathrm{ad}(\boldsymbol\phi))\,dt = \sum_{k=0}^{\infty}\frac{\mathrm{ad}(\boldsymbol\phi)^k}{(k+1)!}, \qquad \mathbf{J}_r(\boldsymbol\phi) = \mathbf{J}_l(-\boldsymbol\phi)\]

SO(3) 的 3×3 闭式(利用 \(\mathrm{ad}(\boldsymbol\phi)^3 = -\theta^2\,\mathrm{ad}(\boldsymbol\phi)\) 封闭求和):

\[\mathbf{J}_l(\boldsymbol\phi) = \frac{\sin\theta}{\theta}\mathbf{I} + \left(1-\frac{\sin\theta}{\theta}\right)\mathbf{a}\mathbf{a}^T + \frac{1-\cos\theta}{\theta}[\mathbf{a}]_\times, \quad \theta=\|\boldsymbol\phi\|,\ \mathbf{a}=\boldsymbol\phi/\theta\]

手推这个闭式是本专题最核心的推导练习——参考 Solà 论文 Appendix B、Barfoot §8.2.3。

BCH 公式(小量近似版):

\[\mathrm{Exp}(\boldsymbol\phi)\cdot\mathrm{Exp}(\delta\boldsymbol\phi) \approx \mathrm{Exp}\!\left(\boldsymbol\phi + \mathbf{J}_r^{-1}(\boldsymbol\phi)\,\delta\boldsymbol\phi\right)\]

这个公式是 IMU 预积分的数学基石——Forster et al. 2017 的预积分量 \(\Delta R_{ij}\), \(\Delta v_{ij}\), \(\Delta p_{ij}\) 的协方差传播全部依赖 BCH 的前几阶展开。

SLAM 中常用 Jacobian 速查表

表达式 Jacobian(右扰动) 应用场景
\(X_1 \circ X_2\) \(\partial/\partial\xi_1 = \mathrm{Ad}(X_2^{-1})\), \(\partial/\partial\xi_2 = I\) PGO 残差
\(X^{-1}\) \(\partial/\partial\xi = -\mathrm{Ad}(X^{-1})\) 逆位姿
\(X \cdot p\) \(\partial/\partial\xi\): 涉及 \([Rp+t]_\times\) BA 重投影
\(\mathrm{Log}(X_1^{-1} X_2)\) 涉及 \(\mathbf{J}_r^{-1}\) 相对位姿残差

连接网络

方向 目标 具体连接
← 上游 专题3 exp/log/Adjoint 闭式是全部公式的基础
← 上游 A2d 极小多项式使 \(\mathrm{ad}\) 的幂级数可封闭求和
→ 下游 第五批A3 ESKF/InEKF 协方差传播需 Adjoint 和左/右 Jacobian
→ 下游 第五批B BA/PGO 残差 Jacobian 全部基于上方速查表
→ 下游 第四批5 Pinocchio 动力学解析微分中的 Jacobian 体系与本专题同源
≡ 统一 第五批(IMU预积分) BCH = Forster 2017 论文的数学基石

3.5 专题5:李群上的不确定性与概率分布

一句话底线:旋转矩阵的 9 个元素受 6 个正交约束,不是独立随机变量——直接写 \(\mathcal{N}(\bar{R}, \Sigma)\) 会立刻破坏 SO(3) 约束。正确做法是把不确定性搬到切空间(李代数),定义**集中高斯(Concentrated Gaussian)**:\(X = \bar{X} \cdot \mathrm{Exp}(\boldsymbol{\xi})\)\(\boldsymbol{\xi} \sim \mathcal{N}(\mathbf{0}, \boldsymbol{\Sigma})\)

字段 内容
学时 档位3 约 25–35h
前置 专题3+4(exp/log/Adjoint/Jacobian)+ B2(测度论/Haar 测度)
教材 Barfoot 2e Ch.7–8 ★ · Chirikjian Vol.1 Ch.11 · Solà 2018 §V

欧氏 vs 李群的概率对比

问题 欧氏空间 \(\mathbb{R}^n\) 李群 SO(3)/SE(3)
状态空间 全局向量空间 紧致/非紧致**流形**
均匀分布 Lebesgue 测度 Haar 测度(左/右不变)
PDF 定义 直接 \(p(\mathbf{x})\) 依赖坐标卡,需**体积元修正**
高斯化 直接 \(\mathcal{N}(\mu, \Sigma)\) 约束(正交性)、周期性(\(2\pi\))、覆盖(四元数 2:1)
均值定义 \(\bar{x} = \frac{1}{N}\sum x_i\) Fréchet 均值 \(\bar{X} = \arg\min_X \sum d^2(X, X_i)\)(需迭代求解)

核心模块路径

模块 内容 学时 关键公式
李群概率特殊性 Haar 测度、PDF 坐标依赖、紧致性排除全局参数化(SO(3) 紧而 ℝ³ 的开子集不紧) 4h \(\int_G f(g)\,d\mu_L(g) = \int_G f(hg)\,d\mu_L(g)\)(左不变)
左/右摄动模型 左摄动(世界帧) vs 右摄动(体帧)、Adjoint 互转 5h \(\xi_L = \mathrm{Ad}(\bar{X})\xi_R\)\(\Sigma_L = \mathrm{Ad}\Sigma_R\mathrm{Ad}^T\)
集中高斯 PDF 近似、小协方差假设、归一化常数 5h \(p(\tilde{X}) \approx \eta\exp(-\frac{1}{2}\xi^T\Sigma^{-1}\xi)\)
协方差传播 一阶 Compounding、逆位姿协方差、四阶修正 6h \(\Sigma_{12} \approx \mathrm{Ad}(\bar{X}_2^{-1})\Sigma_1\mathrm{Ad}^T + \Sigma_2\)
Banana 分布 长时间传播的非高斯性、指数坐标下近高斯 3h IMU 预积分分段的理论依据
Haar 测度严格化 存在性、唯一性(模常数)、SO(3)上的显式形式 4h ← B2 测度论

标志性公式

集中高斯 PDF(右摄动):

\[p(\tilde{X}) \approx \eta\,\exp\!\left(-\frac{1}{2}\boldsymbol{\xi}^T \boldsymbol{\Sigma}^{-1}\boldsymbol{\xi}\right), \quad \boldsymbol{\xi} = \mathrm{Log}(\bar{X}^{-1}\tilde{X})\]

为什么只是近似? 严格的归一化常数需要 exp 映射的 Jacobian 行列式修正(与 \(\|\xi\|\) 有关)。小扰动时修正趋于 1;大扰动下出现系统偏差——这就是 banana 分布的数学根源。

协方差传播(Compounding)——两个独立位姿 \(X_1, X_2\) 复合后的协方差:

\[\boldsymbol{\Sigma}_{12} \approx \mathrm{Ad}(\bar{X}_2^{-1})\,\boldsymbol{\Sigma}_1\,\mathrm{Ad}(\bar{X}_2^{-1})^T + \boldsymbol{\Sigma}_2\]

为什么需要 Adjoint? 两个扰动分别在各自切空间定义,复合前必须通过 \(\mathrm{Ad}\) 搬运到同一切空间——这是"坐标系转换"的李群版本。Barfoot-Furgale 2014 T-RO 用 BCH 展开到四阶 + Isserlis 定理(高斯矩的 Wick 缩并)计算四阶修正项,在大不确定性下显著优于一阶。

连接网络

方向 目标 具体连接
← 上游 专题3+4 exp/log/Adjoint/Jacobian 是全部公式的基础
← 上游 B2 测度论 Haar 测度需测度论严格化;σ-代数 → 滤波中的信息过滤
→ 下游 第五批A3 InEKF/ESKF 的不确定性模型 = 集中高斯在不同滤波器中的传播
→ 下游 第五批B 因子图中位姿变量的噪声模型 = 集中高斯
→ 下游 第五批A4 IMU 预积分协方差的四阶修正 = Compounding 公式在增量上的应用
≡ 统一 全路线 "拉回→操作→推回"策略:流形上问题 →exp/log→ 切空间(线性) → 标准运算 → 推回流形

常见陷阱

对四元数直接做高斯——\(q\)\(-q\) 表示同一旋转,直接 \(\mathcal{N}(\bar{q}, \Sigma)\) 会产生双模态分布。必须用轴角/旋转向量参数化不确定性。混淆左右摄动的协方差——左摄动协方差在世界帧,右摄动在体帧,通过 \(\mathrm{Ad}\) 互转。跨系统(如 GTSAM 用右、某些 InEKF 论文用左)传递协方差时忘记转换是隐蔽 bug。忽略 banana 效应——长距离 dead reckoning 后用椭球表示位置不确定性是**错误的**。IMU 预积分分段(keyframe 间隔 0.1–1s)正是为了让每段内高斯假设成立。把 Haar 测度当成 Lebesgue 测度——SO(3) 上的 Haar 测度在欧拉角参数下**不均匀**(\(\sin\beta\) 权重),在四元数参数下才均匀(\(S^3\) 表面积测度)。


3.6 专题6:等变理论与几何前沿

核心结论:整个机器人学正在向"对称性优先"的数学语言收敛。 等变理论连接了 InEKF(滤波)、Certifiable SLAM(感知)、SE(3)-equivariant 神经网络(学习)和几何控制(控制),是跨越四大领域的统一数学框架。档位4内容占比超过 60%。

字段 内容
学时 档位3 约 20–25h;档位4 额外 15–20h
前置 专题1–5 全部 + A4 群论(群作用/轨道-稳定子)
教材 Hall Lie Groups Part II · Bronstein et al. Geometric Deep Learning · Barrau-Bonnabel TAC 2017

核心概念对照表

概念 定义 关键例子 后续应用
群作用 \(\phi: G \times M \to M\) 满足结合律与恒等律 SO(3) 左作用于 ℝ³ = 旋转 3D 点 一切的起点
齐次空间 \(G/H\) 传递作用时的商空间 \(S^2 \cong \mathrm{SO}(3)/\mathrm{SO}(2)\) 构型空间建模
轨道 \(\mathrm{Orb}(x)\) \(\{g \cdot x \mid g \in G\}\) SE(3) 作用于点云各点 对称等价类
稳定子群 \(G_x\) \(\{g \mid g \cdot x = x\}\) 旋转轴方向的 SO(2) Orbit-Stabilizer
等变映射 \(f(g \cdot x) = g \cdot f(x)\) InEKF 误差动力学 ≠ 不变映射
不变映射 \(f(g \cdot x) = f(x)\) 距离函数、能量 标量输出
不可约表示 (irrep) 最小不可分解表示 SO(3): \(\ell=0\)(标量), \(\ell=1\)(向量) e3nn 特征类型
Schur 引理 irrep 间交织映射 = 0 或同构 约束等变线性层形式 等变网络架构

SO(3) 的不可约表示(irrep)——等变网络的数学基石

\[\text{SO(3) 的 irrep 由 } \ell \in \{0, 1, 2, \ldots\} \text{ 标记,维度 } 2\ell+1\]
irrep 阶 \(\ell\) 维度 物理对应 e3nn 标记 基函数
0 1 标量(能量、距离) 0e/0o \(Y^0_0 = \text{const}\)
1 3 向量(位置、速度) 1e/1o \(Y^1_m \sim \{x, y, z\}/r\)
2 5 无迹对称张量(惯性) 2e/2o \(Y^2_m \sim\) 二次谐波
\(\ell\) \(2\ell+1\) 高阶张量场 ℓe/ℓo 球谐函数 \(Y^\ell_m\)

Peter-Weyl 定理(档位4):紧致群上的 \(L^2\) 函数按 irrep 矩阵元素展开 = 群上的"傅里叶变换"。这直接解释了 e3nn 为什么将特征按 irrep 类型组织。**Clebsch-Gordan 系数**描述两个 irrep 张量积的分解 \(D^{\ell_1} \otimes D^{\ell_2} = \bigoplus D^L\),是等变网络非线性交互层的数学基础。

等变理论的四域统一

                    等变理论
                   /    |    \     \
             滤波    感知    学习    控制
              |       |       |       |
           InEKF  SE-Sync  e3nn   几何PID
              |       |       |       |
         group-   SDP松弛  irrep   Noether
         affine   利用对称  张量积   对称性
领域 等变理论的角色 具体实例
滤波 InEKF 的一致性 = 误差动力学的等变性 Barrau-Bonnabel 2017: group-affine → log-linear
感知 SDP 松弛利用旋转对称性降维 SE-Sync: \(\mathrm{SO}(n)\) 对称性消除规范自由度
学习 等变层保证输入变换 → 输出对应变换 e3nn/MACE: Clebsch-Gordan 张量积层
控制 Noether 定理: 连续对称性 → 守恒量 角动量守恒 = SO(3) 不变性的推论

连接网络

方向 目标 具体连接
← 上游 A4 群论 群作用/轨道-稳定子定理是代数基础
← 上游 专题1–5 需流形+李群+Adjoint+概率的完整语言
→ 下游 第五批D group-affine + log-linear 定理 = 等变滤波的 InEKF 实例
→ 下游 第五批E SE-Sync 的 SDP 松弛利用 SO(n) 对称性
→ 下游 第八批 SE(3)-equivariant 网络 · Geometric Deep Learning
≡ 统一 全路线 对称性是机器人数学的最高抽象——一个框架统一四个领域

常见陷阱

混淆"等变"与"不变"——等变是 \(f(g \cdot x) = g \cdot f(x)\)(结构保持),不变是 \(f(g \cdot x) = f(x)\)(完全忽略变换)。InEKF 和等变网络都是前者。把 Peter-Weyl 直接套用到 SE(3)——SE(3) 非紧致(平移无界),Peter-Weyl 不直接适用;实践中将平移等变性通过相对位置向量单独处理,问题归结到紧致的 SO(3) 上。忽略表示论而直接学等变网络——不理解 irrep 和 Clebsch-Gordan 系数就读不懂 e3nn 的 o3.FullyConnectedTensorProduct 在做什么。


3.7 第一批教材与 C++ 库总对比

教材推荐路线

阶段 教材 免费 定位
① 物理直觉入门 Lynch-Park Modern Robotics Ch.3 刚体运动/螺旋的工程视角
② 统一符号桥梁 Solà et al. 2018 论文(17页) ⊕/⊖/hat/vee/Exp/Log 符号体系
③ SLAM 对口 Barfoot 2e Ch.7–8 流形上估计、集中高斯
④ 螺旋理论经典 Murray-Li-Sastry Ch.2 ⚠️ POE 公式、wrench/twist 对偶
⑤ 数学严格性 Hall Lie Groups Ch.1–5 校园网 矩阵李群的代数视角
⑥ 流形优化 Boumal 2023 Retraction + Riemannian GD
⑦ 李群概率 Chirikjian Vol.1 校园网 Haar 测度、SE(3) 上 Fourier 分析
速查 Eade "Lie Groups for 2D/3D"(ethaneade.com) 全部闭式公式速查,写代码必备

C++ 库对比

Stars 支持群 设计特点 活跃度 最佳场景
Sophus ~1.7k SO/SE(2/3), Sim3 Eigen-centric ⚠️维护 ORB-SLAM/DSO 存量项目
manif ~1.7k SO/SE(2/3), SE₂(3), Bundle Jacobian-aware,配 Solà ⚠️低频 新 SLAM 项目首选
smooth ~64 SO/SE(2/3), Bundle C++20 concepts ⚠️研究 李群样条、控制
GTSAM geom ~3.5k Rot/Pose(2/3), Similarity3 retract/local 接口 因子图 SLAM
Pinocchio ~2k SE3, Motion/Force 动力学导向 刚体动力学
Ceres ~4k Quaternion/Product Manifold Plus/Minus 抽象 非线性最小二乘

约定警告:Sophus Jacobian 对**表示向量**求导 vs manif 对**切空间扰动**求导——混用必出 bug。GTSAM 切向量 \([\omega, v]\)(旋转在前)vs Sophus/manif \([v, \omega]\)(平移在前)——跨库必须边界转换。


3.8 第一批学习里程碑与自测

M-L1(完成专题1–3后):能独立证明 \(T_I\mathrm{SO}(3) = \mathfrak{so}(3)\)(反对称矩阵空间),能用 Rodrigues 公式计算 \(\exp(\theta[\hat{n}]_\times)\),能解释 SE(3) 半直积结构中 \(R_1 t_2 + t_1\) 的耦合效应,能区分 retraction 与 exp 映射,能列举 SO(3) 上至少三种 retraction 并比较计算成本。

M-L2(完成全部六专题后):能手推 SO(3) 左 Jacobian \(\mathbf{J}_l\) 闭式,能写出 SE(3) 集中高斯 PDF 近似并解释"近似"的原因,能用 Adjoint 互转左/右扰动协方差,能用 manif/Sophus 实现 compose-inverse-exp-log-adjoint 全链路,能解释"等变 ≠ 不变"并给出 InEKF 作为等变滤波器的例子,能陈述 Peter-Weyl 定理的核心结论。

核心自测题(7 道):

# 题目 档位 考察点
1 用 Regular Value Theorem 验证 SO(3) 是 ℝ⁹ 的 3 维子流形 3 流形定义
2 证明 \(S^{n-1}\) 归一化映射满足一阶 retraction 条件 3 Retraction
3 推导 \(\mathbf{J}_l(\phi)\) 的 SO(3) 闭式;验证 \(\mathbf{J}_l\mathbf{J}_r^{-1} = \mathrm{Ad}(\mathrm{Exp}(\phi))\) 3 雅可比
4 两个独立不确定 SE(3) 位姿复合后的协方差一阶公式 3 概率传播
5 证明 SE(3) 在 ℝ³ 上的作用传递,识别稳定子 → \(\mathbb{R}^3 \cong \mathrm{SE}(3)/\mathrm{SO}(3)\) 3 等变理论
6 实现 SO(3) 上的 Riemannian GD 求最大特征值(\(f(R)=\mathrm{tr}(R^TAR)\) 4 流形优化
7 写出 SO(3) 的 \(\ell=0,1,2\) irrep 维度,解释 Schur 引理对等变层的约束 4 表示论

第四部分:第二批 — 凸优化、非线性优化与自动微分

4.0 第二批总论:优化是机器人数学的绝对枢纽

Tedrake 说"最终一切归结为优化"——SLAM 后端是非线性最小二乘,MPC 是约束 NLP,RL 是策略空间上的随机优化,Certifiable SLAM 是 SDP,接触力学是互补约束的 MPCC。五所高校无一例外将优化列为核心必修,其优先级甚至高于李群。本批是全路线图的**方法论枢纽**。

字段 内容
总学时 120–160h
专题数 6(1a + 1b + 2 + 3 + 4 + 5)
核心教材 Boyd Convex Optimization ★(免费)、Nocedal Numerical Optimization ★、Nesterov Lectures
C++ 库 Ceres Solver · CasADi · OSQP · Ipopt · ECOS · HPIPM
前置 第零层(B1 实分析 + A2b 内积/伪逆)
后续辐射 → 第三批(MPC) · 第五批(SLAM后端) · 第六批(策略优化) · 第七批(接触优化)

第二批内部依赖与算法进化链

专题1a (凸分析基础)  →  专题1b (共轭/proximal)
        ↓                     ↓ ↘
专题2 (问题类型/对偶/KKT) ◄──┘    专题3 (凸优化算法)
        ↓                              ↓
        └────── 专题4 (非线性优化: GN/LM/SQP/流形) ◄──┘
                   专题5 (自动微分/隐式微分)

注:专题2 依赖专题1b(Fenchel 对偶定理直接被专题2 C6节调用)。

算法收敛率进化链——从慢到快、从一般到特殊:

算法 适用条件 收敛率 每步代价 机器人典型场景
次梯度法 非光滑凸 \(O(1/\sqrt{k})\) \(O(n)\) L1 正则化的最基础方法
GD L-光滑凸 \(O(1/k)\) \(O(n)\)
GD (强凸) μ-强凸 + L-光滑 \((1-\mu/L)^k\) \(O(n)\) 条件数 κ=L/μ 主导
Nesterov AGD L-光滑凸 \(O(1/k^2)\) ★最优 \(O(n)\)
FISTA f 光滑 + g 可prox \(O(1/k^2)\) \(O(n)\) + prox LASSO/核范数最小化
ADMM 可分裂结构 \(O(1/k)\) 遍历 子问题依赖 OSQP(MPC的QP后端)
内点法 IPM 锥约束 \(O(\sqrt{m}\log(1/\varepsilon))\) \(O(n^3)\)/步 HPIPM(MPC) · ECOS(SOCP)
Gauss-Newton 最小二乘 零残差时二次 \(O(n^3)\)/步 SLAM后端(Ceres/GTSAM)

分水岭:中小规模+高精度 → IPM(20–50步到机器精度);大规模+中精度 → 一阶法(\(10^3\)\(10^6\)步)。MPC 常用 IPM(HPIPM),SLAM 常用 GN/LM(Ceres)。


4.1 专题1a:凸分析基础——凸集、凸函数、次微分与强凸性

凸分析不是一类特殊问题的解法,而是整个优化理论的**语法规则**。分离定理是 KKT 的几何根源;次梯度是非光滑优化的微分工具;强凸性和 L-光滑性的定量刻画直接决定一阶方法的收敛速率。

字段 内容
学时 12–15h(2 周)
教材 Boyd Ch.2–3(工程入门) + Rockafellar(圣经级参考) + HUL Fundamentals(可读的严格版)
核心定理 (9) 分离超平面 · 支撑超平面 · 次梯度存在性 · 最优性条件 \(0 \in \partial f(x^*)\) · Jensen · 强凸三等价 · L-光滑三等价 · Co-coercivity · Krein-Milman(★4)

核心模块

模块 内容 学时 关键公式
凸集理论 凸组合、凸包、SOCPSD锥 \(\mathbb{S}^n_+\)、分离定理 3h 二阶锥 = 摩擦锥(→第七批)
凸函数理论 四种定义(定义式/epigraph/一阶/二阶)、保凸运算、lsc 4h \(f(y) \ge f(x) + \nabla f(x)^T(y-x)\)(一阶条件)
次微分理论 \(\partial f(x)\) 定义、计算规则、最优性 \(0 \in \partial f\) 3h \(\partial\|x\|_1 = \mathrm{sign}(x)\)(非零处)
强凸/光滑 μ-强凸三等价、L-光滑三等价、条件数 \(\kappa=L/\mu\) 2h 二次夹逼:\(\frac{\mu}{2}\|x-y\|^2 \le \cdots \le \frac{L}{2}\|x-y\|^2\)

连接网络

方向 目标 具体连接
→ 内部 专题1b 共轭函数、proximal 算子需要凸函数理论
→ 内部 专题2 分离定理 → KKT 条件 → 对偶理论的几何根源
→ 内部 专题3 强凸 + L-光滑 → 收敛率分析的两个关键参数
→ 第五批E Certifiable SLAM Krein-Milman 定理 → SDP 最优解的秩1分解
→ 第七批2 摩擦锥 二阶锥 SOC 就是 Coulomb 摩擦锥

4.2 专题1b:共轭函数、Fenchel 对偶、proximal 算子与 Moreau 包络

这是凸分析的"高级词汇"——proximal 算子是 ADMM/分裂法的核心引擎,Moreau 包络是非光滑函数的光滑逼近。

字段 内容
学时 15–20h
教材 Parikh & Boyd Proximal Algorithms (2014, 免费) + Rockafellar §12,23,26 + Bauschke-Combettes(免费PDF)

标志性公式

Fenchel 共轭\(f^*(y) = \sup_x \{\langle y, x \rangle - f(x)\}\)

Fenchel-Young 不等式\(f(x) + f^*(y) \ge \langle x, y \rangle\),等号 ⟺ \(y \in \partial f(x)\)。这个不等式是对偶理论的微观基础。

Proximal 算子\(\mathrm{prox}_f(v) = \arg\min_x \left\{ f(x) + \frac{1}{2}\|x-v\|^2 \right\}\)

proximal 算子的物理直觉是"在最小化 \(f\) 的同时不要离 \(v\) 太远"——ADMM 每步的 x-update 和 z-update 都是 prox 计算。

常见 proximal 算子速查

函数 \(f\) \(\mathrm{prox}_{\lambda f}(v)\) 名称
\(\|x\|_1\) $\mathrm{sign}(v) \odot \max( v
\(\delta_C(x)\)(指示函数) \(\mathrm{proj}_C(v)\) 投影
\(\frac{1}{2}\|Ax-b\|^2\) \((I+\lambda A^TA)^{-1}(v+\lambda A^Tb)\) 岭回归
\(\|X\|_*\)(核范数) \(U\,\mathrm{soft}_\lambda(\Sigma)\,V^T\) 奇异值软阈值

连接网络

方向 目标 具体连接
→ 专题3 FISTA = proximal gradient + Nesterov 动量 prox 是复合优化的核心算子
→ 专题3 ADMM 的 x/z-update 都是 prox 计算 OSQP 底层即 ADMM
→ 第五批F M-estimator 的鲁棒化 = proximal 视角下的迭代重加权 GNC-TLS 与 proximal 的关系
→ 第七批2 摩擦锥投影 = \(\mathrm{prox}_{\delta_{\mathrm{SOC}}}\) MuJoCo 的接触求解含锥投影

4.3 专题2:凸优化问题类型与对偶理论

KKT 条件是整个链3(优化枢纽链)的统一语言——MPC 的约束、SLAM 的边缘化、接触力学的互补、RL 的约束策略,全部归结为不同形式的 KKT 系统。

字段 内容
学时 20–25h
教材 Boyd Ch.4–5(对偶)+ Ben-Tal & Nemirovski(锥对偶,免费PDF)+ Nocedal Ch.12(KKT/LICQ)

锥优化层级

\[\text{LP} \subset \text{QP} \subset \text{QCQP} \subset \text{SOCP} \subset \text{SDP} \subset \text{一般凸}\]

每一级都有专门的高效求解器:LP(Simplex/IPM) · QP(OSQP/qpOASES/HPIPM) · SOCP(ECOS) · SDP(SCS/Clarabel/MOSEK)。

KKT 条件——链3的核心

\[\nabla f(x^*) + \sum_i \lambda_i^* \nabla g_i(x^*) + \sum_j \nu_j^* \nabla h_j(x^*) = 0 \quad (\text{stationarity})$$ $$\lambda_i^* g_i(x^*) = 0,\quad \lambda_i^* \ge 0,\quad g_i(x^*) \le 0 \quad (\text{complementarity + dual/primal feasibility})\]

KKT 的几何含义:"梯度 = 约束法锥中的线性组合"——凸问题中 KKT 是充要条件(需 Slater 条件保证强对偶),非凸问题中只是必要条件(需约束品性 LICQ/MFCQ)。

连接网络

方向 目标 具体连接
→ 第三批3.5 LQR = 无约束 QP 的闭式解(Riccati)
→ 第三批3.11 MPC = 带约束的 QP/NLP,每步解一个 KKT 系统
→ 第五批B BA = 无约束 WNLS(等价于 KKT 中 λ=0 的情形)
→ 第五批E SE-Sync = SDP 松弛 + 对偶证书
→ 第七批1 LCP = KKT 的互补特化 \(0 \le \lambda \perp g(x) \le 0\)
→ 第七批6 CI-TO = MPCC(互补约束的 KKT 是非标准的)
≡ 统一 链3全部 KKT 是机器人优化的 lingua franca

4.4 专题3:从梯度下降到内点法

本模块的核心工程问题:给定一个凸优化问题,应当选择哪种算法?它在机器人系统的实时闭环里跑得够快吗?为什么?

字段 内容
学时 25–30h
教材 Boyd §9–11 + Nesterov Ch.2,5 + Beck Ch.10 + Boyd ADMM综述 + Bubeck综述
核心定理 (12) 下降引理 · GD凸\(O(1/k)\) · GD强凸\((1-\mu/L)^k\) · Nesterov \(O(1/k^2)\) · Nesterov下界 · FISTA \(O(1/k^2)\) · ADMM \(O(1/k)\) · DR=ADMM on dual · IPM \(O(\sqrt{m}\log(1/\varepsilon))\) · Frank-Wolfe \(O(1/k)\) · Mirror Descent · 次梯度\(O(1/\sqrt{k})\)

六大算法板块

板块 学时 核心内容 关键洞察
A: GD 完整理论 4h Armijo 回溯 + 凸/强凸收敛率 条件数 \(\kappa=L/\mu\) 决定迭代次数
B: Nesterov 加速 5h Estimate sequence / ODE 极限 / PEP \(O(1/k^2)\) 是黑箱一阶方法的理论极限
C: Proximal/FISTA 4h \(\min f(x)+g(x)\),ISTA→FISTA Lyapunov 函数 \(t_k^2(F(x_k)-F^*)+\frac{1}{2}\|\cdots\|^2\)
D: ADMM 4h 增广 Lagrangian + DR 等价性 ADMM = DR on dual;OSQP 是 MPC 的 QP 后端
E: 内点法 4h Log-barrier + 中心路径 + self-concordance MPC 用 IPM(HPIPM),SLAM 用 GN(Ceres)
F: 其他方法 2h Frank-Wolfe / Mirror Descent / SGD 核范数球用 FW;单纯形用 Mirror;有限和用 SVRG

常见陷阱

Polyak 动量(heavy ball)在非二次凸上没有加速保证——Lessard et al. 2016 通过 IQC 分析框架证明 heavy ball 在一般强凸情形下劣于 Nesterov 加速法。只有 Nesterov 形式的动量才有 \(O(1/k^2)\) 理论保证。ADMM 的 ρ 参数选取——ρ 太大则 x-update 太"硬",ρ 太小则对偶收敛慢;OSQP 的自适应 ρ 策略是工程首选。IPM 不是 SQP——Ipopt 是 primal-dual 内点法 + filter line-search,常被误称 SQP。

三条必推公式

定理2(GD 凸 \(O(1/k)\):若 \(f\) 凸且 L-光滑,步长 \(\alpha=1/L\),则

\[f(x_k) - f^* \le \frac{L\|x_0-x^*\|^2}{2(k+1)}\]

证明核心:下降引理给单步上界 → 凸性给 \(f(x^*) \ge f(x_k) + \nabla f(x_k)^T(x^*-x_k)\) → 两式合并+电话求和。3–4 行即可完成,是最值得手推的收敛证明。

定理4(Nesterov 加速 \(O(1/k^2)\):对 L-光滑凸 \(f\),AGD 满足

\[f(x_k) - f^* \le \frac{2L\|x_0-x^*\|^2}{(k+1)^2}\]

强凸时率改善为 \((1-\sqrt{\mu/L})^k\)——把条件数 \(\kappa\) 变成 \(\sqrt{\kappa}\)\(\kappa=10^4\) 时,GD 需要 ~\(10^5\) 步,AGD 只需 ~\(10^3\) 步。

定理5(Nesterov 下界):存在 L-光滑凸函数使得**任何**黑箱一阶方法满足

\[f(x_k) - f^* \ge \frac{3L\|x_0-x^*\|^2}{32(k+1)^2}\]

这条定理证明 \(O(1/k^2)\) 是**不可再改进的**理论极限。证明核心:构造"最坏二次函数"使前 \(k\) 步只能探索 \(k\) 维子空间。

连接网络

方向 目标 具体连接
← 专题1a 强凸/L-光滑的定量刻画 → 收敛率分析的两个关键参数
← 专题1b FISTA = proximal gradient + Nesterov 动量
→ 第三批3.12 MPC 实时求解 = IPM(HPIPM) 的热启动 + RTI(Real-Time Iteration)
→ 第五批B BA = GN + Schur 补 → Ceres/GTSAM
→ 第六批6.2 策略梯度 = 随机梯度下降在策略空间上的特例
≡ 统一 OSQP(ADMM) → MPC 的 QP 后端;HPIPM(IPM) → Riccati 加速的结构化 IPM

4.5 专题4:非线性优化

机器人实际问题几乎都是**非凸**的——凸优化提供理论框架和下界,但你每天调用的 Gauss-Newton、LM、SQP 都在这里。Boyd 教你"什么是最优",Nocedal 教你"怎么找到最优"。

字段 内容
学时 25–30h
教材 Nocedal & Wright Numerical Optimization ★ + Absil(免费) + Boumal 2023(免费)
前置 专题1a–3(凸分析 + 算法提供对比基准)

核心算法谱系

算法 适用场景 核心公式 收敛性 工程实现
Gauss-Newton 最小二乘 \(\min\|r(x)\|^2\) \(J^TJ\,\delta x = -J^Tr\) 零残差时**二次**;大残差时线性 Ceres · GTSAM
Levenberg-Marquardt GN + 正则化 \((J^TJ + \lambda I)\delta x = -J^Tr\) 全局收敛+局部二次 Ceres · g2o
Trust-region (Dogleg) 一般无约束 \(\min_p m(p)\) s.t. \(\|p\| \le \Delta\) 全局收敛(Conn-Gould-Toint) GTSAM Dogleg
BFGS / L-BFGS 大规模无约束 拟 Newton 更新,O(n) 存储 超线性(Dennis-Moré 条件) SciPy · NLopt
SQP 约束 NLP 每步解一个 QP 子问题 全局(merit/filter) SNOPT · acados
Riemannian GD/Newton 流形约束 retraction + 切空间操作 Boumal 2019: \(O(1/\varepsilon^2)\) Manopt · SE-Sync

Gauss-Newton 的推导——SLAM 后端的数学基石

非线性最小二乘 \(\min_x \frac{1}{2}\|r(x)\|^2\),将残差在当前点 \(x_k\) 处线性化:

\[r(x_k + \delta x) \approx r(x_k) + J_k\,\delta x, \qquad J_k = \frac{\partial r}{\partial x}\bigg|_{x_k}\]

代入目标函数并对 \(\delta x\) 求导置零,得**正规方程**:

\[\underbrace{J_k^T J_k}_{H_{\text{GN}}}\,\delta x = -J_k^T r_k\]

为什么 SLAM 用 GN 而不用 Newton? 因为 SLAM 的 Hessian \(H = J^TJ + \sum r_i \nabla^2 r_i\),其中二阶项 \(\sum r_i \nabla^2 r_i\) 在残差小时可忽略——恰好 SLAM 在收敛附近残差趋零,GN 近似是**精确的**。

LM = GN + 阻尼,有双重身份:(1) 正则化的 GN——\(\lambda\) 控制步长大小;(2) 信赖域的 Lagrangian 解——\(\lambda\) 是信赖域约束 \(\|\delta x\| \le \Delta\) 的对偶变量。

Schur 补技巧——BA 加速的秘密

BA 问题的正规方程 \(H\delta x = b\) 中,\(H\) 有**箭头稀疏结构**(相机-路标分块):

\[\begin{bmatrix} H_{cc} & H_{cl} \\ H_{lc} & H_{ll} \end{bmatrix} \begin{bmatrix} \delta c \\ \delta l \end{bmatrix} = \begin{bmatrix} b_c \\ b_l \end{bmatrix}\]

\(\delta l\) 做 Schur 消元:\((H_{cc} - H_{cl}H_{ll}^{-1}H_{lc})\delta c = b_c - H_{cl}H_{ll}^{-1}b_l\)

\(H_{ll}\) 是块对角的(路标之间独立),因此 \(H_{ll}^{-1}\) 可逐块 O(3³)=O(1) 求逆。整个 BA 的瓶颈从 \(O((n_c+n_l)^3)\) 降到 \(O(n_c^3)\)——这是 Ceres 和 GTSAM 做 BA 的核心加速策略。

关键收敛定理

定理 陈述 重要性
Zoutendijk 线搜索方法中 \(\sum_k \cos^2\theta_k \|\nabla f_k\|^2 < \infty\) 保证梯度→0 的**最基本**全局收敛工具
Dennis-Moré 拟 Newton 超线性收敛 ⟺ \(\|(B_k-\nabla^2 f^*)s_k\|/\|s_k\| \to 0\) 判断 BFGS 是否超线性
Conn-Gould-Toint Trust-region 方法全局收敛到一阶/二阶临界点 GTSAM Dogleg 的理论保证

连接网络

方向 目标 具体连接
← 第一批专题2 流形优化 = Retraction + 切空间上的欧氏优化
→ 第三批3.9 DDP/iLQR = 动态系统上的 Gauss-Newton 变体——Bellman 递推每步解一个 LQR
→ 第五批B GN/LM 是 SLAM 后端核心——BA 的 Schur 补利用路标独立性加速
→ 第五批E SE-Sync = Riemannian trust-region 在 Stiefel 流形上的应用
→ 第七批6 接触隐式优化需 MPCC 特殊的 NLP 求解策略(filter method)

常见陷阱

永远不要显式构造 \(J^TJ\)——其条件数是 \(J\) 的**平方**,数值精度直接腰斩。用 QR 分解 \(J = QR\) 后解 \(R\delta x = -Q^Tr\) 更稳定。Ceres 没有独立的 GN 求解器——GN 是 LM 在 λ→0 的极限;要纯 GN 用 GTSAM 的 GaussNewtonOptimizer混淆 Ipopt 和 SQP——Ipopt 是 primal-dual 内点法 + filter line-search,不是 SQP(虽然内部的 KKT 求解形式与 SQP 相似)。


4.6 专题5:自动微分与隐式微分

链式法则**这条看似简单的规则,升华为**连接机器人感知—控制—学习的主干算法语言

字段 内容
学时 30–35h
教材 Baydin et al. AD in ML (JMLR 2018, 综述) + Griewank Evaluating Derivatives (SIAM)

前向 vs 反向 AD

维度 前向模式 (JVP) 反向模式 (VJP)
数学本质 \(\dot{y} = \frac{\partial f}{\partial x}\dot{x}\)(Jacobian-vector product) \(\bar{x} = \frac{\partial f}{\partial x}^T\bar{y}\)(vector-Jacobian product)
实现方式 对偶数 \(x + \epsilon\dot{x}\)(Ceres Jet 计算图反向遍历(PyTorch backward
复杂度 O(n) 次前向 sweep 得完整 Jacobian O(1) 次反向 sweep 得完整梯度
最佳场景 输入维度小(\(n \ll m\) 输出维度小(标量损失函数——深度学习)
机器人库 Ceres Jet · CppAD JAX · PyTorch · MuJoCo MJX

隐式微分——让"优化层"可微

\[\text{给定 } z^*(\theta) = \arg\min_z F(z, \theta), \quad \text{由 IFT: } \frac{dz^*}{d\theta} = -\left(\frac{\partial^2 F}{\partial z^2}\right)^{-1}\frac{\partial^2 F}{\partial z \partial \theta}\]

为什么 IFT 优于"展开求解循环":展开 K 步迭代的反向传播需要 O(K) 内存且梯度会爆炸/消失;IFT 在收敛点处一步得到精确梯度,与迭代次数无关。OptNet、DEQ、Neural ODE adjoint 都用这个思路。

连接网络

方向 目标 具体连接
← B1 **隐函数定理**是隐式微分的数学基础
→ 第三批3.14 CasADi 符号 AD → ACADOS 代码生成 → kHz 级 MPC
→ 第四批4-5 Pinocchio 解析动力学微分 vs AD——解析更快但实现更复杂
→ 第七批4 可微接触 = AD + IFT 绕过互补约束的不可微性
→ 第八批 神经网络反向传播 = 反向模式 AD 的特例
≡ 统一 全路线 "策略梯度 vs 环境梯度"的选择 = REINFORCE(score function) vs 可微仿真(first-order gradient)

4.7 第二批教材总对比与工具链

教材推荐路线

阶段 教材 免费 覆盖专题 定位
① 工程入门 Boyd & Vandenberghe Convex Optimization 1a + 2 + 3(部分) 必读——凸集/凸函数/对偶/IPM 的工程标准
② 算法理论 Nesterov Lectures on Convex Optimization 2e 校园网 1a + 3 强凸/光滑定义出处、加速法原教旨、IPM self-concordance
③ 一阶方法 Beck First-Order Methods in Optimization 付费 1a + 1b + 3 PGM/FISTA 最详尽的现代教科书
④ 浓缩综述 Bubeck Convex Optimization: Algorithms and Complexity 3 120 页覆盖全部一阶方法 + 下界——档位4必读
⑤ ADMM 权威 Boyd et al. ADMM (FnT 2011) 3 ADMM + DR + consensus 的唯一综述
⑥ Proximal 速查 Parikh & Boyd Proximal Algorithms (FnT 2014) 1b prox 算子表 + 分裂法总论
⑦ 非线性优化 Nocedal & Wright Numerical Optimization 付费 4 GN/LM/BFGS/SQP/IPM 数值实现细节
⑧ 流形优化 Boumal 2023 + Absil 2008 ✅+✅ 4(部分) Riemannian 优化完整理论
⑨ AD 综述 Baydin et al. AD in ML (JMLR 2018) 5 前向/反向/源变换/算子重载全景
中文首选 刘浩洋等《最优化:建模、算法与理论》 3 + 4 中文最优秀的现代教材(北大,高教出版社)

工具链映射——从理论到代码

                凸分析(专题1)
              对偶理论/KKT(专题2)         非线性优化(专题4)
                    ↓                         ↓
        ┌──────────┼──────────┐              ↓
        ↓          ↓          ↓              ↓
      QP求解     SOCP求解   SDP求解    最小二乘(GN/LM)    SQP/IPM
        ↓          ↓          ↓              ↓              ↓
    ┌──────┐   ┌──────┐  ┌──────┐     ┌──────────┐   ┌──────────┐
    │ OSQP │   │ ECOS │  │ SCS  │     │  Ceres   │   │  Ipopt   │
    │qpOASES│  │Clarabel│ │MOSEK │     │  GTSAM   │   │  SNOPT   │
    │ HPIPM │   └──────┘  └──────┘     │   g2o    │   │  acados  │
    └──────┘                           └──────────┘   └──────────┘
        ↓                                   ↓              ↓
    MPC实时求解                         SLAM后端        轨迹优化
    (第三批3.12)                       (第五批B)       (第三批3.9)

求解器选型决策树

问题类型 规模 精度要求 推荐求解器 典型场景
无约束最小二乘 中小 Ceres(LM) / GTSAM(GN/Dogleg) BA、位姿图优化
稀疏最小二乘 GTSAM(iSAM2) 增量 SLAM
稠密 QP 机器精度 qpOASES(active set) 小型 MPC
稀疏 QP 中大 OSQP(ADMM) / HPIPM(IPM) 大型 MPC
SOCP ECOS / Clarabel 摩擦锥约束
SDP SCS / MOSEK Certifiable SLAM
通用 NLP Ipopt(IPM) / CasADi+Ipopt 轨迹优化
嵌入式 NLP acados(RTI+HPIPM) 实时 MPC
流形优化 Manopt / SE-Sync 旋转平均、PGO

经验法则:中小规模+高精度 → IPM(20–50步到机器精度);大规模+中精度 → 一阶法(ADMM/proximal)。MPC 常用 IPM(HPIPM),SLAM 常用 GN/LM(Ceres),两者的选择逻辑完全不同。

第二批常见陷阱大全

# 陷阱 正确理解
1 以为"凸优化=简单" 凸只是保证局部最优=全局最优,问题本身可能很大规模
2 Polyak 动量(heavy ball)有加速保证 ——仅对二次有效;非二次凸上 Lessard 2016 有反例
3 只学 Boyd 不学 Nocedal 机器人的大多数实际问题是**非凸**的,GN/LM/SQP 全在 Nocedal
4 ADMM 的 ρ 随便选 ρ 太大 x-update 太硬、太小对偶收敛慢;用 OSQP 的自适应策略
5 Ipopt 是 SQP ——Ipopt 是 primal-dual 内点法 + filter line-search
6 Ceres 有独立 GN 求解器 ——Ceres 的 GN 是 LM 在 λ→0 的极限;纯 GN 用 GTSAM
7 把"隐式微分"当成"数值微分" 隐式微分用 IFT 在收敛点解析求导;数值微分用有限差分近似
8 AD 万能,不需解析微分 Pinocchio 的解析微分比 AD 快数倍;复杂系统中 AD 编译时间可达小时级
9 可微仿真一定优于策略梯度 接触/混沌/刚性场景下一阶梯度可能爆炸;需 SHAC/randomized smoothing
10 忽略数值稳定性 \(J^TJ\) 的条件数是 \(J\) 的平方——永远不要显式构造 \(J^TJ\),用 QR 分解

4.8 第二批学习里程碑与自测

M-O1(完成专题1a–2后):能判断问题属于 LP/QP/SOCP/SDP 中的哪一类并选择对应求解器,能用 KKT 条件求解简单约束优化,能计算常见函数的次微分和 proximal 算子,能写出 Fenchel-Young 不等式并解释其几何含义。

M-O2(完成全部六专题后):能陈述并推导 GD 强凸线性收敛和 Nesterov \(O(1/k^2)\),能解释 ADMM 和 DR 的等价关系,能独立实现 Armijo 线搜索 + LM 算法,能区分前向/反向 AD 的适用场景,能用 IFT 推导可微 QP 层的梯度公式,能为一个具体的机器人优化问题选择正确的求解器。

核心自测题(7 道):

# 题目 档位 考察点
1 证明二阶锥 \(\{(x,t): \|x\| \le t\}\) 是凸集 3 凸集定义
2 推导 GD 在 μ-强凸 + L-光滑下的线性收敛率 \((1-\mu/L)^k\) 3 下降引理 + 强凸
3 LASSO \(\min \frac{1}{2}\|Ax-b\|^2 + \lambda\|x\|_1\) 的 ISTA 迭代格式 + FISTA 改进 3 proximal + 加速
4 \(\min \frac{1}{2}x^TAx - b^Tx\) s.t. \(Cx \le d\) 的 KKT 条件 + 互补松弛几何 3 KKT
5 QP 层 \(z^*(\theta) = \arg\min \frac{1}{2}z^TQz + p(\theta)^Tz\) 用 IFT 求 \(dz^*/d\theta\) 3 隐式微分
6 Nesterov 下界定理的核心论证思路("最坏二次函数") 4 下界理论
7 解释为什么 SLAM 后端用 GN/LM 而 MPC 用 IPM——从问题结构角度分析 3 工程选型

第五部分:第三批 — 最优控制与 MPC

5.0 第三批总论:从变分法到实时 MPC 的完整链路

第三批是规控理论的核心脊柱——从 1696 年 Bernoulli 的最速降线问题一路推进到 2024 年四足机器人 kHz 级全身 MPC。14 个专题按五个阶段展开,构成一条**从理论到工程的完整链路**,覆盖了机器人博士在规控方向所需的全部数学工具。本批与第六批(RL)存在深层概念对偶——同一个 Bellman 方程的确定性版本和随机版本分别在这两个批次中推导;LQR 同时是最优控制的"果蝇"和 RL 的精确特例。

字段 内容
总学时 160–220h(档位3);额外 80–120h(档位4)
专题数 14(3.1–3.14),分五阶段(Phase A–E)
核心教材 Bertsekas DP and OC I/II ★ · Kirk Optimal Control Theory ★ · Rawlings-Mayne-Diehl MPC ★ · Khalil Nonlinear Systems
C++ 库 ACADOS · Crocoddyl · CasADi+Ipopt · OCS2 · MJPC · Drake
前置 第零层(B1/B4) + 第二批(优化全部)
后续辐射 → 第六批(RL统一) · 第七批(接触隐式MPC)

五阶段架构

阶段 专题 主题 学时 核心产出
A 3.1–3.2 变分法/EL → PMP 20-25h 理解"沿最优轨迹的必要条件"
B 3.3–3.4 离散DP/Bellman → HJB/黏性解 22-27h 理解"场级充分条件"与维数灾难
C 3.5–3.6 LQR/LQG/Riccati → 辨识/鲁棒/频域 25-30h 四条路径汇聚到 Riccati
D 3.7–3.8 Lyapunov 完整理论 → CLF-CBF/QP安全 20-25h 非线性控制的数学根基 + 安全证书
E 3.9–3.14 DDP/iLQR → 约束DDP → MPC稳定性 → 数值求解 → 鲁棒/随机 → C++工程 75-115h 从理论到真机部署的完整链

关键内部依赖链

Phase A                                  Phase B
3.1(变分法/EL) → 3.2(PMP)               3.3(离散DP/Bellman) ←→ 第六批6.1(MDP)
       ↓               ↓                        ↓
       └──────── 3.4(HJB = PMP的对偶 = 连续DP) ←┘
Phase C                                          ↓
3.5(LQR: 四条路径→Riccati) ←→ 第六批6.4(LQR=RL特例)
3.6(辨识/鲁棒/频域)

Phase D
3.7(Lyapunov: class-K/KL, LaSalle, ISS) → 3.8(CLF-CBF/QP)
       ↓                                         ↓
Phase E                                           ↓
3.9(DDP/iLQR: 非线性的"递推LQR") → 3.10(约束DDP/Crocoddyl)
3.11(MPC稳定性: 四条件定理) ← 3.7(Lyapunov提供证明工具)
3.12(MPC数值求解: 转录+RTI+代码生成) ← 第二批(NLP/IPM)
3.13(鲁棒/随机MPC: Tube/Scenario/CC) ← 3.6(模型不确定性)
3.14(C++工程实践: ACADOS/Crocoddyl/OCS2全对比)

第三批完整内部 DAG

                    3.1(变分法/EL)
                    3.2(PMP)
                   ╱        ╲
                  ▼            ▼
            3.3(离散DP)    3.4(HJB/黏性解)
                  ╲        ╱       │
                    ▼    ▼         │
                  3.5(LQR/Riccati) │
                 ╱        │        │
                ▼         ▼        ▼
          3.6(辨识/鲁棒)  3.7(Lyapunov/ISS)
                │              │
                │              ▼
                │        3.8(CLF-CBF/QP)
                │              │
                ▼              │
          3.9(DDP/iLQR)◄──3.5 │
                │              │
                ▼              │
          3.10(约束DDP)        │
                │              │
                ▼              ▼
          3.11(MPC稳定性)◄──3.7,3.8
          3.12(MPC数值求解)◄──第二批(NLP/IPM)
          3.13(鲁棒/随机MPC)◄──3.6
          3.14(C++工程)

:TVLQR(有限时域 LQR)是 LQR(3.5)的特例,在 DDP(3.9)的 backward pass 中作为局部子问题出现;它并非有限时域 DP 的全部代表,仅是线性二次情形下的精确解。


5.1 Phase A:经典最优控制(专题 3.1–3.2)

专题 3.1 变分法与 Euler-Lagrange 方程

变分法是最优控制的历史原点——核心思想是将"求最优函数"化为解微分方程边值问题。

字段 内容
学时 10–12h
前置 B1(多元微积分/Taylor)+ 第一批流形基础
教材 Gelfand & Fomin ★ · Liberzon · Kirk Ch.4

核心模块路径

模块 内容 学时
泛函与变分概念 Gâteaux/Fréchet 导数,弱/强极值,容许函数空间 3h
EL 方程推导 第一变分 + 分部积分 + 变分引理(du Bois-Reymond) 4h
经典案例 最速降线/悬链线/测地线/minimum-snap 2h
约束变分 等周约束/holonomic/Lagrange 乘子/横截条件 3h

Euler-Lagrange 方程

\[\boxed{\frac{\partial L}{\partial y} - \frac{d}{dx}\frac{\partial L}{\partial y'} = 0}\]

推导核心:(1) 取扰动 \(y_\varepsilon=y+\varepsilon\eta\)\(\eta(a)=\eta(b)=0\);(2) 对 \(\frac{\partial L}{\partial y'}\eta'\) 分部积分,边界项靠端点条件消去;(3) 变分引理\(\int f\eta\,dx=0\) 对所有 \(\eta\)\(f\equiv 0\)

经典案例对照表

问题 Lagrangian EL方程/解 工程联系
最速降线 \(\sqrt{(1+y'^2)/(2gy)}\) Beltrami→摆线 时间最优规划原型
测地线 \(\sqrt{g_{ij}\dot{x}^i\dot{x}^j}\) \(\ddot{x}^k+\Gamma^k_{ij}\dot{x}^i\dot{x}^j=0\) SO(3)/SE(3)上插值
Lagrange力学 \(T-V\) \(\frac{d}{dt}\frac{\partial L}{\partial\dot{q}}-\frac{\partial L}{\partial q}=\tau\) 机器人动力学方程→第四批
Minimum-snap \(\int\|x^{(4)}\|^2dt\) 7阶多项式段 四旋翼轨迹

Noether 定理:连续对称性→守恒量(时间不变→能量守恒;旋转不变→角动量守恒)。→ 第四批4-7辛结构/动量映射。

专题 3.2 Pontryagin 极大值原理(PMP)

PMP 从"无约束变分"跃迁到"有约束最优控制"——引入**共态变量** \(\lambda\)(Lagrange 乘子的连续版本)和 Hamiltonian \(H\)

字段 内容
学时 10–15h
教材 Kirk Ch.5 · Liberzon Ch.4 · Bertsekas Vol.II Ch.3

PMP 核心陈述(本节采用极小化约定,即 Kirk/Bertsekas 风格):

\[H(x,u,\lambda) = \ell(x,u) + \lambda^T f(x,u)\]
\[\dot{x} = \frac{\partial H}{\partial\lambda},\qquad \dot{\lambda} = -\frac{\partial H}{\partial x},\qquad u^* = \arg\min_{u\in\mathcal{U}} H\]

符号约定说明:本节 \(H_{\min}=\ell+\lambda^Tf\),对 \(u\) 极小化。专题 3.2 采用 Pontryagin 原始的极大化约定 \(H_{\max}=\lambda^Tf-\lambda_0 L\),对 \(u\) 极大化。两种约定通过 \(\lambda_{\min}=-\lambda_{\max}\) 等价互换:\(\min H_{\min} \Leftrightarrow \max H_{\max}\)。查阅专题 3.2 §3.2.2 的对照表以了解两者对应关系。

共态 \(\lambda(t)\) 的物理含义\(\lambda(t) = \partial V^*/\partial x\) 是值函数对状态的梯度,即"从 \(t\) 到终端的边际代价"——状态 \(x\)\(t\) 时刻偏离一点,对未来总代价的影响。在 RL 语境下对应值函数的空间梯度 \(\nabla_s V(s)\),而非 advantage function \(A(s,a)=Q(s,a)-V(s)\)

EL / PMP / HJB 三角对比

适用范围 信息类型 维数依赖 处理控制约束
EL 无控制约束 必要条件(轨迹级) ODE
PMP 有控制约束 必要条件(轨迹级) ODE (\(2n+m\))
HJB 一般 充分条件(场级) PDE(\(n\)维)

5.2 Phase B:动态规划(专题 3.3–3.4)

专题 3.3 离散动态规划与 Bellman 方程

本专题与第六批 6.1(MDP)共享同一个 Bellman 方程——链5的核心节点。

字段 内容
学时 10–12h
教材 Bertsekas DP and OC Vol.I ★

Bellman 方程(有限时域,确定性):

\[V_k(x) = \min_u\left\{\ell(x,u) + V_{k+1}(f(x,u))\right\},\quad V_N(x)=\ell_f(x)\]

无限时域(折扣)\(V^*(x) = \min_u\{\ell(x,u)+\gamma V^*(f(x,u))\}\) — 不动点方程 \(V^*=TV^*\)\(T\)\(\ell^\infty\)\(\gamma\)-压缩(链2第三次现身

控制-学习对偶表

确定性版本(3.3) 随机版本(6.1)
\(V_k(x)=\min_u\{\ell+V_{k+1}(f)\}\) \(V(s)=\min_a\{r+\gamma\sum P(s'\|s,a)V(s')\}\)
动力学 \(f(x,u)\) 转移概率 \(P(s'\|s,a)\)
确定性最优控制 随机 MDP
DP 后向递推 值迭代/策略迭代

Bertsekas(2019) 的核心贡献正是在一本书内统一这两列。 左列是 Phase B,右列是第六批——理解它们是同一方程是 E 型综合方向的最大竞争优势。

专题 3.4 HJB 方程与黏性解

\[-\frac{\partial V}{\partial t} = \min_u\left\{\ell(x,u)+\nabla_x V^T f(x,u)\right\}\]
字段 内容
学时 12–15h
教材 Bertsekas Vol.I Ch.3 · Bardi-Capuzzo Dolcetta

黏性解(Crandall-Lions 1983):值函数在最优切换点不可微(bang-bang 控制的"折痕"),经典 PDE 解不存在。黏性解用上/下半连续包络替代经典导数——保证存在唯一。这是 B3 泛函弱拓扑思想在 PDE 中的具体实例。

维数灾难量化\(n\)维状态空间,\(N_{\text{grid}}=100\) 网格点/维,所需网格数 \(=100^n\)

状态维度 \(n\) 系统举例 网格点数 可行性
2 倒立摆 \(10^4\) ✅ 秒级
4 小车-摆 \(10^8\) ⚠️ 分钟级
6 平面三连杆 \(10^{12}\)
12 6-DoF 刚体 \(10^{24}\) ❌❌❌

这就是为什么 DDP/iLQR 和 MPC 的"沿轨迹展开"策略如此重要——放弃全空间最优性,换来高维可计算性。HJB 在 \(n \le 4\) 的系统中仍有价值(Reachability 安全集计算)。


5.3 Phase C:线性理论(专题 3.5–3.6)

专题 3.5 LQR/LQG 与 Riccati 方程

LQR 是整个最优控制理论中**唯一一个**能被四套机器同时闭式求解的问题——答案汇聚到 Riccati 方程。Fazel et al. (ICML 2018) 称之为"RL 理论的 benchmark"。

字段 内容
学时 12–15h
教材 Bertsekas Vol.I Ch.4 ★ · Anderson-Moore Optimal Filtering
下游 → 3.9(DDP backward=递推TVLQR) · → 3.11(MPC终端代价=\(P_\infty\)) · → 6.4(LQR=RL特例)

连续时间 LQR:系统 \(\dot{x}=Ax+Bu\),代价 \(J=\frac{1}{2}\int(x^TQx+u^TRu)dt+\frac{1}{2}x(T)^TQ_fx(T)\)

从 HJB 到 Riccati:设 \(V(x,t)=\frac{1}{2}x^TP(t)x\)(二次 Ansatz),代入 HJB 对 \(u\) 极小化得 \(u^*=-R^{-1}B^TPx\),提取系数:

\[\boxed{-\dot{P}=A^TP+PA-PBR^{-1}B^TP+Q,\quad P(T)=Q_f \qquad\text{(RDE)}}\]

为什么闭式不是巧合:(i)线性动力学 → 对 \(x\) 仿射;(ii)二次代价 → 正定二次型;(iii)叠加原理 → 值函数必为 \(x\) 的二次型。破坏任一条(非线性/非凸/约束)都毁掉闭式性——这解释了 iLQR 为什么"在轨迹附近线性化+二次化,把 LQR 当子程序反复使用"。

四条路径汇聚表

# 路径 出发点 到达方式
1 HJB \(V=\frac{1}{2}x^TPx\) 提取 \(x^T(\cdot)x\) 系数
2 DP 离散 Bellman + 二次 Ansatz 矩阵递推取极限 \(\Delta t\to 0\)
3 PMP \(\lambda=Px\) 代入 Hamilton 方程组 消去 \(\lambda\) 得 Riccati
4 完备平方 直接把 \(J\) 配成完备平方 纯代数

无限时域 CARE/DARE\(T\to\infty\)\(P(t)\to P_\infty\),满足代数 Riccati 方程。\(K_\infty=R^{-1}B^TP_\infty\) 给出稳态反馈。

MPC 终端代价常取 \(V_f(x)=\frac{1}{2}x^TP_\infty x\)——因为 \(P_\infty\) 恰好满足 MPC 稳定性四条件中"终端代价是局部 Lyapunov 函数"的要求(→ 3.11)。

LQG 分离原理:状态不可直接观测时,最优策略 = Kalman 滤波器 + LQR 独立设计。非线性下此分离**不成立**(EKF+LQR 只是近似)。

LQR-RL 连接(链5核心)\(V^*(x)=\frac{1}{2}x^TP_\infty x\) 就是 RL 的 Q-function 在二次假设下的闭式。Fazel 2018 证明策略梯度优化 \(J(K)\) 虽非凸但满足 PL 不等式——梯度下降全局收敛到 \(K^*\)LQR 是 RL 与控制统一的精确缝合点。

专题 3.6 辨识、鲁棒控制与频域

字段 内容
学时 15–20h
教材 Ljung · Zhou-Doyle-Glover · Skogestad-Postlethwaite

三合一:模型从哪来(辨识)+ 模型不准怎么办(鲁棒 \(H_\infty\))+ 频率域分析(Bode/Nyquist/奇异值)。

\(H_\infty\) 的 game-theoretic Riccati 与 LQR 形式惊人相似——区别在于多了对抗扰动的"极大化"项。解读:对手选最坏扰动、控制器选最优响应——零和博弈。


5.4 Phase D:稳定性与安全(专题 3.7–3.8)

专题 3.7 Lyapunov 稳定性理论

Lyapunov 的三重定位:(1) 非线性控制的**几何直觉**——\(V\) 的 level set = 能量等值面;(2) "证书"思想的原型——safe RL 的 barrier/stability certificate 都是变体;(3) 前沿计算主战场——SOS/SMT/neural Lyapunov。

字段 内容
学时 12–15h
前置 B4 ODE
教材 Khalil 3e Ch.4 ★ · Slotine-Li Ch.3–4

比较函数:现代非线性控制的通用货币

类别 定义 直觉 用途
class-\(\mathcal{K}\) 连续、严格递增、\(\alpha(0)=0\) "放大镜" 界的上/下边
class-\(\mathcal{K}_\infty\) \(\mathcal{K}\) + 无界 "无穷放大镜" 全局界(radially unbounded)
class-\(\mathcal{KL}\) \(r\)\(\mathcal{K}\),对 \(s\) 递减到0 "先放大后衰减" GAS 等价\(\|x(t)\|\le\beta(\|x_0\|,t)\)

Lyapunov 直接法——核心定理链

\[V(x)>0,\ V(0)=0\quad\text{(正定)}\qquad+\qquad\dot{V}=\nabla V^Tf(x)\le 0\quad\text{(半负定)}\]
\[\Downarrow\]
\[\text{稳定(S)}\quad\xrightarrow{\dot{V}<0}\quad\text{渐近稳定(AS)}\quad\xrightarrow{V\text{ radially unbounded}}\quad\text{全局渐近稳定(GAS)}\]

**全局版本**需 \(V\) radially unbounded:\(\alpha_1(\|x\|)\le V(x)\le\alpha_2(\|x\|)\)\(\alpha_1,\alpha_2\in\mathcal{K}_\infty\)

指数稳定的二次夹\(c_1\|x\|^2 \le V(x) \le c_2\|x\|^2\)\(\dot{V}\le -c_3\|x\|^2\)\(\|x(t)\|\le\sqrt{c_2/c_1}\|x_0\|e^{-(c_3/2c_2)t}\)

LaSalle 不变原理

最常见工程情形:\(\dot{V}\le 0\) 但不严格负定(如机械系统的总能量)。LaSalle:轨迹收敛到 \(E=\{\dot{V}=0\}\) 内的**最大不变集** \(M\)。若 \(M=\{0\}\),则 AS。

ISS——非线性鲁棒性的统一语言

真实机器人总带扰动。Sontag 1989

\[\|x(t)\|\le\beta(\|x_0\|,t)+\gamma(\|u\|_{[0,t]}),\quad\beta\in\mathcal{KL},\ \gamma\in\mathcal{K}\]

ISS-Lyapunov 充要条件\(\dot{V}\le-\alpha(\|x\|)+\sigma(\|u\|)\)

ISS 小增益定理(Jiang-Teel-Praly 1994):两个 ISS 子系统级联反馈,若 \(\gamma_1\circ\gamma_2<\mathrm{id}\),则整体 ISS——分布式控制、观测器-控制器分离的核心。

Lyapunov 方程(线性系统的完备判据)

\(A\) Hurwitz ⟺ 对任意 \(Q\succ 0\)\(A^TP+PA=-Q\) 有唯一解 \(P\succ 0\)

这是 LQR Riccati 退化为线性时的产物,也是 **LMI 设计**的起点。

连接网络

方向 目标 连接
← B4 ODE 稳定性 Lyapunov 是 B4 的自然延伸
→ 3.8 CLF/CBF CLF = "选 \(u\) 使 \(\dot{V}<0\)";CBF = "选 \(u\) 使 \(\dot{h}>0\)"
→ 3.11 MPC 终端代价 \(V_f\) 必须是局部 Lyapunov 函数
→ 6.5 SA-ODE Lyapunov 分析 TD/Q-learning 的确定性 ODE 极限
一条方法贯穿 ODE → MPC → RL

常见陷阱

Lyapunov 函数不必是能量——能量常是好候选但不唯一;SOS 和 neural Lyapunov 搜索更通用的 \(V\)线性化在纯虚特征值时失效——必须用直接法(这在机器人中极常见:skew-symmetric 项产生纯虚根)。逆定理的哲学价值:Massera/Kurzweil 证明 GAS ⟹ 存在 \(C^\infty\) Lyapunov 函数——不存在比 Lyapunov 更强的方法,找不到只是算力不足。

专题 3.8 CLF-CBF 与 QP 综合安全控制

CBF 是"安全"的 Lyapunov——CLF 保证收敛(\(\dot{V}\le-\alpha V\)),CBF 保证安全(\(\dot{h}\ge-\gamma h\))。

字段 内容
学时 10–12h
教材 Ames et al. survey 2019

CLF-CBF-QP

\[\min_u \|u-u_{\text{nom}}\|^2 \quad\text{s.t.}\quad \underbrace{L_fV+L_gV\cdot u\le-\alpha(V)}_{\text{CLF:收敛}},\quad \underbrace{L_fh+L_gh\cdot u\ge-\gamma(h)}_{\text{CBF:安全}}\]

QP——线性约束+二次目标——每个控制周期在线求解,计算量 \(\mu\)s 级。当 CLF 和 CBF 冲突时,松弛 CLF 保 CBF(安全优先于性能)。


5.5 Phase E:MPC 工程链(专题 3.9–3.14)

专题 3.9 DDP/iLQR——非线性最优控制的"工作马"

DDP 把 PMP、DP、LQR 三条理论线拧成可运行代码。 核心:沿名义轨迹对 Bellman 方程做**二阶 Taylor 展开**,局部子问题 = TVLQR,用 Riccati 后向递推解出 \(\delta u^*=k+K\delta x\),前向 rollout 得新轨迹,迭代收敛。

字段 内容
学时 12–15h
教材 Tassa-Erez-Todorov 2012 · Li-Todorov 2004 (iLQR)
C++ 库 Crocoddyl · MJPC · ALTRO

DDP Backward Pass 完整推导

沿名义轨迹定义 \(Q\) 函数的二阶展开系数:

\[Q_x=\ell_x+f_x^TV'_x,\quad Q_u=\ell_u+f_u^TV'_x\]
\[Q_{xx}=\ell_{xx}+f_x^TV'_{xx}f_x+\underbrace{V'_x\cdot f_{xx}}_{\text{DDP only}},\quad Q_{uu}=\ell_{uu}+f_u^TV'_{xx}f_u+\underbrace{V'_x\cdot f_{uu}}_{\text{DDP only}}\]
\[Q_{ux}=\ell_{ux}+f_u^TV'_{xx}f_x+\underbrace{V'_x\cdot f_{ux}}_{\text{DDP only}}\]

\(\delta u\) 解析极小化:

\[\boxed{\delta u^*(\delta x)=\underbrace{-Q_{uu}^{-1}Q_u}_{k\text{(前馈)}}+\underbrace{(-Q_{uu}^{-1}Q_{ux})}_{K\text{(反馈)}}\delta x}\]

值函数更新:\(V_x=Q_x-K^TQ_{uu}k\)\(V_{xx}=Q_{xx}-K^TQ_{uu}K\)

iLQR = DDP - 三阶张量:丢弃 \(V'_x\cdot f_{xx/ux/uu}\),只保留 \(f_x,f_u\) 一阶导数。实践中精度已足够——Crocoddyl 默认 iLQR。

\[\hat{u}_k=\bar{u}_k+\alpha k_k+K_k(\hat{x}_k-\bar{x}_k),\quad\hat{x}_{k+1}=f(\hat{x}_k,\hat{u}_k)\]

\(K\) 反馈项**不随 \(\alpha\) 缩放**——大步长下仍保持轨迹跟踪,是 DDP 隐式非线性的来源。

DDP 与其他方法的关系

视角 等价/关系
DDP backward = 递推 TVLQR(每步一个线性化 LQR 子问题)
DDP ≈ 射击法表述下的 Gauss-Newton(Bellman 结构分解)
iLQR = DDP 的**一阶近似**
FDDP(Crocoddyl) = 可行 DDP(保证每步 rollout 可行)

专题 3.10 约束 DDP 家族与 Crocoddyl

从教科书 iLQR 到真机 whole-body MPC——处理关节极限(box)、碰撞避免(inequality)、接触力平衡(equality)。

字段 内容
学时 10–12h
教材 Mastalli Crocoddyl ICRA 2020 · Howell ALTRO IROS 2019

Crocoddyl 的 ProxDDP(Jallet-Bambade-Mansard 2022)用 proximal augmented Lagrangian 统一约束处理,避免 active-set 在高维中的组合爆炸。ALTRO 用 augmented Lagrangian + cone projection。

专题 3.11 MPC 稳定性理论——四条件定理

MPC 闭环稳定性不是求解器出来的,而是终端代价/终端集/阶段代价/水平长度四件套共同构造的 Lyapunov 函数给出的。

字段 内容
学时 10–12h
教材 Rawlings-Mayne-Diehl Ch.2 ★ · Mayne et al. Automatica 2000

MPC 标准形式

\[V_N^*(x)=\min_{\mathbf{u}}\sum_{k=0}^{N-1}\ell(x_k,u_k)+V_f(x_N),\quad\text{s.t. }x_{k+1}=f(x_k,u_k),\ x_N\in X_f\]

Mayne-Rawlings-Rao-Scokaert 2000 四条件

条件 数学表述 工程含义
(A1) \(\forall x\in X_f: f(x,\kappa_f(x))\in X_f\) 终端集内有局部控制器"接管"
(A2) \(V_f(f(x,\kappa_f))-V_f(x)\le-\ell(x,\kappa_f)\) 终端代价在终端集内递减
(A3) \(\ell(x,u)\ge\alpha(\|x\|)\), \(\alpha\in\mathcal{K}\) 阶段代价"看到"偏差
(A4) \(V_f(x)\le\alpha_2(\|x\|)\), \(\alpha_2\in\mathcal{K}_\infty\) 终端代价不爆炸

四条件满足时\(V_N^*(x)\) 自动成为闭环 Lyapunov 函数——每步 MPC 后代价严格下降。最常用实例化\(V_f=\frac{1}{2}x^TP_\infty x\)(LQR 的 DARE 解),\(X_f\)=LQR 正不变集,\(\kappa_f=-K_\infty x\)

无终端约束的 MPC(Grüne-Pannek 2017):\(N\) 足够大时即使去掉 \(X_f\) 也可稳定,但需 exponential controllability 假设和稳定性余量 \(\alpha_N>0\)经验法则\(N\ge 2n/n_u\) 通常足够。

专题 3.12 MPC 数值求解与实时实现

字段 内容
学时 10–12h
教材 Rawlings Ch.8 · Diehl NMPC tutorial 2009

三大转录方法

方法 决策变量 稀疏结构 优势 劣势
单射击 \(u_{0:N-1}\) 稠密 变量少 不稳定系统前向发散
多射击 \(u,x\) 块三对角 并行+稳定 变量多
直接配点 \(u(t),x(t)\)节点 超稀疏 高阶精度 实现复杂

RTI(Real-Time Iteration):每控制周期只做**一步 SQP/QP**,用上一时刻解热启动。正当性:Diehl 2005 "一步偏差→闭环收缩"。ACADOS 默认 RTI。

HPIPM 的 Riccati 加速(Frison-Diehl 2020):MPC 的时域 QP 利用动态规划结构用 Riccati 递推替代通用 IPM,复杂度从 \(O(N^3(n+m)^3)\) 降到 \(O(N(n+m)^3)\)——kHz 级全身 MPC 的秘密

专题 3.13–3.14 速查

专题 一句话 学时 关键内容
3.13 鲁棒/随机MPC 从名义模型走向真实世界 8-10h Tube-MPC:名义轨迹+"管道"(宽度由ISS增益决定);Scenario-MPC:采样扰动路径求同时可行解;CC-MPC\(P(\text{违约})\le\epsilon\)
3.14 C++工程 理论→真机 8-10h ACADOS(嵌入式) vs Crocoddyl(全身) vs CasADi(原型) vs OCS2(ROS) vs Drake(教学)

5.6 第三批教材总对比

教材 覆盖 难度 免费 最佳角色
Bertsekas DP&OC I/II A+B+C ★★★★ 理论主参考
Kirk OC Theory A+B+C ★★★ 经典入门
Rawlings-Mayne-Diehl MPC E ★★★★ MPC稳定性圣经
Khalil Nonlinear Systems D ★★★★ Lyapunov/ISS百科
Liberzon Calculus of Variations A ★★★ 变分法→PMP最优雅叙事
Borrelli Predictive Control C+E ★★★ 线性MPC最完整
Diehl NMPC tutorial 2009 E ★★★ RTI/多射击/代码生成入门

C++ 库对比

NLP方法 QP后端 最佳场景 活跃度
ACADOS 多射击+RTI HPIPM 嵌入式实时MPC(µs-ms)
Crocoddyl DDP/FDDP+ProxDDP 内置 全身运动控制
CasADi+Ipopt DirCol/多射击 Ipopt(IPM) 原型验证
OCS2 DDP+SLQ 内置 ROS集成MPC
MJPC iLQR+sampling MuJoCo交互式
Drake 多射击/DirCol SNOPT/Ipopt 通用轨迹优化

5.7 第三批连接网络总结

连接 来源→目标 本质
3.3 ←→ 6.1 同一 Bellman 方程(确定性 vs 随机)
3.5 ←→ 6.4 同一问题(LQR = 线性高斯 RL)
3.4 ←→ 6.3 HJB(连续时间 PDE)与 TD 学习(离散采样更新)同出 Bellman 方程
3.7→3.8→3.11→6.5 Lyapunov 贯穿链
3.5→3.9→3.10→3.12 算法进化:LQR→DDP→约束DDP→实时MPC
第二批IPM→3.12 HPIPM Riccati 加速 = LQR 递推在 IPM 内的应用
第四批RNEA→3.9 DDP DDP 每步调用 RNEA + \(\partial\)RNEA/\(\partial q\)

常见陷阱大全

# 陷阱 正确理解
1 DDP = SQP DDP 是 DP 方法(Bellman 递推);SQP 是 NLP 方法(每步QP)。但注意 iLQR 等价于 single-shooting Gauss-Newton(Liao-Shoemaker 1991; Giftthaler et al. 2018),两者有深刻联系但不能简单等同
2 无终端代价的MPC一定稳定 ——需 Grüne 的 \(\alpha_N>0\) 条件
3 RTI 不收敛 收敛在闭环中完成(Diehl 2005)
4 LQR 和 RL 独立 LQR 是 RL 的**精确特例**
5 Lyapunov 函数必须是能量 SOS/neural Lyapunov 搜索更通用的 \(V\)
6 CLF 和 CBF 不能冲突 会冲突——松弛CLF保CBF
7 PMP 给全局最优 PMP只给**必要条件**
8 iLQR 比 DDP 差 丢弃动力学Hessian在多数问题中精度**足够**
9 HJB 可解6DoF系统 维数灾难\(100^{12}=10^{24}\)网格点
10 CARE有唯一解 \((A,B)\)可稳+\((A,\sqrt{Q})\)可检测

5.8 第三批学习里程碑与自测

M-C1(Phase A–C 后):能推导 EL 方程,能陈述 PMP 并解释 \(\lambda(t)\),能从 HJB 推 Riccati,能四条路径中至少两条独立推到 Riccati,能解释 LQR=RL 特例。

M-C2(全部 Phase A–E 后):能推导 DDP backward pass,能陈述 MPC 四条件并解释终端代价取 \(P_\infty\) 的原因,能区分三种转录方法,能解释 RTI 正当性,能选择 ACADOS/Crocoddyl/CasADi。

自测题(8道)

# 题目 档位
1 \(J[y]=\int L\,dx\) 推导 EL 方程 3
2 写出 PMP 三方程并解释 \(\lambda(t)\) 3
3 HJB + 二次 Ansatz → 连续时间 LQR Riccati 3
4 Bellman 方程的确定性/随机两版并解释统一性 3
5 DDP backward pass: \(k=-Q_{uu}^{-1}Q_u\), \(K=-Q_{uu}^{-1}Q_{ux}\) 3
6 MPC 四条件 + 终端代价取 \(P_\infty\) 的原因 3
7 \(A\) Hurwitz ⟺ Lyapunov 方程 \(A^TP+PA=-Q\)\(P\succ 0\) 3
8 为什么 HPIPM 用 Riccati 加速 MPC QP 3

5.9 补充:关键推导与工程实例

Lyapunov 典型构造实例

实例1:倒立摆(非线性)

\[\dot\theta=\omega,\quad\dot\omega=\frac{g}{l}\sin\theta-\frac{b}{ml^2}\omega+\frac{1}{ml^2}\tau\]

\(V=\frac{1}{2}J\omega^2+mgl(1-\cos\theta)\)(总能量),\(\tau=0\)(无控制)时:

\[\dot{V}=-b\omega^2\le 0\quad\text{(半负定)}\]

\(\dot{V}=0\) 仅当 \(\omega=0\)。在 \(\omega=0\) 集合中的最大不变集:\(\dot\omega=\frac{g}{l}\sin\theta=0\)\(\theta=0\)\(\pi\)。上方平衡点 \(\theta=\pi\) 不在下方的吸引域内。LaSalle 结论:下方平衡点 \((\theta,\omega)=(0,0)\) 渐近稳定。

实例2:机械臂PD控制(标准 Lyapunov 参数)

\[M(q)\ddot{q}+C(q,\dot{q})\dot{q}+g(q)=\tau,\qquad\tau=-K_p\tilde{q}-K_d\dot{q}\]

\(V=\frac{1}{2}\dot{q}^TM\dot{q}+\frac{1}{2}\tilde{q}^TK_p\tilde{q}\)(动能+弹性势能),利用 \(\dot{M}-2C\) 反对称:

\[\dot{V}=-\dot{q}^TK_d\dot{q}\le 0\]

LaSalle:\(\dot{q}=0\) 不变集中 \(K_p\tilde{q}=g(q_d)-g(q)\),若 \(K_p\) 足够大则仅 \(\tilde{q}=0\)结论:PD 控制全局渐近稳定。这个 Lyapunov 论证是机械臂控制教科书的第一个完整证明。

MPC 稳定性证明骨架

定理(MPC 闭环渐近稳定性,Mayne 2000):若四条件 (A1)–(A4) 成立,则 \(V_N^*(x)\) 是闭环系统 \(x^+=f(x,\kappa_N(x))\) 的 Lyapunov 函数。

证明骨架(4步)

Step 1(候选序列构造):设当前状态 \(x\),最优序列 \(\mathbf{u}^*=(u_0^*,...,u_{N-1}^*)\)。闭环一步后状态 \(x^+=f(x,u_0^*)\)。构造**候选序列**(把最优序列左移一位,末尾补终端控制器): $\(\tilde{\mathbf{u}}=(u_1^*,...,u_{N-1}^*,\kappa_f(x_N^*))\)$

Step 2(候选代价上界):由 (A1) 候选序列可行(\(x_N^*\in X_f\)\(f(x_N^*,\kappa_f)\in X_f\)),其代价为 $\(J(\tilde{\mathbf{u}})=V_N^*(x)-\ell(x,u_0^*)+\ell(x_N^*,\kappa_f)+V_f(f(x_N^*,\kappa_f))-V_f(x_N^*)\)$

Step 3(终端代价下降):由 (A2) \(V_f(f(x_N^*,\kappa_f))-V_f(x_N^*)\le-\ell(x_N^*,\kappa_f)\),故 $\(J(\tilde{\mathbf{u}})\le V_N^*(x)-\ell(x,u_0^*)\)$

Step 4(最优性 + 正定性):由最优性 \(V_N^*(x^+)\le J(\tilde{\mathbf{u}})\),故 $\(V_N^*(x^+)-V_N^*(x)\le-\ell(x,u_0^*)\le-\alpha(\|x\|)\quad\text{by (A3)}\)$

结合 (A4) 给出 \(V_N^*\) 的上界,得到 \(V_N^*\) 满足 Lyapunov 下降 + 上下界 ⟹ GAS\(\square\)

这个四步论证是 MPC 稳定性理论的"母证明"——所有变体(tube-MPC、经济 MPC、无终端 MPC)都是在修改其中某一步。理解它等于理解了整个 MPC 稳定性文献的骨架。

第三批推荐学习序列

周次 内容 每周学时 累计学时
1–2 3.1 变分法/EL + 3.2 PMP 10h 20h
3–4 3.3 离散DP + 3.4 HJB/黏性解 11h 42h
5–6 3.5 LQR/Riccati(四条路径) + 3.6 辨识/鲁棒 14h 70h
7–8 3.7 Lyapunov 完整理论 + 3.8 CLF-CBF 12h 94h
9–10 3.9 DDP/iLQR(推导+实现) 12h 118h
11–12 3.10 约束DDP + 3.11 MPC 稳定性 12h 142h
13–14 3.12 数值求解/RTI + 3.13 鲁棒/随机 10h 162h
15 3.14 C++ 工程(ACADOS/Crocoddyl 实战) 8h 170h

并行建议:Phase A–B 可与第一批后半段并行;Phase D 可与 B4 ODE 衔接学习;Phase E 建议在第四批(动力学)完成后集中推进——因为 DDP 每步需要调用 RNEA/ABA。

Bellman 算子的收缩性——链2在控制中的现身

定理:定义 Bellman 算子 \(T: \ell^\infty(\mathcal{S}) \to \ell^\infty(\mathcal{S})\)\((TV)(x)=\min_u\{\ell(x,u)+\gamma V(f(x,u))\}\),则 \(T\)\(\gamma\)-压缩:

\[\|TV_1 - TV_2\|_\infty \le \gamma\|V_1-V_2\|_\infty\]

证明(3行):

\[|TV_1(x)-TV_2(x)| = |\min_u\{\ell+\gamma V_1(f)\}-\min_u\{\ell+\gamma V_2(f)\}| \le \gamma\max_{x'}|V_1(x')-V_2(x')| = \gamma\|V_1-V_2\|_\infty\]

第一个不等式用 \(|\min f-\min g|\le\max|f-g|\)(极值的 Lipschitz 性质),第二个等式直接取 \(\ell^\infty\) 范数。

由 Banach 不动点定理(B1/B3),\(T\) 在完备空间 \(\ell^\infty(\mathcal{S})\) 上有唯一不动点 \(V^*=TV^*\),且值迭代 \(V_{n+1}=TV_n\)\(\gamma^n\) 的几何速率收敛。这正是链2(分析-收敛链)中压缩映射原理的第三次现身——第一次在 B4(Picard-Lindelöf),第二次在 B3(抽象 Banach 空间),第三次在这里(DP/RL 的值函数收敛)。三次身份不同,定理完全相同。

从 HJB 到 MPPI——路径积分控制

HJB 虽有维数灾难但其思想衍生出一类**无需梯度**的控制方法——MPPI (Model Predictive Path Integral)(Williams et al. 2017)。核心思想:将 HJB 方程做 log 变换 → 线性化 → 可用 Feynman-Kac 公式表示为路径积分 → 用 Monte Carlo 采样近似。

\[u^* \approx \frac{\sum_{i=1}^K w_i\,\epsilon_i}{\sum_{i=1}^K w_i},\qquad w_i = \exp\left(-\frac{1}{\lambda}S(\tau_i)\right)\]

其中 \(\tau_i\) 是第 \(i\) 条采样轨迹,\(S(\tau_i)\) 是其代价,\(\lambda\) 是温度参数。

MPPI 不需要动力学梯度(只需前向模拟),因此可以直接在 MuJoCo/Isaac Sim 中使用——这使它成为**接触丰富场景**(灵巧操作、行走)中 DDP 的重要替代。MJPC 中 MPPI 与 iLQR 并列为两种基本规划器。

控制与学习的完整统一图景

                         Bellman 方程
                        /            \
              确定性 DP                随机 MDP
             /    \                  /     \
        有限时域   无限时域        值迭代   策略迭代
           |         |              |        |
         TVLQR     HJB             TD     Actor-Critic
           |         |              |        |
     Riccati递推  黏性解         SA-ODE   自然梯度
           |         |              |        |
         DDP       MPPI           Q-learning  PPO
           |         |              |        |
     ← ─ 第三批 ─ ─ ─ ─ → ← ─ ─ 第六批 ─ ─ →

这张图是本路线图中链5(控制-学习统一链)的完整可视化。 左半部分是第三批的内容,右半部分是第六批的内容。中间的 Bellman 方程是两者的共同祖先。LQR/TVLQR 是 DDP 的线性子问题,也是 RL 在线性高斯下的精确解。HJB 的采样版本是 TD 学习,HJB 的 Feynman-Kac 表示是 MPPI。掌握这张图的每条边,就掌握了控制与学习交叉方向的全部数学工具。


第六部分:第四批 — 刚体动力学

6.0 第四批总论:机器人的"物理引擎"

第四批把 SE(3) 几何语言与 Newton-Euler 力学统一为**空间向量代数**(6D 表示),推导 RNEA/ABA/CRBA 等 O(N) 递推算法,建立 Euler-Poincaré 方程的李群视角,最终给出解析动力学微分和辛积分器的完整理论。本批是第一批(李群)的**物理实现层**:twist/wrench 是 A2a 对偶空间的实例化,惯性张量是 A2e 对称2-张量的实例化,Adjoint 变换是第一批专题3的工程化身。

字段 内容
总学时 80–120h(档位3);额外 60–80h(档位4)
专题数 7(4-1 至 4-7)+ 1 份跨专题资源地图
核心教材 Featherstone RBDA ★ · Murray-Li-Sastry Robotic Manipulation ★ · Lynch-Park Modern Robotics Ch.3,8 ★ · Arnold Mathematical Methods of Classical Mechanics(档位4)
C++ 库 Pinocchio ★ · Drake · RBDL · MuJoCo
前置 第零层(A2全部/B4 ODE) + 第一批(李群/SE(3)/Adjoint)
后续 → 第三批3.9(DDP需动力学导数) · 第七批(接触动力学) · 第五批(VIO需IMU动力学模型)

第四批内部依赖链

4-1 (空间向量代数/Plücker)
  ├─→ 4-2 (Lagrange力学/M(q)q̈+Cq̇+g=τ)
  │       ├─→ 4-3 (O(N)递推: RNEA/ABA/CRBA)  ← 最接近代码
  │       │       └─→ 4-5 (解析微分: ∂RNEA/∂q)  → 第三批DDP
  │       └─→ 4-4 (SE(3)几何力学/Euler-Poincaré)
  │               └─→ 4-7 (辛结构/动量映射)
  └─→ 4-6 (约束动力学/闭链/接触)  → 第七批

6.1 专题 4-1:空间向量代数

空间向量把刚体的线性与角量合并成一个六维对象,将经典三维动力学的"代数海洋"压缩四到六倍,并直接映射为 Pinocchio/Drake/RBDL/MuJoCo 中 RNEA/ABA/CRBA 的核心数据结构。

字段 内容
学时 12–15h
前置 A2a(对偶空间) + 第一批专题3(Adjoint)
教材 Featherstone RBDA Ch.2 ★ · Featherstone IEEE RAM 2010 "A Beginner's Guide" I/II

两类六维向量:运动与力的对偶

空间向量生活在**两个互相对偶的六维向量空间**——这正是 A2a 对偶理论的物理化身:

空间 元素 含义 变换方式 C++ 类型(Pinocchio)
M⁶(运动) twist \(V=(\omega, v)\) 角速度+线速度 \(V_b = [X_{ab}] V_a\)(Plücker变换) MotionTpl
F⁶(力) wrench \(F=(\tau, f)\) 力矩+力 \(F_b = [X_{ab}]^{-T} F_a\) ForceTpl
标量积 \(m \cdot f\) 功率 不变量 m.dot(f)

第零层连接\(V \in M^6 \cong \mathfrak{se}(3)\)(李代数),\(F \in F^6 \cong \mathfrak{se}(3)^*\)(对偶空间)。Jacobian 转置 \(\tau = J^T\mathcal{F}\) 是**纯对偶映射**——不需要内积,来自虚功原理 \(\delta W = F \cdot V = 0\)

约定次序——跨库协作的首要陷阱

次序 备注
Featherstone/Pinocchio \([\omega; v]\)(角在前) 业界主流
Drake \([\omega; v]\)(角在前)但**不使用Plücker代数** 用显式 Shift/Compose
MuJoCo \([\text{rot}; \text{tran}]\)(角在前) COM-based frame

Drake 的 SpatialVelocity 文档明确写道"these are not Plücker vectors"——虽然元素排列相同但底层代数不同,混用 Pinocchio 和 Drake 的空间向量会出微妙 bug

"Look, no Coriolis term!"

三维记号下组合参考系的加速度必然冒出 Coriolis/离心项;空间加速度定义为空间速度对时间的简单导数,加速度像速度一样用加法叠加。代价:空间加速度与经典加速度在非零角速度下**不等**——Pinocchio 在 spatial/classic-acceleration.hpp 中单独提供换算函数。


6.2 专题 4-2:Lagrange 力学与关节空间方程

标准机器人运动方程 \(M(q)\ddot{q}+C(q,\dot{q})\dot{q}+g(q)=\tau\) 是一切现代机器人控制、仿真、学习的共同语言。 写 MPC 时它是等式约束;写被动性控制器时 \(\dot{M}-2C\) 的斜对称性保证 Lyapunov 下降;写 model-based RL 时它是环境模型;做 DDP 时它的线性化提供状态方程。

字段 内容
学时 15–18h(档位3);30–40h(含Hamilton/辛力学档位4)
前置 4-1(空间向量) + B4(ODE) + 3.1(变分法/EL)
教材 Spong-Hutchinson-Vidyasagar ★ · Lynch-Park Ch.8 ★ · Murray-Li-Sastry Ch.4

标志性方程

\[\boxed{M(q)\ddot{q} + C(q,\dot{q})\dot{q} + g(q) = \tau}\]
符号 含义 性质 来源
\(M(q) \in \mathbb{R}^{n\times n}\) 质量/惯量矩阵 对称正定 \(M_{ij} = \sum_k \mathrm{tr}(J_k^T \mathcal{G}_k J_k)\)
\(C(q,\dot{q}) \in \mathbb{R}^{n\times n}\) Coriolis/离心矩阵 \(\dot{M}-2C\) 斜对称 Christoffel 符号 \(c_{ijk}\)
\(g(q) \in \mathbb{R}^n\) 重力项 \(g = \partial V_g/\partial q\) 势能梯度
\(\tau \in \mathbb{R}^n\) 广义力 关节力矩/力 虚功原理

\(\dot{M}-2C\) 斜对称性的深层原因(连接 ← A2b):\(M(q)\) 是关节速度空间上的**内积**(Riemannian metric on C-space),\(C\) 中的 Christoffel 符号编码了此度量的 Levi-Civita 联络——斜对称性 \(\dot{M}-2C\) 等价于"联络与度量相容"的条件 \(\nabla g = 0\)这不是巧合而是微分几何的必然。

C(q,q̇) 的三种构造方法

方法 公式 优势 劣势
Christoffel 符号 \(c_{ijk}=\frac{1}{2}(\partial M_{ij}/\partial q_k + \partial M_{ik}/\partial q_j - \partial M_{jk}/\partial q_i)\) 理论最完整 符号繁重
\(\dot{M}-2C\) 斜对称 \(C\) 选使 \(x^T(\dot{M}-2C)x=0\) \(\forall x\) Lyapunov 分析直接使用 不唯一
空间向量递归 RNEA 反向传递中 \(v_i \times^* I_i v_i\) O(n) 计算 依赖空间代数

6.3 专题 4-3:O(N) 递推算法——RNEA/ABA/CRBA

2008年至今,几乎所有主流机器人库的动力学内核都是 Featherstone 三大算法的某种实现。 历史进程:从 O(n⁴)(Uicker-Kahn 1965) → O(n)(RNEA, Luh-Walker-Paul 1980) → O(n²)(CRBA, Walker-Orin 1982) → O(n)(ABA, Featherstone 1983)。

字段 内容
学时 15–18h
教材 Featherstone RBDA Ch.5–7 ★

三大算法对比

算法 功能 输入→输出 复杂度 典型场景
RNEA 逆动力学 \((q,\dot{q},\ddot{q}) \to \tau\) \(O(n)\) DDP每步、重力补偿
CRBA 质量矩阵 \(q \to M(q)\) \(O(n^2)\) 操作空间控制
ABA 正动力学 \((q,\dot{q},\tau) \to \ddot{q}\) \(O(n)\) 仿真器内核

RNEA 伪代码——两行递推

前向传递(从基座到末端执行器):

\[v_i = {}^iX_{\lambda(i)}v_{\lambda(i)} + S_i\dot{q}_i, \qquad a_i = {}^iX_{\lambda(i)}a_{\lambda(i)} + S_i\ddot{q}_i + v_i \times S_i\dot{q}_i\]

反向传递(从末端到基座):

\[f_i = I_ia_i + v_i \times^* I_iv_i, \qquad \tau_i = S_i^Tf_i\]

重力注入技巧(Featherstone Ch.5 §5.3):设基座初始加速度 \(a_0 = -g_0\)(地球重力加速度取负),所有重力效应自动出现在 \(f_i\) 中——无需单独计算 \(g(q)\) 项。

Pinocchio 性能:7-DoF 机械臂 RNEA ≈ 1µs,36-DoF 人形 ABA ≈ 3µs(Intel i7)。这个量级让 Pinocchio 成为实时 MPC 和 RL 梯度传播的事实标准。

常见陷阱

漏掉 bias acceleration \(c_i = v_i \times S_i\dot{q}_i\)——这是 RNEA 前向传递中的"Coriolis项",漏掉它所有后续输出全错。混淆空间加速度与经典加速度——与传感器/URDF交互时务必用 classicAcceleration 转换。


6.4 专题 4-4:SE(3) 上的几何力学

浮基机器人的配置空间天然是 SE(3) × Tⁿ,不是 ℝ⁶⁺ⁿ。 把基座当6个欧拉角推 EL 方程会带来坐标奇异(万向锁)、伪张量(Christoffel 不守恒)、维度不匹配(切空间6维 vs 群元7维)。几何力学一次性消灭这些问题。

字段 内容
学时 10–12h(档位3);30–40h(档位4含Lie-Poisson/coadjoint orbits)
前置 第一批专题3(SO(3)/SE(3)) + 4-1 + 4-2
教材 Murray-Li-Sastry Ch.4 · Marsden-Ratiu Mechanics and Symmetry(档位4)

Euler-Poincaré 方程——坐标无关的动力学

\[\frac{d}{dt}\frac{\partial\ell}{\partial\xi} = \mathrm{ad}^*_\xi\frac{\partial\ell}{\partial\xi} + F_{\text{ext}}\]

其中 \(\xi = g^{-1}\dot{g} \in \mathfrak{g}\) 是体帧速度(李代数元素),\(\ell(\xi)\) 是约化 Lagrangian(左不变),\(\mathrm{ad}^*_\xi\) 是 coadjoint 作用。

Euler-Poincaré vs Euler-Lagrange:EL 方程中的 Christoffel 项 \(\Gamma^i_{jk}\dot{q}^j\dot{q}^k\) 在 EP 方程中被**单一的 \(\mathrm{ad}^*_\xi\) 替代**——后者是几何不变量,不依赖坐标选择。这不是符号简化,而是消除了坐标奇异性。

Centroidal dynamics(Orin-Goswami-Lee 2013)本质上是 SE(3) 上 reduction 的产物——质心处的动量 \(h_G = (k_G, l_G)\) 满足 \(\dot{h}_G = \sum F_{\text{ext}}\),这是 EP 方程在自由浮基上的特例。Pinocchio 的 computeCentroidalMomentum API 直接实现此公式。


6.5 专题 4-5:动力学解析微分

DDP/iLQR 的每一步都需要 \(\partial\text{RNEA}/\partial q\)\(\partial\text{ABA}/\partial\tau\)——Carpentier-Mansard (RSS 2018) 给出了 O(N) 闭式解析导数,比有限差分快两个数量级、比 AD 快数倍。

字段 内容
学时 10–12h
前置 4-3(RNEA/ABA) + 第二批专题5(AD)
教材 Carpentier-Mansard RSS 2018 ★ · Pinocchio rnea-derivatives.hxx 源码精读

解析微分 vs AD vs 有限差分

方法 7-DoF RNEA导数 36-DoF RNEA导数 优势 劣势
解析(Pinocchio) ≈3µs ≈17µs 最快、精确 实现复杂
CppAD/CasADi ≈30µs ≈200µs 通用 编译慢、runtime 慢
有限差分 ≈7µs×(2n) 太慢 简单 精度差、不稳定

连接 → 第三批3.9:Crocoddyl 的 FDDP 内层每个时间步调用一次 computeRNEADerivatives——整个 MPC 的速度瓶颈就在这个函数上。Carpentier-Mansard 的贡献是**用空间代数的结构把链式法则在树上展开**,避免了 AD 的通用 overhead。


6.6 专题 4-6 & 4-7 速查

专题 一句话 学时 关键连接
4-6 约束动力学 闭链/浮基接触/Baumgarte 稳定化 → DAE 形式 10-12h → 第七批(接触动力学的直接前置)
4-7 辛结构与对称性 Noether 定理 · 辛积分器(Störmer-Verlet/Leapfrog) · Lie群变分积分器 8-10h → MuJoCo/Drake的积分器选择;Natural Policy Gradient的辛根源

辛积分器——为什么仿真器的能量漂移由积分器决定

积分器 辛性 能量漂移 典型用户
前向 Euler 指数增长 教学(绝不用于仿真)
RK4 多项式增长 通用ODE求解
Symplectic Euler 有界振荡 实时仿真(简单系统)
Störmer-Verlet / Leapfrog 有界振荡 分子动力学、MuJoCo默认
Lie群变分积分器 ✓ + 保群 有界 + 保SO(3)约束 刚体长时间仿真

向后误差分析(Hairer-Lubich-Wanner):辛积分器精确求解一个"修正Hamilton量" \(\tilde{H} = H + O(h^p)\)——这解释了为什么能量不漂移但会小幅振荡。对 1000 步 MPC 这个时间尺度,辛积分器 vs 非辛积分器的差异是**可见的**。


6.7 第四批教材与 C++ 库总对比

教材推荐路线

层级 教材 免费 覆盖专题 最佳角色
入门 Lynch-Park Modern Robotics 4-1,4-2,4-4 李群+螺旋最友好入门
入门 Spong Robot Modeling and Control 2e 4-2,4-3 经典DH+EL教材
主干 Featherstone RBDA 2008 4-1,4-3,4-6 三大算法圣经
主干 Murray-Li-Sastry ✅(作者授权) 4-1,4-2,4-4,4-6 李群力学经典
档位4 Arnold Mathematical Methods 4-2,4-4,4-7 几何力学史诗
档位4 Marsden-Ratiu Mechanics and Symmetry ✅(作者页) 4-2,4-7 辛约化圣经
档位4 Hairer Geometric Numerical Integration 4-7 辛积分器定义性著作

C++ 库对比

Stars 速度 覆盖 特色 活跃度
Pinocchio 3.2k 最快(7DoF RNEA≈1µs) RNEA/ABA/CRBA/解析导数/centroidal 解析微分端到端暴露 ✅✅
Drake 8k 中等 全栈(动力学+接触+优化+控制) 非Plücker代数,monogram命名 ✅✅
RBDL 0.7k Pinocchio的数倍慢 RNEA/ABA/CRBA 代码清晰适合学习 ⚠️
MuJoCo 9k 极快(GPU:MJX) 动力学+接触+仿真 内部用空间向量,外部隐藏 ✅✅

Pinocchio vs Drake 的根本差异:Pinocchio 忠实实现 Featherstone 的 Plücker 代数,所有 6×6 变换闭合且高效;Drake 用 R³×R³ 表示+显式 Shift 函数,更接近三维直觉但牺牲了代数优雅性。两者在数值结果上等价但接口不可混用。


6.8 第四批核心连接网络

连接 来源→目标 本质
≡ 实例化 A2a(对偶) → 4-1 twist ∈ 𝔰𝔢(3) vs wrench ∈ 𝔰𝔢(3)* = 对偶的物理化身
≡ 实例化 A2b(内积) → 4-2 质量矩阵 M(q) = 关节速度空间上的 Riemannian metric
≡ 实例化 A2e(张量) → 4-4 惯性张量 = 对称2-张量;𝔰𝔬(3)≅Λ²ℝ³
第一批3(Adjoint) → 4-1 Plücker变换 = SE(3) Adjoint 表示的矩阵形式
3.1(变分法) → 4-2 机器人EL方程 = 变分法在TQ上的应用
4-3/4-5 → 3.9(DDP) DDP每步调用 RNEA + ∂RNEA/∂q
4-6 → 第七批 约束动力学是接触动力学的直接前置
4-7 → 仿真器 辛积分器选择决定能量漂移行为

常见陷阱

# 陷阱 正确理解
1 空间加速度 = 经典加速度 不等——非零角速度下有差异,需 classicAcceleration 转换
2 Drake 和 Pinocchio 的空间向量可以混用 不可——底层代数不同(Plücker vs R³×R³)
3 \(\dot{M}-2C\) 斜对称是巧合 必然——Levi-Civita 联络与 Riemannian metric 相容的几何推论
4 CRBA 是算 M(q) 的最佳方法 O(n²)——小 n 时直接用;大 n 时用 ABA 更快(正动力学=M⁻¹求解)
5 有限差分算动力学导数 精度差(\(O(h)\) 舍入误差)、慢(2n次调用)——用 Pinocchio 解析导数
6 前向Euler做机器人仿真 能量指数增长——用辛积分器(Störmer-Verlet/隐式中点)
7 Euler-Poincaré只是换了个记号 消除了坐标奇异性——\(\mathrm{ad}^*_\xi\) 替代所有 Christoffel 项

6.9 第四批学习里程碑与自测

M-D1(完成4-1至4-3后):能解释 twist/wrench 对偶的物理含义,能手推2R机械臂的 M/C/g,能写出 RNEA 前向/反向传递的伪代码,能解释 \(a_0=-g_0\) 重力注入技巧。

M-D2(完成全部7专题后):能陈述 Euler-Poincaré 方程并解释 \(\mathrm{ad}^*_\xi\) 替代 Christoffel 的原因,能区分解析微分 vs AD vs 有限差分的适用场景,能解释辛积分器为什么不漂移能量,能用 Pinocchio 调用 RNEA+解析导数并与 CppAD 对比性能。

自测题(6道)

# 题目 档位
1 解释 twist∈𝔰𝔢(3) 和 wrench∈𝔰𝔢(3)* 的对偶关系,以及 \(\tau=J^TF\) 为什么不需要内积 3
2 手推2R平面机械臂的 \(M(q)\), \(C(q,\dot{q})\), \(g(q)\) 并验证 \(\dot{M}-2C\) 斜对称 3
3 写出 RNEA 的前向/反向传递并解释重力注入技巧 3
4 解释 Euler-Poincaré 方程中 \(\mathrm{ad}^*_\xi(\partial\ell/\partial\xi)\) 的几何含义 3
5 对比 Pinocchio 解析导数和 CppAD 在7-DoF机械臂上的速度差异,解释原因 3
6 解释为什么 Störmer-Verlet 积分器的能量有界振荡而前向Euler指数增长 4

6.10 补充:关键推导与工程深化

Newton-Euler 方程的"三种伴随"——区分五种 adjoint 的教学金标准

Newton-Euler 方程在体帧下的空间向量形式(Murray-Li-Sastry notation):

\[\mathcal{F}_b = \mathcal{G}_b\dot{V}_b - [\mathrm{ad}_{V_b}]^T\mathcal{G}_bV_b\]

这一个公式同框出现了三种"伴随":

名称 符号 数学定义 在此公式中的角色
空间惯量(自伴算子) \(\mathcal{G}_b\) \(\mathcal{G}: M^6 \to F^6\),对称正定 动量 = 惯量×速度
Lie代数 adjoint \(\mathrm{ad}_{V_b}\) \(\mathrm{ad}_X Y = [X,Y]\),李括号 速度乘积项("Coriolis"的几何本质)
coadjoint 作用 \([\mathrm{ad}_{V_b}]^T\) \(F^6 \to F^6\),对偶映射 把速度-惯量耦合转化为力

**第零层 A2b 中识别的"伴随五重歧义"**在这里获得了最直接的物理验证——如果你分不清 \(\mathrm{ad}\)\(\mathrm{Ad}\)\(T^*\)\(T^t\)\(\mathrm{adj}\),这个公式就是一道天然的筛选题。

ABA 的核心洞察——为什么正动力学能 O(n)

ABA(Articulated Body Algorithm)的核心洞察是:把多体系统看成一棵"铰接体"树,每个子树等效为一个具有速度依赖惯量的"铰接体"。算法分三次遍历:

遍历 方向 计算内容 核心公式
Pass 1 根→叶 前向运动学 \(v_i, c_i\)(速度+bias加速度)
Pass 2 叶→根 铰接体惯量递推 \(I_i^A = I_i + \sum_{j\in\text{children}} X_{ji}^T[I_j^A - I_j^A S_j D_j^{-1}S_j^T I_j^A]X_{ji}\)
Pass 3 根→叶 前向加速度 \(\ddot{q}_i = D_i^{-1}(u_i - S_i^T I_i^A a_i)\)

其中 \(D_i = S_i^T I_i^A S_i\) 是标量(revolute)或小矩阵。

Pass 2 的递推本质是 Schur 补的递归应用——与 iSAM2 中 Bayes 树的消元递推**数学结构相同**。这不是类比而是等价:多体动力学的关节树就是一个稀疏线性系统,ABA 就是利用树结构做 O(n) 的稀疏 \(LDL^T\) 分解。Featherstone 在 RBDA Ch.6 中明确指出这一点。

Pinocchio 源码导读路线

对于想深入到代码级的读者,以下是 Pinocchio 源码的推荐阅读顺序:

顺序 源文件 对应算法 行数(约) 关键看点
1 spatial/se3.hpp SE(3) 表示 300 act/actInv、Adjoint矩阵
2 spatial/motion.hpp MotionTpl (twist) 400 cross/motionAction
3 spatial/force.hpp ForceTpl (wrench) 300 对偶类型系统
4 spatial/inertia.hpp Spatial Inertia 500 \(\mathcal{G}\)的6×6表示
5 algorithm/rnea.hxx RNEA 200 前向+反向两个for循环
6 algorithm/aba.hxx ABA 300 三次遍历
7 algorithm/rnea-derivatives.hxx ∂RNEA/∂q 500 Carpentier-Mansard核心

实战建议:先用 pinocchio.computeAllTerms(model,data,q,v) 一次算出所有量(M/C/g/J/...),然后逐个对照公式。用 pinocchio.rnea(model,data,q,v,a) 验证手推结果。用 pinocchio.computeRNEADerivatives(model,data,q,v,a) 获取解析导数并与 CppAD 对比精度。

从第四批到第三批的"动力学→控制"衔接

第四批                              第三批
┌─────────────────┐                ┌──────────────────┐
│ 4-3: RNEA       │──── τ=ID(q,v,a)──→│ 3.9: DDP/iLQR   │
│     + ABA       │◄── a=FD(q,v,τ)────│      每步调用    │
│ 4-5: ∂RNEA/∂q   │──── Jacobians  ──→│      backward    │
│     ∂ABA/∂τ     │                    │      pass        │
└─────────────────┘                └──────────────────┘
                                   ┌──────────────────┐
                                   │ 3.12: MPC实时求解  │
                                   │ ACADOS调用Pinocchio│
                                   └──────────────────┘

DDP 每个时间步的计算流程:(1) 前向:ABA 算 \(\ddot{q}\)(正动力学)→ RK4 积分到下一时刻;(2) 后向:computeRNEADerivatives\(\partial f/\partial(q,v,u)\) → 组装 \(Q\) 矩阵 → Riccati 递推出 \(k,K\)整个 MPC 的计算瓶颈就在这两步。 Crocoddyl 和 OCS2 内部的 "computeDiff" 函数本质上都是对 Pinocchio 这两个 API 的封装。

第四批推荐学习序列

周次 内容 每周学时 累计
1–2 4-1 空间向量 + Featherstone Beginner's Guide I/II 12h 12h
3–4 4-2 Lagrange力学(手推2R的M/C/g) + Lynch-Park Ch.8 15h 27h
5–7 4-3 RNEA/ABA/CRBA(伪代码+Pinocchio源码精读) 18h 45h
8–9 4-4 SE(3)几何力学(Euler-Poincaré)+ 4-5 解析微分 14h 59h
10 4-6 约束动力学 + 4-7 辛结构(选修) 10h 69h

并行建议:4-1/4-2 可与第一批后半段并行学习——两者共享 SE(3)/Adjoint 的数学语言。4-3 建议在第三批 Phase E(DDP)之前完成——否则 DDP 的"调用 RNEA"部分会成为黑盒。

约束动力学(4-6)的核心公式

闭链或接触约束 \(\Phi(q) = 0\) 下的动力学变为 DAE(微分-代数方程):

\[M(q)\ddot{q} + C\dot{q} + g = \tau + J_c^T\lambda, \qquad \Phi(q) = 0\]

其中 \(J_c = \partial\Phi/\partial q\) 是约束 Jacobian,\(\lambda\) 是约束力(Lagrange 乘子)。

Baumgarte 稳定化:直接对 \(\Phi(q)=0\) 求二阶导得 \(J_c\ddot{q}+\dot{J}_c\dot{q}=0\),但数值积分中约束违反会**漂移**。Baumgarte 1972 的修正:\(J_c\ddot{q}+\dot{J}_c\dot{q}+2\alpha\dot{\Phi}+\beta^2\Phi=0\)——加入"弹簧-阻尼"项把约束违反拉回。但 \(\alpha,\beta\) 的选择是黑艺术——太小约束漂移,太大系统变stiff。

→ 第七批:接触动力学的数学核心就是把 \(\Phi(q)\ge 0\)(法向不穿透)和 \(\lambda\ge 0\)(法向力非负)结合成**互补条件** \(0\le\Phi\perp\lambda\ge 0\)——从等式约束到不等式约束的跃迁。

Noether 定理与动量映射(4-7)的机器人实例

Noether 定理:如果 Lagrangian \(L\) 在李群 \(G\) 的作用下不变,则存在守恒量 \(J: TQ \to \mathfrak{g}^*\)动量映射)。

对称性 \(G\) 守恒量 \(J\) 机器人实例
时间平移 \(\mathbb{R}\) 总能量 \(E = T + V\) 自由飞行/保守系统
空间平移 \(\mathbb{R}^3\) 线动量 \(p = m\dot{x}_{\text{com}}\) 自由浮基(无外力时)
旋转 SO(3) 角动量 \(L = I\omega\) 自由浮基(无外力矩时)
关节旋转 SO(2) 对应的广义动量 \(p_i = \partial L/\partial\dot{q}_i\) 被动关节(如行走中的膝关节)

工程应用:四足/人形的**质心动量控制**(centroidal momentum control)直接利用角动量守恒——Orin 2013 的 centroidal dynamics \(\dot{h}_G = \sum F_{\text{ext}}\) 就是 Noether 定理在 SE(3) 上的推论。飞行阶段 \(\sum F_{\text{ext}} = mg\)(只有重力),角动量 \(k_G\) 守恒——这约束了空中姿态调整的可达集。

辛积分器与 Noether 的关系:辛积分器保持辛形式 \(\omega = dq \wedge dp\),因此**近似保持**所有由 Noether 定理导出的守恒量——这就是为什么 Störmer-Verlet 积分器在长时间仿真中角动量几乎不漂移,而 RK4 会。

第四批与路线图其他批次的"对偶翻译词典"

理解第四批的最深方式是把每个公式**翻译回第零层和第一批的抽象概念**:

动力学对象 第零层/第一批抽象原型 具体翻译
twist \(V=(\omega,v)\) A2a 向量空间元素 \(v \in V\) \(V \in \mathfrak{se}(3) \cong M^6\)
wrench \(F=(\tau,f)\) A2a 对偶空间元素 \(f \in V^*\) \(F \in \mathfrak{se}(3)^* \cong F^6\)
\(\tau = J^T\mathcal{F}\) A2a 对偶映射 \(T^t: V^* \to W^*\) 虚功原理,不需要内积
\(\mathcal{G}_b\) (空间惯量) A2b 自伴算子 \(T^* = T\) \(\mathcal{G}: M^6 \to F^6\), 对称正定
\(M(q)\) (质量矩阵) A2b Riemannian metric \(g_{ij}\) \(M_{ij} = \langle e_i, e_j \rangle_{\text{kinetic}}\)
\(\dot{M}-2C\) 斜对称 联络与度量相容 \(\nabla g = 0\) Levi-Civita 的定义性质
\(I_{ij}\) (惯性张量) A2e 对称2-张量 \(T \in S^2V\) \(I = \int\rho(r^2\delta_{ij}-r_ir_j)dV\)
Plücker 变换 \(X\) 第一批 Adjoint \(\mathrm{Ad}_g\) \(V_b = [\mathrm{Ad}_{T_{ab}}]V_a\)
\(\mathrm{ad}_{V_b}\) (速度叉积) 第一批 Lie bracket \([X,Y]\) Newton-Euler 中的"Coriolis几何本质"
Rodrigues 闭式 A2d Cayley-Hamilton 截断 极小多项式 \(x^3+\|\omega\|^2x\)
Euler-Poincaré 第一批 李群上的EL方程 \(\mathrm{ad}^*_\xi\) 替代 Christoffel

这张表是整个路线图的"Rosetta Stone"——如果你能把每一行从左到右、从右到左流畅翻译,说明你已经真正打通了第零层→第一批→第四批的概念链。


第七部分:第五批 — 概率与现代状态估计

7.0 第五批总论:从 Kalman 到 Certifiable SLAM

第五批是 SLAM/VIO/导航的数学引擎——从贝叶斯框架出发,经 KF→EKF→UKF→ESKF→InEKF 建立完整滤波族谱系,然后转入因子图/非线性最小二乘/iSAM2/Bayes 树建立优化族,最后以 InEKF 收敛性证明、Certifiable SLAM 和鲁棒估计收尾。本批的两个深层洞察定义了整个领域:(1) Kalman 滤波 = L²(Ω) 的正交投影——B3 泛函分析的 Riesz 表示在概率空间中的直接应用;(2) 迭代 EKF ≡ 单时间步 Gauss-Newton——在加性高斯噪声模型下,滤波和优化不是两种方法,而是同一算法的两种语言。

字段 内容
总学时 200–260h(含 A3 ~50h、A2 30–40h 等深度专题)
子专题数 9(A1–A4 滤波族 + B 因子图 + C iSAM2 + D InEKF精读 + E Certifiable + F 鲁棒)
核心教材 Barfoot State Estimation for Robotics 2e ★ · Thrun Probabilistic Robotics ★ · Dellaert-Kaess Factor Graphs FnT ☆ · Särkkä Bayesian Filtering and Smoothing 2e
C++ 库 GTSAM(含iSAM2) ★ · g2o · Ceres Solver
前置 第零层(B2测度/B3泛函) + 第一批(李群/雅可比/概率) + 第二批(GN/LM/SDP)
后续 为所有实际 SLAM/VIO 系统提供数学后端

三大模块架构

模块A:滤波族(从贝叶斯框架到InEKF的完整谱系)
  A1(贝叶斯+KF) → A2(EKF/UKF/CKF) → A3(ESKF/InEKF/UKF-M) → A4(收口/等价/平滑)

模块B-C:优化族(因子图到增量平滑)
  B(因子图/NLLS/GN-LM/Schur补) → C(iSAM2/Bayes树/增量O(√N))

模块D-F:前沿与鲁棒化
  D(InEKF精读/group-affine分水岭定理) + E(Certifiable/SDP/全局最优证书)
  + F(鲁棒估计/M-estimator/GNC-TLS/外点剔除)

7.1 模块A:滤波族谱系(A1–A4)

A1 贝叶斯滤波框架与线性高斯滤波族

所有 Kalman 族滤波器都只是"贝叶斯递推 + 高斯假设"在不同代数形式下的投影。 线性高斯 KF 是最优估计——BLUE + MMSE + MAP 三合一(MMSE 与 MAP 等价性要求状态与观测的联合高斯,在线性高斯模型下由线性结构自动成立)。

字段 内容
学时 12–15h
教材 Barfoot 2e Ch.3–4 ★ · Särkkä 2e Ch.4 · Thrun Ch.2–3

预测-更新两步递推

步骤 数学操作 线性高斯退化
预测 Chapman-Kolmogorov: \(p(x_k\|y_{1:k-1})=\int p(x_k\|x_{k-1})p(x_{k-1}\|y_{1:k-1})dx_{k-1}\) \(\hat{x}^-=F\hat{x}+Bu,\ P^-=FPF^T+Q\)
更新 Bayes: \(p(x_k\|y_{1:k})=p(y_k\|x_k)p(x_k\|y_{1:k-1})/Z_k\) \(K=P^-H^T(HP^-H^T+R)^{-1},\ \hat{x}^+=\hat{x}^-+K\tilde{y}\)

为什么高斯+线性 = 闭式? 两个性质:(1) 高斯在线性变换下闭合(预测步积分可解析);(2) 高斯在乘积下闭合(更新步两个高斯之积仍是高斯)。**破坏任一条**就需要近似——非线性催生 EKF/UKF,流形催生 ESKF/InEKF,非高斯催生粒子滤波。

KF = L²正交投影(连接 ← B3 泛函分析):

\[\hat{x}_{\text{MMSE}} = \mathbb{E}[x\|y] = \text{proj}_{L^2(\sigma(y))}(x)\]

Kalman 增益 \(K\) 的最优性不是凑出来的——它是 Hilbert 空间 \(L^2(\Omega,\mathcal{F},P)\) 中向**观测生成子空间**做正交投影的结果。B3 的投影定理(闭凸集存在唯一最近点)保证了最优性和唯一性。

KF 的三种等价形式

形式 状态量 优势 典型使用者
协方差形 \((\hat{x}, P)\) 直观、易教学 教科书默认
信息形 \((\hat{\eta}=P^{-1}\hat{x},\ \Lambda=P^{-1})\) 多传感器融合=加法、稀疏 SLAM 后端、EIF
平方根形 \((\hat{x},\ S:\ P=SS^T)\) 数值稳定、保正定 航天/GNSS工业

A2 经典非线性滤波族(EKF/UKF/CKF/GHKF)

不理解 EKF 的一致性病理,就读不懂 FEJ、OC-EKF、InEKF 这条过去十年最重要的论文线。

字段 内容
学时 12–15h
教材 Barfoot 2e Ch.5 · Thrun Ch.3 · Julier-Uhlmann 2004 (UKF原论文)

EKF = KF + 一阶 Taylor 线性化:把 \(f(x)\)\(\hat{x}\) 处线性化为 \(f(\hat{x})+F(x-\hat{x})\)。代价:(1) Jacobian 依赖估计 → 协方差传播失真;(2) 非线性残余 → 一致性破坏(虚假可观性)。

UKF = KF + sigma 点采样:不做 Taylor 展开,而是选 \(2n+1\) 个确定性"sigma 点",通过非线性函数后用加权统计恢复均值和协方差。优势:无需 Jacobian、能捕获二阶效应。劣势:维度灾难(高维下中心点协方差权重 \(W_0^c\) 可能为负,导致协方差估计丢失正定性)。

EKF 一致性病理的根源(Huang-Mourikis-Roumeliotis 2008–2010 系列):EKF-SLAM 中 Jacobian 在**估计点**求值 → 可观性矩阵的秩高于真实系统 → 滤波器"看到了不该看到的信息" → 协方差过度收缩 → 过于自信。FEJ(First-Estimates Jacobian)的修复思路:Jacobian 始终在**首次估计点**求值,保持正确的可观性维度。

A3 流形上的滤波族(ESKF/MEKF/IEKF/InEKF/UKF-M)

只要状态在李群上演化,就应抛弃"把旋转当欧氏向量"的朴素做法。 Barrau-Bonnabel 2017 的 group-affine + log-linear 定理是**分水岭**——把 InEKF 从"一种好用的工程方法"升格为"数学上可证明一致"的方法。

字段 内容
学时 15–18h
前置 第一批专题3–5(exp/log/Adjoint/集中高斯)
教材 Solà 2018 论文 ★ · Barfoot 2e Ch.7–8 · Barrau-Bonnabel TAC 2017

滤波族进化谱系

方法 年代 误差定义 线性化点 一致性
EKF 1960s \(\delta x = x - \hat{x}\)(加法) \(\hat{x}\)
ESKF/MEKF 1982 \(\delta\xi: x = \hat{x}\cdot\mathrm{Exp}(\delta\xi)\)(乘法) \(\hat{x}\) 改善但不保证
InEKF (Left) 2017 \(\eta^L = x^{-1}\hat{x}\)(左不变) 不依赖估计 ✓ group-affine下
InEKF (Right) 2017 \(\eta^R = \hat{x}x^{-1}\)(右不变) 不依赖估计 ✓ group-affine下
EqF 2020 等变误差 等变输出 ✓ 最一般

group-affine 定理(Barrau-Bonnabel 2017 Theorem 1):若动力学 \(\dot{x}=f_u(x)\) 满足 \(f_u(ab) = f_u(a)b + af_u(b) - af_u(e)b\)(群-仿射条件),则**误差 ODE 自治**——误差动力学不依赖真实状态。推论:InEKF 的 Riccati 方程在传播段**精确**,无需任何 FEJ/OC 补丁。IMU 导航方程在 SE₂(3) 上恰好满足 group-affine——这就是 InEKF 在 VIO 中表现优于传统 EKF 的数学根源。

A4 Kalman 族全景收口——三条跨学科等价

等价关系 滤波语言 优化语言 含义
迭代 EKF ≡ 单步 GN IEKF 的多次更新 Gauss-Newton 的一次迭代 滤波和优化是同一算法(在加性高斯噪声模型下成立)
RTS 平滑 ≡ 块三对角回代 前向-后向递推 正规方程的稀疏 LDL^T 平滑是批量优化的因果分解
VINS 滑窗 ≡ MHE 滑动窗口 EKF Moving Horizon Estimation 实时平滑 = 有限时域优化

这三条等价关系建立了滤波族(模块A)和优化族(模块B-C)之间的**完全桥梁**。


7.2 模块B-C:优化族(因子图到增量平滑)

B 因子图与非线性最小二乘

SLAM 的 MAP 估计在高斯噪声下等价于因子图上的加权非线性最小二乘。 把观测图写成因子图 → 堆叠残差与 Jacobian → 形成正规方程 \(H\delta x = -g\) → 利用稀疏结构做 Schur 补。

字段 内容
学时 18–22h
教材 Dellaert-Kaess FnT 2017 ★ · Barfoot 2e Ch.9

MAP = WNLS 推导:取负对数 + 高斯假设 →

\[\hat{x} = \arg\min_x \sum_k \frac{1}{2}\|r_k(x)\|^2_{\Sigma_k^{-1}} = \arg\min_x \frac{1}{2}\|r(x)\|^2_W\]

因子图直觉:"一堆弹簧"——每个因子是一根弹簧,刚度 = 信息矩阵 \(\Sigma^{-1}\),自然长度 = 测量值。MAP = 总弹性能最小的构型。

Schur 补加速 BA(连接 ← 第二批专题4):

\[\underbrace{(H_{cc}-H_{cl}H_{ll}^{-1}H_{lc})}_{\text{Reduced Camera System}}\delta c = b_c - H_{cl}H_{ll}^{-1}b_l\]

\(H_{ll}\) 块对角(路标独立)→ \(H_{ll}^{-1}\) 可逐块 \(O(3^3)\) 求逆 → BA 瓶颈从 \(O((n_c+n_l)^3)\) 降到 \(O(n_c^3)\)

三大库对比

定位 优势 劣势
GTSAM 因子图 + Bayes 树 iSAM2增量、IMU预积分因子、SmartFactor API 学习曲线陡
Ceres 通用NLLS + AutoDiff 灵活、AutoDiff、文档优秀 无增量、无因子图抽象
g2o 超图 + 块求解器 轻量、ORB-SLAM标配 维护减缓

C iSAM2 与 Bayes 树

iSAM2 把全图批量优化改写为沿 Bayes 树的局部编辑 + 野火回代的增量算法。 Bayes 树 = 弦化因子图的团树 + 按消元顺序有根化 + 每团存条件密度。

字段 内容
学时 12–15h
教材 Kaess et al. TRO 2012 (iSAM2) ★ · Kaess et al. TRO 2008 (iSAM1)

iSAM2 的三把钥匙

钥匙 机制 效果
findAffectedTop + removeTop 只拆受影响路径上的团 局部编辑
Fluid Relinearization 只对 \(\|\delta x_j\|>\beta\) 的变量重新线性化 避免全图重线性化
Wildfire 回代 只沿变化显著的子树向下传播 局部回代

复杂度:2D pose graph 每帧 \(O(\sqrt{N})\),3D BA 每帧 \(O(N^{2/3})\)——这些界来自 Lipton-Rose-Tarjan 1979 的嵌套剖分定理。

Bayes 树 = 稀疏 Cholesky 的超节点结构(Kaess 2012 §3.2)——与第四批 ABA 的 Schur 补递推**数学结构相同**。这不是类比而是等价:SLAM 的变量消元和多体动力学的关节消元在图论上是同一操作。


7.3 模块D-F:前沿与鲁棒化

D InEKF 论文精读——分水岭定理

Barrau-Bonnabel TAC 2017 的真正贡献不是"把 EKF 搬到李群",而是发现了 group-affine 系统这一闭合类——使 InEKF 同时获得三件传统 EKF 永远做不到的事

# 性质 定理 含义
1 误差 ODE 自治 Theorem 1 误差动力学**不依赖真实状态**
2 误差对数满足线性 ODE Theorem 2 精确线性,不是近似(用 BCH 推导;需 \(\log\) 在收敛域内,\(SO(3)\) 误差接近 \(\pi\) 时有拓扑限制)
3 收敛半径独立于时间 Theorem 4 基于 Deyst-Price 1968 的 Lyapunov 稳定性

工程落地:Hartley IJRR 2020 的 Cassie 双足机器人使用 InEKF 在 SE₂(3) 上做 IMU 导航,位置 RMSE 降低约 30%。

E Certifiable Perception 与 SDP 松弛

从"局部最优"到"可证全局最优"的范式转换。 对 rotation averaging、PGO、点云配准,通过 SDP 松弛 + 对偶证书,在多项式时间内**后验验证**当前解是全局最优。

字段 内容
学时 12–15h
教材 Rosen et al. SE-Sync IJRR 2019 ★ · Yang-Carlone Certifiable Perception PAMI 2022

核心技术链

\[\text{非凸 QCQP} \xrightarrow{\text{Shor 松弛}} \text{SDP} \xrightarrow{\text{Burer-Monteiro}} \text{Stiefel 流形优化} \xrightarrow{\text{对偶证书}} \text{全局最优认证}\]

SE-Sync 在标准数据集上 100% 获得全局最优证书,比 GTSAM 快 3–27×。 TEASER++ 在 >99% 外点下仍能恢复正确配准。

连接 ← 第二批专题2:SDP 松弛 + 对偶证书直接使用锥优化层级(LP⊂QP⊂SOCP⊂SDP)。连接 ← 第一批专题2:Burer-Monteiro 在 Stiefel 流形**上用 Riemannian trust-region 求解。**连接 ← 第一批专题6:SO(n) 的对称性简化优化问题。

F 鲁棒估计与外点剔除

二次损失的 breakdown point = 1/N——单个错误回环就能毁掉整张位姿图。 工业级 SLAM 后端必须替换为鲁棒损失。

字段 内容
学时 8–10h
教材 Yang-Carlone RA-L 2020 (GNC) ★ · Huber 1981 Robust Statistics

鲁棒损失函数谱系

损失 公式 特性 使用场景
Huber \(\rho(r)=\begin{cases}r^2/2&\|r\|\le\delta\\\delta\|r\|-\delta^2/2&\text{else}\end{cases}\) 凸、非 redescending 最安全兜底
Cauchy \(\rho(r)=\frac{\delta^2}{2}\log(1+r^2/\delta^2)\) 非凸、redescending 中等外点
Geman-McClure \(\rho(r)=\frac{r^2/2}{1+r^2/\delta^2}\) 非凸、强 redescending 高外点
DCS 闭式权重、近似 GM 非凸、快速 在线 VIO
GNC-TLS 外层退火 + 内层 GN 非凸、可证收敛 离线 PGO(>80%外点仍收敛)

三库阈值陷阱:Ceres 的 \(\delta\) 作用在 \(s=\|r\|^2\)(平方空间),GTSAM 在 \(\tilde{r}=\Sigma^{-1/2}r\)(白化空间),g2o 在 \(e=r^T\Sigma^{-1}r\)(Mahalanobis 空间)——同一个 \(\delta=1.0\) 在三者中含义迥异

GNC 与 iSAM2 不兼容:GNC 本质是 batch outer-loop,必须全图重求解;iSAM2 的 fluid relinearization 无法一边增量一边退火。因此**在线 VIO 用 DCS/Huber,离线 PGO 用 GNC+PCM**。


7.4 第五批核心连接网络

连接 来源→目标 本质
≡ 同一 B2-B3 \(L^2(\Omega)\) 投影 → A1 KF KF = L²(Ω)正交投影(核心所需为 \(L^2\) 空间的 Hilbert 结构,源自 B2 测度论;B3 泛函分析的完整理论非必须但提供更深视角)
≡ 同一 A4迭代EKF → B单步GN **滤波 = 优化**的同一算法两种语言(在加性高斯噪声模型下成立)
≡ 同一 C Bayes树 → 稀疏Cholesky超节点 iSAM2的数据结构 = 稀疏因子分解
D InEKF ← 第一批6等变 group-affine → 一致性 = 等变条件的推论
E Certifiable ← 第二批2 SDP SDP松弛 + 对偶证书 = 全局最优验证
F GNC ← 第二批1b proximal Black-Rangarajan 半二次对偶
第一批3–5 exp/log/Adjoint/集中高斯是所有流形滤波的语法
第二批4 GN/LM BA/PGO 的核心求解算法
第四批 SE(3) 运动学 VIO 需要 IMU 运动学模型(\(\dot{R}=R[\omega]_\times\), \(\dot{v}=Ra+g\)

常见陷阱

# 陷阱 正确理解
1 KF 在非高斯下也最优 KF 在非高斯下是**最优线性估计**(BLUE),但非最优估计
2 EKF-SLAM 一致 不一致——Huang 2008 证明虚假可观性破坏一致性
3 UKF 比 EKF 好 取决于问题——高维时 UKF 中心点协方差权重 \(W_0^c\) 可能为负(维度越高负得越深),导致协方差估计丢失正定性,UKF 不一定好
4 iSAM2 是 LM 不是——iSAM2 无阻尼 \(\lambda\),大回环需多次 update()
5 因子图只能做 SLAM 因子图是通用概率推理框架——MPC、轨迹规划、传感器融合都可用
6 Certifiable = 全局最优 Certifiable = 在松弛紧时**可验证**全局最优;松弛不紧时无法认证
7 GNC 可以用在 iSAM2 中 不兼容——GNC 需要 batch outer-loop
8 鲁棒损失解决所有外点问题 PCM(Pairwise Consistency Maximization)在优化**之前**剔除不一致回环更稳

7.5 第五批教材与C++库对比

教材推荐路线

教材 覆盖 免费 最佳角色
Barfoot State Estimation 2e A1–A4+B(部分) 主教材——理论与SLAM的最佳桥梁
Thrun Probabilistic Robotics A1–A2+粒子滤波 入门——概率机器人的经典
Särkkä Bayesian Filtering 2e A1–A4(理论) 理论最严格——融合泛函分析视角
Dellaert-Kaess Factor Graphs FnT B+C 因子图+iSAM2权威
Rosen SE-Sync IJRR 2019 E ✅(arXiv) Certifiable SLAM 奠基论文
Yang-Carlone GNC RA-L 2020 F ✅(arXiv) 鲁棒后端核心

C++ 库对比

定位 增量 鲁棒核 流形 最佳场景
GTSAM 因子图+Bayes树 ✅iSAM2 Huber/DCS ✅Rot3/Pose3 增量SLAM/VIO
Ceres 通用NLLS ✅全部 ✅Manifold BA/通用优化
g2o 超图+块求解 Huber/DCS ORB-SLAM存量
SE-Sync Certifiable PGO ✅Stiefel 全局最优PGO

7.6 第五批学习里程碑与自测

M-E1(完成A1–A4后):能推导 KF 预测-更新公式并解释为 L² 正交投影,能解释 EKF 一致性病理的根源,能写出 ESKF 的乘法误差更新,能陈述 InEKF 的 group-affine 条件。

M-E2(完成全部9专题后):能把 MAP 写成因子图上的 WNLS,能解释 iSAM2 Bayes 树的三把钥匙,能陈述 SE-Sync 的 SDP 松弛原理,能区分 Huber/DCS/GNC 的适用场景。

自测题(8道)

# 题目 档位
1 从 Chapman-Kolmogorov + Bayes 推导 KF 预测-更新 3
2 解释 KF=BLUE+MMSE+MAP 三合一在联合高斯下的等价性(并说明线性模型为何自动满足联合高斯) 3
3 解释 EKF-SLAM 一致性病理的根源(Jacobian依赖估计→虚假可观性) 3
4 陈述 InEKF 的 group-affine 条件并解释"误差ODE自治"的含义 3
5 写出 MAP=WNLS 的推导(取负对数+高斯假设) 3
6 解释 iSAM2 为什么 2D pose graph 每帧 O(√N) 3
7 解释 SE-Sync 的"SDP松弛→Burer-Monteiro→对偶证书"技术链 4
8 为什么 GNC 与 iSAM2 不兼容?在线VIO应该用什么鲁棒策略? 3
---

7.7 补充:关键推导与工程深化

Kalman 增益的几何本质——Hilbert 空间投影

在概率空间 \((\Omega, \mathcal{F}, P)\) 上,零均值随机变量构成 Hilbert 空间 \(L^2_0(\Omega) = \{X: \mathbb{E}[X]=0, \mathbb{E}[X^2]<\infty\}\),内积 \(\langle X, Y \rangle = \mathbb{E}[XY]\)。对**向量值**随机变量 \(\tilde{x}\in\mathbb{R}^n\)\(\tilde{y}\in\mathbb{R}^m\),投影公式涉及协方差矩阵及其逆(而非标量除法):\(\mathrm{proj} = \mathrm{Cov}(\tilde{x},\tilde{y})\cdot[\mathrm{Var}(\tilde{y})]^{-1}\tilde{y}\)

KF 的更新步本质上是:给定观测 \(\tilde{y} = y - H\hat{x}^-\)(新息),求状态估计误差 \(\tilde{x} = x - \hat{x}^-\) 在新息子空间 \(\mathrm{span}(\tilde{y})\) 上的**正交投影**:

\[\hat{x}^+ - \hat{x}^- = \mathrm{proj}_{\mathrm{span}(\tilde{y})}(\tilde{x}) = \mathrm{Cov}(\tilde{x},\tilde{y})\cdot[\mathrm{Var}(\tilde{y})]^{-1}\tilde{y} = \underbrace{P^-H^T S^{-1}}_{K}\tilde{y}\]

代入 \(\mathrm{Cov}(\tilde{x},\tilde{y}) = P^-H^T\)\(\mathrm{Var}(\tilde{y}) = HP^-H^T + R = S\),得:

\[\boxed{K = P^-H^TS^{-1}} \qquad\text{(Kalman 增益)}\]

B3 泛函分析的投影定理**保证了最优性和唯一性——闭凸集(此处是观测信息的线性子空间)上的最近点存在且唯一。**这个推导不需要高斯假设——只要二阶矩有限(BLUE 性质)。高斯假设额外保证的是 BLUE = MMSE = MAP。

因子图正规方程的稀疏结构——从"弹簧"到 Schur 补

SLAM 因子图的信息矩阵(Hessian)\(H = J^T W J\) 天然稀疏——因为每个因子只连接少数变量。在位姿-路标 BA 中,\(H\) 呈**箭头型稀疏结构**:

H = [ Hcc  Hcl ]     c = 相机位姿(少量)
    [ Hlc  Hll ]     l = 路标点  (大量)

\(H_{ll}\) 是**块对角**的——因为路标之间没有直接因子连接。利用 Schur 补消去路标:

\[(H_{cc} - H_{cl}H_{ll}^{-1}H_{lc})\delta c = b_c - H_{cl}H_{ll}^{-1}b_l\]

数值陷阱\(H_{cc}-H_{cl}H_{ll}^{-1}H_{lc}\) 称为 Reduced Camera System (RCS),虽然维度小得多但变**稠密**了(每对共视相机之间产生填入 fill-in)。Ceres 的 DENSE_SCHURSPARSE_SCHUR 策略分别处理小规模和大规模 BA 场景。

滤波族进化的完整谱系图

1960 KF (Kalman)
1982 MEKF (Lefferts-Markley-Shuster) ← 航天:四元数乘法误差
1995 UKF (Julier-Uhlmann) ← 无需Jacobian的sigma点方法
2007 MSCKF (Mourikis-Roumeliotis) ← VIO工程标准(注:ESKF 概念始于 1982 MEKF (Lefferts-Markley-Shuster))
2008 FEJ (Huang-Mourikis-Roumeliotis) ← 修复一致性的补丁
2013 OC-EKF (Hesch et al.) ← 理想可观性约束
2017 InEKF (Barrau-Bonnabel) ← ★分水岭:group-affine解决一致性
2019 UKF-M (Brossard et al.) ← 流形上的sigma点
2020 EqF (van Goor-Mahony) ← 最一般的等变滤波框架
2021 IKFoM (Xu et al.) ← FAST-LIO2的流形EKF,工业级高效

每一步进化都解决了上一代的一个具体缺陷——MEKF 解决四元数约束维护问题;UKF 解决 Jacobian 计算问题;ESKF 把流形误差工程化;FEJ/OC 修复一致性补丁;InEKF 从代数结构根本解决一致性;EqF 推广到一般对称系统。

iSAM2 的增量更新示例——为什么是 O(√N)

考虑 2D pose graph:\(N\) 个位姿排成一条链(里程计因子),外加若干回环因子。

无回环时:新位姿 \(x_N\) 只连接 \(x_{N-1}\),Bayes 树只需在叶节点添加一个团——O(1) 每帧。

有回环时\(x_N\) 连接 \(x_m\)\(m \ll N\)):受影响的是从 \(x_N\)\(x_m\) 的**公共祖先路径**。在平面嵌套剖分(nested dissection)下,这条路径的长度约为 \(O(\sqrt{N})\)——这就是 2D pose graph 每帧 \(O(\sqrt{N})\) 复杂度的来源。

3D BA 的填入结构不同——相机-路标二部图的嵌套剖分给出 \(O(N^{2/3})\) 的路径长度。实践中,iSAM2 在千帧 VIO 中每帧更新时间约 1–5ms,远快于批量 LM 的数十到数百毫秒。

SE-Sync 的完整技术链详解

Step 1. 问题建模:PGO 写成 QCQP(二次约束二次规划): $\(\min_{\{R_i\in\mathrm{SO}(d)\}} \sum_{(i,j)\in\mathcal{E}} \kappa_{ij}\|R_j - \tilde{R}_{ij}R_i\|_F^2\)$

Step 2. Shor SDP 松弛:用 \(Z = \mathrm{vec}(R_1,...,R_n)\mathrm{vec}(...)^T \succeq 0\) 替代非凸约束 \(R_i^TR_i=I\),得到 SDP。

Step 3. Burer-Monteiro 分解\(Z = YY^T\)\(Y \in \mathrm{St}(n\cdot d, p)\)(Stiefel 流形),用 Riemannian trust-region 求解——变量从 \(O(n^2d^2)\) 降到 \(O(ndp)\)

Step 4. 对偶证书:计算 \(S = Q - \Lambda^*\)(目标矩阵减对偶最优乘子),若 \(\lambda_{\min}(S) \ge 0\),则当前解是原 QCQP 的**全局最优**。

Boumal-Voroninski-Bandeira 定理**保证:当 \(p(p+1)/2 > m\)(变量冗余度足够)时,Stiefel 流形上的二阶临界点**就是全局最优——不存在杂散局部极小。这就是 SE-Sync 的理论基石(← 第一批专题2 Burer-Monteiro 理论)。

第五批推荐学习序列

周次 内容 每周学时 累计
1–3 A1 贝叶斯框架+KF(协方差/信息/平方根三形式) 20–25h 22h
4–7 A2 EKF/UKF/CKF/GHKF(含一致性病理分析) 30–40h 57h
8–13 A3 ESKF/InEKF/UKF-M(group-affine定理精读+SE₂(3)实现) ~50h 107h
14–15 A4 收口(三条等价关系、全景对比表、平滑) 10–15h 120h
16–18 B 因子图+NLLS(MAP=WNLS推导+Schur补+GTSAM实践) 18–22h 140h
19–20 C iSAM2/Bayes树(三把钥匙+源码精读) 12–15h 154h
21–22 D InEKF论文精读(Theorem 1-4完整复现) 10–15h 167h
23–25 E Certifiable/SE-Sync + F 鲁棒估计/GNC 20–25h 190h

并行建议:A1–A2 可与第一批后半段并行——KF 的 L² 投影解释需要 B3 泛函分析基础。A3 需要在第一批专题3–5(李群/Jacobian/概率)**完成后**学习。B–C 可与第二批专题4(GN/LM)同步学——因子图是 GN/LM 的图结构化表达。E 需要第二批专题2(SDP/对偶理论)作为前置。

对偶翻译词典——滤波族与优化族的统一视角

滤波语言 优化语言 数学本质
先验 \(p(x_k\|y_{1:k-1})\) 正则化项 \(\|x-x_{\text{prior}}\|^2_{P^{-1}}\) Bayesian prior = Tikhonov 正则
似然 \(p(y_k\|x_k)\) 残差 \(\|h(x)-y\|^2_R\) 观测因子
后验 \(p(x_k\|y_{1:k})\) MAP 解 \(\hat{x}=\arg\min\) Bayes 更新 = 优化一步
Kalman 增益 \(K\) GN 步长 \((J^TJ)^{-1}J^T\)\(J\) 为 Jacobian) 正交投影/最小二乘
协方差 \(P\) Hessian 逆 \(H^{-1}\)\(H=J^TWJ\) 为 Hessian) 不确定性 = 曲率倒数
信息矩阵 \(\Lambda=P^{-1}\) Hessian \(H=J^TWJ\) 确信度 = 曲率
边缘化(Schur补) 变量消元(Cholesky) 完全等价的线性代数操作

这张表是理解"滤波=在线优化"的钥匙。 读懂每一行,你就能在 EKF 代码和 GTSAM 代码之间自由切换,因为它们底层做的是同一件事——只是数据结构和更新策略不同。


第八部分:第六批 — 强化学习的数学基础

8.0 第六批总论:把 RL 严格化为 Banach 空间上的不动点问题

第六批的目标不是教你调 PPO,而是**把 RL 严格化为测度论+泛函分析+随机过程的一个完整数学体系**。核心口号:MDP 的 Bellman 算子在 sup-norm 下是 γ-压缩,由 Banach 不动点定理保证值函数存在唯一且几何收敛——所有 RL 算法都是在"更聪明、更稳定、更样本高效地找这个不动点"上做文章。

字段 内容
总学时 100–140h
专题数 6(6.1–6.6)
核心教材 Bertsekas RL and Optimal Control 2019 ★ · Sutton-Barto RL: An Introduction 2e ★ · Meyn Control Systems and RL 2022 ☆ · Szepesvári Algorithms for RL 2010
前置 第零层(B2测度/B3泛函/B4 ODE) + 第三批(DP/Bellman/LQR)
后续 直接服务于机器人 RL 训练(PPO/SAC/MBRL/offline RL)

内部依赖链

6.1 (MDP/DP/Bellman算子压缩)
  ├─→ 6.2 (策略梯度/PG定理/Actor-Critic/PPO/SAC)
  ├─→ 6.3 (逼近DP/TD学习/Q-learning/致命三元组/DQN)
  ├─→ 6.4 (连续控制统一: LQR=RL sandbox, HJB=连续Bellman)
  └─→ 6.5 (随机逼近/ODE方法: TD/Q-learning为什么收敛)
         └─→ 6.6 (样本复杂度/PAC-MDP/offline RL/distributional/safe)

8.1 专题 6.1:MDP 与动态规划基础

MDP 是 RL 的数学心脏——同时也是最优控制(第三批3.3)的随机版本。 如果说李群是机器人几何的心脏,那么 MDP 就是机器人决策的心脏。

字段 内容
学时 20–25h
前置 B3 泛函分析(Banach 空间/压缩映射)+ 第三批3.3(确定性 DP)
教材 Bertsekas 2019 ★ · Puterman Markov Decision Processes 2014(理论圣经)

Bellman 算子的压缩性——链2的第三次现身

Bellman 最优算子

\[(T^*V)(s) = \max_a\left\{r(s,a) + \gamma\sum_{s'}P(s'|s,a)V(s')\right\}\]

定理(γ-压缩)\(\|T^*V_1 - T^*V_2\|_\infty \le \gamma\|V_1 - V_2\|_\infty\)

证明只需3行:\(|\min f - \min g| \le \max|f-g|\)(极值 Lipschitz)→ 提取 \(\gamma\) → 取 sup-norm。由 Banach 不动点定理(B1/B3),\(T^*\)\(\ell^\infty(\mathcal{S})\) 上有唯一不动点 \(V^*=T^*V^*\),值迭代 \(V_{n+1}=T^*V_n\)\(\gamma^n\) 几何收敛。

策略迭代的有限步收敛:在有限 \(|\mathcal{S}|\), \(|\mathcal{A}|\) 下,策略迭代最多 \(|\mathcal{A}|^{|\mathcal{S}|}\) 步终止(策略单调改进 + 策略有限 → 有限步)。实践中通常 \(<10\) 步。

控制-学习对偶——同一方程的两张面孔

确定性最优控制(3.3) 随机 MDP(6.1)
状态转移 \(x_{k+1}=f(x_k,u_k)\) \(s'\sim P(\cdot\|s,a)\)
Bellman 方程 \(V_k(x)=\min_u\{\ell+V_{k+1}(f)\}\) \(V^*(s)=\max_a\{r+\gamma\sum P\cdot V^*\}\)
解法 DP 后向递推 值迭代/策略迭代
特例 LQR → Riccati 线性高斯 → 同一 Riccati

8.2 专题 6.2:策略梯度与 Actor-Critic 理论

现代几乎所有大规模 RL 成功案例——OpenAI Five、AlphaStar、四足分钟级训练、人形上街、ChatGPT 的 RLHF——底层都是策略梯度家族(PPO 占绝对多数)。

字段 内容
学时 20–25h
教材 Sutton-Barto Ch.13 ★ · Schulman 2016 thesis ★ · Kakade 2002 NPG

策略梯度定理(Sutton et al. 1999)

\[\nabla_\theta J(\theta) = \mathbb{E}_{s\sim\rho^\pi,\,a\sim\pi_\theta}\left[\nabla_\theta\log\pi_\theta(a|s)\cdot Q^{\pi_\theta}(s,a)\right]\]

推导核心:对 \(J(\theta)=\mathbb{E}_{s_0}[V^{\pi_\theta}(s_0)]\) 用链式法则 + 递推展开 + log-derivative trick \(\nabla_\theta\pi_\theta = \pi_\theta\nabla_\theta\log\pi_\theta\)\(Q\) 可以被替换为 advantage \(A=Q-V\)(降低方差)、TD error \(\delta\)(Actor-Critic)、或 GAE \(\hat{A}^{\text{GAE}}\)(PPO)。

从 REINFORCE 到 PPO 的进化链

算法 年代 核心改进 方差/稳定性
REINFORCE 1992 蒙特卡洛回报估计 高方差
Actor-Critic 1999 \(V_\phi\) 估计 baseline → advantage 降低方差
A3C/A2C 2016 并行+异步 工程加速
TRPO 2015 KL 散度约束 \(D_{KL}(\pi_{\text{old}}\|\pi_{\text{new}})\le\delta\) 单调改进保证
PPO 2017 Clip 代理目标 \(\min(r\hat{A},\text{clip}(r)\hat{A})\) 工业标准(简单高效)
SAC 2018 最大熵 \(J=\mathbb{E}[\sum r+\alpha\mathcal{H}(\pi)]\) 连续动作首选

PPO 为什么统治机器人 RL? (1) 实现简单——核心代码<200行;(2) clip 机制天然限制步长——不需要 TRPO 的二阶自然梯度;(3) on-policy 避免致命三元组(6.3);(4) GAE 在方差-偏差间提供可调旋钮 \(\lambda\)

自然策略梯度与信息几何

\[\tilde{\nabla}_\theta J = F^{-1}\nabla_\theta J, \qquad F_{ij} = \mathbb{E}_\pi\left[\frac{\partial\log\pi}{\partial\theta_i}\frac{\partial\log\pi}{\partial\theta_j}\right] \text{ (Fisher 信息矩阵)}\]

NPG 的几何含义:在参数空间用 Fisher 度量(而非欧氏度量)做梯度下降——等价于在策略分布空间用 KL 散度做 proximal 步。TRPO 是 NPG 的约束版本,PPO 是 TRPO 的 clip 近似。Fisher 信息矩阵与第四批4-7辛结构有深层联系——NPG 可解读为策略流形上的"辛梯度"(Bagnell-Schneider 2003)。


8.3 专题 6.3:逼近动态规划与 TD 学习

TD 学习用"采样替代期望、逼近替代查表"跨越 Bellman 查表的鸿沟——但代价是"致命三元组"的不稳定性。

字段 内容
学时 18–22h
教材 Sutton-Barto Ch.6,9–11 ★ · Tsitsiklis-Van Roy 1997(线性TD收敛)

致命三元组(Deadly Triad)

组件 单独安全 三者同时
函数逼近
Bootstrapping(TD) 发散
Off-policy

Baird 1995 反例:仅 7 个状态的 MDP,线性 TD + off-policy → 参数发散到 \(\pm\infty\)DQN 的全部工程设计(target network、replay buffer、Huber loss)都是对致命三元组的补丁。

TD(0) 更新规则

\[V(s_t) \leftarrow V(s_t) + \alpha\underbrace{[r_t + \gamma V(s_{t+1}) - V(s_t)]}_{\text{TD error } \delta_t}\]

TD error \(\delta_t\) 的期望 = Bellman 残差 \(T^\pi V - V\)\((s_t,s_{t+1})\) 处的采样——TD(0) 是 Bellman 算子不动点方程的随机逼近版本


8.4 专题 6.4:连续控制与 RL 的统一视角

LQR 是 RL 的 sandbox,HJB 是连续时间 Bellman,model-based RL = learning-augmented MPC。

字段 内容
学时 15–18h
教材 Recht 2019 A Tour of RL from Continuous Control ★ · Bertsekas 2019 · Levine CS285

LQR 作为 RL 的"显微镜"

LQR 的一切 RL 对象都有**闭式解析表达**——这是它在 RL 理论中独一无二的地位:

RL 对象 LQR 中的闭式 性质
\(V^*(x)\) \(\frac{1}{2}x^TP_\infty x\) Riccati = Q-function 闭式
\(Q^*(x,u)\) 二次型 \(\frac{1}{2}[x;u]^T\begin{bmatrix}Q+A^TP_\infty A & A^TP_\infty B\\ B^TP_\infty A & R+B^TP_\infty B\end{bmatrix}[x;u]\) 解析可写
\(\pi^*(x)\) \(-K_\infty x = -(R+B^TP_\infty B)^{-1}B^TP_\infty Ax\) 线性反馈
\(\nabla_K J\) \((R+B^TP_KB)K - B^TP_KA)\Sigma_K\) Fazel 2018

Fazel et al. ICML 2018 的关键结论\(J(K)\) 关于 \(K\) 非凸**但满足 **PL 不等式——梯度下降全局收敛到 \(K^*\),收敛率 \((1-\mu/L)^k\)这个结论把 LQR 从"已解决的经典问题"变成了"RL 理论的基准测试"。

Model-based RL 与 MPC 的统一

方法 模型来源 规划方式 代表工作
经典 MPC 物理建模(URDF+Pinocchio) DDP/SQP Crocoddyl/ACADOS
PILCO GP 学习 解析梯度规划 Deisenroth 2011
PETS 集成神经网络 CEM 采样规划 Chua 2018
Dreamer 世界模型(RSSM) 想象空间 Actor-Critic Hafner 2020/2023
TD-MPC2 世界模型 + MPPI 采样+梯度混合 Hansen 2024
Residual RL 物理模型 + 残差策略 MPC + 学习修正 Johannink 2019

"策略梯度 vs 环境梯度"的判据(连接 ← 第二批5 AD):可微仿真(Brax/MuJoCo MJX)的一阶梯度在**光滑、短时域**场景优于 REINFORCE 的零阶梯度;但在**接触、混沌、刚性**场景下梯度可能爆炸——此时 MPPI/PPO/SHAC 的零阶或混合阶方法更稳。


8.5 专题 6.5–6.6 速查

专题 一句话 学时 关键内容
6.5 随机逼近/ODE 为什么 TD/Q-learning/AC 收敛? Borkar-Meyn ODE 方法把 RL 收敛归约为 ODE 稳定性 15-20h Robbins-Monro → 两时间尺度 → Lyapunov 分析(← B4/3.7)
6.6 样本复杂度/前沿 要多少样本? PAC-MDP、minimax 下界、offline RL 悲观原理、distributional RL、safe RL/CMDP 15-20h 集中不等式 + Le Cam 两点法 + Wasserstein 压缩

6.5 的核心定理(Borkar-Meyn ODE 方法):若算法对应的"平均 ODE" \(\dot\theta=\bar{h}(\theta)\)\(\theta^*\) 处 GAS,且步长/噪声/有界性三条件满足,则 \(\theta_t \to \theta^*\) a.s.——把 RL 收敛性转译为经典动力系统问题

6.6 的前沿三方向(1) Offline RL 的悲观主义\(\hat{V}(s,a) = \hat{Q}(s,a) - \beta\cdot\text{uncertainty}\)——用数据充分覆盖的区域做决策,对未见区域悲观(← 机器人 foundation model 训练的数学基石);(2) Distributional RL:从 \(\mathbb{E}[G]\) 推广到 \(\text{Law}(G)\)(回报分布),Wasserstein 压缩性保证收敛——C51/QR-DQN/IQN 的理论支柱;(3) Safe RL / CMDP:约束 MDP \(\max J(\pi)\) s.t. \(C_i(\pi)\le d_i\) 的 Lagrangian 对偶(← 第二批KKT的直接应用)。


8.6 第六批教材与连接网络

教材推荐路线

教材 覆盖 免费 最佳角色
Bertsekas RL and OC 2019 6.1+6.4 ✅(作者网站) 控制人视角的RL圣经
Sutton-Barto RL: An Introduction 2e 6.1–6.3 RL 标准教材
Meyn Control Systems and RL 2022 6.1+6.5 ✅(作者网站) ODE 方法最严格的教材
Szepesvári Algorithms for RL 2010 6.1–6.3+6.6 浓缩理论综述
Agarwal et al. RL Theory and Algorithms 2021 6.6 样本复杂度前沿

与其他批次的深层统一

连接 来源→目标 本质
≡ 同一 6.1 ↔ 3.3 同一 Bellman 方程
≡ 同一 6.4 ↔ 3.5 LQR = 线性高斯 RL
≡ 同一 6.3 TD ↔ 3.4 HJB TD = HJB 的采样近似
6.5 → B4+3.7 SA-ODE = Lyapunov 分析在 RL 中的应用
B2 Radon-Nikodym → 6.2 重要性采样权重 = 密度比
B3 Banach 不动点 → 6.1 值迭代收敛 = 压缩映射不动点
6.6 CMDP → 第二批 KKT 约束 RL 的 Lagrangian 对偶

常见陷阱

# 陷阱 正确理解
1 RL 和控制是两个独立领域 同一 Bellman 方程的两种语言
2 PPO 有收敛性保证 PPO 的 clip 操作**没有**严格的单调改进保证(不同于 TRPO)
3 DQN 成功因为神经网络强 DQN 成功因为**target network + replay buffer 绕过了致命三元组**
4 Model-free 优于 model-based 机器人上 model-based(MPC+学习修正)通常**样本效率高 100–1000×**
5 可微仿真一定优于 REINFORCE 接触/混沌/刚性场景下一阶梯度可能**爆炸**
6 Offline RL 和 online RL 用同一套理论 Offline 用**悲观**原理(CQL/IQL),与 online 的**乐观**原理(UCB)对偶

8.7 第六批学习里程碑与自测

M-R1(完成6.1–6.2后):能写出 MDP 七元组,能证明 Bellman 算子 γ-压缩性,能推导策略梯度定理,能解释 PPO 的 clip 机制。

M-R2(完成全部6专题后):能解释致命三元组并指出 DQN 的每个设计对应哪个病理,能在 LQR 上写出 V*/Q*/π* 的闭式,能陈述 Borkar-Meyn ODE 方法的核心定理,能解释 offline RL 悲观原理。

自测题(6道)

# 题目 档位
1 证明 Bellman 最优算子的 γ-压缩性(3行) 3
2 从策略梯度定理推导 REINFORCE 的更新规则 3
3 解释致命三元组并说明 DQN 的 target network/replay buffer 分别解决哪个问题 3
4 在 LQR 上写出 \(V^*(x)\), \(Q^*(x,u)\), \(\pi^*(x)\) 的闭式 3
5 陈述 Borkar-Meyn ODE 方法的核心定理并解释"平均 ODE" 4
6 解释 offline RL 的悲观原理与 online 的乐观原理为什么互为对偶 4

8.8 补充:关键推导与工程实例

策略梯度定理的完整推导骨架

目标\(J(\theta) = \mathbb{E}_{s_0\sim\mu_0}[V^{\pi_\theta}(s_0)]\)

Step 1(Performance Difference Lemma,Kakade 2002):

\[J(\pi') - J(\pi) = \frac{1}{1-\gamma}\mathbb{E}_{s\sim d^{\pi'},a\sim\pi'}\left[A^\pi(s,a)\right]\]

其中 \(d^{\pi'}(s)=(1-\gamma)\sum_{t=0}^\infty\gamma^t P(s_t=s|\pi')\) 是折扣占用测度,\(A^\pi=Q^\pi-V^\pi\) 是 advantage。

Step 2(微分版本):对 \(\theta\) 求导,\(\pi'=\pi_{\theta+d\theta}\),利用 \(d^{\pi_\theta}\)\(d\theta\to 0\) 时连续依赖 \(\theta\)

\[\nabla_\theta J = \frac{1}{1-\gamma}\mathbb{E}_{s\sim d^{\pi_\theta},a\sim\pi_\theta}\left[\nabla_\theta\log\pi_\theta(a|s)\cdot Q^{\pi_\theta}(s,a)\right]\]

log-derivative trick(score function):\(\nabla_\theta\pi_\theta = \pi_\theta\nabla_\theta\log\pi_\theta\),使得梯度可以写成期望形式——这是 REINFORCE 能用 Monte Carlo 估计梯度的数学基础。

DCT 的角色(连接 ← B2):积分-微分交换 \(\nabla_\theta\int = \int\nabla_\theta\) 的合法性需要**控制收敛定理**——策略梯度推导的严格化需要 B2 测度论。

致命三元组的数学解剖

为什么三元组同时存在时会发散? 精确 DP 的收敛靠 \(T^\pi\)\(\ell^\infty\) 上的 γ-压缩性。当引入线性函数逼近 \(V_\theta(s) = \phi(s)^T\theta\) 后,Bellman 更新变成**投影 Bellman 算子** \(\Pi T^\pi\),其中 \(\Pi\) 是到逼近空间的投影。

条件 \(\Pi T^\pi\) 是否压缩? 结果
On-policy + 线性逼近 ✓(在 \(\mu^\pi\)-加权 \(L^2\) 下) 收敛(Tsitsiklis-Van Roy 1997)
Off-policy + 线性逼近 (投影不在 \(\mu^{\pi_b}\) 加权范数下压缩) 可能发散
Off-policy + 非线性逼近 ✗✗ Baird 反例

DQN 的补丁对照:target network 冻结 \(\theta^-\) → 把 bootstrapping 变成"有限延迟的 batch 更新",近似消除 \(\Pi T^\pi\) 的非压缩性;replay buffer → 近似恢复 IID 条件。但这些补丁没有严格理论保证——这就是为什么机器人领域更偏好 on-policy 的 PPO。

PPO 在机器人 RL 中的典型训练流程

            ┌─── 仿真环境(MuJoCo/Isaac)───┐
            │                               │
  动作 u ──→│  s' = sim.step(s, u)          │──→ 观测 s', r
            │  r = reward(s, u, s')          │
            └───────────────────────────────┘
                    策略 πθ(a|s)
              ┌─ PPO 更新循环 ─┐
              │ 1. 收集 N 步轨迹 │
              │ 2. 计算 GAE Â   │
              │ 3. 多轮 clip 更新│
              │ 4. 更新 Vφ       │
              └────────────────┘

典型超参数(Rudin 2022 四足 / Walk These Ways):

参数 含义
并行环境数 4096 GPU 并行仿真
步数/更新 24 每次收集的步数
迭代轮数 5 每批数据的 clip 更新次数
\(\gamma\) 0.99 折扣因子
\(\lambda_{\text{GAE}}\) 0.95 GAE 平滑因子
clip \(\varepsilon\) 0.2 PPO clip 范围
训练时间 ~20 min 4096 并行 on A100

20 分钟训练出能走路的四足——这个速度来自 GPU 并行仿真(Isaac Gym/Lab)+ PPO 的 on-policy 稳定性 + 域随机化(domain randomization)。

Offline RL 的悲观原理详解

Online RL 用乐观(UCB/optimism)探索未知Offline RL 用悲观(pessimism)避免未知

\[\hat{Q}(s,a) = \hat{Q}_{\text{model}}(s,a) - \beta\cdot\underbrace{u(s,a)}_{\text{不确定性}}\]

其中 \(u(s,a)\) 衡量 \((s,a)\) 在离线数据集中的**覆盖程度**——数据稀疏区域不确定性高,悲观项大,策略自动远离这些区域。

代表算法:CQL(Kumar 2020)在 Q-function 上加正则惩罚未见动作的 Q 值;IQL(Kostrikov 2022)用 expectile regression 隐式实现悲观;Cal-QL 在两者间自适应。机器人应用:从人类示教数据(RT-1/RT-2)或仿真数据训练策略,不能在真机上继续探索——offline RL 是数学上唯一正确的方法。

第六批推荐学习序列

周次 内容 每周学时 累计
1–3 6.1 MDP/DP/Bellman算子(含压缩性证明和策略迭代) 8h 24h
4–6 6.2 策略梯度/PG定理/Actor-Critic/PPO/SAC 8h 48h
7–9 6.3 TD/Q-learning/致命三元组/DQN 分析 7h 69h
10–11 6.4 LQR↔RL/HJB↔Bellman/MBRL 8h 85h
12–13 6.5 随机逼近/ODE方法(Borkar-Meyn) 8h 101h
14–15 6.6 样本复杂度/offline/distributional/safe 8h 117h

并行建议:6.1 应在第三批3.3(确定性DP)**之后**学习——先理解确定性版本再加随机性。6.4 可与第三批3.5(LQR)**同步**学——两者互为镜像。6.5 需要 B4(ODE)和3.7(Lyapunov)作为硬前置。

控制与学习的完整统一图景——链5的最终可视化

                              Bellman 方程
                             /            \
               ┌─ 确定性 DP (3.3) ─┐   ┌─ 随机 MDP (6.1) ──────┐
               │                   │   │                        │
          有限时域            无限时域   值迭代              策略迭代
               │                   │   │                        │
           TVLQR              HJB  │   TD(0)/Q-learning    Actor-Critic
               │                   │   │                        │
          Riccati递推         黏性解│   SA-ODE(6.5)         NPG/PPO(6.2)
               │                   │   │                        │
              DDP(3.9)         MPPI │   DQN(6.3)            SAC(6.2)
               │                   │   │                        │
         ← ─ 第三批 ─ ─ ─ → ← ─ ─│─ ─ 第六批 ─ ─ ─ ─ ─ ─ ─ →
                              LQR = 缝合点(3.5 ≡ 6.4)
                              Riccati = Q-function 闭式
                              J(K) 非凸但满足 PL → 全局收敛

这张图是全路线图链5(控制-学习统一链)的最终可视化。 左半属第三批,右半属第六批。LQR 在正中央——它既是最优控制的果蝇,又是 RL 理论的基准。掌握此图每条边的数学含义 = 掌握了控制与学习交叉方向的全部理论工具。

机器人 RL 工程栈速查

层级 工具 角色
仿真环境 MuJoCo / Isaac Lab / Brax GPU 并行物理仿真
RL 训练框架 RSL-RL / rl_games / CleanRL / Stable Baselines3 PPO/SAC 实现
Sim-to-Real 域随机化(DR) + 教师-学生蒸馏 跨越 sim-to-real gap
策略部署 ONNX Runtime / TensorRT on Jetson 真机推理
安全层 CLF-CBF QP (← 第三批3.8) 策略输出过滤

典型流水线(Rudin 2022 / ETH Robotic Systems Lab):Isaac Gym 并行 4096 环境 → PPO 训练 20 min → 教师策略 → 学生蒸馏(observation history → proprioception-only)→ Jetson Xavier 部署 → CLF-CBF 安全过滤 → 真机行走。整个链路从仿真到真机约 2 小时。

强化学习与最优控制的"翻译词典"

RL 术语 控制术语 数学本质
状态值函数 \(V^\pi(s)\) Cost-to-go \(J^*(x)\) Bellman 方程的解(符号相反)
动作值函数 \(Q^\pi(s,a)\) Q-factor / Hamiltonian \(H(x,u,\lambda)\) 含动作的值函数
Advantage \(A(s,a)=Q-V\) 共态/边际代价 "选这个动作比平均好多少"
TD error \(\delta_t\) Bellman 残差采样 \(T^\pi V - V\) 在一步的估计
折扣因子 \(\gamma\) 时间偏好 / 稳定性参数 保证 Bellman 压缩
策略梯度 ∇J 在参数空间做梯度上升
Actor-Critic 控制器 + 观测器 策略网络 + 值网络
Replay buffer 经验数据集(off-policy 关键)
域随机化 DR 鲁棒化 / 集合模型不确定性 训练时随机化物理参数
Sim-to-Real 模型误差补偿 仿真→真机的迁移

这张表是跨越"控制社区"和"RL社区"语言鸿沟的桥梁。 两个社区的核心数学完全相同(Bellman方程),但术语体系、符号约定(min vs max、cost vs reward)、甚至会议(CDC/L4DC vs NeurIPS/ICML)几乎不重叠。理解这张表 = 能同时读懂两个社区的论文。


第九部分:第七批 — 接触力学与混合动力系统

9.0 第七批总论:一只脚踩到地面,怎么让计算机算清楚?

第七批是路线图中**数学最不友好但工程最刚需**的一批——接触力学同时具备四个"坏"性质:非光滑(粘/滑切换不可微)、非对称(摩擦方向选择)、非凸(Signorini + Coulomb 可行集不凸)、非唯一(Painlevé 佯谬有多解甚至无解)。然而每一个让机器人与物理世界交互的场景——足式行走、灵巧操作、抓取规划、推物体——都绕不开接触。

整条叙事用一个问题串起:"一只脚踩到地面这件事,到底怎么让计算机算清楚?"七个专题在不同抽象层次回答:

专题 回答的问题 数学工具
§1 LCP/NCP 接触**是什么**(互补条件) \(0 \le \phi \perp \lambda \ge 0\)
§2 摩擦锥 摩擦**长什么样**(锥几何) \(\|\lambda_T\| \le \mu\lambda_N\)(SOC)
§3 时步法 怎么**推进一步**(时间离散) Moreau-Jean / Stewart-Trinkle
§4 可微接触 怎么**求梯度**(可微化) IFT / 凸松弛 / 随机平滑
§5 混合系统 事件**跳跃怎么算**(saltation) \(\Xi\) = 接触事件的一阶 Jacobian
§6 CI-TO/MPC 怎么**闭环优化**(轨迹优化) MPCC / Contact-Implicit MPC
§7 非光滑前沿 **理论天花板**在哪里 Clarke / Mordukhovich / IPC
字段 内容
总学时 100–140h(档位3);额外 60–80h(档位4)
核心教材 Stewart SIAM Review 2000 ★ · Brogliato Nonsmooth Mechanics 3e ★ · Acary-Brogliato Numerical Methods for Nonsmooth Dynamics
C++ 库 MuJoCo · Drake(SAP) · Siconos · Dojo(Julia) · Pinocchio 3
前置 第四批(刚体动力学) + 第二批(KKT/锥优化/AD) + B4(ODE)
后续 → 可微仿真驱动的 RL(第六批) · → 接触隐式 MPC(第三批3.12扩展)

内部依赖链

§1 (互补问题/LCP/Signorini)
  ↓ "摩擦毁掉互补的良态性"
§2 (摩擦锥/SOC/凸松弛)
  ↓ "锥约束怎么沿时间推进一步"
§3 (时步法/Moreau-Jean/MDI)
  ↓ "一步的梯度怎么算"
§4 (可微接触/IFT/随机平滑)
  ↓↗ "把悬崖磨成斜坡" vs "承认悬崖,贴跳跃贴纸"
§5 (混合系统/saltation matrix Ξ)
  ↓ "把灵敏度嵌入闭环优化"
§6 (接触隐式TO/MPC/MPCC)
  ↓ "理论天花板"
§7 (非光滑分析/Clarke/IPC/GPU前沿)

9.1 §1–§2:接触的数学基础

§1 互补问题与 Signorini 条件

接触的数学本质是互补——法向间距 \(\phi \ge 0\) 和法向力 \(\lambda_N \ge 0\) 不能同时为正

\[\boxed{0 \le \phi(q) \perp \lambda_N \ge 0}\]
条件 物理含义
\(\phi > 0,\ \lambda_N = 0\) 不接触,无力
\(\phi = 0,\ \lambda_N > 0\) 接触中,有压力
\(\phi > 0,\ \lambda_N > 0\) 物理不可能(互补排除)

LCP 与 QP 的等价:无摩擦接触的互补条件直接写成 LCP:\(w = Mz + q\)\(0 \le z \perp w \ge 0\)。而 LCP 等价于凸 QP 的 KKT 条件——链3(优化枢纽链)在接触力学中的直接应用

Painlevé 佯谬:存在 \((\mu, q, \dot{q})\) 使刚体+Coulomb 的加速度级 LCP 无解或多解(均匀杆阈值 \(\mu_P=4/3\))。这不是理论游戏——拖擦末端执行器、粉笔在黑板上跳动、机械臂 jamming 都是 Painlevé 的实际表现。时步法(§3)通过速度级积分消解 Painlevé

§2 摩擦锥理论与凸松弛

Coulomb 摩擦把良态 LCP 毁掉——因为摩擦引入方向选择和非对称性,使互补矩阵不再是 P-matrix(破坏唯一性)。

3D Coulomb 摩擦锥

\[\mathcal{K}_\mu = \{(\lambda_N, \lambda_T) \in \mathbb{R} \times \mathbb{R}^2 : \|\lambda_T\| \le \mu\lambda_N\}\]

\(\mathcal{K}_\mu\) 就是二阶锥 SOC——连接 ← 第二批专题1a(SOC 是凸集)、第二批专题2(SOCP 求解器 ECOS)。摩擦锥 = 优化中的锥约束

三大仿真引擎的摩擦模型差异

引擎 摩擦模型 数学方法 梯度可用性
MuJoCo Todorov 凸松弛 + 可切换锥 凸QP ✓(MJX可微)
Drake Castro SAP (2022) Anitescu 凸松弛 + 柔性消约束 ✓(IFT)
Siconos 真实 SOC + ADMM Moreau-Jean + SOCP ⚠️(受限)
Bullet Sequential Impulse + pyramid 近似迭代

没有一个模型在所有指标上占优——原因正是摩擦的四重"病态"。


9.2 §3–§4:仿真的数值方法

§3 时步法与数值积分

机器人接触仿真不是"光滑 ODE + 碰撞修正",而是 measure differential inclusion(MDI)的时间离散。 解是 BV 函数(速度有跳跃),作用力是测度(冲量是 atomic measure),约束集随时间移动(sweeping process)。

字段 内容
学时 15–18h
教材 Stewart SIAM Review 2000 ★ · Acary-Brogliato Ch.10–12

Moreau-Jean θ-scheme(§3 核心算法):

\[M(v^{k+1} - v^k) = h\,f_{\text{ext}} + J^T\lambda^{k+1}, \qquad \lambda^{k+1} \in \text{SOL}(\text{CCP on } Jv^{k+1})\]

每个时间步本身就是§2的一个锥优化问题——时步法 = 时间离散 × 摩擦锥优化。

经典辛积分器(如 Störmer-Verlet)在接触不连续处需要特殊处理——Hairer-Lubich-Wanner 的经典框架不含不等式约束,但 Fetecau-Marsden-West-Ortiz 2003 等工作扩展了变分积分器到非光滑情形。时步法的精度在碰撞点退化为零阶(冲量是 Dirac δ),但全局一阶收敛仍可保证。

§4 可微接触仿真

刚体接触天然不可微(Dirac 冲量/stick-slip 切换/激活集切换),要获得梯度信号只有三条路:

路线 思路 代表工作 优劣
凸松弛 + IFT 把接触"软化"后对 KKT 隐式微分 MuJoCo/Drake SAP 快但物理不精确
Compliant contact 用弹性接触模型(Hunt-Crossley) Brax/MuJoCo MJX 光滑但需调刚度
随机平滑 用高斯噪声把不连续"抹平" Suh-Tedrake 2022 理论优雅但高方差

Suh et al. 2022 的关键结论:刚体接触的梯度**几乎处处为零、间或为无穷**——rigid contact 让一阶解析梯度(first-order batched gradient, FoBG)方差发散,而零阶策略梯度(REINFORCE/ZoBG)仍然可用但效率低。必须用 randomized smoothing(有偏但低方差)或 implicit differentiation 才能获得实用梯度。

核心公式(隐函数定理穿过 KKT):

\[\frac{\partial x^*}{\partial\theta} = -\left(\frac{\partial F}{\partial x}\right)^{-1}\frac{\partial F}{\partial\theta}, \qquad F(x,\theta) = \text{KKT conditions}\]

连接 ← 第二批专题5(隐式微分):可微接触 = AD + IFT 绕过互补约束的不可微性——同一个 IFT 公式在 OptNet(可微 QP 层)和 Dojo(可微接触)中发挥完全相同的作用。


9.3 §5–§6:混合系统与接触隐式优化

§5 混合动力系统与 Saltation 矩阵

§4 把悬崖磨成斜坡,§5 承认悬崖存在但贴一张"跳跃修正贴纸"——这张贴纸就是 saltation matrix \(\Xi\)

\[\boxed{\Xi = \frac{\partial R}{\partial x} + \frac{(f_j(Rx) - \frac{\partial R}{\partial x}f_i(x))\frac{\partial g}{\partial x}^T}{\frac{\partial g}{\partial x}^T f_i(x)}}\]

其中 \(R\) 是重置映射(如碰撞冲量律),\(g=0\) 是切换面(如脚触地),\(f_i, f_j\) 是切换前后的向量场。

\(\Xi\) 是接触事件的一阶 Jacobian——它捕获了"初值微小扰动在跨越 guard 后如何传播"。四大落脚点:HZD 步态综合(Poincaré 映射的 Jacobian 含 \(\Xi\))、Salted Kalman Filter(EKF 协方差在碰撞时用 \(\Xi\) 跳跃更新)、HiLQR-MPC(DDP backward pass 穿过事件面)、Impact-Invariant Tracking。

§6 接触隐式轨迹优化与 MPC

Contact-Implicit 的核心含义:不预先指定接触时间表——接触的 make/break 时间、接触面、法向力,全部作为优化变量内生涌现。

字段 内容
学时 12–15h
教材 Posa-Cantu-Tedrake IJRR 2014 ★ · Manchester-Kuindersma 2019 · Le Cleac'h-Howell T-RO 2024

CI-TO 的数学形式 = MPCC(Mathematical Program with Complementarity Constraints):

\[\min_{x,u,\lambda} \sum \ell(x_k,u_k) \quad\text{s.t.}\quad x_{k+1}=f(x_k,u_k,\lambda_k),\quad 0\le\phi(x_k)\perp\lambda_k\ge 0\]

MPCC 不满足标准 LICQ/MFCQ——互补约束 \(\phi\cdot\lambda=0\) 在活跃集边界处约束梯度线性相关。这使得标准 SQP/IPM 可能收敛到非 KKT 点。解决路线:松弛互补(Scholtes 1999)、正则化(Lin-Fukushima 2005)、或用 §4 的凸松弛消除互补。

十年进化链:Posa 2014(MPCC开山) → Manchester 2019(变分积分器) → Aydinoglu 2022(C3/ADMM首次kHz) → Howell 2022(Dojo) → Le Cleac'h 2024(Fast CI-MPC) → Kim 2025(HOUND四足CI-MPC)


9.4 §7:非光滑分析前沿

理论天花板——前6专题中散落使用的 Clarke 广义梯度、Fischer-Burmeister 函数等工具在此被统一到 Rockafellar-Wets 变分分析框架下。

方向 内容 代表工作
Clarke 广义梯度 非光滑函数的"凸包梯度" Clarke Optimization and Nonsmooth Analysis 1983/1990
IPC (Incremental Potential Contact) barrier 方法保证无穿透 + Hessian 正定 Li et al. SIGGRAPH 2020
GPU 大规模可微仿真 MJX/MJWarp/Brax/Isaac/Genesis MuJoCo ≥3.0、NVIDIA Warp
Complementarity-free ABD (Affine Body Dynamics) 完全消除互补 Chen et al. TOG 2022

9.5 第七批教材与 C++ 库对比

教材推荐路线

教材 覆盖 免费 最佳角色
Stewart SIAM Review 2000 §1–§3 ✅(SIAM) 时步法奠基综述
Brogliato Nonsmooth Mechanics 3e §1–§5,§7 理论圣经
Acary-Brogliato Numerical Methods §3,§7 数值方法百科
Posa-Tedrake IJRR 2014 §6 ✅(arXiv) CI-TO 开山论文
Suh-Tedrake 2022 ICML §4 随机平滑理论
Kong-Johnson T-RO 2023 §5 Saltation matrix 综述

仿真器对比

引擎 接触模型 可微 GPU 最佳场景
MuJoCo 凸松弛+soft ✓(MJX) ✓(MJX) RL 训练
Drake SAP/Hydroelastic ✓(IFT) CI-TO/分析
Isaac Lab PhysX/MJX 大规模并行RL
Siconos Moreau-Jean/SOCP ⚠️ 理论验证
Dojo 凸松弛+IFT 可微仿真研究
Pinocchio 3 proximal contact 与Crocoddyl集成

9.6 第七批核心连接网络

连接 来源→目标 本质
第二批1a(SOC) → §2 摩擦锥 = 二阶锥 SOC
第二批2(KKT) → §1 LCP = QP的KKT——链3在接触中的应用
第二批5(IFT) → §4 可微接触 = IFT穿过KKT
第四批4-6(约束动力学) → §1 DAE → 互补约束的直接前置
§4 → 第六批(RL) 可微仿真驱动 policy gradient
§6 → 第三批3.12(MPC) CI-MPC = MPC + 接触隐式约束
§5 saltation → 第三批3.7(Lyapunov) 周期步态稳定性 = Poincaré 映射的 Floquet 乘子含 \(\Xi\)
B4(Peano非唯一) → §1(Painlevé) Peano 定理的机器人实例

常见陷阱

# 陷阱 正确理解
1 接触力学只是"碰撞检测" 碰撞检测是**几何**问题;接触力学是**力学+优化**问题
2 MuJoCo 和 Drake 的接触结果应该一致 不一致——底层摩擦模型完全不同(凸松弛 vs SAP vs SOCP)
3 可微仿真 = 对仿真器做 AD 刚体接触对 AD 不友好(梯度几乎处处为零)——需要凸松弛/随机平滑
4 MPCC 可以用标准 SQP 求解 不能——互补约束违反 LICQ/MFCQ,需要特殊松弛策略
5 辛积分器适合接触仿真 辛积分器**在碰撞点退化为零阶**——时步法是正确的方法
6 Painlevé 是理论游戏 拖擦/推物体/jamming 都是 Painlevé 的**真实表现**

9.7 第七批学习里程碑与自测

M-T1(完成§1–§3后):能写出 Signorini 条件的三级形式,能解释摩擦锥为什么是 SOC,能描述 Moreau-Jean 时步法的一步公式,能解释 Painlevé 佯谬的物理含义。

M-T2(完成全部7专题后):能对比 MuJoCo/Drake/Siconos 的接触模型差异,能解释 IFT 如何穿过 KKT 获得接触梯度,能写出 saltation matrix \(\Xi\) 的公式并解释其物理含义,能陈述 CI-TO 作为 MPCC 的数学形式及其 LICQ 违反问题。

自测题(6道)

# 题目 档位
1 写出 Signorini 互补条件并解释与 QP-KKT 的等价性 3
2 解释为什么 Coulomb 摩擦使 LCP 的 P-matrix 性质被破坏 3
3 描述 Moreau-Jean 时步法的一步更新公式并解释"每步=一个锥优化" 3
4 解释可微接触的三条路线(凸松弛+IFT / compliant / 随机平滑)的优劣 3
5 写出 saltation matrix \(\Xi\) 的公式并解释"初值扰动在跨越 guard 后如何传播" 4
6 解释 CI-TO 为什么是 MPCC 以及 MPCC 违反 LICQ 的后果 4

第十部分:第八批 — 深度学习与具身智能数学

10.0 第八批总论:路线图的"屋顶层"

第八批是全路线图的**屋顶层**——不教 PyTorch 调参,而是建立神经网络的严格数学理解。六个专题回答六个递进的问题:网络**能不能**逼近目标函数(8.1)→ 从有限样本学到的网络在未见数据上**表现如何**(8.2)→ Transformer 为什么**能做序列建模(8.3)→ Diffusion Models 的**数学结构**是什么(8.4)→ VLA 如何从数学上**统一视觉-语言-动作(8.5)→ 如何构造**精确满足对称性**的神经网络(8.6)。

字段 内容
总学时 100–140h(档位3);额外 80–120h(档位4)
专题数 6(8.1–8.6)
核心教材 Shalev-Shwartz & Ben-David Understanding ML ★ · Murphy PML: Advanced Topics 2023 ☆ · Bronstein et al. Geometric Deep Learning
前置 第零层(B2测度/B3泛函) + 第二批(优化/AD) + 第六批(RL) + 第一批6(等变理论)
C++ 库 libtorch · ONNX Runtime · TensorRT(部署推理)

内部依赖链

8.1 (逼近理论: UAT/Barron/深度分离)
  ├─→ 8.2 (泛化理论: VC维/Rademacher/PAC-Bayes/双下降)
  ├─→ 8.3 (Transformer: 注意力=核方法/位置编码/ICL=隐式优化)
  ├─→ 8.4 (Diffusion: 前向SDE/反向SDE/Score Matching/Flow Matching)
  │       └─→ 8.5 (VLA: RT-2/Octo/π₀/动作离散化/scaling)
  └─→ 8.6 (等变网络: 群表示论/TFN/EGNN/MACE/等变扩散)

10.1 专题 8.1:神经网络逼近理论

回答"网络能不能逼近目标函数"——从存在性(UAT)到定量速率(Barron)到深度为何重要(深度分离)。

字段 内容
学时 35–50h
前置 B3(Hahn-Banach/Riesz表示/Stone-Weierstrass)
教材 DeVore-Hanin-Petrova Acta Numerica 2021 ★(权威综述)· Pinkus 1999

四代逼近理论

阶段 年代 核心结果 机器人连接
G1 存在性 1989-93 万能逼近定理(Cybenko/Hornik/Leshno):单隐层即可逼近任意连续函数 存在性保证——但不说速率
G2 定量速率 1993 Barron 定理\(O(1/\sqrt{n})\) 维度无关速率 策略/值函数逼近的参数量下界
G3 深度分离 2016-22 Telgarsky/Eldan-Shamir:深层比浅层指数级高效 为什么用深度网络
G4 架构特化 2017-25 Transformer UAT(Yun 2020) · DeepONet/FNO(算子逼近) Transformer做策略/算子学动力学

标志性定理

万能逼近定理(Cybenko 1989):设 \(\sigma\) 是任意连续 sigmoidal 函数,则 \(\mathrm{span}\{\sigma(w^Tx+b): w\in\mathbb{R}^n, b\in\mathbb{R}\}\)\(C([0,1]^n)\) 中稠密。

证明核心:反证法 + Hahn-Banach ← B3 #72 + Riesz 表示 ← B3 #78。这可能是泛函分析在机器人领域最优雅的应用。

Barron 定理(1993):若 \(f\) 的 Fourier 谱范数 \(C_f = \int|\xi||\hat{f}(\xi)|d\xi < \infty\),则存在宽度 \(n\) 的单隐层网络使

\[\|f - f_n\|_{L^2} \le \frac{C_f}{\sqrt{n}} \qquad \text{(维度无关!)}\]

为什么重要:经典逼近论的速率是 \(O(n^{-s/d})\)\(s\) 为光滑度,\(d\) 为维度)——维度灾难。Barron 用 Fourier 积分表示 + 贪心引理 绕过了维度,代价是要求 \(C_f < \infty\)

与路线图的连接

方向 连接
← B3 泛函分析 Hahn-Banach / Riesz 表示 / Stone-Weierstrass 是证明工具
→ 8.2 泛化 逼近误差是总误差的一部分;VC维同时约束两者
→ 第六批 RL 值函数/策略逼近的理论保证
→ 第三批 神经 Lyapunov/CBF 的逼近保证

10.2 专题 8.2:泛化理论

从"能不能表示"到"从有限样本能不能学好"——理解深度学习最大谜团:为什么过参数化网络不过拟合?

字段 内容
学时 20–25h
教材 Shalev-Shwartz & Ben-David ★ · Mohri Foundations of ML 2e

五代泛化理论

阶段 核心工具 结论
VC 维 \(d_{VC}\) 样本复杂度 \(O(d_{VC}/\varepsilon^2)\)——对深度网络太松
Rademacher \(\mathcal{R}_n(\mathcal{F})\) 数据依赖、更紧
PAC-Bayes \(\mathrm{KL}(\rho\|\pi)\) 先验-后验 KL 散度界——最适合分析SGD
算法稳定性 \(\beta\)-稳定 SGD 在凸损失上均匀稳定
双下降 插值阈值 过参数化后**测试误差再次下降**——经典偏差-方差权衡失效

Sim-to-Real 就是泛化问题:PPO 在 MuJoCo 中训练的策略部署到真机——仿真=训练分布,真机=测试分布。域随机化(DR)本质上是在**扩大训练分布以覆盖真机分布**,从而减小分布偏移导致的泛化 gap。


10.3 专题 8.3:Transformer 数学基础

Transformer 已成为具身智能的事实标准架构——从 Decision Transformer 到 RT-2/π₀。

字段 内容
学时 18–22h
教材 Vaswani 2017(原论文) · Yun et al. 2020(Transformer UAT) · Garg et al. 2022(ICL=GD)

自注意力的四种数学视角

视角 公式/直觉 洞察
矩阵乘法 \(\mathrm{Attn}(Q,K,V) = \mathrm{softmax}(QK^T/\sqrt{d})V\) 加权平均
核方法 \(k(q,k) = \exp(q^Tk/\sqrt{d})\) softmax 注意力 = softmax 核
图神经网络 全连接图上的消息传递 每个 token 从所有 token 聚合信息
优化 上下文学习(ICL) = 隐式梯度下降 Transformer 在前向中学习

位置编码的群论:RoPE (Rotary Position Embedding) 将位置 \(m\) 编码为 SO(2)\(^{d/2}\) 中的旋转——使注意力得分 \(q_m^Tk_n\) 只依赖**相对位置** \(m-n\),这是**平移等变性**的精确实现。

Transformer 万能逼近(Yun et al. ICLR 2020):具有足够深度和宽度的 Transformer 可以**万能逼近任意连续排列等变序列到序列映射**——建立在8.1的逼近理论框架上。


10.4 专题 8.4:Diffusion Models 数学基础

Diffusion Policy(Chi 2023)和 π₀(Black 2024)用 DDPM/Flow Matching 生成连续动作序列——理解其数学是理解当代机器人策略的前提。

字段 内容
学时 20–25h
前置 B2(测度论/随机过程基础) + 第二批5(AD)
教材 Song et al. ICLR 2021(Score SDE) ★ · Ho et al. NeurIPS 2020(DDPM)

核心数学链

\[\text{前向 SDE} \xrightarrow{\text{逐步加噪}} \text{纯噪声} \xrightarrow{\text{Anderson 1982 反向 SDE}} \text{逐步去噪} \xrightarrow{\text{Score Matching}} \text{学习 } \nabla_x\log p_t(x)\]

前向 SDE\(dx = f(x,t)dt + g(t)dw\)(Ornstein-Uhlenbeck / VP / VE)

反向 SDE(Anderson 1982):\(dx = [f - g^2\nabla_x\log p_t]dt + g\,d\bar{w}\)

核心洞察:反向过程只需要 score function \(\nabla_x\log p_t(x)\)——不需要知道归一化常数!这就是为什么 score matching(Hyvärinen 2005)+去噪 score matching(Vincent 2011)能让扩散模型可训练。

机器人应用

方法 生成对象 数学结构
Diffusion Policy 动作块 \(a_{t:t+H}\) DDPM/DDIM 在动作空间
π₀ 动作块 (flow matching) 条件 ODE \(\dot{x}=v_\theta(x,t,c)\)
SE(3)-DiffusionFields 6-DoF 抓取位姿 SE(3) 等变扩散(← 8.6)

10.5 专题 8.5 & 8.6 速查

专题 一句话 学时 关键内容
8.5 VLA框架 RT-1→RT-2→Octo→π₀→π₀.5 的架构数学 12-15h 多模态 tokenization · 动作离散化 vs 连续生成的率-失真权衡 · 语言条件改善组合泛化 · scaling laws
8.6 等变网络 群表示论 → DeepSets → TFN/EGNN/MACE → 等变UAT → 等变扩散 15-20h Schur引理 · Peter-Weyl · CG系数 · 等变=样本效率提升10-100×

8.5 的核心发现:VLA 本质上是"大语言模型 + 机器人 tokenizer"——将连续动作离散化为 token 或用 Flow Matching 生成连续动作,关键数学是**率-失真理论**(信息论)和**组合泛化**(语言先验如何帮助在新物体/新场景上零样本迁移)。

8.6 的核心发现:等变网络**精确编码对称性**,从而以指数级更少的数据达到相同精度。Wang et al. 2022 在等变 RL 中实现了 10-100× 样本效率提升。SE(3)-DiffusionFields 将等变性注入抓取生成。8.6 直接承接第一批专题6(等变理论)——从抽象数学到可运行的 PyTorch 代码的最后一公里。


10.6 第八批教材与连接网络

教材推荐路线

教材 覆盖 免费 最佳角色
Shalev-Shwartz & Ben-David 8.2 ✅(作者网站) 泛化理论标准教材
Murphy PML: Advanced 2023 8.1-8.4 ✅(probml.ai) 最新最全的深度学习数学
Bronstein et al. Geometric DL 8.6 等变网络统一框架
DeVore-Hanin-Petrova Acta Numerica 2021 8.1 逼近理论权威综述
Song et al. ICLR 2021 8.4 Score SDE 奠基论文

与路线图的深层连接

连接 来源→目标 本质
← B3 泛函分析 Hahn-Banach+Riesz→8.1 UAT 泛函分析在 ML 中最优雅的应用
← B2 测度论 SDE/随机积分→8.4 Diffusion Itô积分是扩散模型的数学基础
← 第一批6 等变 群表示论→8.6 等变网络 从抽象数学到可运行代码的最后一公里
← 第六批 RL 值函数逼近→8.1 逼近理论保证 RL 策略的表达能力
← 第二批 KKT CMDP Lagrangian→8.2/8.6 约束学习的对偶方法
→ 具身智能 8.3+8.4+8.5 → VLA Transformer+Diffusion=当代机器人策略骨架

常见陷阱

# 陷阱 正确理解
1 UAT = "什么都能学" UAT 是**存在性定理**——不说速率、不说如何找权重、不说泛化
2 过参数化一定过拟合 双下降现象:过参数化后测试误差**再次下降**
3 Transformer 的注意力是黑箱 注意力 = softmax 核方法 + 隐式优化器
4 Diffusion = "加噪去噪" 严格来说是**学习 score function** \(\nabla\log p_t\),去噪是其采样后果
5 等变网络只是"数据增强的替代" 等变性是**精确硬约束**,数据增强是**统计软约束**——前者保证更强
6 跳过第零层直接学逼近理论 没有 Hahn-Banach 和测度论,UAT 证明是不可理解的符号游戏

10.7 第八批学习里程碑与自测

M-N1(完成8.1-8.2后):能陈述 Cybenko/Barron 定理,能推导 Barron \(O(1/\sqrt{n})\) 速率的证明骨架,能解释 VC 维 vs Rademacher 的区别,能解释双下降现象。

M-N2(完成全部后):能写出 Transformer 注意力的核函数视角,能推导 DDPM 的 ELBO,能解释 Flow Matching 与 Score SDE 的关系,能陈述等变 UAT,能解释 VLA 的动作 tokenization 与率-失真权衡。

自测题(6道)

# 题目 档位
1 陈述 Cybenko UAT 并说明证明用到了 B3 的哪两个定理 3
2 解释 Barron 定理如何绕过维度灾难(Fourier 积分表示 + 贪心引理) 3
3 写出 DDPM 的前向/反向过程并推导 ELBO 3
4 解释 RoPE 位置编码的 SO(2) 旋转结构 3
5 解释等变网络为什么比数据增强更强(硬约束 vs 统计软约束) 3
6 对比 Diffusion Policy(DDPM) 和 π₀(Flow Matching) 的数学差异 4

8.9 第六批补充:SA-ODE 核心定理与两时间尺度分析

Borkar-Meyn ODE 方法——核心定理精确陈述

定理(Borkar-Meyn 2000, Theorem 2.1 简化版):考虑随机逼近 \(\theta_{t+1}=\theta_t+\alpha_t[h(\theta_t)+M_{t+1}]\),若

条件编号 内容 含义
(A1) \(\alpha_t>0\), \(\sum\alpha_t=\infty\), \(\sum\alpha_t^2<\infty\) Robbins-Monro 步长
(A2) \(\bar{h}(\theta)=\mathbb{E}[h(\theta,X)]\) Lipschitz 平均场光滑
(A3) \(\{M_{t+1}\}\) 鞅差,$\mathbb{E}[|M_{t+1}|^2 \mathcal{F}_t]\le K(1+|\theta_t|^2)$
(A4) \(\sup_t\|\theta_t\|<\infty\) a.s. 迭代有界
(A5) ODE \(\dot\theta=\bar{h}(\theta)\) 有全局渐近稳定平衡点 \(\theta^*\) 核心条件

\(\theta_t \to \theta^*\) a.s.

条件(A5)的验证就是 Lyapunov 分析——这正是6.5与3.7(Lyapunov稳定性)的直接桥梁。对线性 TD(0),\(\bar{h}(\theta) = A\theta+b\)\(A\) 负定,来自投影 Bellman 算子的压缩性),取 \(V=\|\theta-\theta^*\|^2\) 即可。

两时间尺度 SA——Actor-Critic 收敛的数学基石

Actor-Critic 同时更新两组参数:

\[w_{t+1} = w_t + \beta_t\,h_{\text{critic}}(w_t,\theta_t,X_t) \qquad\text{(快时间尺度:Critic 更新 Q/V)}$$ $$\theta_{t+1} = \theta_t + \alpha_t\,h_{\text{actor}}(\theta_t,w_t,X_t) \qquad\text{(慢时间尺度:Actor 更新策略)}\]

Borkar 的两时间尺度定理(1997):若 \(\alpha_t/\beta_t \to 0\)(Actor 比 Critic 慢得多),则可以**分别分析**:(1) 固定 \(\theta\),Critic 的快 ODE 收敛到 \(w^*(\theta)\);(2) 将 \(w=w^*(\theta)\) 代入,Actor 的慢 ODE 收敛到 \(\theta^*\)Konda-Tsitsiklis 2003 用此框架证明了线性 Actor-Critic 的收敛性。

RL 算法的 ODE 稳定性速查

算法 平均 ODE \(\dot\theta=\bar{h}(\theta)\) \(A\) 矩阵 稳定性
TD(0) on-policy 线性 \(\dot\theta = (A\theta+b)\), \(A=\Phi^TD^\pi(P^\pi-I)\Phi\) 负定(在 \(D^\pi\) 加权下) ✅ GAS
Q-learning 异步 非线性(max操作) ✅ ODE GAS(Tsitsiklis 1994)
TD off-policy 线性 \(\dot\theta=A\theta+b\), \(A=\Phi^TD^{\pi_b}(P^\pi-I)\Phi\) 可能不定 ❌ 可能发散
GTD/TDC 二变量鞍点 ODE 负定化 ✅ GAS

Baird 反例的 ODE 诊断:off-policy TD 的 \(A\) 矩阵有正特征值 → ODE \(\dot\theta=A\theta+b\) 不稳定 → 迭代发散。这就是致命三元组在 ODE 层面的精确刻画。


9.8 第七批补充:混合系统框架、Moreau 测度微分包含与 CI-TO 深化

混合动力系统的三大形式化框架

框架 数学形式 代表文献 最佳场景
GST hybrid inclusion \(\dot{x}\in F(x), x\in C\); \(x^+\in G(x), x\in D\) Goebel-Sanfelice-Teel 2012 Zeno 分析、稳定性证明
Hybrid automaton 离散模态 \(\mathcal{Q}\) + 连续态 \(\mathcal{X}\) + guard \(G\) + reset \(R\) Lygeros et al. TAC 2003 控制综合、可达性
System with impulse effects \(\dot{x}=f(x)+g(x)u\); \(x^+=\Delta(x^-)\) on \(\mathcal{S}\) Westervelt-Grizzle 2007 HZD 步态、Poincaré 分析

冲击映射(Reset Map)——脚触地瞬间发生了什么

对全约束刚性冲击(Hurmuzlu-Marghitu 1994):

\[\dot{q}^+ = \left(I - M^{-1}J_c^T(J_cM^{-1}J_c^T)^{-1}J_c\right)\dot{q}^-, \qquad q^+ = q^-\]

位置连续、速度跳跃——冲击瞬间的力是 Dirac delta 测度(非函数),因此经典 ODE 理论(Picard-Lindelöf)失效。Moreau 1977 的 MDI(测度微分包含)正是为处理这种情况而生。

Moreau 测度微分包含(MDI)——时步法的数学根基

\[Mdv - F\,dt \in -\partial\Psi_K(v^+)\,dt - d\mathbf{R}\]

其中 \(v\) 是 BV(有界变差)函数,\(d\mathbf{R}\) 是冲量测度,\(\partial\Psi_K\) 是指示函数的次微分(法锥)。

经典 ODE ≠ MDI:ODE 的解在 \(C^1\) 中;MDI 的解在 BV 中(速度有跳跃,位置仅 Lipschitz)。Hairer-Lubich-Wanner 的辛积分理论完全不适用——这就是为什么需要 Stewart-Trinkle 时步法作为独立的数值方法。

Zeno 现象——无穷次碰撞在有限时间内完成

弹球 Zeno:球弹跳高度 \(h_k = e^{2k}h_0\),碰撞间隔 \(\Delta t_k = e^k\sqrt{2h_0/g}\)。当 \(0<e<1\) 时,总时间 \(\sum\Delta t_k = \frac{\sqrt{2h_0/g}}{1-e} < \infty\)——无穷次碰撞在有限时间内完成

Zeno 后系统"粘在"约束面上——从碰撞模式切换到持续接触。这个切换的数学处理需要 GST 框架的"完备化"(completion of Zeno executions)。实务中 MuJoCo 通过凸松弛完全回避 Zeno,Drake 通过 SAP 弹性接触规避

Contact-Implicit TO 的十年进化链详解

年份 工作 方法 关键创新
2014 Posa-Tedrake IJRR LCP 嵌入 NLP → MPCC 开山之作;接触时间表内生涌现
2019 Manchester-Kuindersma 变分积分器 CI-TO 离散 Lagrangian 保辛/保动量
2022 Howell-Le Cleac'h (Dojo) 锥互补 + IFT 可微 完整可微仿真器
2022 Aydinoglu-Posa (C3) ADMM 分裂 首次 kHz 级实时 CI-MPC
2023 Kong-Johnson (HiLQR) iLQR + saltation \(\Xi\) DDP 反向传播穿过事件面
2024 Le Cleac'h-Howell T-RO Fast CI-MPC 嵌入式部署级 CI-MPC
2025 Kim et al. IJRR (HOUND) CI-MPC 四足 真机验证粗糙地形自主行走

MPCC 的 LICQ 违反——为什么标准 NLP 求解器在接触问题上挣扎

MPCC 约束 \(0 \le \phi \perp \lambda \ge 0\) 等价于 \(\phi \ge 0\), \(\lambda \ge 0\), \(\phi\cdot\lambda = 0\)。在活跃点(\(\phi=\lambda=0\))处:

\[\nabla\phi = e_1, \quad \nabla\lambda = e_2, \quad \nabla(\phi\lambda) = \lambda\nabla\phi + \phi\nabla\lambda = 0\]

第三个约束的梯度**在活跃点为零**——约束梯度不满秩,LICQ 违反。

后果:KKT 乘子可能不存在或不唯一,标准 SQP/IPM 可能收敛到非 B-stationary 点。解决方案:Scholtes 松弛(\(\phi\cdot\lambda \le \epsilon\), \(\epsilon \to 0\))、正则化(加 \(\epsilon\) 到互补约束)、或用 §4 的凸松弛直接消除互补。

第七批推荐学习序列

周次 内容 每周学时 累计
1–2 §1 LCP/Signorini(含 Lemke 算法实现) 12h 12h
3–4 §2 摩擦锥(SOC 几何 + 凸松弛 + 三大引擎对比) 12h 24h
5–7 §3 时步法(Moreau-Jean + Stewart-Trinkle + MuJoCo 源码) 18h 42h
8–9 §4 可微接触(IFT + 随机平滑 + Dojo/MJX 实验) 14h 56h
10–11 §5 混合系统(saltation \(\Xi\) 推导 + Salted KF 实现) 12h 68h
12–13 §6 CI-TO/MPC(MPCC 建模 + C3/ADMM 实现) 14h 82h
14 §7 非光滑前沿(Clarke 广义梯度 + IPC + GPU 仿真概览) 8h 90h

并行建议:§1–§2 可与第二批专题1a(SOC/凸集)同步——摩擦锥就是 SOC。§3 建议在第四批4-6(约束动力学)**完成后**学习——否则 DAE 概念会成为障碍。§4 需要第二批专题5(IFT/AD)。§5 需要 B4(ODE 定性理论/Poincaré 映射)。§6 需要第三批3.9-3.12(DDP/MPC)。


10.8 第八批补充:Barron 定理证明骨架、DDPM ELBO 推导与 VLA 架构分析

Barron 定理证明骨架——维度无关逼近率的核心

定理(Barron 1993):设 \(f:\mathbb{R}^d\to\mathbb{R}\) 满足 \(C_f = \int_{\mathbb{R}^d}|\omega|\cdot|\hat{f}(\omega)|d\omega < \infty\)(Fourier 谱范数有限),则存在宽度 \(n\) 的单隐层 sigmoidal 网络 \(f_n\) 使得

\[\|f - f_n\|_{L^2(\mu)}^2 \le \frac{C_f^2}{n}\]

对任意概率测度 \(\mu\)

证明骨架(3步)

Step 1(Fourier 积分表示):由 Fourier 逆变换,\(f(x) = \int \hat{f}(\omega)e^{i\omega^Tx}d\omega\)。取实部并利用 \(C_f < \infty\),得 \(f\) 可写成 sigmoidal 函数 \(\sigma(\omega^Tx+b)\) 的**连续混合**(概率积分):

\[f(x) = \int \alpha(\omega,b)\,\sigma(\omega^Tx + b)\,d\rho(\omega,b) + c\]

Step 2(Jones-Barron-Maurey 贪心引理):连续混合可被 \(n\) 个离散点逼近——用**贪心算法**(每步选使残差最小的单个神经元),误差满足

\[\|f - f_n\|^2 \le \frac{\sup\|\alpha\sigma\|^2}{n} \le \frac{C_f^2}{n}\]

关键洞察:误差 \(O(1/n)\) 中**没有 \(d\)**!维度只通过 \(C_f\) 间接影响——如果 \(f\) 的 Fourier 衰减足够快(高频分量少),\(C_f\)\(d\) 无关。

Step 3(投影定理):用 B3 的 Hilbert 空间投影定理保证贪心逼近的最优性——投影到 \(\mathrm{span}\{\sigma(\omega_1^Tx+b_1),...,\sigma(\omega_n^Tx+b_n)\}\)\(L^2(\mu)\) 中的最佳逼近。

连接 ← B3 #83 投影定理:Barron 定理的证明是泛函分析在深度学习理论中**最优雅的应用之一**——不亚于 Cybenko 用 Hahn-Banach 证 UAT。

DDPM 的 ELBO 推导——Diffusion Policy 的数学基础

前向过程(逐步加噪):\(q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_tI)\)

闭式转移核\(q(x_t|x_0) = \mathcal{N}(x_t; \sqrt{\bar\alpha_t}x_0, (1-\bar\alpha_t)I)\),其中 \(\bar\alpha_t = \prod_{s=1}^t(1-\beta_s)\)

ELBO 推导(Ho et al. 2020 的关键简化):

\[\log p(x_0) \ge \mathbb{E}_q\left[-\log\frac{q(x_{1:T}|x_0)}{p(x_{0:T})}\right] = \underbrace{-D_{KL}(q(x_T|x_0)\|p(x_T))}_{L_T\approx 0} - \sum_{t=2}^T\underbrace{D_{KL}(q(x_{t-1}|x_t,x_0)\|p_\theta(x_{t-1}|x_t))}_{L_{t-1}} - \underbrace{(-\log p_\theta(x_0|x_1))}_{L_0}\]

核心简化\(q(x_{t-1}|x_t,x_0)\) 是高斯(可解析写出均值和方差),因此 \(L_{t-1}\) 中的 KL 散度有闭式。设 \(p_\theta\) 的均值为 \(\mu_\theta(x_t,t)\),则

\[L_{t-1} = \frac{1}{2\sigma_t^2}\|\tilde\mu_t(x_t,x_0) - \mu_\theta(x_t,t)\|^2 + \text{const}\]

Ho 的 \(\varepsilon\)-预测重参数化:将 \(x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\varepsilon\)\(\varepsilon\sim\mathcal{N}(0,I)\))代入均值表达式,得简化损失

\[\boxed{L_{\text{simple}} = \mathbb{E}_{t,x_0,\varepsilon}\left[\|\varepsilon - \varepsilon_\theta(x_t, t)\|^2\right]}\]

**Tweedie 公式**统一了三种预测模式:\(\varepsilon\)-预测 ⟺ \(x_0\)-预测 ⟺ score 预测 \(s_\theta \approx \nabla_{x_t}\log q(x_t)\)——三者之间通过 \(s_\theta = -\varepsilon_\theta/\sqrt{1-\bar\alpha_t}\) 互转。

Flow Matching vs Score SDE——π₀ 的数学选择

维度 Score SDE (Song 2021) Flow Matching (Lipman 2023)
训练目标 学 score \(\nabla\log p_t\) 学速度场 \(v_t(x)\)
采样过程 反向 SDE(需随机性) ODE \(\dot{x}=v_t(x)\)(确定性)
训练公式 去噪 score matching 条件 FM:$|v_\theta(x,t) - u_t(x
噪声调度 VP/VE(需调schedule) 直线路径 $\psi_t(x
采样速度 慢(需数十到数百步) (直线路径→更少步数)
用户 Diffusion Policy (DDPM) π₀ (Flow Matching)

π₀ 选择 Flow Matching 的原因:(1) ODE 采样比 SDE 确定性更强、方差更低——适合实时控制;(2) 直线路径训练更稳定;(3) 采样步数可降到 5-10 步(vs DDPM 50-100步)→ 实现 50 Hz VLA 控制

VLA 架构的数学抽象

RT-2/Octo/π₀ 的统一数学框架

\[\pi_\theta(a_{t:t+H} | o_{1:t}, l) = p_\theta(a_{t:t+H} | \text{Enc}_V(o_{1:t}), \text{Enc}_L(l))\]

其中 \(o\) = 视觉观测, \(l\) = 语言指令, \(a_{t:t+H}\) = 动作块(action chunk)。

架构 视觉编码 语言编码 动作生成 参数量
RT-1 EfficientNet USE 离散 token 分类 35M
RT-2 ViT (PaLI-X) LLM 内嵌 LLM 离散 token 55B
Octo ViT 句子嵌入 Diffusion head 93M
π₀ ViT + PaliGemma Gemma LLM Flow Matching 3B
π₀.5 ViT + 高低频双流 Gemma LLM Flow Matching 3B+

动作离散化 vs 连续生成的率-失真权衡(信息论视角):RT-2 将连续动作离散化为 256 个 bin → 每维量化误差 \(\sim 1/256\)。对 7-DoF 机械臂,总量化失真 \(\sim 7/256 \approx 2.7\%\)——对粗操作够了,但对精密装配不行。π₀ 用 Flow Matching 直接生成连续动作,回避了量化瓶颈

等变网络的核心构造——从 DeepSets 到 MACE

DeepSets UAT(Zaheer et al. 2017)\(f: 2^X \to \mathbb{R}\) 是置换不变的 ⟺ \(f(X) = \rho(\sum_{x\in X}\phi(x))\)

TFN(Tensor Field Networks, Thomas et al. 2018):每层执行

\[f_{\text{out}}^{(\ell_o)}(x_i) = \sum_j \sum_{\ell_f} W^{(\ell_o,\ell_f)} \left[f_{\text{in}}^{(\ell_f)}(x_j) \otimes_{CG} Y^{(\ell_{\text{filter}})}(\hat{r}_{ij})\right]^{(\ell_o)}\]

其中 \(\otimes_{CG}\)Clebsch-Gordan 张量积——按 \(D^{\ell_1}\otimes D^{\ell_2} = \bigoplus D^L\) 分解。

EGNN 的简化(Satorras et al. 2021):丢弃球谐,只用标量(\(\ell=0\))和向量(\(\ell=1\))——\(m_{ij} = \phi_m(\|x_i-x_j\|^2, h_i, h_j)\), \(x_i' = x_i + \sum_j(x_i-x_j)\phi_x(m_{ij})\)足够简单,能在真机上实时运行

MACE(Batatia et al. 2022)**用**高体序**等变消息传递——不只看两体距离,还看三体角度和四体二面角。这使得每层的表达力指数级增长,在分子势能面学习中实现 **1000× 数据效率

第八批推荐学习序列

周次 内容 每周学时 累计
1–3 8.1 逼近理论(UAT三定理+Barron证明+Yarotsky ReLU率) 12h 36h
4–5 8.2 泛化理论(VC维+Rademacher+PAC-Bayes+双下降) 10h 56h
6–8 8.3 Transformer(注意力核视角+位置编码+ICL=隐式GD) 8h 80h
9–11 8.4 Diffusion(SDE+DDPM ELBO+Score Matching+Flow Matching) 9h 107h
12–13 8.5 VLA(RT-2/Octo/π₀架构+动作tokenization+scaling) 7h 121h
14–15 8.6 等变网络(群表示论+TFN/EGNN/MACE+等变UAT+等变扩散) 9h 139h

并行建议:8.1–8.2 需要 B3(泛函分析)和 B2(测度论)作为硬前置——Cybenko 证明用 Hahn-Banach,Barron 用 Fourier,泛化用集中不等式。8.3–8.4 可以在第六批(RL)**之后**学——Decision Transformer 和 Diffusion Policy 都建立在 RL 概念之上。8.6 直接承接第一批专题6(等变理论)——从群表示论的抽象数学到可运行的 PyTorch 代码。



第十一部分:第九批 — 随机分析

11.0 第九批总论:连接测度论与扩散模型的桥梁

第九批填补路线图中一个**关键断层**:第八批 Diffusion Models 数学(专题 8.4)的前向/反向 SDE 需要严格的随机微积分(Ito 积分、Ito 公式、Girsanov 定理),而第零层的测度论和 ODE 理论没有覆盖随机过程的连续时间数学。此外,MPPI 控制(第三批 3.4 的路径积分控制)、连续时间滤波(Kalman-Bucy 滤波器)、随机最优控制(Hamilton-Jacobi-Bellman 的随机版本)都依赖 SDE 理论。

字段 内容
总学时 40–60h(档位3);额外 30–40h(档位4)
专题数 1(核心 SDE 基础,后续可扩展)
核心教材 Oksendal Stochastic Differential Equations 6e ★ · Pavliotis Stochastic Processes and Applications · Särkkä-Solin Applied Stochastic Differential Equations 2019 (免费)
C++ 库 无特定——Python/Julia 仿真为主(SymPy + NumPy)
前置 第零层(B2 测度论/\(L^2\) 完备性 + B4 ODE/Picard-Lindelof)
后续 → 第八批 8.4(Diffusion Models 的前向/反向 SDE)· → 第三批 3.4(MPPI 的 Feynman-Kac)· → 第五批 A1(连续时间 Kalman-Bucy)

当前文件结构

95_随机分析/
├── README.md                    -- 导读与目录
└── 10_随机微分方程基础.md        -- 布朗运动、Ito 积分、Ito 公式、SDE 求解、Fokker-Planck

专题 9.1:随机微分方程基础

SDE 是 ODE 的随机推广——\(dX_t = f(X_t)dt + g(X_t)dW_t\)。第零层 B4 的 ODE 理论(Picard-Lindelof、Gronwall)在这里获得随机版本:Ito 等距替代确定性范数估计,SDE 的存在唯一性需要 Lipschitz 条件加上线性增长条件。

字段 内容
学时 40–60h
前置 B2(\(L^2\) 完备性/条件期望)+ B4(ODE/Picard-Lindelof)
教材 Oksendal Ch.1–8 ★ · Särkkä-Solin 2019(免费 PDF,工程导向)

核心模块路径

模块 内容 学时 关键公式
布朗运动 定义、路径性质(连续但处处不可微)、二次变差 \([W]_t=t\) 6h \(\mathbb{E}[W_t^2]=t\), \([W,W]_t=t\)
Ito 积分 简单过程→\(L^2\) 极限、Ito 等距 \(\mathbb{E}[\int f\,dW]^2=\mathbb{E}[\int f^2\,dt]\) 8h 不同于 Riemann-Stieltjes——取左端点
Ito 公式 随机链式法则:\(df = (\partial_t f + \mu\partial_x f + \frac{1}{2}\sigma^2\partial_{xx}f)dt + \sigma\partial_x f\,dW\) 8h 额外的 \(\frac{1}{2}\sigma^2\partial_{xx}f\) 项是布朗运动非零二次变差的推论
SDE 存在唯一性 全局 Lipschitz + 线性增长 → 强解存在唯一 5h 随机版 Picard 迭代
线性 SDE Ornstein-Uhlenbeck 过程 \(dX=-\theta X\,dt+\sigma\,dW\) → 闭式高斯解 5h VP-SDE 就是 OU 过程(← 8.4)
Fokker-Planck 由 Ito 公式推导 PDF 的 PDE:\(\partial_t p = -\partial_x(\mu p)+\frac{1}{2}\partial_{xx}(\sigma^2 p)\) 6h Diffusion Models 的前向 SDE 对应的 FP 方程
Girsanov 定理 测度变换 \(dQ/dP\),使 drift 可切换 5h Anderson 反向 SDE 的数学基础
Feynman-Kac PDE 解 = SDE 路径期望 4h MPPI 的数学根源(← 3.4)

标志性公式

Ito 公式(一维):

\[df(X_t, t) = \left(\frac{\partial f}{\partial t} + \mu(X_t)\frac{\partial f}{\partial x} + \frac{1}{2}\sigma^2(X_t)\frac{\partial^2 f}{\partial x^2}\right)dt + \sigma(X_t)\frac{\partial f}{\partial x}\,dW_t\]

与确定性链式法则的区别:多出的 \(\frac{1}{2}\sigma^2\partial_{xx}f\) 项来自布朗运动的非零二次变差 \([W,W]_t = t\)。这个项解释了为什么 Diffusion Models 的前向过程**不是**简单的高斯模糊——它有系统性的漂移修正。

VP-SDE(Variance Preserving SDE)——Diffusion Policy 的数学心脏:

\[dX_t = -\frac{1}{2}\beta(t)X_t\,dt + \sqrt{\beta(t)}\,dW_t\]

这就是 OU 过程的时变版本。 闭式转移核 \(q(x_t|x_0) = \mathcal{N}(\sqrt{\bar\alpha_t}\,x_0,\;(1-\bar\alpha_t)I)\) 直接来自线性 SDE 的高斯性质。Ho et al. 2020 的 DDPM 前向过程是此 SDE 的离散化。

连接网络

方向 目标 具体连接
← B2 测度论 \(L^2\) 完备性保证 Ito 积分的构造 Riesz-Fischer → Ito 等距的完备性
← B4 ODE Picard-Lindelof 的随机推广 Lipschitz+线性增长 → SDE 强解
→ 8.4 Diffusion VP-SDE/VE-SDE 是本章的特例 Anderson 反向 SDE 需 Girsanov
→ 3.4 MPPI Feynman-Kac 公式是 MPPI 的理论根源 HJB 的概率表示
→ 5.A1 连续 KF Kalman-Bucy 滤波器是线性 SDE 的最优滤波 连续时间 Riccati

常见陷阱

把 Ito 积分当 Riemann-Stieltjes 积分——Ito 积分取**左端点**求和,Stratonovich 取**中点**。两者在 \(\sigma(X)\) 依赖 \(X\) 时结果**不同**(差一个 \(\frac{1}{2}\sigma\sigma'\) 修正项)。物理学家偏好 Stratonovich(保链式法则),概率学家和 ML 社区用 Ito(鞅性质好)。忽略线性增长条件——仅有 Lipschitz 不够,SDE 解可能在有限时间爆炸(与 ODE 不同)。认为"布朗运动近似光滑"——布朗运动的路径**处处不可微**,Holder 指数恰好 \(1/2-\epsilon\)——这不是技术细节,而是 Ito 公式中额外项存在的根本原因。


11.1 第九批学习里程碑与自测

M-S1(完成 9.1 后):能定义布朗运动并解释其路径的"野性"(连续但处处不可微),能构造 Ito 积分并写出 Ito 等距,能推导 Ito 公式并解释多出的二阶项,能写出 VP-SDE 并推导其闭式转移核,能从 Ito 公式推导 Fokker-Planck 方程。

自测题(4 道)

# 题目 档位
1 用 Ito 公式计算 \(d(W_t^2)\) 并验证 \(\mathbb{E}[W_t^2]=t\) 3
2 求解 OU 过程 \(dX=-\theta X\,dt+\sigma\,dW\) 的闭式解并写出稳态分布 3
3 从 VP-SDE 推导 DDPM 的前向转移核 $q(x_t x_0)=\mathcal{N}(\sqrt{\bar\alpha_t}x_0,(1-\bar\alpha_t)I)$
4 陈述 Girsanov 定理并解释 Anderson 反向 SDE 如何利用它将"去噪"化为 score function 估计 4

补充专题:40_控制理论新增模块

专题 3.15:机器人系统辨识40_控制理论/150_机器人系统辨识.md

字段 内容
学时 10–15h
前置 3.6(辨识/鲁棒/频域基础)
定位 将 3.6 中辨识概述展开为完整专题:从最小二乘到子空间方法,覆盖机器人动力学参数辨识(惯性/摩擦/刚度)的全流程

核心内容:激励轨迹设计(持久激励条件)、正则化最小二乘辨识、CAD 初值+在线精调流水线、与 Pinocchio regressor API 的工程映射。

专题 3.16:HJ 可达性分析40_控制理论/160_HJ可达性分析.md

字段 内容
学时 8–12h
前置 3.4(HJB/黏性解)
定位 将 3.4 中 HJ Reachability 安全可达集展开为完整专题:从 level-set 方法到 DeepReach/PINN 现代求解

核心内容:安全可达集 \(\mathcal{R}_T\) 的 HJI PDE 定义、Toolbox of Level Sets(Ian Mitchell)、Hamilton-Jacobi Reachability 的 CBF 视角统一、DeepReach 神经网络求解。→ 与 3.8 CLF-CBF 的连接:HJ Reachability 给出**精确**安全集,CBF 给出**近似**安全集——前者理论最优但受维度灾难,后者工程可行但需手工设计。


附录 B:当前文件结构速查表(2026-05-14)

01_数学/
├── 10_纯数学基础/
│   ├── README.md                          -- 纯数学基础导读
│   ├── 10_集合论与数理逻辑.md              -- A1: ZFC/逻辑/基数
│   ├── 15_高等线性代数总大纲.md            -- A2: 五子模块总览
│   ├── 20_向量空间与线性变换.md            -- A2a: 向量空间/对偶
│   ├── 30_内积空间与伴随算子.md            -- A2b: 内积/谱/投影
│   ├── 40_谱定理SVD与极分解.md            -- A2c: SVD/极分解
│   ├── 50_极小多项式与Jordan标准形.md      -- A2d: Cayley-Hamilton/Jordan
│   ├── 60_多线性代数与张量积.md            -- A2e: 张量/外代数
│   ├── 70_点集拓扑.md                     -- A3: Hausdorff/紧性/连通
│   ├── 80_抽象代数.md                     -- A4: 群/环/域/半直积
│   ├── 90_实分析.md                       -- B1: ε-δ/压缩映射/IFT
│   ├── 100_测度论与Lebesgue积分.md        -- B2: σ-代数/DCT/R-N
│   ├── 110_泛函分析.md                    -- B3: 三大支柱/Hilbert/弱拓扑
│   └── 120_常微分方程.md                  -- B4: Picard/Lyapunov/辛积分
├── 20_微分几何与李群/
│   ├── README.md
│   ├── 10_光滑流形一般理论.md
│   ├── 20_Retraction与流形优化.md
│   ├── 30_李群基础与SO3_SE3.md
│   ├── 40_雅可比矩阵与BCH公式.md
│   ├── 50_李群上的不确定性.md
│   ├── 60_等变理论与几何前沿.md
│   └── 70_附录_可视化与应用资源.md
├── 30_优化理论/
│   ├── README.md
│   ├── 10_凸分析基础.md
│   ├── 20_共轭函数与proximal算子.md
│   ├── 30_凸优化问题与对偶理论.md
│   ├── 40_凸优化算法路线图.md
│   ├── 50_非线性优化.md
│   └── 60_自动微分与隐式微分.md
├── 40_控制理论/
│   ├── README.md
│   ├── 10_变分法与EL方程.md               -- 3.1
│   ├── 20_PMP极大值原理.md                -- 3.2
│   ├── 30_动态规划与Bellman方程.md         -- 3.3
│   ├── 40_HJB方程与黏性解.md              -- 3.4
│   ├── 50_LQR_LQG与Riccati方程.md        -- 3.5
│   ├── 60_辨识鲁棒与频域.md               -- 3.6
│   ├── 70_Lyapunov稳定性理论.md           -- 3.7
│   ├── 80_CLF_CBF与QP安全控制.md          -- 3.8
│   ├── 90_DDP_iLQR原理与实现.md           -- 3.9
│   ├── 100_约束DDP与Crocoddyl.md          -- 3.10
│   ├── 110_非线性MPC稳定性.md             -- 3.11
│   ├── 120_MPC数值求解与实时实现.md        -- 3.12
│   ├── 130_鲁棒与随机MPC.md               -- 3.13
│   ├── 140_最优控制C++工程实践.md          -- 3.14
│   ├── 150_机器人系统辨识.md              -- 3.15 [新增]
│   └── 160_HJ可达性分析.md               -- 3.16 [新增]
├── 50_刚体动力学/
│   ├── README.md
│   ├── 10_空间向量代数.md
│   ├── 20_Lagrange与Hamilton力学.md
│   ├── 30_ON动力学递推算法.md
│   ├── 40_SE3几何力学.md
│   ├── 50_动力学解析微分.md
│   ├── 60_约束动力学.md
│   ├── 70_辛结构与动量映射.md
│   └── 80_跨专题资源地图.md
├── 60_概率与估计/
│   ├── README.md
│   ├── 10_贝叶斯滤波与线性高斯滤波.md
│   ├── 20_经典非线性滤波族.md
│   ├── 30_流形滤波族.md
│   ├── 40_Kalman族全景收口.md
│   ├── 50_因子图与非线性最小二乘.md
│   ├── 60_iSAM2与Bayes树.md
│   ├── 70_Barrau_Bonnabel精读.md
│   ├── 80_Certifiable_Perception.md
│   └── 90_鲁棒估计与外点剔除.md
├── 70_强化学习数学/
│   ├── README.md
│   ├── 10_MDP与动态规划基础.md
│   ├── 20_策略梯度与Actor_Critic.md
│   ├── 30_逼近动态规划与TD学习.md
│   ├── 40_连续控制与RL统一视角.md
│   ├── 50_随机逼近与ODE方法.md
│   └── 60_样本复杂度与前沿理论.md
├── 80_接触力学/
│   ├── README.md
│   ├── 10_互补问题与Signorini条件.md
│   ├── 20_摩擦锥理论与凸松弛.md
│   ├── 30_时步法与数值积分.md
│   ├── 40_可微接触仿真.md
│   ├── 50_混合动力系统与Saltation.md
│   ├── 60_接触隐式轨迹优化与MPC.md
│   └── 70_非光滑分析基础.md
├── 90_深度学习数学/
│   ├── README.md
│   ├── 10_神经网络逼近理论.md
│   ├── 20_泛化理论.md
│   ├── 30_Transformer数学基础.md
│   ├── 40_Diffusion_Models数学.md
│   ├── 50_具身智能VLA框架.md
│   └── 60_等变与不变网络.md
├── 95_随机分析/
│   ├── README.md                          -- 第九批导读
│   └── 10_随机微分方程基础.md              -- 布朗运动/Ito/SDE/FP
└── 数学方向_总大纲.md                     -- 本文档

合计:10 个模块目录,75 份教学文件 + 1 份总大纲。

各批次学时总表(更新版)

批次 对应目录 档位3 学时 档位4 额外 专题数 核心教材数
第零层 10_纯数学基础/ 950–1620 8(12子) 12
第一批 20_微分几何与李群/ 200–280 60–80 6+1 8
第二批 30_优化理论/ 120–160 40–60 6 10
第三批 40_控制理论/ 180–240 80–120 16 8
第四批 50_刚体动力学/ 80–120 60–80 7+1 7
第五批 60_概率与估计/ 200–260 40–60 9 6
第六批 70_强化学习数学/ 100–140 40–60 6 5
第七批 80_接触力学/ 100–140 60–80 7 6
第八批 90_深度学习数学/ 100–140 80–120 6 5
第九批 95_随机分析/ 40–60 30–40 1 3
总计 2070–3160 490–700 75 70

**20–36 个月全日制**可完成档位3全部内容。档位4 按方向选修,额外 6–12 个月。

最终依赖图(更新版,含第九批)

第零层(数学地基 · 10_纯数学基础 · 950-1620h)
  ├──→ 第一批(20_微分几何与李群)──→ 第四批(50_刚体动力学)──→ 第七批(80_接触力学)
  │                                         ↓
  ├──→ 第二批(30_优化理论)──→ 第三批(40_控制理论)──→ 第七批
  │           │                       ↓
  │           ├──→ 第五批(60_概率与估计)
  │           │
  │           ├──→ 第六批(70_RL数学)──→ 第八批(90_深度学习数学)
  │           │                                    ↑
  │           └──→ 第八批 ←─────────────────────────┘
  └──→ 第九批(95_随机分析)──→ 第八批 8.4(Diffusion Models)
                               ──→ 第三批 3.4(MPPI 控制)

附录 C:十批总览速查表

批次 目录名 专题数 核心定位 估计学时 核心教材
第零层 10_纯数学基础/ 8(12子) 纯数学地基:集合论、线代、拓扑、代数、分析、ODE 950–1620h Rudin PMA; Axler LADR; Folland; Munkres; Dummit-Foote
第一批 20_微分几何与李群/ 6+1 几何语言层:SO(3)/SE(3)、Retraction、不确定性 200–280h Lee Smooth Manifolds; Sola micro Lie Theory; Boumal 2023
第二批 30_优化理论/ 6 方法论枢纽:凸分析、优化算法、AD 120–160h Boyd Convex Opt; Nocedal Numerical Opt; Griewank AD
第三批 40_控制理论/ 16 规控脊柱:变分法到实时 MPC 180–240h Bertsekas DP&OC; Rawlings MPC; Khalil Nonlinear
第四批 50_刚体动力学/ 7+1 物理引擎:空间向量到辛结构 80–120h Featherstone RBDA; Murray-Li-Sastry; Lynch-Park
第五批 60_概率与估计/ 9 估计引擎:Kalman 族到 Certifiable SLAM 200–260h Barfoot 2e; Dellaert Factor Graphs; Thrun ProbRob
第六批 70_强化学习数学/ 6 RL 严格化:MDP、策略梯度、TD、样本复杂度 100–140h Bertsekas RL&OC; Meyn Control&RL; Sutton-Barto
第七批 80_接触力学/ 7 接触数学:LCP、摩擦锥、时步法、可微仿真 100–140h Brogliato Nonsmooth; Stewart SIAM Review; Acary
第八批 90_深度学习数学/ 6 AI 数学:逼近、Transformer、Diffusion、VLA、等变 100–140h Murphy PML; Bronstein GDL; Shalev-Shwartz UML
第九批 95_随机分析/ 1 随机桥梁:布朗运动、Ito 积分、SDE、Fokker-Planck 40–60h Oksendal SDE; Sarkkka-Solin Applied SDE

合计:75 份教学文件,约 2070–3160 学时(档位3核心),另有 490–700 学时档位4进阶内容。


附录 D:跨批次核心概念索引

以下概念在路线图中反复出现,每次以不同面目登场。它们是路线图的"交叉节点",理解它们的"变身史"是掌握机器人数学深层统一性的关键。

概念 首次出现 再现批次 统一本质
压缩映射原理 10/90_实分析 B1 10/120_ODE(Picard), 70/10_MDP(Bellman), 60/50_因子图(GN局部) 完备空间+压缩→唯一不动点
KKT 条件 30/30_对偶理论 40/50_LQR(无约束特例), 40/110_MPC(约束NLP), 80/10_互补(LCP=KKT特化), 80/60_CI-TO(MPCC) 梯度=法锥中的线性组合
SVD 10/40_谱定理SVD A2c 60/50_因子图(BA伪逆), 20/30_李群(Procrustes/ICP), 50/10_空间向量(可操作度) 旋转×拉伸×旋转
Adjoint 表示 20/30_李群基础 50/10_空间向量(Plucker变换), 50/20_Lagrange(Newton-Euler), 60/30_流形滤波(协方差搬运) twist/wrench 坐标系变换
隐函数定理 10/90_实分析 B1 20/10_光滑流形(子流形), 30/60_AD(隐式微分/OptNet), 80/40_可微接触(IFT穿KKT) 约束面的局部参数化
Radon-Nikodym 导数 10/100_测度论 B2 60/10_贝叶斯滤波(似然比), 70/20_策略梯度(重要性采样), 95/10_SDE(Girsanov) 测度变换的密度
Lyapunov 方法 10/120_ODE B4 40/70_Lyapunov(非线性控制), 40/80_CLF-CBF(安全控制), 40/110_MPC稳定性(终端代价), 70/50_SA-ODE(RL收敛) 能量函数递减→稳定性
正交投影 10/30_内积空间 A2b 10/110_泛函分析(Hilbert), 60/10_贝叶斯滤波(Kalman=L²投影), 90/10_逼近理论(Barron) 闭凸集上最近点
对偶空间 10/20_向量空间 A2a 50/10_空间向量(twist/wrench), 30/20_共轭函数(Fenchel), 40/50_LQR(共态λ) V vs V* 的配对
Bellman 方程 40/30_动态规划 70/10_MDP(随机版), 40/40_HJB(连续时间), 70/30_TD学习(采样近似) 最优性递推

附录 E:能力阶梯

阶段 完成模块 能力水平 典型应用
数学地基 10_纯数学基础 能阅读研究生级数学文献 所有后续学习的前提
几何语言 + 20_微分几何与李群 能用李群/流形语言描述机器人状态 SLAM 理论、位姿优化
优化工具 + 30_优化理论 能建模并求解机器人优化问题 BA、MPC、SDP 松弛
控制理论 + 40_控制理论 能设计并分析 MPC/WBC 控制器 腿足/无人机控制
动力学理论 + 50_刚体动力学 能读懂/修改动力学引擎源码 Pinocchio/MuJoCo 二次开发
估计理论 + 60_概率与估计 能设计全栈状态估计器 VIO/LIO/SLAM 后端
RL 理论 + 70_强化学习数学 能分析 RL 算法收敛性与样本效率 腿足 RL、safe RL
接触理论 + 80_接触力学 能设计接触隐式控制器 操纵规划、腿足接触 MPC
AI 数学 + 90_深度学习数学 能理解 VLA/扩散模型的数学原理 具身智能、Foundation Model
随机基础 + 95_随机分析 能推导 Ito 公式与 SDE 求解 Diffusion Policy、MPPI

附录 F:学习时间线参考(综合方向,全职)

月份    模块                        主题
──────────────────────────────────────────────────────────────────
M1-M6   10_纯数学基础              纯数学地基(集合/线代/拓扑/代数/分析/ODE)
──────────────────────────────────────────────────────────────────
M7-M8   20_微分几何与李群          光滑流形与李群
──────────────────────────────────────────────────────────────────
M9      30_优化理论                凸优化与自动微分
──────────────────────────────────────────────────────────────────
M10-M12 40_控制理论                最优控制与 MPC(含系统辨识/HJ可达性)
──────────────────────────────────────────────────────────────────
M13-M14 50_刚体动力学+60_概率估计  刚体动力学 + 概率论与状态估计(并行)
──────────────────────────────────────────────────────────────────
M15-M16 60_概率估计(续)+70_RL数学  状态估计前沿 + 强化学习数学(并行)
──────────────────────────────────────────────────────────────────
M17-M18 80_接触力学                接触力学
──────────────────────────────────────────────────────────────────
M19-M20 90_深度学习数学+95_随机分析 深度学习数学 + 随机分析(并行)
──────────────────────────────────────────────────────────────────
合计:约 20 个月(档位 3 核心);加档位 4 进阶约 24-28 个月

附录 G:关键教材索引(全十批)

批次 核心教材
第零层 Rudin PMA; Axler LADR 4e; Folland Real Analysis 2e; Munkres Topology; Dummit-Foote Abstract Algebra; Tao Analysis I/II; Hirsch-Smale-Devaney Differential Equations
第一批 Lee Smooth Manifolds; Sola et al. Micro Lie Theory 2018; Absil-Mahony-Sepulchre Optimization on Manifolds; Boumal 2023; Hall Lie Groups
第二批 Boyd-Vandenberghe Convex Optimization; Nocedal-Wright Numerical Optimization; Griewank-Walther Evaluating Derivatives; Nesterov Lectures
第三批 Bertsekas DP & Optimal Control; Kirk Optimal Control; Rawlings-Mayne-Diehl MPC; Khalil Nonlinear Systems; Liberzon Calculus of Variations
第四批 Featherstone RBDA; Lynch-Park Modern Robotics; Murray-Li-Sastry Robot Manipulation; Marsden-Ratiu Mechanics & Symmetry
第五批 Barfoot State Estimation for Robotics 2e; Dellaert-Kaess Factor Graphs FnT; Thrun Probabilistic Robotics; Sarkka Bayesian Filtering 2e
第六批 Bertsekas RL & OC 2019; Meyn Control Systems & RL 2022; Sutton-Barto RL 2e; Szepesvari Algorithms for RL
第七批 Brogliato Nonsmooth Mechanics 3e; Acary-Brogliato Numerical Methods; Stewart SIAM Review 2000
第八批 Shalev-Shwartz & Ben-David Understanding ML; Murphy PML: Advanced 2023; Bronstein et al. Geometric Deep Learning
第九批 Oksendal SDE 6e; Sarkka-Solin Applied SDE 2019; Pavliotis Stochastic Processes

文档维护说明: 本大纲是动态文档,将随各模块教学文件的更新同步修订。v3.0 整合了原 机器人学博士前数学总大纲_v2_最终版.md数学方向总大纲.md 的全部内容,新增快速路径、计算需求表、工业/研究标记、前置依赖矩阵、生态速览、交叉引用地图六大板块,并覆盖新增的 95_随机分析/ 模块和 40_控制理论/150~160 两个新专题。