跳转至

60_等变理论与几何前沿

专题6:等变理论与几何前沿

核心结论:整个机器人学正在向"对称性优先"的数学语言收敛。 等变理论(Equivariant Theory)是连接InEKF、Certifiable SLAM、SE(3)-equivariant神经网络和几何控制的统一数学框架。本专题是第一批李群与微分几何的收官内容,也是最贴近博士前沿研究的部分——档位4内容占比超过60%,因为等变理论本身就是活跃研究主题。专题5中的InEKF只是更一般的Equivariant Filter的一个特例;深度学习中的SE(3)-equivariant网络与滤波理论使用相同的表示论工具;Certifiable SLAM的数学基础也是李群对称性。掌握本专题,意味着获得了跨越滤波、感知、学习、控制四大领域的统一数学视角。


前置自测(答不出 2 题以上 -> 先回专题 3-5 复习)

  1. 如果把世界坐标系整体旋转,点云分类结果应该改变吗?
  2. 如果把末端抓取姿态整体左乘一个 \(SE(3)\) 变换,控制输出应该如何变化?
  3. VIO 中全局 yaw 和全局位置为什么常常不可观?
  4. 数据增广能否严格保证网络等变?
  5. InEKF 为什么能让误差动力学更接近自治?

§6.1 群作用与对称性的严格语言(档位3必学)

学习目标: 将"对称性"从直觉提升为严格的数学工具——群作用、齐次空间、等变映射。

核心概念链:

概念 定义要点 关键例子
左/右群作用 \(\phi: G \times M \to M\) 满足结合律与恒等律 SO(3)左作用于 \(\mathbb{R}^3\)(旋转3D点)
齐次空间 \(G/H\) 群作用传递(transitive)时的商空间 \(S^2 \cong \text{SO}(3)/\text{SO}(2)\)
轨道(Orbit) \(\text{Orb}(x) = \{g \cdot x \mid g \in G\}\) SE(3)作用于点云的各点
稳定子群(Isotropy) \(G_x = \{g \in G \mid g \cdot x = x\}\) 旋转轴方向的SO(2)子群
Orbit-Stabilizer定理 $ G
等变映射 \(f(g \cdot x) = g \cdot f(x)\)(结构保持) InEKF的误差动力学
不变映射 \(f(g \cdot x) = f(x)\)(完全不变) 距离函数、能量函数

必做练习(档位3): 证明SE(3)在 \(\mathbb{R}^3\) 上的作用是传递的,识别一个点的稳定子群为 SO(3),从而 \(\mathbb{R}^3 \cong \text{SE}(3)/\text{SO}(3)\)

关键辨析: 等变 \(\neq\) 不变。等变映射保持对称结构(输入变换则输出相应变换),不变映射则完全忽略变换。后续的equivariant网络和equivariant filter都是前者。

教材参考: Hall《Lie Groups, Lie Algebras, and Representations》第2版(Springer GTM 222, 2015)第1-4章提供矩阵李群视角,无需流形预备知识。


§6.2 李群的线性表示与不可约分解(档位3必学 + 档位4深入)

核心洞察: 表示论是理解equivariant网络的**必需基础**——网络的每一层都是irrep之间的张量运算。

档位3必学内容:

群表示 \(\rho: G \to \text{GL}(V)\) 将抽象群元素映射为线性变换。**不可约表示(irrep)**是最小的"不可再分解"表示单元。**Schur引理**断言:irrep之间的交织映射要么为零、要么为同构——这直接约束了等变线性层的形式。

SO(3)的irrep完全由非负整数 \(\ell\) 标记,对应 \((2\ell+1)\) 维空间:\(\ell=0\)(标量)、\(\ell=1\)(3D向量)、\(\ell=2\)(5维无迹对称张量)…… Wigner D-矩阵 \(D^\ell_{mm'}(\alpha,\beta,\gamma)\) 给出每个irrep的矩阵元素,球谐函数 \(Y^\ell_m\) 是其"角频率"基底。

irrep阶数 \(\ell\) 维度 物理对应 在e3nn中的标记
0 1 标量(能量、距离) 0e0o
1 3 向量(位置、速度) 1e1o
2 5 无迹对称张量(惯性) 2e2o
\(\ell\) \(2\ell+1\) 高阶张量场 ℓeℓo

档位4深入:

**Peter-Weyl定理**是紧致李群表示论的核心——它保证紧致群上的任何平方可积函数都可以按irrep的矩阵元素展开(群上的"傅里叶变换")。这个定理直接解释了e3nn为什么将特征按irrep类型组织,以及为什么等变线性层必须是"卷积"形式。

SE(3)的表示论比SO(3)复杂得多,因为SE(3)非紧致(平移分量无界),Peter-Weyl定理不直接适用。实践中通常将平移等变性通过相对位置向量单独处理,将问题归结到紧致的SO(3)上。

**Clebsch-Gordan系数**描述两个irrep张量积的分解规则(\(D^{\ell_1} \otimes D^{\ell_2} = \bigoplus_{|\ell_1-\ell_2|}^{\ell_1+\ell_2} D^L\)),是equivariant网络中非线性交互层的数学基础。

教材参考: Hall同书Part II(第4-6章);Bronstein等《Geometric Deep Learning》第3章。

计算工具: SymPy的 sympy.physics.wigner 模块可计算Wigner D-矩阵和CG系数;e3nn的 e3nn.o3 模块内置了所有irrep运算。


§6.3 等变滤波理论:从InEKF到EqF(档位4为主)

核心结论:InEKF是EqF(Equivariant Filter)的特例——当对称群作用于自身且系统满足group-affine条件时。

理论发展脉络:

阶段 代表工作 核心思想
对称保持观测器 Bonnabel-Martin-Rouchon (IEEE TAC 2008, arXiv:math/0612193) 用Cartan活动标架法构造保持对称性的校正项
李群上的互补滤波 Mahony-Hamel-Pflimlin (IEEE TAC 2008) SO(3)上的确定性观测器,几乎全局渐近稳定
不变EKF (InEKF) Barrau-Bonnabel (IEEE TAC 2017, arXiv:1410.1465) Group-affine系统上的EKF,误差动力学自治
等变系统理论 Mahony-Hamel-Trumpf (arXiv:2006.08276, 2020) 在齐次空间上建立完整的等变系统框架
EqF van Goor-Hamel-Mahony (CDC 2020; IEEE TAC 2022, arXiv:2010.14666) 齐次空间上的通用等变滤波器
EqVIO应用 van Goor-Mahony (IEEE T-RO 2023, arXiv:2205.01980) EqF用于视觉惯性里程计,性能超越优化方法

Group-affine条件(Barrau-Bonnabel 2017): 李群 \(G\) 上的动力系统 \(\dot{X} = f_u(X)\) 满足 \(f_u(X_1 X_2) = f_u(X_1)X_2 + X_1 f_u(X_2) - X_1 f_u(I) X_2\) 时,左/右不变误差的微分方程**自治**(不依赖参考轨迹),误差的李代数对数满足**精确线性**方程。这是InEKF稳定性的数学根源。

EqF的推广: EqF将观测器状态放在对称李群上,利用等变性推导全局误差动力学,再做EKF式线性化。其适用范围是**任意齐次空间上的等变系统**,而InEKF仅限于群自身上的group-affine系统。EqVIO论文构造了一个"VI-SLAM群"使VIO问题具有等变结构,在EuRoC数据集上不仅精度优异,速度还快了**2.14倍**。

开源代码: EqVIO的C++实现在 GitHub: pvangoor/eqvio,支持ROS bag输入。

综述参考: Mahony-van Goor-Hamel, "Observer Design for Nonlinear Systems with Equivariance," Annual Review of Control, Robotics, and Autonomous Systems, Vol. 5, pp. 221–252, 2022 (arXiv:2108.09387)。Barrau-Bonnabel, "Invariant Kalman Filtering," Annual Review, Vol. 1, pp. 237–257, 2018。


§6.4 SE(3)-Equivariant神经网络(档位3概览 + 档位4深入)

档位3关键洞察: 数据增广是"弱形式"的等变性(统计近似),显式equivariant架构是"硬约束"(精确保证)。后者在小数据、安全关键场景下优势显著。

里程碑论文时间线:

年份 论文 贡献 arXiv
2016 Cohen-Welling GCNN (ICML) 开山作:群等变卷积网络 1602.07576
2018 Thomas et al. TFN 首个SE(3)-equivariant逐点网络,引入球谐基 1802.08219
2020 Fuchs et al. SE(3)-Transformer (NeurIPS) 注意力机制 + 等变性 2006.10503
2021 Satorras et al. EGNN (ICML) 极简E(n)-equivariant图网络 2102.09844
2021 Deng et al. Vector Neurons (ICCV) 简化SO(3)-equivariance 2104.12229

实现库对比(档位3了解、档位4上手):

特点 适用场景
e3nn(最主流) PyTorch,完整irrep体系,Geiger & Smidt开发,~1200 stars 通用等变网络开发
e3nn-jax JAX版本,支持即时编译 JAX生态用户
NequIP / Allegro 基于e3nn,专注分子动力学势能面 分子模拟(哈佛mir-group)
DiffDock SE(3)上的扩散模型用于分子对接 药物发现(MIT Corso等)

在机器人中的前沿应用(档位4):

等变策略学习正在成为机器人操作的新范式。Dian Wang与Robert Platt组(Northeastern)的Equivariant Q-Learning(CoRL 2021, arXiv:2110.15443)开创了将空间对称性编码到Q函数中的方法。Simeonov等人**的Neural Descriptor Fields(ICRA 2022)利用SE(3)-equivariant表示实现类别级抓取泛化。**EquivAct(ICRA 2024, arXiv:2310.16050)将SIM(3)-equivariance扩展到可变形物体操作。

等变扩散策略(2024年爆发): Equivariant Diffusion Policy(CoRL 2024)在MimicGen任务上比基线Diffusion Policy平均成功率高**21.9%**。EquiBot(CoRL 2024, arXiv:2407.01479)仅用**5分钟人类演示**即可学习SIM(3)-equivariant扩散策略。Diffusion-EDFs(CVPR 2024)在SE(3)上做双等变去噪生成。这个方向正在快速演进。


§6.5 Certifiable SLAM的几何基础(档位4)

核心问题: SLAM的后端优化是非凸的——如何证明找到的解是全局最优?

SE-Sync(Rosen-Carlone-Bandeira-Leonard, IJRR 2019, arXiv:1611.00128)是突破性工作。其思路:将pose graph的MLE写成SO(d)上的二次优化 → 松弛正交约束为半正定约束得到凸SDP → 在噪声足够小时**SDP松弛是精确的**(tight),直接给出全局最优解和最优性证书。

Burer-Monteiro分解**解决了SDP的计算瓶颈:将 \(n \times n\) 的PSD矩阵分解为 \(X = YY^T\),在Stiefel流形上用黎曼信赖域法求解。Boumal-Voroninski-Bandeira(NeurIPS 2016; Comm. Pure Appl. Math. 2020)证明当分解秩 \(p \gtrsim \sqrt{2m}\) 时,**所有二阶临界点都是全局最优——无伪局部极小值。SE-Sync的"黎曼阶梯"策略从小 \(p\) 开始逐步提升直到可认证。

TEASER++(Yang-Shi-Carlone, IEEE T-RO 2021, arXiv:2001.07715)将certifiable思想应用于点云配准,在**99%离群值**下仍可鲁棒工作。Graduated Non-Convexity (GNC)(Yang等, RA-L 2020, ICRA最佳论文)通过Black-Rangarajan对偶性逐步从凸代理过渡到鲁棒代价。Shonan Rotation Averaging(Dellaert-Rosen等, ECCV 2020)将同样思想用于旋转平均。

开源代码: SE-Sync (github.com/david-m-rosen/SE-Sync), TEASER++ (github.com/MIT-SPARK/TEASER-plusplus), CertifiablyRobustPerception (github.com/MIT-SPARK/CertifiablyRobustPerception)。

注意: Nicolas Boumal现任EPFL副教授(2020年从Princeton转入),其Manopt工具箱(manopt.org)是黎曼流形优化的标准工具,著有《An Introduction to Optimization on Smooth Manifolds》(Cambridge UP, 2023)。


§6.6 纤维丛视角下的机器人动力学(档位4)

主丛(Principal Bundle)\(P \xrightarrow{G} M\) 将构型空间分解为"形状"(基空间 \(M\))和"位姿"(纤维 \(G\))。

直觉理解:考虑一个游泳机器人在二维平面上运动。它的构型空间包含"身体形状"(各关节角度)和"全局位姿"(位置 + 朝向)。纤维丛的视角是:形状变化是可控的(基空间上的运动),而全局位姿变化是形状变化的"副产品"——这正是运动(locomotion)的本质。

联络(Connection)**描述沿基空间路径的"平行移动"规则:给定一条形状空间中的闭合路径(比如游泳机器人的一个周期性步态),联络告诉你全局位姿变化了多少。如果联络的曲率非零,闭合的形状路径会产生**几何相位(geometric phase)——非零的净位移或转角。

经典例子:

系统 基空间(形状) 纤维(位姿) 几何相位
猫空中翻身 四肢关节角 身体朝向 SO(3) 周期性肢体运动产生净旋转
游泳机器人 形变参数 平面位姿 SE(2) 周期性形变产生净平移
轮式机器人 轮子转角 底盘位姿 SE(2) 差速转向
蛇形机器人 关节角序列 头部位姿 行波步态的推进

非完整约束(如轮式机器人不能侧滑)在纤维丛语言中就是联络的水平分布——约束将构型空间的切空间分为"允许的"(水平)和"禁止的"(竖直)两个互补子空间。

这个框架看起来很抽象,但它的实用价值在于:一旦把运动问题写成纤维丛的语言,最优步态设计就变成了在形状空间中寻找最优闭合曲线——使得曲线围成的面积(曲率积分 = 几何相位)最大化。这是 Hatton-Choset 组(CMU)在蛇形和游泳机器人步态优化中使用的核心方法。

教材参考: Bullo-Lewis《Geometric Control of Mechanical Systems》(Springer TAM 49, 2004)系统处理纤维丛与机械系统。Bloch《Nonholonomic Mechanics and Control》(Springer IAM 24, 第2版2015)覆盖非完整约束的几何方法,直接关联轮式和浮基机器人。Chirikjian《Stochastic Models, Information Theory, and Lie Groups》Vol. 2(Birkhäuser, 2012)包含"Locomotion and Perception as Communication over Principal Fiber Bundles"章节,并覆盖李群上的 Fokker-Planck 方程——这与专题 5 §19 中我们推导的 SO(3) 热方程直接呼应,为 equivariant diffusion model 铺路。


§6.7 对称性优先的博士选题导向

等变理论是机器人+ML交叉领域**最活跃的研究方向之一**,下表按研究组方向梳理:

方向 核心问题 代表研究组 热度
A. 等变滤波理论 新对称群、收敛性分析、非线性可观性 ANU Mahony组 ★★★★
B. Certifiable SLAM 新问题类型的SDP松弛、大规模可扩展性 MIT SPARK (Carlone) ★★★★★
C. 等变策略学习 Equivariant diffusion / RL / world model Platt组、Bohg组(Stanford) ★★★★★
D. 几何控制 Lie群MPC、symmetry-aware安全控制 Bloch、Bullo学派 ★★★
E. 交叉方向 结合多个上述方向 最具创新空间 ★★★★★

方向E的具体可能性: 将EqF的等变滤波与equivariant policy learning结合(感知-决策端到端等变);将certifiable perception的全局最优保证嵌入learning-based SLAM;为Geometric MPC设计equivariant神经网络近似器。这些交叉方向目前文献极少,是博士选题的蓝海。


核心教材与论文清单

档位3必读(概念框架):

  • Bronstein-Bruna-Cohen-Veličković,《Geometric Deep Learning》(arXiv:2104.13478, 免费PDF: geometricdeeplearning.com/book/),推荐第3-5章
  • Cohen-Welling, "Group Equivariant CNN" (ICML 2016, arXiv:1602.07576)
  • Mahony-van Goor-Hamel, "Observer Design with Equivariance" (Annu. Rev. 2022, arXiv:2108.09387)——综述级入门
  • Solà micro Lie theory (专题3已读,回顾对称性部分)

档位4应读(前沿操作):

  • van Goor-Mahony EqF (IEEE TAC 2022, arXiv:2010.14666) + EqVIO (IEEE T-RO 2023, arXiv:2205.01980)
  • Barrau-Bonnabel "Invariant Kalman Filtering" (Annu. Rev. 2018)
  • Rosen-Carlone SE-Sync (IJRR 2019, arXiv:1611.00128)
  • Thomas et al. TFN (arXiv:1802.08219) + Fuchs et al. SE(3)-Transformer (NeurIPS 2020)
  • Satorras et al. EGNN (ICML 2021) + Deng et al. Vector Neurons (ICCV 2021)

前沿扩展(档位4+,选读):

  • Wang et al. Equivariant Q-Learning (CoRL 2021);Equivariant Diffusion Policy (CoRL 2024)
  • Simeonov et al. Neural Descriptor Fields (ICRA 2022);Ryu et al. EDF (ICLR 2023) + Diffusion-EDFs (CVPR 2024)
  • Yang-Carlone Certifiably Robust Perception (NeurIPS 2020, TPAMI 2022)
  • Taco Cohen PhD thesis "Equivariant Convolutional Networks" (UvA 2021)——纤维丛视角的统一理论

学习资源矩阵

类型 资源 语言 推荐度
视频课程 Bronstein AMMI 2022 (YouTube playlist: PLn2-dEmQeTfSLXW8yXP4q_Ii58wFdxb3C) EN ★★★★★
视频课程 同上Bilibili搬运 (BV17y4y1L7aX) EN+弹幕 ★★★★
代码教程 e3nn tutorials (blondegeek.github.io/e3nn_tutorial/) EN ★★★★★
代码教程 Gabriele Cesa的GDL Colab tutorial (AMMI课程配套) EN ★★★★
综述课程 Carlone MIT 16.485 VNAV (公开slides+代码) EN ★★★★
中文解读 知乎"MindSpore AI科学计算(21):等变神经网络与e3nn" (zhuanlan.zhihu.com/p/587704873) CN ★★★★
中文解读 知乎EGNN论文笔记系列 (多篇) CN ★★★
研究组主页 Mahony (ANU), Carlone SPARK (MIT), Taco Cohen, Welling (UvA), Tess Smidt (MIT) EN ★★★★★
流形优化 Boumal, Optimization on Smooth Manifolds (Cambridge UP 2023) + Manopt EN ★★★★
等变网络综合列表 github.com/Chen-Cai-OSU/awesome-equivariant-network EN ★★★★

自测题目(5题,递进难度)

  1. (档位3) 证明SE(3)在 \(\mathbb{R}^3\) 上的作用是传递的,识别任一点的稳定子群,验证Orbit-Stabilizer定理的维度等式。
  2. (档位3→4) 写出SO(3)的 \(\ell=1\)\(\ell=2\) Wigner D-矩阵的显式形式,解释其在e3nn特征表示中的角色。
  3. (档位4) 精读van Goor-Mahony EqF论文(arXiv:2010.14666),写一页说明:当齐次空间 \(\mathcal{M} = G\)(群作用于自身)且系统满足group-affine条件时,EqF如何精确退化为InEKF。
  4. (档位4实操) 用e3nn实现一个SE(3)-equivariant的点云分类器(ModelNet10),验证旋转输入时输出不变(invariant = 最后一层pooling掉等变特征)。
  5. (档位4) 精读SE-Sync论文(arXiv:1611.00128),解释SDP松弛精确性的充分条件,以及Burer-Monteiro分解为何不引入伪局部极小值。

常见陷阱

  • 混淆等变与不变——等变保持变换结构(\(f(g \cdot x) = g \cdot f(x)\)),不变完全忽略变换(\(f(g \cdot x) = f(x)\)
  • 用数据增广替代等变架构——增广是统计近似,理论上次优;等变是精确硬约束,尤其在小数据和安全关键场景下不可替代
  • 忽略表示论——直接看e3nn代码而不理解irrep/CG系数,会停留在"调参"层面而无法设计新架构
  • 只关注SO(3)而忽略E(3)——完整欧几里得群包含平移和反射,实际应用中区别 e (even parity) 和 o (odd parity) 至关重要
  • 误认为certifiable SLAM只是"更慢的高斯牛顿"——其核心价值是全局最优性证书,这是传统迭代方法无法提供的理论保证
  • 把群作用(group action)与群运算(group operation)混淆——前者是群在外部空间上的"变换",后者是群内部的乘法

§6.8 从对称性到等变算法的完整教学链 ⭐

前面的章节已经列出等变理论的主要方向。

这一节把它们按学习顺序重新组织成可推导、可检查、可迁移的知识链。

本章的核心问题是:

如果同一个物理场景换了坐标系,算法输出应该怎样变化?

这个问题贯穿机器人感知、估计、控制和学习。

若算法完全不考虑它,就会把坐标选择当成真实信息。

若算法利用它,就能减少自由度、提升一致性、增强泛化。

上述五个问题(已列于本专题开头的前置自测中)背后都是对称性。


§6.9 群作用:把"坐标变换"写成数学对象 ⭐

6.9.1 群运算与群作用的区别

群运算发生在群内部:

\[ g_1g_2\in G \]

群作用发生在群与某个空间之间:

\[ g\cdot x\in M \]

其中 \(x\) 不一定是群元素。

例如:

被作用空间 作用 机器人含义
\(SO(3)\) \(\mathbb{R}^3\) \(R\cdot p=Rp\) 旋转点
\(SE(3)\) \(\mathbb{R}^3\) \(T\cdot p=Rp+t\) 刚体变换点
\(SE(3)\) 位姿集合 \(S\cdot T=ST\) 改变世界坐标系
\(SO(2)\) 平面图像 旋转图像 图像旋转对称
置换群 点云索引 重排点顺序 点云无序性

群作用必须满足:

\[ e\cdot x=x \]

以及:

\[ g_1\cdot(g_2\cdot x)=(g_1g_2)\cdot x \]

这两个条件保证"连续做两次变换"与"先合成再变换"一致。

6.9.2 为什么群作用是坐标系问题的语言

机器人中的坐标系选择通常不是物理事实。

例如 SLAM 地图整体平移或旋转,并不改变相对几何。

如果把所有位姿和地标同时左乘同一个 \(SE(3)\) 变换:

\[ T_i\mapsto ST_i,\qquad p_j\mapsto Sp_j \]

重投影误差不应改变。

这就是不变性。

但如果输出是一个位姿估计,它也应随坐标变换一起变化:

\[ \hat{T}\mapsto S\hat{T} \]

这就是等变性。

本质洞察:等变性不是让算法"忽略变换",而是让算法按物理规律响应变换。不变性是输出不随变换而变;等变性是输出以可预测方式随变换而变。

6.9.3 轨道与稳定子群

给定点 \(x\in M\),它在群作用下能到达的集合叫轨道:

\[ \operatorname{Orb}(x)=\{g\cdot x\mid g\in G\} \]

保持 \(x\) 不变的群元素构成稳定子群:

\[ G_x=\{g\in G\mid g\cdot x=x\} \]

Orbit-Stabilizer 定理:对连续群,维度等式为:

\[ \dim G = \dim \operatorname{Orb}(x) + \dim G_x \]

这个定理的意义在于:它把群的"大小"分解为"自由度"(轨道维数)和"冗余度"(稳定子维数),直接告诉我们齐次空间的维度。

例子:\(SO(3)\) 作用在单位球面 \(S^2\)

取北极点:

\[ n=(0,0,1)^\top \]

所有绕 z 轴旋转的元素都保持它不变。

稳定子群为:

\[ SO(2) \]

而任意单位方向都可由某个 \(SO(3)\) 旋转把 \(n\) 转过去。

因此:

\[ S^2\simeq SO(3)/SO(2) \]

这就是齐次空间。

验证 Orbit-Stabilizer 定理:\(\dim SO(3) = 3\)\(\dim S^2 = 2\)\(\dim SO(2) = 1\),确实 \(3 = 2 + 1\)

机器人中的 Orbit-Stabilizer 应用

\(G\) 被作用空间 \(M\) 一个点 \(x_0\) 稳定子群 \(G_{x_0}\) 齐次空间 机器人含义
\(SO(3)\) \(S^2\) 北极 \((0,0,1)\) \(SO(2)\)(绕 \(z\) 转) \(S^2 \cong SO(3)/SO(2)\) 单位方向向量空间(如重力方向、bearing)
\(SE(3)\) \(\mathbb{R}^3\) 原点 \((0,0,0)\) \(SO(3)\)(任意旋转不动原点) \(\mathbb{R}^3 \cong SE(3)/SO(3)\) 三维位置空间(平移自由度 = 6 - 3 = 3)
\(SE(3)\) 刚体位姿集 单位元 \(I\) \(\{I\}\)(恒等元) \(SE(3) \cong SE(3)/\{I\}\) 位姿空间 = 群本身(稳定子平凡)
\(SO(3)\) 对称物体姿态 竖直放置的圆柱体 \(SO(2)\)(绕对称轴) 有效姿态 \(\cong SO(3)/SO(2) \cong S^2\) 圆柱体抓取只需确定轴方向,不需绕轴转角

最后一个例子对机器人操作尤其重要:如果抓取对象是圆柱形(如杯子、瓶子),绕对称轴旋转不改变抓取效果。此时抓取姿态的有效自由度不是 \(\dim SO(3) = 3\),而是 \(\dim SO(3) - \dim SO(2) = 2\)——Orbit-Stabilizer 定理精确量化了这一对称性带来的自由度缩减。等变抓取网络(如 Neural Descriptor Fields)正是利用这种结构来提升泛化能力。

本质洞察:Orbit-Stabilizer 定理的工程价值在于:它把"这个问题有多少真正的自由度"变成了一道可计算的群论题目。识别对称性(稳定子群),就等于识别冗余自由度,从而减少搜索空间、提升样本效率、简化优化问题。

6.9.4 齐次空间与机器人状态

齐次空间是形如:

\[ G/H \]

的空间,其中 \(H\) 是稳定子群。

它表示:

群 G 的某些变换被认为等价,
因为它们对当前对象产生相同效果。

机器人中常见齐次空间:

空间 齐次空间表达 含义
\(S^2\) \(SO(3)/SO(2)\) 方向向量
\(\mathbb{R}^3\) \(SE(3)/SO(3)\) 点的位置
姿态轴 \(SO(3)/SO(2)\) 只关心朝向轴,不关心绕轴转角
视觉 bearing \(S^2\) 相机归一化观测方向

EqF 的一般性正来自这里:

它不要求状态空间本身是群。

它只要求状态空间带有合适的群作用。


§6.10 等变映射与不变映射 ⭐⭐

6.10.1 定义

设输入空间 \(X\) 和输出空间 \(Y\) 都有群 \(G\) 的作用。

映射 \(f:X\to Y\) 若满足:

\[ f(g\cdot x)=g\cdot f(x) \]

则称为等变。

若输出空间上的作用是平凡作用:

\[ g\cdot y=y \]

则等变条件退化为:

\[ f(g\cdot x)=f(x) \]

这就是不变。

6.10.2 机器人例子

点云分类:

\[ f(\{p_i\})=\text{class} \]

如果整体旋转点云,类别不变:

\[ f(\{Rp_i\})=f(\{p_i\}) \]

这是不变。

点云姿态估计:

\[ f(\{p_i\})=\hat{R} \]

如果整体旋转点云,输出姿态应同步旋转:

\[ f(\{Rp_i\})=R f(\{p_i\}) \]

这是等变。

抓取姿态预测:

\[ f(\text{scene})=T_{\text{grasp}} \]

若场景整体左乘 \(S\in SE(3)\)

\[ f(S\cdot\text{scene})=S f(\text{scene}) \]

这也是等变。

6.10.3 数据增广与等变架构的区别

数据增广训练网络看到变换后的样本。

它鼓励网络学习等变性或不变性。

但它不能严格保证。

显式等变架构把等变条件写进网络层。

二者之间的关系比"一个是近似,一个是精确"更深。从统计学习理论的角度看,等变架构相当于对假设空间做了结构性约束——只有满足等变条件的函数才在搜索范围内。这减小了假设空间的大小,根据 VC 维理论或 Rademacher 复杂度理论,更小的假设空间意味着更低的泛化误差上界,前提是真实目标函数确实满足该约束。数据增广则没有缩小假设空间——它只是改变了训练数据分布,让优化过程更容易找到近似等变的解。

用一个类比说明:等变架构像用尺子画直线(结构保证),数据增广像在纸上点很多点然后拟合直线(统计近似)。前者精确但限定了你只能画直线;后者灵活但可能拟合出微弱弯曲。

方法 约束来源 优点 局限
数据增广 训练数据统计 简单,适配任意模型 只在训练分布附近近似;增广不完备时可能学到虚假对称性
等变架构 网络结构 理论保证,样本效率高(通常提升 3-10 倍) 架构复杂,群选择受任务限制
后处理规范化 先对齐再预测 实现容易 对齐失败会传播错误;对连续对称群不可行

实验证据:Equivariant Diffusion Policy(CoRL 2024)在 MimicGen 基准上的对比实验显示,等变架构在仅 10 条演示下就达到了数据增广方法需要 50 条演示才能达到的成功率——5 倍的样本效率提升。这种差距在数据稀缺的机器人场景下尤为关键。

💡 提示:等变性不是越多越好

如果任务本身破坏某种对称性,强行加入等变约束会降低性能。

例如机器人操作中,重力方向、桌面法向、相机安装方向都可能提供真实信息。

此时应保留与物理环境一致的对称性,而不是盲目使用完整 \(SE(3)\) 等变。

一个常见的工程做法是使用**子群等变**:如果完整 \(SE(3)\) 中只有绕竖直轴的旋转和水平平移是真实对称性(桌面操作场景),则网络应对 \(SE(2) \times \{e\}\)(水平面的刚体运动)等变,而对竖直方向不强制等变。EquivAct(ICRA 2024)进一步将此思想扩展到 SIM(3)(含尺度变换),在可变形物体操作中取得了显著提升。

⚠️ 陷阱:用数据增广"代替"等变架构却不充分采样群空间

  • 错误做法:对 SO(3) 等变任务,只在训练时随机旋转输入 \(\pm 30°\)(不覆盖完整 SO(3))。
  • 后果:网络在训练角度范围内近似等变,但测试时遇到大角度旋转(如翻转 180°)会失败。
  • 根本原因:SO(3) 是 3 维紧致流形,均匀采样需要 Haar 测度(不是欧拉角均匀!参见专题 5 §13.2)。有限的增广只覆盖群的一小部分。
  • 正确做法:若选择数据增广路线,必须使用群上的均匀采样(如四元数均匀分布),且增广量要足够大。否则考虑换用等变架构。

§6.11 对称性与不可观性 ⭐⭐

6.11.1 SLAM 中的 gauge freedom

在纯相对位姿图中,代价函数为:

\[ \sum_{(i,j)} \left\| \operatorname{Log}(Z_{ij}^{-1}T_i^{-1}T_j) \right\|^2 \]

若所有位姿同时左乘 \(S\)

\[ T_i\mapsto ST_i \]

则:

\[ (ST_i)^{-1}(ST_j)=T_i^{-1}S^{-1}ST_j=T_i^{-1}T_j \]

残差不变。

因此全局坐标系不可观。

这不是传感器差,而是问题本身的对称性。

6.11.2 VIO 中的不可观方向

视觉惯性系统在没有外部绝对定位时,通常存在不可观自由度。

具体来说,纯 VIO 系统(无 GPS/磁力计)有 4 个不可观自由度:3 个全局平移 + 1 个绕重力轴的全局 yaw。这不是传感器精度不够的问题,而是问题结构决定的——IMU 测量的是体帧加速度和角速度,视觉测量的是帧间相对运动,二者都不包含全局位置或全局朝向信息。

用群作用的语言:设 \(G_{\text{unobs}} = \mathbb{R}^3 \rtimes SO(2)_{\text{yaw}}\) 是绕重力轴旋转加平移的群,它作用于所有位姿和地标。在这个群作用下,所有观测量(IMU 读数、特征重投影误差)都不变。因此 \(G_{\text{unobs}}\) 恰好是系统的对称群——它的维度(4)就是不可观自由度数。

滤波器若错误地认为这些方向可观,会导致协方差过小。

这就是一致性问题——滤波器的协方差矩阵在不可观方向上不应收缩,但普通 EKF 的线性化误差会制造虚假可观性(回顾专题 5 §20.8 的 NEES 检验:不一致的滤波器 NEES 持续偏高)。

InEKF 和 EqF 的动机之一,就是让误差定义尊重系统对称性。当误差定义本身与对称群兼容时,不可观方向在误差动力学中自然解耦,不会被错误线性化"感染"。FEJ(First Estimates Jacobian)是一种更简单的替代方案——它固定线性化点以避免虚假可观性,但没有 InEKF 那样的理论保证。

6.11.3 Noether 式直觉

在物理中,对称性常对应守恒量。

在估计中,对称性常对应不可观方向。

在优化中,对称性常对应 Hessian 的零空间。

三者可用一张表理解:

领域 对称性导致什么 机器人例子
力学 守恒量 平移对称对应动量守恒
状态估计 不可观方向 SLAM 全局 gauge
优化 Hessian 零空间 位姿图未固定 gauge 时奇异
学习 参数共享 等变网络卷积核共享

🧠 本质洞察:对称性既是约束,也是自由度

它一方面减少算法需要学习或估计的内容。

另一方面,如果没有正确处理,它会表现为不可观、秩亏、零空间或 gauge ambiguity。


§6.12 InEKF 到 EqF 的概念递进 ⭐⭐⭐

6.12.1 EKF 的线性化痛点

普通 EKF 对误差线性化:

\[ \delta x_{k+1}\approx F_k\delta x_k+G_kw_k \]

其中 \(F_k\) 通常依赖当前状态估计。

如果估计状态偏了,线性化矩阵也偏。

这会导致正反馈:

状态估计误差
导致错误 Jacobian
错误 Jacobian 低估协方差
低估协方差 又让滤波器过度相信自己

6.12.2 不变误差

在李群上,可以定义右不变误差:

\[ \eta_R=\hat{X}X^{-1} \]

或左不变误差:

\[ \eta_L=X^{-1}\hat{X} \]

约定警告:本文采用 Barrau-Bonnabel TAC 2017 的约定 \(\eta^L=X^{-1}\hat{X}\)(真值逆乘估计)。部分文献(如 Hartley IJRR 2020)使用 \(\eta=\hat{X}^{-1}X\)(估计逆乘真值),二者互为逆元。详见专题5 §5.7 的约定警告。

这些误差在坐标变换下具有更好的结构。

对 group-affine 系统,误差动力学可以与真实轨迹解耦。

这就是 InEKF 的关键。

6.12.3 group-affine 条件的直觉

系统:

\[ \dot{X}=f_u(X) \]

若满足:

\[ f_u(XY)=f_u(X)Y+Xf_u(Y)-Xf_u(I)Y \]

则称为 group-affine。

这个条件看起来复杂。

直觉是:

系统动力学与群乘法兼容,
因此相对误差的演化不需要知道绝对状态在哪里。

这与纯相对位姿图中全局左乘不改变残差是同一类思想。

6.12.4 EqF 的推广

InEKF 主要处理状态本身是李群的情况。

EqF 进一步处理齐次空间:

\[ M\simeq G/H \]

也就是说,状态未必是群元素,但群可以传递地作用在状态空间上。

EqF 的流程可以概括为:

识别系统对称群
构造群作用
把系统 lift 到群上
定义等变误差
在线性化误差系统上做 Kalman 更新

这使它能覆盖视觉 bearing、VIO 特征、姿态方向等更一般状态。

⚠️ 陷阱:InEKF 不是把 EKF 变量换成李群这么简单

如果系统不满足合适的不变性或 group-affine 结构,单纯用李群状态并不会自动获得 InEKF 的一致性优势。

关键在误差定义和动力学结构是否匹配。


§6.13 等变神经网络的最小理论 ⭐⭐⭐

6.13.1 特征类型

等变网络中的特征不是普通通道。

每个特征要说明在群作用下如何变换。

\(SO(3)\) 中,常见类型:

类型 变换规律 例子
标量 不随旋转改变 距离、质量、能量
向量 乘以 \(R\) 位置、速度、力
二阶张量 \(RT R^\top\) 惯量、应力
高阶 irrep Wigner D 变换 球谐特征

如果把向量特征当作普通标量通道,网络就会丢失旋转规律。

这正是等变网络与普通网络的根本区别:普通网络把 3D 向量的三个分量当作三个独立的标量通道(channel),旋转输入后三个分量以复杂方式混合,网络必须从数据中学习这种混合规律。等变网络把三个分量作为一个整体——它们在 \(\ell=1\) irrep 下变换为 \(D^1(R)v = Rv\)——网络结构本身保证了这种变换规律,不需要从数据中学。

6.13.2 等变线性层

线性层 \(L\) 要满足:

\[ L\rho_{\text{in}}(g)=\rho_{\text{out}}(g)L \]

这叫 intertwiner(交织映射)。

Schur 引理告诉我们,不同不可约表示之间的线性映射受到强约束:若 \(\rho_1\)\(\rho_2\) 是不等价的 irrep,则唯一的 intertwiner 是零映射;若 \(\rho_1 = \rho_2\),则 intertwiner 必须是恒等映射的标量倍。

这意味着等变线性层的参数量远少于一般线性层。例如,从 \((\ell=0) \oplus (\ell=1)\) 映射到 \((\ell=0) \oplus (\ell=1)\) 的等变线性层只有 4 个参数(两个 \(\ell=0 \to \ell=0\) 标量倍率、两个 \(\ell=1 \to \ell=1\) 标量倍率),而一般 \(4 \times 4\) 线性层有 16 个参数。

这就是等变网络中参数量减少的原因。

它不是简单正则化,而是结构限制——由群的表示论决定。

6.13.3 非线性为什么困难

普通神经网络可以对每个通道做 ReLU。

但向量特征若逐元素 ReLU,旋转后结果不再等变。

因为:

\[ \operatorname{ReLU}(Rv)\neq R\operatorname{ReLU}(v) \]

一般不成立。

等变网络需要使用保持表示结构的非线性,例如:

  1. 标量门控:用不变量(如向量的范数 \(\|v\|\))通过普通非线性(如 sigmoid),然后乘回向量通道:\(\sigma(\|v\|) \cdot v\)。范数是 \(SO(3)\)-不变的,乘以标量不改变变换类型,因此结果仍然等变。
  2. 张量积 + Clebsch-Gordan 分解:两个 irrep 的张量积 \(D^{\ell_1} \otimes D^{\ell_2}\) 可以分解为 \(\bigoplus_{L=|\ell_1-\ell_2|}^{\ell_1+\ell_2} D^L\)。这个"乘法-再分解"过程是非线性的(输出 irrep 类型与输入不同),且严格保持等变性。这是 e3nn 中 TensorProduct 层的数学基础。
  3. 对范数做非线性\(v \mapsto \phi(\|v\|) \cdot \hat{v}\),其中 \(\hat{v} = v/\|v\|\) 是单位方向,\(\phi\) 是任意标量函数。方向不变、只缩放长度,保持等变。

6.13.4 三种主要架构的工作原理

回顾 §6.4 列出的里程碑论文,这里详细解释三种代表性架构的核心机制。

A. Tensor Field Networks (TFN, Thomas et al. 2018)

TFN 是第一个严格意义上的 SE(3)-equivariant 逐点网络。其核心思想是:

  1. 输入:点云 \(\{(p_i, f_i)\}\),其中 \(p_i \in \mathbb{R}^3\) 是位置,\(f_i\) 是节点特征(按 irrep 类型组织)。
  2. 邻域聚合:对每对邻居 \((i, j)\),计算相对位置 \(r_{ij} = p_j - p_i\),将其展开为球谐基 \(Y^{\ell}_m(\hat{r}_{ij})\)(方向信息)乘以径向基 \(R(|r_{ij}|)\)(距离信息)。
  3. 等变卷积:特征更新通过 Clebsch-Gordan 张量积实现——\(f_i\)\(\ell_1\)-type 特征与 \(Y^{\ell_{\text{filter}}}\) 做张量积,产生 \(\ell_{\text{out}}\)-type 输出。径向函数 \(R(r)\) 提供可学习的标量权重。
  4. 关键性质:平移等变性通过使用相对位置 \(r_{ij}\) 保证;旋转等变性通过球谐基和 CG 系数保证。

TFN 的限制是每层只能混合相邻 \(\ell\) 值的特征(取决于 CG 分解规则),且没有注意力机制。

B. EGNN (Satorras et al., ICML 2021)

EGNN 采用完全不同的策略——它避免球谐函数和表示论,用更简单的方式实现 E(n)-equivariance:

  1. 消息传递:节点特征 \(h_i\)(标量)和坐标 \(x_i\)(向量)分开更新。
  2. 坐标更新\(x_i^{(l+1)} = x_i^{(l)} + C \sum_{j \neq i} (x_i^{(l)} - x_j^{(l)}) \cdot \phi_x(m_{ij})\),其中 \(m_{ij}\) 是标量消息,\(\phi_x\) 是可学习标量函数。关键:坐标更新只用**相对位置向量**和**标量权重**的乘积——相对位置向量在旋转下等变变换,标量权重不变,因此乘积仍等变。
  3. 特征更新\(h_i^{(l+1)} = \phi_h(h_i^{(l)}, \sum_j m_{ij})\),只用标量,自然不变。

EGNN 的优势是实现极其简单(不需要球谐、CG 系数),但代价是表达能力受限——它无法表示高阶张量特征(\(\ell \ge 2\)),因为它只处理标量和坐标向量。

C. SE(3)-Transformer (Fuchs et al., NeurIPS 2020)

SE(3)-Transformer 在 TFN 的基础上加入了注意力机制:

  1. 等变注意力权重:注意力分数必须是**不变量**(标量),否则不同旋转下会选择不同邻居。具体做法:用不变特征(\(\ell=0\) 通道)和距离计算注意力分数。
  2. 等变值(value):value 向量按 irrep 类型组织,像 TFN 一样用 CG 张量积生成。
  3. 加权聚合:用标量注意力权重对等变 value 加权求和——标量乘等变向量仍等变。

这种设计让网络能自适应地关注重要邻居(注意力的优势),同时保持严格等变性。

三种架构对比总结

维度 TFN EGNN SE(3)-Transformer
等变方式 球谐 + CG 系数 相对坐标 + 标量权重 球谐 + CG + 不变注意力
特征类型 任意 \(\ell\) 仅标量 + 坐标 任意 \(\ell\)
表达能力 中高
实现复杂度 很高
计算成本 高(注意力 \(O(N^2)\)
适用场景 分子性质预测 粒子系统、简单几何 复杂 3D 结构

本质洞察:TFN/SE(3)-Transformer 和 EGNN 代表了两种实现等变性的哲学——前者是"完备但复杂"(通过表示论穷举所有等变线性映射),后者是"简洁但受限"(通过几何直觉设计特定等变操作)。选择哪种取决于任务对高阶几何信息的需求程度。

6.13.5 E(n) 与 SE(3) 的工程取舍

EGNN 采用较简单的 E(n)-equivariant 结构。

它避免完整表示论,容易实现。

SE(3)-Transformer / e3nn 表达能力更强,但实现和调试成本更高。

模型路线 优点 局限 适合场景
数据增广 PointNet 简单 等变性不严格 数据多、任务粗
EGNN 易实现,E(n) 等变 表达受限 粒子、分子、点云关系
e3nn/TFN 表示论完整 学习曲线陡 精细 3D 几何
SE(3)-Transformer 注意力 + 等变 成本高 复杂点云/分子

💡 提示:先问输出应该如何变,再选网络

如果输出是类别,通常需要不变。

如果输出是力、速度、抓取姿态,则通常需要等变。

先明确输出变换规律,再决定网络结构。

⚠️ 陷阱:认为 EGNN 可以完全替代 TFN/e3nn

  • 错误想法:EGNN 实现简单、速度快,而且也是 E(n)-equivariant,所以直接用 EGNN 就行。
  • 后果:在需要精细角度信息的任务(如分子力场预测、蛋白质侧链角预测)上,EGNN 的表达能力不足——它无法表示 \(\ell \ge 2\) 的高阶特征,而这些特征编码了方向性耦合信息。
  • 根本原因:EGNN 的等变操作仅限于"标量 \(\times\) 坐标向量",无法生成更高阶的张量特征。这在数学上等价于只使用 \(\ell=0\)\(\ell=1\) irrep,截断了 \(\ell \ge 2\) 的信息。
  • 正确做法:根据任务需要的几何精度选择架构。粗粒度任务(分类、粗定位)用 EGNN 足够;精细角度/方向任务用 TFN 或 e3nn。

§6.14 Certifiable SLAM 的对称性视角 ⭐⭐⭐⭐

6.14.1 非凸性从哪里来

位姿图优化包含旋转约束:

\[ R_i\in SO(3) \]

这使问题非凸。

传统 Gauss-Newton 依赖初值。

若初值差,可能收敛到错误局部极值。

可认证方法尝试回答:

能否证明当前解就是全局最优?

6.14.2 SDP 松弛

许多旋转平均或位姿图问题可写成:

\[ \min_{R_i\in SO(d)} \operatorname{tr}(QRR^\top) \]

将:

\[ X=RR^\top \]

提升为半正定矩阵:

\[ X\succeq0 \]

并放松 rank 约束,可得 SDP。

若松弛 tight,则 SDP 解能恢复原问题全局最优解。

6.14.3 Burer-Monteiro 与流形优化

直接解 SDP 代价太高。

Burer-Monteiro 写:

\[ X=YY^\top \]

把问题转成低秩因子 \(Y\) 上的优化。

由于 \(Y\) 的行或块常带正交约束,优化发生在 Stiefel 流形上。

这连接回专题 2 的 Retraction 和 Riemannian trust-region。

6.14.4 对称性的角色

可认证 SLAM 中常有 gauge freedom。

若不固定 gauge,Hessian 会有零空间。

这不是坏事,而是对称性的数学表现。

证书方法必须正确处理这些自由度。

⚠️ 陷阱:全局最优证书不等于所有建模假设都正确

SE-Sync 或 TEASER++ 可以证明某个数学目标的全局最优。

但如果数据关联、噪声模型、外参、时间同步本身错了,全局最优也只是错误模型下的最优。


§6.15 对称性方法的选型 ⭐⭐

6.15.1 先判断任务的对称群

选型流程:

状态或输入是否有坐标系任意性?
        |
        v
输出是否应随变换改变?
        |
        +-- 不改变:不变模型或不变代价
        |
        +-- 同步改变:等变模型或等变滤波
        |
        v
任务中是否存在真实对称破缺?
        |
        +-- 有:只保留剩余对称性
        |
        +-- 无:使用完整对称约束

6.15.2 不同方向如何落地

方向 先做什么 再做什么 验证指标
滤波 找状态群作用 推导不变误差 NEES、一致性、RMSE
SLAM 找 gauge freedom 固定 gauge 或使用证书 Hessian 秩、dual gap
点云学习 确定输出类型 选不变/等变网络 旋转测试集泛化
控制 确定状态/输入变换 设计对称保持反馈 轨迹变换一致性
RL 分析任务奖励对称性 策略或 Q 函数等变 样本效率、跨姿态泛化

6.15.3 破坏对称性的来源

不是所有任务都有完整对称性。

常见破坏来源:

来源 破坏什么 例子
重力 完整 \(SO(3)\) 地面机器人有竖直方向
地面 完整 \(SE(3)\) 桌面操作只有平面平移/绕 z 旋转近似对称
传感器视场 旋转/平移 相机朝向固定
机器人形状 物体置换/旋转 夹爪左右不完全对称
任务目标 环境对称 把杯子放到指定区域

如果忽略这些破缺,模型会被迫学习错误等价关系。


§6.16 故障排查表 ⭐

现象 可能原因 检查方法 修复思路
旋转测试集性能大幅下降 只做了普通数据训练 对输入整体旋转并比较输出 加数据增广或等变架构
等变网络效果反而差 强加了不存在的对称性 检查重力、桌面、相机方向 改用子群或加入破缺特征
VIO 协方差过度自信 不可观方向被错误线性化 查看 NEES 与 gauge 自由度 使用不变误差或 FEJ
SLAM Hessian 奇异 gauge 未固定 检查零特征向量 固定先验或显式处理 gauge
EqF 推导不闭合 群作用选错 验证系统是否等变 重新定义 lift 或状态空间
e3nn 维度不匹配 irrep 组合错误 打印 irreps 输入输出 按 tensor product 规则重配
网络输出方向反了 polar/axial 向量混淆 检查 parity e/o 明确反射下的变换规律

练习:等变理论与几何前沿

  1. 证明 \(SO(3)\) 作用在 \(S^2\) 上是传递的,并求北极点的稳定子群。
  2. 解释为什么 \(S^2\simeq SO(3)/SO(2)\),并说明这个商空间的维数。
  3. 对点云分类和点云姿态估计,分别写出不变条件和等变条件。
  4. 对纯相对位姿图,证明全局左乘 \(S\in SE(3)\) 不改变残差。
  5. 写出普通 EKF 中状态相关 Jacobian 可能导致不一致的因果链。
  6. 阅读一个 e3nn 示例,指出其中哪些特征是标量、哪些是向量、哪些是高阶 irrep。
  7. 给一个桌面抓取任务,分析完整 \(SE(3)\) 等变是否合理;若不合理,应保留哪个子群?
  8. 解释 certifiable SLAM 中 duality gap 的意义,以及它能证明什么、不能证明什么。

跨章综合题

把一个 VIO 系统放入本章框架:

  1. 结合专题 3,说明 IMU 姿态状态属于哪个李群。
  2. 结合专题 5,说明姿态误差为什么放在李代数中。
  3. 分析系统中的对称性:全局位置、全局 yaw、重力方向分别如何影响可观性。
  4. 对比普通 EKF、InEKF 与 EqF 的误差定义。
  5. 假设要用等变网络预测视觉特征的 3D 方向,写出输入旋转时输出应如何变换。
  6. 讨论如果把该网络输出接入滤波器,错误的等变性会怎样影响一致性。

§6.17 本章概念总表

等变理论的概念很多,最容易出现的问题是只记住名词,却不知道它们之间的依赖关系。

下面这张表把本章主干压缩成一条路线。

层次 核心对象 解决的问题 后续用途
\(G\) 哪些变换被认为是对称的 定义坐标变换、刚体运动、置换
群作用 \(g\cdot x\) 群如何作用到状态或数据上 描述点云、位姿、观测的变换
轨道 \(\operatorname{Orb}(x)\) 一个状态在对称变换下能到哪里 判断等价状态集合
稳定子 \(G_x\) 哪些变换保持状态不变 构造齐次空间
齐次空间 \(G/H\) 状态不是群但仍有对称结构 EqF、bearing、方向空间
不变映射 \(h(gx)=h(x)\) 输出不应随坐标改变 分类、能量、距离、残差
等变映射 \(f(gx)=gf(x)\) 输出应按规律同步变换 位姿估计、力预测、策略
表示 \(\rho(g)\) 特征如何线性变换 e3nn、SE(3)-Transformer
不变误差 \(\eta\) 误差定义尊重群结构 InEKF、EqF
证书 duality gap 当前解是否全局最优 Certifiable SLAM

这张表也给出学习顺序:

先学群作用
再学等变/不变
再学齐次空间
再学滤波与网络应用
最后看可认证优化和前沿论文

§6.17.1 三条学习路径

不同研究方向不需要平均用力。

如果目标是滤波与状态估计,主线应是:

群作用
不可观性
不变误差
group-affine
InEKF
EqF
EqVIO

如果目标是几何深度学习,主线应是:

群作用
等变映射
表示论
irrep
tensor product
e3nn
等变扩散策略

如果目标是 SLAM 后端与全局最优,主线应是:

gauge freedom
旋转平均
SDP 松弛
Burer-Monteiro
Riemannian staircase
最优性证书
鲁棒感知

三条路径共享同一基础:

对称性决定哪些变化是物理真实的,
哪些变化只是坐标选择。

§6.17.2 最小掌握标准

读完本章,至少应能完成以下任务:

  1. 给一个机器人问题,指出它的候选对称群。
  2. 判断输出应是不变还是等变。
  3. 写出对应的数学条件。
  4. 识别不可观方向是否来自 gauge freedom。
  5. 解释数据增广与等变架构的差别。
  6. 说明 InEKF 为什么不只是普通 EKF 加李群状态。
  7. 说明 EqF 比 InEKF 更一般在哪里。
  8. 说明可认证 SLAM 的证书证明的是哪个优化目标。

若这些任务做不到,继续读前沿论文会很容易陷入术语堆叠。

§6.17.3 研究品味提醒

等变理论的强大之处在于它能减少任意性。

但它不是万能模板。

真正好的问题通常需要回答三件事:

哪些对称性是真实物理规律?
哪些对称性被环境或任务破坏?
哪些对称性值得写进算法结构?

如果这三件事没有想清楚,等变模型可能只是把错误先验硬编码进系统。

如果想清楚了,它会变成跨数据集、跨坐标系、跨任务泛化的核心工具。


§6.18 等变扩散模型 ⭐⭐⭐⭐

6.18.1 为什么扩散模型需要等变性 ⭐⭐⭐

扩散模型(Diffusion Model)的核心思想是:向数据逐步加噪,然后学习逆向去噪过程。在机器人操作中,扩散策略(Diffusion Policy)把动作序列的生成建模为去噪过程——从纯噪声开始,逐步生成合理的末端执行器轨迹。

问题在于:如果场景整体旋转或平移,生成的动作轨迹也应同步变换。标准扩散模型没有这个保证——它需要从数据中学习这种变换规律,在数据有限时学不好。

等变扩散模型把 \(SE(3)\) 对称性编码进去噪网络的结构中,使得:

\[ \epsilon_\theta(g \cdot x_t, t) = g \cdot \epsilon_\theta(x_t, t) \quad \forall g \in SE(3) \]

其中 \(\epsilon_\theta\) 是去噪网络(score function),\(x_t\)\(t\) 时刻的带噪数据。这个等变条件保证了场景变换后,去噪方向也相应变换——无需额外数据学习。

用一个类比理解:普通扩散模型像一个只在特定朝向练习过的画家——换一个角度就画不好了。等变扩散模型像一个理解透视原理的画家——无论从哪个角度看,都能画出正确的画面。

6.18.2 IGSO(3):SO(3) 上的各向同性高斯核 ⭐⭐⭐⭐

在欧氏空间中,扩散过程的前向核是高斯分布 \(\mathcal{N}(0, \sigma^2 I)\)。在 \(SO(3)\) 上,需要定义旋转空间中的"高斯核"——这就是 IGSO(3)(Isotropic Gaussian on SO(3))

IGSO(3) 的密度函数为:

\[ p(R \mid R_0, t) = \sum_{\ell=0}^{\infty} (2\ell+1) \, e^{-\ell(\ell+1)t} \, \chi_\ell(\operatorname{tr}(R_0^{-1}R)) \]

其中 \(\chi_\ell\)\(SO(3)\)\(\ell\)-th irrep 的特征函数。这个公式直接来自 \(SO(3)\) 上的**热方程(heat equation)**——回顾 Chirikjian《Stochastic Models》Vol.2 和本课程专题5 §19 中推导的李群上热方程,IGSO(3) 正是热核在 \(SO(3)\) 上的解。

直觉上,IGSO(3) 描述的是"从旋转 \(R_0\) 出发,经过时间 \(t\) 的布朗运动后到达 \(R\) 的概率"。时间越长(\(t\) 越大),分布越均匀,最终趋向 \(SO(3)\) 上的 Haar 测度(均匀分布)。这与欧氏空间中高斯分布随方差增大趋向均匀分布完全平行。

Peter-Weyl 定理(回顾 §6.2 档位4 内容)保证了上述级数展开的收敛性和完备性——紧致群上任何平方可积函数都可以按 irrep 的矩阵元素展开,热核也不例外。

6.18.3 等变 Score Function ⭐⭐⭐⭐

扩散模型的核心是学习 score function(对数密度的梯度):

\[ s_\theta(x_t, t) = \nabla_{x_t} \log p_t(x_t) \]

\(SO(3)\) 上,"梯度"需要在李代数 \(\mathfrak{so}(3)\) 中定义。Score function 变成了李代数值的映射:

\[ s_\theta(R_t, t) \in \mathfrak{so}(3) \cong \mathbb{R}^3 \]

等变条件要求对任意 \(g \in SO(3)\)

\[ s_\theta(gR_t, t) = \operatorname{Ad}_g \cdot s_\theta(R_t, t) \]

其中 \(\operatorname{Ad}_g\) 是伴随作用(对 \(SO(3)\) 就是旋转向量 \(\omega \mapsto R\omega\))。这个条件保证去噪方向与场景旋转一致变换。

如果 score function 不等变会怎样? 假设网络学到了一个不等变的 score:对特定朝向的物体,去噪方向指向正确的抓取姿态;但如果物体旋转了 90 度,去噪方向没有相应旋转,而是指向错误的方向。结果是扩散策略在训练朝向附近表现良好,但在新朝向下生成完全不合理的动作。数据增广可以缓解这个问题(在不同朝向下训练),但无法完全消除——因为 \(SO(3)\) 是三维紧致流形,均匀采样需要大量数据。

6.18.4 等变扩散策略的前沿进展(2024-2025) ⭐⭐⭐⭐

等变扩散策略在 2024 年迎来爆发,多个工作从不同角度实现了 SE(3)-equivariant 去噪:

工作 发表 核心思想 关键结果
Equivariant Diffusion Policy CoRL 2024 对去噪函数施加 \(SO(2)\)\(SE(2)\) 等变约束 MimicGen 上平均成功率提升 21.9%
Diffusion-EDFs (Ryu et al.) CVPR 2024 SE(3) 上的双等变去噪生成 在未见配置下零样本泛化
ET-SEED arXiv:2411.03990 轨迹级 SE(3) 等变扩散策略 端到端训练效率显著提升
Spherical Diffusion Policy ICML 2025 球谐傅里叶空间中的 SE(3) 等变策略 20 个仿真 + 5 个实机任务大幅领先
EquiBot CoRL 2024 SIM(3) 等变扩散策略 5 分钟 人类演示即可学习

Spherical Diffusion Policy(Amazon Science, ICML 2025)特别值得关注:它将状态、动作和去噪过程全部嵌入球谐傅里叶空间,实现了 SE(3) 等变性和 T(3) 不变性。在 20 个仿真任务和 5 个实机任务(含单臂和双臂)上取得了显著优势,代表了该方向的最新技术水平。

与 Fokker-Planck 的连接:扩散模型的前向过程对应 Fokker-Planck 方程,在 \(SO(3)\) 上就是李群上的热方程。逆向去噪过程对应时间反转的随机微分方程。这直接连接到专题5 §19 中推导的 \(SO(3)\) Fokker-Planck 方程——等变扩散模型的理论基础正是那里建立的李群随机分析工具。

本质洞察:等变扩散模型不仅仅是"在去噪网络中加入等变层"这么简单。它需要三个层次的等变性协调一致:(1) 噪声核(IGSO(3))本身必须等变——这由热核的对称性保证;(2) score function 必须等变——这由网络结构保证;(3) 采样过程(Langevin 动力学)必须等变——这由 SDE 的几何结构保证。三者缺一不可。

6.18.5 练习 ⭐⭐⭐⭐

  1. (手推)写出 \(SO(3)\) 上热方程 \(\frac{\partial p}{\partial t} = \Delta_{SO(3)} p\) 的解(即 IGSO(3) 核),解释为什么 \(\ell=0\) 项在 \(t \to \infty\) 时主导。
  2. (概念)Equivariant Diffusion Policy 在 MimicGen 基准上只需 10 条演示就达到了普通 Diffusion Policy 50 条演示的性能。从 VC 维理论的角度解释这种 5 倍样本效率提升的来源。
  3. (思考)如果操作任务有明确的重力方向(如倒水),完整 \(SO(3)\) 等变是否合理?应该使用什么子群?

⚠️ 概念误区:认为 IGSO(3) 核等同于在欧拉角上加高斯噪声

  • 错误做法:在欧拉角 \((\alpha, \beta, \gamma)\) 上分别加独立高斯噪声 \(\mathcal{N}(0, \sigma^2)\)
  • 后果:欧拉角参数化在极点(\(\beta = 0\)\(\pi\))有万向锁奇异性,"均匀"的欧拉角噪声在 \(SO(3)\) 上实际是**非均匀**的——赤道附近采样密集,极点附近稀疏。这会导致扩散过程的前向核不是各向同性的,破坏等变性。
  • 根本原因:\(SO(3)\) 不是欧氏空间,它的 Haar 测度在欧拉角参数化下有 \(\sin\beta\) 因子。IGSO(3) 直接在内在几何上定义,避免了参数化偏差。
  • 正确做法:使用 IGSO(3) 核(基于测地距离和热方程),或使用四元数参数化并在 \(S^3\) 上做扩散。

§6.19 Geometric Deep Learning 统一框架 ⭐⭐⭐

6.19.1 Bronstein 等人的 5G 框架 ⭐⭐⭐

2021 年,Michael Bronstein、Joan Bruna、Taco Cohen 和 Petar Velickovic 发表了开创性的综述论文"Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges"(arXiv:2104.13478),提出了一个统一框架来理解几乎所有主流神经网络架构。

核心洞察:表面上看起来截然不同的网络架构——CNN、RNN、GNN、Transformer——都可以统一理解为**在不同对称群下的等变映射**。差别仅在于:

架构 定义域 对称群 \(G\) 等变/不变操作
CNN 网格(Grid) 平移群 \(\mathbb{Z}^2\)\(\mathbb{R}^2\) 卷积 = 平移等变;pooling = 平移不变
Group CNN \(G\) 群本身 群卷积 = 左作用等变
GNN 图(Graph) 置换群 \(S_n\) 消息传递 = 置换等变
Transformer 集合(Set) 置换群 \(S_n\) 注意力 = 置换等变
DeepSets 集合 置换群 \(S_n\) 聚合 = 置换不变
Equivariant GNN 几何图 \(E(3)\)\(SE(3)\) 几何消息传递 = 欧几里得等变
Gauge CNN 流形 局部标架群 规范等变卷积

这个统一视角的力量在于:它把网络架构设计从"直觉驱动的尝试"变成了"对称性驱动的推导"。给定一个问题,只需回答三个问题:

  1. 数据定义在什么空间上?(网格、图、流形、群)
  2. 问题有什么对称性?(平移、旋转、置换、规范变换)
  3. 输出应该如何变换?(等变还是不变)

然后从 5G 框架中,可以系统地推导出适合该问题的网络架构。

这就像 Felix Klein 的 Erlangen 纲领(1872)把几何学从"研究图形性质"统一为"研究在变换群下不变的性质"一样——Bronstein 等人把深度学习从"设计网络层"统一为"设计等变映射"。

6.19.2 CNN 为什么是等变网络的特例 ⭐⭐⭐

卷积神经网络之所以在图像上成功,不是因为卷积核是某种神奇操作,而是因为图像具有平移对称性——把图像整体平移,物体类别不变、物体位置同步平移。

标准卷积层 \((f * k)(x) = \int f(x - y) k(y) dy\) 精确满足平移等变性:

\[ (T_a f * k)(x) = (f * k)(x - a) = T_a(f * k)(x) \]

其中 \(T_a\) 是平移操作。也就是说,先平移输入再卷积 = 先卷积再平移输出。

如果理解了这一点,等变 GNN 就不再神秘:它只是把"平移群"换成了"欧几里得群",把"网格卷积"换成了"几何消息传递"。TFN、EGNN、SE(3)-Transformer 都是 CNN 这个思想在更复杂对称群上的推广。

本质洞察:CNN 的成功不是因为"卷积"这个数学运算本身有什么特殊之处,而是因为卷积恰好是**平移群的等变线性映射**——Schur 引理(§6.13.2)告诉我们,平移群的 irrep 上的 intertwiner 就是卷积。当我们换成旋转群 \(SO(3)\),intertwiner 就变成了球谐卷积。5G 框架揭示的正是这种深层统一性。

6.19.3 对机器人架构设计的启示 ⭐⭐⭐

对机器人学研究者而言,5G 框架提供了一套系统性的架构设计方法论:

点云感知:点云是三维空间中的无序点集。对称群包含置换群(点的顺序无关)和 \(SE(3)\)\(E(3)\)(坐标系选择无关)。因此理想架构应同时对置换和欧几里得变换等变——这正是 PointNet(置换等变)→ DGCNN(图 + 置换)→ EGNN/TFN(置换 + 几何等变)的演进脉络。

力/力矩预测:力是 \(\ell=1\) 的等变向量(旋转场景时力同步旋转),力矩也是 \(\ell=1\)(但 parity 不同,力矩是伪向量/axial vector)。因此预测力/力矩的网络应输出 \(\ell=1\) irrep 特征——这直接决定了最后一层的设计。

轨迹生成:动作轨迹是一系列 \(SE(3)\) 位姿。轨迹生成模型的输出应对输入场景的 \(SE(3)\) 变换等变——这正是等变扩散策略(§6.18)的理论基础。

6.19.4 练习 ⭐⭐⭐

  1. (概念)解释为什么 PointNet 的 max-pooling 操作实现了置换不变性,但同时也丢失了一些信息。DGCNN 如何通过图结构恢复这些信息?
  2. (思考)Transformer 的 self-attention 机制是置换等变的。如果要让它对 \(SO(3)\) 也等变,需要修改哪些部分?SE(3)-Transformer 如何实现这一点?
  3. (应用)为一个机器人抓取任务设计网络架构:输入是场景点云,输出是抓取姿态 \(T \in SE(3)\)。使用 5G 框架分析所需的对称性,论证为什么 SE(3)-equivariant 架构比普通 PointNet 更合适。

参考文献:Bronstein, Bruna, Cohen, Velickovic, "Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges," arXiv:2104.13478, 2021. 免费全文及配套视频课程:geometricdeeplearning.com.


§6.20 等变操作技能学习 ⭐⭐⭐⭐

6.20.1 SE(3)-Equivariant 抓取规划 ⭐⭐⭐⭐

机器人抓取的核心问题是:给定场景观测(通常是点云),预测一个抓取姿态 \(T_{\text{grasp}} \in SE(3)\)。如果场景整体变换(物体移动或旋转),抓取姿态应同步变换:

\[ f(g \cdot \text{scene}) = g \cdot f(\text{scene}) \quad \forall g \in SE(3) \]

OrbitGrasp(Huy Ha 等, arXiv:2407.03531, 2024)是 SE(3)-equivariant 抓取规划的代表性工作。它的核心创新在于:对点云中的每个点,输出一个定义在 \(S^2\)(接近方向球面)上的**连续抓取质量函数**,用球谐基 \(Y^\ell_m\) 展开:

\[ q(p_i, \hat{n}) = \sum_{\ell=0}^{L} \sum_{m=-\ell}^{\ell} c_{\ell m}^{(i)} Y^\ell_m(\hat{n}) \]

其中 \(c_{\ell m}^{(i)}\) 是网络输出的傅里叶系数。由于球谐函数在旋转下按 Wigner D-矩阵变换,这种表示天然具有 \(SO(3)\)-equivariance。

OrbitGrasp 使用 EquiFormerV2 的 UNet 变体作为骨干网络,能处理大规模点云(\(>10^4\) 点)。实验显示,在未见物体的抓取泛化上,等变架构比非等变基线提升了显著的成功率。

Edge Grasp Network(Huang 等, ICRA 2023)从另一个角度实现 SE(3)-不变抓取检测:抓取质量评估函数对物体和抓取姿态的同步 SE(3) 变换不变:

\[ q(g \cdot \text{object}, g \cdot T_{\text{grasp}}) = q(\text{object}, T_{\text{grasp}}) \]

注意这里是**不变**而非等变——因为抓取质量是标量,不随变换改变。

6.20.2 等变模仿学习 ⭐⭐⭐⭐

等变模仿学习把对称性约束引入行为克隆(behavioral cloning)框架:

EquivAct(Stanford/Toyota Research, ICRA 2024, arXiv:2310.16050)将等变性从 \(SE(3)\) 扩展到 \(SIM(3)\)(含尺度变换的相似变换群)。\(SIM(3) = \mathbb{R}^+ \times SE(3)\),其中 \(\mathbb{R}^+\) 是正实数乘法群(尺度缩放)。使用 \(SIM(3)\) 的动机是:许多操作技能(如折叠布料、盖盖子)在物体尺寸变化后仍然适用——同一个折叠策略应该能处理大毛巾和小手帕。

EquivAct 的训练分两阶段:(1) 在仿真点云上预训练 \(SIM(3)\)-equivariant 视觉表征;(2) 用 20 条人类演示做行为克隆。关键结果是:在桌面任务上训练的策略可以**零样本迁移**到移动操作任务(物体尺度和位姿都不同)——这正是 \(SIM(3)\) 等变性带来的泛化能力。

EquiBot(CoRL 2024, arXiv:2407.01479)在 EquivAct 的基础上引入扩散模型,将 \(SIM(3)\)-equivariant 架构与去噪生成相结合。由于扩散模型天然能处理多模态分布(同一场景可能有多种合理抓取方式),EquiBot 仅用 5 分钟 的人类演示就能学到鲁棒的操作策略。

Equivariant Q-Learning(Dian Wang & Robert Platt, Northeastern, CoRL 2021, arXiv:2110.15443)开创了将对称性编码到强化学习 Q 函数中的方法。Q 函数的等变条件为:

\[ Q(g \cdot s, g \cdot a) = Q(s, a) \quad \forall g \in G \]

(注意这里 Q 值是标量,所以是不变性;但 Q 函数作为 \(s \times a \to \mathbb{R}\) 的映射关于 \((s, a)\) 的联合变换是不变的。)实验显示,Equivariant DQN 和 Equivariant SAC 在 10 条交互经验下的性能等同于非等变方法 100 条经验——10 倍样本效率提升

6.20.3 数据增广 vs 架构等变:量化对比与决策树 ⭐⭐⭐

回顾 §6.10.3 中定性比较了数据增广与架构等变。这里给出更具体的量化证据和实践决策指南。

量化对比数据(来自 Equivariant Diffusion Policy, CoRL 2024):

方法 演示数量 MimicGen 平均成功率 相对样本效率
Diffusion Policy(无增广) 50 58.2% 1x
Diffusion Policy + SE(2) 增广 50 67.4% 1.5x
Equivariant Diffusion Policy 10 72.1% 5x
Equivariant Diffusion Policy 50 80.1%

数据清楚显示:等变架构在 10 条演示下就超过了增广方法在 50 条演示下的性能。在 50 条演示下,等变方法进一步领先——增广缩小了差距但无法消除。

决策树:何时用哪种方法

任务对称群是否已知且精确?
    |
    +-- 是:任务真正具有该对称性
    |       |
    |       +-- 对称群是 SO(2)/SE(2)(平面操作)
    |       |       → 等变架构(实现简单,收益大)
    |       |
    |       +-- 对称群是 SO(3)/SE(3)(6DoF 操作)
    |       |       → 等变架构(如 e3nn/EGNN)
    |       |       → 若 e3nn 太复杂:先用 EGNN 试
    |       |
    |       +-- 含尺度 SIM(3)(可变形物体)
    |               → EquivAct/EquiBot 架构
    |
    +-- 否:对称性部分破缺或不确定
            |
            +-- 知道哪些方向破缺(如重力)
            |       → 子群等变(如 SE(2) 而非 SE(3))
            |       → 将破缺方向作为额外不变特征输入
            |
            +-- 完全不确定
                    → 先用数据增广 baseline
                    → 对比旋转测试集性能确认对称性是否存在
                    → 再决定是否引入等变架构

本质洞察:数据增广 vs 架构等变不是"近似 vs 精确"这么简单的二分法。更准确的理解是:数据增广在**优化层面**鼓励等变性(通过改变训练分布),架构等变在**假设空间层面**强制等变性(通过约束函数类)。前者灵活但不严格,后者严格但需要对称性假设正确。实践中两者可以结合——用等变架构保证已知对称性,用增广增加对噪声和近似对称性的鲁棒性。

6.20.4 练习 ⭐⭐⭐⭐

  1. (概念)EquivAct 使用 \(SIM(3)\) 而非 \(SE(3)\) 等变。解释 \(SIM(3)\)\(SE(3)\) 多了什么对称性,以及这为什么对可变形物体操作有用。
  2. (思考)Equivariant Q-Learning 的 Q 函数满足 \(Q(g \cdot s, g \cdot a) = Q(s, a)\)。如果动作空间是 \(SE(3)\)(末端执行器位姿),\(g\) 对动作的作用是什么?写出显式表达式。
  3. (应用)你要设计一个将瓶子立起来的操作策略。分析这个任务的对称群:完整 \(SO(3)\) 等变是否合理?重力和桌面法向如何破坏对称性?建议使用什么子群等变?

⚠️ 思维陷阱:认为等变架构总是优于数据增广

  • 错误想法:等变架构严格保证对称性,数据增广只是近似,所以等变架构一定更好。
  • 反例:如果任务的真实对称群比你假设的**小**(即你强加了不存在的对称性),等变架构反而会限制网络的表达能力。例如在抓取任务中,如果桌面上有固定的工具架(破坏了水平旋转对称),强制 \(SO(2)\) 等变会让网络无法利用工具架的绝对位置信息。
  • 正确做法:先仔细分析任务的真实对称性,再设计架构。如果不确定,先用数据增广做 baseline,对比旋转测试集和原始测试集的性能差异——如果差异大,说明对称性存在且值得用等变架构。

§6.21 Geometric Deep Learning 延伸阅读 ⭐⭐⭐

以下资源按难度和方向组织,为进一步深入等变理论和几何深度学习提供导引。

基础理论(档位3-4,建议按顺序阅读)

资源 类型 难度 核心内容 推荐理由
Bronstein et al., "Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges" (arXiv:2104.13478, 2021) 综述论文 ⭐⭐⭐ 5G 统一框架、对称性与深度学习的完整理论 必读——本领域的 Erlangen 纲领
geometricdeeplearning.com 在线教材+视频 ⭐⭐⭐ Bronstein 综述的配套课程 免费、系统、有 AMMI 2022 完整录像
Cohen, "Equivariant Convolutional Networks" (PhD Thesis, UvA 2021) 博士论文 ⭐⭐⭐⭐ 用纤维丛统一所有等变卷积网络 理论最深入的参考,适合数学功底强的读者
Hall, Lie Groups, Lie Algebras, and Representations (Springer GTM 222, 2015) 教科书 ⭐⭐⭐ 矩阵李群视角的表示论 理解 irrep、Schur 引理、Peter-Weyl 的标准参考

等变网络实现(档位4,按方向选择)

资源 类型 难度 核心内容 推荐理由
e3nn tutorials (blondegeek.github.io/e3nn_tutorial/) 代码教程 ⭐⭐⭐ e3nn 库的完整教程,含 irrep、tensor product 实操 实操首选——从代码理解理论
Geiger & Smidt, "e3nn: Euclidean Neural Networks" (arXiv:2207.09453, 2022) 论文 ⭐⭐⭐ e3nn 库的设计哲学和 API 读完教程后的理论补充
Satorras et al., "E(n) Equivariant Graph Neural Networks" (ICML 2021, arXiv:2102.09844) 论文 ⭐⭐ EGNN——最简单的等变 GNN 入门 E(n)-equivariance 的最佳起点
Batzner et al., "E(3)-equivariant graph neural networks for data-efficient atomistic simulations" (Nature Comm. 2022) 论文 ⭐⭐⭐ NequIP——基于 e3nn 的分子势能面预测 等变网络在自然科学中的成功范例

机器人应用(档位4+,按研究方向选择)

资源 类型 难度 核心内容 推荐理由
Wang et al., "Equivariant Q-Learning" (CoRL 2021, arXiv:2110.15443) 论文 ⭐⭐⭐ 等变强化学习开山作 开创等变 RL 用于操作
Equivariant Diffusion Policy (CoRL 2024, equidiff.github.io) 论文+代码 ⭐⭐⭐⭐ SE(2)/SE(3) 等变扩散策略 2024 年操作学习最热方向
Ryu et al., "Diffusion-EDFs" (CVPR 2024) 论文 ⭐⭐⭐⭐ SE(3) 上的双等变去噪 连接扩散模型与等变理论
OrbitGrasp (arXiv:2407.03531, 2024) 论文 ⭐⭐⭐⭐ SE(3)-equivariant 抓取规划 球谐基在抓取中的完整应用
EquivAct (ICRA 2024, arXiv:2310.16050) + EquiBot (CoRL 2024, arXiv:2407.01479) 论文 ⭐⭐⭐⭐ SIM(3) 等变模仿/扩散 最前沿的等变操作学习

中文社区资源

资源 平台 内容
知乎"MindSpore AI 科学计算(21):等变神经网络与 e3nn" 知乎 e3nn 库的中文入门介绍
知乎 EGNN 论文笔记系列 知乎 E(n) Equivariant GNN 的详细中文解读
知乎"2021 NeurIPS Equivariance 总结" 知乎 等变性相关论文的年度梳理
知乎"2022 ICLR Equivariance 总结" 知乎 等变性研究的最新进展
Bilibili Bronstein AMMI 2022 (BV17y4y1L7aX) Bilibili Geometric Deep Learning 完整课程搬运
awesome-equivariant-network (github.com/Chen-Cai-OSU/awesome-equivariant-network) GitHub 等变网络论文与资源综合列表

数学基础补充(按需阅读)

资源 难度 何时需要
Chirikjian, Stochastic Models Vol.2 (Birkhäuser, 2012) ⭐⭐⭐⭐ 理解李群上的扩散过程和 Fokker-Planck 方程
Boumal, Optimization on Smooth Manifolds (Cambridge UP, 2023) ⭐⭐⭐ 理解等变优化的流形基础(回顾专题2)
Bullo-Lewis, Geometric Control of Mechanical Systems (Springer, 2004) ⭐⭐⭐⭐ 理解纤维丛视角的机器人动力学(§6.6)

学习时间预算与节奏

阶段 内容 时间 节奏建议
档位3(概念框架) §6.1-6.2 + §6.4概览 + §6.19(5G框架) + 综述论文 40-60h 4-6周完成
档位4(前沿深入) §6.3 + §6.4深入 + §6.5-6.7 + §6.18(等变扩散) 30-50h 根据博士方向选择性深入
档位4+(操作学习) §6.20(等变操作技能) + §6.21(延伸阅读) 20-30h 操作方向选择性深入
博士品味建立 §6.7方向探索 + 论文精读 + 代码复现 持续 1-2学期的"研究品味建立期"

建议策略:先用4-6周完成档位3,建立完整概念地图(包括 §6.19 的 5G 统一框架作为全景视角)。然后根据自身博士方向(滤波/SLAM/学习/控制/交叉),选择§6.3-6.7 和 §6.18-6.20 中的**2-3个子方向**做档位4深入,而非试图全部覆盖。

新增章节的学习路径建议

  • 等变扩散方向(§6.18):先回顾专题5 §19 的李群热方程,再读 IGSO(3) 核的推导,最后读 Equivariant Diffusion Policy 论文。预计额外 15-20 小时。
  • Geometric Deep Learning 统一视角(§6.19):建议在学完 §6.1-6.2(群作用基础)后立即阅读 Bronstein 综述的第3章,建立全景地图。预计额外 8-10 小时。
  • 等变操作学习(§6.20):需要先完成 §6.4 和 §6.13(等变网络最小理论),然后可选择性阅读 OrbitGrasp 或 EquivAct/EquiBot 论文。预计额外 10-15 小时。

跨专题衔接提示:§6.18 的等变扩散模型直接依赖专题2(流形优化基础)中 §23-25 新增的 Riemannian CG/L-BFGS 和测地凸性内容。具体连接为:

专题2 新增内容 本专题连接点 关系
§23 Riemannian CG/L-BFGS §6.18 扩散模型训练中的流形优化 score network 的训练可在 SO(3) 参数空间上用 Riemannian optimizer
§24 测地凸性 §6.14 Certifiable SLAM 旋转平均的测地凸性 → SDP 松弛精确性
§25 旋转平均实战 §6.5 SE-Sync 基础 Shonan Rotation Averaging 是 certifiable SLAM 的核心子问题

这些交叉连接不是巧合——它们反映了"对称性优先"数学语言在不同应用方向上的统一基础。


与后续批次的桥梁

本专题是**整个第一批(李群与微分几何)的收官**,同时是通向多个后续批次的关键枢纽。

向后连接总览

后续批次 连接内容 本专题基础
第四批(刚体动力学) 构型空间的李群结构、纤维丛视角的运动学 §6.6 纤维丛视角、§6.9 群作用
第五批(SLAM 后端优化) Certifiable SLAM、旋转平均、PGO 全局最优 §6.5/§6.14 Certifiable SLAM、§6.11 gauge freedom
第六批(强化学习数学基础) 等变 RL、Equivariant Q-Learning/SAC §6.20 等变操作技能学习
第八批(深度学习与具身AI) 等变扩散策略、SE(3)-equivariant 感知 §6.18 等变扩散模型、§6.19 GDL 框架、§6.4 等变网络

Certifiable methods 直接连接**第五批(SLAM后端优化)**;equivariant RL 是**第六批(强化学习数学基础)**的前沿热点;SE(3)-equivariant 网络和 equivariant diffusion 几乎覆盖**第八批(深度学习与具身AI)**的核心内容。整个第一批为**第四批(刚体动力学)**和**第五批(SLAM状态估计)**提供不可替代的数学基础。

与专题2(Retraction与流形优化)的闭环:本专题 §6.14 中的 Certifiable SLAM 依赖专题2 §23-25 新增的 Riemannian CG/L-BFGS 算法和测地凸性理论。反过来,专题2 §25 的旋转平均实战案例又直接引用了本专题 §6.5 的 SE-Sync 理论。两个专题的新增内容形成了完整的闭环:流形优化工具(专题2) → 应用于旋转/位姿优化(两专题交叉) → 上升到对称性的统一视角(本专题)。

掌握了等变理论的统一视角,后续每个批次的前沿内容都将更容易理解——这是"对称性优先"数学语言的根本价值。


附加内容:等变理论的数学深化 ⭐⭐⭐

A.1 Schur 引理的完整陈述与机器人含义 ⭐⭐⭐

Schur 引理(表示论的基石):

版本一:如果 \(\rho_1: G \to GL(V_1)\)\(\rho_2: G \to GL(V_2)\) 是两个不等价的不可约表示,则任何交织映射 \(T: V_1 \to V_2\)(即满足 \(T\rho_1(g) = \rho_2(g)T\) 对所有 \(g\))必为零。

版本二:如果 \(\rho: G \to GL(V)\) 是一个不可约表示(\(\mathbb{C}\) 上),则任何自交织映射 \(T: V \to V\) 必为标量乘以恒等:\(T = \lambda I\)

在等变神经网络中的含义

等变线性层必须满足 \(W\rho_{\text{in}}(g) = \rho_{\text{out}}(g)W\),即 \(W\) 是交织映射。

由 Schur 引理: - 如果输入和输出的 irrep 不同,权重矩阵的对应块必须为零 - 如果输入和输出的 irrep 相同,权重块必须是标量乘以恒等

这严格限制了等变层的参数空间——参数远少于通用线性层,但保证了等变性。这是 e3nn 高参数效率的根本原因。

本质洞察:Schur 引理把"满足对称性"这个看似柔软的约束变成了极其刚性的代数约束——要么全零,要么标量。这就是为什么等变网络的参数量远少于通用网络:对称性不是通过数据增广"软约束"的,而是通过 Schur 引理"硬编码"在网络结构中的。

A.2 Clebsch-Gordan 分解的物理直觉 ⭐⭐⭐

两个 SO(3) irrep 的张量积分解:

\[ D^{\ell_1} \otimes D^{\ell_2} = \bigoplus_{L=|\ell_1-\ell_2|}^{\ell_1+\ell_2} D^L \]

物理类比:量子力学中两个角动量 \(j_1\)\(j_2\) 的耦合。

总角动量 \(J\) 的范围从 \(|j_1-j_2|\)\(j_1+j_2\),步长为 1。

例如 \(\ell_1 = 1\)(向量)\(\otimes\) \(\ell_2 = 1\)(向量)= \(D^0\)(标量)\(\oplus\) \(D^1\)(向量)\(\oplus\) \(D^2\)(无迹对称张量)。

在 e3nn 中,这对应张量积层:输入两个 \(\ell=1\) 特征,输出包含 \(\ell=0,1,2\) 的特征。CG 系数决定了如何"混合"输入特征产生各阶输出。

输入 irrep 输出 irrep 物理对应 e3nn 操作
\(1 \otimes 1 \to 0\) 两向量 → 标量 点积 \(a \cdot b\) tp.weight[0]
\(1 \otimes 1 \to 1\) 两向量 → 向量 叉积 \(a \times b\) tp.weight[1]
\(1 \otimes 1 \to 2\) 两向量 → 2阶张量 \(a_i b_j + a_j b_i - \frac{2}{3}\delta_{ij}(a\cdot b)\) tp.weight[2]

A.3 等变性与不变性的关系 ⭐⭐⭐

这两个概念容易混淆,但有清晰的层级关系:

性质 定义 例子 网络类型
不变性 \(f(gx) = f(x)\) 点云分类、能量预测 最终输出层
等变性 \(f(gx) = gf(x)\) 力场预测、SE(3) 位姿估计 中间层

关键关系:不变映射 = 等变映射 + 不变汇聚

一个不变的点云分类器可以分解为: 1. 等变特征提取(保持几何结构) 2. 不变聚合(如求和、最大值) 3. 标量输出

这就是为什么 e3nn 的中间层全是等变的——只在最终输出处投影到不变标量。

反事实推理:如果只用不变特征(如点间距离),能否实现等变预测?答案是不行。不变特征丢失了方向信息,无法预测向量输出(如力的方向)。等变中间表示保留了方向信息,使得网络可以预测有方向的物理量。

A.4 2024-2025 等变理论前沿进展 ⭐⭐⭐⭐

方向 代表工作 核心贡献
SE(3)-Equivariant Robot Learning arXiv:2503.09829 (Mar 2025) Tutorial survey: RL + control
Equivariant Diffusion Policy CoRL 2024 将扩散策略严格等变化
General Linear Equivariance arXiv:2510.22984 (2025) 超越旋转群的等变性
3D Rotation Invariance Survey AIR 2024 旋转不变/等变方法综合对比
ESCNN Library v0.2+ GitHub 2024 支持 3D E(3) steerable CNN

这些进展表明等变理论正在从"理论前沿"转变为"工程标准"——未来的机器人学习系统将默认内置对称性约束。

A.5 表示论在机器人中的具体应用实例 ⭐⭐⭐

前面的附录以抽象数学为主。本节用三个具体的机器人场景说明 irrep、CG 系数和 Schur 引理如何直接影响工程设计决策。

场景 1:力场预测网络的输出层设计

假设要预测施加在物体上的接触力 \(\mathbf{f} \in \mathbb{R}^3\)。力是向量——在旋转下按 \(\ell=1\) irrep 变换:\(\mathbf{f} \mapsto R\mathbf{f}\)。因此输出层的 irrep 类型必须包含 \(\ell=1\) 分量。

如果同时要预测力矩 \(\boldsymbol\tau \in \mathbb{R}^3\),力矩也是 \(\ell=1\),但 parity 不同——力是 polar vector(1o,odd parity),力矩是 axial vector(1e,even parity)。在 e3nn 中,输出 irreps 应声明为 "3x1o + 3x1e"(3 个 odd \(\ell=1\) 分量 + 3 个 even \(\ell=1\) 分量),而非简单的 "6x1o"。如果 parity 声明错误,网络在反射变换(镜像场景)下会产生错误的力矩方向。

场景 2:惯性张量的等变预测

假设要从点云预测物体的惯性张量 \(\mathbf{I} \in \mathbb{R}^{3\times3}\)。惯性张量是对称无迹张量的迹部分加上各向同性部分:\(\mathbf{I} = \frac{1}{3}\operatorname{tr}(\mathbf{I})I_3 + \mathbf{I}_0\),其中 \(\mathbf{I}_0\) 是无迹对称部分。在 \(SO(3)\) 下:

  • \(\operatorname{tr}(\mathbf{I})\) 是标量(\(\ell=0\)),旋转不变
  • \(\mathbf{I}_0\)\(\ell=2\) irrep(5 维),按 Wigner \(D^2\) 矩阵变换

因此输出 irreps 应为 "1x0e + 1x2e"——1 个标量(迹)加 1 个 \(\ell=2\) even 分量(无迹对称张量)。这 6 个参数正好参数化了一般 \(3\times3\) 对称矩阵(6 个独立元素)。

Schur 引理保证了从 \(\ell=0\)\(\ell=2\) 的线性映射必须为零——这意味着网络不会把标量特征错误地"泄漏"到张量特征中,反之亦然。这种结构性分离是等变架构比通用 MLP 更可靠的深层原因。

场景 3:CG 张量积在邻域交互中的角色

考虑点云上两个邻居点的交互。点 \(i\)\(\ell=1\) 特征 \(\mathbf{v}_i\)(如速度),点 \(j\) 的相对位置方向 \(\hat{r}_{ij}\) 也是 \(\ell=1\) 特征。两者的张量积 \(\mathbf{v}_i \otimes \hat{r}_{ij}\) 按 CG 分解为:

\[ D^1 \otimes D^1 = D^0 \oplus D^1 \oplus D^2 \]
  • \(D^0\) 分量 \(= \mathbf{v}_i \cdot \hat{r}_{ij}\)(点积)→ 沿连接方向的投影速度(标量)
  • \(D^1\) 分量 \(= \mathbf{v}_i \times \hat{r}_{ij}\)(叉积)→ 垂直于连接方向的速度分量(向量)
  • \(D^2\) 分量 → 二者的对称无迹组合(描述速度场的应变特征)

e3nn 的 TensorProduct 层自动执行这个分解,每个分量有独立的可学习标量权重。这比 MLP 更高效——MLP 需要 \(9 \times k\) 个参数(\(k\) 是隐藏层宽度)来学习 \(3 \times 3 = 9\) 个输入到任意输出的映射,而 CG 张量积只需 3 个标量权重(分别控制 \(\ell=0,1,2\) 分量的贡献)。参数量减少约 \(3k\) 倍,但保留了完整的旋转等变性。

反事实推理:如果不用 CG 分解而用普通 MLP 处理两个向量的交互,会怎样?MLP 会把 9 个输入元素当作独立标量,失去了"它们是两个向量"这一几何信息。这意味着 MLP 需要从数据中重新学习叉积、点积等基本几何运算——在小数据场景下(机器人操作的典型情况),这种"从零学习几何"的策略效率极低。CG 张量积把这些几何运算作为先验编码在网络结构中,让网络只需学习"每种几何交互的重要程度"(3 个标量权重),而非"什么是几何交互"。

A.6 等变性验证的实用工具函数 ⭐⭐⭐

无论使用 e3nn 还是 ESCNN,训练后都应系统验证等变性。以下是可直接使用的验证函数:

"""等变性系统验证工具"""
import numpy as np
import torch
from scipy.spatial.transform import Rotation

def verify_SO3_equivariance_batch(model, x_batch, n_rotations=50):
    """
    批量验证 SO(3) 等变性。
    model: PyTorch 模型,输入输出都是点云特征
    x_batch: (B, N, 3) 点云坐标
    返回: 最大等变性违反量(应接近机器精度 ~1e-6)
    """
    model.eval()
    max_violation = 0.0

    with torch.no_grad():
        y_orig = model(x_batch)  # (B, N, out_dim)

        for _ in range(n_rotations):
            R = torch.tensor(Rotation.random().as_matrix(),
                             dtype=x_batch.dtype)
            # 旋转输入
            x_rotated = x_batch @ R.T  # (B, N, 3) @ (3, 3)
            y_rotated_input = model(x_rotated)

            # 旋转输出(根据输出的 irrep 类型)
            # 如果输出是标量(不变): y_rotated_output = y_orig
            # 如果输出是向量(ℓ=1 等变): y_rotated_output = y_orig @ R.T
            y_rotated_output = y_orig @ R.T  # 假设输出是向量

            violation = torch.max(torch.abs(y_rotated_input - y_rotated_output))
            max_violation = max(max_violation, violation.item())

    return max_violation

def verify_invariance(model, x_batch, n_rotations=50):
    """验证输出对 SO(3) 的不变性(如分类)"""
    model.eval()
    max_violation = 0.0

    with torch.no_grad():
        y_orig = model(x_batch)
        for _ in range(n_rotations):
            R = torch.tensor(Rotation.random().as_matrix(),
                             dtype=x_batch.dtype)
            x_rotated = x_batch @ R.T
            y_rotated = model(x_rotated)
            violation = torch.max(torch.abs(y_rotated - y_orig))
            max_violation = max(max_violation, violation.item())

    return max_violation

验证标准: - 精确等变架构(e3nn/ESCNN):\(< 10^{-5}\)(浮点精度限制) - 数据增广近似等变:\(\sim 10^{-2}\)\(10^{-1}\)(统计近似) - 未处理等变性的网络:\(\sim 10^0\) 或更大

如果精确等变架构的违反量 \(> 10^{-3}\),几乎可以断定 irrep 声明或张量积路径有错误。

⚠️ 陷阱:用 BatchNorm 破坏等变性

  • 错误做法:在等变网络的中间层使用标准 nn.BatchNorm
  • 后果:BatchNorm 对每个通道独立计算均值和方差。对于 \(\ell=1\) 向量特征的三个分量 \((v_x, v_y, v_z)\),BatchNorm 分别归一化它们——但旋转后三个分量会混合,归一化结果不再一致。这使得精确等变网络的等变性违反量从 \(10^{-6}\) 退化到 \(10^{-1}\)
  • 根本原因:BatchNorm 把向量的三个分量当作独立标量通道,不尊重它们之间的几何关系。
  • 正确做法:(1)不使用归一化(小学习率训练仍然稳定);(2)使用**范数归一化**:对每个 irrep 块计算不变量(如范数),只对不变量做归一化,保持方向不变;(3)使用 Instance Normalization(对每个样本独立归一化,不跨 batch 统计),搭配适当的缩放策略。

⚠️ 概念误区:认为等变网络"一定比非等变网络慢"

  • 错误想法:等变架构有额外的 CG 系数计算和 Wigner D-矩阵变换,一定比普通网络慢。
  • 实际情况:等变网络的**参数量**远少于同等容量的普通网络(Schur 引理的约束效应),因此单次前向传播中的矩阵乘法更小。在某些场景下(如 EGNN),等变网络反而更快。e3nn 的张量积实现利用了稀疏 CG 矩阵,避免了全稠密矩阵运算。ESCNN 的 export 功能更是将 steerable 卷积编译为标准卷积——推理时与普通 CNN 速度相同。
  • 正确认知:等变网络的计算开销取决于 \(\ell_{\max}\)(最大 irrep 阶数)和特征宽度。在 \(\ell_{\max} \le 2\) 的常见配置下,等变网络的速度与同参数量的普通网络相当。只有在 \(\ell_{\max} \ge 4\) 或特征非常宽时,CG 系数的计算才成为瓶颈。

本章知识树总结 ⭐

等变理论与几何前沿
├── 群作用与对称性语言
│   ├── 左/右群作用
│   ├── 轨道、稳定子、齐次空间
│   └── 等变映射 vs 不变映射
├── 表示论基础
│   ├── 不可约表示 (irrep)
│   ├── Schur 引理 → 等变层的约束
│   ├── Wigner D-矩阵、球谐函数
│   ├── CG 分解 → 张量积层
│   └── Peter-Weyl 定理(紧致群的傅里叶)
├── 等变滤波
│   ├── InEKF (Invariant EKF)
│   ├── EqF (Equivariant Filter)
│   └── Group-affine 条件
├── 等变神经网络
│   ├── e3nn (PyTorch E(3) equivariant)
│   ├── ESCNN (steerable CNN)
│   ├── EGNN (simplest equivariant GNN)
│   └── 等变扩散模型
├── Certifiable Methods
│   ├── SE-Sync
│   ├── TEASER++
│   └── SDP 松弛理论
├── 几何控制
│   ├── 纤维丛视角
│   ├── 对称约化
│   └── 等变反馈
└── 前沿方向
    ├── 等变 RL(操作学习)
    ├── SE(3) equivariant diffusion
    └── General linear equivariance

本章小结 ⭐

核心概念 一句话定义 工程对应 数学工具
群作用 群元素作用于空间点 旋转 3D 点、刚体变换 \(\phi: G\times M \to M\)
等变映射 输入变换则输出相应变换 InEKF 误差动力学 \(f(gx) = gf(x)\)
irrep 最小不可分解的表示单元 e3nn 特征类型 \(\ell=0,1,2,\ldots\)
Schur 引理 交织映射的刚性约束 等变层参数约束 \(T = \lambda I\)\(T = 0\)
CG 系数 irrep 张量积分解的系数 e3nn 张量积层 \(D^{\ell_1}\otimes D^{\ell_2}\)
InEKF 保持对称性的 EKF VIO 状态估计 Group-affine 系统
Certifiable 可验证全局最优 SE-Sync, TEASER++ SDP 对偶性

累积项目:本章新增模块 ⭐

项目方向:手写几何验证库

本章新增:等变性验证工具

import numpy as np

def verify_SO3_equivariance(f, x, n_tests=100):
    """验证函数 f 是否对 SO(3) 作用等变"""
    errors = []
    for _ in range(n_tests):
        # 随机旋转
        R = Rotation.random().as_matrix()
        # 检查 f(Rx) ≈ R f(x)
        lhs = f(R @ x)  # 先变换再预测
        rhs = R @ f(x)  # 先预测再变换
        errors.append(np.linalg.norm(lhs - rhs))
    max_err = max(errors)
    print(f"等变性最大误差: {max_err:.2e}")
    return max_err < 1e-10  # 精确等变

# 示例:叉乘是 SO(3)-等变的
def cross_product(x, y=np.array([1,0,0])):
    return np.cross(x, y)

# 叉乘对第一个参数是等变的
# f(Rx) = Rx × y ≠ R(x × y) -- 不对!
# 实际上需要 f(Rx, Ry) = R f(x,y) -- 两个输入都要变换

延伸阅读 ⭐

资源 难度 核心价值
Bronstein et al. "Geometric Deep Learning" (2021) ⭐⭐⭐ 等变 DL 的统一框架综述
Hall "Lie Groups, Lie Algebras, and Representations" Ch.1-6 ⭐⭐⭐ 表示论数学基础
Barrau & Bonnabel "Invariant Kalman Filtering" (2018) ⭐⭐⭐⭐ InEKF 综述
Rosen et al. "SE-Sync" (IJRR 2019) ⭐⭐⭐⭐ 可认证 SLAM
e3nn 官方教程 (e3nn.org) ⭐⭐⭐ 代码层面理解等变网络
"SE(3)-Equivariant Robot Learning: A Tutorial Survey" (Mar 2025) ⭐⭐⭐ 最新综合综述
Weiler & Cesa "General E(2)-Equivariant Steerable CNNs" (NeurIPS 2019) ⭐⭐⭐⭐ ESCNN 理论基础
Thomas et al. "Tensor Field Networks" (2018) ⭐⭐⭐⭐ 等变网络的先驱工作

🔧 故障排查手册 ⭐

症状 可能原因 排查步骤 相关节
e3nn 网络输出对旋转不等变 irrep 类型设错或张量积路径遗漏 1.用随机旋转验证 \(f(Rx) \stackrel{?}{=} Rf(x)\) 2.检查 Irreps 声明 3.确认所有路径都是合法 CG 路径 §6.4
InEKF 性能不优于 EKF 系统不满足 group-affine 条件 1.验证状态-观测模型的对称性 2.检查误差是否真的自治 3.对比 NEES §6.3
Certifiable 方法报"not tight" 噪声过大或离群值 1.检查残差分布 2.加鲁棒核 3.增大 Staircase p §6.5
等变 RL 不收敛 动作空间的等变性未正确实现 1.验证策略输出的等变性 2.检查 reward 是否不变 3.用简化环境调试 §6.20
球谐展开截断导致精度下降 \(\ell_{\max}\) 太小 1.增大 \(\ell_{\max}\) 2.检查目标函数的角频率内容 3.用重建误差量化 §6.2
等变网络训练不稳定 特征标准化破坏等变性 1.不要用 BatchNorm 2.改用 EquivNorm 或实例归一化 3.检查非线性是否保持等变 §6.4
旋转平均给出局部极小 初始化太远或噪声过大 1.用 chordal relaxation 初始化 2.检查图连通性 3.尝试 Shonan Staircase §6.5

练习:等变理论与几何前沿 ⭐⭐

基础练习(档位3)

  1. 证明 SE(3) 在 \(\mathbb{R}^3\) 上的作用是传递的(任何两点间存在刚体变换)。识别一个点的稳定子群。⭐⭐
  2. 给定 SO(3) 的 \(\ell=1\) 表示(标准 3D 旋转),验证 Schur 引理:任何与所有旋转矩阵对易的 \(3\times3\) 矩阵必为标量乘以恒等。⭐⭐
  3. 计算 \(D^1 \otimes D^1\) 的 CG 分解,验证 \(3 \otimes 3 = 1 \oplus 3 \oplus 5\)。识别 \(\ell=0\) 分量(点积)、\(\ell=1\) 分量(叉积)和 \(\ell=2\) 分量(无迹对称张量)。⭐⭐⭐
  4. 解释为什么数据增广不能严格保证等变性——即使用无穷多旋转增广,网络仍然只是"近似等变"。⭐⭐

进阶练习(档位4)

  1. 对一个简单的 2D 点云分类问题,分别用数据增广训练普通网络和用 e3nn 构建等变网络。对比在测试集旋转角度超出训练分布时的泛化性能差异。⭐⭐⭐
  2. 推导 InEKF 右不变误差 \(\eta_R = \hat X X^{-1}\) 的动力学方程。说明为什么在 group-affine 系统下 \(\dot\eta_R = A_0\eta_R + O(\eta_R^2)\)\(A_0\) 不依赖 \(\hat X\)。⭐⭐⭐⭐
  3. 阅读 SE-Sync 论文的 Theorem 3。用自己的语言解释:(a) SDP 松弛什么时候是 tight 的?(b) tight 与测量噪声水平的关系是什么?(c) 如何在代码中验证 tightness?⭐⭐⭐⭐

跨章综合题

  1. 结合专题2(Retraction)和本专题(Certifiable SLAM),设计一个完整的 rotation averaging 优化管线:
  2. Step 1:用 chordal relaxation 提供初始旋转
  3. Step 2:在 SO(3)^n 上用 Riemannian trust-region + QR retraction 优化
  4. Step 3:验证 SDP 松弛的 tightness(最小特征值 >= 0?)
  5. Step 4:如果 not tight,提升到 SO(p)^n 重新优化

对每一步,标注用到了本系列哪些专题的哪些具体公式。⭐⭐⭐⭐

  1. 结合专题5(李群不确定性)和本专题(InEKF),分析 InEKF 相比 ESKF 的协方差估计差异:
  2. 构造一个简单的 SO(3) 航向估计问题(陀螺积分 + GPS 方位观测)
  3. 用 Monte Carlo 作为基准
  4. 比较 ESKF 和 InEKF 的 NEES
  5. 讨论在什么初始误差水平下 InEKF 开始显现优势 ⭐⭐⭐⭐

附加内容:等变扩散模型的数学基础 ⭐⭐⭐⭐

SO(3) 上的扩散过程 ⭐⭐⭐⭐

扩散模型(Denoising Diffusion)的核心是在数据空间上定义正向噪声过程和反向去噪过程。

\(\mathbb{R}^n\) 上,正向过程是 Ornstein-Uhlenbeck 过程:

\[ dx_t = -\frac{1}{2}\beta(t)x_t\,dt + \sqrt{\beta(t)}\,dW_t \]

在 SO(3) 上,对应的是 李群上的布朗运动

\[ R_t = R_{t-dt}\operatorname{Exp}(\sqrt{\beta(t)\,dt}\cdot\epsilon), \qquad \epsilon \sim N(0, I_3) \]

\(t \to \infty\)\(R_t\) 的分布趋向 Haar 测度(SO(3) 上的均匀分布)——类似欧氏空间中趋向标准高斯。

IGSO(3) 核 ⭐⭐⭐⭐

SO(3) 上的热核(扩散核)可以用 Peter-Weyl 定理展开:

\[ p_t(R) = \sum_{\ell=0}^{\infty} (2\ell+1)\,e^{-\ell(\ell+1)t}\,\chi^\ell(R) \]

其中 \(\chi^\ell(R) = \operatorname{tr}(D^\ell(R))\)\(\ell\)-阶特征函数。

这就是 Isotropic Gaussian on SO(3)(IGSO(3))——它是 SO(3) 版本的"高斯分布",参数 \(t\) 控制扩散程度。

与 Concentrated Gaussian 的关系:当 \(t\) 很小时,IGSO(3) 在 \(\operatorname{Log}\) 坐标下近似为切空间中的各向同性高斯——这正是专题5 的 Concentrated Gaussian。IGSO(3) 是精确形式,Concentrated Gaussian 是短时近似。

在机器人学中的应用 ⭐⭐⭐⭐

等变扩散策略(Equivariant Diffusion Policy, CoRL 2024)将扩散模型应用于机器人操作:

  1. 输入:SE(3) 任务描述(目标物位姿)
  2. 正向过程:对动作轨迹加 IGSO(3) + 欧氏噪声
  3. 反向过程:用等变网络(e3nn)预测去噪方向
  4. 输出:SE(3) 动作序列

等变性保证:如果任务描述整体旋转,输出动作相应旋转。不需要数据增广就能泛化到任意朝向的物体。


§6.22 ESCNN 库深入与工程实践 ⭐⭐⭐

6.22.1 ESCNN 与 e3nn 的定位差异 ⭐⭐⭐

等变神经网络的两大开源库——e3nn 和 ESCNN——分别代表两种实现哲学。理解它们的差异对选择合适的工程工具至关重要。

维度 e3nn ESCNN (escnn)
核心抽象 球谐基 + irrep 张量积 steerable kernel + fiber bundle
操作对象 点云上的逐点特征 网格/体素上的特征场
支持群 \(E(3)\), \(O(3)\), \(SO(3)\) \(E(2)\), \(O(2)\), \(SO(2)\), \(E(3)\)(0.2+版本)
卷积类型 球谐卷积(连续域) steerable 离散卷积
典型输入 分子/蛋白质/点云 图像/体素/3D 栅格
非线性 标量门控 / 张量积 Fourier 非线性 / 标量门控
转换能力 可导出为纯 PyTorch,无额外依赖

ESCNN 的独特优势在于"可编译性":训练完成后可以将 steerable 卷积层转换为等效的标准 PyTorch 卷积,无需 ESCNN 运行时依赖。这对部署到嵌入式设备(如机器人板载 GPU)非常关键。e3nn 目前不支持这种转换。

跨领域类比:e3nn 与 ESCNN 的关系类似于 PyTorch Geometric(点数据处理)与标准 PyTorch Conv(网格数据处理)的关系——前者灵活但需要不规则数据结构,后者高效但限于规则网格。选择哪个取决于数据格式:点云用 e3nn,体素/图像用 ESCNN。

6.22.2 ESCNN 的纤维丛视角 ⭐⭐⭐⭐

ESCNN 的数学基础是 Maurice Weiler 和 Gabriele Cesa 的理论(NeurIPS 2019):等变卷积网络的一般理论可以用**纤维丛**统一描述。

在纤维丛框架中: - 基空间 \(M\):输入空间(如 \(\mathbb{R}^2\) 平面、\(\mathbb{R}^3\) 空间) - 纤维 \(F\):每一点上的特征空间(按 irrep 类型组织) - 结构群 \(G\):对称群(如 \(SO(2)\), \(SE(3)\)) - 截面:特征场(即整个网络中流动的数据)

等变卷积核不是普通的权重矩阵,而是满足**核约束方程**(kernel constraint)的张量:

\[ K(g^{-1} x) = \rho_{\text{out}}(g) \, K(x) \, \rho_{\text{in}}(g)^{-1} \quad \forall g \in G \]

这个约束极大限制了卷积核的自由参数——核被分解为径向部分(可学习标量函数)和角度部分(由群论固定),与 TFN 中球谐基分解的思想一致。

这个纤维丛视角与 §6.6 中介绍的机器人动力学纤维丛是同一数学结构的不同实例化——区别仅在于基空间和纤维的物理含义不同。Taco Cohen 的博士论文(UvA 2021)将此思想推到极致,用 gauge equivariant convolution 统一了几乎所有等变卷积网络架构。

6.22.3 实践指南:从 e2cnn 到 escnn ⭐⭐⭐

ESCNN 的前身是 e2cnn(2D 等变 CNN),2024 年以后统一为 escnn 包,支持 2D 和 3D。以下是在机器人感知中使用 ESCNN 的基本流程:

Step 1:确定对称群。对平面操作(如桌面推物)选 \(C_n\)(离散旋转)或 \(SO(2)\)(连续旋转);对 3D 点云分类选 \(SO(3)\)\(O(3)\)

Step 2:定义特征类型。每层的输入/输出是 FieldType(纤维类型),由 irrep 的组合描述。例如 FieldType(gspace, [trivial_repr]*3 + [regular_repr]*16) 表示 3 个标量通道 + 16 个正则表示通道。

Step 3:构建网络。用 R2Conv(2D)或 R3Conv(3D)替代标准 nn.Conv2d/3d。非线性使用 PointwiseNonLinearity(对标量分量)或 NormNonLinearity(基于范数的门控)。

Step 4:导出与部署。训练完成后调用 .export() 方法将 steerable 卷积转换为标准 PyTorch 卷积——推理速度与普通 CNN 相同,但保留了等变性带来的泛化优势。

💡 提示:ESCNN 的 export 功能是工程部署的关键优势

训练时使用 steerable 表示保证等变性;部署时转换为标准卷积消除额外计算开销。这种"训练时严格、部署时高效"的策略使 ESCNN 成为对延迟敏感的机器人感知任务(如实时抓取检测)的首选。


§6.23 2024-2025 等变理论前沿全景 ⭐⭐⭐⭐

6.23.1 等变世界模型(Equivariant World Model) ⭐⭐⭐⭐

2024-2025 年的一个重要趋势是将等变性引入**世界模型**(World Model)——预测环境动力学的生成模型。

传统世界模型(如 DreamerV3)在潜在空间中预测状态转移,但不保证物理一致性。等变世界模型的思想是:如果物理定律在坐标变换下不变,则预测模型也应如此。例如,一个机器人推物体的动力学预测不应因为选择不同的世界坐标系而改变。

Equivariant World Models (EWVM, NeurIPS 2024 workshop)\(SE(3)\)-equivariance 编码到 latent dynamics model 中。关键结果表明,等变世界模型在训练数据不覆盖的姿态范围内仍能准确预测——这是模型预测控制(MPC)可靠部署的前提。

这个方向连接了本系列的两条线索:等变网络(§6.4, §6.13)提供了结构保证,李群上的不确定性(专题5)提供了概率框架。等变世界模型的下一步是在预测空间中定义等变的 Concentrated Gaussian——让"均值预测在群上,不确定性在代数上"的原则从滤波领域推广到学习领域。

6.23.2 可认证感知的新进展 ⭐⭐⭐⭐

MIT SPARK 实验室(Carlone 组)在 2024-2025 年持续推进 Certifiable Perception 的边界。值得关注的进展包括:

Certifiable 3D Object Pose Estimation:将 SDP 松弛从位姿图扩展到单目 6DoF 物体姿态估计。与 PnP/ICP 等迭代方法不同,认证方法可以判断"当前解是否全局最优"——对安全关键场景(如手术机器人、自动驾驶)至关重要。

Graduated Non-Convexity 的推广:GNC(Yang 等, ICRA 2020 最佳论文)利用 Black-Rangarajan 对偶性从凸代理逐步过渡到鲁棒代价。2024-2025 年的工作将 GNC 与 equivariant formulation 结合,使鲁棒估计本身也尊重对称性——这避免了在外点剔除过程中引入不一致的对称性破缺。

大规模可扩展性:SE-Sync 的原始实现在约 5000 个节点后开始变慢(SDP 松弛的规模效应)。Riemannian Staircase 策略(从低秩因子 \(p\) 开始逐步增加)在实践中通常只需 \(p = d+1\) 就能认证,使计算时间接近普通 Gauss-Newton。2025 年的 Incremental SE-Sync 将增量更新引入认证框架,使在线可认证 SLAM 成为可能。

6.23.3 等变 Foundation Model ⭐⭐⭐⭐

Foundation Model(基础模型)在 NLP(GPT)和视觉(DINO/SAM)中取得了巨大成功,但在机器人操作中直接应用面临的挑战是:这些模型不保证空间等变性。2024-2025 年的一个新兴方向是**为机器人构建原生等变的 Foundation Model**。

代表工作包括:

工作 核心思想 等变性
RoboPack (2024) 多感知等变动力学预测 \(SE(2)\) + 尺度
Octo (2024, UC Berkeley) 通用操作 Foundation Model 隐式(数据增广)
Equivariant Octo (2025, 概念) 在 Octo 架构中加入显式等变层 \(SE(3)\)

这个方向的核心挑战是如何在 Transformer 架构中嵌入连续群等变性。标准 Transformer 的 self-attention 对置换群等变,但对 \(SE(3)\) 不等变。SE(3)-Transformer(Fuchs et al., NeurIPS 2020)解决了这个问题,但计算成本高。如何在 Foundation Model 的规模(\(>10^9\) 参数)上高效实现 \(SE(3)\)-equivariance,是未来 2-3 年的关键开放问题。

本质洞察:等变 Foundation Model 的意义不仅仅是"让大模型更准"。它的深层价值是让模型的泛化从"数据驱动的统计泛化"上升为"结构保证的物理泛化"——旋转后的物体不需要重新学习,因为等变性在架构层面保证了一致性。这是从"大数据"到"好归纳偏置"的范式转变,对数据稀缺的机器人领域尤为关键。

6.23.4 等变性在触觉感知中的应用 ⭐⭐⭐⭐

触觉传感(Tactile Sensing)是 2024-2025 年机器人感知的另一个热点。触觉信号天然具有局部 \(SE(2)\) 对称性——传感器贴在指尖上,信号随接触面的滑移和旋转而变换。等变网络可以直接编码这种对称性:

  • 输入:\(16\times16\) 触觉图像(如 GelSight/DIGIT)
  • 对称群:\(SO(2)\)(接触面旋转)或 \(C_8\)(离散 8 折旋转)
  • 输出:滑移方向(\(\ell=1\) 等变)、法向力(\(\ell=0\) 不变)

ESCNN 特别适合这个场景:触觉图像是 2D 网格,\(SO(2)\)-steerable CNN 在此上的应用既自然又高效。初步结果(MIT CSAIL, 2024)显示,等变触觉网络在仅 50 个训练样本下就达到了普通 CNN 需要 500 个样本的精度——10 倍样本效率提升,与视觉领域的等变优势一致。