等变与不变网络——从群作用到机器人策略¶
定位:对称性是物理世界的基本结构。把一个茶杯绕竖直轴转 30 度,它还是同一个茶杯——抓取它的最佳姿态也只是跟着转了 30 度;把桌面上三个零件重新编号,机器人对这堆零件的"理解"不应该改变。本专题把**群表示论**这门十九世纪末的经典数学,与**现代深度学习架构**焊接在一起,回答三个层层递进的核心问题:(1) 如何让一个神经网络**精确地**(而不是近似地)满足某种对称性?(2) 这样做在统计学习理论上换来了什么好处?(3) 在机器人的点云、位姿、操作任务里,这套机器怎么落地?
本专题在数学体系中的位置:本专题处于"对称性主线"的终点。这条主线起于抽象代数中的群论(群、子群、同态、群表示),经过微分几何与李群专题对 SO(3)/SE(3)、指数映射、伴随表示的处理,最终在这里与深度学习汇合。读这一篇时,你会反复用到李群专题里的工具——尤其是
SO(3)的指数映射、伴随表示Ad、以及"在弯曲空间上保存状态、在切空间里表示扰动"这个核心思想。与机器人的关系:◉ 全方向核心。SE(3) 等变抓取生成、等变强化学习(样本效率提升 10–100 倍)、类别级操纵的神经描述子场、可证全局最优的位姿估计 SE-Sync——它们的数学根都在本专题。一句话概括:等变网络把"对称性"从一句口号变成了一条可以写进网络结构、可以被严格证明、可以省下大量训练数据的硬约束。
前置自测¶
📋 答不出 ≥ 2 题 → 先回顾"抽象代数群论"与"微分几何与李群专题"再来。 本专题对群论和李群是硬依赖,缺了它们,后面所有"为什么这样构造"都会变成"背公式"。
| 编号 | 问题 | 答不出 → 回顾 |
|---|---|---|
| 1 | 什么是群(group)?群的四条公理(封闭、结合、单位元、逆元)分别是什么?给一个有限群和一个连续群的例子。 | 抽象代数群论 |
| 2 | 什么是群在集合上的**作用**(group action)?"作用"和"群运算本身"有什么区别? | 抽象代数群论 |
| 3 | \(SO(3)\) 是什么群?它的元素满足哪两个约束?它的维数(自由度)是多少? | 微分几何与李群专题 |
| 4 | 什么是 \(SO(3)\) 的指数映射 \(\exp:\mathfrak{so}(3)\to SO(3)\)?它把什么映到什么? | 微分几何与李群专题 |
| 5 | 伴随表示 \(\mathrm{Ad}_g\) 在坐标变换里起什么作用?为什么"换一个参考系看同一个角速度"要用它? | 微分几何与李群专题 |
| 6 | 神经网络中一个"线性层" \(y = Wx\) 有多少可学习参数(输入 \(n\) 维、输出 \(m\) 维)? | 深度学习基础 |
| 7 | 什么叫"数据增广"(data augmentation)?训练时对图像做随机旋转属于数据增广吗? | 深度学习基础 |
自测题的用法:第 1、2 题是群论的最低门槛,第 3–5 题是李群的最低门槛。如果第 6、7 题答不出,说明深度学习基础也需要补——本专题不会从头讲神经网络是什么,但会假设你知道"线性层、非线性激活、损失函数、训练"这几个词的含义。
本章目标¶
学完本章后,你应该能够:
- 精确区分"不变"(invariant)与"等变"(equivariant),并能判断一个给定的机器人任务(分类 / 分割 / 姿态估计 / 抓取)需要哪一种,能说出搞混它们会导致什么具体后果。
- 用群作用的语言写出一个网络的对称性约束,理解 \(f(g\cdot x)=g\cdot f(x)\) 这个等式里每个符号的含义,以及"群作用在输入上"和"群作用在输出上"为什么可以是两个不同的表示。
- 陈述并理解 Schur 引理,并用它推出"等变线性层的参数数量由群的表示论唯一决定"——理解这不是设计选择,而是数学约束。
- 解释群卷积为什么天然等变,理解"传统 CNN 的平移等变"只是"群卷积"在平移群上的一个特例,并能把这个思想推广到旋转群。
- 掌握 SE(3) 等变点云网络的两条技术路线:TFN / SE(3)-Transformer 的"球谐滤波器 + Clebsch–Gordan 张量积"路线,以及 EGNN 的"只用标量和向量"的简化路线,并能说清两者的精度—速度权衡。
- 从统计学习理论解释等变性为什么提升样本效率:理解"有效维度从 \(\dim V\) 降到 \(\dim V - \dim G\)"这个核心机制,以及它与数据增广的本质区别。
- 把等变性映射到机器人系统:能解释等变抓取、等变强化学习、神经描述子场的数学原理,并理解它们与微分几何李群专题里 SE(3) 工具的对应关系。
本章知识导航¶
本章围绕一条主线展开:对称性如何从一个数学概念,逐步变成神经网络的结构约束,再变成机器人系统的样本效率红利。
整个知识结构分为四个层次,由浅入深、环环相扣:
| 层次 | 小节 | 核心问题 | 关键概念 |
|---|---|---|---|
| 第一层:语言 | §1–§2 | 用什么语言描述对称性? | 群作用、不变、等变、群表示、不可约表示 |
| 第二层:约束 | §3–§4 | 对称性给网络结构加了什么约束? | Schur 引理、等变线性层结构定理、群卷积 |
| 第三层:架构 | §5–§7 | 怎样在三维空间里构造等变网络? | 球谐函数、Clebsch–Gordan 系数、TFN、SE(3)-Transformer、EGNN |
| 第四层:收益与落地 | §8–§9 | 等变性换来什么?怎么用在机器人上? | 样本效率、有效维度约简、等变 RL、等变抓取、神经描述子场 |
知识点之间的依赖关系(文本流程图):
群作用(§1) ──→ 不变/等变(§1) ──→ 群表示/不可约表示(§2)
│
▼
Schur 引理(§3)
│
┌───────────────────┼───────────────────┐
▼ ▼ ▼
等变线性层结构(§3) 群卷积(§4) 球谐+CG 系数(§5)
│ │ │
└─────────┬─────────┴─────────┬─────────┘
▼ ▼
SE(3)等变架构(§6) EGNN 简化路线(§7)
│ │
└─────────┬─────────┘
▼
为何提升样本效率(§8)
│
▼
机器人应用(§9)
推荐阅读路径:
- 完整路径(推荐第一次学习):§1 → §2 → §3 → §4 → §5 → §6 → §7 → §8 → §9,严格按顺序。前四节是地基,跳过会导致后面看不懂"为什么这样构造"。
- 工程优先路径(已有群论李群基础):§1(快速过)→ §3(Schur)→ §7(EGNN,最易实现)→ §9(机器人)→ 回头补 §5、§6。
- 理论优先路径(关心可证性与逼近论):§1 → §2 → §3 → §4 → §8 → §5 → §6,把样本效率的理论提到架构细节之前。
注意:导航路线图只展示**结构**,不展开具体内容。每个小节的实质内容在对应章节展开。
前置知识桥接¶
本章站在两块基石上,下面把它们的核心要点重新激活一遍,让你不必翻回去也能跟上。
基石一:抽象代数中的群论。 回顾:一个**群**(group)\((G,\cdot)\) 是一个集合 \(G\) 配上一个二元运算 \(\cdot\),满足封闭性、结合律、有单位元 \(e\)、每个元素有逆元。在那里我们用群刻画"对称操作的集合"——比如正方形的 8 个对称(4 个旋转 + 4 个翻转)构成二面体群 \(D_4\)。在本章,我们要用群刻画"作用在数据上的变换的集合",并追问:神经网络在这些变换下应该怎样响应?
基石二:微分几何与李群专题中的 SO(3)/SE(3)。 回顾:\(SO(3)\) 是所有满足 \(R^\top R=I\) 且 \(\det R=1\) 的 \(3\times 3\) 矩阵构成的群,几何上就是"所有三维旋转",有 3 个自由度。它既是群又是光滑流形,所以叫**李群**(Lie group)。它的**李代数** \(\mathfrak{so}(3)\) 是单位元处的切空间,即所有 \(3\times 3\) 反对称矩阵;指数映射 \(\exp:\mathfrak{so}(3)\to SO(3)\) 把"角速度向量"映为"旋转矩阵";伴随表示 \(\mathrm{Ad}_g\) 描述"换参考系看同一个旋量"。在那里我们用这些工具解决位姿复合、IMU 预积分、位姿图优化;在本章,我们要让神经网络对 \(SO(3)\) / \(SE(3)\) 的作用保持等变——也就是说,把这些几何工具从"优化里的状态表示"延伸到"网络里的特征变换律"。
为什么这两块基石缺一不可? 群论给我们"对称性"的抽象语言(群、作用、表示);李群给我们机器人最关心的那个具体对称群(三维旋转和位姿)。本章的全部工作,就是把抽象语言落到这个具体的群上,再落到神经网络的每一层里。
如果跳过本章会怎样¶
这里给两个具体场景,说明不学这章的知识,你在机器人与 AI 交叉方向会遇到什么困难。
场景一:你要为一个桌面抓取任务训练策略网络。 你用普通的卷积网络或 MLP,把点云喂进去,输出抓取位姿。训练时,演示数据里物体大多正着放。部署时,物体被随机旋转了 90 度——网络性能断崖式下跌。你的"补救办法"是收集 10 倍的数据,把物体摆成各种朝向再训练。如果你学过本章,你会知道:这个任务有 \(SE(3)\) 对称性,用一个等变网络,一次演示就能自动泛化到所有姿态,根本不需要那 10 倍数据。不学本章,你会把时间花在收集和标注本可省去的数据上。
场景二:你在读一篇用 e3nn 库构造 SE(3) 等变网络的论文。 论文里满是 Irreps、TensorProduct、spherical_harmonics、Clebsch-Gordan 这些词,每一层的参数数量都是"自动算出来的",你不知道为什么是这些数字,也不知道为什么不能随便改网络结构。如果你学过本章,你会知道:这些参数数量是 Schur 引理和不可约表示分解**唯一决定**的,e3nn 只是把这套数学自动化了。不学本章,你只能把这些库当黑盒,改一个超参数都心里没底。
预计阅读时间¶
| 阅读方式 | 时间 | 适合谁 |
|---|---|---|
| 精读(含手推证明与练习) | 16–20 小时 | 需要深入理解、打算做等变网络研究或开发的读者 |
| 速读(跳过证明细节,看定理陈述与直觉) | 6–8 小时 | 已有群论李群基础、想建立全局图景的读者 |
| 速查(只看表格、本质洞察块、速查卡) | 40–60 分钟 | 遇到具体问题(如"EGNN 和 TFN 怎么选")回来查的读者 |
§1 群作用与不变/等变:对称性的精确语言 ⭐⭐¶
动机¶
先看一个具体到不能再具体的问题。你的机械臂面前有一个杯子,相机拍到了它的点云。你训练了一个网络 \(f\),输入点云,输出一个抓取位姿(一个 \(SE(3)\) 元素,告诉夹爪去哪里、怎么转)。现在我把这个杯子绕竖直轴转 90 度,相机重新拍,点云变了,记作 \(g\cdot x\)(其中 \(g\) 是那个 90 度旋转,\(x\) 是原点云)。
问题来了:新点云的抓取位姿 \(f(g\cdot x)\),和老点云的抓取位姿 \(f(x)\),应该是什么关系?
凭物理直觉,答案显而易见:杯子转了 90 度,最佳抓取也应该跟着转 90 度。用公式写出来就是
这个等式看起来平平无奇,却是整个本章的出发点。它说的是:对输入施加一个变换,等价于对输出施加同一个变换。 满足这个性质的映射,我们称为**等变的**(equivariant)。
但不是所有任务都要这个性质。换个问题:你的网络 \(f\) 现在只判断"这是不是一个杯子"(输出一个分类标签)。杯子转了 90 度,它还是杯子——分类标签**不该变**:
这种"输入变、输出不变"的性质,叫**不变的**(invariant)。
一句话先记住,后面会反复用:不变是"输出岿然不动",等变是"输出跟着一起动"。 分类要不变,姿态估计要等变。把这两个搞混,是这个领域最常见、后果最严重的错误(详见本节陷阱)。
如果不这样做会怎样(反面)¶
假设我们完全不管这个对称性,就用一个普通的全连接网络或卷积网络来学抓取。会发生什么?
第一,网络要"重新学习"每一个朝向。 网络不知道"转 90 度的杯子还是杯子"这件事。对它而言,正着放的杯子点云和转了 90 度的杯子点云,是两团毫不相干的数字。于是它必须从数据里**分别**学会怎么抓正着的、怎么抓转 30 度的、怎么抓转 90 度的……每一个朝向都要见过足够多的样本。这就是为什么"普通网络 + 数据增广"成了标配——你被迫把同一个物体旋转成几百个朝向喂给网络,让它"见多识广"。
第二,泛化没有保证。 即便你做了数据增广,网络也只是在"它见过的朝向附近"插值。遇到一个训练时恰好没覆盖到的朝向,它可能给出离谱的结果。数据增广是"软约束"——它鼓励网络近似等变,但不保证。
第三,参数被浪费在学习冗余上。 网络的一大半容量,被用来记住"旋转不改变物体本质"这件本该免费的常识。这些参数本可以用来学习真正困难的东西(比如不同材质、不同夹爪策略),却被对称性的冗余消耗掉了。
反面教材最锋利的一句话是:
不施加对称性约束,等于让网络从数据里"重新发明"已知的物理定律。 旋转不变性、平移不变性,这些是几何的公理,不是需要从数据里学的统计规律。让网络学它们,既慢又不可靠。
历史¶
对称性进入机器学习并非一蹴而就,它有一条清晰的演进脉络。
最早把"权值共享"和对称性联系起来的是卷积神经网络(CNN)。1980 年代 Fukushima 的 Neocognitron、1989 年 LeCun 的 LeNet,核心机制是卷积——同一个滤波器在图像的每个位置滑动。事后看,这正是**平移等变性**的体现:图像平移,特征图也平移。但当时人们更多把它当作"减少参数、提取局部特征"的工程技巧,没有上升到群论的高度。
真正把对称性提升为系统性理论的,是 2016 年 Cohen 与 Welling 的群等变卷积网络(Group Equivariant CNN, G-CNN)。他们指出:平移只是一个群,旋转、翻转也是群,CNN 的卷积可以推广到**任意群上的卷积**,从而得到对旋转、翻转等也等变的网络。这篇工作(ICML 2016)是现代等变深度学习的起点。
此后,理论沿两条线展开。一条是"可操纵 CNN"(Steerable CNN, Cohen & Welling 2017;General E(2)-Equivariant Steerable CNN, Weiler & Cesa 2019),把特征场按群表示分类,用 Schur 引理约束卷积核。另一条是把对称性扩展到三维和点云:Tensor Field Network(Thomas et al. 2018)、SE(3)-Transformer(Fuchs et al. 2020)、EGNN(Satorras et al. 2021)。2021 年 Bronstein 等人用"几何深度学习"(Geometric Deep Learning)的旗帜,把网格、群、图、流形、纤维丛上的等变网络统一成一个框架。
而对称性的数学根基,要追溯到更早。十九世纪末的 Frobenius、Schur、以及 Peter–Weyl,建立了**群表示论**——研究"群如何作用在向量空间上"的理论。等变网络用的所有核心工具(Schur 引理、不可约表示、Clebsch–Gordan 系数),都是这套百年数学的直接应用。
本质洞察:等变深度学习不是"发明了新数学",而是"发现了旧数学的新用途"。Schur 在 1905 年证明他的引理时,绝不会想到一百多年后它会决定一个抓取神经网络每一层有几个参数。深度学习给古典群表示论找到了一个意想不到的、却极其自然的应用场景——这本身就说明对称性是连接纯数学与工程实践的一条深刻主线。
理论:群作用的严格定义¶
现在我们把前面的直觉变成严格的数学。先定义"群怎么作用在数据上"。
定义(群作用 / group action)。 设 \(G\) 是一个群,\(X\) 是一个集合。一个(左)**群作用**是一个映射
满足两条公理:
- 单位元作用平凡:\(e\cdot x = x\) 对所有 \(x\in X\) 成立(\(e\) 是群的单位元);
- 作用与群运算相容:\(g\cdot(h\cdot x) = (gh)\cdot x\) 对所有 \(g,h\in G\)、\(x\in X\) 成立。
让我们逐条解释这两条公理为什么必须这样定,以及它们的含义。
第一条公理说"什么都不变换(用单位元)等于什么都不做"。这是常识性的要求——如果连"不变换"都会改变数据,这个作用就没有意义了。比如 \(G=SO(3)\),单位元是恒等旋转 \(I\),\(I\cdot x = x\) 就是"不转,点云不变"。
第二条公理是真正的核心,它说"先变换 \(h\) 再变换 \(g\),等于一次性变换 \(gh\)"。这把群的乘法结构和"变换的复合"对应了起来。比如先把杯子转 30 度(\(h\)),再转 60 度(\(g\)),效果等于一次转 90 度(\(gh\),注意 \(SO(3)\) 不交换,顺序重要)。正是这条公理,让"群"这个抽象结构真正地"作用"到了数据上——群的乘法不再是空中楼阁,而是变换的复合。
初学者常见疑问:群作用和群运算(群乘法)有什么区别?答:群乘法 \(m:G\times G\to G\) 是"两个群元素相乘还是群元素";群作用 \(\cdot:G\times X\to X\) 是"群元素作用在**另一个集合** \(X\) 的元素上,结果还在 \(X\) 里"。\(X\) 通常不是群本身——比如 \(X\) 是所有点云的集合,\(G=SO(3)\)。第二条公理 \(g\cdot(h\cdot x)=(gh)\cdot x\) 恰好是连接两者的桥梁:左边用到群作用,右边的 \(gh\) 用到群乘法。
具体例子:\(SO(3)\) 在三维点云上的作用。 设 \(X = \{\)所有有限点集 \(\{p_1,\dots,p_n\}\subset\mathbb{R}^3\}\),\(G=SO(3)\)。旋转 \(R\in SO(3)\) 对点云的作用定义为逐点旋转:
验证两条公理:(1) \(I\cdot\{p_i\}=\{Ip_i\}=\{p_i\}\),单位元平凡;(2) \(R_1\cdot(R_2\cdot\{p_i\}) = R_1\cdot\{R_2 p_i\} = \{R_1 R_2 p_i\} = (R_1 R_2)\cdot\{p_i\}\),相容。所以这确实是一个合法的群作用。
理论:不变与等变的严格定义¶
有了群作用,就能精确定义两个核心概念了。设 \(G\) 同时作用在输入空间 \(X\) 和输出空间 \(Y\) 上(注意:可以是两个不同的作用,这一点至关重要,下面会反复强调)。考虑一个映射 \(f:X\to Y\)。
定义(不变 / invariant)。 称 \(f\) 是 \(G\)-不变的,若
即:无论怎么变换输入,输出都不动。
定义(等变 / equivariant)。 称 \(f\) 是 \(G\)-等变的,若
即:变换输入,输出按同一个群元素 \(g\) 协同变换。
这里的关键、也是最容易被忽视的细节是:等式右边 \(g\cdot f(x)\) 里的"\(\cdot\)",是 \(G\) 在输出空间 \(Y\) 上的作用,可能和左边 \(G\) 在输入空间 \(X\) 上的作用完全不同。 我们用两个例子把这件事讲透。
例子一:点云分割(等变,输入输出作用"相同")。 \(f\) 输入点云 \(\{p_i\}\),输出每个点的标签 \(\{\ell_i\}\)(比如哪些点属于杯把、哪些属于杯身)。旋转点云,每个点的标签应该"跟着点走"。这里 \(X\) 是点云,\(Y\) 是带标签的点云,\(G=SO(3)\) 在两者上的作用都是"逐点旋转"(标签贴在点上,点转标签也转)。这是等变,且输入输出作用形式相同。
例子二:姿态估计(等变,输入输出作用"不同")。 \(f\) 输入点云 \(\{p_i\}\in X\),输出一个旋转矩阵 \(R_{\text{out}}\in SO(3) = Y\)(物体的朝向)。旋转输入点云用的是"逐点左乘 \(R\)",但输出空间 \(Y=SO(3)\) 上,\(R\) 的作用是"群乘法 \(R_{\text{out}}\mapsto R\,R_{\text{out}}\)"。两个作用作用在完全不同的对象上(一个作用在 \(\mathbb{R}^3\) 中的点上,一个作用在旋转矩阵上),但都叫"\(R\) 的作用"。等变条件 \(f(R\cdot x) = R\cdot f(x)\) 在这里读作:旋转点云,估计出的姿态左乘 \(R\)。这正是物理上期望的。
本质洞察:不变是等变的特例——当 \(G\) 在输出空间 \(Y\) 上的作用是**平凡作用**(\(g\cdot y = y\) 对所有 \(g\))时,等变条件 \(f(g\cdot x)=g\cdot f(x)=f(x)\) 就退化为不变条件。所以严格地说,我们只需要"等变"一个概念,"不变"是它在输出端取平凡表示的特殊情况。这个视角统一了两者,也解释了为什么后面讲群表示时,"平凡表示"(trivial representation,记作 \(D^0\))会扮演如此特殊的角色——它就是"不变"的数学化身。
多视角理解:三个角度看等变¶
为了把等变这个概念真正吃透,我们从三个互补的角度各看一遍。
角度一(交换图视角)。 等变性等价于一个**交换图**(commutative diagram)成立:
"先沿左边竖下来(变换输入)再沿底边过去(应用 \(f\))",等于"先沿顶边过去(应用 \(f\))再沿右边竖下来(变换输出)"。等变就是这个方块"可交换"。这个视角的好处是几何直观,且容易推广——把 \(X,Y\) 换成任意范畴里的对象,等变就是"\(f\) 与群作用对易"。
角度二(对称性视角)。 等变性说的是 \(f\) "尊重"了 \(G\) 的对称性。\(f\) 不会因为我们换了一个"等价"的输入(差一个群作用)就给出本质不同的输出——它给出的输出也只差同一个群作用。换句话说,\(f\) 把"输入空间的对称性"忠实地搬运到了"输出空间的对称性"。
角度三(物理量视角)。 物理学里早就有这个思想:物理定律在坐标变换下"协变"。一个矢量场(比如速度场)在你旋转坐标系时,它的分量按旋转矩阵变换——这就是等变。一个标量场(比如温度场)在旋转坐标系时分量不变——这就是不变。等变网络的特征,本质上就是在给数据的每个部分指派一个"物理量类型"(标量、矢量、张量),并要求网络处理它们时遵守对应的变换律。这个视角会在 §5 讲球谐和不可约表示时变得极其精确。
类比(标注边界):等变性**像**物理学中的"协变性"(covariance)——两者都要求"换一个观察角度,描述也相应改变,但描述的对象不变"。相似之处仅在于:都是"变换输入 ⟹ 输出按对应方式变换"。但不同之处在于:物理协变性通常针对连续的时空变换群(Lorentz 群、Galilei 群),且强调"定律形式不变";机器学习的等变性针对的群更广(包括置换群 \(S_n\) 这种离散群),且关心的是"具体映射 \(f\) 的输入输出关系"而非"方程形式"。不要把这个类比延伸到:"协变=逆变"那一套张量指标升降的细节——那是黎曼几何里区分切向量与余切向量的工具,与等变网络的核心关系不大,强行对应会徒增混乱。
一个反直觉的事实:不变会"丢信息",等变不会¶
这是一个值得专门停下来想的点。既然不变更简单(输出不动),为什么不干脆所有网络都做成不变的?
考虑姿态估计任务:我要从点云估计物体朝向。如果我用一个**不变**网络,那么不管物体怎么转,网络输出都一样——可输出本该是"物体的朝向",它怎么可能对所有朝向都输出同一个值?这显然错了。姿态信息恰恰编码在"输入怎么变、输出怎么变"的关系里,不变网络把这个关系抹掉了,于是丢失了姿态信息。
这给我们一条选择准则:
如果任务的答案"应该跟着输入一起转",用等变;如果任务的答案"和朝向无关",用不变。 姿态估计、点云分割、抓取生成、力场预测——答案跟着转,要等变。物体分类、属性识别、是否碰撞的布尔判断——答案与朝向无关,要不变。
这条准则会在 §9 落地到具体机器人任务时反复验证。
阶段小结:到这里我们完成了"用群作用的语言精确描述对称性",并严格定义了不变(输出不动)与等变(输出协变)。接下来要做的是:搞清楚"群作用在向量空间上"的具体形式——这就是**群表示**(§2),它是把"抽象的群作用"落到"具体的矩阵乘法"的桥梁,也是后面所有架构的语言。
⚠️ 常见陷阱¶
💡 概念误区:把"不变"和"等变"当成同义词混用 - 新手想法:"网络对旋转鲁棒"——但"鲁棒"到底指输出不变还是输出协变?含糊不清。 - 现象 / 后果:把姿态估计网络设计成旋转不变的,结果网络对所有朝向输出同一个姿态,任务从根上就错了;或者把分类网络设计成等变的,输出一个"会转的分类标签",毫无意义。 - 根本原因:不变 \(f(gx)=f(x)\) 和等变 \(f(gx)=g\,f(x)\) 是两个不同的等式,差在右边那个 \(g\)。它们对应两类不同的任务。 - 正确做法:拿到任务先问一句"答案应该跟着输入转吗?" 跟着转 → 等变(分割、姿态、抓取、分割掩码、向量场);不跟着转 → 不变(分类、回归一个标量、布尔判断)。
💡 概念误区:以为"等变要求输入和输出用同一个群作用"
- 新手想法:"等变就是 \(f(gx)=g f(x)\),左右两个 \(g\) 是一回事。"
- 现象 / 后果:在姿态估计里,输入是点云(\(g\) 逐点旋转)、输出是旋转矩阵(\(g\) 群乘法),如果误以为输出也该"逐点旋转",就会写错损失函数或网络结构。
- 根本原因:等式两边的"\(\cdot\)"是 \(G\) 在**不同空间**上的作用(不同的群表示),形式可以完全不同,只要求是"同一个群元素 \(g\)"。
- 正确做法:明确写出 \(G\) 在输入空间和输出空间上各自的作用(表示),再验证等变。e3nn 这类库要求你显式声明输入输出的 Irreps 类型,正是为了逼你想清楚两边的作用。
🧠 思维陷阱:认为"做了数据增广就等于实现了等变" - 新手想法:"我训练时把图像随机旋转了,网络就学会旋转不变/等变了,和等变网络一个效果。" - 现象 / 后果:数据增广训练出的网络只是"近似"等变,在没见过的朝向上可能失效;而且消耗大量训练算力去学本可免费的对称性。 - 根本原因:数据增广是**软约束**(通过损失函数施压,鼓励但不保证),等变网络是**硬约束**(对称性写进结构,对任意 \(g\) 精确成立,不依赖训练)。两者机制根本不同。 - 正确做法:理解二者的取舍——等变网络保证精确、省数据,但实现复杂、限制架构;数据增广灵活通用,但费数据、不保证。§8 会从样本复杂度角度严格对比。本节先记住:它们不是一回事。
练习¶
[1.1 · 判断题(在草稿纸上写出理由)] 对下列每个机器人任务,判断它应该用不变网络还是等变网络,并写出对应的等式(\(f(gx)=f(x)\) 还是 \(f(gx)=g\,f(x)\)),其中 \(G=SO(3)\) 作用在输入点云上:(a) 判断点云属于"杯子"还是"碗";(b) 估计物体的 6-DoF 位姿;(c) 预测点云中每个点的法向量;(d) 预测物体的质量(一个标量)。对 (c),特别说明输出空间上 \(G\) 的作用是什么。
[1.2 · 群作用的验证] 设 \(G=SE(3)\)(三维刚体变换群),\(X\) 是点云集合。定义作用 \(T\cdot\{p_i\}=\{Rp_i+t\}\),其中 \(T=(R,t)\)。验证这是一个合法的左群作用(检查两条公理)。提示:你需要先回顾 \(SE(3)\) 的群乘法 \((R_1,t_1)(R_2,t_2)=(R_1R_2,\ R_1 t_2+t_1)\),再验证 \(T_1\cdot(T_2\cdot x)=(T_1 T_2)\cdot x\)。这道题逼你把"作用相容公理"和"半直积群乘法"对应起来。
[1.3 · 开放思考] 我们说"不变是等变在输出端取平凡作用的特例"。反过来想:能不能把"等变"也看成某种"不变"?提示:考虑联合空间 \(X\times Y\) 上的对角作用 \(g\cdot(x,y)=(g\cdot x, g\cdot y)\),并考虑"\(f\) 的图(graph)\(\{(x,f(x))\}\) 在这个对角作用下不变"意味着什么。这道题帮你看到不变与等变在更高视角下的统一。
§2 群表示论基础:把抽象群变成具体矩阵 ⭐⭐⭐¶
动机¶
§1 里我们说"\(G\) 作用在输入空间和输出空间上",但故意含糊其辞——这个"作用"到底长什么样?神经网络处理的是向量(特征向量、坐标),群作用在向量上,最自然的形式就是**矩阵乘法**。比如旋转 \(R\in SO(3)\) 作用在一个三维坐标向量 \(v\in\mathbb{R}^3\) 上,就是 \(v\mapsto Rv\)——\(R\) 本身就是个矩阵。
但事情没这么简单。一个旋转 \(R\),除了作用在坐标向量上,还能作用在别的东西上:
- 作用在标量(如温度)上:\(s\mapsto s\)(不变,相当于乘 \(1\times 1\) 的单位矩阵);
- 作用在坐标向量上:\(v\mapsto Rv\)(乘 \(3\times 3\) 旋转矩阵);
- 作用在 \(3\times 3\) 应力张量 \(T\) 上:\(T\mapsto RTR^\top\)(这等价于某个 \(9\times 9\) 矩阵作用在 \(T\) 拉直成的 9 维向量上,但里面有冗余);
- 作用在球谐函数系数上:按一个 \((2\ell+1)\times(2\ell+1)\) 的矩阵变换(后面会讲,这就是 Wigner D-矩阵)。
同一个群元素 \(R\),作用在不同类型的量上,对应**不同的矩阵**。"群表示"这个概念,就是用来精确刻画"群元素如何变成作用在某个向量空间上的矩阵"的。
为什么我们非要这套理论不可?因为:等变网络的每一层特征,都要被指派一个"表示类型",网络才知道这一层特征在群作用下该怎么变。 不懂表示论,就无法理解 e3nn 的 Irreps 类型系统,也无法理解为什么等变线性层的参数数量是固定的。表示论是等变网络的"类型系统"。
如果不这样做会怎样(反面)¶
假设我们不引入表示的概念,只是笼统地说"\(G\) 作用在特征上"。我们立刻会卡在两个地方。
第一,无法描述"特征的类型"。 网络中间层有一堆特征,有的应该像标量(旋转不变),有的应该像向量(旋转协变),有的应该像高阶张量。如果不给它们分类,网络处理时就无法对不同类型施加不同的变换律,等变性无从谈起。
第二,无法约束网络结构。 我们想让"等变线性层"自动满足等变——但什么样的线性层是等变的?这个问题的答案完全依赖于输入输出特征的表示类型。没有表示论的语言,这个约束写不出来,更别说像 e3nn 那样自动生成合法的层了。
本质洞察:表示论之于等变网络,正如类型系统之于编程语言。一个没有类型系统的语言里,你可以把字符串和整数随便相加,编译器拦不住你;一个没有表示论的等变网络里,你可以把标量特征和向量特征随便线性组合,但结果会破坏等变性,而你浑然不觉。表示类型就是等变特征的"数据类型",Schur 引理就是"类型检查规则"——它告诉你哪些"运算"(线性映射)是合法的(保持等变的),哪些是非法的。
历史¶
群表示论诞生于十九世纪末。1896 年,Frobenius 在研究有限群的"群行列式"时,引入了群特征标(character)的概念,这被视为表示论的开端。他的学生 Schur 在 1905 年左右证明了以他命名的引理(Schur's Lemma),这条看似简单的引理后来成为整个理论的基石。
二十世纪初,理论从有限群推广到连续群(拓扑群、李群)。1927 年,Peter 与 Weyl 证明了紧致群上的 Peter–Weyl 定理,给出了"任意紧致群的所有不可约表示的矩阵元构成 \(L^2\) 空间的完备正交基"——这是傅里叶分析在一般紧致群上的推广,也是球面 CNN 的理论基础。Weyl、Wigner 等人随后把表示论系统地应用到量子力学,Wigner D-矩阵、Clebsch–Gordan 系数这些名字就是从那时的角动量耦合理论来的。
本质洞察(补充历史的意义):等变网络里那些拗口的名字——Wigner D、Clebsch–Gordan、Peter–Weyl——全部来自量子力学的角动量理论。这不是巧合:量子力学中"两个角动量耦合成总角动量"的数学(\(\ell_1\otimes\ell_2\) 分解成 \(\bigoplus_J D^J\)),和等变网络里"两组旋转特征组合成新特征"的数学,是**字面意义上同一套公式**。物理学家花了几十年打磨的工具,深度学习直接拿来就用。理解这一点,你就不会被这些名字吓住——它们只是"旋转下怎么变换"的精确记账法。
理论:群表示的定义¶
定义(群表示 / group representation)。 设 \(G\) 是群,\(V\) 是一个(有限维)向量空间(这里取复向量空间或实向量空间)。\(G\) 在 \(V\) 上的一个**表示**是一个群同态
其中 \(GL(V)\) 是 \(V\) 上所有可逆线性变换构成的群(选定基后即可逆矩阵群)。"群同态"意味着 \(\rho\) 保持群乘法:
我们把 \(V\) 称为这个表示的**表示空间**,\(\dim V\) 称为表示的**维数**。
让我们解释为什么"\(\rho(gh)=\rho(g)\rho(h)\)"这条同态性质是表示的灵魂。回忆 §1 群作用的相容公理 \(g\cdot(h\cdot x)=(gh)\cdot x\)。当作用是线性的(即 \(g\cdot x = \rho(g)x\))时,这条公理就变成
所以:表示 = 线性的群作用。 表示论研究的,就是 §1 里那些群作用中"作用在向量空间上、且是线性的"那一类。机器学习里我们几乎只关心这一类,因为神经网络的层基本都是线性运算(加上逐点非线性)。
例子(\(SO(3)\) 的几个表示)。
- 平凡表示(trivial representation)\(\rho_0\):\(V=\mathbb{R}\)(一维),\(\rho_0(R)=1\) 对所有 \(R\)。这描述"标量"——旋转下不变。记作 \(D^0\)。
- 标准表示(standard representation)\(\rho_1\):\(V=\mathbb{R}^3\),\(\rho_1(R)=R\)(就是旋转矩阵本身)。这描述"向量"——旋转下按 \(R\) 变换。记作 \(D^1\)。
- 更高阶表示 \(D^\ell\)(\(\ell=0,1,2,\dots\)):\(V=\mathbb{R}^{2\ell+1}\),\(\rho(R)=D^\ell(R)\) 是一个 \((2\ell+1)\times(2\ell+1)\) 的矩阵(Wigner D-矩阵)。\(\ell=0\) 是标量,\(\ell=1\) 是向量,\(\ell=2\) 描述无迹对称张量(如应力的偏量部分),等等。
初学者疑问:为什么维数是 \(2\ell+1\)(1, 3, 5, 7, ...)这种奇数序列,而不是 \(1,2,3,4,\dots\)?答:这来自 \(SO(3)\) 的结构。\(2\ell+1\) 恰好是"角动量量子数为 \(\ell\) 时磁量子数 \(m=-\ell,\dots,\ell\) 的取值个数"。从纯数学看,这是 \(SO(3)\)(更准确说其双覆盖 \(SU(2)\))的不可约表示的维数公式,由李代数 \(\mathfrak{so}(3)\) 的表示论推出。你暂时只需记住:\(SO(3)\) 的"基本特征类型"按 \(\ell=0,1,2,\dots\) 编号,维数 \(2\ell+1\)。
理论:可约与不可约表示¶
表示可以"嵌套"。如果一个表示空间 \(V\) 有一个**不变子空间** \(W\)(即 \(\rho(g)W\subseteq W\) 对所有 \(g\)),那么 \(\rho\) 限制在 \(W\) 上又是一个表示,比原来的小。这引出最关键的分类:
定义(不可约表示 / irreducible representation, irrep)。 一个表示 \((\rho,V)\) 称为**不可约的**,若 \(V\) 只有平凡的不变子空间(\(\{0\}\) 和 \(V\) 本身),即无法再"分解成更小的表示"。
定义(可约 / 完全可约)。 若 \(V\) 有非平凡不变子空间,则称可约。对紧致群(包括 \(SO(3)\)、\(SE(3)\) 的旋转部分、有限群),任意表示都是**完全可约**的——可以分解成不可约表示的直和:
这件事极其重要,值得用一个具体例子和一个直觉讲清楚。
具体例子(\(3\times 3\) 矩阵在 \(SO(3)\) 下的分解)。 考虑所有 \(3\times 3\) 实矩阵构成的 9 维空间,\(SO(3)\) 通过 \(M\mapsto RMR^\top\) 作用。这个 9 维表示是可约的,它分解为:
验证维数:\(1+3+5=9\) ✓。这告诉我们:任意一个会随旋转协变的 \(3\times 3\) 矩阵特征,本质上是"一个标量 + 一个向量 + 一个 5 维量"的叠加。每一块在旋转下**独立**变换,互不混合。
直觉。 不可约表示是群作用下的"原子"——不能再被旋转拆开。任何复杂的协变量,都是这些原子的拼装。这就像质数是整数乘法的原子、素粒子是物质的原子。等变网络的特征,永远被组织成不可约表示的直和形式,e3nn 里写成 "1x0e + 1x1o + 1x2e" 这样的字符串,意思就是"1 个 \(\ell=0\) + 1 个 \(\ell=1\) + 1 个 \(\ell=2\)"。
系统性分类(E 工具):\(SO(3)\) 的不可约表示有一个完整的、穷举式的分类——它们恰好是 \(\{D^\ell\}_{\ell=0,1,2,\dots}\),每个 \(\ell\) 对应唯一一个(同构意义下)不可约表示,维数 \(2\ell+1\)。这不是"举几个例子",而是"全部都在这儿了"。这种完全分类是 \(SO(3)\) 作为紧致李群的特殊福利——它让我们能够把任意旋转协变特征**精确地、无遗漏地**按 \(\ell\) 归类。对比之下,置换群 \(S_n\) 的不可约表示由 \(n\) 的整数分拆(partition)分类,更复杂;非紧致群(如 Lorentz 群)的表示论又是另一套,且有限维表示不再幺正。
理论:Schur 引理——等变网络的核心约束¶
现在到了本节、乃至全章最重要的定理。它表面上是个抽象的代数命题,实质上直接决定了等变线性层有几个参数。
定理(Schur 引理 / Schur's Lemma)。 设 \(\rho_1:G\to GL(V_1)\)、\(\rho_2:G\to GL(V_2)\) 都是不可约表示。设线性映射 \(T:V_1\to V_2\) 与两个表示**交换**(即 \(T\) 是等变线性映射):
那么:
- 要么 \(T=0\)(零映射),要么 \(T\) 是同构(特别地,此时 \(V_1\cong V_2\),两个 irrep 同型);
- 若 \(V_1=V_2\)(同一个 irrep)且标量域是复数 \(\mathbb{C}\),则 \(T=\lambda I\) 对某个标量 \(\lambda\in\mathbb{C}\)。
证明(写出每一步,这是必证清单中的定理)。
先证第 1 部分。考虑 \(T\) 的核 \(\ker T = \{v\in V_1: Tv=0\}\) 和像 \(\mathrm{Im}\,T = \{Tv: v\in V_1\}\)。
第一步,\(\ker T\) 是 \(\rho_1\) 的不变子空间。设 \(v\in\ker T\),即 \(Tv=0\)。我们要证 \(\rho_1(g)v\) 也在核里。计算:
第一个等号用了 \(T\rho_1(g)=\rho_2(g)T\)(这正是等变条件!),第二个等号用了 \(v\in\ker T\)。所以 \(\rho_1(g)v\in\ker T\),即 \(\ker T\) 在 \(\rho_1\) 作用下不变。
第二步,由 \(\rho_1\) 不可约,\(\ker T\) 只能是 \(\{0\}\) 或 \(V_1\)。若 \(\ker T=V_1\),则 \(T=0\)(零映射,结论的第一种情况)。若 \(\ker T=\{0\}\),则 \(T\) 是单射。
第三步,\(\mathrm{Im}\,T\) 是 \(\rho_2\) 的不变子空间。设 \(w=Tv\in\mathrm{Im}\,T\)。则
所以 \(\mathrm{Im}\,T\) 在 \(\rho_2\) 作用下不变。
第四步,由 \(\rho_2\) 不可约,\(\mathrm{Im}\,T\) 只能是 \(\{0\}\) 或 \(V_2\)。在 \(\ker T=\{0\}\)(\(T\) 单射)的前提下 \(T\neq 0\),故 \(\mathrm{Im}\,T\neq\{0\}\),于是 \(\mathrm{Im}\,T=V_2\),即 \(T\) 满射。单射 + 满射 = 同构。第 1 部分证毕。
再证第 2 部分(复数、同一 irrep)。此时 \(T:V_1\to V_1\) 是复向量空间上的线性算子。复数域上任意线性算子至少有一个特征值 \(\lambda\)(代数闭域的好处!)。考虑 \(T-\lambda I\)。它仍与 \(\rho_1\) 交换:\((T-\lambda I)\rho_1(g)=T\rho_1(g)-\lambda\rho_1(g)=\rho_1(g)T-\lambda\rho_1(g)=\rho_1(g)(T-\lambda I)\)。但 \(T-\lambda I\) 有非零核(特征向量),由第 1 部分它必须是零映射,即 \(T=\lambda I\)。证毕。
本质洞察:Schur 引理的实质是"不可约表示之间,等变线性映射要么没有(零),要么唯一到只差一个标量"。它把"等变线性映射的空间有多大"这个问题,从"无穷多种可能"压缩到"几个标量参数"。这就是为什么等变网络的参数数量**不是设计选择,而是数学约束**——一旦你确定了每层特征的 irrep 类型,参数数量就被 Schur 引理钉死了。
理论:等变线性层结构定理¶
Schur 引理处理的是"不可约到不可约"。实际网络的特征是好几个 irrep 的直和。把 Schur 引理推广到一般情形,就得到刻画整个等变线性层的结构定理。
定理(等变线性映射的结构)。 设 \(G\) 是紧致群,\((\rho_1,V_1)\)、\((\rho_2,V_2)\) 是两个有限维表示。把它们按不可约类型分解,写成
其中 \(V^\sigma\) 跑遍所有不可约类型(如 \(D^0,D^1,D^2,\dots\)),\(M_i^\sigma\) 是"多重度空间"(multiplicity space,记录第 \(i\) 个表示里类型 \(\sigma\) 出现了几次,\(\dim M_i^\sigma\) 就是重数)。则等变线性映射的空间为
含义(这是 e3nn 的数学基础)。 这个定理说三件事:
- 不同类型之间不能混:\(D^1\) 的特征只能映到 \(D^1\),不能映到 \(D^0\) 或 \(D^2\)(Schur 引理第 1 部分:不同型 irrep 之间等变映射为零)。
- 同类型之间可自由混:若输入有 \(n_1\) 个 \(D^1\)、输出有 \(n_2\) 个 \(D^1\),则它们之间的等变映射由一个 \(n_2\times n_1\) 的实矩阵参数化(在多重度空间 \(M^\sigma\) 上)——这就是可学习参数。
- 参数总数 = \(\sum_\sigma (\dim M_1^\sigma)(\dim M_2^\sigma)\),即"逐类型把重数相乘再求和"。
具体计算(呼应现有内容并展开)。 设输入 \(V_1 = D^0\oplus D^1\)(1 个标量 + 1 个向量,共 \(1+3=4\) 维),输出 \(V_2=D^0\oplus D^1\)(同样 4 维)。等变线性层的参数数:
而**不加任何约束**的普通线性层 \(\mathbb{R}^4\to\mathbb{R}^4\) 有 \(4\times 4=16\) 个参数。等变性把参数压缩了 8 倍。
再看一个更复杂的:\(V=2D^0\oplus 3D^1\oplus D^2\)(2 个标量、3 个向量、1 个 5 维量,总维数 \(2\cdot 1+3\cdot 3+1\cdot 5=16\))。等变层参数数:
而无约束线性层有 \(16^2=256\) 个参数。压缩约 18 倍。
本质洞察:这 14 个参数(vs 256 个)不是"碰巧少",而是"对称性允许的全部自由度"。多出来的 \(256-14=242\) 个自由度,在普通网络里要么浪费(学冗余),要么有害(破坏等变)。等变线性层把网络的容量精确地约束到"对称性相容"的子空间里。这正是 §8 要讲的样本效率红利的微观来源——参数少了,需要的数据自然少了。
理论—工程桥接(D 工具):上面这套"逐类型相乘求和"的参数计数,正是 e3nn 库
Linear层和FullyConnectedTensorProduct在初始化时自动执行的。当你写下输入Irreps("2x0e+3x1o+1x2e")和输出Irreps,库内部就按结构定理算出可学习参数的张量形状,并保证生成的层精确等变。理解了这个定理,你看 e3nn 的报错(比如"irreps mismatch")就知道根源——你试图在不相容的 irrep 类型之间建立映射,被 Schur 引理拦下了。
理论:对称化算子——把任意层"投影"成等变层¶
结构定理告诉我们等变层长什么样,但还有一个互补的、极其实用的视角:给定一个**任意**的(不等变的)线性层 \(W\),有没有办法把它"修正"成最接近的等变层?答案是有,工具叫**对称化算子**(symmetrizer),它对有限群尤其简洁。
定义(对称化算子)。 设 \(G\) 是有限群,输入表示 \(\rho_X\)、输出表示 \(\rho_Y\)。对任意线性映射 \(W\),定义
即"把 \(W\) 在群的所有元素下'夹一遍'再平均"。
关键性质:\(\mathrm{Sym}_G(W)\) 一定是等变的。 验证:对任意 \(h\in G\),
中间换元 \(g' = gh^{-1}\)(群求和重排不变,这是有限群的"平均技巧",对应连续群的 Haar 积分)。这正是等变条件 \(\rho_Y(h)T = T\rho_X(h)\)。所以无论 \(W\) 多么"乱",\(\mathrm{Sym}_G(W)\) 都精确等变。
它在干什么(直觉)。 对称化算子是把"全空间的线性映射"**正交投影**到"等变子空间 \(\mathrm{Hom}_G\)"上——它把 \(W\) 中破坏等变的成分平均掉,只留下等变的部分。这给了一种构造等变层的"偷懒"办法:随便初始化一个 \(W\),套上 \(\mathrm{Sym}_G\),就得到等变层;训练时对 \(W\) 求梯度,再投影。
本质洞察:对称化算子和结构定理是看等变层的两个角度——结构定理"自下而上"地用 irrep 重数**构造**等变层的参数,对称化算子"自上而下"地把任意层**投影**到等变子空间。前者精确高效(只存等变自由度),后者直观通用(任意层都能改造)。MDP 同态网络(van der Pol et al. NeurIPS 2020)正是用对称化算子,把任意策略/值网络投影成 \(G\)-等变的,从而把"对称马尔可夫决策过程"和"等变网络"在理论上焊接起来——这是 §9 等变强化学习的另一条实现路径。
理论—工程桥接(D 工具):对称化算子对**有限群**实用(求和有限项)。对连续群(如 \(SO(3)\))求和变成 Haar 积分,无法直接算——这时就必须回到结构定理 + 球谐/CG 的构造路线(§5/§6)。所以:离散对称(\(C_4\)、翻转)→ 对称化算子最方便;连续对称(\(SO(3)\)、\(SE(3)\))→ 结构定理 + e3nn。两条路殊途同归,都给出等变层,只是适用的群不同。
理论:Peter–Weyl 定理(骨架级,了解角色即可)¶
最后简述一个更深的定理,它是球面 CNN 和"群上傅里叶分析"的基础。
定理(Peter–Weyl)。 设 \(G\) 是紧致群。则群上的平方可积函数空间 \(L^2(G)\) 按所有不可约表示分解:
且各不可约表示的矩阵元 \(\{\sqrt{\dim V_\rho}\,\rho_{ij}(g)\}\) 构成 \(L^2(G)\) 的标准正交基。
它在干什么(直觉)。 经典傅里叶级数把圆周 \(S^1=SO(2)\) 上的函数展开成 \(\{e^{in\theta}\}\) 的叠加——而 \(e^{in\theta}\) 恰是 \(SO(2)\) 的一维不可约表示。Peter–Weyl 把这件事推广到任意紧致群:任何紧致群上的函数,都能展开成"不可约表示矩阵元"的叠加。对 \(SO(3)\),这给出了球面调和分析;球面 CNN(Cohen et al. ICLR 2018 最佳论文)就把 \(S^2\) 上的卷积定义为 \(SO(3)\) 上的广义傅里叶变换的乘积,Peter–Weyl 保证了这套构造的完备性。
类比(标注边界):Peter–Weyl 定理**像**傅里叶变换的"群论版"——都把函数分解成一组"基本振荡模式"的叠加。相似之处仅在于:都是"用一组由对称性挑选出的正交基展开函数"。不同之处在于:经典傅里叶用的是平移群 \(\mathbb{R}\) 或 \(SO(2)\) 的一维表示(复指数),而 Peter–Weyl 用的是一般紧致群的、可能高维的不可约表示(矩阵元)。不要把类比延伸到:"频率"这个概念——在非交换群(如 \(SO(3)\))上,不可约表示是高维矩阵,没有简单的"一个频率数字"与之对应,\(\ell\) 标号更像"角动量"而非"频率"。
阶段小结:到这里我们建立了等变网络的"类型系统"——群表示(线性群作用)、不可约表示(协变量的原子)、Schur 引理(等变映射要么零要么唯一标量)、等变线性层结构定理(参数数由 irrep 重数决定)。接下来 §3 我们换一个角度,问:除了"约束线性层",还有没有一种"天生就等变"的运算?答案是**群卷积**——它把 CNN 的成功秘诀提炼成一条普适原理。
⚠️ 常见陷阱¶
💡 概念误区:把"表示"和"群作用"当成两回事 - 新手想法:"群作用是 §1 讲的,群表示是 §2 讲的,是两个独立概念。" - 现象 / 后果:在推导等变约束时,不知道该用作用公理还是同态性质,把两套符号混着写。 - 根本原因:表示就是**线性的**群作用——\(\rho(g)x = g\cdot x\),同态性质 \(\rho(gh)=\rho(g)\rho(h)\) 正是作用相容公理在线性情形的改写。它们是同一件事的两种说法。 - 正确做法:记住"表示 = 线性群作用"。当群作用在向量空间上且作用是线性的,就用矩阵 \(\rho(g)\) 表示它,自动满足同态性质。
💡 概念误区:以为 \(SO(3)\) 的不可约表示维数是 \(1,2,3,\dots\)
- 新手想法:"表示维数应该是连续的整数序列吧。"
- 现象 / 后果:在数 irrep 通道、算参数时维数全错(比如以为 \(D^2\) 是 2 维而非 5 维)。
- 根本原因:\(SO(3)\) 不可约表示维数是 \(2\ell+1=1,3,5,7,\dots\)(只有奇数),这由其李代数结构决定,不是任意整数。\(2\) 维实表示在 \(SO(3)\) 上不可约表示中不存在。
- 正确做法:牢记 \(\dim D^\ell = 2\ell+1\)。标量 \(D^0\) 是 1 维,向量 \(D^1\) 是 3 维,\(D^2\) 是 5 维。e3nn 里 "1x2e" 占 5 个分量。
🧠 思维陷阱:跳过表示论直接学 e3nn 库
- 新手想法:"我会调 e3nn 的 API 就行,Schur 引理这些数学不学也能用。"
- 现象 / 后果:看不懂为什么某些层连不上(irreps mismatch),不知道参数数量为什么固定,无法自己设计新的等变层,改超参全靠试。
- 根本原因:e3nn 的整个类型系统(Irreps、TensorProduct、自动参数计数)就是 Schur 引理和结构定理的代码化。不理解底层数学,库就是个不可解释的黑盒。
- 正确做法:先理解"irrep 是协变量的原子""Schur 引理禁止不同型之间的等变映射""参数数 = 逐类型重数相乘求和"这三件事,再去用 e3nn,每个 API 都会变得透明。
🧠 思维陷阱:以为"完全可约"对所有群都成立 - 新手想法:"任何表示都能分解成不可约表示的直和。" - 现象 / 后果:在处理非紧致群(如平移群的某些表示、Lorentz 群)时套用直和分解,得到错误结论。 - 根本原因:完全可约性(Maschke 定理 / 紧致群的 Haar 平均)依赖群是有限群或紧致群。非紧致群可能有"不可分解但可约"的表示(有不变子空间但无不变补空间)。 - 正确做法:本章涉及的群(\(SO(3)\)、\(SE(3)\) 的旋转部分、有限对称群)都是紧致或局部紧致幺模的,完全可约成立,可放心用直和分解。但要知道这是有前提的——§9 末尾的开放问题会提到非紧致群(如量纲群)的麻烦。
练习¶
[2.1 · Schur 引理应用] 用 Schur 引理证明:\(SO(3)\) 的 \(D^1\)(3 维)到 \(D^2\)(5 维)的等变线性映射必为零映射。提示:\(D^1\) 和 \(D^2\) 是不同型的不可约表示,直接套 Schur 引理第 1 部分。再思考:这是否意味着"向量永远无法影响 5 维张量特征"?(提示:线性映射不行,但张量积可以——这是 §5 的伏笔。)
[2.2 · 参数计数(在草稿纸上算)] 设等变线性层输入 \(V_1 = 3D^0\oplus 2D^1\),输出 \(V_2 = D^0\oplus 4D^1\oplus 2D^2\)。(a) 写出输入、输出的总维数;(b) 算出等变线性层的可学习参数数量;(c) 算出无约束线性层的参数数量;(d) 求压缩比。注意 \(D^2\) 只出现在输出,输入没有——这对参数数有什么影响?
[2.3 · 开放思考] Schur 引理第 2 部分要求标量域是复数 \(\mathbb{C}\)(用到"任意复矩阵有特征值")。如果是实数域 \(\mathbb{R}\),结论 \(T=\lambda I\) 还成立吗?给一个 \(SO(2)\) 上的反例。提示:考虑 \(SO(2)\) 在 \(\mathbb{R}^2\) 上的标准(旋转)表示,找一个与所有旋转交换、但不是 \(\lambda I\) 形式的实矩阵——旋转本身 \(R(\theta)\) 就和所有旋转交换。这道题揭示了"实表示"和"复表示"的微妙差别,也解释了为什么 e3nn 区分实/复 irrep。
§3 群卷积:为什么卷积天生等变 ⭐⭐⭐¶
动机¶
§2 给了我们一种构造等变层的办法:约束线性层使其满足 Schur 引理。但这是"自上而下"的——先要求等变,再解约束。有没有一种运算,天生就等变,不需要事后约束?
答案就在我们最熟悉的 CNN 里。卷积神经网络处理图像时,同一个滤波器在每个像素位置滑动。一个众所周知的事实是:把图像平移,特征图也跟着平移。这正是平移等变性。CNN 之所以在视觉上如此成功,一个深层原因就是它内置了平移等变这个正确的归纳偏置。
于是自然要问:平移等变是卷积的偶然,还是某种普遍原理的特例? 如果是后者,我们能不能把卷积推广到旋转群、置换群,得到对旋转、置换也天生等变的"群卷积"?
这正是 2016 年 Cohen 与 Welling 群等变 CNN 的核心洞察,也是几何深度学习的奠基性思想之一。本节我们就把"卷积为什么等变"这件事从平移群讲到一般群。
如果不这样做会怎样(反面)¶
设想我们坚持用普通全连接层处理图像,不用卷积。会怎样?
第一,参数爆炸。 一张 \(224\times 224\) 的图,拉成向量是约 5 万维,全连接到同样大小的下一层需要约 25 亿个参数。卷积通过"权值共享"(同一滤波器在所有位置复用)把这个数字降到几百。
第二,丢掉平移等变。 全连接层没有"位置不变的滤波器"概念——它对左上角和右下角的处理是完全独立的两套权重。物体从左上移到右下,全连接层要重新学;卷积层则免费泛化。
第三,更深的代价——丢掉对称性带来的样本效率。 这正是 §8 的主题。这里先点明:卷积的成功,本质上是"把平移等变写进了结构"的成功。把这个成功复制到旋转、置换等其他对称性,就是群卷积要做的事。
本质洞察:CNN 不是"碰巧好用"的工程技巧,而是"平移等变这一正确归纳偏置"的具体实现。一旦认清这一点,整个等变网络的研究纲领就清晰了:找到任务的对称群 \(G\),构造 \(G\)-卷积,就得到对 \(G\) 天生等变的网络。 CNN 是 \(G=\)平移群的特例,G-CNN 是 \(G=\)平移+旋转群,球面 CNN 是 \(G=SO(3)\),DeepSets/GNN 是 \(G=\)置换群 \(S_n\)。它们是同一个原理的不同实例。
历史¶
卷积与平移不变的渊源很深。信号处理里的卷积 \((f*k)(t)=\int f(\tau)k(t-\tau)\,d\tau\) 本就是"平移不变线性系统"的完整刻画(LTI 系统理论,1940 年代成熟)。CNN(LeCun 1989)把这套搬到图像上,但当时是经验性的。
把卷积上升为"群上的运算"是关键一跃。数学上,群上的卷积 \((f*k)(g)=\int_G f(h)k(h^{-1}g)\,dh\)(对群的 Haar 测度积分)早在抽象调和分析里就有定义。Cohen 与 Welling(ICML 2016)首次把它用于深度学习,构造了对"平移 + 90 度旋转 + 翻转"组成的离散群(如 \(p4m\) 群)等变的卷积网络。
理论的顶点是 Kondor 与 Trivedi(ICML 2018)的定理:一个前馈神经网络对紧致群 \(G\) 等变,当且仅当它的每一层都是群卷积(更准确地说,是齐次空间上的广义卷积)。 这把"卷积"从一种"好用的层"提升为"等变的充要条件"——等变性与卷积,在数学上是一回事。
理论:从平移卷积说起¶
先把熟悉的平移卷积写清楚,再推广。设信号 \(f:\mathbb{R}^d\to\mathbb{R}\)(比如一维音频 \(d=1\),二维图像 \(d=2\)),滤波器 \(k:\mathbb{R}^d\to\mathbb{R}\)。卷积(严格说是相关,深度学习里习惯叫卷积)定义为
平移群 \(\mathbb{R}^d\) 作用在信号上:\((L_t f)(x) = f(x-t)\)(把信号平移 \(t\))。我们来验证卷积的平移等变性,每一步写清楚。
要证:\((L_t f)\star k = L_t(f\star k)\),即"先平移再卷积 = 先卷积再平移"。
左边,把 \(L_t f\) 代入卷积定义:
做变量替换 \(u = y-t\)(则 \(y=u+t\),\(dy=du\)):
右边:
两边相等。所以卷积平移等变。
这个证明的关键在哪一步? 在变量替换 \(u=y-t\)。整个等变性,归根结底来自"积分对平移不变"——平移积分变量,积分值不变(Lebesgue 测度的平移不变性)。这是平移群的 Haar 测度(不变测度)。记住这个机制:等变性 = 滤波器在群上滑动 + 群上有不变测度做积分。
初学者疑问:为什么是 \(k(y-x)\) 而不是 \(k(x-y)\) 或别的?答:\(y-x\) 表示"相对位置"——滤波器关心的是数据点 \(y\) 相对于当前中心 \(x\) 的偏移。卷积的本质是"在每个中心 \(x\),用同一个滤波器 \(k\) 衡量周围数据的加权和"。"同一个滤波器在每个位置复用"正是权值共享,也正是等变的来源。
理论:推广到一般群卷积¶
现在把上面的结构抽象出来。平移卷积里出现了三个要素:(1) 信号定义在群(\(\mathbb{R}^d\))上;(2) 滤波器衡量"相对量"(\(y-x\),群语言是 \(x^{-1}y\));(3) 对群的不变测度积分。把它们换成一般群 \(G\):
定义(群卷积 / group convolution)。 设 \(f,k:G\to\mathbb{R}\) 是定义在群 \(G\) 上的函数,\(G\) 有不变测度 \(dh\)(Haar 测度)。群卷积定义为
这里 \(g^{-1}h\) 是平移卷积里 \(y-x\) 的群版本("\(h\) 相对于 \(g\) 的位置",但用群乘法表达)。注意加法群里 \(g^{-1}h\) 就是 \(h-g\),与前面一致。
群 \(G\) 作用在信号上:\((L_{g_0}f)(g) = f(g_0^{-1}g)\)。验证等变性(步骤与平移情形完全平行):
换元 \(u=g_0^{-1}h\)(即 \(h=g_0 u\),由 Haar 测度左不变性 \(dh = du\)):
所以群卷积对 \(G\) 左平移等变。机制和平移卷积一模一样:滤波器在群上"滑动",靠 Haar 测度的不变性吸收掉群作用。
本质洞察:群卷积把"权值共享"从"在空间位置上共享"推广到"在群元素上共享"。CNN 里同一个 \(3\times 3\) 卷积核在每个像素位置复用,体现平移等变;G-CNN 里同一个核在每个"位置 + 朝向"复用,体现平移 + 旋转等变。权值共享的对象是谁,等变性就来自哪个群。 这是理解所有等变架构的一把钥匙:DeepSets 在"集合元素"上共享(\(S_n\) 等变),GNN 在"节点/边"上共享(图同构等变),TFN 在"\(SE(3)\) 位姿"上共享。
理论:G-CNN 的"提升"——一个具体的群卷积实例¶
为了让群卷积不停留在抽象积分,我们走一遍 G-CNN(Cohen & Welling 2016)最简单的情形:群 \(G=p4\),即"平移 + 90 度旋转"组成的群(旋转部分是 \(C_4=\{0°,90°,180°,270°\}\))。这是把 CNN 推广到旋转等变最直接的例子。
第一层:提升卷积(lifting convolution)。 输入是普通图像 \(f:\mathbb{Z}^2\to\mathbb{R}\)(定义在像素网格上)。我们取一个卷积核 \(k\),但不只把它在每个位置滑动——还把它**旋转**成 4 个朝向 \(\{k, R_{90}k, R_{180}k, R_{270}k\}\),每个朝向都在全图卷积一遍。于是输出不再是一张特征图,而是 4 张——每张对应一个朝向:
注意输出 \(f^{(1)}\) 现在定义在 \(\mathbb{Z}^2\times C_4\) 上——多了一个"朝向"轴。这就是 §3 多视角理解里说的"提升":把定义在 \(\mathbb{Z}^2\)(平移群)上的图像,提升到定义在 \(p4\)(平移 + 旋转群)上的特征。这也回答了 §3 陷阱里"为什么 G-CNN 第一层后特征多一维"。
后续层:群卷积。 从第二层起,特征已经定义在群 \(p4\) 上,就用标准的群卷积(§3 的 \((f\star k)(g)=\sum_h f(h)k(g^{-1}h)\),这里求和是对 \(p4\) 的有限元素)。核也定义在 \(p4\) 上,在"位置 + 朝向"的每个组合上复用。
等变性的直观验证。 现在把输入图像旋转 \(90°\)。提升卷积的 4 个朝向响应会怎样?原来对应 \(0°\) 朝向的响应,现在变成对应 \(90°\) 朝向的响应——4 张特征图发生了**循环移位**(沿朝向轴),同时空间上也旋转了。也就是说,输入旋转 \(90°\),输出在"空间 + 朝向轴"上同步旋转 \(90°\)——这正是 \(p4\) 等变。关键在于:因为我们**预先把核摆成了所有 4 个朝向**,输入转到哪个朝向,总有一个预备好的朝向通道去匹配它。没有哪个朝向是"特殊的",所以旋转不会让网络"措手不及"。
本质洞察:G-CNN 等变的秘密,是"把所有朝向都预先准备好"。普通 CNN 只有一个朝向的核,遇到旋转的输入就要靠数据增广临时学;G-CNN 把核复制成所有朝向,旋转输入时只是"换一个早已备好的通道响应",等变性是结构性的、免费的。这把 §1 反面教材里"网络要重新学每个朝向"的困境,用"预先铺满朝向"一举化解。代价是特征图数量乘以 \(|C_4|=4\)(朝向通道数)——这正是等变性的"存储税":用更多通道换取免学习的旋转等变。
类比(标注边界):G-CNN 的提升**像**给监控装上"东南西北"四个固定朝向的摄像头。相似之处仅在于:都是"预先在每个朝向布好探测器,目标转到哪个朝向都有对应探测器响应"。不同之处在于:G-CNN 的"朝向"是离散群 \(C_4\) 的 4 个元素,且响应之间有精确的群结构关系(旋转输入 = 朝向通道循环移位),不是 4 个独立摄像头各拍各的。不要把类比延伸到:"摄像头越多越好"——朝向通道数由群的阶 \(|C_4|=4\) 决定,不是随意加的;要更细的旋转分辨率得换更大的群(如 \(C_8\)),而连续旋转 \(SO(2)\) 则无法用有限通道精确表示,只能近似或转向 §5 的球谐方法。
理论:Kondor–Trivedi 定理(等变 ⟺ 卷积)¶
前面证明了"群卷积 ⟹ 等变"。一个深刻得多的结果是它的逆命题也成立。
定理(Kondor & Trivedi, ICML 2018,骨架级陈述)。 在紧致群 \(G\)(或齐次空间 \(G/H\))上,一个线性等变映射**当且仅当**它是群卷积(齐次空间上的广义卷积)。换言之,等变线性层和群卷积是同一类对象。
这个定理为什么重要? 它把"卷积"从"一种碰巧等变的好用运算",提升为"等变的本质形式"。它告诉我们:要构造等变线性层,**不必**漫无目的地解 Schur 约束——直接写群卷积就行,因为所有等变线性层都长这个样子。反过来,传统 CNN 的卷积"碰巧"平移等变这件事,在这个框架下变成了定理:平移等变的线性算子**必然**是卷积,没有别的可能。
理论—工程桥接(D 工具):这个定理在工程上意味着一种"设计自由"——你不必从零设计等变层,只要选定群 \(G\) 和它的齐次空间,套用群卷积的模板即可。球面 CNN 直接在 \(S^2=SO(3)/SO(2)\) 上做卷积;点云上的 SE(3) 等变网络(§6 的 TFN)本质上是 \(SE(3)\) 上的卷积,只不过为了可计算,把卷积核用球谐函数参数化。Schur 引理(§2)和群卷积(§3)是同一枚硬币的两面——前者从"线性映射的约束"角度,后者从"运算的形式"角度,刻画同一个等变线性层空间。
多视角理解:群卷积的两种解读¶
解读一(滤波器模板视角)。 群卷积是"把一个滤波器模板 \(k\) 在群的每个元素上摆放一遍,逐个与信号做内积"。在 CNN 里,"群元素"是平移量,"摆放"就是把卷积核移到每个像素;在 G-CNN 里,群元素是"平移 + 旋转","摆放"还包括把核旋转到每个朝向再做内积。输出 \((f\star k)(g)\) 就是"信号在群元素 \(g\) 这个'姿态'下与模板的匹配度"。
解读二(投影到群上的视角)。 群卷积可以看成把输入信号"提升"(lift)到群上的一个函数,再在群上做加权平均。比如 G-CNN 的第一层把图像(定义在 \(\mathbb{R}^2\) 上)提升为定义在"位置 × 朝向"群上的特征图——每个朝向对应把核旋转后的响应。后续层就在这个更大的群上做卷积。这个"提升"视角解释了为什么 G-CNN 的中间特征比 CNN 多一个"朝向"维度。
类比(标注边界):群卷积**像**"用一把会旋转的尺子量东西"。普通卷积的尺子只会平移(在每个位置量一下),群卷积的尺子还会旋转(在每个位置、每个朝向都量一下)。相似之处仅在于:都是"同一把尺子(滤波器)在不同'姿态'下重复使用"。不同之处在于:普通尺子的"姿态"只有平移(一个 \(\mathbb{R}^2\) 参数),群卷积的"姿态"是整个群(位置 + 朝向,可能高维)。不要把类比延伸到:"量出来的数"——群卷积输出的不是单个长度,而是定义在整个群上的一个函数(每个群元素一个值),数据结构比"一次测量"复杂得多。
理论—工程权衡:连续群卷积的计算困难¶
群卷积理论上优美,但落地有个硬骨头:对连续群(如 \(SO(3)\))的卷积,那个积分 \(\int_G\dots dh\) 怎么算?
对有限群(如 G-CNN 的 \(p4\) 群只有 4 个旋转),积分就是有限求和,直接算。但 \(SO(3)\) 是连续的、三维的,积分无法直接求。两条出路:
- 离散化采样:在 \(SO(3)\) 上取有限多个旋转点近似积分(球面 CNN 的部分做法)。问题:采样点多则慢,少则等变性误差大;且 \(SO(3)\) 上没有完全均匀的有限采样("无法均匀梳理球面"的高维版)。
- 谱方法(傅里叶):利用 Peter–Weyl(§2),把卷积变成频域(不可约表示空间)里的乘法。球面 CNN 用广义 FFT 把 \(S^2\)/\(SO(3)\) 卷积变成 Wigner D-矩阵系数的逐元素乘法,复杂度可控。
这个困难,正是 §6 要讲的 TFN 路线的动机来源——TFN 不直接在 \(SE(3)\) 上做积分,而是聪明地把等变卷积核用"球谐函数 × 径向函数"参数化,从而绕开了显式积分。而 §7 的 EGNN 走得更远,干脆只用标量和向量,彻底回避球谐。
阶段小结:到这里我们建立了等变网络的第二根支柱——群卷积。核心结论:(1) 卷积天生等变,机制是"滤波器在群上滑动 + Haar 不变测度";(2) Kondor–Trivedi 定理说"等变线性层 ⟺ 群卷积",二者本质同一;(3) 连续群卷积的计算困难,催生了后面 TFN/EGNN 两条具体路线。接下来 §4 我们先处理一个特别简单、特别重要的群——置换群 \(S_n\),它对应机器人里"一堆没有顺序的物体/点",引出 DeepSets 与图网络。
⚠️ 常见陷阱¶
💡 概念误区:以为"卷积等变"是卷积的某种巧合性质 - 新手想法:"CNN 平移等变是个不错的副产品,可能换个运算就没了。" - 现象 / 后果:意识不到可以系统地为其他对称性(旋转、置换)构造对应的等变运算,错过整个群卷积框架。 - 根本原因:Kondor–Trivedi 定理表明,平移等变的线性算子**必然**是卷积——等变与卷积是充要关系,不是巧合。 - 正确做法:把"卷积"理解为"群卷积在平移群上的特例"。想要别的等变性,就换群、套群卷积模板。
💡 概念误区:把群卷积的输出当成"和输入一样的数据类型" - 新手想法:"卷积输入图像,输出还是图像。" - 现象 / 后果:在 G-CNN 里搞不清为什么第一层之后特征图多了一个"朝向"维度,维度对不上。 - 根本原因:群卷积的输出是定义在**群(或齐次空间)上**的函数。G-CNN 第一层把图像(定义在 \(\mathbb{R}^2\))"提升"到"位置 × 朝向"群上,所以多一维。 - 正确做法:明确每层特征定义在哪个域上(\(\mathbb{R}^2\)?\(\mathbb{R}^2\rtimes C_4\)?\(SO(3)\)?)。提升层会增加群维度,后续层在更大的群上卷积。
🧠 思维陷阱:认为连续群卷积可以像 CNN 一样直接暴力计算 - 新手想法:"\(SO(3)\) 卷积无非就是多采样几个旋转,硬算就行。" - 现象 / 后果:采样不足导致等变性误差大,采样过多导致计算爆炸;且高维群上找不到均匀采样。 - 根本原因:连续紧致群上的卷积积分需要 Haar 测度积分,离散采样近似有精度—速度矛盾,且球面/\(SO(3)\) 无完美均匀有限采样。 - 正确做法:连续群用谱方法(广义 FFT,球面 CNN)或参数化滤波器(球谐 × 径向,TFN)来避开显式积分。理解这个困难,才能理解 §6 为什么那样设计。
练习¶
[3.1 · 平移等变的逆命题(思考)] 我们证明了"卷积 ⟹ 平移等变"。Kondor–Trivedi 说逆命题也成立。试着对一维情形给一个直觉论证:为什么"平移等变的线性算子必是卷积"?提示:线性算子可写成核 \(K(x,y)\) 的积分 \(\int K(x,y)f(y)dy\);平移等变迫使 \(K(x,y)\) 只依赖 \(x-y\)。把这个约束写出来,看它如何退化成卷积。
[3.2 · 离散群卷积手算] 设 \(G=C_4\)(4 个元素:旋转 \(0°,90°,180°,270°\),群乘法是角度相加模 \(360°\))。信号 \(f\) 和滤波器 \(k\) 都是 \(C_4\to\mathbb{R}\) 的函数,即各 4 个数 \(f=(f_0,f_1,f_2,f_3)\)、\(k=(k_0,k_1,k_2,k_3)\)。写出群卷积 \((f\star k)(g)=\sum_{h\in C_4}f(h)k(g^{-1}h)\) 的全部 4 个输出分量。验证它就是循环卷积。然后验证:把 \(f\) 循环移位一格,输出也循环移位一格(离散版平移等变)。
[3.3 · 开放思考] 群卷积要求群有不变测度(Haar 测度)。所有群都有 Haar 测度吗?对紧致群、局部紧致群、一般拓扑群分别讨论。这个要求对"能否在某个群上定义等变卷积"有什么限制?(提示:联系 §9 开放问题里的非紧致群困难——量纲群 \(\mathbb{R}_{>0}\)、Lorentz 群。)
§4 置换等变:DeepSets 与图网络 ⭐⭐⭐¶
动机¶
机器人面前的世界,常常是"一堆没有先后顺序的东西"。桌上有 5 个零件,相机看到一团有 2000 个点的点云,仓库里有一批待分拣的包裹。这些都是**集合**——元素之间没有内在的顺序。
但神经网络吃的是有序的张量。我们把 5 个零件排成 \([o_1,o_2,o_3,o_4,o_5]\) 喂进去——可这个顺序是我们随便定的!换一个顺序 \([o_3,o_1,o_5,o_2,o_4]\),描述的是同一堆零件,网络的输出**不应该改变**(如果是分类)或**应该跟着重排**(如果是逐元素预测)。
这正是**置换对称性**:重新排列输入元素,对应的群是**置换群** \(S_n\)(\(n\) 个元素的所有排列)。一个好的"处理集合的网络"必须对 \(S_n\) 不变或等变。
为什么这一节单独拎出来讲?因为:(1) 置换群是最简单的群之一,是练手群论概念的绝佳例子;(2) 它直接对应机器人里极常见的"多物体、点云"场景;(3) DeepSets 和图神经网络(GNN)这两个被广泛使用的架构,本质就是置换等变网络;(4) 后面 §6、§7 的 SE(3) 等变点云网络,几乎都同时是置换等变的——点云既要对旋转等变,又要对点的编号置换等变。
如果不这样做会怎样(反面)¶
假设我们无视置换对称性,直接把集合当有序向量用普通 MLP 处理。
第一,输出依赖于人为的顺序。 同一堆零件,喂进去的顺序不同,输出不同。这是荒谬的——顺序是我们强加的,不该影响结果。
第二,被迫用数据增广学置换不变。 和旋转的情形一样,你只能把每个集合打乱成各种顺序喂给网络,让它"学会"忽略顺序。\(n\) 个元素有 \(n!\) 种排列,\(n=10\) 就是 360 万种——根本学不全。
第三,无法处理变长输入。 MLP 的输入维度是固定的,但集合的大小可变(这次 5 个零件,下次 8 个)。普通 MLP 处理不了变长集合,而置换等变架构(DeepSets/GNN)天然支持任意大小。
本质洞察:把集合当有序向量处理,是在"无中生有"地引入一个根本不存在的结构(顺序)。网络不仅要学真正的任务,还要额外学会"忽略我强加的顺序"——这是自找的负担。置换等变架构从结构上就不看顺序,把这个负担一笔勾销。
历史¶
置换不变/等变网络的系统理论始于 2017 年 Zaheer 等人的 DeepSets(NeurIPS 2017)。他们给出了置换不变函数的一个完整刻画("sum-decomposition"),并证明了相应的万能逼近性质。同年前后,图神经网络(GNN)的各种变体(GraphSAGE、GCN、GAT 等)兴起,它们处理图结构数据,对"节点重新编号"等变——这也是置换等变。
2019 年 Maron 等人(ICLR/ICML 2019)从表示论角度彻底刻画了"高阶置换等变层"的维数,证明它由 Bell 数给出。这把置换等变网络的设计空间完全确定下来。
DeepSets 和 GNN 至今是处理集合、点云、关系数据的主力架构,也是几何深度学习"图"这一支柱的核心。
理论:置换群的作用¶
先把"置换作用在集合特征上"写清楚。设有 \(n\) 个元素,每个元素带一个特征向量 \(x_i\in\mathbb{R}^d\),整体写成矩阵 \(X=[x_1;\dots;x_n]\in\mathbb{R}^{n\times d}\)(每行一个元素)。置换 \(\pi\in S_n\) 作用在 \(X\) 上,就是重排行:
即新的第 \(i\) 行是旧的第 \(\pi^{-1}(i)\) 行。用置换矩阵 \(P_\pi\)(每行每列恰一个 1)写成 \(\pi\cdot X = P_\pi X\)。
置换不变:\(f(P_\pi X) = f(X)\)(输出是一个向量,与元素顺序无关,如集合分类)。 置换等变:\(f(P_\pi X) = P_\pi f(X)\)(输出也是 \(n\) 个元素,跟着一起重排,如逐点预测)。
理论:DeepSets 置换不变定理¶
定理(DeepSets sum-decomposition,Zaheer et al. 2017,可数情形)。 一个函数 \(f\) 作用在集合上是置换不变的,**当且仅当**存在两个函数 \(\phi\)(逐元素编码)和 \(\rho\)(聚合后解码)使得
直白说:置换不变函数 = "逐元素编码 → 求和 → 解码"。 求和这一步天然不看顺序(加法交换律),所以整体置换不变。
证明思路(必证清单中的定理,写出策略)。
充分性(容易): 若 \(f\) 有上述形式,则对任意置换 \(\pi\),
中间等号是因为求和与求和顺序无关(加法交换律)。所以这种形式必然置换不变。
必要性(关键,构造性): 反过来,若 \(f\) 置换不变,要证它能写成 sum-decomposition。核心技巧是**用求和构造一个"集合的唯一指纹"**。在可数论域上,给每个可能的元素值 \(x\) 指派一个唯一编码 \(\phi(x)\)(例如把元素映射到唯一的素数的某种变换,或唯一的二进制位),使得映射
对不同的集合 \(X\) 取不同的值(即 \(\Phi\) 在集合上是单射)。直觉:如果每个元素贡献一个"独一无二且不会相互抵消、不会碰撞"的量,那么它们的和就唯一确定了这个集合(类似用素数乘积唯一编码——但这里用加法,需要精心构造 \(\phi\) 避免碰撞)。既然 \(\Phi\) 单射,就存在逆 \(\Phi^{-1}\)(在 \(\Phi\) 的像上有定义),于是令 \(\rho = f\circ\Phi^{-1}\),便有 \(f(X) = \rho(\Phi(X)) = \rho(\sum_x\phi(x))\)。证毕(策略层面)。
本质洞察:DeepSets 定理的灵魂是"求和是唯一的、本质的置换不变聚合"。乍看求和很简单,但定理说:**任何**置换不变函数,无论多复杂,都能被"编码—求和—解码"这个三段式表达。求和不是众多选择之一,而是置换不变性的"标准形"。这呼应 §3 的洞察——权值共享的对象决定等变群;这里"对所有元素用同一个 \(\phi\),再求和"正是在元素上的权值共享,对应 \(S_n\) 等变。
重要的实践注记(连续情形的精化)。 上面的可数情形证明用了"唯一编码",潜空间维度可能要很高。Wagstaff 等人(JMLR 2022)证明:在连续论域、集合大小固定为 \(M\) 时,要让 sum-decomposition 表达所有连续置换不变函数,潜空间维度 \(N\) 必须 \(\geq M\)。这告诉工程师:DeepSets 的"求和后的隐藏维度"不能太小,否则表达力不够(练习 4.3 会给一个 \(N<M\) 失败的反例)。
理论:置换等变线性层¶
不变讲完,讲等变。什么样的**线性层**是置换等变的?答案出奇地简单。
定理(最一般的置换等变线性层)。 作用在 \(\mathbb{R}^n\)(每个元素一个标量特征)上的线性映射 \(L\) 置换等变,当且仅当它形如
即"逐元素缩放 \(\lambda\) + 全局求和的权重 \(\gamma\)",只有**两个**参数 \(\lambda,\gamma\)。
直觉与验证。 置换等变要求 \(L\) 对每个元素"一视同仁"。它能用的信息只有两类:(1) 元素自己的值 \(x_i\);(2) 所有元素的对称聚合(求和 \(\sum_j x_j\))。任何区别对待特定元素的操作都会破坏等变。验证:置换 \(\pi\) 下,\(x_i\mapsto x_{\pi^{-1}(i)}\),\(\sum_j x_j\) 不变(求和对称),所以 \((LX)_i\mapsto \lambda x_{\pi^{-1}(i)} + \gamma\sum_j x_j = (LX)_{\pi^{-1}(i)}\),正是等变。
理论—工程桥接(D 工具):这个"\(\lambda I + \gamma(\mathbf{1}\mathbf{1}^\top)\)"结构(单位 + 全 1 矩阵)就是图卷积、DeepSets 等变层、Set Transformer 的线性部分的数学骨架。\(\lambda\) 项是"自环"(节点看自己),\(\gamma\) 项是"邻居聚合"(节点看全局/邻居)。GNN 的消息传递无非是把"全局求和"换成"邻居求和"——这是把全连接图换成一般图,等变群从 \(S_n\) 收窄到图的自同构群。
理论:Maron 高阶等变层与 Bell 数¶
DeepSets 的等变层只有 2 个参数,因为它作用在"一阶"对象(节点)上。如果作用在"二阶"对象(边、节点对)上呢?Maron 等人给了完整答案。
定理(Maron et al. 2019,骨架级)。 \(S_n\) 按置换作用于 \(k\) 阶张量空间 \(\mathbb{R}^{n^k}\)(如 \(k=1\) 是节点特征 \(\mathbb{R}^n\),\(k=2\) 是边/邻接特征 \(\mathbb{R}^{n\times n}\))。则从 \(k\) 阶到 \(l\) 阶的置换等变线性层的维数(独立参数个数)为
其中 \(B(\cdot)\) 是 Bell 数(\(B(m)\) = 把 \(m\) 个元素分成若干非空子集的方案数:\(B(1)=1, B(2)=2, B(3)=5, B(4)=15, B(5)=52, B(6)=203\))。
验证几个特例。 \(k=l=1\)(节点到节点):\(B(2)=2\)——正是 DeepSets 的 \(\lambda,\gamma\) 两个参数!\(k=l=2\)(边到边):\(B(4)=15\)——所以一个作用在邻接矩阵上的置换等变线性层有 15 个独立参数。
证明思路。 等变约束等价于"参数张量在 \(S_n\) 对角作用下不变",即它在指标的"同/异"模式下取常数。把 \(\{1,\dots,k+l\}\) 个张量指标按"哪些相等"划分,每种划分对应一个独立参数,划分总数就是 Bell 数 \(B(k+l)\)。
系统性分类(E 工具):Bell 数定理给出置换等变层的**完全分类**——不是"举几个等变层",而是"\(k\to l\) 阶等变层的全部独立参数恰好 \(B(k+l)\) 个"。这与 §2 末尾 \(SO(3)\) 不可约表示的完全分类(\(\{D^\ell\}\))异曲同工:对足够"好"的群,等变结构可以被穷举式地、无遗漏地刻画。这种"封闭式答案"是群论赋予等变网络的独特礼物——你永远知道"还有多少自由度没用"。
机器人直觉:多物体交互建模里,如果你想要一个"三物体交互"的等变头(输入是三元组特征),它的等变线性层至多 \(B(6)=203\) 个参数。超过这个数,就一定破坏了置换对称性。这给"该用多少参数"一个硬上界。
多视角理解:DeepSets vs GNN¶
视角一(图的视角看 DeepSets)。 DeepSets 可以看成"完全图上的 GNN"——每个节点都和所有其他节点相连,聚合是对所有节点求和。GNN 则在一般图上,聚合只对邻居求和。所以 DeepSets 是 GNN 在"无结构集合(完全图)"上的特例。
视角二(对称群的视角)。 DeepSets 对完整置换群 \(S_n\) 等变(任意重排元素都不影响)。GNN 对**图的自同构群**等变(只对"保持图结构的重排"不变)——这是 \(S_n\) 的一个子群。图结构越丰富(边越具体),自同构群越小,等变约束越松,表达力越强。
类比(标注边界):DeepSets 之于 GNN,像"一盘散沙"之于"有骨架的结构"。相似之处仅在于:两者都对"元素重编号"等变,都用"逐元素编码 + 聚合"的范式。不同之处在于:DeepSets 把所有元素平等求和(完全对称),GNN 用边结构限定"谁能影响谁"(只聚合邻居)。不要把类比延伸到:"散沙一定不如骨架"——当数据本就无结构(如纯点集、无关系的物体堆),DeepSets 的完全对称恰恰是正确的归纳偏置,强行加图结构反而引入错误假设。
阶段小结:到这里我们处理完了最简单的对称群——置换群 \(S_n\),得到 DeepSets(不变 = 编码-求和-解码)、置换等变线性层(2 个参数)、Maron 高阶层(Bell 数)。置换对应"点/物体的编号无所谓"。但机器人点云还有另一重对称:旋转和平移——杯子转一下、挪一下,还是那个杯子。接下来 §5、§6 处理这个更难的对称群 \(SE(3)\),需要把 §2 的球谐和 Clebsch–Gordan 工具全部用上。
⚠️ 常见陷阱¶
💡 概念误区:把"对集合求平均/求和"等同于"丢失信息" - 新手想法:"把所有元素加起来,不就把每个元素的信息糊成一团了吗?" - 现象 / 后果:不敢用 DeepSets,转而用强行排序 + RNN 处理集合,引入虚假顺序依赖。 - 根本原因:DeepSets 定理保证,只要逐元素编码 \(\phi\) 的输出维度足够高,"编码后求和"能保留区分不同集合所需的全部信息(\(\Phi\) 单射)。求和本身不丢信息,前提是编码维度够。 - 正确做法:用 DeepSets/GNN,并保证聚合前的隐藏维度足够(连续情形 \(\geq\) 集合大小 \(M\),见 Wagstaff 2022)。不要给集合强加顺序。
💡 概念误区:混淆置换不变与置换等变(集合任务的版本) - 新手想法:"处理集合就是要置换不变。" - 现象 / 后果:在"逐点分割""逐物体抓取"这种需要等变的任务里用了不变聚合,输出塌缩成一个全局向量,无法给每个点/物体单独的输出。 - 根本原因:集合级任务(分类整堆物体)要不变;元素级任务(给每个物体打标签)要等变。等变层保留 \(n\) 个输出,不变层只剩 1 个。 - 正确做法:元素级任务用置换等变层(保留 \(n\) 个输出),只在最后需要全局结论时用一次不变聚合。点云分割全程等变,点云分类最后才不变。
🧠 思维陷阱:以为 GNN 比 DeepSets"更高级所以总是更好" - 新手想法:"GNN 能用边结构,比 DeepSets 强,处理集合也该用 GNN。" - 现象 / 后果:对本无关系的物体堆强行构造图(如全连接或 k 近邻),引入了数据里不存在的关系假设,可能损害性能。 - 根本原因:GNN 对图自同构群等变(\(S_n\) 的子群),边结构是一种归纳偏置——用对了帮忙,用错了有害。无结构集合的正确对称群就是完整 \(S_n\),DeepSets 恰好匹配。 - 正确做法:先判断数据是否有真实的关系结构。有(如分子的化学键、场景的接触关系)→ GNN;纯无序集合 → DeepSets。不要为了"高级"而强加结构。
练习¶
[4.1 · 置换等变层验证] 验证 \((LX)_i = \lambda x_i + \gamma\sum_j x_j\) 对任意置换 \(\pi\) 满足 \(L(P_\pi X) = P_\pi(LX)\)。然后证明:任何只有"逐元素函数 + 全局求和"两种信息来源的线性层都形如此式,即 \(\lambda,\gamma\) 两参数已是最一般的一阶置换等变线性层(这正是 \(B(2)=2\))。
[4.2 · DeepSets sum-decomposition 证明] 完整写出 DeepSets 定理(可数情形)充分性的证明,并把必要性的"唯一编码"构造细化:给出一个具体的 \(\phi\)(例如把有限论域的第 \(k\) 个元素映为 \(\phi(x)=2^{-k}\) 这类避免进位碰撞的编码),论证 \(\Phi(X)=\sum_x\phi(x)\) 对子集单射。在草稿纸上完成。
[4.3 · 连续情形反例(开放)] 构造一个连续置换不变函数,当 sum-decomposition 的潜空间维度 \(N\) 小于集合大小 \(M\) 时无法表达。提示:考虑 \(M=2\)、\(N=1\),目标函数取 \(f(\{a,b\})=\max(a,b)-\min(a,b)=|a-b|\),论证用一维 \(\phi:\mathbb{R}\to\mathbb{R}\) 求和后再 \(\rho\) 无法精确重建(一维和 \(\phi(a)+\phi(b)\) 丢失了区分 \(\{a,b\}\) 与某些其他对的信息)。这道题让你亲手触摸 Wagstaff 维数下界。
§5 球谐函数与 Clebsch–Gordan 系数:SE(3) 等变的零件 ⭐⭐⭐⭐¶
动机¶
要在三维空间构造 \(SO(3)\)(旋转)等变的网络,我们需要两样"零件":
- 一个把方向信息变成旋转协变特征的工具——给定空间中一个方向 \(\hat r\)(单位向量),怎么生成一组"按 \(SO(3)\) 不可约表示协变"的数?答案是**球谐函数** \(Y_\ell^m(\hat r)\)。
- 一个把两组旋转特征"相乘"又不破坏等变的工具——§2 的 Schur 引理说"不同 irrep 之间线性映射为零",那不同 irrep 的特征怎么交互?答案是**Clebsch–Gordan(CG)张量积**,它绕过 Schur 的禁令,通过张量积让不同 irrep 耦合。
为什么非要这两个零件?因为 §3 末尾我们看到,连续群 \(SE(3)\) 上的卷积积分难算。TFN(§6)的解决方案是把等变卷积核**参数化**为"可学习的径向函数 × 固定的球谐角向部分",再用 CG 系数把不同阶的特征组合起来。球谐和 CG 系数就是这套参数化的两块基石。理解它们,才能理解 §6 的 TFN/SE(3)-Transformer 为什么长那样,以及 e3nn 库里 spherical_harmonics 和 TensorProduct 到底在算什么。
这一节难度标到 ⭐⭐⭐⭐(研究级),因为它涉及具体的特殊函数和换基系数。但**核心思想不难**:球谐是"球面上的傅里叶基",CG 系数是"角动量耦合的换基矩阵"。抓住这两个直觉,技术细节都是配料。
如果不这样做会怎样(反面)¶
假设我们不用球谐,而是直接用普通的、依赖方向 \(\hat r\) 的滤波器(比如一个把 \(\hat r\) 的三个分量送进 MLP 的核)。
第一,等变性破坏。 普通 MLP 处理 \(\hat r\) 的分量,不会自动满足"旋转 \(\hat r\) 时输出按某个 irrep 协变"。结果网络不再 \(SO(3)\) 等变。
第二,无法保证输出的"类型"。 等变网络要求每个特征有明确的 irrep 类型(\(\ell\) 值)。普通滤波器输出的特征没有这个结构,无法和后续等变层对接。
球谐恰好解决这两点:\(Y_\ell^m(\hat r)\) **天生**就是"\(\ell\) 阶 irrep 协变"的——旋转 \(\hat r\),它按 Wigner D-矩阵 \(D^\ell\) 变换。它是"把方向编码成 \(SO(3)\) 协变特征"的唯一自然选择。
而不用 CG 张量积的话——如果只用 Schur 允许的线性层,不同 irrep 之间完全无法交互(Schur 引理:跨 irrep 线性映射为零),网络就退化成一堆互不通信的"并行通道",表达力极弱。CG 张量积是让它们交互的唯一等变方式。
本质洞察:球谐和 CG 系数不是 TFN 作者"想出来的技巧",而是 \(SO(3)\) 等变性**逼出来的唯一答案**。Schur 引理(§2)已经把"等变线性层"钉死了;要想让特征非线性地、跨 irrep 地交互,数学上唯一的等变选项就是张量积分解,而分解的系数就是 CG 系数。这是一条"别无选择"的路——理解了这种必然性,你就不会觉得这些公式是天降的。
历史¶
球谐函数源自十八世纪 Laplace 对引力位势的研究(球面上的 Laplace 方程的解),故又称 Laplace 球谐。它在物理里无处不在:氢原子波函数的角向部分、地球引力场和磁场的展开、电磁多极展开。
Clebsch–Gordan 系数来自十九世纪 Clebsch 和 Gordan 对二次型不变量的研究,二十世纪在量子力学角动量耦合理论中大放异彩——两个角动量 \(\ell_1,\ell_2\) 耦合成总角动量的概率幅,就是 CG 系数。Wigner 系统化了这套理论。
把它们用于深度学习是相当近的事。Thomas 等人的 Tensor Field Network(2018)首次把"球谐 × 径向"的等变卷积核引入点云网络,Kondor、Cohen 等人随后用 CG 张量积构造 \(SO(3)\) 等变层。Geiger 与 Smidt 的 e3nn 库(2022)把这套数学完全自动化,成为现代 \(SE(3)\) 等变网络的公共底层。
理论:球谐函数及其旋转变换律¶
球谐函数 \(Y_\ell^m:\,S^2\to\mathbb{C}\)(或实球谐 \(\to\mathbb{R}\))是定义在单位球面上的一族函数,按两个指标编号:\(\ell=0,1,2,\dots\)(阶 / degree)和 \(m=-\ell,\dots,\ell\)(共 \(2\ell+1\) 个)。
我们不纠缠它们的显式表达式(那是一堆 Legendre 多项式乘三角函数),而抓住它们对深度学习唯一重要的性质——旋转变换律:
逐字解读这个公式,它是本节的心脏:
- 左边 \(Y_\ell^m(R\hat r)\):先把方向 \(\hat r\) 旋转成 \(R\hat r\),再求球谐值。
- 右边 \(\sum_{m'}D^\ell_{m'm}(R)\,Y_\ell^{m'}(\hat r)\):把"原方向的球谐值" \(Y_\ell^{m'}(\hat r)\),用 Wigner D-矩阵 \(D^\ell(R)\) 线性组合。
这个等式说:旋转方向,等价于用 \(D^\ell\) 矩阵混合同阶(同 \(\ell\))的球谐分量。 换句话说,固定 \(\ell\)、让 \(m\) 跑遍 \(-\ell,\dots,\ell\) 得到的 \(2\ell+1\) 个数 \(\big(Y_\ell^{-\ell}(\hat r),\dots,Y_\ell^{\ell}(\hat r)\big)\),在旋转下按 \(D^\ell\) 这个 \((2\ell+1)\) 维不可约表示协变——它们恰好构成一个 \(\ell\) 阶 irrep 特征!
这就是为什么球谐是"把方向编码成 \(SO(3)\) 协变特征"的天然工具:
- \(\ell=0\):\(Y_0^0\) 是常数,旋转不变 → 标量(\(D^0\))。
- \(\ell=1\):\((Y_1^{-1},Y_1^0,Y_1^1)\) 本质上就是 \(\hat r\) 的三个分量(差一个常数和基变换),旋转下按 \(D^1=R\) 协变 → 向量(\(D^1\))。
- \(\ell=2\):5 个分量,按 \(D^2\) 协变 → 无迹对称张量(\(D^2\))。
本质洞察:球谐函数是"球面上的傅里叶基"。经典傅里叶把圆周上的函数展开成 \(\{e^{in\theta}\}\);球谐把球面上的函数展开成 \(\{Y_\ell^m\}\)。两者都是"被对称群挑选出的、在旋转下整齐变换的基"——圆周的对称群 \(SO(2)\) 挑出 \(e^{in\theta}\),球面的对称群 \(SO(3)\) 挑出 \(Y_\ell^m\)。这正是 §2 Peter–Weyl 定理的具体兑现:\(SO(3)\) 的不可约表示矩阵元给出球面调和分析的完备基。
初学者疑问:为什么不直接用方向向量 \(\hat r=(x,y,z)\) 的分量,非要用球谐?答:对 \(\ell=1\),球谐确实就等价于 \(\hat r\) 的分量(所以"向量"这个最常用的特征不神秘)。但对 \(\ell\geq 2\),我们需要"更高阶的方向特征"——比如描述"方向的二阶分布"的 5 维量。这些用 \(\hat r\) 的分量没法直接给出,必须用 \(\ell=2\) 球谐。高阶球谐让网络能捕捉精细的角度信息,这正是 NequIP/MACE 在化学任务上比只用向量的 EGNN 更准的原因(§7)。
理论:Clebsch–Gordan 张量积——让不同 irrep 交互¶
Schur 引理(§2)说:不同 irrep 之间的**线性映射**为零。那两个不同类型的特征(比如一个 \(\ell=1\) 向量和一个 \(\ell=2\) 张量)怎么相互作用?答案是**张量积**(tensor product)——一种非线性(双线性)运算。
设有两个旋转协变特征:\(u\) 属于 \(D^{j_1}\)(\(2j_1+1\) 维),\(v\) 属于 \(D^{j_2}\)(\(2j_2+1\) 维)。它们的张量积 \(u\otimes v\) 是一个 \((2j_1+1)(2j_2+1)\) 维的量,在旋转下按 \(D^{j_1}\otimes D^{j_2}\) 协变。这个张量积表示是**可约的**,它分解为不可约表示的直和:
即 \(J\) 从 \(|j_1-j_2|\) 取到 \(j_1+j_2\)(每隔 1,共 \(2\min(j_1,j_2)+1\) 个分量)。把张量积的"乘积基"换到"不可约基"的换基系数,就是 Clebsch–Gordan 系数 \(\langle j_1 m_1; j_2 m_2\,|\,JM\rangle\):
用一个最重要的例子把它讲活:\(D^1\otimes D^1\)(两个向量相乘)。 按公式,\(J\) 从 \(|1-1|=0\) 到 \(1+1=2\):
维数验证:左边 \(3\times 3=9\),右边 \(1+3+5=9\) ✓。这个分解有极其熟悉的物理含义:
- \(D^0\)(标量部分)= 内积 \(u\cdot v\)。两个向量的点积是旋转不变的标量。
- \(D^1\)(向量部分)= 叉积 \(u\times v\)。两个向量的叉积是个(赝)向量。
- \(D^2\)(5 维部分)= 无迹对称张量 \(u_iv_j+u_jv_i - \frac{2}{3}\delta_{ij}(u\cdot v)\) 的独立分量。
也就是说:两个向量相乘,自然分解成"内积(标量)+ 叉积(向量)+ 无迹对称张量"三部分——这正是我们在向量代数里早就熟悉的运算,CG 分解把它们统一在表示论框架下!CG 系数就是从 \((u_i v_j)\) 这 9 个乘积,重组出这三组协变量的换基矩阵。
本质洞察:CG 张量积是"在不破坏等变的前提下让特征非线性交互"的唯一方式。Schur 引理封死了线性层的跨 irrep 通道,但物理交互(内积、叉积)必须跨 irrep。CG 张量积恰好提供了这条合法通道——它先做张量积(保证双线性等变),再用 CG 系数分解回不可约类型(保证输出有明确 irrep 类型)。e3nn 的
TensorProduct层就是这个运算:输入两组Irreps,按 CG 系数生成所有允许的 \(D^{j_1}\otimes D^{j_2}\to D^J\) 路径,每条路径配一个可学习权重。回应 §2 练习 2.1 的伏笔:还记得 §2 我们说"\(D^1\) 到 \(D^2\) 的线性映射为零(Schur),但张量积可以"?现在清楚了:单个向量(\(D^1\))无法通过线性层影响 \(D^2\) 特征,但**两个**向量的张量积 \(D^1\otimes D^1\) 里就含有 \(D^2\) 分量(那个无迹对称张量)。线性映射受 Schur 限制,张量积不受——这正是张量积在等变网络里不可或缺的原因。
理论:手把手分解 \(D^1\otimes D^1\)(一次完整的换基演算)¶
上面我们直接报出了"内积 + 叉积 + 无迹对称张量"的结论。这一小节我们把这个分解**完整地、一步步**做出来,让你亲眼看到 CG 系数是怎么从张量积里"长出来"的。这是理解所有等变张量积层的关键演算,值得放慢节奏走一遍。
起点:张量积空间。 两个向量 \(u=(u_1,u_2,u_3)\) 和 \(v=(v_1,v_2,v_3)\) 的张量积,是一个 \(3\times 3\) 的矩阵 \(W_{ij}=u_i v_j\),共 9 个分量。在旋转 \(R\) 下,\(u\mapsto Ru\)、\(v\mapsto Rv\),所以
这就是 \(3\times 3\) 矩阵按 \(D^1\otimes D^1\) 协变(即 \(W\mapsto RWR^\top\),等价于 9 维向量按 \(D^1\otimes D^1\) 这个 \(9\times 9\) 矩阵变换)。我们的任务是把这 9 维空间分解成在旋转下**各自独立变换**的子块。
第一步:分离迹(提取 \(D^0\) 标量分量)。 任意矩阵可分解为"迹部分 + 无迹部分":
迹 \(\mathrm{tr}\,W = \sum_i W_{ii} = \sum_i u_i v_i = u\cdot v\)——正是**内积**!在旋转下,\(\mathrm{tr}(RWR^\top)=\mathrm{tr}(W)\)(迹在相似变换下不变),所以迹是旋转**不变**的标量。这就是 \(D^0\) 分量,1 维。我们已经抠出了 9 维里的 1 维。
第二步:分离反对称部分(提取 \(D^1\) 向量分量)。 无迹部分还能继续拆成"对称 + 反对称":
反对称部分 \(A_{ij}=\tfrac{1}{2}(u_iv_j-u_jv_i)\)。一个 \(3\times 3\) 反对称矩阵只有 3 个独立分量(上三角),它们恰好是**叉积** \(u\times v\) 的三个分量:\(A_{23}=\tfrac12(u_2v_3-u_3v_2)=\tfrac12(u\times v)_1\),依此类推。这里我们直接用上了微分几何李群专题里的 hat 映射——反对称矩阵 \(\leftrightarrow\) 三维向量的同构!在旋转下,反对称矩阵按 \(A\mapsto RAR^\top\) 变换,对应叉积向量按 \(u\times v\mapsto R(u\times v)\) 变换(赝向量),这正是 \(D^1\)。3 维。我们又抠出了 3 维。
第三步:剩下的就是无迹对称部分(\(D^2\))。 无迹对称矩阵 \(S_{ij}=\tfrac12(u_iv_j+u_jv_i)-\tfrac13(u\cdot v)\delta_{ij}\)。对称矩阵有 6 个独立分量(3 个对角 + 3 个上三角),减去 1 个迹约束(无迹),剩 5 个独立分量。在旋转下它们按一个 \(5\times 5\) 矩阵变换——这就是 \(D^2\)。5 维。
验证与收束。 \(1+3+5=9\) ✓。我们把 \(3\times 3\) 矩阵这个 9 维的 \(D^1\otimes D^1\) 空间,干净地分解成了
CG 系数是什么? 上面每一步的"提取系数"——\(\tfrac13\delta_{ij}\)(迹)、\(\tfrac12(\delta\delta-\delta\delta)\)(反对称)、对称化系数——把它们整理成"从 \((u_i v_j)\) 的 9 个乘积,到 \((D^0,D^1,D^2)\) 的 \(1+3+5\) 个分量"的换基矩阵,这个 \(9\times 9\) 的正交矩阵的元素就是 Clebsch–Gordan 系数 \(\langle 1 m_1;1 m_2|JM\rangle\)。我们没有去查 CG 系数表,而是**通过分解直接重新发现了它们**——这正是理解 CG 系数的最好方式:它们不是天降的数字,而是"把张量积按不可约类型整理"时自然出现的系数。
本质洞察:这次演算揭示了一个深刻的统一——向量代数里看似毫无关联的三个运算(内积是标量、叉积是向量、外积对称部分是张量),在表示论眼中是**同一件事**:它们是 \(D^1\otimes D^1\) 分解出的三个不可约分量。CG 张量积层做的,就是把这个分解推广到任意 \(D^{j_1}\otimes D^{j_2}\),并给每个分量配一个可学习权重。理解了 \(D^1\otimes D^1\) 这个最简单的例子,你就理解了 e3nn
TensorProduct的全部精神——剩下的只是更高阶、系数更多,思想完全一样。理论—工程桥接(D 工具):当你在 e3nn 里写
TensorProduct("1o", "1o", "0e+1e+2e"),库做的正是上面这个分解——输入两个向量(1o,奇宇称极向量),输出标量(0e)、赝向量(1e,注意叉积是偶宇称!)、对称张量(2e)。宇称的奇偶由 §5 陷阱讲的 \(p_1 p_2\) 规则决定:两个o(\(-1\))相乘,输出宇称 \((-1)(-1)=+1\) 即e。每个输出分量配一个可学习标量权重——可学的就这么几个数,其余全是 CG 固定的。
理论:Wigner–Eckart 定理(等变核的一般形式)¶
把球谐和 CG 系数的逻辑推到极致,就得到等变卷积核的一般结构定理。
定理(Wigner–Eckart 在等变核中的形式,Lang & Weiler ICLR 2021,骨架级)。 在齐次空间 \(G/H\) 上,从 \(\ell_i\) 阶输入到 \(\ell_o\) 阶输出的 \(G\)-等变卷积核空间,可以分解为
其中 CG 系数和 Wigner D-矩阵是固定的,唯一可学习的参数是**简约矩阵元** \(c_J\)(reduced matrix elements,每个允许的 \(J\) 一个标量)。
含义。 这把"为什么卷积 = 等变"推广到任意紧致群,并精确回答了"等变核有多少自由度":等变卷积核的可学习自由度,等于"允许的 \(J\) 的个数",每个 \(J\) 配一个标量 \(c_J\)。TFN 的"可学习径向函数 × 固定球谐"正是这个定理在 \(SE(3)\) 上的具体化——径向函数承载 \(c_J\)(让简约矩阵元依赖距离 \(\|\vec r\|\)),球谐和 CG 承载固定的角向部分。
理论—工程桥接(D 工具):e3nn 的
FullyConnectedTensorProduct自动按 Wigner–Eckart 分解构造层——每个可学习参数对应一个 \(c_J\)(与 CG 系数的结合方式固定)。所以当你在 e3nn 里指定输入输出Irreps,可学习参数数量就被"允许的 \(J\) 路径数"完全决定。这再次印证 §2 的主题:等变网络的参数不是设计选择,是数学约束。
多视角理解:CG 系数的三个身份¶
CG 系数 \(\langle j_1 m_1;j_2 m_2|JM\rangle\) 在不同语境下有三个名字,理解它们是同一个东西很有帮助。
| 语境 | 名字 | 含义 |
|---|---|---|
| 量子力学 | 角动量耦合系数 | 两个角动量 \(j_1,j_2\) 耦合成总角动量 \(J\)、\(z\)-分量 \(M\) 的概率幅 |
| 表示论 | 换基系数 | 从张量积基 ${ |
| 深度学习(e3nn) | 张量积权重的固定部分 | TensorProduct 层里把两组 irrep 特征重组的、不可学习的稀疏张量 |
三个身份指向同一组数。在深度学习里,关键是把它当作"固定的、由对称性决定的换基矩阵"——它不可学习,可学习的是它前面乘的径向/标量系数。
类比(标注边界):CG 张量积**像**多项式乘法后"按次数归类同类项"。相似之处仅在于:都是"两个对象相乘后,把结果按某种'类型'(次数 / irrep 阶 \(J\))重新归类整理"。不同之处在于:多项式乘法的归类是按单项式次数(一维标签),CG 分解的归类是按 \(SO(3)\) irrep 阶 \(J\)(且每个 \(J\) 是 \(2J+1\) 维的多分量对象),换基系数(CG)由 \(SO(3)\) 的群结构唯一确定,远比"合并同类项"复杂。不要把类比延伸到:"交换律"——多项式乘法交换,而 CG 张量积在交换 \(j_1,j_2\) 时会差一个符号因子 \((-1)^{j_1+j_2-J}\)(对称/反对称性),不能简单当作可交换。
阶段小结:到这里我们集齐了构造 \(SE(3)\) 等变网络的全部零件——球谐 \(Y_\ell^m\)(把方向编码成 irrep 协变特征,是"球面傅里叶基")、CG 张量积(让不同 irrep 等变地非线性交互,绕过 Schur 禁令)、Wigner–Eckart(等变核的一般形式,可学习自由度 = 简约矩阵元)。接下来 §6 把这些零件组装成完整的网络:Tensor Field Network 和 SE(3)-Transformer。
⚠️ 常见陷阱¶
💡 概念误区:把球谐当成"任意一组方向特征"
- 新手想法:"球谐不过是把 \(\hat r\) 编码成更多数,换个 MLP 编码也一样。"
- 现象 / 后果:用普通 MLP 编码方向,破坏 \(SO(3)\) 等变,整个网络不再等变。
- 根本原因:球谐的不可替代性在于它的旋转变换律 \(Y_\ell^m(R\hat r)=\sum D^\ell_{m'm}(R)Y_\ell^{m'}(\hat r)\)——它**精确地**按 irrep \(D^\ell\) 协变。普通 MLP 编码没有这个性质。
- 正确做法:方向信息必须用球谐编码才能保持等变。e3nn 的 spherical_harmonics 函数就是干这个的,不要用普通 MLP 替代它。
💡 概念误区:对 CG 系数死记硬背公式 - 新手想法:"CG 系数那么多数字,得背下来或查表。" - 现象 / 后果:陷入数字海洋,抓不住本质,看不懂张量积层在做什么。 - 根本原因:CG 系数是换基矩阵,重要的是理解它的**角色**(把张量积分解回不可约类型),而非具体数值。具体数值由库自动算。 - 正确做法:记住 \(D^{j_1}\otimes D^{j_2}\cong\bigoplus_J D^J\) 这个分解规则和典型例子(\(D^1\otimes D^1=D^0\oplus D^1\oplus D^2\) = 内积+叉积+对称张量)。数值交给 e3nn。
🧠 思维陷阱:混淆"张量积"和"线性映射",以为 Schur 引理禁止一切跨 irrep 交互 - 新手想法:"Schur 说不同 irrep 之间映射为零,那 \(\ell=1\) 和 \(\ell=2\) 特征永远不能相互影响。" - 现象 / 后果:误以为等变网络的不同 irrep 通道完全隔离,无法理解 CG 张量积层的作用,怀疑等变网络表达力不足。 - 根本原因:Schur 引理只禁止**线性映射**跨 irrep。张量积是**双线性**运算,不受 Schur 限制——\(D^{j_1}\otimes D^{j_2}\) 含有多个 \(D^J\) 分量,正是跨 irrep 交互的合法通道。 - 正确做法:区分两种运算。线性层(受 Schur 限制,同型 irrep 内混合)和张量积层(不受限制,跨 irrep 耦合)。等变网络靠交替使用两者获得表达力。这正是思考题 [T1] 的核心。
💡 概念误区:忽视 \(E(3)\) 与 \(SO(3)\) 的宇称(parity)差别
- 新手想法:"球谐就是球谐,不用管什么奇偶性。"
- 现象 / 后果:在需要区分极向量(如位置)和赝向量(如角动量、叉积结果)的物理任务里,搞错宇称,得到镜像下行为错误的网络。
- 根本原因:\(\ell\) 阶球谐在空间反射下带宇称 \((-1)^\ell\)。完整的 \(E(3)\)(含反射)等变要给每个 irrep 标宇称(e3nn 里的 e/o,even/odd),如 1o 是极向量、1e 是赝向量。叉积 \(u\times v\) 是赝向量(1e)。
- 正确做法:处理含反射的 \(E(3)\) 对称(或手性敏感任务)时,正确标注每个 irrep 的宇称。手性分子、螺旋结构有宇称偏好,不能当成纯 \(SO(3)\)。
练习¶
[5.1 · CG 张量积手算(在草稿纸上完成)] 对 \(\ell_1=1\)(向量 \(u\))、\(\ell_2=1\)(向量 \(v\)),写出 \(D^1\otimes D^1\cong D^0\oplus D^1\oplus D^2\) 的显式对应:(a) 验证 \(D^0\) 分量正比于内积 \(u\cdot v\);(b) 验证 \(D^1\) 分量正比于叉积 \(u\times v\);(c) 写出 \(D^2\) 分量对应的无迹对称张量 \(\frac{1}{2}(u_iv_j+u_jv_i)-\frac{1}{3}\delta_{ij}(u\cdot v)\) 的 5 个独立分量。验证维数 \(1+3+5=9=3\times 3\)。
[5.2 · 球谐变换律验证] 取 \(\ell=1\)。已知实球谐 \(\ell=1\) 的三个分量正比于 \(\hat r\) 的 \((x,y,z)\)。验证 \(Y_1^m(R\hat r)=\sum_{m'}D^1_{m'm}(R)Y_1^{m'}(\hat r)\) 在这种情形下退化为 \(\hat r\mapsto R\hat r\)(即 \(D^1=R\),向量按旋转矩阵变换)。这道题让你确认"\(\ell=1\) 球谐 = 向量"。
[5.3 · 开放思考:宇称] 叉积 \(u\times v\) 在空间反射 \(\vec r\mapsto -\vec r\) 下如何变换?验证它是赝向量(不变号,宇称 \(+1\)),而 \(u,v\) 本身是极向量(变号,宇称 \(-1\))。结合 \(D^1\otimes D^1\) 的分解,解释为什么 \(E(3)\) 等变网络必须区分 1o(极向量)和 1e(赝向量)。提示:宇称满足 \(p_1\cdot p_2 = p_{\text{output}}\),两个 o(\(-1\))相乘的 \(\ell=1\) 输出宇称为 \((-1)(-1)=+1\),即 1e。
§6 SE(3) 等变点云网络:TFN 与 SE(3)-Transformer ⭐⭐⭐⭐¶
动机¶
现在我们把 §5 的零件组装成完整网络。目标很具体:构造一个处理**三维点云**的网络,使其对 \(SE(3)\)(旋转 + 平移)等变。这是机器人感知的核心——相机给的点云会随物体/相机的位姿变化,等变网络让我们"学一次,适配所有位姿"。
挑战在 §3 末尾点过:\(SE(3)\) 上的群卷积积分难直接算。Tensor Field Network(TFN, Thomas et al. 2018)给出的方案是:不显式做群积分,而是把等变卷积核参数化为"可学习径向函数 × 固定球谐",用 CG 系数组合不同阶特征。 这把"在连续群上积分"转化为"用对称性允许的最一般核做消息传递"——而对称性允许的核,正是 §5 Wigner–Eckart 定理给出的形式。
本节我们详细搭建 TFN,再看它的自注意力升级版 SE(3)-Transformer。
如果不这样做会怎样(反面)¶
设想我们处理点云时无视 \(SE(3)\) 对称,用普通的 PointNet 或图网络(只用坐标差的范数等不变量做特征)。
第一,只用不变量 → 丢失方向信息。 如果网络只用点间距离 \(\|p_i-p_j\|\) 这类不变量(这是早期点云网络的常见做法),它对旋转不变了,但**丢掉了方向**——无法输出"朝哪个方向抓""法向量指向哪里"这类等变量。对姿态估计、抓取生成这类需要等变输出的任务,纯不变网络力不从心。
第二,用原始坐标 + 数据增广 → 不保证等变。 如果直接喂原始坐标进 MLP,再靠数据增广学等变,回到 §1 的老问题:软约束、费数据、不保证。
TFN 的价值正在于:它**既**保留方向信息(通过球谐和向量/高阶特征),**又**精确 \(SE(3)\) 等变(通过 §5 的构造)。鱼与熊掌兼得,代价是数学复杂、计算量大(后面会量化)。
历史¶
TFN(Thomas, Smidt et al. 2018,arXiv)是第一个 \(SE(3)\) 等变的点云网络,把球谐 + CG 的等变卷积核引入深度学习。它脱胎于 Kondor 等人的 \(SO(3)\) 等变理论和 Cohen 的 Steerable CNN。
2020 年 Fuchs 等人的 SE(3)-Transformer(NeurIPS 2020)把 TFN 的等变核嵌入自注意力机制,用不变的注意力权重 + 等变的值,得到等变的注意力网络,在分子和点云任务上表现更好。
2022 年的 NequIP(Batzner et al., Nat. Commun.)和 MACE(Batatia et al., NeurIPS 2022)把这条路线推到化学领域的极致——用高阶球谐特征建原子势能面,数据效率比不变模型高约 1000 倍。e3nn 库(Geiger & Smidt 2022)是这一系列的公共底层。
理论:TFN 的等变卷积核¶
设点云中每个点 \(i\) 有位置 \(\vec r_i\in\mathbb{R}^3\) 和特征 \(f_i\)。特征按 irrep 类型组织:\(f_i\) 可以含若干 \(\ell=0\) 标量、若干 \(\ell=1\) 向量、等等。TFN 的核心是定义"从点 \(j\) 到点 \(i\) 的消息",这条消息要保持等变。
点 \(j\) 的 \(\ell_i\) 阶特征,要影响点 \(i\) 的 \(\ell_o\) 阶特征。连接它们的是相对位置 \(\vec r_{ij}=\vec r_i-\vec r_j\)。TFN 把等变卷积核写成(§5 Wigner–Eckart 的具体化):
逐部分解读这个核心公式:
- \(\varphi_{\ell_f}(\|\vec r_{ij}\|)\):可学习的径向函数,只依赖距离(一个标量),通常用一个小 MLP 实现。这是网络真正"学"的部分。距离是旋转平移不变量,所以让系数依赖它不破坏等变。
- \(Y_{\ell_f}^{m_f}(\hat r_{ij})\):球谐,把相对方向 \(\hat r_{ij}\) 编码成 \(\ell_f\) 阶协变特征(§5)。这是固定的。
- \(\langle\ell_f m_f;\ell_i m_i|\ell_o m_o\rangle\):CG 系数,把"滤波器阶 \(\ell_f\)"和"输入阶 \(\ell_i\)"耦合成"输出阶 \(\ell_o\)"。固定的。
整条消息(从 \(j\) 到 \(i\),输出 \(\ell_o\) 阶分量)是:
即把点 \(j\) 各阶特征 \(f_j^{(\ell_i)}\) 通过等变核映射并求和。点 \(i\) 的新特征是对邻居消息的聚合(求和,保证置换等变):\(f_i'^{(\ell_o)} = \sum_{j}m_{ij}^{(\ell_o)}\)(外加自交互项)。
等变性定理(TFN)。 若径向函数 \(\varphi_{\ell_f}\) 仅依赖 \(\|\vec r_{ij}\|\),则 TFN 层的输出按目标 irrep \(D^{\ell_o}\) 协变:对任意 \(R\in SO(3)\),旋转输入点云(位置和特征都按对应 irrep 旋转),输出也按对应 irrep 旋转。平移 \(\vec r_i\mapsto\vec r_i + t\) 下,因为核只依赖相对位置 \(\vec r_{ij}\)(平移抵消),输出不变于平移——合起来即 \(SE(3)\) 等变。
证明的关键链条(写清楚为什么成立)。 旋转输入时:(1) 相对方向 \(\hat r_{ij}\mapsto R\hat r_{ij}\),于是球谐 \(Y_{\ell_f}(\hat r_{ij})\mapsto D^{\ell_f}(R)Y_{\ell_f}(\hat r_{ij})\)(§5 球谐变换律);(2) 距离 \(\|\vec r_{ij}\|\) 不变,故径向函数 \(\varphi_{\ell_f}\) 不变;(3) 输入特征 \(f_j^{(\ell_i)}\mapsto D^{\ell_i}(R)f_j^{(\ell_i)}\);(4) 把这些代入消息表达式,CG 系数的"耦合性质"——\(D^{\ell_f}\otimes D^{\ell_i}\) 经 CG 重组后,输出恰好整体按 \(D^{\ell_o}(R)\) 变换。CG 系数的这个性质(\(\sum D^{\ell_f}D^{\ell_i}\langle\cdots\rangle = \langle\cdots\rangle D^{\ell_o}\))正是它作为"\(SO(3)\) 不变换基矩阵"的定义性质。平移部分由"只用 \(\vec r_{ij}\)"直接保证。
本质洞察:TFN 的全部精巧,浓缩在"把卷积核拆成可学习径向 × 固定球谐 × 固定 CG"这一招。它把"\(SE(3)\) 上的等变卷积"这个看似要在连续群上积分的难题,化解为"在对称性允许的核空间里,只学一个依赖距离的径向函数"。等变性由球谐和 CG 的数学性质**自动保证**,与径向函数怎么学无关——所以无论训练成什么样,网络都精确等变。这就是"硬约束"的威力:对称性焊死在结构里,训练动不了它。
理论—工程桥接(D 工具):这个核公式就是 e3nn 里
TensorProduct(提供 CG 耦合)+spherical_harmonics(提供 \(Y_{\ell_f}\))+ 一个 MLP(提供 \(\varphi_{\ell_f}\))的组合。当你在 e3nn 里搭一个 TFN 卷积层,库自动按输入输出Irreps枚举所有允许的 \((\ell_f,\ell_i\to\ell_o)\) 路径,每条路径配一个径向 MLP。可学习参数全在径向 MLP 里,角向和耦合是固定的。理解了这个公式,e3nn 的Convolution/TensorProduct就不再神秘。
理论:SE(3)-Transformer——等变自注意力¶
TFN 是"等变卷积"。SE(3)-Transformer 把它升级为"等变自注意力",思路是 Transformer 的注意力机制 + 等变约束。
注意力机制的核心是:用查询(query)和键(key)算出注意力权重,再对值(value)加权求和。SE(3)-Transformer 的等变设计是:
- 注意力权重必须不变(\(SE(3)\)-invariant):注意力是个标量权重,旋转点云不该改变"谁该关注谁"的权重。所以查询和键只用**不变标量**构造,它们的内积(注意力得分)自动不变。
- 值必须等变(\(SE(3)\)-equivariant):值携带要被聚合的特征,用 TFN 式的等变核构造,按目标 irrep 协变。
- 聚合:注意力权重(标量)× 值(等变特征)求和——标量乘等变特征仍等变,加权求和(对邻居)仍等变。
形式上,点 \(i\) 对邻居 \(j\) 的注意力权重 \(\alpha_{ij} = \mathrm{softmax}_j\big(q_i^\top k_{ij}\big)\),其中 \(q_i,k_{ij}\) 是不变标量;输出 \(f_i' = \sum_j\alpha_{ij}\,v_{ij}\),\(v_{ij}\) 是 TFN 式等变值。
为什么这样设计能保等变? 因为"不变标量 × 等变向量 = 等变向量","等变向量的加权(权重不变)求和 = 等变向量"。每一步都用了"不变量乘等变量仍等变"这条简单规则。
多视角理解(双重解读):SE(3)-Transformer 可以从两个角度理解。角度一(注意力视角):它是 Transformer 在三维几何数据上的等变版——把"词之间的注意力"换成"点之间的几何注意力",注意力权重由几何不变量(距离等)决定。角度二(卷积视角):它是 TFN 的"自适应核"版本——TFN 的核只依赖相对位置,SE(3)-Transformer 的"有效核"还乘上了一个依赖特征的、数据自适应的注意力权重。注意力让网络能"动态地"决定每对点的耦合强度,比固定核的 TFN 更灵活。
类比(标注边界):SE(3)-Transformer 像**标准 Transformer 处理三维几何。**相似之处仅在于:都用"查询-键-值"机制,都对输入元素做注意力加权聚合。不同之处在于:标准 Transformer 的输入是无几何结构的 token 序列(靠位置编码注入顺序),SE(3)-Transformer 的输入带三维坐标,注意力权重必须用几何不变量构造、值必须等变。不要把类比延伸到:"位置编码"——标准 Transformer 的正弦位置编码是为了打破置换对称(给 token 顺序),而 SE(3)-Transformer 恰恰要**保持** \(SE(3)\) 对称,二者目标相反,机制不可类比。
理论:NequIP / MACE——高阶等变在化学的胜利¶
简述这条路线的两个里程碑,它们证明了"高阶球谐特征"在精确物理任务上的价值。
NequIP(Batzner et al. 2022)。 在原子图上用 CG 张量积保持高阶几何特征(用到 \(\ell\geq 2\)),建分子和材料的势能面(输入原子位置,输出能量和力)。关键发现:数据效率比只用不变量的模型高约 1000 倍——同样精度,需要的训练构型少三个数量级。这是等变性带来样本效率的最戏剧性证据之一。
MACE(Batatia et al. 2022)。 引入"高体序"(high body-order)消息——一次消息聚合就捕捉多体(\(k\)-body)相互作用,把消息传递步数从 5–6 步降到 2 步,大幅提速同时保持精度。
E(3) 等变消息保持性定理(骨架)。 节点特征 \(h^{(\ell,p)}\) 属于 \(V_\ell\otimes(\pm 1)\)(带宇称 \(p\)),消息 \(m_{ij}=\text{CG-TP}\big(h_j,\,Y_\ell(\hat r_{ij})\cdot\varphi(\|r_{ij}\|)\big)\)。则对任意 \((R,t,\sigma)\in E(3)\),节点和边张量按各自的 \(D^\ell\otimes\sigma^p\) 协变。证明与 TFN 等变性同构,只是显式带上宇称 \(p\)。
EGNN 的伏笔(连接 §7):NequIP/MACE 用高阶 \(\ell\) 换来高精度,代价是 CG 张量积计算昂贵(\(O(L^6)\),\(L\) 是最高阶)。一个自然的问题:能不能只用 \(\ell=0\)(标量)和 \(\ell=1\)(向量),不碰高阶球谐和 CG,也得到 \(E(n)\) 等变网络?答案是肯定的——这就是 §7 的 EGNN,它用最朴素的标量和向量运算实现等变,速度快得多,代价是表达力(高阶几何细节)受限。两条路线的取舍是本章的核心权衡之一。
系统性分类:SE(3) 等变架构谱系¶
把目前为止的 \(SE(3)\)/\(E(n)\) 等变架构做一个穷举式分类(E 工具),帮你建立全局图景。
| 架构 | 群 | 特征阶 | 核心机制 | 计算量 | 典型应用 | 年份 |
|---|---|---|---|---|---|---|
| TFN | \(SE(3)\) | 全 \(\ell\) | 球谐 × 径向 × CG 卷积 | \(O(L^6)\) CG | 点云、分子 | 2018 |
| SE(3)-Transformer | \(SE(3)\) | 全 \(\ell\) | TFN 核 + 等变注意力 | \(O(L^6)\) + 注意力 | 点云、分子 | 2020 |
| NequIP | \(E(3)\) | 全 \(\ell\) | 高阶 CG 势能面 | \(O(L^4)\) | 原子势能 | 2022 |
| MACE | \(E(3)\) | 全 \(\ell\), \(k\)-body | 高体序消息 | \(O(L^4 k)\) | 力场 | 2022 |
| EGNN(§7) | \(E(n)\) | 仅 \(\ell=0,1\) | 标量+向量消息 | \(O(nkd)\) | 分子、实时机器人 | 2021 |
读这张表的方法:从上到下,大致是"表达力(特征阶)递减、速度递增"的谱系。最上面的 TFN 用全阶球谐,最精确但最慢;最下面的 EGNN 只用标量和向量,最快但只能捕捉低阶几何。选哪个,取决于任务对"角度精细度"和"速度"的需求——这正是 §7 末尾"机器人选择指导"要回答的。
阶段小结:到这里我们组装出了完整的 \(SE(3)\) 等变点云网络——TFN(等变卷积,核 = 可学习径向 × 固定球谐 × 固定 CG)、SE(3)-Transformer(等变注意力,不变权重 × 等变值)、NequIP/MACE(高阶特征的化学应用,数据效率 1000×)。这条路线精确但计算重(\(O(L^6)\))。接下来 §7 走另一条路:EGNN——只用标量和向量,把 \(E(n)\) 等变做到极简,速度快 20 倍,是实时机器人的首选。
⚠️ 常见陷阱¶
💡 概念误区:以为 TFN 的"卷积核"是可以任意学的 - 新手想法:"卷积核是网络的参数,应该整个都可学,像 CNN 那样。" - 现象 / 后果:试图让球谐或 CG 部分也可学,破坏等变性,或不理解为什么 e3nn 不让你直接改核的角向部分。 - 根本原因:TFN 核里只有**径向函数 \(\varphi_{\ell_f}(\|\vec r\|)\) 可学**;球谐和 CG 是由 \(SO(3)\) 对称性**固定**的(Wigner–Eckart)。可学部分仅限"对称性允许的自由度"。 - 正确做法:理解"等变核 = 可学径向 × 固定角向"。想增加表达力,是加更多 \(\ell\) 通道或更深的径向 MLP,而非去改球谐/CG。
💡 概念误区:把 SE(3)-Transformer 的注意力权重设计成等变的 - 新手想法:"既然是等变网络,注意力权重也该等变吧。" - 现象 / 后果:注意力权重(应该是标量)被设计成随旋转变化,破坏了"权重不变、值等变"的结构,整体不再等变。 - 根本原因:注意力权重是标量加权系数,必须**不变**(旋转点云不改变"谁关注谁");只有被加权的**值**才等变。"不变权重 × 等变值 = 等变输出"。 - 正确做法:查询和键用不变标量构造(如距离、不变特征的内积),保证注意力得分不变;值用 TFN 式等变核。
🧠 思维陷阱:认为"阶数越高(\(\ell\) 越大)网络一定越好" - 新手想法:"NequIP 用高阶 \(\ell\) 效果好,那我把 \(\ell\) 开到很大肯定更强。" - 现象 / 后果:CG 张量积计算量随最高阶 \(L\) 以 \(O(L^6)\) 爆炸,训练慢到不可行,且高阶特征可能过拟合或对任务无用。 - 根本原因:高阶 \(\ell\) 提升的是"角度分辨率",但计算量随之暴涨,且许多任务(尤其机器人实时任务)不需要那么精细的角度信息。表达力和计算量是权衡。 - 正确做法:按任务需求选 \(\ell\) 上限。精确分子力场 → 高阶(\(\ell=2,3\));实时机器人 → 低阶(\(\ell=1\),甚至直接用 EGNN)。先用低阶 baseline,确认需要再加阶。
💡 概念误区:忘记 TFN 的平移等变来自"只用相对位置" - 新手想法:"TFN 等变是球谐和 CG 的功劳。" - 现象 / 后果:在实现时不小心用了绝对坐标 \(\vec r_i\)(而非相对 \(\vec r_{ij}\)),破坏平移等变,网络对整体平移敏感。 - 根本原因:旋转等变来自球谐/CG,但**平移等变**来自核**只依赖相对位置 \(\vec r_{ij}=\vec r_i-\vec r_j\)**——平移时 \(\vec r_{ij}\) 不变。两个等变性来源不同。 - 正确做法:所有几何输入用相对量(相对位置、相对方向),绝不直接用绝对坐标。\(SE(3)\) 等变 = 旋转等变(球谐/CG)+ 平移等变(相对位置)。
练习¶
[6.1 · TFN 等变性证明(在草稿纸上完成)] 独立写出 TFN 单层在 \(SO(3)\) 旋转下等变的完整证明。关键步骤:(a) 写出旋转 \(R\) 作用下球谐、径向函数、输入特征各自如何变换;(b) 代入消息表达式;(c) 用 CG 系数的等变性质 \(\sum_{m_f,m_i}D^{\ell_f}_{m_f' m_f}(R)D^{\ell_i}_{m_i' m_i}(R)\langle\ell_f m_f;\ell_i m_i|\ell_o m_o\rangle = \sum_{m_o'}\langle\ell_f m_f';\ell_i m_i'|\ell_o m_o'\rangle D^{\ell_o}_{m_o' m_o}(R)\) 收尾。再单独论证平移等变。
[6.2 · 计算量分析] TFN 的 CG 张量积计算量为何是 \(O(L^6)\)(\(L\) 为最高阶)?提示:考虑所有 \((\ell_f,\ell_i,\ell_o)\) 三元组的数量(各约 \(L\) 个,共 \(O(L^3)\)),每个张量积涉及 \(O(L^3)\) 的 CG 系数。对比 EGNN 的 \(O(nkd)\)(§7),说明为什么 EGNN 在大规模点云上快得多。
[6.3 · 开放思考:注意力 vs 卷积] SE(3)-Transformer 的注意力让核"数据自适应",TFN 的核固定(只依赖几何)。在什么样的机器人任务上,数据自适应的注意力会明显优于固定卷积核?在什么任务上固定核就够了?提示:考虑"点的重要性是否高度依赖上下文"——杂乱场景里区分目标物体 vs 背景,注意力的优势;规则点阵的几何回归,固定核可能够用。
§7 简化等变消息传递:EGNN ⭐⭐⭐¶
动机¶
§6 的 TFN/SE(3)-Transformer 精确强大,但有个让工程师头疼的问题:球谐 + CG 张量积太重了(\(O(L^6)\)),实现复杂、跑得慢。在机器人实时控制里,策略网络要在毫秒级出结果,TFN 那套数学开销往往吃不消。
于是出现了一个朴素而深刻的问题:有没有可能不用球谐、不用 CG 张量积,只用最基本的标量和向量运算,也构造出 \(E(n)\) 等变网络?
EGNN(E(n) Equivariant Graph Neural Network, Satorras, Hoogeboom & Welling, ICML 2021)给了肯定的回答,而且简单到令人惊讶。它的核心想法是:坐标只通过"相对位移"和"距离"参与运算,特征只通过不变量参与运算——这两条铁律就足以保证 \(E(n)\) 等变,完全不需要球谐和 CG。
EGNN 是机器人实时等变任务的首选,也是最容易实现、最容易理解的等变架构。本节我们把它从头搭起来,并完整证明它的等变性(这是必证清单中的定理)。
如果不这样做会怎样(反面)¶
假设我们坚持用 TFN 做一个实时抓取策略。
第一,速度跟不上。 TFN 的 CG 张量积在每条边上都要算,点云几千个点时,\(O(L^6)\) 的常数因子让单次前向就要几十毫秒甚至更久,控制频率上不去。
第二,实现和调试痛苦。 球谐、CG、irrep 类型系统,对不熟悉表示论的工程师是高门槛。一个 bug 可能藏在 irrep 拼接里,极难排查。
EGNN 把这两个痛点一起解决:纯标量和向量运算,PyTorch 几十行就能写完,跑得飞快。代价是它只能表达 \(\ell=0,1\) 的几何特征(标量和向量),高阶角度信息(\(\ell\geq 2\))它捕捉不了——对需要精细角度建模的任务(如分子力场),它不如 NequIP/MACE。但对大多数机器人任务,\(\ell=0,1\) 足够。
本质洞察:EGNN 的精妙在于发现了等变的"最小充分条件"——你不需要完整的表示论机器,只需要让"坐标以相对位移出现、特征以不变量出现"。这两条规则是 \(E(n)\) 等变的廉价实现路径。它揭示了一个普遍道理:等变不一定意味着复杂——有时最朴素的构造(相对位移加权和)恰好就满足对称性。Villar 等人(NeurIPS 2021)的"标量是万能的"定理为此提供了理论背书:原则上,所有 \(E(n)\) 等变多项式都能用标量不变量和基础几何对象(如相对位移)构造出来。
历史¶
EGNN 由 Satorras、Hoogeboom 与 Welling 在 ICML 2021 提出。它的动机正是简化当时主流的、依赖高阶表示的等变网络(TFN、SE(3)-Transformer),证明"不需要昂贵的高阶表示也能达到竞争性能"。
理论支撑来自同期 Villar 等人(NeurIPS 2021)的"Scalars are universal"——证明对 \(O(d),E(d),SE(d)\) 等群,等变多项式可以用标量不变量 + 基础几何对象表达。这说明 EGNN 的"只用标量和向量"在表达力上有理论保证(存在性层面)。
EGNN 此后被广泛用于分子性质预测、动力系统建模、以及(经改造)等变扩散生成(EDM)和机器人策略。它和 GNN 的消息传递框架无缝衔接,易于扩展。
理论:EGNN 的层(EGCL)¶
EGNN 的基本单元叫 EGCL(E(n) Equivariant Graph Convolutional Layer)。给定每个节点 \(i\) 的标量特征 \(h_i\in\mathbb{R}^{n_f}\) 和坐标 \(x_i\in\mathbb{R}^n\)(\(n=3\) 即三维),EGCL 更新它们:
第一步,算消息(只用不变量):
消息 \(m_{ij}\) 是一个标量向量(不变量),\(\phi_e\) 是普通 MLP。注意它只依赖:两端的标量特征 \(h_i,h_j\)、相对距离平方 \(\|x_i-x_j\|^2\)(旋转平移不变!)、可选边特征 \(e_{ij}\)。没有用到坐标的方向信息,只有距离——这是不变性的来源。
第二步,更新坐标(用相对位移加权):
新坐标 = 旧坐标 + 邻居相对位移 \((x_i-x_j)\) 的加权和,权重 \(\phi_x(m_{ij})\) 是标量(由不变消息算出)。坐标更新只通过"相对位移 × 标量权重"——这是等变性的来源(下面证明)。
第三步,更新标量特征(聚合不变消息):
标量特征用聚合的不变消息更新,\(\phi_h\) 是 MLP。因为消息不变、聚合(求和)不变,所以 \(h_i'\) 不变。
理论:EGNN 等变性的完整证明(必证)¶
定理(EGCL 的 \(E(n)\) 等变性)。 对任意正交变换 \(Q\in O(n)\)(旋转 + 反射)和平移 \(g\in\mathbb{R}^n\),EGCL 满足
即:标量特征 \(h_i\) 对刚体变换**不变**,坐标 \(x_i\) 对刚体变换**等变**(跟着 \(Q,g\) 变换)。
证明(逐步写清楚,这是必证清单中的定理)。 设对所有节点施加变换 \(x_i\mapsto Qx_i + g\),特征 \(h_i\) 不变(标量本就不该随刚体变换变)。我们逐步追踪 EGCL 三步的输出。
第一步消息的不变性。 变换后,相对距离平方:
其中用了 \(Q^\top Q = I\)(正交矩阵的定义性质,回顾微分几何李群专题:正交变换保内积、保长度)。平移 \(g\) 在差中抵消。所以距离平方不变。又 \(h_i,h_j,e_{ij}\) 不变,故消息
完全不变。这是关键的第一块多米诺骨牌——消息不变,意味着后续所有由消息算出的标量权重都不变。
第二步坐标更新的等变性。 变换后的坐标更新:
括号里 \((Qx_i+g)-(Qx_j+g) = Q(x_i-x_j)\)(平移抵消)。又 \(\phi_x(m_{ij})\) 因消息不变而不变。所以:
第二个等号把 \(Q\) 提到求和外(\(Q\) 是线性的,常数权重 \(\phi_x\) 可与 \(Q\) 交换),\(g\) 单独留下。结论:变换后的新坐标 = \(Qx_i' + g\)——正是"对原新坐标 \(x_i'\) 施加同样的变换"。坐标等变得证。
第三步标量特征的不变性。 因为消息 \(m_{ij}\) 不变,聚合 \(\sum_j m_{ij}\) 不变,\(h_i\) 不变,所以
不变。标量不变得证。
三步合起来:\((h_i', Qx_i'+g) = \text{EGCL}(h_i, Qx_i+g, e_{ij})\)。证毕。
本质洞察:这个证明里,整个等变性塌缩到两个朴素的代数事实——(1) 正交变换保距离(\(\|Q v\|=\|v\|\),故距离这个不变量真的不变),(2) 相对位移在正交变换下同步变换、在平移下不变(\(Q(x_i-x_j)\),平移抵消)。EGNN 把等变性建立在这两块最基础的几何砖头上,不需要球谐、不需要 CG。这就是"等变可以很便宜"的精确体现。对比 §6 TFN 那一长串球谐变换律 + CG 耦合的证明,EGNN 的证明三行就完了——这个证明长度的对比,本身就是两条路线复杂度差距的缩影。
多视角理解:EGNN 为什么"只用标量和向量"够用又不够用¶
视角一(够用:Villar 万能性)。 Villar 等人证明,\(E(n)\) 等变多项式都能写成"标量不变量(内积)× 基础几何对象(相对位移)"的形式。所以原则上,只用标量和向量(\(\ell=0,1\))的 EGNN,有能力逼近任意 \(E(n)\) 等变函数——这是**存在性**保证。
视角二(不够用:逼近速率)。 但"存在性"不等于"高效"。要用低阶特征逼近一个本质上高阶(强角度依赖)的函数,可能需要极深、极宽的网络,逼近速率很差。NequIP/MACE 用高阶 \(\ell\) 在化学任务上显著优于 EGNN,正是因为高阶特征对那些任务的逼近**速率**好得多。两者不矛盾:EGNN 万能(存在性),高阶网络高效(速率)。
回应思考题 [T2] 的核心:如何调和"标量万能"(理论)和"高阶必要"(实践)?答:万能性是存在性结果(low-\(\ell\) 网络**能**逼近任意等变函数),高阶必要性是效率结果(high-\(\ell\) 网络**更快**逼近强角度依赖函数)。存在性管"能不能",速率管"要多大网络/多少数据"。这是逼近论里"universal approximation"与"approximation rate"的经典区分。
EGNN vs TFN:核心权衡表¶
这是本章最实用的一张决策表(呼应现有内容并展开)。
| 维度 | EGNN | TFN / NequIP / MACE |
|---|---|---|
| 数学复杂度 | 低(仅标量 + 向量,\(\ell=0,1\)) | 高(球谐 + CG 张量积) |
| 计算量 | \(O(nkd)\),快约 20× | \(O(L^6)\)(CG),慢但精度高 |
| 等变特征阶 | 仅 \(\ell=0,1\) | 任意 \(\ell\) |
| 实现难度 | 低(PyTorch 几十行) | 高(需 e3nn,理解 irrep) |
| 表达力(角度细节) | 受限(无高阶角度信息) | 强(捕捉精细角度) |
| 适用场景 | 大规模、实时、机器人策略 | 高精度化学/物理、分子力场 |
| 理论依据 | Villar "标量万能"(存在性) | Wigner–Eckart(完整表示论) |
机器人选择指导:实时抓取/策略/动力学预测 → EGNN(速度优先,\(\ell=0,1\) 够用);需要精确角度建模(如接触力学、精细操纵)或离线高精度仿真 → NequIP/MACE。先用 EGNN 做 baseline,确认角度精度不足再升级到高阶。这条准则在 §9 的机器人应用里会反复用到。
理论—工程桥接(D 工具):EGNN 的极简性使它成为等变扩散(EDM)的骨干网络——在 §9 会看到,EDM 用 EGNN 作为 score 网络,因为分子生成需要在每个去噪步快速前向,EGNN 的速度优势关键。如果用 TFN 当 score 网络,扩散的几百个去噪步会慢得无法接受。架构选择直接服务于上层算法的计算预算。
阶段小结:到这里我们走完了两条 \(E(n)\) 等变路线——重而精的 TFN(§6,球谐+CG)和轻而快的 EGNN(§7,标量+向量)。EGNN 的等变性建立在"正交变换保距离 + 相对位移同步变换"两块基础砖上,三行证明搞定。两条路线的取舍(精度 vs 速度,存在性 vs 速率)是机器人选型的核心。前面七节都在讲"怎么构造等变网络"。接下来 §8 回答那个被反复预告的问题:等变性到底换来了什么好处?为什么它能大幅提升样本效率?
⚠️ 常见陷阱¶
💡 概念误区:以为 EGNN 和 TFN 表达力等价 - 新手想法:"既然 EGNN 也 \(E(n)\) 等变,而且 Villar 说标量万能,那它和 TFN 一样强。" - 现象 / 后果:在需要高阶角度建模的任务(分子力场、精细接触)上用 EGNN,精度显著不如 NequIP/MACE,却找不到原因。 - 根本原因:EGNN 只保留 \(\ell=0,1\) 特征,无法高效表达强角度依赖的函数。Villar 的"万能"是**存在性**结果,逼近**速率**可能指数级差。 - 正确做法:理解"万能性 ≠ 高效性"。EGNN 适合低阶几何足够的任务;高阶角度任务用 NequIP/MACE。按任务的角度精度需求选型。
💡 概念误区:在 EGNN 里直接用绝对坐标或坐标方向 - 新手想法:"消息里加上坐标 \(x_i\) 本身或方向 \(\hat x_{ij}\),信息更全。" - 现象 / 后果:消息不再不变(绝对坐标随平移变、方向随旋转变),破坏整个等变性证明的第一块多米诺。 - 根本原因:EGNN 等变的前提是"消息只依赖不变量(距离平方、标量特征)"。一旦消息里混入非不变量,第一步的不变性就崩了,后面全错。 - 正确做法:消息严格只用不变量(\(\|x_i-x_j\|^2\)、\(h_i\)、\(h_j\)、\(e_{ij}\))。坐标只能以"相对位移 × 标量权重"的形式出现在坐标更新里,绝不进消息。
🧠 思维陷阱:认为 EGNN 的坐标更新会破坏"特征不变" - 新手想法:"坐标在变(等变),特征怎么还能保持不变?它们不是耦合的吗?" - 现象 / 后果:怀疑 EGNN 的设计自相矛盾,不敢用,或错误地把坐标信息塞进特征更新破坏不变性。 - 根本原因:坐标和特征是两类不同对象——坐标等变(随刚体变换),特征不变(标量)。它们通过"不变的消息"耦合:坐标更新用不变权重,特征更新用不变消息。耦合通道全是不变量,所以各自的变换性质保持。 - 正确做法:清晰区分"等变量(坐标)"和"不变量(标量特征)"两条数据流,它们只通过不变量交互。这种"标量流 + 向量流"的分离设计,正是 EGNN 简洁又正确的关键。
练习¶
[7.1 · EGCL 等变性独立证明(在草稿纸上完成)] 不看正文,独立证明 EGCL 的 \(E(n)\) 等变性。对正交变换 \(Q\) 和平移 \(t\),逐步验证:(a) 消息不变(用 \(Q^\top Q=I\));(b) 坐标更新等变(把 \(Q\) 提到求和外);(c) 特征更新不变。特别注意第二步中 \(g\)(平移)如何在相对位移中抵消,又如何在最终结果中单独保留。
[7.2 · EGNN vs MLP 样本效率(设计实验)] 设计一个对比实验:在 N-body 弹簧系统(\(n\) 个质点用弹簧相连,预测未来位置)上,分别用 EGNN 和标准 MLP 训练。描述:(a) 如何验证 EGNN 的预测对全局旋转等变而 MLP 不等变;(b) 预期在小数据量下哪个泛化更好,为什么(联系 §8);(c) 如何量化样本效率差距。无需真跑,写出实验方案和预期。
[7.3 · 开放思考:EGNN 的局限边界] EGNN 只用 \(\ell=0,1\)。构造一个"必须用 \(\ell\geq 2\) 才能高效表达"的等变任务的例子,说明 EGNN 在该任务上会遇到什么困难。提示:考虑需要区分"两个键之间夹角"的任务(如分子构象)——夹角是二阶角度信息,单纯的相对位移和距离难以高效编码精细的角度分布。这道题帮你触摸 EGNN 表达力的天花板。
§8 为什么等变性提升样本效率 ⭐⭐⭐⭐¶
动机¶
前面七节我们费了很大力气,把对称性焊进网络结构。一个尖锐的问题始终悬而未决:这一切麻烦,到底换来了什么实实在在的好处?
工程师最关心的答案是:省数据。 等变网络在很多任务上,用十分之一甚至百分之一的数据,就能达到普通网络要海量数据才能达到的性能。Wang 等人(ICLR 2022)在机器人操作任务上观测到样本效率提升 10–100 倍;NequIP(§6)在分子力场上数据效率提升约 1000 倍。这不是小修小补,是数量级的差异。
但"为什么"才是本节的核心。我们要从统计学习理论的角度,把这个"省数据"的现象解释清楚——它不是玄学,而是有精确数学机制的。核心一句话先放这里:等变性把模型的"有效维度"从 \(\dim V\) 降到了 \(\dim V - \dim G\),有效维度降低直接降低样本复杂度。 本节就来拆解这句话。
如果不理解这一点会怎样(反面)¶
如果你只会用等变网络而不懂它为什么省数据,会犯两类错误。
第一,盲目套用,事倍功半。 你可能在一个对称性并不存在的任务上强行用等变网络(比如环境有重力打破了 \(SO(3)\) 对称,却用全 \(SO(3)\) 等变网络),结果不仅没省数据,还因为错误的约束损害了性能。理解"对称性约束如何转化为样本效率",才能判断什么时候该用、用哪个对称群。
第二,无法向他人/自己论证投入的合理性。 等变网络实现复杂、计算重。如果不能定量说清"它能省多少数据、为什么",你就无法判断这份额外投入值不值。理解了样本复杂度机制,你能做出"这个任务对称性强、数据贵,值得上等变网络"或"这个任务数据便宜、对称性弱,数据增广就够"的理性决策。
本质洞察:等变性带来的样本效率,本质是"用先验知识替代数据"。对称性是关于世界的、无需从数据中学习的先验(旋转不改变物体本质)。把这个先验硬编码进网络,网络就不必"花数据"去学它,省下的数据预算可以投入到学习真正困难的、数据中才有的规律。这是"归纳偏置换样本效率"这一机器学习普遍原理的一个极清晰、极可量化的实例。
历史¶
"对称性/不变性提升泛化"的直觉很早就有(CNN 的平移不变省数据是公认常识)。但严格的理论刻画是近些年的事。
Elesedy 与 Zaidi(ICML 2021)给出了线性模型上的严格泛化收益定理——证明对 \(G\)-不变目标,等变模型的超额风险严格小于非等变模型,给出了"非零"的可量化收益。同年及之后,多篇工作从 PAC-Bayes、Rademacher 复杂度、样本复杂度等角度刻画等变网络的泛化(如 A PAC-Bayesian Generalization Bound for Equivariant Networks 2022;One Hidden Layer Networks with Equivariance, Locality and Weight Sharing 的样本复杂度分析 2024)。
理论上最干净的刻画来自"有效维度约简"的视角:等变性把学习问题从全空间 \(V\) 约化到商空间 \(V/G\),维度从 \(\dim V\) 降到 \(\dim V - \dim G\)(对自由作用的连续群)。Siegel 等人(2026)给出了定量逼近速率 \(O(\varepsilon^{-(\dim V - \dim G)/\alpha})\),首次把"维度约简"和"逼近速率"精确联系起来。
一个仍开放的前沿:非线性深度等变网络的泛化下界(minimax lower bound)尚未完全解决。Elesedy-Zaidi 的严格收益是对**线性**模型的;深度网络的精确收益是 §9 末尾开放问题之一。本节讲清楚机制和已知结果,但要诚实标注理论的边界。
理论机制一:有效维度约简¶
这是最核心、最直观的机制。我们用一个干净的几何图景讲清楚。
普通网络要在整个输入空间 \(V\)(比如所有可能的点云)上学习目标函数 \(f\)。但如果 \(f\) 是 \(G\)-等变的,那么 \(f\) 在"一个群轨道"(orbit,即 \(\{g\cdot x: g\in G\}\),一个点云的所有旋转平移版本)上的值是相互决定的——知道 \(f(x)\),就知道 \(f(g\cdot x) = g\cdot f(x)\)。
所以等变网络**不需要在整个 \(V\) 上独立学习**,只需要在**商空间** \(V/G\)(每个群轨道缩成一个点)上学习。商空间的维数是
(对 \(G\) 自由作用的情形;\(\dim G\) 是群的维数,如 \(\dim SO(3)=3\),\(\dim SE(3)=6\))。
用一个具体数字感受。 假设输入是单个三维点的位置 \(V=\mathbb{R}^3\)(\(\dim V=3\)),任务对 \(SO(3)\) 等变(\(\dim G=3\))。商空间维数 \(3-3=0\)——意味着所有方向的点本质上"等价",等变网络只需学"到原点的距离"这一个自由度(一维不变量),而非整个三维空间。普通网络要在三维空间铺满样本,等变网络只需在一维(距离)上铺样本。有效维度从 3 降到接近 0,样本需求天差地别。
更现实的例子:点云姿态估计,\(\dim V\) 很大(几千个点 × 3),但 \(\dim SE(3)=6\)。等变性砍掉 6 维冗余。虽然占比小,但因为样本复杂度通常随有效维度**指数**增长(维数灾难),砍掉的这几维也可能带来显著的数据节省,尤其当任务的"难度"集中在被砍掉的对称方向上时。
本质洞察:样本复杂度大致随"有效维度"指数增长(这是维数灾难的核心)。等变性把有效维度从 \(\dim V\) 降到 \(\dim V-\dim G\),相当于在指数的肩膀上做减法——哪怕只减几维,对样本需求也可能是数量级的影响。这就是"为什么对称性省数据"最本质的数学解释:它砍掉了学习问题的有效维度。
类比(标注边界):等变性约简维度,像**解微分方程时利用对称性降阶。**相似之处仅在于:都是"利用已知的对称结构,把问题约化到更低维的本质空间求解"。不同之处在于:微分方程降阶是精确的代数操作(如用守恒量消去一个变量),等变网络的维度约简体现在"假设空间"和"样本复杂度"上,是统计意义的而非逐点代数的。不要把类比延伸到:"降阶后一定有闭式解"——等变网络约简后仍是个统计学习问题,没有闭式解,只是有效维度更低。
理论机制二:假设空间收缩(VC 维 / PAC 视角)¶
从"假设空间大小"角度再看一遍,得到互补的理解。
学习理论里有个基本结论:模型的泛化误差(测试与训练误差的差距)大致受**假设空间复杂度**(如 VC 维、Rademacher 复杂度)控制——假设空间越大(模型越灵活),越容易过拟合,需要越多数据来约束。
等变约束把假设空间从全空间 \(\mathcal{H}\)(所有可能的网络函数)收缩到等变子空间 \(\mathcal{H}_G\)(只含等变函数)。\(\mathcal{H}_G\) 比 \(\mathcal{H}\) 小得多。对有限群 \(G\),一个粗略的估计是
即假设空间维度大约缩小 \(|G|\) 倍(群越大,约束越强,假设空间越小)。相应地,PAC 样本复杂度
更小的假设空间 → 更小的 VC 维 → 更少的样本需求。这与机制一(维度约简)是同一现象的两种表述:维度约简是从"输入/输出空间"看,假设空间收缩是从"函数空间"看。
机器人直觉(呼应等变 RL):在 \(G\)-等变强化学习里,等变 Q 网络的假设类 \(\mathcal{H}_G\subset\mathcal{H}\),由等变约束把有效维度从 \(\dim\mathcal{H}\) 降到约 \(\dim\mathcal{H}/|G|\)。PAC 样本复杂度随之降低,这定量解释了 Wang 等人观测到的 10–100 倍样本效率提升——抓取/推拉任务有 \(C_4\) 或更大的旋转对称,\(|G|\) 较大,假设空间收缩显著。
理论机制三:Elesedy–Zaidi 的严格收益(线性模型)¶
前两个机制是"直觉 + 量级"。Elesedy–Zaidi 给了一个**严格**的、可写出公式的收益(代价是限于线性模型)。
定理(Elesedy–Zaidi, ICML 2021,骨架)。 若目标分布是 \(G\)-不变的,\(\hat f\) 是最小范数最小二乘(OLS)解,\(\bar{\hat f}\) 是它的等变投影,则等变投影的超额风险**严格小于**原解,差额至多为
其中 \(\Pi_G^\perp\) 是"非等变子空间"上的投影,\(\Sigma\) 是数据协方差。
怎么读这个公式。 \(\Pi_G^\perp\Sigma\) 衡量"数据在非等变方向上的方差"。这个比值越大(数据在非等变方向上越分散),等变投影砍掉的误差越多,收益越大。直觉:等变投影把估计量在"对称性禁止的方向"上的分量清零,这些分量纯粹是噪声(因为真目标在那些方向上为零),清零它们必然降低误差。这给出了**非零**的、可量化的严格收益。
诚实标注理论边界(对比性思维):这个收益是严格的,但仅对线性模型。它**不是**"等变网络在任何情况下都更好"的证明。对非线性深度网络,等变性的精确泛化收益**仍是开放问题**(minimax 下界未知)。更要警惕:Wang 等人(2023)发现,在**部分观测**或**对称性不精确**的情形下,强制严格等变可能**有害**——它约束掉了网络应对"对称性破缺"所需的灵活性。所以正确的认识是:等变性在"对称性确实成立且完整观测"时带来严格收益,但它不是无条件的银弹。这一点对机器人尤其重要——真实环境的对称性常被重力、相机视角、碰撞打破(§9 会展开)。
一个具体的样本数算例:抓取任务里等变省了多少数据¶
抽象的"维度约简"听起来很玄,我们用一个尽量贴近机器人的算例把它落到具体数字上。这个算例不追求严格(真实样本复杂度依赖很多因素),目的是让你**直观感受数量级**。
设定。 桌面俯视抓取,物体可绕竖直轴任意旋转(连续 \(SO(2)\) 对称)。假设我们想让网络在"物体处于任意朝向"时都能正确抓取,且把朝向离散成 \(K\) 个角度刻度来衡量"覆盖"。
非等变 + 数据增广的样本需求。 普通网络不知道"转一个角度还是同一个物体"。要让它在每个朝向都见过足够样本,至少需要把每个物体的每个朝向都喂一遍。设每个朝向需要 \(m_0\) 个样本才能学好"该朝向下的抓取",则总样本需求约
朝向刻度 \(K\) 越细(比如要应对 \(1°\) 精度,\(K=360\)),数据需求线性膨胀。连续 \(SO(2)\) 极限下 \(K\to\infty\),理论上需无穷多样本才能完美覆盖——实践中只能取有限 \(K\),在刻度之间靠插值,泛化没有保证。
等变网络的样本需求。 等变网络从结构上就知道"转角度等价"。它只需要在**一个**朝向上学好抓取,其余朝向由等变性**自动**给出(\(\pi^*(gs)=g\pi^*(s)\),§9)。于是
比值。 \(N_{\text{aug}}/N_{\text{equiv}}\approx K\)。如果朝向覆盖到 \(K\sim 10\text{--}100\) 个刻度,这就是 **10–100 倍**的样本节省——正好对上 Wang 等人在真实机器人上观测到的数量级!这不是巧合:他们任务的对称群(\(C_4\) 到连续 \(SO(2)\))的"等效刻度数"正在这个范围。
为什么不是简单的线性关系,有时更夸张? 上面是单一对称维度的情形。如果任务同时有多个对称维度(比如 \(SE(3)\) 的 6 维),且各维度的"覆盖"需求相乘(组合爆炸),那么非等变的数据需求是各维度刻度的**乘积** \(K_1 K_2\cdots\),而等变网络一次性消除所有这些维度。这就是为什么 NequIP 在 \(E(3)\)(含旋转 3 维)上能达到 1000× 数据效率——多个对称维度的节省相乘,远超单维度的 10–100×。这也精确印证了 §8 机制一"有效维度约简"的指数效应:每砍掉一个对称维度,数据需求就除以一个刻度因子,多个维度相乘就是数量级的跃升。
本质洞察:这个算例揭示了样本效率红利的"乘法结构"——对称群的每一个维度,都对应数据需求里的一个乘性因子。非等变方法要靠数据"填满"每个对称维度(因子相乘),等变方法把这些因子一次性约掉(除以乘积)。所以"等变省多少数据"≈"对称群有多大"——群越大、维度越多,省得越夸张。这把抽象的 \(\dim V-\dim G\) 翻译成了工程师能感受的数字:每多一个对称维度,就少一个数量级的数据(粗略地)。
等变 vs 数据增广:本质区别(对比性思维)¶
这是工程师最常纠结的对比,本节用样本效率框架给个清晰答案。
| 维度 | 等变网络(硬约束) | 数据增广(软约束) |
|---|---|---|
| 对称性满足 | 精确(对任意 \(g\),结构保证) | 近似(仅在见过的变换附近) |
| 样本效率 | 有效维度直接降低,省数据 | 需额外样本覆盖变换,费数据 |
| 灵活性 | 受限(只能表达等变函数) | 通用(任意架构可用) |
| 实现 | 复杂(需 e3nn 或专门设计) | 简单(训练时变换数据即可) |
| 对称性不精确时 | 可能有害(约束太死) | 较鲁棒(软约束可适应) |
| 计算 | 推理时无额外开销 | 训练时变换数据有开销 |
核心区别一句话:等变网络把对称性写进**结构**(参数空间就只含等变函数),数据增广把对称性写进**数据/损失**(鼓励但不强制)。前者省数据、精确,但死板;后者费数据、近似,但灵活。
本质洞察:数据增广是"用数据教网络对称性",等变网络是"告诉网络对称性、不用数据教"。两者的样本效率差距,正是"学一个已知先验"和"白送一个已知先验"的差距。但这个差距是有条件的——当对称性精确成立时,白送(等变)显然划算;当对称性只是近似时,硬塞一个不完全对的先验可能反受其害,此时软约束(增广)的灵活性反而是优点。这解释了为什么实践中两者常**结合**使用:用等变网络编码确定的对称(如平移),用数据增广处理近似的对称(如光照、视角)。
多视角理解:三个层次看"省数据"¶
把本节的机制按抽象层次串起来(系统性分类,E 工具):
| 层次 | 视角 | "省数据"的来源 | 代表结果 |
|---|---|---|---|
| 几何层 | 维度约简 | 学习从 \(V\) 降到 \(V/G\),有效维度 \(\dim V-\dim G\) | Siegel 速率 \(O(\varepsilon^{-(\dim V-\dim G)/\alpha})\) |
| 函数层 | 假设空间收缩 | \(\mathcal{H}_G\subset\mathcal{H}\),VC 维降低 | PAC 样本复杂度 \(m\propto\text{VC}(\mathcal{H}_G)\) |
| 统计层 | 方差消除 | 砍掉非等变方向的噪声分量 | Elesedy–Zaidi 严格收益 |
三个层次指向同一个结论,但解释深度递增:几何层告诉你"少学几维",函数层告诉你"假设空间小了",统计层告诉你"噪声方差被砍了"。三者一致地预言:对称性强、数据贵的任务,等变网络的样本效率优势最大。
阶段小结:到这里我们彻底回答了"等变性换来什么"——样本效率,且有三层精确机制:维度约简(\(\dim V\to\dim V-\dim G\))、假设空间收缩(\(\mathcal{H}_G\subset\mathcal{H}\))、方差消除(Elesedy–Zaidi 严格收益)。同时诚实标注了边界:严格收益限于线性模型,对称性不精确时等变可能有害。接下来 §9 把全章的理论落地到机器人——抓取、强化学习、描述子场、位姿估计,看对称性如何变成机器人系统的真实红利。
⚠️ 常见陷阱¶
💡 概念误区:以为等变性"在任何任务上都提升样本效率" - 新手想法:"等变网络省数据,那所有任务都该用,越多对称约束越好。" - 现象 / 后果:在对称性不成立或只是近似的任务上强行用等变网络,性能反而下降,浪费实现成本。 - 根本原因:样本效率收益的前提是"任务真的有那个对称性"。若对称性不成立(如重力打破 \(SO(3)\)),等变约束是**错误**的先验,会损害性能(Wang et al. 2023)。 - 正确做法:先分析任务的真实对称群。对称性确凿且完整观测 → 等变网络收益大;对称性近似或部分观测 → 考虑近似等变、或数据增广、或更小的对称子群。
🧠 思维陷阱:把"有效维度约简"理解成"模型变弱了" - 新手想法:"维度从 \(\dim V\) 降到 \(\dim V-\dim G\),模型能表达的东西变少了,肯定更弱。" - 现象 / 后果:担心等变网络表达力不够,不敢用,或过度增大网络补偿。 - 根本原因:维度约简砍掉的是**对称性禁止的、本就不该有的**自由度(学了也是冗余或噪声)。对**等变目标函数**,约简后的模型表达力完全够(甚至因为不学冗余而更好)。约简的是"无用自由度",不是"有用容量"。 - 正确做法:理解约简针对的是等变任务——对等变目标,被砍的维度本就该是零。只有当目标其实不等变时,约简才真的丢了东西(此时不该用等变网络)。
🧠 思维陷阱:认为 Elesedy–Zaidi 证明了"深度等变网络一定更好" - 新手想法:"有定理证明等变网络泛化更好,所以深度等变网络也一定更好。" - 现象 / 后果:过度自信,在深度非线性场景套用线性理论的结论,遇到反例(部分观测下等变有害)时困惑。 - 根本原因:Elesedy–Zaidi 的严格收益是对**线性模型**的。非线性深度网络的精确收益是开放问题,且已知在某些设定(部分观测、对称破缺)下等变可能有害。 - 正确做法:把已知理论的适用范围记清楚——线性模型有严格收益,深度网络有强经验证据但无完整理论保证。实践中以经验为准,理论提供直觉和方向,不要过度外推。
练习¶
[8.1 · 维度约简计算] 对下列任务算出有效维度 \(\dim V-\dim G\):(a) 单点位置 \(V=\mathbb{R}^3\),\(G=SO(3)\);(b) 单点位置 \(V=\mathbb{R}^3\),\(G=SE(3)\)(注意:\(SE(3)\) 在单个点上的作用是否自由?这影响 \(\dim(V/G)\) 的计算);(c) 两点位置 \(V=\mathbb{R}^6\),\(G=SE(3)\)。对 (b) 特别讨论:单个点在平移下可移到任意位置,在旋转下绕自身不动——商空间维数是多少?
[8.2 · 样本效率量级估计(思考)] 假设样本复杂度随有效维度 \(d\) 大致按 \(m\sim C^d\)(\(C>1\))增长。一个任务 \(\dim V=10\),用 \(G=SO(3)\)(\(\dim G=3\))等变网络。估算等变 vs 非等变的样本需求比值。讨论:为什么"砍掉 3 维"能带来远超 \(3/10\) 的数据节省?(提示:指数 vs 线性。)
[8.3 · 开放思考:等变 vs 增广的临界点] 在什么条件下,数据增广的样本效率会**接近**等变网络?在什么条件下,等变网络的优势最大?提示:考虑两个极端——(a) 对称群极小(如只有恒等和一个翻转,\(|G|=2\))时,增广只需翻倍数据,差距小;(b) 对称群是高维连续群(如 \(SE(3)\),无穷多元素)时,增广无法穷举,等变优势巨大。结合 §8 的有效维度框架定量论证。
§9 机器人应用:等变性如何落地 ◉⭐⭐⭐¶
动机¶
前面八节建立了完整的理论:群作用、表示、Schur 引理、群卷积、球谐与 CG、TFN/EGNN、样本效率。现在到了兑现承诺的时候——这套机器在机器人里到底怎么用?
本节把理论落到四个具体的机器人场景:等变抓取生成、等变强化学习、神经描述子场(类别级操纵)、可证位姿估计(SE-Sync)。每个场景我们都会指出它用到了前面哪些理论,以及它如何呼应微分几何李群专题里的 SE(3) 工具。一条贯穿的主线是:机器人世界的对称性(旋转、平移、置换),通过等变网络变成可观的样本效率和泛化红利。
如果不这样做会怎样(反面)¶
不用等变方法做机器人感知与操作,前面已多次提及,这里系统归纳成三条具体代价:
- 数据成本爆炸。 真实机器人数据极贵(每条演示要人工操作机械臂)。不用等变,你得为每个物体朝向、每个位置分别收集数据——成本随对称群大小线性甚至指数增长。
- 泛化脆弱。 训练时物体正放,部署时物体被随机摆放,普通网络性能崩塌。等变网络一次演示自动泛化到所有 \(SE(3)\) 姿态。
- 错失可证保证。 像 SE-Sync 这样"在正确群上设计优化"的方法能给出**可证全局最优**的位姿估计;不利用群结构,你只能用可能陷入局部最优的通用优化器,没有正确性保证。
本质洞察:机器人对数据效率和可靠性的要求,比纯视觉/NLP 高得多——真实世界的试错代价高、数据贵、安全攸关。这恰恰是等变性大放异彩的舞台:它用"免费的几何先验"换"昂贵的真实数据",用"群结构的数学保证"换"通用优化的不确定性"。对称性在机器人里不是锦上添花,而是雪中送炭。
应用一:等变抓取与等变强化学习¶
等变强化学习(Wang, Walters & Platt, ICLR 2022)。 考虑桌面操作任务(抓取、推、拉),俯视视角下有 \(C_4\)(90 度旋转)甚至连续 \(SO(2)\) 对称——把整个场景转 90 度,最优策略也跟着转 90 度。
定理(\(G\)-不变 MDP 的对称性)。 在 \(G\)-不变马尔可夫决策过程中(奖励 \(R(s,a)=R(gs,ga)\)、转移 \(T(s,a,s')=T(gs,ga,gs')\)),最优 Q 函数和最优策略满足:
即 Q 函数 \(G\)-不变,策略 \(G\)-等变。用 \(G\)-等变 Q 网络和策略网络编码这个对称性,在抓取/推拉等 2D 操作任务中样本复杂度提升 10–100 倍——真实机器人在不到 2 小时内从零学会操作(Wang et al. CoRL 2022)。
用到了哪些理论。 这里的 Q 网络/策略网络用 §3 的群卷积(对 \(C_4\)/\(SO(2)\))或 §4 的等变层构造。样本效率的 10–100 倍提升,正是 §8 机制二(假设空间收缩 \(\mathcal{H}_G\approx\mathcal{H}/|G|\))的直接体现——\(C_4\) 对称使假设空间缩小约 4 倍,连续 \(SO(2)\) 缩小更多,PAC 样本复杂度随之大降。
理论—工程桥接(D 工具):定理 \(Q^*(gs,ga)=Q^*(s,a)\) 的证明从 Bellman 最优方程出发做归纳——这是练习里要你做的。工程上,它告诉你"不必让网络从数据里学会'转 90 度的场景等价',直接用等变网络白送"。这把强化学习中最稀缺的资源(真实交互样本)的需求砍掉一个数量级。
应用二:神经描述子场(类别级操纵)¶
Neural Descriptor Fields(NDF, Simeonov et al. ICRA 2022)。 目标:让机器人从几次演示就泛化到"同类别、任意姿态"的新物体(比如演示了抓几个杯子,就能抓任意摆放的新杯子)。
NDF 构造一个 \(SE(3)\)-等变的点描述子 \(\phi_\theta(\vec p;\mathcal{P})\)(给定物体点云 \(\mathcal{P}\),描述空间中一点 \(\vec p\) 相对物体的"语义位置"),满足
操纵流程(三步):
- 从演示中提取"关键点"的描述子 \(\phi^*\)(如"杯把上方 5cm 处"的描述子)。
- 新场景中搜索使描述子匹配的位姿:\(T^* = \arg\min_T\|\phi_\theta(T\cdot\vec p;\mathcal{P}_{\text{new}}) - \phi^*\|\)。
- 由 \(SE(3)\) 等变性,\(T^*\) **自动补偿**新物体的姿态变化——物体怎么摆,描述子场跟着转,匹配出的位姿也跟着转。
5–10 次演示即可泛化到任意 6-DoF 姿态,这是类别级操纵的里程碑。后续 EDDF(Simeonov et al. CoRL 2023)推广到多物体关系重排。
用到了哪些理论。 描述子 \(\phi_\theta\) 用 §6 的 \(SE(3)\) 等变网络(TFN 式)构造。"5–10 次演示就泛化"正是 §8 样本效率的体现——等变性把"学会所有姿态"约简为"学会一个姿态 + 自动补偿"。这里直接用到微分几何李群专题的 \(SE(3)\):搜索的位姿 \(T\in SE(3)\) 就是那里讲的刚体位姿,\(T\cdot\vec p = R\vec p + t\) 就是那里的群作用。
类比(标注边界):NDF 的描述子场**像**给物体建了一套"内禀坐标系",贴在物体上随物体一起转。相似之处仅在于:都是"参考系绑定在物体上,物体动参考系跟着动"。不同之处在于:NDF 的描述子是高维语义向量(不变量),不是简单的三个坐标轴;它编码的是"相对物体的语义位置"而非几何坐标。不要把类比延伸到:"内禀坐标系一定正交完备"——NDF 描述子是学出来的、可能冗余的语义嵌入,没有正交性保证,只保证 \(SE(3)\) 等变。
应用三:可证位姿估计 SE-Sync¶
SE-Sync(Rosen, Carlone et al. IJRR 2019)。 位姿图 SLAM 的核心问题:给定一堆相对位姿测量(带噪声),估计所有节点的全局位姿。这是 \(SE(d)^n\)(\(n\) 个位姿)上的最大似然估计,非凸,通用优化器可能陷局部最优。
SE-Sync 把这个 MLE 松弛为 \(SE(d)^n\) 上的半定规划(SDP),并证明:当测量噪声低于一个显式阈值时,松弛是**紧的**(tight)——SDP 的解恰好就是原问题的全局最优。于是得到**可证全局最优**的位姿估计。
它和等变网络的关系(统一视角)。 SE-Sync 不是神经网络,但它和等变网络共享同一个灵魂:在正确的群上设计问题。SE-Sync 把优化目标定义在 \(SE(d)^n\) 这个正确的群流形上,利用群结构得到可证性;等变网络把对称性编码进结构,利用群结构得到样本效率。两者在 certifiable perception(可证感知,Yang–Carlone TPAMI 2022)中汇合——前沿方向是把 SE-Sync 的可证估计和 SE(3)-等变生成端到端整合。
呼应微分几何李群专题。 SE-Sync 完全建立在那里的工具上:\(SE(d)\) 群、流形上的优化、(隐含的)指数映射和切空间。它是"在李群上做优化"的典范,而本章是"在李群对称下做学习"——两者是李群在机器人里的两大应用方向。
本质洞察:SE-Sync 和等变神经网络揭示了同一条深刻原理——利用问题的群结构,能换来普通方法换不到的东西。SE-Sync 换来"可证全局最优",等变网络换来"样本效率"。群结构不是装饰,而是一座金矿:优化方法从中挖出可证性,学习方法从中挖出数据效率。这正是为什么"对称性主线"从抽象群论一路贯穿到李群、再到这里的等变网络——它是连接数学结构与工程红利的主动脉。
应用四:等变扩散与抓取生成¶
简述等变生成模型在机器人抓取上的应用,它综合了本章和扩散模型的思想。
SE(3)-DiffusionFields(Urain et al. ICRA 2023)。 6-DoF 抓取生成:在 \(SE(3)=\mathbb{R}^3\rtimes SO(3)\) 上做扩散,score 网络 \(s_\theta:SE(3)\to\mathfrak{se}(3)\) 给出"空间速度"(指向高质量抓取的方向)。
等变性约束。 若能量 \(E_\theta(T)\) 在 \(T\mapsto gT\) 下不变,则 score 满足
其中 \(\mathrm{Ad}_g\) 是**伴随表示**——正是微分几何李群专题里讲的那个 \(\mathrm{Ad}\)!含义:旋转物体,score 场(抓取偏好)同步旋转,生成的抓取姿态自动一致。这里 score 是李代数 \(\mathfrak{se}(3)\) 里的元素(空间速度),它在群作用下按伴随表示变换——这是李群专题"伴随表示描述换参考系看旋量"在生成模型里的直接应用。
用到了哪些理论。 score 网络用 §6/§7 的 \(SE(3)\) 等变网络(常用 EGNN 骨干,因为扩散要跑几百个去噪步,需要快——§7 的速度优势在此关键)。等变约束保证生成分布在 \(SE(3)\) 下不变(§8 的对称性 → 样本效率,等变约束消除旋转平移的数据冗余)。
理论—工程桥接(D 工具):把 learned score 当作可微 cost,与碰撞/关节限位 cost 加权叠加,做 Langevin MCMC,就能在生成抓取的同时满足运动学约束(联合运动-抓取优化)。这把"等变生成"和"机器人约束优化"焊在一起——等变网络出候选抓取,约束优化保证可行性。
系统性总结:机器人任务 → 对称性 → 架构(E 工具)¶
把本章对机器人的指导浓缩成一张决策表,这是全章最实用的落地工具。
| 机器人任务 | 对称类型 | 不变还是等变 | 推荐架构 | 用到的核心理论 |
|---|---|---|---|---|
| 物体分类 | \(SO(3)\)/\(SE(3)\) | 不变 | 不变池化 + 任意骨干 | §1 不变定义、§2 平凡表示 |
| 点云分割 | \(SE(3)\) + 置换 | 等变 | EGNN / TFN | §4 置换等变、§6/§7 |
| 6-DoF 位姿估计 | \(SE(3)\) | 等变 | TFN / SE(3)-Transformer | §6 等变卷积/注意力 |
| 抓取生成 | \(SE(3)\) | 等变 | SE(3)-DiffusionFields(EGNN 骨干) | §6/§7 + 等变扩散 |
| 操作策略(俯视) | \(C_4\)/\(SO(2)\) | Q 不变、策略等变 | 等变 Q 网络(群卷积) | §3 群卷积、§8 样本效率 |
| 类别级操纵 | \(SE(3)\) | 等变描述子 | 神经描述子场(TFN 式) | §6 + §8 |
| 位姿图优化 | \(SE(d)^n\) | 在群上优化 | SE-Sync(SDP,非网络) | 李群专题 + 群结构 |
| 多体动力学预测 | \(E(n)\) + 置换 | 等变 | EGNN | §4 + §7 |
读表方法:先定对称类型(看任务在什么变换下不变/协变),再定不变还是等变(看 §1 准则:"答案跟着输入转吗"),最后按精度—速度需求在 EGNN(快)和 TFN(精)间选(§7 决策表)。
跨章桥接:李群专题的工具如何在本章"复活"¶
本章反复用到微分几何与李群专题的工具,这里集中梳理一遍,让你看清两章的血脉相连——这不是简单的"前置依赖",而是同一套数学在两个层面(优化状态表示 vs 学习对称约束)的两次登场。
| 李群专题的工具 | 在那里解决什么 | 在本章如何复用 |
|---|---|---|
| \(SO(3)\) / \(SE(3)\) 群 | 位姿表示、坐标变换复合 | §1 的对称群、§6 的等变目标群、§9 抓取位姿搜索空间 |
| 指数映射 \(\exp:\mathfrak{g}\to G\) | 把切空间扰动搬到群上 | §9 等变扩散在 \(SE(3)\) 上加噪用李群布朗运动,依赖 exp |
| 伴随表示 \(\mathrm{Ad}_g\) | 换参考系看同一个旋量 | §9 等变 score 约束 \(s_\theta(gT)=\mathrm{Ad}_g s_\theta(T)\)——score 是 \(\mathfrak{se}(3)\) 元素,按 \(\mathrm{Ad}\) 等变 |
| 反对称矩阵 \(\leftrightarrow\) 向量(hat 映射) | \(\mathfrak{so}(3)\) 与 \(\mathbb{R}^3\) 同构 | §5 \(D^1\otimes D^1\) 分解里,叉积 = 反对称部分,直接用 hat 同构 |
| 正交矩阵保内积 \(Q^\top Q=I\) | 旋转保长度 | §7 EGNN 等变性证明第一步:距离不变 \(\|Q(x_i-x_j)\|=\|x_i-x_j\|\) |
| 在群流形上做优化 | 位姿图优化、SLAM | §9 SE-Sync:\(SE(d)^n\) 上的 SDP,与等变网络共享"在正确群上设计问题"的灵魂 |
本质洞察:微分几何李群专题和本章,是李群在机器人里的**两个正交应用方向**——前者把李群用作"状态的容器"(在弯曲群空间上保存位姿,在切空间里表示扰动),后者把李群用作"对称的约束"(要求网络对群作用等变)。同一个 \(SE(3)\),在那里是"机器人在哪、朝哪",在这里是"网络该如何响应旋转平移"。当你看到 §9 的 \(s_\theta(gT)=\mathrm{Ad}_g s_\theta(T)\) 时,那个 \(\mathrm{Ad}_g\) 和李群专题里 IMU 预积分、位姿图优化用的是**字面意义上同一个伴随表示**——这就是为什么本章把微分几何李群专题列为硬依赖。
阶段小结:到这里我们把全章理论落地到了机器人的四大场景——等变 RL(样本效率 10–100×)、神经描述子场(5–10 次演示泛化)、SE-Sync(可证位姿估计)、等变抓取扩散(伴随表示约束)。它们全部呼应微分几何李群专题的 \(SE(3)\)、伴随表示 \(\mathrm{Ad}\) 工具,把"在李群上保存状态"延伸到"在李群对称下学习"。至此九节正文完成,下面进入全章总结与查阅工具。
⚠️ 常见陷阱¶
💡 概念误区:在重力主导的任务里强用完整 \(SO(3)\) 等变 - 新手想法:"机器人操作是三维的,用 \(SO(3)\) 等变准没错。" - 现象 / 后果:在有重力、有固定地面的任务(如倒水、码放)里强制 \(SO(3)\) 等变,网络无法表达"竖直方向特殊"这一关键物理,性能下降。 - 根本原因:重力打破了完整 \(SO(3)\) 对称——绕竖直轴转(\(SO(2)\))仍对称,但翻转上下不对称。真实对称群是 \(SO(2)\)(绕重力轴)而非 \(SO(3)\)。 - 正确做法:分析任务的**真实**对称子群。桌面操作通常是 \(SO(2)\)/\(C_n\)(绕竖直轴),不是 \(SO(3)\)。用对称子群匹配的等变网络(§8 陷阱也强调了这点)。
💡 概念误区:混淆抓取任务里的不变与等变(再次强调,因后果严重) - 新手想法:"抓取网络对旋转鲁棒就行,不变等变无所谓。" - 现象 / 后果:把抓取**位姿**生成(应等变)做成不变,网络对所有物体朝向输出同一个抓取姿态,完全错误。 - 根本原因:抓取位姿是 \(SE(3)\) 元素,必须随物体姿态等变(物体转,抓取转);只有"能不能抓"的布尔判断才不变。 - 正确做法:抓取位姿生成用等变(§1 准则)。可参考 SE(3)-DiffusionFields 的 \(s_\theta(gT)=\mathrm{Ad}_g s_\theta(T)\)——score 按伴随表示等变,绝非不变。
🧠 思维陷阱:以为等变网络能替代所有传统几何方法(如 SE-Sync) - 新手想法:"有了等变神经网络,位姿估计这些都能端到端学,不需要 SE-Sync 那种优化方法了。" - 现象 / 后果:放弃可证方法,纯靠学习做安全攸关的位姿估计,失去全局最优保证,在极端情形可能给出灾难性错误估计。 - 根本原因:等变网络换来的是样本效率,**不是**可证正确性。SE-Sync 换来的是可证全局最优,**不是**样本效率。两者解决不同问题,互补而非替代。 - 正确做法:安全攸关、需要正确性保证的估计用可证方法(SE-Sync);需要从数据学复杂模式、可容忍偶尔错误的用等变网络。前沿是两者结合(certifiable perception)。
练习¶
[9.1 · 等变 Q 函数证明(在草稿纸上完成)] 在 \(G=C_4\)(90 度旋转群)不变 MDP 中,证明 \(Q^*(gs,ga)=Q^*(s,a)\)。提示:从 Bellman 最优方程 \(Q^*(s,a)=R(s,a)+\gamma\sum_{s'}T(s,a,s')\max_{a'}Q^*(s',a')\) 出发,代入 \(R,T\) 的 \(G\)-不变性,做归纳(或不动点论证)。再由此推出策略等变 \(\pi^*(gs)=g\pi^*(s)\)。
[9.2 · 任务对称性分析] 对下列机器人任务,分析其**真实**对称群(注意重力、地面、视角的破缺效应),并指出该用不变还是等变:(a) 桌面俯视抓取;(b) 空间中自由漂浮物体的抓取(无重力,如太空机器人);(c) 倒水任务;(d) 平面移动机器人导航。对每个,说明对称群是 \(SO(3)\)、\(SO(2)\)、\(SE(2)\)、还是别的,为什么。
[9.3 · 跨章综合题(综合 §6、§8、§9 + 微分几何李群专题)] 设计一个 \(SE(3)\) 等变的抓取 score 网络的完整方案。要求:(a) 用 §6/§7 的哪种架构作骨干,为什么(考虑扩散的速度需求,§7);(b) score 输出在 \(\mathfrak{se}(3)\) 里,写出它在群作用下的等变条件(用微分几何李群专题的伴随表示 \(\mathrm{Ad}_g\));(c) 用 §8 的样本效率框架,估计相比非等变方案能省多少演示数据,论证你的估计;(d) 指出真实场景中哪些因素(重力、桌面、夹爪几何)会破坏理想 \(SE(3)\) 对称,你会如何处理(用对称子群?近似等变?)。这道题要求你把架构选择、李群工具、样本效率、对称破缺四块知识串成一个完整工程方案。
本章常见误解汇总¶
| 常见误解 | 正确理解 |
|---|---|
| 不变和等变是一回事 | 不变 \(f(gx)=f(x)\)(输出不动),等变 \(f(gx)=g f(x)\)(输出协变)。差在右边那个 \(g\)。分类要不变,姿态/分割/抓取要等变 |
| 等变要求输入输出用同一个群作用 | 只要求"同一个群元素 \(g\)",但 \(g\) 在输入空间和输出空间上的作用(表示)可以完全不同(如点云逐点旋转 vs 旋转矩阵群乘法) |
| 数据增广等于实现了等变 | 数据增广是软约束(近似、费数据),等变网络是硬约束(精确、省数据)。机制根本不同 |
| 表示和群作用是两个概念 | 表示就是**线性的**群作用,同态性质 \(\rho(gh)=\rho(g)\rho(h)\) 是作用相容公理的线性版 |
| \(SO(3)\) 不可约表示维数是 \(1,2,3,\dots\) | 是 \(2\ell+1=1,3,5,7,\dots\)(只有奇数),\(D^2\) 是 5 维不是 2 维 |
| Schur 引理禁止一切跨 irrep 交互 | 只禁止**线性映射**跨 irrep。张量积(双线性)可以——\(D^1\otimes D^1\) 含 \(D^0,D^1,D^2\) |
| 卷积等变是巧合 | Kondor–Trivedi:平移等变线性算子**必然**是卷积,等变 ⟺ 卷积 |
| EGNN 和 TFN 表达力等价 | EGNN 只有 \(\ell=0,1\)。Villar"标量万能"是**存在性**,逼近**速率**可能指数级差 |
| 阶数越高网络一定越好 | 高阶提升角度分辨率,但 CG 计算 \(O(L^6)\) 爆炸。按任务需求选 \(\ell\) |
| 等变性在任何任务上都省数据 | 前提是任务**真有**那个对称性。对称性不精确时(重力、部分观测)等变可能有害 |
| 等变网络能替代 SE-Sync 等可证方法 | 等变换样本效率,可证方法换正确性保证。互补而非替代 |
| 桌面操作用 \(SO(3)\) 等变 | 重力打破 \(SO(3)\),真实对称群常是 \(SO(2)\)(绕竖直轴)。要分析真实对称子群 |
本章小结¶
符号表¶
| 符号 | 含义 | 首次出现 |
|---|---|---|
| \(G,\ g,\ e\) | 群、群元素、单位元 | §1 |
| \(g\cdot x\) | 群 \(G\) 对集合元素 \(x\) 的作用 | §1 |
| \(f(gx)=f(x)\) | 不变性条件 | §1 |
| \(f(gx)=g f(x)\) | 等变性条件 | §1 |
| \(\rho:G\to GL(V)\) | 群表示(线性群作用) | §2 |
| \(D^\ell\) | \(SO(3)\) 的 \(\ell\) 阶不可约表示,维数 \(2\ell+1\) | §2 |
| \(D^0,\ D^1,\ D^2\) | 标量(1 维)、向量(3 维)、无迹对称张量(5 维) | §2 |
| \(\mathrm{Hom}_G(V_1,V_2)\) | \(G\)-等变线性映射空间 | §2 |
| \(M_i^\sigma\) | 不可约类型 \(\sigma\) 的多重度空间 | §2 |
| \(\mathrm{Sym}_G(W)\) | 对称化算子,把任意层投影成等变层 | §2 |
| \(GL(V)\) | \(V\) 上可逆线性变换群 | §2 |
| \(\ker T,\ \mathrm{Im}\,T\) | 线性映射的核与像(Schur 引理证明) | §2 |
| \((f\star k)(g)\) | 群卷积 | §3 |
| \(L_g\) | 群作用诱导的信号平移算子 \((L_g f)(x)=f(g^{-1}x)\) | §3 |
| \(P_\pi\) | 置换矩阵(\(\pi\in S_n\)) | §4 |
| \(\phi,\rho\) | DeepSets 的逐元素编码 / 聚合后解码 | §4 |
| \(B(n)\) | Bell 数(\(n\) 元素的划分数) | §4 |
| \(Y_\ell^m(\hat r)\) | 球谐函数 | §5 |
| \(D^\ell_{m'm}(R)\) | Wigner D-矩阵(\(D^\ell\) 表示的矩阵元) | §5 |
| \(\langle j_1 m_1;j_2 m_2\|JM\rangle\) | Clebsch–Gordan 系数 | §5 |
| \(D^{j_1}\otimes D^{j_2}\) | 张量积表示 | §5 |
| \(c_J\) | Wigner–Eckart 简约矩阵元(可学习参数) | §5 |
| \(\varphi_{\ell_f}(\|\vec r\|)\) | TFN 可学习径向函数 | §6 |
| \(\vec r_{ij}=\vec r_i-\vec r_j\) | 相对位置(平移等变来源) | §6 |
| \(h_i,\ x_i\) | EGNN 的标量特征 / 坐标 | §7 |
| \(m_{ij}\) | EGNN 的不变消息 | §7 |
| \(\dim V-\dim G\) | 商空间 \(V/G\) 维数(有效维度) | §8 |
| \(\mathcal{H}_G\) | 等变假设空间 | §8 |
| \(\Pi_G^\perp\) | 非等变子空间投影(Elesedy–Zaidi) | §8 |
| \(\mathrm{Ad}_g\) | 伴随表示(呼应李群专题) | §9 |
| \(s_\theta:SE(3)\to\mathfrak{se}(3)\) | 等变 score 网络(抓取扩散) | §9 |
定理速查表¶
| 定理/结果 | 一句话说明 | 对应节 |
|---|---|---|
| 不变/等变定义 | 不变=输出不动,等变=输出协变;不变是等变在输出端取平凡表示的特例 | §1 |
| 群作用公理 | 单位元平凡 + 作用相容 \(g(hx)=(gh)x\),把群乘法落到数据变换 | §1 |
| Schur 引理 | 不可约表示间等变线性映射要么零、要么同构(复数同型时为 \(\lambda I\)) | §2 |
| 等变线性层结构定理 | 等变映射仅在同型 irrep 间混合,参数数 = 逐类型重数相乘求和 | §2 |
| Peter–Weyl 定理 | 紧致群上不可约表示矩阵元构成 \(L^2(G)\) 完备正交基(群上傅里叶) | §2 |
| 群卷积等变性 | 卷积天生等变,机制 = 滤波器在群上滑动 + Haar 不变测度 | §3 |
| Kondor–Trivedi 定理 | 等变线性层 ⟺ 群卷积,二者本质同一 | §3 |
| DeepSets sum-decomposition | 置换不变 ⟺ 编码-求和-解码 \(\rho(\sum_i\phi(x_i))\) | §4 |
| 置换等变线性层 | 最一般形式 \(\lambda x_i+\gamma\sum_j x_j\),仅 2 参数(\(B(2)=2\)) | §4 |
| Maron Bell 数定理 | \(k\to l\) 阶置换等变层维数 = \(B(k+l)\) | §4 |
| 球谐变换律 | \(Y_\ell^m(R\hat r)=\sum D^\ell_{m'm}(R)Y_\ell^{m'}(\hat r)\),方向编码成 irrep 协变特征 | §5 |
| CG 张量积分解 | \(D^{j_1}\otimes D^{j_2}=\bigoplus_{J=\|j_1-j_2\|}^{j_1+j_2}D^J\),跨 irrep 等变交互 | §5 |
| Wigner–Eckart 定理 | 等变核 = 固定 CG/Wigner D × 可学习简约矩阵元 \(c_J\) | §5 |
| TFN 等变性 | 核 = 可学径向 × 固定球谐 × 固定 CG ⟹ \(SE(3)\) 等变 | §6 |
| E(n) 等变消息保持性 | 高阶 CG 消息保持节点/边张量协变(NequIP/MACE) | §6 |
| EGCL 等变性 | 消息只用不变量 + 坐标用相对位移 ⟹ \(E(n)\) 等变(三行证明) | §7 |
| Villar 标量万能 | \(E(n)\) 等变多项式可用标量+基础几何对象表达(存在性) | §7 |
| 有效维度约简 | 等变学习从 \(V\) 降到 \(V/G\),维度 \(\dim V-\dim G\) | §8 |
| Elesedy–Zaidi 收益 | 线性模型上等变投影的超额风险严格更小(可量化、非零) | §8 |
| Siegel 逼近速率 | 等变 ReLU 网络速率 \(O(\varepsilon^{-(\dim V-\dim G)/\alpha})\) | §8 |
| \(G\)-不变 MDP 对称性 | \(Q^*(gs,ga)=Q^*(s,a)\),\(\pi^*(gs)=g\pi^*(s)\) | §9 |
| NDF 等变描述子 | \(\phi(g\vec p;g\mathcal{P})=\phi(\vec p;\mathcal{P})\),5–10 演示泛化任意姿态 | §9 |
| SE(3)-DiffusionFields score 等变 | \(s_\theta(gT)=\mathrm{Ad}_g s_\theta(T)\),抓取场随物体同步旋转 | §9 |
知识点总表¶
| 编号 | 知识点 | 核心要点 | 对应节 | 难度 |
|---|---|---|---|---|
| 1 | 群作用 | 群元素作用在数据上,满足单位元平凡 + 相容公理 | §1 | ⭐⭐ |
| 2 | 不变与等变 | 输出不动 vs 输出协变;选择准则"答案跟着输入转吗" | §1 | ⭐⭐ |
| 3 | 群表示 | 线性群作用,同态 \(\rho(gh)=\rho(g)\rho(h)\) | §2 | ⭐⭐⭐ |
| 4 | 不可约表示 | 协变量的"原子",\(SO(3)\) 的是 \(\{D^\ell\}\),维数 \(2\ell+1\) | §2 | ⭐⭐⭐ |
| 5 | Schur 引理 | 等变线性映射要么零要么唯一标量,钉死参数数 | §2 | ⭐⭐⭐ |
| 6 | 等变线性层结构 | 参数 = 逐类型重数相乘求和,e3nn 的数学基础 | §2 | ⭐⭐⭐ |
| 6b | 对称化算子 | 把任意层投影成等变层,有限群用求和、连续群用 Haar | §2 | ⭐⭐⭐ |
| 7 | 群卷积 | 天生等变,权值共享对象决定等变群 | §3 | ⭐⭐⭐ |
| 8 | 等变⟺卷积 | Kondor–Trivedi,等变与卷积本质同一 | §3 | ⭐⭐⭐⭐ |
| 9 | DeepSets | 置换不变 = 编码-求和-解码 | §4 | ⭐⭐⭐ |
| 10 | 置换等变层 / Bell 数 | 一阶 2 参数,\(k\to l\) 阶 \(B(k+l)\) 参数 | §4 | ⭐⭐⭐ |
| 11 | 球谐函数 | 球面傅里叶基,把方向编码成 irrep 协变特征 | §5 | ⭐⭐⭐⭐ |
| 12 | CG 张量积 | 跨 irrep 等变交互,\(D^1\otimes D^1\)=内积+叉积+对称张量 | §5 | ⭐⭐⭐⭐ |
| 13 | Wigner–Eckart | 等变核 = 固定角向 × 可学径向 | §5 | ⭐⭐⭐⭐ |
| 14 | TFN / SE(3)-Transformer | 等变卷积/注意力,球谐+CG,精而慢 | §6 | ⭐⭐⭐⭐ |
| 15 | NequIP / MACE | 高阶等变,化学数据效率 1000× | §6 | ⭐⭐⭐⭐ |
| 16 | EGNN | 只用标量+向量,\(E(n)\) 等变,快而简 | §7 | ⭐⭐⭐ |
| 17 | 样本效率机制 | 维度约简 + 假设空间收缩 + 方差消除 | §8 | ⭐⭐⭐⭐ |
| 18 | 等变 vs 增广 | 硬约束精确省数据 vs 软约束灵活费数据 | §8 | ⭐⭐⭐ |
| 19 | 等变 RL / NDF / SE-Sync | 机器人四大落地,样本效率 + 可证性 | §9 | ⭐⭐⭐ |
| 20 | 对称破缺 | 重力/视角破坏理想对称,需分析真实子群 | §8,§9 | ⭐⭐⭐ |
科研发展脉络¶
把对称性深度学习的历史按阶段整理,便于在文献中定位(引用计数截至 2025 年中,仅供量级参考)。
| 阶段 | 年代 | 代表工作 | 核心贡献 |
|---|---|---|---|
| 理论根基 | 1896–1939 | Frobenius, Schur, Peter–Weyl | 群表示论、Schur 引理、Peter–Weyl 定理 |
| 等变 CNN | 2016 | Cohen & Welling (G-CNN, ICML) | 群等变卷积的首个深度学习实例 |
| 2017 | Cohen & Welling (Steerable CNN, ICLR) | 用群表示约束卷积核 | |
| 2018 | Cohen et al. (球面 CNN, ICLR Best Paper) | \(SO(3)\) 上广义傅里叶变换 | |
| 2019 | Weiler & Cesa (E(2)-Steerable) | 一般 \(E(2)\) 可操纵 CNN 的完整理论 | |
| 集合/图等变 | 2017 | Zaheer et al. (DeepSets, NeurIPS) | 置换不变/等变 UAT |
| 2019 | Maron et al. (ICLR/ICML) | 高阶不变图网络:Bell 数分类 | |
| SE(3) 等变 | 2018 | Thomas et al. (TFN) | 球谐 + CG 张量积 = \(SE(3)\) 等变点云网络 |
| 2020 | Fuchs et al. (SE(3)-Transformer, NeurIPS) | 等变自注意力 | |
| 2021 | Satorras et al. (EGNN, ICML) | 简化等变 GNN:仅标量+向量 | |
| 2022 | Batzner et al. (NequIP, Nat. Commun.) | E(3) 等变原子势能,数据效率 1000× | |
| 2022 | Batatia et al. (MACE, NeurIPS) | 高体序等变消息传递 | |
| 样本效率理论 | 2021 | Elesedy & Zaidi (ICML) | 线性模型上等变的严格泛化收益 |
| 2021 | Villar et al. (NeurIPS) | "标量万能":完备不变量基 | |
| 2026 | Siegel et al. | 定量逼近速率 \(O(\varepsilon^{-(\dim V-\dim G)/\alpha})\) | |
| 等变生成 | 2022 | Hoogeboom et al. (EDM, ICML) | E(3) 等变扩散分子生成 |
| 2023 | Urain et al. (SE(3)-DiffusionFields, ICRA) | SE(3) 扩散抓取生成 | |
| 统一框架 | 2021 | Bronstein et al. (Geometric DL) | 网格/群/图/流形/规范的统一视角 |
| 2022 | Geiger & Smidt (e3nn) | \(SE(3)\) 等变网络的公共软件/数学底层 | |
| 机器人应用 | 2022 | Wang, Walters & Platt (Equiv RL, ICLR) | 等变 Q 函数,样本效率 10–100× |
| 2022 | Simeonov et al. (NDF, ICRA) | 类别级操纵的等变描述子 | |
| 2019 | Rosen, Carlone et al. (SE-Sync, IJRR) | 可证全局最优位姿估计 |
前沿工作与开放问题¶
近期进展(2024–2026)¶
| 方向 | 代表工作 | 核心贡献 |
|---|---|---|
| 定量等变逼近率 | Siegel et al. (2026) | 首个定量速率 \(O(\varepsilon^{-(\dim V-\dim G)/\alpha})\) |
| 快速 CG 张量积 | Luo et al. (2024) | \(O(L^3)\) CG 计算(vs 原始 \(O(L^6)\)) |
| 部分/近似等变 | Petrache–Trivedi (NeurIPS 2023) | 近似等变的 Pareto 前沿 |
| 等变基础模型 | UMA (Wood et al. 2025) | 统一原子数据的 E(3)-等变骨干 |
| SE(3) flow matching | Yim et al. (FrameFlow 2023) | 比扩散快约 5× 的采样 |
开放问题¶
- 等变网络的泛化下界:非线性深度网络的 minimax 下界仍未知——严格量化"等变免费午餐"还差临门一脚。已知线性模型有严格收益(Elesedy–Zaidi),深度情形是悬案。
- 连续群的计算效率:CG 张量积 \(O(L^6)\) 是瓶颈。能否降到 \(O(L^3\log L)\)?能否完全绕过球谐(EGNN 是一种尝试,但表达力受限)?
- 等变 vs 数据增广的精确差距:给定相同的宽度/深度/训练步数,两者的泛化差距是否严格非零?Wang et al. (2023) 发现部分观测下严格等变可能**有害**——这条边界尚未理论刻画清楚。
- 非紧致群:量纲群 \(\mathbb{R}_{>0}\)、Galilean/Lorentz 群——经典 Hilbert 不变基定理和完全可约性不适用,等变网络理论需要新工具。
- 最优对称选择:真实环境很少有严格 \(SE(3)\) 对称(相机视角、重力、碰撞都破缺)。如何自动选出最佳对称子群 \(G^*\subseteq G\)?等价于"模型选择 + 不变性发现"。
- 可证等变感知-规划流水线:把 SE-Sync 的可证估计与 SE(3)-DiffusionFields 的等变生成端到端整合,实现从感知到规划全程"对称性 + 可证性"。
累积项目:本章新增模块¶
本项目贯穿深度学习数学方向的多个章节,目标是搭建一个"几何感知的机器人感知-决策原型"。
本章新增:等变模块(Equivariant Module)。 在累积项目中加入一个 \(SE(3)\)/\(E(n)\) 等变的点云处理模块。建议实现路径:
- 最小实现(必做):基于 §7 的 EGCL,用 PyTorch 实现一个 EGNN 层(约 50 行)。输入:点坐标 + 标量特征;输出:更新后的坐标(等变)+ 特征(不变)。用随机 \(SE(3)\) 变换验证:坐标输出等变误差 \(<10^{-5}\)、特征输出不变误差 \(<10^{-5}\)。
- 进阶(选做):用 e3nn 库实现一个 §6 的 TFN 层(输入 \(\ell=0\oplus 1\),输出 \(\ell=0\oplus 1\oplus 2\)),验证对随机 \(SO(3)\) 旋转的等变性误差 \(<10^{-6}\)。对比 EGNN 与 TFN 的前向速度。
- 集成(选做):把等变模块接入前面章节搭建的感知管线,在一个简化的"姿态估计"或"N-body 预测"任务上,对比等变 vs 非等变(+数据增广)的样本效率,复现 §8 的理论预言。
模块代码保存在累积项目的 equivariant/ 子目录,与前面章节的模块解耦,通过统一的张量接口对接。
延伸阅读¶
论文(按优先级与难度)¶
| 优先级 | 论文 | 精读重点 | 难度 |
|---|---|---|---|
| ★★★★★ | Bronstein et al., Geometric Deep Learning (2021) | 网格/群/图/流形/规范的统一框架,等变性全景 | ⭐⭐⭐ |
| ★★★★★ | Satorras et al., EGNN (ICML 2021) | 简化等变 GNN 的完整推导,最易上手 | ⭐⭐⭐ |
| ★★★★★ | Zaheer et al., DeepSets (NeurIPS 2017) | 置换不变 UAT,理解聚合的本质 | ⭐⭐⭐ |
| ★★★★☆ | Thomas et al., TFN (2018) | 球谐 + CG 滤波器构造 | ⭐⭐⭐⭐ |
| ★★★★☆ | Wang et al., Equivariant RL (ICLR 2022) | 等变 Q 函数定理 + 真实机器人实验 | ⭐⭐⭐ |
| ★★★★☆ | Cohen & Welling, G-CNN (ICML 2016) | 群卷积的开山之作 | ⭐⭐⭐ |
| ★★★☆☆ | Geiger & Smidt, e3nn (2022) | 库的数学基础,工程落地必读 | ⭐⭐⭐⭐ |
| ★★★☆☆ | Fuchs et al., SE(3)-Transformer (NeurIPS 2020) | 等变注意力 | ⭐⭐⭐⭐ |
| ★★★☆☆ | Elesedy & Zaidi (ICML 2021) | 等变泛化收益的严格证明(线性) | ⭐⭐⭐⭐ |
| ★★★☆☆ | Batzner et al., NequIP (Nat. Commun. 2022) | 高阶等变 + 1000× 数据效率 | ⭐⭐⭐⭐ |
| ★★☆☆☆ | Maron et al. (ICLR/ICML 2019) | Bell 数分类 | ⭐⭐⭐⭐ |
| ★★☆☆☆ | Rosen et al., SE-Sync (IJRR 2019) | 可证位姿估计 | ⭐⭐⭐⭐ |
| ★★☆☆☆ | Villar et al. (NeurIPS 2021) | 标量完备基 | ⭐⭐⭐⭐ |
| ★★☆☆☆ | Simeonov et al., NDF (ICRA 2022) | 类别级等变操纵 | ⭐⭐⭐ |
教材¶
| 教材 | 精读章节 | 用途 |
|---|---|---|
| Serre, Linear Representations of Finite Groups, Springer | Ch.1–3 | 表示论基础(Schur、特征标) |
| Hall, Lie Groups, Lie Algebras, and Representations, Springer | Ch.4–5 | \(SO(3)\) 表示、球谐 |
| Bronstein et al., Geometric DL proto-book (2021) | 全文 | 几何深度学习的教科书级呈现 |
| Fulton & Harris, Representation Theory: A First Course | 前几章 | 表示论的几何视角 |
软件¶
| 库 | 用途 | 备注 |
|---|---|---|
| e3nn (PyTorch) | \(E(3)\) 等变网络(TFN/NequIP/MACE 底层) | 必装,对应 §5/§6 |
| e2cnn / escnn | \(E(2)\) 可操纵 CNN | 对应 2D 等变 |
| EGNN 官方实现 | 简化等变 GNN | 对应 §7,几十行可读 |
本章与后续/相关章节的关系¶
| 章节 | 与本章的关系 | 本章哪个知识点为其铺垫 |
|---|---|---|
| 微分几何与李群专题(前置) | 提供 \(SO(3)\)/\(SE(3)\)、指数映射、伴随表示 \(\mathrm{Ad}\) | 反向:本章 §5/§6/§9 全程复用李群工具 |
| 抽象代数群论(前置) | 提供群、子群、同态、表示的定义 | 反向:本章 §1/§2 把抽象群落到具体对称 |
| 逼近理论(相关) | 等变 UAT 是 Cybenko/Leshno 的群论推广 | §8 样本效率与逼近速率 |
| 泛化理论(相关) | 等变先验 → PAC-Bayes 的 KL 更紧 → 样本效率 | §8 假设空间收缩 |
| 扩散模型(相关) | EDM = E(3)-等变 DDPM;抓取扩散 | §6/§7 等变骨干、§9 等变 score 约束 |
| 视觉语言动作模型 VLA(后续) | Point Transformer 用于 3D-aware VLA | §6 等变点云处理 |
| SDP 松弛(相关) | SE-Sync = \(SE(3)\) 上的 SDP 可证估计 | §9 "在正确群上设计优化"的统一视角 |
🔧 故障排查手册¶
| # | 症状 | 可能原因 | 排查步骤 | 相关节 |
|---|---|---|---|---|
| 1 | 等变网络对随机 \(SO(3)\) 旋转的等变性误差远大于 \(10^{-5}\)(本该机器精度) | (a) 不小心用了绝对坐标而非相对位置;(b) 在消息里混入了非不变量;(c) 输入特征的 irrep 类型声明错误 | 1) 检查所有几何输入是否都是相对量(\(\vec r_{ij}\) 而非 \(\vec r_i\));2) 检查消息函数是否只吃不变量(距离、标量);3) 在 e3nn 里打印每层 Irreps,确认类型匹配;4) 单层逐个测等变误差,定位是哪层破坏 |
§6,§7 |
| 2 | e3nn 报错 "Irreps mismatch" 或层连不上 | 试图在不相容的 irrep 类型间建立映射,被 Schur 引理禁止(不同型 irrep 线性映射为零) | 1) 检查相邻层的输出 Irreps 和输入 Irreps 是否一致;2) 回顾 §2 结构定理——线性层只能在同型 irrep 间混合;3) 若想跨 irrep 交互,改用 TensorProduct(CG 张量积)而非 Linear |
§2,§5 |
| 3 | 等变网络在任务上性能反而不如普通网络 + 数据增广 | (a) 任务的真实对称性比假设的弱(如重力打破 \(SO(3)\));(b) 部分观测下严格等变有害;(c) 对称群选错(用了 \(SO(3)\) 实际只有 \(SO(2)\)) | 1) 分析任务真实对称群(考虑重力、地面、视角破缺);2) 改用对称子群(如 \(SO(2)\) 而非 \(SO(3)\));3) 考虑近似等变或等变+增广结合;4) 回顾 §8/§9 陷阱——等变不是无条件银弹 | §8,§9 |
| 4 | TFN/NequIP 训练极慢,单步前向耗时不可接受 | CG 张量积计算量 \(O(L^6)\),最高阶 \(L\) 取太大;或点云太大、邻居太多 | 1) 降低最高阶 \(\ell\)(先试 \(\ell=1\));2) 评估是否真需要高阶——多数机器人任务 \(\ell=0,1\) 够用;3) 改用 EGNN(\(O(nkd)\),快约 20×);4) 减小邻域 / 用更稀疏的图 | §6,§7 |
| 5 | 姿态估计/抓取网络对所有物体朝向输出几乎相同的结果 | 把本该**等变**的任务做成了**不变**——网络丢失了姿态信息 | 1) 确认任务类型:姿态/抓取必须等变(§1 准则);2) 检查输出层是否误用了不变池化(把等变特征塌缩成不变标量);3) 确认输出 irrep 含 \(\ell\geq 1\)(向量/张量),而非只有 \(\ell=0\)(标量);4) 抓取 score 应满足 \(s(gT)=\mathrm{Ad}_g s(T)\) | §1,§9 |
| 6 | DeepSets/集合网络的输出依赖于输入元素的顺序 | 聚合操作不是真正的对称操作(如误用了带顺序的 RNN/拼接,而非求和/求平均) | 1) 检查聚合是否用求和/求平均/求最大(对称)而非拼接/RNN(带序);2) 确认逐元素编码 \(\phi\) 对所有元素共享同一套权重;3) 用打乱顺序的同一集合测试输出是否一致 | §4 |
研究实践建议¶
给新手的建议(第一次接触等变网络):
- 从 EGNN 入手,不要从 TFN 入手。 EGNN 几十行代码、纯标量向量运算、等变性证明三行,是理解"等变到底意味着什么"的最佳起点。把 §7 的等变性证明亲手推一遍,比读十篇 TFN 论文更有用。
- 务必分清不变和等变。 这是这个领域踩坑最多的地方。拿到任何任务,先问"答案跟着输入转吗",再决定不变还是等变。把 §1 的准则刻在脑子里。
- 先验证等变性,再训练。 实现任何等变层后,第一件事是用随机群元素测等变误差(应到机器精度 \(10^{-5}\sim 10^{-6}\))。误差大说明实现有 bug,此时训练毫无意义。这个习惯能省下大量调试时间。
- 不要跳过群表示论。 §2 的 Schur 引理和不可约表示是理解 e3nn 的钥匙。跳过它直接用库,库就是个不可解释的黑盒,改超参全靠运气。
给有经验者的建议(已能用等变网络做项目):
- 认真分析任务的真实对称群。 真实机器人环境的对称性几乎总是被重力、地面、视角、碰撞破坏。强行用完整 \(SE(3)\) 等变常常有害。学会识别真实对称子群(\(SO(2)\)?\(C_4\)?),或考虑近似等变(Petrache–Trivedi 2023)。
- 权衡等变 vs 数据增广 vs 二者结合。 不要教条。对称性确凿且数据贵 → 等变;对称性近似 → 增广或近似等变;常见的最优解是"等变编码确定对称(如平移)+ 增广处理近似对称(如光照)"。用 §8 的样本复杂度框架做定量判断。
- 关注计算瓶颈。 CG 张量积 \(O(L^6)\) 是高阶等变网络的命门。实时机器人任务优先 EGNN;需要高阶时关注快速 CG 算法(Luo et al. 2024 的 \(O(L^3)\))。
- 把等变性放进更大的系统视角。 等变网络换样本效率,可证方法(SE-Sync)换正确性。前沿是 certifiable perception——把两者端到端整合。不要把等变网络当成孤立的技巧,而要看它在"对称性 × 优化 × 生成"三角中的位置。
版本信息速查¶
| 工具/库 | 版本 | 用途 | 备注 |
|---|---|---|---|
| e3nn | 0.5+ | \(E(3)\) 等变网络 | §5/§6 的实现底层 |
| PyTorch | 2.0+ | 深度学习框架 | EGNN/TFN 实现 |
| e2cnn / escnn | 最新 | \(E(2)\) 可操纵 CNN | 2D 等变任务 |
| PyTorch Geometric | 2.3+ | 图神经网络(EGNN 可基于此) | §4/§7 |
版本注记:等变网络库(尤其 e3nn)的 API 在不同版本间有变动,
Irreps、TensorProduct的接口请以你安装版本的官方文档为准。本章讲的是数学原理,不依赖具体 API 版本——理解了 Schur 引理和 CG 张量积,任何版本的 e3nn 都能看懂。
全文完。本章是"对称性主线"从抽象群论、经李群、到深度学习的终点,也是机器人几何感知与决策的数学枢纽。
一句话收束全章:对称性不是装饰,而是一座金矿。 把它写进网络结构(等变网络),换来样本效率;把它写进优化目标(SE-Sync),换来可证最优。从 Schur 1905 年的引理,到今天机械臂上不到 2 小时学会的抓取策略,贯穿其间的,是同一条朴素而深刻的信念——尊重世界的对称性,世界就会回报你更少的数据、更强的泛化、更可靠的保证。