内积空间与伴随算子¶
前置依赖:A2a(向量空间、线性变换、对偶空间 \(V^*\)、对偶映射 \(T^t\)、零化子 \(W^\circ\)、直和分解、维数理论) 后继章节:A2c(谱定理、SVD、极分解)、A2d(极小多项式与 Jordan 标准形)、A2e(张量积、外代数、行列式)
约定与符号惯例¶
| 项目 | 本课程选择 | 说明 |
|---|---|---|
| 域 | \(F = \mathbb{R}\) 或 \(\mathbb{C}\) | 内积空间只在这两个域上讨论(需要"正定"与"共轭") |
| 内积线性位置 | 第一变量线性,第二变量共轭线性 | 数学惯例(Axler/Hoffman-Kunze/Friedberg/Roman/Halmos/Lang/Rudin 七大教材全部如此) |
| 内积记号 | \(\langle u, v\rangle\) | 物理 Dirac 惯例 \(\langle u\mid v\rangle\) 第二变量线性,给出对照表(§A2b.1.3) |
| 伴随符号 | \(T^*\) 为正式名称 | 物理/机器人文献常用 \(T^\dagger\),作并用提醒 |
| 对偶映射 | \(T^t\)(来自 A2a) | 与伴随 \(T^*\) 严格区分(§A2b.16) |
| 共轭转置 | \(A^* = \bar A^{\mathsf T}\) | 实矩阵退化为转置 \(A^{\mathsf T}\) |
Notation 警告(读者最易踩的第一个坑):本课程中 \(T^*\)(伴随,需要内积)与 \(T^t\)(对偶/转置,不需要内积)是**两个不同的对象**。它们只在"实数域 + 标准正交基"这一三重巧合下矩阵相同。A2a 已经讲过 \(T^t\),本章讲 \(T^*\),§A2b.16 专门讲它们的区别。如果你现在觉得"它们不就是转置吗",请记住这句话,到 §A2b.16 时它会变成"顿悟时刻"。
主参考教材排序¶
| 书 | 缩写 | 在本章中的定位 |
|---|---|---|
| Axler, Linear Algebra Done Right (4th ed, 2024) | [Axler] | 主线:内积、Gram-Schmidt、Riesz、伴随、谱前置的现代标准讲法 |
| Friedberg/Insel/Spence, Linear Algebra (5th ed) | [FIS] | 补充例题与计算 |
| Hoffman & Kunze, Linear Algebra (2nd ed, 1971) | [HK] | 经典严格性,伴随的逐点定义最细 |
| Roman, Advanced Linear Algebra (GTM 135, 3rd ed) | [Roman] | 高阶视角:Riesz 与对偶的范畴论连接 |
| Halmos, Finite-Dimensional Vector Spaces (1958) | [Halmos] | 抽象最简,非构造性 Riesz 证明 |
| Greub, Linear Algebra (GTM 23, 4th ed) | [Greub] | 实/复分别处理,复化技巧 |
| Lang, Algebra (GTM 211, Ch. V) | [Lang] | 对偶与内积的连接 |
机器人方向补充参考:Strang《线性代数及其应用》(四个基本子空间)、Kailath-Sayed-Hassibi《Linear Estimation》(Kalman 的正交投影解释)、Lynch-Park《Modern Robotics》(twist/wrench 对偶)、Dellaert-Kaess《Factor Graphs for Robot Perception》(平方根 SAM)。
本章知识导航¶
在深入推导之前,先看清整片森林。A2b 要解决的根本问题只有一句话:A2a 给了我们没有"长度"和"角度"的裸向量空间,现在我们要给它装上"内积"这一台度量仪器,看看会派生出多少几何结构。
整个 A2b 由一条主干和两条支线构成。主干是"内积 → 范数 → 正交 → 投影",它把代数空间几何化;第一条支线是"正交 → Gram-Schmidt → 正交分解 → 最佳逼近 → 最小二乘",这是机器人状态估计的数学母体;第二条支线是"Riesz 表示 → 伴随算子 → 四个基本子空间 → 算子分类",这是谱定理与 SVD 的入场券。
═══ 主干:度量结构的引入 (§A2b.1 – §A2b.5) ═══
§A2b.1 内积公理(实/复)
└─→ §A2b.2 由内积诱导的范数
├─→ §A2b.3 Cauchy–Schwarz 不等式(三种证明)
│ └─→ §A2b.4 三角不等式 → 度量空间
└─→ §A2b.5 平行四边形恒等式 / 极化恒等式
└─→ §A2b.5′ Jordan–von Neumann 定理(哪些范数来自内积)🟣
↓
═══ 支线一:正交与逼近 (§A2b.6 – §A2b.11) ═══
§A2b.6 正交性、正交集、标准正交集
├─→ §A2b.7 Gram–Schmidt 正交化 → QR 分解
│ └─→ §A2b.8 标准正交基的存在性
└─→ §A2b.9 正交补 W⊥
├─→ §A2b.10 正交分解 V = W ⊕ W⊥
│ └─→ §A2b.11 正交投影与最佳逼近 → 最小二乘法方程
↓
═══ 支线二:Riesz、伴随与算子分类 (§A2b.12 – §A2b.17) ═══
§A2b.12 Riesz 表示定理
├─→ §A2b.13 V ≅ V* 的共轭线性同构 → W⊥ ↔ W° 的对应 🟣
└─→ §A2b.14 伴随算子 T* 的存在唯一性
├─→ §A2b.15 T* 的代数性质、矩阵表示、四个基本子空间
├─→ §A2b.16 伴随 T* 与对偶 T^t 的区分(五种"adjoint")
└─→ §A2b.17 算子类:自伴、正规、酉/正交
└─→ 接口 §A2c(谱定理、SVD)
推荐阅读路径:
- 主干优先(首读):§A2b.1 → 2 → 3 → 4 → 6 → 7 → 9 → 10 → 11 → 12 → 14 → 15 → 17。这条线串起"内积—正交—投影—最小二乘—伴随—算子分类",读完即可进入 §A2c。
- 进阶补全(二读):§A2b.5′(Jordan–von Neumann)、§A2b.13(\(W^\perp\leftrightarrow W^\circ\))。这两节标 🟣,跳过不影响主线。
- 机器人动机线(贯穿):每个主节末尾的"应用视角"小方框(§A2b.R1–R8),可在首读时略过,二读时回填。
注意:导航路线图只展示**结构**,不展开具体内容。每个箭头代表"下游节的证明依赖上游节"。
前置知识桥接¶
A2a 留给我们的三件遗产,是理解本章的全部前提。这里用 2-3 行各重述一次,让你不必翻回去也能跟上:
-
向量空间与线性映射(A2a 第一至三幕):\(V\) 是域 \(F\) 上满足八条公理的集合,\(T\in L(V,W)\) 是保持加法与数乘的映射。本章始终在**有限维**内积空间上工作——有限维是 Riesz 定理与伴随存在性的关键假设,无穷维需要"完备性"和"有界性"补丁(留给 B3 泛函分析)。
-
对偶空间 \(V^*\) 与对偶映射 \(T^t\)(A2a 第四幕,§A2a.19–24):\(V^*=L(V,F)\) 是 \(V\) 上所有线性泛函构成的空间;给定 \(T:V\to W\),对偶映射 \(T^t:W^*\to V^*\) 定义为 \((T^t\varphi)(v)=\varphi(Tv)\)。关键:\(T^t\) 的定义不需要任何内积,它纯粹来自"把泛函沿 \(T\) 拉回"。本章的 Riesz 定理将给出第二种 \(V\to V^*\) 的联系(通过内积),而伴随 \(T^*\) 正是 \(T^t\) 在内积视角下的"翻译"——§A2b.16 把这件事讲到底。
-
零化子 \(W^\circ\) 与维数公式(§A2a.25):对子空间 \(W\subseteq V\),零化子 \(W^\circ=\{\varphi\in V^*:\varphi(w)=0,\ \forall w\in W\}\subseteq V^*\),满足 \(\dim W+\dim W^\circ=\dim V\)。本章将引入一个长得很像但本质不同的对象——正交补 \(W^\perp\subseteq V\)(需要内积),§A2b.13 揭示 Riesz 同构把 \(W^\perp\) 精确地送到 \(W^\circ\)。
-
直和与商空间(§A2a.4–5):内直和 \(V=W_1\oplus W_2\) 意味着 \(V=W_1+W_2\) 且 \(W_1\cap W_2=\{0\}\)。本章的正交分解 \(V=W\oplus W^\perp\) 是直和的一个**特例**——它额外要求两个补空间相互正交,从而是唯一的、几何上"垂直"的分解,而 A2a 的代数补不唯一。
如果跳过本章会怎样¶
不学 A2b,后续会在以下三个具体场景中卡住:
-
场景一:读不懂 Kalman 滤波的推导。 几乎所有严肃的估计理论教材(Kailath、Anderson-Moore)都把 Kalman 滤波讲成"\(L^2\) 随机变量 Hilbert 空间上的正交投影"。如果你不知道"条件期望 = 正交投影"、"新息序列 = 测量的 Gram-Schmidt 正交化"、"协方差更新 = Pythagoras 定理",你只能背诵卡尔曼增益公式而不理解它为什么长这样。
-
场景二:分不清 \(J^{\mathsf T} F\) 里的转置到底是什么。 机器人静力学的核心公式 \(\tau=J^{\mathsf T}F\)(关节力矩 = 雅可比转置乘末端力)中的 \(J^{\mathsf T}\) 是**对偶映射**(不需要内积),而动态一致伪逆 \(J^+_M=M^{-1}J^{\mathsf T}(JM^{-1}J^{\mathsf T})^{-1}\) 里隐含的"伴随"用的是**动能度量**。不区分这两者,你会在度量选择上犯系统性错误。
-
场景三:进入 §A2c 时谱定理像天书。 谱定理的陈述是"自伴算子可正交对角化、正规算子可酉对角化"。这三个形容词——自伴、正交、正规——全部在 A2b 定义。没有 A2b,SVD 的 \(T=U\Sigma V^*\)、极分解 \(T=U|T|\)、点云配准的 Kabsch 算法都无从谈起。
前置自测 ⭐¶
📋 答不出 ≥ 2 题 → 先回 A2a(20_向量空间与线性变换.md)复习
| 编号 | 问题 | 答不出 → 回顾 |
|---|---|---|
| 1 | 什么是线性泛函?对偶空间 \(V^*\) 的元素长什么样?\(\dim V^*\) 与 \(\dim V\) 是什么关系? | A2a §19–20 |
| 2 | 对偶映射 \(T^t:W^*\to V^*\) 的定义是什么?它需要内积吗? | A2a §24 |
| 3 | 零化子 \(W^\circ\) 的定义是什么?维数公式 \(\dim W+\dim W^\circ=?\) | A2a §25 |
| 4 | 内直和 \(V=W_1\oplus W_2\) 的三个等价定义是什么?代数补唯一吗? | A2a §4 |
| 5 | 秩-零度定理 \(\dim V=\dim\ker T+\dim\operatorname{im}T\) 怎么证? | A2a §15 |
如果第 1–3 题答不出,本章的 Riesz 定理与伴随算子部分会很吃力——它们整个建立在"\(V\) 与 \(V^*\) 的关系"之上。第 4–5 题答不出,正交分解和四个基本子空间会跟不上。
预计阅读时间¶
| 阅读方式 | 时间 | 适合谁 |
|---|---|---|
| 精读(含全部证明与练习) | 14–16 小时 | 需要为 §A2c 谱定理/SVD 打牢地基的读者 |
| 主干速读(跳过 🟣 节与部分证明细节) | 7–9 小时 | 有本科线性代数基础、想快速建立算子论视角的读者 |
| 速查(只看定义、定理速查表、符号表) | 40 分钟 | 遇到具体问题(如"伴随矩阵是不是转置")回来查证 |
§A2b.1 内积的公理化定义 ⭐⭐¶
动机:裸向量空间缺了什么¶
A2a 教会我们在向量空间里做加法、数乘、求基、定维数。但有一件极其基本的事,裸向量空间**做不到**:它无法回答"这个向量有多长?""这两个向量夹角多大?""它们垂直吗?"
这不是吹毛求疵。机器人的几乎每一个问题都需要长度和角度:
- 状态估计要问"估计值离真值有多远"——这是**距离**;
- 控制要问"当前姿态偏离目标姿态多少"——这是**角度**或**模长**;
- SLAM 要把测量残差最小化——这是最小化某种**范数**;
- 点云配准要找一个旋转使两堆点"最对齐"——这是最大化**内积**。
裸向量空间为什么做不到?因为它的公理里**根本没有提到任何数值化的"大小"。八条公理只规定了加法和数乘如何运算,从未说"向量 \(v\) 对应一个非负实数 \(\|v\|\)"。长度、角度、垂直,这些是**额外**的结构,必须我们主动装上去。装上去的这台仪器,就叫**内积。
如果不这样做会怎样:欧氏点积的"逆向工程"¶
我们最熟悉的长度公式是 \(\mathbb{R}^n\) 上的欧氏长度 \(\|x\|=\sqrt{x_1^2+\cdots+x_n^2}\),夹角公式是 \(\cos\theta=\dfrac{x\cdot y}{\|x\|\,\|y\|}\)。这两个公式背后共用一个运算:点积 \(x\cdot y=\sum_i x_iy_i\)。
现在做一次"逆向工程":如果我们想把这套长度-角度体系推广到任意向量空间(多项式空间、矩阵空间、函数空间、随机变量空间),应该抽象出点积的**哪些性质**?换句话说,点积之所以能定义长度和角度,靠的是它满足的几条规律,而不是它"恰好是坐标乘积之和"这个具体形式。把这几条规律提炼成公理,任何满足这些公理的运算就都能定义长度和角度——这正是公理化方法的威力。
点积 \(x\cdot y=\sum_i x_iy_i\) 满足三条核心性质:
- 对第一个变量线性:\((\alpha x+\beta x')\cdot y=\alpha(x\cdot y)+\beta(x'\cdot y)\);
- 对称:\(x\cdot y=y\cdot x\);
- 正定:\(x\cdot x=\sum_i x_i^2\ge 0\),且 \(=0\) 当且仅当 \(x=0\)。
第 3 条是长度能开平方根的保证(被开方数非负),也是"只有零向量长度为零"的保证。第 1、2 条合起来给出"双线性"。这三条,就是实内积的全部公理。
历史:从 Grassmann 到 Hilbert¶
内积作为公理化对象的历史,与"长度"概念的抽象化同步。Hermann Grassmann 在 1844 年的《延伸论》(Ausdehnungslehre)中已经在向量空间上考虑"内积"(Innere Produkt)一词的雏形。但把"满足若干公理的双线性正定型"作为研究对象,是 20 世纪初泛函分析兴起后的事——David Hilbert 在 1900 年代研究积分方程时,引入了无穷维"内积空间"(后人称 Hilbert 空间)的原型,John von Neumann 在 1929 年给出了 Hilbert 空间的公理化定义。复内积的"共轭对称"则源于量子力学:波函数的内积 \(\langle\psi\mid\phi\rangle=\int\bar\psi\phi\) 必须共轭,才能让 \(\langle\psi\mid\psi\rangle=\int|\psi|^2\) 是非负实数(概率密度)。
本质洞察:内积不是向量空间"自带"的属性,而是**外加的、可选的**结构。同一个向量空间可以装上不同的内积(如 \(\mathbb{R}^n\) 上的标准点积、加权点积 \(\langle x,y\rangle=x^{\mathsf T}Wy\)、能量内积 \(x^{\mathsf T}Mx\)),每一种都给出一套不同的长度和角度。在机器人学里,"用哪个内积"往往不是数学问题而是物理问题——动能内积、信息度量、欧氏度量对应不同的物理量纲。这一点贯穿整个任务,到 §A2b.R6 讲动态一致伪逆时达到顶点。
理论:实内积与复内积的公理¶
§A2b.1.1 实内积的三公理¶
定义(实内积空间):设 \(V\) 是实数域 \(\mathbb{R}\) 上的向量空间。一个**实内积**(real inner product)是一个映射 \(\langle\cdot,\cdot\rangle:V\times V\to\mathbb{R}\),满足对所有 \(u,v,w\in V\) 与 \(\lambda\in\mathbb{R}\):
- 第一变量线性(linearity in the first slot): $\(\langle\lambda u+w,\,v\rangle=\lambda\langle u,v\rangle+\langle w,v\rangle;\)$
- 对称性(symmetry): $\(\langle u,v\rangle=\langle v,u\rangle;\)$
- 正定性(positive-definiteness): $\(\langle v,v\rangle\ge 0,\quad\text{且}\quad\langle v,v\rangle=0\iff v=0.\)$
配备了内积的实向量空间 \((V,\langle\cdot,\cdot\rangle)\) 称为**实内积空间**(real inner product space)。
注意第二变量的线性是**白送**的,不需要单列为公理:由对称性 + 第一变量线性, $\(\langle u,\lambda v+w\rangle\overset{\text{对称}}{=}\langle\lambda v+w,u\rangle\overset{\text{第一线性}}{=}\lambda\langle v,u\rangle+\langle w,u\rangle\overset{\text{对称}}{=}\lambda\langle u,v\rangle+\langle u,w\rangle.\)$ 所以实内积是一个**双线性、对称、正定**的型(bilinear symmetric positive-definite form)。
§A2b.1.2 复内积与共轭对称(sesquilinear form)¶
到了复数域,事情出现一个微妙但关键的转折。我们想保留"正定性"——\(\langle v,v\rangle\) 必须是非负实数才能开平方根定义长度。但如果硬把实内积的"对称 + 双线性"照搬到复空间,正定性会**立刻崩溃**。
看反面:假设 \(\langle\cdot,\cdot\rangle\) 在复空间上对称且对两个变量都线性(双线性)。取任意 \(v\ne 0\),考虑 \(\langle iv,iv\rangle\): $\(\langle iv,iv\rangle=i\cdot i\cdot\langle v,v\rangle=i^2\langle v,v\rangle=-\langle v,v\rangle.\)$ 如果 \(\langle v,v\rangle>0\),那么 \(\langle iv,iv\rangle=-\langle v,v\rangle<0\)——正定性被破坏了!而 \(iv\) 是个完全合法的非零向量,它的"长度平方"竟然是负的。
问题的根源:复双线性让纯虚数标量 \(i\) 在两个变量上各贡献一个 \(i\),乘起来变成 \(-1\)。修复办法是让第二个变量"共轭线性",这样 \(i\) 在第二变量拉出来时变成 \(\bar i=-i\),与第一变量的 \(i\) 相乘恰好得 \(-i\cdot i=1\)(正号)。具体推导见下面的齐次性验证。
定义(复内积空间):设 \(V\) 是复数域 \(\mathbb{C}\) 上的向量空间。一个**复内积**(complex inner product)是映射 \(\langle\cdot,\cdot\rangle:V\times V\to\mathbb{C}\),满足对所有 \(u,v,w\in V\) 与 \(\lambda\in\mathbb{C}\):
- 第一变量线性:\(\langle\lambda u+w,v\rangle=\lambda\langle u,v\rangle+\langle w,v\rangle\);
- 共轭对称性(conjugate symmetry / Hermitian symmetry):\(\langle u,v\rangle=\overline{\langle v,u\rangle}\);
- 正定性:\(\langle v,v\rangle\ge 0\)(自动是实数,见下),且 \(=0\iff v=0\)。
这样的型称为 sesquilinear form(拉丁词头 sesqui = "一倍半",即"一个半线性"——第一变量全线性,第二变量带共轭的"半线性")。
由共轭对称,\(\langle v,v\rangle=\overline{\langle v,v\rangle}\),所以 \(\langle v,v\rangle\) 自动是实数,正定性的"\(\ge 0\)"才有意义。第二变量的共轭线性同样是推论: $\(\langle u,\lambda v+w\rangle\overset{\text{共轭对称}}{=}\overline{\langle\lambda v+w,u\rangle}\overset{\text{第一线性}}{=}\overline{\lambda\langle v,u\rangle+\langle w,u\rangle}=\bar\lambda\,\overline{\langle v,u\rangle}+\overline{\langle w,u\rangle}\overset{\text{共轭对称}}{=}\bar\lambda\langle u,v\rangle+\langle u,w\rangle.\)$ 所以 \(\langle u,\lambda v\rangle=\bar\lambda\langle u,v\rangle\)——第二变量带共轭。这正是上面修复正定性所需的性质:重验 \(\langle iv,iv\rangle=i\cdot\bar i\langle v,v\rangle=i\cdot(-i)\langle v,v\rangle=\langle v,v\rangle\ge 0\),危机解除。
本质洞察:复内积的"共轭"不是装饰,而是**正定性的守护者**。每当你在某个公式里看到一个共轭符号 \(\bar{(\cdot)}\) 而不明白它为什么在那儿,回到这条根源:它的存在是为了让"长度平方"始终非负实数。后面 Riesz 定理的系数共轭(§A2b.11)、伴随的标量律 \((\lambda T)^*=\bar\lambda T^*\)(§A2b.15)、伴随的存在性证明里"双重共轭抵消"(§A2b.14)——所有共轭的来龙去脉都能追溯到这里。
§A2b.1.3 约定分歧与本课程选择¶
复内积"哪个变量带共轭"是一个**纯约定**,数学界和物理界选了相反的方向。这造成大量跨文献阅读的混乱,必须一次讲清。
| 项目 | 数学惯例(本课程) | 物理 Dirac 惯例 |
|---|---|---|
| 线性变量 | 第一个 | 第二个 |
| 共轭线性变量 | 第二个 | 第一个 |
| \(\langle\lambda u,v\rangle\) | \(\lambda\langle u,v\rangle\) | \(\bar\lambda\langle u,v\rangle\) |
| \(\langle u,\lambda v\rangle\) | \(\bar\lambda\langle u,v\rangle\) | \(\lambda\langle u,v\rangle\) |
| \(\mathbb{C}^n\) 上 | \(\langle x,y\rangle=\sum_i x_i\bar y_i\) | \(\langle x\mid y\rangle=\sum_i\bar x_i y_i\) |
| 典型教材 | Axler, HK, FIS, Roman, Halmos, Lang, Rudin | Dirac, Sakurai, 量子力学课本 |
七教材一致性(一个安心的事实):本章参考的七大数学线性代数教材(Axler / Hoffman-Kunze / Friedberg / Roman / Halmos / Lang / Rudin)全部采用第一变量线性。所以只要你读的是数学系教材,约定是统一的;只有跨到物理/量子计算文献时才需要"翻译"。机器人文献多数沿用数学惯例,但状态估计中借用量子记号的论文偶有例外,读到 bra-ket 记号 \(\langle\cdot\mid\cdot\rangle\) 时务必先确认约定。
本课程**坚定采用数学惯例(第一变量线性)**。原因有二:其一,与七大教材一致,便于交叉阅读;其二,与 A2a 的对偶配对 \(\langle\varphi,v\rangle=\varphi(v)\)(第一变量 \(\varphi\) 是泛函、线性)在记号直觉上协调。
§A2b.1.4 标准例子目录¶
公理化的好处是"一套理论,处处适用"。以下五个例子是全任务反复使用的"试验场",务必熟悉:
例 1(\(\mathbb{R}^n\) 欧氏点积):\(\langle x,y\rangle=x^{\mathsf T}y=\sum_{i=1}^n x_iy_i\)。这是最基本的实内积,是其它所有内积的原型。
例 2(\(\mathbb{C}^n\) Hermitian 点积):\(\langle x,y\rangle=\sum_{i=1}^n x_i\bar y_i=y^*x\)(这里 \(y^*=\bar y^{\mathsf T}\) 是共轭转置行向量)。注意求和里 \(y_i\) 带共轭——这是数学惯例下第二变量共轭的体现。验证 \(\langle x,x\rangle=\sum|x_i|^2\ge 0\),正定。
例 3(连续函数空间 \(C[a,b]\) 的 \(L^2\) 内积):\(\langle f,g\rangle=\int_a^b f(t)\overline{g(t)}\,dt\)。这是把"有限和"换成"积分"的无穷维推广。正定性 \(\langle f,f\rangle=\int|f|^2\ge 0\) 且 \(=0\iff f\equiv 0\)(对连续函数成立;对 \(L^2\) 可测函数需"几乎处处",留给 B2 测度论)。这个例子是傅里叶级数、球谐函数、姿态学习中 \(L^2(\mathrm{SO}(3))\) 分解的源头。
例 4(矩阵空间 \(M_n(F)\) 的 Frobenius 内积):\(\langle A,B\rangle=\operatorname{tr}(AB^*)=\sum_{i,j}A_{ij}\overline{B_{ij}}\)。它把矩阵当作 \(n^2\) 维向量做点积。这个内积在机器人优化里出现于"矩阵流形上的梯度"、协方差矩阵的距离度量。验证迹的循环性 \(\operatorname{tr}(AB^*)=\overline{\operatorname{tr}(BA^*)}\) 给出共轭对称。
例 5(加权 / 能量内积):在 \(\mathbb{R}^n\) 上取一个**对称正定矩阵** \(M\)(\(M=M^{\mathsf T}\),且 \(x^{\mathsf T}Mx>0\ \forall x\ne 0\)),定义 \(\langle x,y\rangle_M=x^{\mathsf T}My\)。正定性恰由 \(M\) 的正定性保证。这个例子至关重要:机器人动能 \(T=\tfrac12\dot q^{\mathsf T}M(q)\dot q\) 中的质量矩阵 \(M(q)\) 就定义了关节速度空间上的"动能内积",动态一致伪逆用的就是它(§A2b.R6)。
这五个例子覆盖了"有限维实/复、无穷维函数、矩阵、加权"五种典型情形。后面每证一个定理,都可以拿这五个例子检验直觉。
⚠️ 常见陷阱¶
💡 概念误区:以为"内积就是点积" - 新手想法:"内积不就是 \(\sum x_iy_i\) 吗,换个名字而已。" - 现象/后果:遇到加权内积 \(x^{\mathsf T}My\)、函数 \(L^2\) 内积、Frobenius 内积时认不出来,或错误地以为"长度只有一种"。在机器人里会导致用欧氏度量处理本该用能量度量的问题(如把关节空间当欧氏空间做插值,忽略不同关节的惯量差异)。 - 根本原因:把"一个具体实例"误当成"定义本身"。点积是内积的**一个**例子,内积是满足三公理的**任何**运算。 - 正确做法:记住内积是公理化对象。判断一个运算是不是内积,逐条验证三公理,而不是看它"像不像点积"。
🧠 思维陷阱:在复空间用实内积的"对称" - 新手想法:"复内积应该也是对称的 \(\langle u,v\rangle=\langle v,u\rangle\) 吧。" - 现象/后果:得出 \(\langle iv,iv\rangle=-\langle v,v\rangle<0\) 的荒谬结论,或在计算 \(\langle u,\lambda v\rangle\) 时漏掉共轭。 - 根本原因:没理解共轭对称是"正定性"逼出来的必然,不是可有可无的风格选择。 - 正确做法:复内积是**共轭对称** \(\langle u,v\rangle=\overline{\langle v,u\rangle}\),第二变量带共轭 \(\langle u,\lambda v\rangle=\bar\lambda\langle u,v\rangle\)。验算时把共轭符号当成"必须守恒的量"。
💡 概念误区:以为任意对称矩阵都能定义内积 - 新手想法:"\(\langle x,y\rangle=x^{\mathsf T}My\),只要 \(M\) 对称就行。" - 现象/后果:取 \(M=\mathrm{diag}(1,-1)\),则 \(\langle x,x\rangle=x_1^2-x_2^2\) 可以为负(如 \(x=(0,1)\) 得 \(-1\)),违反正定性。这其实是闵可夫斯基"内积"(狭义相对论的度量),它是**不定**的,不是本章意义下的内积。 - 根本原因:忽略了正定性公理,只记住了对称性。 - 正确做法:\(\langle x,y\rangle_M=x^{\mathsf T}My\) 是内积 \(\iff M\) 对称正定(实情况)或 Hermitian 正定(复情况)。正定是不可省的。
练习¶
1.(验证题)在 \(\mathbb{R}^2\) 上定义 \(\langle x,y\rangle=2x_1y_1+x_1y_2+x_2y_1+3x_2y_2\)。写出对应的矩阵 \(M\),并判断它是否是内积(在草稿纸上验证三公理,特别是正定性——提示:检查 \(M\) 的对角线与行列式 / 主子式符号)。
2.(构造题)在次数 \(\le 2\) 的实多项式空间 \(\mathcal{P}_2(\mathbb{R})\) 上,验证 \(\langle p,q\rangle=\int_{-1}^1 p(t)q(t)\,dt\) 是内积。计算 \(\langle 1,t\rangle\)、\(\langle 1,t^2\rangle\)、\(\langle t,t^2\rangle\),并据此说出 \(\{1,t,t^2\}\) 中哪些对是正交的。(这是 Legendre 多项式的起点。)
3.(开放思考题)量子力学用第二变量线性的 Dirac 惯例,数学用第一变量线性。请论证:在**实**内积空间里,这两种惯例给出的内积**完全相同**;而在复空间里,从数学惯例的内积 \(\langle\cdot,\cdot\rangle_{\text{math}}\) 出发,物理惯例的内积是 \(\langle u,v\rangle_{\text{phys}}=\langle v,u\rangle_{\text{math}}=\overline{\langle u,v\rangle_{\text{math}}}\)。这说明两种惯例只差一个整体共轭。
§A2b.2 由内积诱导的范数 ⭐⭐¶
动机:从内积造出"长度"¶
有了内积,定义长度就水到渠成。回到逆向工程的起点:欧氏长度 \(\|x\|=\sqrt{\sum x_i^2}=\sqrt{x\cdot x}\)。把点积换成抽象内积,就得到诱导范数。这一步看似平凡,但它把一个**二元运算**(内积,吃两个向量)压缩成一个**一元运算**(范数,吃一个向量),是整个度量几何的基石。
理论:诱导范数的定义与展开恒等式¶
§A2b.2.1 范数的定义与良定义性¶
定义(诱导范数):内积空间 \((V,\langle\cdot,\cdot\rangle)\) 上,向量 \(v\) 的**范数**(norm)定义为 $\(\|v\|:=\sqrt{\langle v,v\rangle}.\)$
这个定义**良定义**(well-defined),靠的恰是正定性公理:\(\langle v,v\rangle\ge 0\) 保证被开方数非负,平方根在实数范围内有意义;\(\langle v,v\rangle=0\iff v=0\) 保证 \(\|v\|=0\iff v=0\)。如果没有正定性(比如闵可夫斯基"内积"),这个平方根可能要开负数,范数就不存在了。这里用到了"实数完备性"这一黑盒——非负实数总有非负平方根(B1 实分析的结论)。
诱导范数立刻满足两条基本性质:
齐次性(homogeneity):对标量 \(\lambda\), $\(\|\lambda v\|=\sqrt{\langle\lambda v,\lambda v\rangle}=\sqrt{\lambda\bar\lambda\langle v,v\rangle}=\sqrt{|\lambda|^2\langle v,v\rangle}=|\lambda|\,\|v\|.\)$ 注意这里复情况用了 \(\langle\lambda v,\lambda v\rangle=\lambda\bar\lambda\langle v,v\rangle=|\lambda|^2\langle v,v\rangle\)——第二变量的共轭把 \(\lambda\) 变成 \(\bar\lambda\),两者相乘成模平方。这又是 §A2b.1 那句"共轭守护正定性"的直接后果。
正性:\(\|v\|\ge 0\),\(\|v\|=0\iff v=0\)(直接来自正定性)。
第三条性质——三角不等式 \(\|u+v\|\le\|u\|+\|v\|\)——不是显然的,需要 Cauchy–Schwarz 才能证,留到 §A2b.4。一旦三条齐备,\(\|\cdot\|\) 才是真正数学意义上的"范数"。
§A2b.2.2 Pythagoras 定理¶
正交的向量满足勾股定理——这是内积几何与中学平面几何接轨的第一个桥。
定理(Pythagoras):若 \(\langle u,v\rangle=0\)(称 \(u\perp v\),正交),则 $\(\|u+v\|^2=\|u\|^2+\|v\|^2.\)$
证明:直接展开(这是下面 §A2b.2.3 展开恒等式的特例): $\(\|u+v\|^2=\langle u+v,u+v\rangle=\langle u,u\rangle+\langle u,v\rangle+\langle v,u\rangle+\langle v,v\rangle.\)$ 由 \(\langle u,v\rangle=0\) 且共轭对称 \(\langle v,u\rangle=\overline{\langle u,v\rangle}=0\),中间两项消失,得 \(\|u+v\|^2=\|u\|^2+\|v\|^2\)。\(\blacksquare\)
这个简短证明里藏着一个**反复出现的主力工具**:把 \(\|u+v\|^2\) 拆成四项内积。下面把它单独提炼出来。
§A2b.2.3 \(\|u+v\|^2\) 的展开恒等式¶
展开恒等式(关键代数工具,全任务反复使用): $\(\|u+v\|^2=\langle u,u\rangle+\langle u,v\rangle+\langle v,u\rangle+\langle v,v\rangle=\|u\|^2+\langle u,v\rangle+\overline{\langle u,v\rangle}+\|v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2.\)$
最后一步用了 \(z+\bar z=2\operatorname{Re}(z)\)。在实情况下 \(\langle u,v\rangle\) 本就是实数,\(\operatorname{Re}\langle u,v\rangle=\langle u,v\rangle\),恒等式简化为 \(\|u+v\|^2=\|u\|^2+2\langle u,v\rangle+\|v\|^2\)。
同理可得 $\(\|u-v\|^2=\|u\|^2-2\operatorname{Re}\langle u,v\rangle+\|v\|^2.\)$
阶段小结:到这里我们完成了三件事——从内积定义了范数、验证了齐次性、得到了主力展开恒等式 \(\|u+v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2\)。接下来 §A2b.3 要用这个恒等式(连同它的变分形式)证明内积几何里最重要的不等式:Cauchy–Schwarz。它是三角不等式、夹角定义、最佳逼近的共同源头。
本质洞察:展开恒等式告诉我们,\(\|u+v\|^2\) 与 \(\|u\|^2+\|v\|^2\) 的"差"恰好是 \(2\operatorname{Re}\langle u,v\rangle\),即内积的实部。换句话说,内积测量的就是"两个向量有多大程度上'同向'"——同向(\(\operatorname{Re}\langle u,v\rangle>0\))时合向量更长,反向时更短,正交时恰好满足勾股定理。这个直觉把抽象内积锚定回中学的"投影"图像。
⚠️ 常见陷阱¶
💡 概念误区:以为所有范数都来自内积 - 新手想法:"范数和内积是一回事,有了范数就有内积。" - 现象/后果:试图对 \(\ell^1\) 范数 \(\|x\|_1=\sum|x_i|\) 或 \(\ell^\infty\) 范数 \(\|x\|_\infty=\max|x_i|\) 反推内积,失败而困惑。 - 根本原因:范数是更弱的结构(只需正性、齐次、三角不等式),内积更强。诱导范数是范数,但反之不一定。 - 正确做法:一个范数来自内积当且仅当它满足平行四边形恒等式(Jordan–von Neumann 定理,§A2b.5′)。\(\ell^1,\ell^\infty\) 不满足,故不来自内积。
🧠 思维陷阱:复情况漏掉 \(\operatorname{Re}\) - 新手想法:"\(\|u+v\|^2=\|u\|^2+2\langle u,v\rangle+\|v\|^2\),照实情况写。" - 现象/后果:在复空间里 \(\langle u,v\rangle\) 可能是复数,\(2\langle u,v\rangle\) 不是实数,但等号左边 \(\|u+v\|^2\) 必是实数——自相矛盾。 - 根本原因:忘了复情况要取实部,\(\langle u,v\rangle+\langle v,u\rangle=\langle u,v\rangle+\overline{\langle u,v\rangle}=2\operatorname{Re}\langle u,v\rangle\)。 - 正确做法:复情况一律写 \(2\operatorname{Re}\langle u,v\rangle\);只有确认在实空间时才简化掉 \(\operatorname{Re}\)。
练习¶
1.(计算题)在 \(\mathbb{C}^2\) 上取标准 Hermitian 内积,\(u=(1,i)\),\(v=(i,1)\)。计算 \(\langle u,v\rangle\)、\(\|u\|\)、\(\|v\|\)、\(\|u+v\|^2\),并验证展开恒等式 \(\|u+v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2\)。
2.(证明题)证明诱导范数满足 \(\|u+v\|^2+\|u-v\|^2=2\|u\|^2+2\|v\|^2\)(平行四边形恒等式的预演——把两个展开恒等式相加,在草稿纸上完成)。
3.(开放思考题)能否在 \(\mathbb{R}^2\) 上定义一个范数,使得单位"圆" \(\{x:\|x\|=1\}\) 是一个正方形?如果能,这个范数还能来自内积吗?(提示:内积诱导的范数其单位球总是椭球——想想为什么。)
§A2b.3 Cauchy–Schwarz 不等式 ⭐⭐⭐¶
动机:夹角的定义需要一个保证¶
我们想定义两个向量的夹角 \(\cos\theta=\dfrac{\langle u,v\rangle}{\|u\|\,\|v\|}\)(实情况)。但 \(\cos\theta\) 必须落在 \([-1,1]\) 里,否则 \(\theta\) 不存在。这就要求 $\(\left|\frac{\langle u,v\rangle}{\|u\|\,\|v\|}\right|\le 1\quad\Longleftrightarrow\quad|\langle u,v\rangle|\le\|u\|\,\|v\|.\)$ 这个不等式如果不成立,"夹角"概念就垮了。Cauchy–Schwarz 不等式正是这个保证。它是内积几何里**最重要、用得最多**的不等式——三角不等式、Bessel 不等式、最佳逼近、Riesz 映射的等距性,全都依赖它。
如果不这样做会怎样¶
没有 Cauchy–Schwarz,我们连"\(\cos\theta\in[-1,1]\)"都无法保证,夹角无法定义,"正交""投影"等一切角度相关概念都建立不起来。更实际地:统计学里相关系数 \(\rho=\dfrac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}\in[-1,1]\) 正是 \(L^2\) 随机变量空间里的 Cauchy–Schwarz,没有它相关系数可能超过 1,整个回归分析失去意义。
历史:三个名字,一个不等式¶
这个不等式有三位"署名人",对应它在三个层次的发现:
- Augustin-Louis Cauchy(1821):在《分析教程》中证明了有限和形式 \(\left(\sum a_ib_i\right)^2\le\left(\sum a_i^2\right)\left(\sum b_i^2\right)\)。
- Viktor Bunyakovsky(1859):把它推广到积分形式(俄语文献称 Cauchy–Bunyakovsky 不等式)。
- Hermann Amandus Schwarz(1888):在研究极小曲面时给出二维积分的现代证明(用判别式),并强调了内积空间的抽象框架。
因此英语世界叫 Cauchy–Schwarz,俄语世界叫 Cauchy–Bunyakovsky–Schwarz(CBS)。三个名字提醒我们:同一个数学真理可以在"离散和""积分""抽象内积"三个层次被独立发现——这正是公理化的价值,一次证明覆盖全部层次。
理论:陈述与三种证明¶
§A2b.3.1 Cauchy–Schwarz 陈述与等号刻画¶
定理(Cauchy–Schwarz 不等式):内积空间 \(V\) 中,对所有 \(u,v\in V\), $\(|\langle u,v\rangle|\le\|u\|\,\|v\|.\)$ 等号成立当且仅当 \(u,v\) 线性相关(即其中一个是另一个的标量倍)。
下面给三种证明。它们不是重复劳动——每一种揭示不等式的一个侧面:正交分解(几何)、最小化(变分)、判别式(代数)。机器人读者尤其要掌握第二种,它是最小二乘的雏形。
§A2b.3.2 证明一:正交分解 + Pythagoras(Axler 路线)¶
这是最"几何"的证明,思路是把 \(u\) 分解成"沿 \(v\) 的分量"加"垂直于 \(v\) 的分量"。
证明:若 \(v=0\),两边都是 \(0\),不等式成立(且 \(u,v\) 线性相关)。设 \(v\ne 0\)。定义 $\(w:=u-\frac{\langle u,v\rangle}{\|v\|^2}v.\)$ 直觉:\(\dfrac{\langle u,v\rangle}{\|v\|^2}v\) 是 \(u\) 在 \(v\) 方向的"投影",\(w\) 是减去投影后的"垂直余量"。验证 \(w\perp v\): $\(\langle w,v\rangle=\langle u,v\rangle-\frac{\langle u,v\rangle}{\|v\|^2}\langle v,v\rangle=\langle u,v\rangle-\langle u,v\rangle=0.\)$ 于是 \(u=w+\dfrac{\langle u,v\rangle}{\|v\|^2}v\) 是正交分解(两项正交)。由 Pythagoras(§A2b.2.2): $\(\|u\|^2=\|w\|^2+\left\|\frac{\langle u,v\rangle}{\|v\|^2}v\right\|^2=\|w\|^2+\frac{|\langle u,v\rangle|^2}{\|v\|^4}\|v\|^2=\|w\|^2+\frac{|\langle u,v\rangle|^2}{\|v\|^2}.\)$ 由于 \(\|w\|^2\ge 0\), $\(\|u\|^2\ge\frac{|\langle u,v\rangle|^2}{\|v\|^2}\quad\Longrightarrow\quad|\langle u,v\rangle|^2\le\|u\|^2\|v\|^2\quad\Longrightarrow\quad|\langle u,v\rangle|\le\|u\|\,\|v\|.\)$ 等号刻画:等号 \(\iff\|w\|^2=0\iff w=0\iff u=\dfrac{\langle u,v\rangle}{\|v\|^2}v\),即 \(u\) 是 \(v\) 的标量倍,线性相关。\(\blacksquare\)
本质洞察:Cauchy–Schwarz 等号成立当且仅当线性相关,几何含义是"两个向量共线时夹角为 0 或 π,\(|\cos\theta|=1\) 达到极值"。这条等号刻画在机器人里反复出现:当雅可比矩阵某两列接近线性相关时,操作度椭球被压扁成近似退化——这是奇异构型的征兆(§A2b.R7 SVD 的奇异值趋零)。
§A2b.3.3 证明二:关于 \(t\) 的最小化(变分路线)¶
这个证明把不等式看成一个**最优化问题**:在直线 \(\{u-tv:t\in F\}\) 上找离原点最近的点。这正是最小二乘的一维原型,机器人读者必须吃透。
证明(实情况,复情况见 §A2b.3.4 的修补):设 \(v\ne 0\)。对任意标量 \(t\),由范数正性 \(\|u-tv\|^2\ge 0\)。展开(实情况): $\(\|u-tv\|^2=\|u\|^2-2t\langle u,v\rangle+t^2\|v\|^2\ge 0.\)$ 这是关于实变量 \(t\) 的二次函数,开口向上(系数 \(\|v\|^2>0\))。它的最小值在 \(t^*=\dfrac{\langle u,v\rangle}{\|v\|^2}\) 处取得(令导数 \(-2\langle u,v\rangle+2t\|v\|^2=0\))。代入: $\(\min_t\|u-tv\|^2=\|u\|^2-\frac{\langle u,v\rangle^2}{\|v\|^2}\ge 0\quad\Longrightarrow\quad\langle u,v\rangle^2\le\|u\|^2\|v\|^2.\)$ 开方即得。\(\blacksquare\)
注意 \(t^*=\dfrac{\langle u,v\rangle}{\|v\|^2}\) 与证明一里投影系数**完全相同**——两种证明在代数上是同一件事,只是一个从几何(正交分解)切入,一个从变分(最小化)切入。
理论-工程桥接:证明二的"找 \(t\) 使 \(\|u-tv\|\) 最小"就是**一维最小二乘**:把 \(u\) 看成观测数据,\(v\) 看成模型基向量,\(t\) 是待估参数,\(\|u-tv\|^2\) 是残差平方和,\(t^*\) 是最小二乘估计。把 \(v\) 从一个向量换成一组向量(矩阵 \(A\)),就得到一般最小二乘 \(\min_x\|Ax-b\|^2\) 与法方程 \(A^*Ax=A^*b\)(§A2b.11.3)。所以 Cauchy–Schwarz 的变分证明不是孤立技巧,而是机器人状态估计的数学胚胎。
§A2b.3.4 证明三:实判别式与复情况的注意点¶
实情况判别式证明:把 \(f(t)=\|u+tv\|^2=\|v\|^2 t^2+2\langle u,v\rangle t+\|u\|^2\) 看成实系数二次多项式。它对所有实 \(t\) 非负,故判别式 \(\le 0\): $\(\Delta=(2\langle u,v\rangle)^2-4\|v\|^2\|u\|^2\le 0\quad\Longrightarrow\quad\langle u,v\rangle^2\le\|u\|^2\|v\|^2.\)$ 干净利落。但——
复情况陷阱(务必警惕):判别式证明**不能直接照搬到复空间**。原因:当 \(t\in\mathbb{C}\) 时, $\(\|u+tv\|^2=\|u\|^2+2\operatorname{Re}(\bar t\langle u,v\rangle)+|t|^2\|v\|^2\)$ 含有 \(\bar t\) 项,不是 \(t\) 的多项式(多项式不能有 \(\bar t\)),"判别式"无从谈起。
标准修补:把复内积 \(\langle u,v\rangle\) 写成极坐标 \(\langle u,v\rangle=|\langle u,v\rangle|e^{i\theta}\),令 \(u'=e^{-i\theta}u\)。则 \(\langle u',v\rangle=e^{-i\theta}\langle u,v\rangle=|\langle u,v\rangle|\) 变成**非负实数**,问题退化到实情况,对 \(u',v\) 用实证明即可,最后 \(|\langle u',v\rangle|=|\langle u,v\rangle|\)、\(\|u'\|=\|u\|\),不等式对原 \(u,v\) 成立。
这个"乘以单位复数转成实数"的技巧(rotation trick)在复内积空间里反复出现(如证明 §A2b.17 酉算子保内积时),值得记住。
系统性分类(三种证明的适用边界): | 证明 | 核心工具 | 实/复 | 揭示的侧面 | 机器人共鸣 | |---|---|---|---|---| | 一·正交分解 | Pythagoras | 实+复均可 | 几何(投影余量)| 奇异构型、投影 | | 二·最小化 | 二次函数极值 | 实直接,复需 rotation | 变分(最小二乘)| 最小二乘、Kalman | | 三·判别式 | 二次多项式 \(\Delta\le 0\) | **仅实**直接 | 代数(系数关系)| —(最易踩复情况坑)|
⚠️ 常见陷阱¶
🧠 思维陷阱:复情况套用实判别式 - 新手想法:"实情况判别式证明很漂亮,复情况照抄。" - 现象/后果:把 \(\|u+tv\|^2\) 当成 \(t\) 的二次多项式求判别式,但它含 \(\bar t\) 不是多项式,推导无意义。 - 根本原因:忽略了复数的共轭破坏多项式结构。 - 正确做法:复情况用 rotation trick(乘 \(e^{-i\theta}\) 转成实数),或直接用证明一/二。
💡 概念误区:忘记等号刻画里 \(v=0\) 的单独处理 - 新手想法:"等号成立当且仅当 \(u=\lambda v\)。" - 现象/后果:当 \(v=0\) 时 \(u=\lambda v\) 要求 \(u=0\),但实际上 \(v=0\) 时无论 \(u\) 是什么等号都成立(两边都是 0),漏掉了 \(u\ne 0,v=0\) 的情形。 - 根本原因:除以 \(\|v\|^2\) 的证明默认 \(v\ne 0\),忘了单独处理 \(v=0\)。 - 正确做法:等号刻画的完整表述是"\(u,v\) 线性相关"(包含任一为零的情形),而非简单的"\(u=\lambda v\)"。
🧠 思维陷阱:把 Cauchy–Schwarz 与三角不等式混为一谈 - 新手想法:"\(|\langle u,v\rangle|\le\|u\|\|v\|\) 和 \(\|u+v\|\le\|u\|+\|v\|\) 差不多。" - 现象/后果:在需要 Cauchy–Schwarz 的地方误用三角不等式,反之亦然。 - 根本原因:没看清逻辑顺序——Cauchy–Schwarz 是**因**,三角不等式是**果**(§A2b.4 用前者证后者)。 - 正确做法:Cauchy–Schwarz 约束**内积**的大小,三角不等式约束**和的范数**。前者先证,后者由前者推出。
练习¶
1.(证明题)用 Cauchy–Schwarz 证明:对正实数 \(a_1,\dots,a_n\),有 \(\left(\sum a_i\right)\left(\sum\frac{1}{a_i}\right)\ge n^2\)。(提示:在 \(\mathbb{R}^n\) 上取 \(u=(\sqrt{a_i})\),\(v=(1/\sqrt{a_i})\),在草稿纸上完成。)
2.(推导题)在 \(L^2[0,1]\) 上,用 Cauchy–Schwarz 证明 \(\left(\int_0^1 f(t)\,dt\right)^2\le\int_0^1 f(t)^2\,dt\)。说明这等价于"方差非负"在概率论中的形式 \(E[X]^2\le E[X^2]\)。
3.(开放思考题)证明二(最小化)给出了"\(u\) 在 \(\operatorname{span}\{v\}\) 上的最佳逼近系数 \(t^*\)"。如果把 \(v\) 换成两个线性无关向量 \(v_1,v_2\),求 \(\min_{t_1,t_2}\|u-t_1v_1-t_2v_2\|^2\) 的最优系数满足什么方程组?(这是法方程的二维特例,预习 §A2b.11。在草稿纸上写出正规方程。)
§A2b.4 三角不等式与度量结构 ⭐⭐¶
动机:范数要配得上"长度"这个名号¶
我们已经从内积定义了 \(\|v\|=\sqrt{\langle v,v\rangle}\),并验证了正性和齐次性。但要让 \(\|\cdot\|\) 真正成为数学意义上的**范数**,还差最后一条:三角不等式 \(\|u+v\|\le\|u\|+\|v\|\)。它的几何含义是"三角形两边之和不小于第三边",是"距离"概念自洽的最低要求——没有它,"两点间直线最短"都不成立。
理论:从 Cauchy–Schwarz 到度量空间¶
§A2b.4.1 三角不等式证明¶
定理(三角不等式):内积空间中 \(\|u+v\|\le\|u\|+\|v\|\)。
证明:从展开恒等式(§A2b.2.3)出发,每一步注明依据: $\(\|u+v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2.\)$ 第一步,\(\operatorname{Re}(z)\le|z|\)(任何复数实部不超过模),所以 \(2\operatorname{Re}\langle u,v\rangle\le 2|\langle u,v\rangle|\): $\(\|u+v\|^2\le\|u\|^2+2|\langle u,v\rangle|+\|v\|^2.\)$ 第二步,用 Cauchy–Schwarz \(|\langle u,v\rangle|\le\|u\|\,\|v\|\): $\(\|u+v\|^2\le\|u\|^2+2\|u\|\,\|v\|+\|v\|^2=(\|u\|+\|v\|)^2.\)$ 第三步,两边开平方(都是非负数,开方保序):\(\|u+v\|\le\|u\|+\|v\|\)。\(\blacksquare\)
整个证明的关键一步是"第二步用 Cauchy–Schwarz"——这就是为什么 §A2b.3 必须先于本节。证明清楚展示了知识的依赖链:展开恒等式 → \(\operatorname{Re}\le|\cdot|\) → Cauchy–Schwarz → 三角不等式。
等号条件:等号成立需要两个不等式同时取等——\(\operatorname{Re}\langle u,v\rangle=|\langle u,v\rangle|\)(即 \(\langle u,v\rangle\) 是非负实数)且 \(|\langle u,v\rangle|=\|u\|\|v\|\)(即线性相关)。合起来:\(u,v\) 线性相关**且同向**(\(v=cu\),\(c\ge 0\))。几何上即"两向量同方向时三角形退化为线段"。
§A2b.4.2 反向三角不等式与度量结构¶
推论(反向三角不等式):\(\big|\,\|u\|-\|v\|\,\big|\le\|u-v\|\)。
证明:由 \(\|u\|=\|(u-v)+v\|\le\|u-v\|+\|v\|\) 得 \(\|u\|-\|v\|\le\|u-v\|\);对称地 \(\|v\|-\|u\|\le\|v-u\|=\|u-v\|\)。两式合并即得绝对值形式。\(\blacksquare\)
反向三角不等式的工程意义:它说明"范数是连续函数"——输入变化 \(\|u-v\|\) 很小时,输出变化 \(|\|u\|-\|v\||\) 也很小。这是数值计算稳定性的基础。
诱导度量:有了范数,定义两点间**距离** $\(d(u,v):=\|u-v\|.\)$ 它满足度量空间三公理:(i) \(d(u,v)\ge 0\) 且 \(=0\iff u=v\)(正性,来自范数正性);(ii) \(d(u,v)=d(v,u)\)(对称,因 \(\|u-v\|=\|v-u\|\),由齐次性 \(\|-(v-u)\|=|-1|\|v-u\|\));(iii) \(d(u,w)\le d(u,v)+d(v,w)\)(三角不等式,因 \(\|u-w\|=\|(u-v)+(v-w)\|\le\|u-v\|+\|v-w\|\))。
阶段小结:到这里,度量结构的链条完整了——内积 → 范数 → 距离 → 度量空间。每一层都严格建立在上一层之上:内积给范数(开平方根,需正定),范数给距离(作差取范数),距离给度量空间(三公理由范数性质推出)。于是内积空间是赋范空间,赋范空间是度量空间,度量空间有拓扑(开球、收敛、连续)。这条链为 §A2c 讨论"算子连续性"、为 B3 泛函分析讨论"Hilbert 空间完备性"铺好了路。
理论-工程桥接:诱导度量 \(d(u,v)=\|u-v\|\) 是机器人"误差"的统一语言。状态估计的 RMSE、轨迹跟踪的偏差、点云配准的对齐残差,本质都是某个内积空间里的诱导距离。选不同内积 → 不同度量 → 不同"误差"定义。例如在协方差加权内积 \(\langle x,y\rangle_{\Sigma^{-1}}=x^{\mathsf T}\Sigma^{-1}y\) 下,距离就是马氏距离(Mahalanobis distance),它在统计意义上"归一化"了不同方向的不确定性——这正是卡尔曼滤波用信息矩阵加权残差的原因。
⚠️ 常见陷阱¶
💡 概念误区:以为三角不等式是公理 - 新手想法:"三角不等式是内积的基本公理之一。" - 现象/后果:在证明里直接引用三角不等式而不知它需要 Cauchy–Schwarz 支撑,逻辑循环。 - 根本原因:混淆了"内积公理"(线性、对称、正定)与"诱导范数的性质"(三角不等式是定理,不是公理)。 - 正确做法:内积只有三条公理;三角不等式是由公理 + Cauchy–Schwarz **推出**的定理。
🧠 思维陷阱:误记反向三角不等式的方向 - 新手想法:"\(\|u-v\|\le|\|u\|-\|v\||\)?" - 现象/后果:方向写反,得到荒谬结论(如取 \(u=(1,0),v=(0,1)\),左边 \(\sqrt2\),右边 \(0\),"\(\sqrt2\le 0\)"显然错)。 - 根本原因:没理解反向三角不等式给的是 \(\|u-v\|\) 的**下界**。 - 正确做法:\(\big|\|u\|-\|v\|\big|\le\|u-v\|\)——绝对值在小的一侧,差的范数在大的一侧。
练习¶
1.(证明题)证明三角不等式的等号成立当且仅当 \(u,v\) 中有一个是另一个的**非负**实数倍(不只是线性相关,还要同向)。给出一个线性相关但等号不成立的例子(提示:\(v=-u\))。
2.(推导题)在 \(L^2\) 随机变量空间(\(\langle X,Y\rangle=E[XY]\))中,把三角不等式 \(\|X+Y\|\le\|X\|+\|Y\|\) 翻译成关于 \(\sqrt{E[(X+Y)^2]}\) 的不等式,并解释它在"标准差的次可加性"中的含义。
3.(开放思考题)马氏距离 \(d_\Sigma(x,y)=\sqrt{(x-y)^{\mathsf T}\Sigma^{-1}(x-y)}\) 是某个内积诱导的距离。它满足三角不等式吗?为什么?(提示:\(\Sigma^{-1}\) 对称正定,回到 §A2b.1 例 5。在草稿纸上验证它确实来自内积。)
§A2b.5 平行四边形恒等式与极化恒等式 ⭐⭐¶
动机:内积与范数能互相还原吗¶
到目前为止,我们的方向是单向的:内积 → 范数(开平方根)。一个自然的反问是:能不能反过来,从范数还原内积?这个问题不是闲来无事的好奇。它在两个地方至关重要:
- 理论上:如果范数能唯一决定内积,那么"内积空间"和"满足某种特殊条件的赋范空间"就是一回事,几何信息没有在"压缩成一元运算"时丢失。
- 工程上:很多算法只接触"距离/范数"(如优化的目标函数是 \(\|Ax-b\|^2\)),但证明性质时需要内积的双线性。如果能从范数把内积"调"出来,就能在只有范数的场合借用内积工具。
答案是:在内积空间里,范数确实唯一决定内积——这就是极化恒等式(polarization identity)。而判断"一个赋范空间的范数是否来自某内积"的判据,则是平行四边形恒等式(parallelogram law)。两者是一对孪生定理。
如果不这样做会怎样¶
设想我们只有范数 \(\|\cdot\|\),想定义"\(u,v\) 是否正交"。没有内积,"正交"无从谈起——我们只能说"长度",不能说"角度"。极化恒等式恰好补上这一环:它用纯范数表达式 \(\frac14(\|u+v\|^2-\|u-v\|^2)\)(实情况)重建出内积 \(\langle u,v\rangle\),于是"正交"\(\iff\|u+v\|=\|u-v\|\)(几何上即"平行四边形对角线等长当且仅当它是矩形")。没有极化,范数和内积之间就缺了一座可逆的桥。
理论:两个恒等式¶
§A2b.5.1 平行四边形恒等式¶
定理(平行四边形恒等式):内积空间中,对所有 \(u,v\), $\(\|u+v\|^2+\|u-v\|^2=2\|u\|^2+2\|v\|^2.\)$
证明:把 §A2b.2.3 的两个展开恒等式相加。由 $\(\|u+v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2,\qquad\|u-v\|^2=\|u\|^2-2\operatorname{Re}\langle u,v\rangle+\|v\|^2,\)$ 相加时 \(+2\operatorname{Re}\langle u,v\rangle\) 与 \(-2\operatorname{Re}\langle u,v\rangle\) 恰好抵消,余下 \(2\|u\|^2+2\|v\|^2\)。\(\blacksquare\)
证明只有一行,但结论的几何意义极漂亮:以 \(u,v\) 为邻边的平行四边形,两条对角线长度的平方和等于四条边长度的平方和(注意 \(\|u+v\|\)、\(\|u-v\|\) 是两条对角线,\(\|u\|\)、\(\|v\|\) 各出现两次是四条边)。这是欧氏几何里一条古老的定理,现在它成了"范数来自内积"的指纹。
本质洞察:平行四边形恒等式是内积空间的**判别指纹**——它对所有内积诱导的范数成立,且(由 Jordan–von Neumann 定理,§A2b.5′)只对内积诱导的范数成立。它的深刻之处在于:恒等式里**完全没有内积符号**,纯粹是范数的代数关系。这意味着"是否来自内积"这件事,可以仅凭范数本身检验,无需事先知道内积。\(\ell^1\)、\(\ell^\infty\) 范数违反它(见练习),所以它们"不够圆",不来自任何内积。
§A2b.5.2 极化恒等式:从范数还原内积¶
平行四边形恒等式说"范数若来自内积,必满足某关系";极化恒等式更进一步,显式地把内积写成范数的组合。
定理(极化恒等式,实情况):实内积空间中, $\(\langle u,v\rangle=\frac{1}{4}\left(\|u+v\|^2-\|u-v\|^2\right).\)$
证明:实情况下展开恒等式为 \(\|u\pm v\|^2=\|u\|^2\pm 2\langle u,v\rangle+\|v\|^2\),相减得 \(\|u+v\|^2-\|u-v\|^2=4\langle u,v\rangle\),除以 4 即得。\(\blacksquare\)
定理(极化恒等式,复情况):复内积空间(第一变量线性约定)中, $\(\langle u,v\rangle=\frac{1}{4}\sum_{k=0}^{3}i^{k}\,\|u+i^{k}v\|^2=\frac14\Big(\|u+v\|^2-\|u-v\|^2+i\|u+iv\|^2-i\|u-iv\|^2\Big).\)$
证明(复情况):记 \(z=\langle u,v\rangle\)。逐项用展开恒等式 \(\|u+i^kv\|^2=\|u\|^2+2\operatorname{Re}(\overline{i^k}\,z)+\|v\|^2\)(因 \(\langle u,i^kv\rangle=\overline{i^k}\langle u,v\rangle=\overline{i^k}z\))。将四项按 \(i^k\) 加权求和,\(\|u\|^2\) 与 \(\|v\|^2\) 项的系数 \(\sum_k i^k=1+i-1-i=0\) 全部抵消;交叉项给出 $\(\sum_{k=0}^3 i^k\cdot 2\operatorname{Re}(\overline{i^k}z)=2\sum_{k=0}^3 i^k\operatorname{Re}(\overline{i^k}z).\)$ 逐 \(k\) 代入(\(\operatorname{Re}(\bar 1\,z)=\operatorname{Re}z\),\(\operatorname{Re}(\overline{i}\,z)=\operatorname{Re}(-iz)=\operatorname{Im}z\),余类推)可算出此和等于 \(4z\),除以 4 得 \(z\)。\(\blacksquare\)
理论-工程桥接:极化恒等式在机器人里有一个低调但关键的用途——当算法只暴露"平方距离查询"时重建内积/相关。例如核方法(kernel method)、高斯过程回归中,核函数 \(k(x,y)\) 扮演内积角色,但有时我们只能测量 \(\|x-y\|^2\)(如某些度量学习场景);极化让我们从成对距离矩阵反推 Gram 矩阵 \(G_{ij}=\langle x_i,x_j\rangle\),这正是多维标度(MDS)和 ISOMAP 等流形学习算法的数学第一步。"双中心化距离矩阵得到内积矩阵"这一操作,本质就是极化恒等式的矩阵版本。
§A2b.5.3 一个推论:内积由范数唯一决定¶
极化恒等式的直接推论是一条唯一性结论:
推论:若两个内积 \(\langle\cdot,\cdot\rangle_1\) 与 \(\langle\cdot,\cdot\rangle_2\) 诱导出**相同的范数**(即 \(\|v\|_1=\|v\|_2\) 对所有 \(v\)),则它们**是同一个内积**。
证明:极化恒等式把内积完全表达为范数的函数,范数相同则右端相同,故 \(\langle u,v\rangle_1=\langle u,v\rangle_2\) 对所有 \(u,v\)。\(\blacksquare\)
这条推论看似抽象,却堵死了一个常见误解:"同一个范数下可以配不同内积。"不行——范数一旦给定,内积没有自由度。
⚠️ 常见陷阱¶
💡 概念误区:以为极化恒等式实/复同形 - 新手想法:"实情况是 \(\frac14(\|u+v\|^2-\|u-v\|^2)\),复情况照抄即可。" - 现象/后果:复情况只用两项会丢掉虚部,得到的"内积"实部对了虚部全错。 - 根本原因:复内积是复数,需要四项(带 \(i^k\) 权重)才能同时恢复实部和虚部;两项只能给出 \(\operatorname{Re}\langle u,v\rangle\)。 - 正确做法:复情况务必用四项求和 \(\frac14\sum_{k=0}^3 i^k\|u+i^kv\|^2\)。
🧠 思维陷阱:把平行四边形恒等式当成对所有范数成立 - 新手想法:"\(\|u+v\|^2+\|u-v\|^2=2\|u\|^2+2\|v\|^2\) 是范数的普遍性质。" - 现象/后果:在 \(\ell^1\) 或 \(\ell^\infty\) 空间里套用它,得到错误结论。 - 根本原因:该恒等式是内积空间的特征,不是一般赋范空间的性质(Jordan–von Neumann 定理刻画了这个边界)。 - 正确做法:只有当范数来自内积时才能用平行四边形恒等式;用前先确认空间是内积空间。
💡 概念误区:混淆"极化"与"分解" - 新手想法:"极化恒等式就是把向量分解成正交分量。" - 现象/后果:把极化(用范数表达内积)与正交分解(§A2b.10,把向量拆成子空间分量)搞混。 - 根本原因:两者都带"分解"直觉,但极化是标量恒等式,正交分解是向量等式。 - 正确做法:极化恒等式输出一个**数**(内积值),正交投影输出一个**向量**(投影分量),层次不同。
练习¶
1.(计算题)在 \(\mathbb{R}^2\) 上取 \(\ell^1\) 范数 \(\|x\|_1=|x_1|+|x_2|\),令 \(u=(1,0)\),\(v=(0,1)\)。计算 \(\|u+v\|_1^2+\|u-v\|_1^2\) 与 \(2\|u\|_1^2+2\|v\|_1^2\),验证平行四边形恒等式**不成立**,从而 \(\ell^1\) 范数不来自内积。
2.(推导题)用复极化恒等式四项展开,逐 \(k\) 验证 \(\|u\|^2\) 与 \(\|v\|^2\) 项系数之和为零、交叉项之和为 \(4\langle u,v\rangle\)。(在草稿纸上完成,注意 \(\overline{i^k}\) 的取值循环 \(1,-i,-1,i\)。)
3.(开放思考题)极化恒等式说"范数唯一决定内积"。反过来,一个内积是否唯一决定它的"正交关系"?即:若两内积有相同的正交向量对集合 \(\{(u,v):u\perp v\}\),它们是否必为同一内积(或差一个正标量倍)?给出你的猜想与理由。
§A2b.5′ Jordan–von Neumann 定理:哪些范数来自内积 🟣 ⭐⭐⭐⭐¶
本节标 🟣,首读可跳过。它回答一个"封闭性"问题:平行四边形恒等式不仅是内积范数的**必要**条件,还是**充分**条件。
动机:把"指纹"升级为"判据"¶
§A2b.5 证明了"内积范数 ⟹ 平行四边形恒等式"。但要让平行四边形恒等式成为真正的**判据**(拿到一个范数就能判断它是否来自内积),还需要反方向:"平行四边形恒等式 ⟹ 存在内积诱导它"。这正是 Jordan 与 von Neumann 在 1935 年证明的定理。它把一条几何观察提升为完整的充要刻画,是泛函分析里"内积空间 = 满足平行四边形律的赋范空间"这一论断的严格基础。
理论:定理与证明骨架¶
定理(Jordan–von Neumann, 1935):设 \((V,\|\cdot\|)\) 是实赋范空间。则 \(\|\cdot\|\) 来自某个内积(即存在内积 \(\langle\cdot,\cdot\rangle\) 使 \(\|v\|=\sqrt{\langle v,v\rangle}\))当且仅当 \(\|\cdot\|\) 满足平行四边形恒等式 $\(\|u+v\|^2+\|u-v\|^2=2\|u\|^2+2\|v\|^2\quad\forall u,v\in V.\)$ 此时该内积唯一,由极化恒等式给出。
证明骨架(实情况,充分性是难点):必要性已在 §A2b.5 证毕。充分性:假设平行四边形恒等式成立,定义 \(\langle u,v\rangle:=\frac14(\|u+v\|^2-\|u-v\|^2)\)(极化公式),然后逐条验证它是内积。
- 对称性:\(\langle v,u\rangle=\frac14(\|v+u\|^2-\|v-u\|^2)=\frac14(\|u+v\|^2-\|u-v\|^2)=\langle u,v\rangle\)(用 \(\|v-u\|=\|u-v\|\))。✓
- 正定性:\(\langle v,v\rangle=\frac14(\|2v\|^2-0)=\frac14\cdot 4\|v\|^2=\|v\|^2\ge 0\),且 \(=0\iff v=0\)。✓ 同时这验证了诱导范数确实是 \(\|\cdot\|\)。
- 可加性 \(\langle u+w,v\rangle=\langle u,v\rangle+\langle w,v\rangle\):这是全证明的技术核心。反复使用平行四边形恒等式,可推出 $\(\|u+w+v\|^2+\|u-w+v\|^2=2\|u+v\|^2+2\|w\|^2,\)$ 配合若干类似式做加减消元,最终得到可加性。这一步纯靠平行四边形恒等式的代数操作,没有任何捷径。
- 齐次性 \(\langle\lambda u,v\rangle=\lambda\langle u,v\rangle\):先由可加性推出对整数 \(n\) 成立(\(\langle nu,v\rangle=n\langle u,v\rangle\)),再推有理数,最后用范数的**连续性**(\(\lambda\mapsto\|u+\lambda v\|\) 连续)把有理数结论延拓到所有实数 \(\lambda\)。
四条齐备,\(\langle\cdot,\cdot\rangle\) 是内积。唯一性由 §A2b.5.3 推论给出。\(\blacksquare\)
本质洞察:这个定理的精神是"几何性质完全编码在度量里"。表面上内积比范数多了"角度"信息,似乎是更丰富的结构;但 Jordan–von Neumann 说,只要范数满足一条代数恒等式,"角度"就能从"长度"里**唯一地解码出来**——多出来的信息其实是幻觉。这与一个更广的主题呼应:常常一个看似更强的结构,实际由更弱的结构在某个约束下唯一确定(如连续函数由它在有理点的值确定)。证明里第 4 步用"有理数稠密 + 连续性延拓"正是这种思想的标志性手法。
理论-工程桥接:这个定理在机器人里更多是"思想工具"而非直接公式,但它给出一条重要判断准则:当你为某个估计/优化问题挑选范数时,若希望事后能用正交投影、最佳逼近、Pythagoras 这套内积工具,就必须选满足平行四边形律的范数(即 \(L^2\) 型),而不能选 \(L^1\)(鲁棒估计常用)或 \(L^\infty\)(最坏情况控制常用)。 这解释了为什么最小二乘(\(L^2\))有优雅的闭式法方程解,而 \(L^1\) 鲁棒估计(如 LASSO、M-估计)必须用迭代算法——后者的范数不来自内积,没有正交投影可用。范数的选择,本质上决定了你能否动用内积几何这整套机器。
⚠️ 常见陷阱¶
🧠 思维陷阱:以为充分性"显然" - 新手想法:"必要性证完了,充分性反着写一遍就行。" - 现象/后果:跳过可加性证明,误以为"定义了极化公式就自动是内积"。 - 根本原因:极化公式定义的二元函数,对称性和正定性容易,但**可加性和齐次性需要平行四边形恒等式做大量代数工作**,绝非显然。 - 正确做法:承认充分性是定理的实质内容,可加性的消元 + 齐次性的稠密延拓是真正的技术难点。
💡 概念误区:把定理误用到无穷维而忽略完备性 - 新手想法:"Jordan–von Neumann 对任意赋范空间都给出内积空间,所以任意满足平行四边形律的空间都是 Hilbert 空间。" - 现象/后果:把"内积空间"与"Hilbert 空间"(完备内积空间)混为一谈。 - 根本原因:定理只保证存在**内积**,不保证**完备性**;Hilbert 空间还要求按该范数完备。 - 正确做法:满足平行四边形律 ⟹ 内积空间(pre-Hilbert);再加完备性 ⟹ Hilbert 空间。两者区别留待 B3 泛函分析。
练习¶
1.(证明题)补全 Jordan–von Neumann 充分性证明的"可加性"一步:利用平行四边形恒等式,证明 \(\langle u+w,v\rangle=\langle u,v\rangle+\langle w,v\rangle\)。(提示:先证 \(\|u+w+v\|^2+\|u-w+v\|^2=2\|u+v\|^2+2\|w\|^2\) 与其对偶式,再相减。在草稿纸上完成,这是一道有难度的硬推导。)
2.(开放思考题)齐次性证明用了"有理数稠密 + 连续性延拓"。如果范数**不连续**(在无穷维某些病态情形),这套延拓会失败吗?这说明内积的齐次性其实悄悄依赖了什么拓扑假设?
3.(综合题,连接 §A2b.2)\(\ell^p\) 范数 \(\|x\|_p=(\sum|x_i|^p)^{1/p}\) 只在 \(p=2\) 时来自内积。用平行四边形恒等式在 \(\mathbb{R}^2\) 上取 \(u=(1,0),v=(0,1)\) 验证:仅当 \(p=2\) 时恒等式成立。(计算两边关于 \(p\) 的表达式并比较。)
§A2b.6 正交性、正交集与标准正交集 ⭐⭐¶
动机:从"两个向量垂直"到"一组向量互相垂直"¶
§A2b.2–5 处理的是两个向量之间的几何(夹角、投影、距离)。但线性代数的威力在于"基"——用一组向量张成整个空间。如果这组基里的向量**两两正交**,所有计算都会简化到不可思议的程度:坐标可以逐个独立算出来(不必解线性方程组),范数变成各分量范数的平方和(Pythagoras 的多向量版),矩阵变成对角的。正交基是线性代数里"最好用的基",本节先把正交性从"成对"推广到"成组",并证明它带来的第一个红利:正交集自动线性无关。
如果不这样做会怎样:一般基的坐标计算之痛¶
给定一般基 \(\{v_1,\dots,v_n\}\),要把向量 \(x\) 写成 \(x=\sum_i c_iv_i\),必须解线性方程组 \(\sum_i c_i\langle v_i,v_j\rangle=\langle x,v_j\rangle\)(即 Gram 矩阵方程),这是 \(O(n^3)\) 的工作量,且 Gram 矩阵病态时数值不稳。而如果基是标准正交的,\(\langle v_i,v_j\rangle=\delta_{ij}\),方程组瞬间解耦成 \(c_j=\langle x,v_j\rangle\)——一个内积就是一个坐标。没有正交性,每次换基都要解一遍方程组;有了正交性,坐标"读"出来即可。这就是为什么后面 Gram-Schmidt(把一般基正交化)如此重要。
理论:正交集、标准正交集与基本性质¶
§A2b.6.1 定义:正交集与标准正交集¶
定义:内积空间中一组非零向量 \(\{e_1,e_2,\dots\}\): - 称为**正交集**(orthogonal set),若两两正交:\(\langle e_i,e_j\rangle=0\) 当 \(i\ne j\); - 称为**标准正交集**(orthonormal set),若进一步每个都是单位向量:\(\langle e_i,e_j\rangle=\delta_{ij}\)(\(i=j\) 时为 1,\(i\ne j\) 时为 0)。
这里 \(\delta_{ij}\) 是 Kronecker delta。标准正交集 = 正交集 + 单位化。
把正交集单位化很容易:每个 \(e_i\) 除以自己的范数 \(\hat e_i=e_i/\|e_i\|\) 即得标准正交集。所以"正交"是本质,"标准(单位化)"只是归一化的方便。
§A2b.6.2 正交集自动线性无关¶
正交集的第一个、也是最重要的红利:
定理:内积空间中的正交集(非零向量)必**线性无关**。
证明:设 \(\{e_1,\dots,e_k\}\) 正交且非零,假设有线性组合 \(\sum_{i=1}^k c_ie_i=0\)。对固定的 \(j\),两边与 \(e_j\) 作内积: $\(0=\Big\langle\sum_i c_ie_i,\,e_j\Big\rangle=\sum_i c_i\langle e_i,e_j\rangle=c_j\langle e_j,e_j\rangle=c_j\|e_j\|^2.\)$ 中间一步:除 \(i=j\) 外所有内积 \(\langle e_i,e_j\rangle=0\)(正交性),只剩 \(i=j\) 项。由于 \(e_j\ne 0\),\(\|e_j\|^2>0\),故 \(c_j=0\)。对每个 \(j\) 都如此,所有系数为零,线性无关。\(\blacksquare\)
本质洞察:这条定理揭示了正交性"自动解耦"的核心机制——与 \(e_j\) 作内积,能把其它所有项一笔勾销,只留下 \(e_j\) 自己的那一项。这个"内积探针"技巧贯穿全任务:算坐标用它(§A2b.6.3)、Gram-Schmidt 减投影用它(§A2b.7)、证 Bessel 不等式用它(§A2b.6.4)、Fourier 系数用它。记住这个动作:想提取第 \(j\) 个分量,就用 \(\langle\cdot,e_j\rangle\) 去探。
§A2b.6.3 标准正交基下的坐标、范数与内积公式¶
设 \(\{e_1,\dots,e_n\}\) 是 \(n\) 维空间的**标准正交基**(orthonormal basis, ONB)。它带来三组"傻瓜公式":
Fourier 系数公式:任意 \(x=\sum_{i=1}^n c_ie_i\) 的坐标是 \(c_i=\langle x,e_i\rangle\)。
证明:\(\langle x,e_j\rangle=\langle\sum_i c_ie_i,e_j\rangle=\sum_i c_i\delta_{ij}=c_j\)。\(\blacksquare\) 于是 \(x=\sum_i\langle x,e_i\rangle e_i\)。
Parseval 恒等式(范数):\(\|x\|^2=\sum_{i=1}^n|\langle x,e_i\rangle|^2=\sum_i|c_i|^2\)。
证明:\(\|x\|^2=\langle\sum_i c_ie_i,\sum_j c_je_j\rangle=\sum_{i,j}c_i\bar c_j\delta_{ij}=\sum_i|c_i|^2\)。\(\blacksquare\)
内积的坐标公式:\(\langle x,y\rangle=\sum_{i=1}^n\langle x,e_i\rangle\overline{\langle y,e_i\rangle}\)。在标准正交基下,抽象内积**退化成坐标的标准点积**。
这三条公式的意义无论怎么强调都不过分:标准正交基把任意抽象内积空间"坐标化"成 \(\mathbb{R}^n\) 或 \(\mathbb{C}^n\) 上的标准点积。傅里叶级数(三角函数构成 \(L^2\) 的标准正交基)、球谐函数展开、PCA(协方差矩阵的标准正交特征向量)全是这三条公式的实例。
§A2b.6.4 Bessel 不等式:投影到子空间的"能量损失"¶
如果 \(\{e_1,\dots,e_k\}\) 是一个标准正交集,但**不是**整个空间的基(即 \(k<n\),只张成一个子空间 \(W\)),那么 \(\sum_i\langle x,e_i\rangle e_i\) 是 \(x\) 在 \(W\) 上的投影,它的范数不超过 \(x\) 本身:
定理(Bessel 不等式):对标准正交集 \(\{e_1,\dots,e_k\}\) 和任意 \(x\), $\(\sum_{i=1}^k|\langle x,e_i\rangle|^2\le\|x\|^2.\)$ 等号成立 \(\iff x\in\operatorname{span}\{e_1,\dots,e_k\}\)。
证明:令 \(p=\sum_{i=1}^k\langle x,e_i\rangle e_i\)(\(x\) 在子空间上的"投影"),\(r=x-p\)(余量)。先验证 \(r\perp e_j\) 对每个 \(j\le k\): $\(\langle r,e_j\rangle=\langle x,e_j\rangle-\sum_i\langle x,e_i\rangle\langle e_i,e_j\rangle=\langle x,e_j\rangle-\langle x,e_j\rangle=0.\)$ 于是 \(r\perp p\)(\(p\) 是 \(e_j\) 的组合)。由 Pythagoras: $\(\|x\|^2=\|p\|^2+\|r\|^2\ge\|p\|^2=\sum_{i=1}^k|\langle x,e_i\rangle|^2.\)$ 等号 \(\iff\|r\|^2=0\iff x=p\in\operatorname{span}\{e_i\}\)。\(\blacksquare\)
Bessel 不等式是 §A2b.11 最佳逼近定理的"前哨":它已经隐含了"投影是最佳逼近"的思想——投影 \(p\) 抓住了 \(x\) 的"大部分能量",余量 \(r\) 与子空间正交。当标准正交集扩成完整基时 Bessel 不等式升级为 Parseval 等式(损失为零)。
理论-工程桥接:Bessel 不等式是**降维与压缩的数学许可证**。PCA 取协方差矩阵前 \(k\) 个主成分(标准正交特征向量),用 \(\sum_{i=1}^k\langle x,e_i\rangle e_i\) 近似数据 \(x\),Bessel 不等式保证"保留的能量 \(\sum_{i\le k}|\langle x,e_i\rangle|^2\) 不超过总能量 \(\|x\|^2\)",而"丢失的能量 \(\|r\|^2\)"正是被截断的小特征值之和。机器人里点云的主方向提取、SLAM 中协方差的主轴分析、图像/特征的有损压缩,本质都是"在标准正交集上做 Bessel 截断"。Parseval(等号)对应"无损",Bessel 严格不等号对应"有损但可控"。
⚠️ 常见陷阱¶
💡 概念误区:以为"正交"就是"线性无关"的同义词 - 新手想法:"正交集线性无关,那线性无关集也正交吧。" - 现象/后果:把一般线性无关基当成正交基,直接用 Fourier 系数公式 \(c_i=\langle x,e_i\rangle\) 算坐标,结果全错。 - 根本原因:正交 ⟹ 线性无关是**单向**的;线性无关集一般不正交(如 \((1,0),(1,1)\) 无关但不正交)。 - 正确做法:只有标准正交基才能用 \(c_i=\langle x,e_i\rangle\);一般基要解 Gram 方程组,或先用 Gram-Schmidt 正交化。
🧠 思维陷阱:忘记 Fourier/Parseval 公式只对标准正交基成立 - 新手想法:"\(x=\sum\langle x,e_i\rangle e_i\) 是普适展开。" - 现象/后果:对仅正交(未单位化)的基直接套公式,漏掉了 \(\frac{1}{\|e_i\|^2}\) 因子。 - 根本原因:正交基的展开是 \(x=\sum\frac{\langle x,e_i\rangle}{\|e_i\|^2}e_i\);只有 \(\|e_i\|=1\) 时分母才消失。 - 正确做法:正交基(未单位化)用 \(c_i=\frac{\langle x,e_i\rangle}{\langle e_i,e_i\rangle}\);标准正交基才简化为 \(c_i=\langle x,e_i\rangle\)。
💡 概念误区:以为 Bessel 不等式对一般基成立 - 新手想法:"任意基都满足 \(\sum|\langle x,e_i\rangle|^2\le\|x\|^2\)。" - 现象/后果:对非正交基套用,得到错误的"能量界"。 - 根本原因:Bessel 的证明关键是 \(r\perp e_j\),这一步要求 \(\{e_i\}\) 标准正交。 - 正确做法:Bessel 不等式仅对**标准正交集**成立;非正交情形没有这么干净的能量界。
练习¶
1.(计算题)在 \(\mathbb{R}^3\) 中验证 \(\{(1,1,0),(1,-1,0),(0,0,1)\}\) 是正交集但非标准正交。把它单位化成标准正交基,然后用 Fourier 系数公式把 \(x=(2,0,3)\) 在这组基下展开。
2.(证明题)证明:若 \(\{e_1,\dots,e_n\}\) 是标准正交基,则线性映射 \(T\) 在该基下的矩阵元素是 \(A_{ij}=\langle Te_j,e_i\rangle\)。(这是 §A2b.15 伴随矩阵公式的前奏,在草稿纸上完成。)
3.(开放思考题)Bessel 不等式在无穷维(如 \(L^2\) 的傅里叶级数)说 \(\sum_{i=1}^\infty|\langle x,e_i\rangle|^2\le\|x\|^2\),因此左边级数收敛。但"收敛"不等于"等于 \(\|x\|^2\)"。什么条件下 Bessel 升级为 Parseval(即标准正交集是"完备"的)?这个"完备性"和度量空间的完备性是一回事吗?(提示:两者不同,前者指"张成稠密",留待 B3。)
§A2b.7 Gram–Schmidt 正交化与 QR 分解 ⭐⭐⭐¶
动机:把一般基"扶正"成标准正交基¶
§A2b.6 证明了标准正交基的种种好处,但留下一个问题:任意有限维内积空间真的存在标准正交基吗?怎么造? Gram–Schmidt 过程给出一个**构造性**答案:拿任意一组线性无关向量(如随便一个基),逐个减去它在前面已正交化向量上的投影,就能"扶正"成标准正交基。这个过程不仅是存在性证明,本身就是数值线性代数最重要的算法之一,并直接给出矩阵的 QR 分解。
如果不这样做会怎样:没有构造,存在性只是空话¶
如果只用抽象论证说"标准正交基存在"(如 Zorn 引理在无穷维),我们无法**算出**它,所有 §A2b.6 的傻瓜公式就用不上。Gram–Schmidt 的价值在于把"存在"变成"可计算":给定任意基的坐标,它输出标准正交基的坐标,并且每一步都有清晰的几何意义(减投影 = 去掉与已有方向重合的部分)。最小二乘求解、QR 分解、Krylov 子空间方法(GMRES、共轭梯度)全建立在它之上。
理论:过程、定理与 QR 分解¶
§A2b.7.1 Gram–Schmidt 过程¶
Gram–Schmidt 过程:给定线性无关向量 \(v_1,\dots,v_n\),递归构造正交向量 \(u_1,\dots,u_n\),再单位化得标准正交 \(e_1,\dots,e_n\): $\(u_1=v_1,\qquad u_k=v_k-\sum_{j=1}^{k-1}\frac{\langle v_k,u_j\rangle}{\langle u_j,u_j\rangle}u_j\quad(k=2,\dots,n),\qquad e_k=\frac{u_k}{\|u_k\|}.\)$
几何直觉:\(u_k\) 是把 \(v_k\) **减去它在前面所有 \(u_j\)(已两两正交)方向上的投影**后剩下的"新方向"。投影 \(\frac{\langle v_k,u_j\rangle}{\langle u_j,u_j\rangle}u_j\) 正是 §A2b.3 证明二里那个最佳逼近系数(一维最小二乘)。减掉所有旧方向的投影,剩下的 \(u_k\) 必与所有 \(u_j\)(\(j<k\))正交——这就是构造的核心。
正交性验证(归纳法):假设 \(u_1,\dots,u_{k-1}\) 已两两正交。验证 \(u_k\perp u_m\) 对任意 \(m<k\): $\(\langle u_k,u_m\rangle=\langle v_k,u_m\rangle-\sum_{j=1}^{k-1}\frac{\langle v_k,u_j\rangle}{\langle u_j,u_j\rangle}\langle u_j,u_m\rangle.\)$ 由归纳假设 \(\langle u_j,u_m\rangle=0\) 除非 \(j=m\),求和只剩 \(j=m\) 项: $\(\langle u_k,u_m\rangle=\langle v_k,u_m\rangle-\frac{\langle v_k,u_m\rangle}{\langle u_m,u_m\rangle}\langle u_m,u_m\rangle=\langle v_k,u_m\rangle-\langle v_k,u_m\rangle=0.\)$ 故 \(u_k\) 与所有前驱正交,归纳完成。又因 \(v_k\) 不在 \(\operatorname{span}\{v_1,\dots,v_{k-1}\}=\operatorname{span}\{u_1,\dots,u_{k-1}\}\) 中(线性无关),\(u_k\ne 0\),可单位化。\(\blacksquare\)
§A2b.7.2 关键不变量:张成空间逐级相等¶
Gram–Schmidt 有一条至关重要的结构性质,是 QR 分解的根基:
定理(张成保持):对每个 \(k\),\(\operatorname{span}\{u_1,\dots,u_k\}=\operatorname{span}\{v_1,\dots,v_k\}=\operatorname{span}\{e_1,\dots,e_k\}\)。
证明:归纳。\(k=1\) 时 \(u_1=v_1\) 显然。设 \(k-1\) 成立。\(u_k=v_k-\sum_{j<k}(\cdots)u_j\),右端 \(u_j\in\operatorname{span}\{v_1,\dots,v_{k-1}\}\)(归纳假设),故 \(u_k\in\operatorname{span}\{v_1,\dots,v_k\}\);反之 \(v_k=u_k+\sum_{j<k}(\cdots)u_j\in\operatorname{span}\{u_1,\dots,u_k\}\)。两个张成空间维数相同且互相包含,相等。\(\blacksquare\)
这条"逐级张成相等"意味着:\(v_k\) 只用到 \(e_1,\dots,e_k\)(前 \(k\) 个),不涉及更靠后的 \(e\)。这种"下三角"的依赖关系,正是 QR 分解里 \(R\) 上三角的来源。
§A2b.7.3 QR 分解¶
把 Gram–Schmidt 写成矩阵语言,立刻得到 QR 分解。设 \(A=[v_1\mid\cdots\mid v_n]\) 是列满秩矩阵(列为 \(v_i\))。
由 §A2b.7.2,每个 \(v_k\in\operatorname{span}\{e_1,\dots,e_k\}\),故 \(v_k=\sum_{i=1}^k r_{ik}e_i\),其中 \(r_{ik}=\langle v_k,e_i\rangle\)(Fourier 系数),且当 \(i>k\) 时 \(r_{ik}=0\)。写成矩阵:
QR 分解:列满秩矩阵 \(A\in F^{m\times n}\)(\(m\ge n\))可唯一分解为 $\(A=QR,\)$ 其中 \(Q=[e_1\mid\cdots\mid e_n]\in F^{m\times n}\) 列标准正交(\(Q^*Q=I_n\)),\(R\in F^{n\times n}\) 上三角且对角元 \(r_{kk}=\|u_k\|>0\)。
矩阵元 \(r_{ik}=\langle v_k,e_i\rangle\)(\(i\le k\)),对角 \(r_{kk}=\langle v_k,e_k\rangle=\|u_k\|\)。\(R\) 上三角正是"\(v_k\) 只用前 \(k\) 个 \(e\)"的矩阵化。
唯一性:若 \(A=Q_1R_1=Q_2R_2\) 都满足条件,则 \(Q_2^*Q_1=R_2R_1^{-1}\) 既是上三角(右端)又满足 \((Q_2^*Q_1)^*(Q_2^*Q_1)=I\)(左端列正交)——上三角的正交矩阵且对角正,必是单位阵,故 \(Q_1=Q_2,R_1=R_2\)。\(\blacksquare\)
本质洞察:QR 分解的本质是"把一组斜的、长短不一的基向量(\(A\) 的列)正交标准化,并把'怎么从正交基拼回原向量'的配方记录在上三角 \(R\) 里"。\(Q\) 装"扶正后的方向",\(R\) 装"原向量在新方向下的坐标"。因为 Gram–Schmidt 是"逐级"的(第 \(k\) 列只依赖前 \(k\) 个正交方向),\(R\) 必然上三角。这个"正交部分 + 三角部分"的分工,是数值线性代数的核心范式之一(与 LU 的"下三角 × 上三角"、Cholesky 的"\(LL^*\)"并列)。
§A2b.7.4 数值警示:经典 vs 修正 Gram–Schmidt¶
理论上经典 Gram–Schmidt(CGS)和修正 Gram–Schmidt(MGS)等价,但**浮点运算下行为天差地别**。
- 经典 GS(CGS):一次性算出 \(v_k\) 对所有前驱的投影 \(\frac{\langle v_k,u_j\rangle}{\langle u_j,u_j\rangle}\)(都用原始 \(v_k\))。问题:当 \(v_k\) 与前驱接近共线时,舍入误差累积,算出的 \(e_k\) 会**严重偏离正交**(\(Q^*Q\) 远离 \(I\))。
- 修正 GS(MGS):每减一个投影就**更新** \(v_k\),下一个投影用更新后的向量算。数学上等价,但数值上正交性损失小一个量级。
实践中估计/SLAM 求解器若手写 QR,应用 MGS 或更稳的 Householder 反射 / Givens 旋转(它们用正交变换而非减投影,正交性由构造保证,最稳)。这是"数学等价 \(\neq\) 数值等价"的经典案例。
理论-工程桥接:QR 分解是机器人状态估计的**主力数值引擎**。最小二乘 \(\min_x\|Ax-b\|^2\) 的法方程 \(A^*Ax=A^*b\)(§A2b.11)若直接解,条件数是 \(A\) 的平方(\(\kappa(A^*A)=\kappa(A)^2\)),病态时灾难性放大误差。改用 QR:\(A=QR\Rightarrow Rx=Q^*b\),条件数只有 \(\kappa(A)\),且 \(R\) 上三角可回代速解。因子图 SLAM 的"平方根信息滤波"(square-root SAM, Dellaert-Kaess)正是用 QR/Cholesky 把信息矩阵 \(\Lambda=A^*A\) 的平方根 \(R\) 直接维护,避免显式形成 \(\Lambda\) 而保持数值稳定。 增量平滑(iSAM)更进一步,用 Givens 旋转增量更新 \(R\),每来一个新测量只做局部正交变换——这就是 Gram–Schmidt 思想在实时 SLAM 中的化身。
⚠️ 常见陷阱¶
🧠 思维陷阱:以为 CGS 和 MGS 数值上一样 - 新手想法:"修正 Gram–Schmidt 只是换个写法,结果一样。" - 现象/后果:手写求解器用 CGS,在病态问题(近共线列)上 \(Q\) 严重失正交,最小二乘解漂移。 - 根本原因:CGS 用原始 \(v_k\) 算所有投影,舍入误差不被后续步骤吸收;MGS 边减边更新,误差被局部化。 - 正确做法:数值场合用 MGS、Householder 或 Givens;CGS 仅用于教学推导。
💡 概念误区:以为 Gram–Schmidt 能直接处理线性相关向量 - 新手想法:"输入随便一组向量,Gram–Schmidt 都能正交化。" - 现象/后果:若 \(v_k\) 落在前驱张成空间里,\(u_k=0\),单位化时除以零,算法崩溃。 - 根本原因:过程要求输入**线性无关**;相关向量产生零余量。 - 正确做法:先确认线性无关;若可能相关,用"带主元的 QR"或 SVD,遇 \(u_k=0\) 跳过该向量(对应秩亏)。
💡 概念误区:把 \(R\) 的对角元符号搞错 - 新手想法:"QR 分解唯一。" - 现象/后果:不同软件给出的 \(Q,R\) 差若干列/行的符号,误以为算错。 - 根本原因:QR 唯一性需附加"\(R\) 对角元为正"的约定;不加约定时 \(Q\to QD\)、\(R\to D^{-1}R\)(\(D\) 为 \(\pm1\) 对角阵)也是合法分解。 - 正确做法:比较 QR 结果时统一"\(R\) 对角正"约定,或只比较 \(QR\) 的乘积与张成空间。
练习¶
1.(计算题)对 \(v_1=(1,1,1),v_2=(1,1,0),v_3=(1,0,0)\) 手动执行 Gram–Schmidt,写出 \(u_1,u_2,u_3\) 与标准正交 \(e_1,e_2,e_3\),并据此写出 \(A=[v_1\,v_2\,v_3]\) 的 QR 分解。(在草稿纸上完成,验证 \(Q^{\mathsf T}Q=I\)、\(R\) 上三角。)
2.(证明题)证明 QR 分解中 \(r_{kk}=\|u_k\|=\dfrac{\operatorname{vol}_k(v_1,\dots,v_k)}{\operatorname{vol}_{k-1}(v_1,\dots,v_{k-1})}\),即对角元是"逐级体积比"。(提示:\(\prod_{j\le k}\|u_j\|=\operatorname{vol}_k\) 是 \(k\) 维平行体体积,连接 §A2b.R 的 Gram 行列式。)
3.(开放思考题)共轭梯度法(CG)在 Krylov 子空间 \(\{b,Ab,A^2b,\dots\}\) 上做"\(A\)-内积"下的 Gram–Schmidt。为什么用 \(A\)-内积 \(\langle x,y\rangle_A=x^{\mathsf T}Ay\) 而非标准内积?这样正交化出的方向有什么特殊性质("\(A\)-共轭")?(连接 §A2b.1 例 5 加权内积。)
§A2b.8 标准正交基的存在性与扩充 ⭐⭐¶
动机:把构造性算法升级为存在性定理¶
§A2b.7 的 Gram–Schmidt 实际上已经"顺便"证明了标准正交基的存在——只要把任意一个基喂进去就行。本节把这个结论正式陈述,并补上一个常用的加强版:"任意标准正交集都能扩充成标准正交基"。后者在证明谱定理、构造不变子空间的正交补时反复用到(§A2c)。
理论:存在性与扩充定理¶
§A2b.8.1 存在性定理¶
定理(标准正交基存在性):每个有限维内积空间 \(V\)(\(\dim V=n\ge 1\))都有标准正交基。
证明:\(V\) 有限维,故有基 \(\{v_1,\dots,v_n\}\)(A2a 结论)。对它执行 Gram–Schmidt(§A2b.7),得标准正交集 \(\{e_1,\dots,e_n\}\)。由 §A2b.6.2 它线性无关,又含 \(n=\dim V\) 个向量,故是基。\(\blacksquare\)
这是一个"算法即证明"的典范:存在性不靠抽象的选择公理,而靠一个能真正跑出结果的过程。有限维下我们永远能算出标准正交基。
§A2b.8.2 扩充定理¶
定理(标准正交扩充):\(V\) 中任意标准正交集 \(\{e_1,\dots,e_k\}\)(\(k<n\))都能扩充为 \(V\) 的标准正交基 \(\{e_1,\dots,e_k,e_{k+1},\dots,e_n\}\)。
证明:标准正交集线性无关(§A2b.6.2),由 A2a 的基扩充定理,可补 \(v_{k+1},\dots,v_n\) 使 \(\{e_1,\dots,e_k,v_{k+1},\dots,v_n\}\) 成基。对**后补的部分**做 Gram–Schmidt(前 \(k\) 个保持不动,因为它们已标准正交,减投影时只减到自己之前的),得到 \(e_{k+1},\dots,e_n\),与原 \(e_1,\dots,e_k\) 合为标准正交基。\(\blacksquare\)
本质洞察:扩充定理的精神是"正交性是可以局部固定、向外生长的"。已经摆好的正交方向不必推倒重来,只需在它们的正交补里继续找方向填满空间。这与代数补的基扩充(A2a)形成对照:代数补的扩充有无穷多种选择且不唯一,而正交扩充虽然新向量仍可旋转,但"新方向必须落在已有方向的正交补里"这个约束是刚性的。这条性质是 §A2c 谱定理归纳证明的引擎——每找到一个特征向量,就在它的正交补(一个低一维的不变子空间)里递归。
理论-工程桥接:扩充定理在机器人里对应"给定若干约束方向,补全一组正交标架"。例如已知机械臂末端某两个受约束的笛卡尔方向(如装配任务中必须保持的接触法向),要构造完整的任务空间正交标架以分解力/速度,就是把这两个方向标准正交化后扩充成 \(\mathbb{R}^6\)(或 \(SE(3)\) 切空间)的标准正交基——约束方向与自由方向自动正交分离,这正是混合力/位置控制(hybrid force/position control)选择矩阵的几何基础。
⚠️ 常见陷阱¶
💡 概念误区:以为扩充时要对所有向量重新正交化 - 新手想法:"扩充标准正交集,得把已有的也一起重新做 Gram–Schmidt。" - 现象/后果:浪费计算,甚至因数值误差破坏原本精确的正交向量。 - 根本原因:没注意已标准正交的部分在 Gram–Schmidt 中是"不动点"。 - 正确做法:只对新补的向量做正交化,前 \(k\) 个保持原样。
🧠 思维陷阱:把"存在"误解为"唯一" - 新手想法:"标准正交基存在,所以它是唯一的。" - 现象/后果:以为 \(V\) 只有一组标准正交基,遇到不同算法给出不同 ONB 时困惑。 - 根本原因:标准正交基有无穷多组(任意正交/酉变换作用都得到新的 ONB)。 - 正确做法:存在性 \(\neq\) 唯一性;所有标准正交基之间差一个正交(实)/酉(复)变换。
练习¶
1.(计算题)把 \(\mathbb{R}^3\) 中标准正交集 \(\{\frac{1}{\sqrt2}(1,1,0)\}\) 扩充为标准正交基。(提示:在它的正交补里取两个无关向量做 Gram–Schmidt。)
2.(证明题)证明:\(V\) 的两组标准正交基 \(\{e_i\}\) 与 \(\{f_i\}\) 之间的过渡矩阵 \(P\)(\(f_j=\sum_i P_{ij}e_i\))满足 \(P^*P=I\),即是酉(实情况正交)矩阵。(在草稿纸上用 \(\langle f_j,f_k\rangle=\delta_{jk}\) 推。)
3.(开放思考题)扩充定理在无穷维(如 \(L^2\))还成立吗?需要把"基"换成什么概念(提示:Hilbert 基/完备标准正交系),需要哪条有限维没有的假设(提示:Zorn 引理 + 完备性)?
§A2b.9 正交补 ⭐⭐⭐¶
动机:每个子空间都自带一个"垂直方向"的集合¶
给定子空间 \(W\subseteq V\),一个极自然的问题是:"哪些向量与 \(W\) 里**所有**向量都垂直?"这些向量构成的集合就是**正交补** \(W^\perp\)。它是 A2a 零化子 \(W^\circ\) 的"内积版"——零化子用泛函刻画"消灭 \(W\)",正交补用内积刻画"垂直于 \(W\)"。正交补是正交分解(§A2b.10)、最佳逼近(§A2b.11)、四个基本子空间(§A2b.15)的共同基石。
如果不这样做会怎样:没有正交补,"投影"无处落脚¶
我们想把向量 \(x\) 分解成"在 \(W\) 里的部分"加"垂直于 \(W\) 的部分"。"垂直于 \(W\) 的部分"必须落在某个明确的集合里——那就是 \(W^\perp\)。如果不先把 \(W^\perp\) 定义清楚、证明它是子空间且 \(V=W\oplus W^\perp\),"正交投影"就没有定义域和值域,最佳逼近定理(机器人最小二乘的理论核心)也无从建立。
理论:定义与基本性质¶
§A2b.9.1 定义与子空间性¶
定义(正交补):子空间 \(W\subseteq V\) 的**正交补**为 $\(W^\perp:=\{v\in V:\langle v,w\rangle=0\ \forall w\in W\}.\)$
命题:\(W^\perp\) 是 \(V\) 的子空间。
证明:\(0\in W^\perp\)(\(\langle 0,w\rangle=0\))。若 \(u,v\in W^\perp\),\(\lambda\) 标量,则对所有 \(w\in W\),\(\langle\lambda u+v,w\rangle=\lambda\langle u,w\rangle+\langle v,w\rangle=0\),故 \(\lambda u+v\in W^\perp\)。\(\blacksquare\)
注意:即便 \(W\) 只是一个张成集(未必子空间),\(W^\perp\) 仍是子空间,且 \(W^\perp=(\operatorname{span}W)^\perp\)——因为与一组向量都正交等价于与它们的所有线性组合都正交。验证子空间性时只需检验 \(W\) 的一组生成元。
§A2b.9.2 基本性质清单¶
性质:设 \(W,U\) 是 \(V\) 的子空间。 1. \(W\cap W^\perp=\{0\}\)(唯一同时属于两者的是零向量); 2. \(W\subseteq U\Rightarrow U^\perp\subseteq W^\perp\)(取补反序); 3. \(\{0\}^\perp=V\),\(V^\perp=\{0\}\); 4. (有限维)\(W\subseteq(W^\perp)^\perp\),且下节将证等号 \((W^\perp)^\perp=W\)。
证明(性质 1):若 \(v\in W\cap W^\perp\),则 \(v\perp v\) 即 \(\langle v,v\rangle=0\),由正定性 \(v=0\)。\(\blacksquare\) —— 这一步是正定性的直接威力:一个向量若与"包括自己在内的所有 \(W\) 向量"正交,它只能是零。
证明(性质 2):\(v\in U^\perp\Rightarrow v\perp\) 所有 \(U\) 向量 \(\Rightarrow v\perp\) 所有 \(W\) 向量(因 \(W\subseteq U\))\(\Rightarrow v\in W^\perp\)。\(\blacksquare\)
本质洞察:性质 1(\(W\cap W^\perp=\{0\}\))是正交分解唯一性的全部秘密。代数补 \(V=W\oplus U\) 里的 \(U\) 不唯一(有无穷多个补),但正交补 \(W^\perp\) 是**唯一**的——因为它由"垂直"这个度量条件唯一确定,没有自由度。正定性保证 \(W\) 和 \(W^\perp\) 只在原点相交,于是 \(W+W^\perp\) 自动是直和。这把 A2a 里"不唯一的代数补"收紧成"唯一的正交补",是内积带来的关键升级。
§A2b.9.3 与零化子 \(W^\circ\) 的对照(预告 §A2b.13)¶
A2a 的零化子 \(W^\circ=\{\varphi\in V^*:\varphi|_W=0\}\subseteq V^*\) 与正交补 \(W^\perp\subseteq V\) 形式相似但**住在不同空间**:\(W^\circ\) 在对偶空间 \(V^*\) 里,\(W^\perp\) 在原空间 \(V\) 里。它们的维数公式相同: $\(\dim W+\dim W^\circ=\dim V\quad(\text{A2a}),\qquad\dim W+\dim W^\perp=\dim V\quad(\text{下节证}).\)$ §A2b.13 将证明 Riesz 同构 \(V\cong V^*\) 恰好把 \(W^\perp\) 一一映到 \(W^\circ\)——这是"正交补就是零化子在内积视角下的化身"的精确表述。现在只需记住:两者形似,维数公式同,但一个用内积(\(W^\perp\))一个用泛函(\(W^\circ\))。
⚠️ 常见陷阱¶
💡 概念误区:把正交补 \(W^\perp\) 和零化子 \(W^\circ\) 当成一回事 - 新手想法:"\(W^\perp\) 和 \(W^\circ\) 不就是一个东西吗。" - 现象/后果:在没有内积的纯向量空间里谈 \(W^\perp\)(错,那只有 \(W^\circ\)),或在 \(V^*\) 和 \(V\) 之间张冠李戴。 - 根本原因:\(W^\circ\subseteq V^*\) 不需要内积;\(W^\perp\subseteq V\) 需要内积。它们经 Riesz 同构对应但不是同一对象。 - 正确做法:没有内积只能谈 \(W^\circ\)(A2a);有内积才能谈 \(W^\perp\);§A2b.13 给出二者的精确桥梁。
🧠 思维陷阱:无穷维直接用 \((W^\perp)^\perp=W\) - 新手想法:"正交补的正交补等于自己,永远成立。" - 现象/后果:在无穷维(如 \(L^2\))对**不闭**的子空间套用 \((W^\perp)^\perp=W\),得到错误结论。 - 根本原因:\((W^\perp)^\perp\) 等于 \(W\) 的**闭包**;有限维子空间总闭故等号成立,无穷维不闭时 \((W^\perp)^\perp=\overline{W}\supsetneq W\)。 - 正确做法:有限维放心用 \((W^\perp)^\perp=W\);无穷维须先确认 \(W\) 闭(留待 B3)。
💡 概念误区:以为 \(W^\perp\) 是 \(W\) 的"补集" - 新手想法:"\(W^\perp\) 是不在 \(W\) 里的那些向量。" - 现象/后果:把集合补 \(V\setminus W\) 与正交补 \(W^\perp\) 混淆。 - 根本原因:\(W^\perp\) 是**垂直**于 \(W\) 的子空间,不是集合意义的补;二者只在原点相交但远非互补集(\(V\setminus W\) 甚至不是子空间)。 - 正确做法:\(W^\perp\) 是子空间,满足 \(W\oplus W^\perp=V\)(直和补),不是集合补。
练习¶
1.(计算题)在 \(\mathbb{R}^4\) 中求 \(W=\operatorname{span}\{(1,1,0,0),(0,1,1,0)\}\) 的正交补 \(W^\perp\)(写出 \(W^\perp\) 的一组基),并验证 \(\dim W+\dim W^\perp=4\)。
2.(证明题)证明性质 4 的包含 \(W\subseteq(W^\perp)^\perp\)(不必证等号)。(提示:取 \(w\in W\),证它与所有 \(W^\perp\) 向量正交。在草稿纸上完成。)
3.(开放思考题)对矩阵 \(A\),行空间 \(\operatorname{row}(A)\) 与零空间 \(\ker A\) 在 \(\mathbb{R}^n\) 中互为正交补(§A2b.15 将证)。请先用"\(Ax=0\iff x\) 与 \(A\) 每行正交"这一观察,直观说明 \(\ker A=(\operatorname{row}A)^\perp\) 为什么成立。
§A2b.10 正交分解 \(V=W\oplus W^\perp\) ⭐⭐⭐¶
动机:把空间"垂直地"劈成两半¶
§A2b.9 定义了 \(W^\perp\) 并证明 \(W\cap W^\perp=\{0\}\)。现在要证明决定性的一步:\(W\) 和 \(W^\perp\) 合起来填满整个 \(V\),即 \(V=W\oplus W^\perp\)。这意味着每个向量 \(x\) 都能**唯一**地写成"\(W\) 分量 + \(W^\perp\) 分量"。这个唯一分解是正交投影的定义基础,也是"条件期望 = 正交投影"(Kalman 的灵魂)的数学骨架。
如果不这样做会怎样:没有 \(V=W\oplus W^\perp\),投影可能无定义或不唯一¶
若只有 \(W\cap W^\perp=\{0\}\) 而没证 \(W+W^\perp=V\),可能存在向量 \(x\) **既不在 \(W\) 里、也无法分解**为两部分之和——投影 \(P_Wx\) 就没有定义。反过来若分解不唯一,投影是多值的,"最佳逼近"也不唯一。必须严格证明"存在且唯一",整套投影理论才站得住。Gram–Schmidt 在这里再次充当构造工具。
理论:分解定理与维数公式¶
§A2b.10.1 正交分解定理¶
定理(正交分解):设 \(W\) 是有限维内积空间 \(V\) 的子空间。则 $\(V=W\oplus W^\perp,\)$ 即每个 \(v\in V\) 唯一地写成 \(v=w+w'\),其中 \(w\in W\),\(w'\in W^\perp\)。
证明(构造性,用标准正交基):取 \(W\) 的标准正交基 \(\{e_1,\dots,e_k\}\)(§A2b.8 存在)。对任意 \(v\in V\),定义 $\(w:=\sum_{i=1}^k\langle v,e_i\rangle e_i\in W,\qquad w':=v-w.\)$ 显然 \(v=w+w'\),\(w\in W\)。验证 \(w'\in W^\perp\):只需 \(w'\perp e_j\) 对每个 \(j\le k\)(因 \(e_j\) 张成 \(W\)): $\(\langle w',e_j\rangle=\langle v,e_j\rangle-\sum_i\langle v,e_i\rangle\langle e_i,e_j\rangle=\langle v,e_j\rangle-\langle v,e_j\rangle=0.\)$ 故存在性成立。唯一性:若 \(v=w_1+w_1'=w_2+w_2'\)(两个分解),则 \(w_1-w_2=w_2'-w_1'\),左端 \(\in W\),右端 \(\in W^\perp\),故同时属于 \(W\cap W^\perp=\{0\}\),得 \(w_1=w_2\)、\(w_1'=w_2'\)。\(\blacksquare\)
这个 \(w=\sum_i\langle v,e_i\rangle e_i\) 正是 §A2b.6.4 Bessel 不等式里的"投影 \(p\)"——现在我们正式确认它是 \(v\) 在 \(W\) 上的正交投影,且这种分解唯一。
§A2b.10.2 维数公式与双重正交补¶
推论(维数公式):\(\dim W+\dim W^\perp=\dim V\)。
证明:直和 \(V=W\oplus W^\perp\) 的维数相加(A2a 直和维数公式)。\(\blacksquare\)
推论(双重正交补):有限维下 \((W^\perp)^\perp=W\)。
证明:由 §A2b.9 性质 4,\(W\subseteq(W^\perp)^\perp\)。又由维数公式两次:\(\dim(W^\perp)^\perp=\dim V-\dim W^\perp=\dim V-(\dim V-\dim W)=\dim W\)。维数相等 + 包含,故 \((W^\perp)^\perp=W\)。\(\blacksquare\)
双重正交补 \((W^\perp)^\perp=W\) 在有限维是干净的等式,说明"取正交补"是一个**对合**(involution,做两次回到原处)。这对应 §A2b.15 四个基本子空间里 \(\operatorname{row}(A)=(\ker A)^\perp\) 与 \(\ker A=(\operatorname{row}A)^\perp\) 的互补关系。
本质洞察:正交分解 \(V=W\oplus W^\perp\) 是内积空间区别于裸向量空间的**标志性结构**。裸空间里子空间 \(W\) 有无穷多个代数补,没有"典范"的那一个;一旦装上内积,\(W^\perp\) 脱颖而出成为**唯一的、几何上垂直的**补。"唯一性"带来了"投影算子唯一",进而"最佳逼近唯一"。从信息论角度看,这个分解就是"把信号 \(v\) 拆成'能被 \(W\) 解释的部分 \(w\)'和'\(W\) 解释不了的残差 \(w'\)'"——残差与 \(W\) 正交,意味着"\(W\) 已榨干了 \(v\) 在该方向的全部信息"。这正是 Kalman 滤波"新息与历史观测正交"的几何本质。
理论-工程桥接:正交分解是**卡尔曼滤波与最小二乘的统一框架**。把"所有历史观测张成的子空间"记为 \(W\),当前状态的最优估计就是真值在 \(W\) 上的正交投影 \(\hat x=P_W x\),估计误差 \(x-\hat x\in W^\perp\) 与所有观测正交——这就是"正交性原理"(orthogonality principle),Kalman 滤波的核心定理。每来一个新观测 \(z\),把它正交分解成"已被 \(W\) 预测的部分"和"新信息(新息 innovation)\(z-\hat z\in W^\perp\)",用新息更新估计。协方差更新公式 \(P^+=P^--KHP^-\) 本质就是 Pythagoras 定理:投影后误差的"长度平方"等于投影前减去新息贡献。 §A2b.11 会把这套思想精确化为最佳逼近定理。
⚠️ 常见陷阱¶
💡 概念误区:以为代数补和正交补一样唯一 - 新手想法:"\(V=W\oplus U\) 的补 \(U\) 和 \(W^\perp\) 差不多。" - 现象/后果:在需要唯一分解(如投影)的地方用了任意代数补,得到非正交、不唯一的"投影"。 - 根本原因:代数补不唯一(无穷多个),正交补唯一(由垂直条件锁定)。 - 正确做法:要唯一的、几何垂直的分解必须用 \(W^\perp\);普通直和补不行。
🧠 思维陷阱:无穷维直接断言 \(V=W\oplus W^\perp\) - 新手想法:"正交分解定理对任意内积空间成立。" - 现象/后果:在无穷维对不完备空间或不闭子空间套用,分解可能不存在(某些 \(v\) 投影不存在)。 - 根本原因:定理证明用了"\(W\) 有标准正交基"(有限维)或"\(V\) 完备 + \(W\) 闭"(Hilbert 投影定理)。 - 正确做法:有限维无条件成立;无穷维需 \(V\) 是 Hilbert 空间且 \(W\) 是闭子空间(B3 的投影定理)。
💡 概念误区:忘记 \((W^\perp)^\perp=W\) 需要有限维(或闭) - 新手想法:"双重正交补永远等于自己。" - 现象/后果:无穷维对不闭子空间用,得 \((W^\perp)^\perp=\overline W\ne W\)。 - 根本原因:维数论证只在有限维有效;无穷维要用闭包。 - 正确做法:有限维 \((W^\perp)^\perp=W\);无穷维 \((W^\perp)^\perp=\overline W\)。
练习¶
1.(计算题)承 §A2b.9 练习 1 的 \(W=\operatorname{span}\{(1,1,0,0),(0,1,1,0)\}\subseteq\mathbb{R}^4\),把 \(v=(1,2,3,4)\) 正交分解为 \(v=w+w'\)(\(w\in W\),\(w'\in W^\perp\)),并验证 \(\langle w,w'\rangle=0\)。
2.(证明题)用正交分解定理证明:对任意子空间 \(W\),投影到 \(W\) 的映射 \(P_W:v\mapsto w\)(\(v=w+w'\) 的 \(W\) 分量)是良定义的线性映射。(在草稿纸上验证良定义性来自分解唯一性。)
3.(综合题,连接 §A2a)零化子满足 \(\dim W+\dim W^\circ=\dim V\),正交补满足 \(\dim W+\dim W^\perp=\dim V\)。请论证:这两个维数公式虽然形式相同,但 \(W^\circ\) 的证明(A2a)不需要内积,而 \(W^\perp\) 的证明(本节)用了标准正交基(依赖内积)。这种"殊途同归"暗示了 §A2b.13 的什么结论?
§A2b.11 正交投影、最佳逼近与最小二乘 ⭐⭐⭐¶
本节是整个 A2b 的"应用枢纽"。前面所有几何结构(内积、正交、分解)在这里汇聚成一个工程上极度重要的结论:正交投影 = 最佳逼近 = 最小二乘解。机器人状态估计的全部数学根基都在这一节。
动机:在子空间里找离目标最近的点¶
工程中无处不在的问题:给定一个目标向量 \(b\) 和一个子空间 \(W\)(模型能表达的所有向量),在 \(W\) 里找一个 \(\hat b\) 使它**离 \(b\) 最近**(\(\|b-\hat b\|\) 最小)。这就是最佳逼近问题。它的答案出奇地简单优美:\(\hat b\) 就是 \(b\) 在 \(W\) 上的**正交投影**。"最近"和"垂直"这两个看似不同的概念在内积空间里完全等价——这是内积几何最美的定理之一。
如果不这样做会怎样:超定方程组的困境¶
机器人里测量方程 \(Ax=b\) 几乎总是**超定**的(方程比未知数多:观测冗余)。例如用 100 个带噪声的距离测量估计 3 维位置,\(A\) 是 \(100\times 3\) 矩阵,\(Ax=b\) 一般**无解**(100 个等式不可能同时满足)。怎么办?退而求其次:找 \(x\) 使 \(Ax\) 尽可能接近 \(b\),即 \(\min_x\|Ax-b\|^2\)。这就把"无解的方程组"转化成"可解的最优化问题"。但要保证这个最优 \(x\) 存在、唯一、可计算,必须有最佳逼近定理 + 正交投影理论撑腰。没有它,超定问题就是死胡同。
理论:投影算子、最佳逼近定理、法方程¶
§A2b.11.1 正交投影算子的定义与性质¶
由 §A2b.10 正交分解 \(V=W\oplus W^\perp\),每个 \(v\) 唯一写成 \(v=w+w'\)。
定义(正交投影):映射 \(P_W:V\to V\),\(P_Wv:=w\)(\(v\) 的 \(W\) 分量),称为 \(V\) 到 \(W\) 的**正交投影**(orthogonal projection)。
用 \(W\) 的标准正交基 \(\{e_1,\dots,e_k\}\),有显式公式 \(P_Wv=\sum_{i=1}^k\langle v,e_i\rangle e_i\)。
性质:正交投影 \(P_W\) 满足 1. 线性:\(P_W\in L(V)\); 2. 幂等(idempotent):\(P_W^2=P_W\)(投影两次等于投影一次); 3. 自伴(self-adjoint):\(\langle P_Wu,v\rangle=\langle u,P_Wv\rangle\)(§A2b.14 后回看,这是"正交"投影区别于"斜"投影的标志); 4. \(\operatorname{im}P_W=W\),\(\ker P_W=W^\perp\),\(I-P_W=P_{W^\perp}\)。
证明(幂等):对 \(v=w+w'\),\(P_Wv=w\in W\),再投影 \(P_W(w)=w\)(\(w\) 的 \(W\) 分量是自己),故 \(P_W^2v=P_Wv\)。\(\blacksquare\) 证明(自伴):写 \(u=w_1+w_1'\),\(v=w_2+w_2'\)。\(\langle P_Wu,v\rangle=\langle w_1,w_2+w_2'\rangle=\langle w_1,w_2\rangle\)(\(w_1\perp w_2'\))。同理 \(\langle u,P_Wv\rangle=\langle w_1+w_1',w_2\rangle=\langle w_1,w_2\rangle\)。两者相等。\(\blacksquare\)
本质洞察:幂等性 \(P^2=P\) 是"一切投影(含斜投影)"的共性,而自伴性 \(P^*=P\) 是"正交**投影"的专属标志。一个幂等算子 \(P^2=P\) 总把空间分解成 \(\operatorname{im}P\oplus\ker P\),但这个分解未必正交(斜投影:沿某个非垂直方向投)。只有当 \(\ker P\perp\operatorname{im}P\)(即 \(P\) 自伴)时才是正交投影。记住这条判据:**幂等 = 投影,幂等 + 自伴 = 正交投影。§A2b.17 讲算子分类时这条会再次出现。
§A2b.11.2 最佳逼近定理¶
定理(最佳逼近):设 \(W\) 是有限维内积空间 \(V\) 的子空间,\(v\in V\)。则在所有 \(w\in W\) 中,\(\|v-w\|\) 在 \(w=P_Wv\) 处**唯一**取得最小值。即正交投影是 \(v\) 在 \(W\) 中的唯一最佳逼近。
证明(Pythagoras 一击致命):记 \(p=P_Wv\)。对任意 \(w\in W\),把 \(v-w\) 拆成 $\(v-w=\underbrace{(v-p)}_{\in W^\perp}+\underbrace{(p-w)}_{\in W}.\)$ 第一项 \(v-p=P_{W^\perp}v\in W^\perp\),第二项 \(p-w\in W\)(两个 \(W\) 向量之差),二者**正交**。由 Pythagoras: $\(\|v-w\|^2=\|v-p\|^2+\|p-w\|^2\ge\|v-p\|^2,\)$ 等号成立 \(\iff\|p-w\|^2=0\iff w=p\)。故 \(w=p=P_Wv\) 是唯一最小值点。\(\blacksquare\)
这个证明短得惊人,全部威力来自"把误差 \(v-w\) 正交分解后用 Pythagoras"。它把一个**最优化问题**(找最小值)化归为一个**几何事实**(直角三角形斜边最长)。
本质洞察:最佳逼近定理的精髓是"垂直即最近"。直觉图像:你站在直线/平面 \(W\) 外一点 \(v\),要走到 \(W\) 上离你最近的点,必然沿**垂直**方向落脚——斜着走总是更远(多走了 \(\|p-w\|\) 那条直角边)。这条"垂线最短"的中学几何常识,被内积公理化后升级为任意维、任意内积空间的普遍定理。机器人里"最优估计 = 把真值垂直投影到观测空间"、"最优控制 = 把目标垂直投影到可达集",全是这条定理的化身。
§A2b.11.3 最小二乘与法方程¶
现在把最佳逼近用矩阵语言写出来,得到机器人最常用的公式。设 \(A\in F^{m\times n}\)(\(m\ge n\),列满秩),目标 \(b\in F^m\)。子空间取 \(W=\operatorname{im}A=\{Ax:x\in F^n\}\)(\(A\) 的列空间)。最小二乘问题: $\(\min_{x\in F^n}\|Ax-b\|^2.\)$ 由最佳逼近定理,最优 \(A\hat x=P_Wb\) 是 \(b\) 在列空间的投影,等价于**残差 \(b-A\hat x\perp W=\operatorname{im}A\)**。残差垂直于列空间 \(\iff\) 残差垂直于 \(A\) 的每一列 \(\iff A^*(b-A\hat x)=0\):
定理(法方程 / Normal Equations):\(\min_x\|Ax-b\|^2\) 的解 \(\hat x\) 满足 $\(A^*A\,\hat x=A^*b.\)$ 当 \(A\) 列满秩时 \(A^*A\) 可逆,解唯一:\(\hat x=(A^*A)^{-1}A^*b\),且 \(\hat b=A(A^*A)^{-1}A^*b=P_{\operatorname{im}A}\,b\)。矩阵 \(A^+:=(A^*A)^{-1}A^*\) 称为 \(A\) 的(左)Moore–Penrose 伪逆。
推导:残差 \(r=b-A\hat x\) 须 \(\perp\operatorname{im}A\),即对所有 \(x\),\(\langle Ax,r\rangle=0\)。用伴随(§A2b.14 将正式定义,这里先用其定义关系 \(\langle Ax,r\rangle=\langle x,A^*r\rangle\)):\(\langle x,A^*r\rangle=0\ \forall x\Rightarrow A^*r=0\Rightarrow A^*(b-A\hat x)=0\Rightarrow A^*A\hat x=A^*b\)。\(\blacksquare\)
本质洞察:法方程 \(A^*A\hat x=A^*b\) 的几何意义是"残差与每个观测方向正交"。\(A^*A\) 是 Gram 矩阵(列与列的内积表),列满秩保证它正定可逆。投影矩阵 \(P=A(A^*A)^{-1}A^*\) 自动满足 \(P^2=P\)(幂等)、\(P^*=P\)(自伴)——正是 §A2b.11.1 说的正交投影的两个标志。伪逆 \(A^+\) 是"在无解时给出最佳近似解、在多解时给出最小范数解"的统一工具,§A2c 将用 SVD 给出它的完整形式。
理论-工程桥接(最小二乘的工程地图):法方程是机器人三大估计范式的共同祖先: | 范式 | 形式 | 与法方程的关系 | |---|---|---| | 普通最小二乘 OLS | \(\min\|Ax-b\|^2\) | \(A^*A\hat x=A^*b\)(标准内积投影)| | 加权最小二乘 WLS | \(\min\|Ax-b\|_\Sigma^2\) | \(A^*\Sigma^{-1}A\hat x=A^*\Sigma^{-1}b\)(用协方差加权内积,§A2b.1 例 5)| | 卡尔曼/信息滤波 | 递归 WLS | 信息矩阵 \(\Lambda=A^*\Sigma^{-1}A\),信息向量 \(\eta=A^*\Sigma^{-1}b\) |
注意三者**只是内积选得不同**:OLS 用标准内积,WLS/Kalman 用 \(\Sigma^{-1}\) 加权内积(马氏度量)。这呼应 §A2b.1"内积是外加结构,选哪个是物理问题"。数值上绝不直接解法方程(条件数平方),而用 §A2b.7 的 QR:\(A=QR\Rightarrow R\hat x=Q^*b\);或 Cholesky \(A^*A=LL^*\)。因子图 SLAM 的"平方根 SAM"正是维护 \(R\) 而非 \(A^*A\),把条件数从 \(\kappa^2\) 降回 \(\kappa\)。
§A2b.11.4 与 Kalman 滤波的桥接:正交性原理¶
把最佳逼近定理搬到 \(L^2\) 随机变量空间(内积 \(\langle X,Y\rangle=E[XY]\)),就得到估计理论的核心。
设要用观测 \(Z_1,\dots,Z_m\)(张成子空间 \(W=\operatorname{span}\{Z_i\}\))估计随机变量 \(X\)。线性最小均方误差估计(LMMSE)\(\hat X\) 是使 \(E[(X-\hat X)^2]=\|X-\hat X\|^2\) 最小的 \(\hat X\in W\)。由最佳逼近定理:
正交性原理(Orthogonality Principle):最优估计 \(\hat X=P_W X\) 是 \(X\) 在观测空间 \(W\) 上的正交投影;等价地,估计误差与所有观测正交: $\(E[(X-\hat X)Z_i]=0,\quad i=1,\dots,m.\)$
这条原理是 Kalman 滤波的灵魂,三个支柱性结论全部由它派生:
- 条件期望 = 正交投影:当 \((X,Z)\) 联合高斯时,\(\hat X=E[X\mid Z]\) 恰是正交投影(线性估计达到全局最优)。
- 新息序列 = 观测的 Gram–Schmidt 正交化(§A2b.7):把相关的观测序列 \(\{Z_i\}\) 正交化成互不相关的"新息"\(\{\nu_i\}\),估计可逐个新息独立更新——这就是 Kalman 滤波"递归"的来源。
- 协方差更新 = Pythagoras(§A2b.2.2):\(\|X-\hat X\|^2=\|X\|^2-\|\hat X\|^2\),即"投影后的误差能量 = 原能量 − 投影能量",对应协方差更新 \(P^+=P^--KHP^-\)(不确定性因吸收新信息而下降)。
本质洞察(Kalman 的几何重述):整个卡尔曼滤波可以**不写一个增益公式**地用内积几何讲完:状态真值是一个向量,每来一个观测就把观测空间 \(W\) 扩大一维,最优估计始终是真值在 \(W\) 上的正交投影;预测步把投影"推前"(沿动力学),更新步把 \(W\) 扩张并重新投影。卡尔曼增益 \(K\) 不过是"新息方向上的投影系数"(Fourier 系数的随机版)。理解了这一点,你就不再是背公式,而是**看到**滤波在 Hilbert 空间里发生。这正是 §A2b 开头"如果跳过会怎样·场景一"承诺要兑现的。详细的递归公式推导留给后续状态估计专题(本章只建立几何根基)。
⚠️ 常见陷阱¶
🧠 思维陷阱:把"最近"和"垂直"当成两件需要分别验证的事 - 新手想法:"最佳逼近要先证它最近,再单独证它垂直。" - 现象/后果:绕弯路,或在某些场景只验证了垂直就以为没证最近(或反之)。 - 根本原因:没看清最佳逼近定理的精髓——"最近"与"垂直"在内积空间里**严格等价**,Pythagoras 一步打通。 - 正确做法:垂直 \(\Rightarrow\)(Pythagoras)最近,最近 \(\Rightarrow\)(变分/一阶条件)垂直,二者是同一事实的两面。
💡 概念误区:直接数值求解法方程 \(A^*A x=A^*b\) - 新手想法:"法方程有闭式解 \((A^*A)^{-1}A^*b\),直接算。" - 现象/后果:\(A^*A\) 的条件数是 \(\kappa(A)^2\),病态问题(如近退化构型的雅可比)误差被平方放大,解严重失准。 - 根本原因:显式形成 \(A^*A\) 丢失了一半有效数字。 - 正确做法:用 QR(\(R\hat x=Q^*b\))或 SVD 求解,条件数只有 \(\kappa(A)\);大规模稀疏问题用 Cholesky + 排序(SAM)。
🧠 思维陷阱:以为最小二乘对异常值鲁棒 - 新手想法:"最小二乘是最优估计,对坏数据也最优。" - 现象/后果:少数异常观测(outlier)就把估计拉偏(\(L^2\) 对大残差平方惩罚,异常值权重过大)。 - 根本原因:\(L^2\) 范数来自内积(§A2b.5′),优雅但对异常值敏感;鲁棒估计需 \(L^1\) 或 Huber 等非内积范数。 - 正确做法:有异常值时用鲁棒核(Huber/Cauchy)或 RANSAC;它们的范数不来自内积,故无闭式法方程,须迭代(呼应 §A2b.5′ 桥接)。
💡 概念误区:忘记法方程要求列满秩 - 新手想法:"\(A^*A\hat x=A^*b\) 永远有唯一解。" - 现象/后果:\(A\) 列相关(如观测不足、构型退化)时 \(A^*A\) 奇异,\((A^*A)^{-1}\) 不存在,求逆崩溃。 - 根本原因:\(A^*A\) 可逆 \(\iff A\) 列满秩;秩亏时投影仍存在但 \(x\) 不唯一。 - 正确做法:列满秩才能用 \((A^*A)^{-1}\);秩亏时用伪逆(SVD)取最小范数解,或加正则化(Tikhonov/阻尼最小二乘,机器人里的"阻尼伪逆"\((A^*A+\lambda I)^{-1}A^*\))。
练习¶
1.(计算题)用法方程求解超定方程组 \(\min_x\|Ax-b\|^2\),其中 \(A=\begin{pmatrix}1&0\\1&1\\1&2\end{pmatrix}\),\(b=(1,2,2)^{\mathsf T}\)(最小二乘拟合直线)。写出 \(A^{\mathsf T}A\)、\(A^{\mathsf T}b\) 并解出 \(\hat x\),再算投影 \(\hat b=A\hat x\) 与残差 \(b-\hat b\),验证残差 \(\perp\) \(A\) 的两列。
2.(证明题)证明正交投影矩阵 \(P=A(A^*A)^{-1}A^*\)(\(A\) 列满秩)满足 \(P^2=P\) 与 \(P^*=P\)。再证 \(\operatorname{tr}(P)=\operatorname{rank}(A)\)(提示:\(\operatorname{tr}(P)=\operatorname{tr}((A^*A)^{-1}A^*A)=\operatorname{tr}(I_n)\))。在草稿纸上完成。
3.(开放思考题 / 跨章综合)用正交性原理推导"标量卡尔曼更新":设先验估计 \(\hat x^-\)、观测 \(z=hx+v\)(\(v\) 零均值方差 \(r\),与先验误差无关),证明后验估计 \(\hat x^+=\hat x^-+K(z-h\hat x^-)\) 中的增益 \(K\) 由"新息 \(z-h\hat x^-\) 与后验误差正交"决定,并解出 \(K=\dfrac{p^-h}{h^2p^-+r}\)。(综合 §A2b.7 新息、§A2b.10 正交分解、§A2b.11 正交性原理,在草稿纸上完成。)
§A2b.12 Riesz 表示定理 ⭐⭐⭐¶
进入支线二。从这里开始,内积几何与 A2a 的对偶理论交汇,最终生出"伴随算子"。Riesz 定理是这一切的入口。
动机:每个线性泛函都"是"一个向量¶
A2a 告诉我们,\(V\) 上的线性泛函(\(\varphi:V\to F\) 线性)构成对偶空间 \(V^*\),它与 \(V\) 同维但"长得不一样"——泛函是"吃向量吐标量"的机器,不是向量本身。现在有了内积,一个惊人的简化出现了:每个线性泛函都可以写成"与某个固定向量作内积"的形式。即对任意 \(\varphi\in V^*\),存在唯一的 \(u\in V\) 使 \(\varphi(v)=\langle v,u\rangle\)。这就是 Riesz 表示定理。它把抽象的"泛函"具体化为"向量",是伴随算子存在性的唯一钥匙。
如果不这样做会怎样:伴随算子无从定义¶
我们想定义伴随 \(T^*\),使 \(\langle Tv,w\rangle=\langle v,T^*w\rangle\)。固定 \(w\),左边 \(v\mapsto\langle Tv,w\rangle\) 是 \(V\) 上的一个线性泛函。要找到"代表"它的向量(那就是 \(T^*w\)),必须有一条定理保证"任意线性泛函都由唯一向量代表"。没有 Riesz 定理,\(T^*w\) 就没有定义,整个伴随理论塌方。Riesz 定理是伴随存在性证明的**唯一支点**。
历史:Riesz 与泛函分析的诞生¶
Frigyes Riesz(匈牙利数学家)在 1907 年研究 \(L^2\) 空间的线性泛函时证明了这个定理(同年 Maurice Fréchet 独立得到),它是泛函分析的奠基性结果之一。在无穷维 Hilbert 空间,Riesz 表示定理需要"完备性 + 泛函有界(连续)"两个条件;在有限维则无条件成立。这个定理的深刻在于它建立了 \(V\) 与 \(V^*\) 之间一个**典范的**(不依赖基选择的)对应——而 A2a 的 \(V\cong V^*\) 同构需要选基,不典范。内积提供了"典范同构"所缺的那把尺子。
理论:陈述、构造性证明、共轭线性¶
§A2b.12.1 定理与构造性证明¶
定理(Riesz 表示):设 \(V\) 是有限维内积空间,\(\varphi\in V^*\) 是任一线性泛函。则存在**唯一**的 \(u\in V\),使得 $\(\varphi(v)=\langle v,u\rangle\quad\forall v\in V.\)$
证明(构造性,用标准正交基):取 \(V\) 的标准正交基 \(\{e_1,\dots,e_n\}\)。构造 \(u\):令 $\(u:=\sum_{i=1}^n\overline{\varphi(e_i)}\,e_i.\)$ (注意系数取了**共轭**——这是数学惯例第二变量共轭的代价,下面验证为何。)验证它代表 \(\varphi\):对任意 \(v=\sum_j\langle v,e_j\rangle e_j\), $\(\langle v,u\rangle=\Big\langle v,\sum_i\overline{\varphi(e_i)}e_i\Big\rangle=\sum_i\overline{\overline{\varphi(e_i)}}\langle v,e_i\rangle=\sum_i\varphi(e_i)\langle v,e_i\rangle=\varphi\Big(\sum_i\langle v,e_i\rangle e_i\Big)=\varphi(v).\)$ 关键第二步:第二变量的共轭把 \(\overline{\varphi(e_i)}\) 变回 \(\varphi(e_i)\)(双重共轭抵消),危机正是靠这个共轭解除。第四步用 \(\varphi\) 的线性。唯一性:若 \(\langle v,u_1\rangle=\langle v,u_2\rangle\ \forall v\),则 \(\langle v,u_1-u_2\rangle=0\ \forall v\);特取 \(v=u_1-u_2\) 得 \(\|u_1-u_2\|^2=0\),故 \(u_1=u_2\)。\(\blacksquare\)
唯一性证明里"\(\langle v,w\rangle=0\) 对所有 \(v\) \(\Rightarrow\) \(w=0\)"是一个**反复使用的引理**(正定性的推论),后面伴随唯一性还要用它。
§A2b.12.2 Riesz 映射的共轭线性¶
Riesz 定理给出一个映射 \(\Phi:V^*\to V\),\(\varphi\mapsto u_\varphi\)(把泛函送到它的代表向量)。这个映射有一个微妙特征:
命题:Riesz 映射 \(\Phi:V^*\to V\) 是**共轭线性**双射(实情况则是线性同构): $\(\Phi(\varphi+\psi)=\Phi(\varphi)+\Phi(\psi),\qquad\Phi(\lambda\varphi)=\bar\lambda\,\Phi(\varphi).\)$ 且保范 \(\|\Phi(\varphi)\|=\|\varphi\|\)(等距)。
证明(共轭齐次性):\((\lambda\varphi)(v)=\lambda\varphi(v)=\lambda\langle v,u_\varphi\rangle=\langle v,\bar\lambda u_\varphi\rangle\)(第二变量共轭把 \(\lambda\) 变 \(\bar\lambda\) 拉进去),故 \(\lambda\varphi\) 的代表是 \(\bar\lambda u_\varphi\),即 \(\Phi(\lambda\varphi)=\bar\lambda\Phi(\varphi)\)。\(\blacksquare\)
本质洞察:Riesz 映射是**共轭线性**而非线性,这又是复内积"共轭"基因的体现(§A2b.1)。它说明 \(V\) 与 \(V^*\) 之间的内积同构是"扭了一下"(带共轭)的同构。这个共轭会一路传染:伴随的标量律 \((\lambda T)^*=\bar\lambda T^*\)(§A2b.15)就是 Riesz 共轭的直接后果。实情况下共轭无效(实数的共轭是自己),映射退化为通常的线性同构,所有共轭符号消失——这解释了为什么实数域里伴随和转置看起来"没有共轭"。
理论-工程桥接:Riesz 定理在机器人里对应"梯度是一个向量"这一看似理所当然实则依赖内积的事实。标量函数 \(f:V\to\mathbb{R}\) 在某点的微分 \(df_x\) 是一个线性泛函(属于 \(V^*\));我们习惯说的"梯度 \(\nabla f\)"是 Riesz 定理把这个泛函翻译成的**向量**,满足 \(df_x(v)=\langle v,\nabla f\rangle\)。关键:梯度依赖内积的选择!标准内积给欧氏梯度,黎曼度量给"黎曼梯度",质量矩阵内积给"自然梯度"。机器人优化里"自然梯度下降"(natural gradient)、信息几何里 Fisher 度量下的梯度,本质都是"换一个内积,Riesz 就给出不同的梯度向量"。微分(泛函)是典范的,梯度(向量)依赖度量——这个区分极其重要。
⚠️ 常见陷阱¶
💡 概念误区:以为泛函就是向量,无需 Riesz - 新手想法:"泛函和向量本来就一样,\(\varphi(v)\) 当然等于某种点积。" - 现象/后果:在没有内积的空间(纯向量空间)里也想把泛函写成内积,或忽略 Riesz 代表依赖内积选择。 - 根本原因:\(V\cong V^*\) 在裸空间需选基(不典范);只有内积才给典范的、由 Riesz 唯一确定的对应。 - 正确做法:泛函 \(\in V^*\) 与向量 \(\in V\) 是不同对象;Riesz 定理(需内积)给出二者的典范对应,且代表向量随内积变化。
🧠 思维陷阱:复情况漏掉 Riesz 系数的共轭 - 新手想法:"代表向量是 \(u=\sum\varphi(e_i)e_i\)。" - 现象/后果:复情况漏共轭,验证 \(\langle v,u\rangle=\varphi(v)\) 时多出一个共轭,等式不成立。 - 根本原因:数学惯例第二变量共轭,要让双重共轭抵消,系数必须先取共轭 \(\overline{\varphi(e_i)}\)。 - 正确做法:复情况 \(u=\sum\overline{\varphi(e_i)}e_i\);实情况共轭无影响可省。
💡 概念误区:把 Riesz 映射当成线性同构 - 新手想法:"\(\Phi:V^*\to V\) 是线性同构。" - 现象/后果:复情况把 \(\Phi(\lambda\varphi)\) 当成 \(\lambda\Phi(\varphi)\),漏掉共轭。 - 根本原因:Riesz 映射是**共轭线性**(\(\Phi(\lambda\varphi)=\bar\lambda\Phi(\varphi)\)),复情况下不是线性的。 - 正确做法:实情况线性同构;复情况共轭线性同构(保范双射但齐次性带共轭)。
练习¶
1.(计算题)在 \(\mathbb{R}^3\)(标准内积)上,泛函 \(\varphi(x)=2x_1-x_2+3x_3\)。用 Riesz 定理求它的代表向量 \(u\)(使 \(\varphi(x)=\langle x,u\rangle\))。(答案应是 \(\varphi\) 的"系数向量",体会为什么实情况无共轭。)
2.(证明题)证明 Riesz 映射的等距性 \(\|\Phi(\varphi)\|=\|\varphi\|\),其中泛函范数 \(\|\varphi\|=\sup_{\|v\|=1}|\varphi(v)|\)。(提示:用 Cauchy–Schwarz 证 \(\le\),取 \(v=u/\|u\|\) 证 \(\ge\)。在草稿纸上完成。)
3.(开放思考题)"梯度依赖内积":在 \(\mathbb{R}^2\) 上取函数 \(f(x)=x_1^2+x_2^2\),分别用标准内积和加权内积 \(\langle x,y\rangle_M=x^{\mathsf T}My\)(\(M=\operatorname{diag}(1,4)\))计算 Riesz 意义下的梯度 \(\nabla_M f\)。两者一样吗?这对"自然梯度下降"意味着什么?
§A2b.13 \(W^\perp\leftrightarrow W^\circ\):正交补就是零化子在内积下的化身 🟣 ⭐⭐⭐¶
本节标 🟣,首读可跳过。它兑现 §A2b.9.3 与 §A2b.10 练习 3 埋下的伏笔:Riesz 同构把正交补 \(W^\perp\) 精确地送到零化子 \(W^\circ\)。
动机:两个"同维补"为什么形状一样¶
§A2b.9.3 注意到一个巧合:零化子 \(W^\circ\subseteq V^*\) 与正交补 \(W^\perp\subseteq V\) 满足同样的维数公式 \(\dim W+\dim(\cdot)=\dim V\)。这不可能是偶然。本节用 Riesz 映射给出精确解释:\(W^\perp\) 就是 \(W^\circ\) 在 Riesz 同构下的像。这把 A2a 的对偶理论与 A2b 的内积几何缝合成一块,也为 §A2b.16"伴随 \(T^*\) vs 对偶 \(T^t\)"做最后的铺垫。
理论:对应定理¶
定理:设 \(\Phi:V^*\to V\) 是 Riesz 映射(\(\varphi\mapsto u_\varphi\),\(\varphi(v)=\langle v,u_\varphi\rangle\)),\(W\subseteq V\) 子空间。则 $\(\Phi(W^\circ)=W^\perp.\)$ 即 Riesz 映射把 \(W\) 的零化子一一映到 \(W\) 的正交补。
证明:取 \(\varphi\in W^\circ\),即 \(\varphi(w)=0\ \forall w\in W\)。设其 Riesz 代表 \(u_\varphi=\Phi(\varphi)\),则 \(\varphi(w)=\langle w,u_\varphi\rangle\)。于是 $\(\varphi\in W^\circ\iff\varphi(w)=0\ \forall w\in W\iff\langle w,u_\varphi\rangle=0\ \forall w\in W\iff u_\varphi\in W^\perp.\)$ 故 \(\Phi\) 把 \(W^\circ\) 双射地映到 \(W^\perp\)(\(\Phi\) 本身是双射)。\(\blacksquare\)
本质洞察:这条定理是"内积统一对偶与几何"的标志性结果。在没有内积的 A2a 世界里,\(W^\circ\)(住在 \(V^*\))是唯一能表达"消灭 \(W\)"的对象;装上内积后,Riesz 把它"翻译"回 \(V\) 里的 \(W^\perp\)(垂直于 \(W\))。"消灭"(泛函视角)和"垂直"(度量视角)原来是同一件事的两种语言,翻译词典就是 Riesz 映射。这也解释了 §A2b.10 练习 3 的"殊途同归":\(W^\circ\) 的维数公式不需内积,\(W^\perp\) 的需内积,但因 Riesz 同构二者本质相同,维数自然一致。
理论-工程桥接:这个对应在机器人静力学里有直接体现。末端速度(twist)住在切空间 \(V\),末端力(wrench)住在对偶空间 \(V^*\),配对 \(\langle\text{wrench},\text{twist}\rangle=\text{功率}\) 是 A2a 的对偶配对(不需内积)。约束子空间 \(W\)(允许的运动方向)的零化子 \(W^\circ\) 是"不做功的力"(约束反力),而若强行引入一个度量(如动能内积),\(W^\perp\) 就是"与允许运动垂直的速度"。§A2b.13 提醒我们:约束反力天然属于零化子 \(W^\circ\)(对偶、不需度量),把它说成"正交于运动的力"\(W^\perp\) 是偷偷选了一个度量——这正是 §A2b.16 要警告的"伴随 vs 对偶"混淆在静力学中的源头。
⚠️ 常见陷阱¶
💡 概念误区:以为对应定理在实/复都不带共轭 - 新手想法:"\(\Phi(W^\circ)=W^\perp\) 是集合等式,与共轭无关。" - 现象/后果:虽然集合对应不受共轭影响,但若进一步追踪单个泛函到向量的系数,复情况会漏共轭。 - 根本原因:集合层面对应干净,但 Riesz 映射本身共轭线性(§A2b.12.2),逐元素追踪要注意。 - 正确做法:作为子空间对应 \(\Phi(W^\circ)=W^\perp\) 无须担心共轭;逐元素算代表向量时复情况记得共轭。
🧠 思维陷阱:把 \(W^\circ\) 和 \(W^\perp\) 直接划等号而忽略它们住在不同空间 - 新手想法:"既然 \(\Phi(W^\circ)=W^\perp\),那 \(W^\circ=W^\perp\)。" - 现象/后果:在 \(V\) 和 \(V^*\) 之间混用,类型错误。 - 根本原因:\(W^\circ\subseteq V^*\)、\(W^\perp\subseteq V\),是**不同空间的子空间**,只是经 \(\Phi\) 对应,不是相等。 - 正确做法:\(W^\circ\) 与 \(W^\perp\) 经 Riesz 同构对应(同构像),而非相等;保持类型清醒。
练习¶
1.(证明题)补全细节:证明 \(\Phi(W^\circ)\subseteq W^\perp\) 与 \(W^\perp\subseteq\Phi(W^\circ)\) 两个包含,从而等号成立。(在草稿纸上完成。)
2.(开放思考题)对偶映射满足 \((\operatorname{im}T)^\circ=\ker T^t\)(A2a 结论)。结合 §A2b.13 与即将学的 §A2b.16(\(T^*=\Phi\circ T^t\circ\Phi^{-1}\) 式的关系),猜想 \((\operatorname{im}T)^\perp\) 与 \(\ker T^*\) 的关系。(这是 §A2b.15 四个基本子空间定理的预告。)
§A2b.14 伴随算子 \(T^*\) 的存在唯一性 ⭐⭐⭐¶
本节是支线二的心脏。Riesz 定理在这里"开花结果",定义出贯穿全部后续内容(谱定理、SVD、Kalman、静力学)的核心对象——伴随算子。
动机:把内积"挪"到算子的另一边¶
无数推导里需要这样一个操作:把内积 \(\langle Tv,w\rangle\) 里的算子 \(T\) "挪"到第二个变量上,变成 \(\langle v,?\,w\rangle\)。这个"?"就是伴随算子 \(T^*\)。它让我们在内积中**自由移动算子**,是几乎所有涉及"算子 + 内积"推导的润滑剂——最小二乘的法方程(§A2b.11)、自伴算子的实特征值(§A2c)、SVD 的构造,全靠这一步"挪过去"。
如果不这样做会怎样:法方程都写不出来¶
回看 §A2b.11.3 法方程的推导:残差垂直列空间 \(\langle Ax,r\rangle=0\),我们要把它变成"\(A^*r=0\)"——这一步正是用了伴随的定义 \(\langle Ax,r\rangle=\langle x,A^*r\rangle\)。没有伴随,"残差与列空间正交"这个几何条件无法翻译成可解的代数方程 \(A^*r=0\)。伴随是连接"几何正交条件"与"代数方程"的桥。同样,谱定理"自伴算子特征值实"、SVD 的全部构造都建立在伴随之上。
历史:从矩阵转置到抽象伴随¶
"伴随"概念经历了从具体到抽象的演进。最早是矩阵转置(Cauchy 时代),用于二次型;复矩阵的共轭转置(Hermite, 1855)随复二次型出现;把伴随提升为"内积空间上算子的抽象运算"(满足 \(\langle Tv,w\rangle=\langle v,T^*w\rangle\))则是 20 世纪泛函分析的产物(von Neumann 在无界算子上的工作最深)。本节走的是现代路线:先用 Riesz 定理证存在唯一,再导出它在矩阵上恰是共轭转置——这样"为什么伴随矩阵是共轭转置"就不再是规定,而是定理。
理论:存在唯一性定理与证明¶
§A2b.14.1 定义与存在唯一性¶
定义/定理(伴随算子):设 \(V,W\) 是有限维内积空间,\(T\in L(V,W)\)。则存在**唯一**的线性映射 \(T^*\in L(W,V)\),称为 \(T\) 的**伴随**(adjoint),满足 $\(\langle Tv,w\rangle_W=\langle v,T^*w\rangle_V\quad\forall v\in V,\ w\in W.\)$
证明(用 Riesz 定理):
存在性:固定 \(w\in W\)。考虑映射 \(\varphi_w:V\to F\),\(\varphi_w(v):=\langle Tv,w\rangle_W\)。它是 \(V\) 上的线性泛函(\(v\mapsto Tv\) 线性,再与固定 \(w\) 作内积,对第一变量线性)。由 Riesz 定理(§A2b.12),存在唯一向量记作 \(T^*w\in V\),使 $\(\varphi_w(v)=\langle v,T^*w\rangle_V,\quad\text{即}\quad\langle Tv,w\rangle_W=\langle v,T^*w\rangle_V.\)$ 这对每个 \(w\) 定义了一个 \(T^*w\),得到映射 \(T^*:W\to V\)。
\(T^*\) 线性:要证 \(T^*(\lambda w_1+w_2)=\lambda T^*w_1+T^*w_2\)。对任意 \(v\), $\(\langle v,T^*(\lambda w_1+w_2)\rangle=\langle Tv,\lambda w_1+w_2\rangle=\bar\lambda\langle Tv,w_1\rangle+\langle Tv,w_2\rangle=\bar\lambda\langle v,T^*w_1\rangle+\langle v,T^*w_2\rangle=\langle v,\lambda T^*w_1+T^*w_2\rangle.\)$ 注意第二步第二变量的 \(\lambda\) 拉出来带共轭变 \(\bar\lambda\),第四步再拉回去又变回 \(\lambda\)(双重共轭抵消,正是 §A2b.1 那句"共轭守护"的又一次兑现)。由 \(v\) 任意 + 正定性引理(§A2b.12.1 唯一性那条),\(T^*(\lambda w_1+w_2)=\lambda T^*w_1+T^*w_2\),线性成立。
唯一性:若 \(S,T^*\) 都满足 \(\langle Tv,w\rangle=\langle v,Sw\rangle=\langle v,T^*w\rangle\),则 \(\langle v,(S-T^*)w\rangle=0\ \forall v\),取 \(v=(S-T^*)w\) 得 \(\|(S-T^*)w\|^2=0\),故 \(Sw=T^*w\) 对所有 \(w\),即 \(S=T^*\)。\(\blacksquare\)
本质洞察:伴随存在性的证明是"Riesz 定理逐点应用 + 验证拼起来是线性的"这一模式的典范。固定 \(w\),左边 \(\langle Tv,w\rangle\) 是 \(v\) 的泛函 → Riesz 给一个代表向量 \(T^*w\) → 让 \(w\) 跑遍 \(W\) → 得到映射 \(T^*\) → 验证它线性。整个伴随理论的存在性**只依赖一件事:Riesz 定理(而 Riesz 依赖有限维 + 内积正定)**。这解释了为什么无穷维伴随要小心(无界算子的伴随定义域是难点,von Neumann 的深刻工作)。有限维下,伴随永远存在且唯一,可以放心使用。
§A2b.14.2 伴随与对偶的"双重共轭"现象¶
证明里反复出现"\(\lambda\) 拉出带共轭、拉回又变回来"。把这个现象单独点明:
在验证 \(T^*\) 线性时,标量 \(\lambda\) 经历了 \(\lambda\to\bar\lambda\to\lambda\) 的旅程。这个"双重共轭抵消"是伴随保持**线性**(而非共轭线性)的原因——尽管 Riesz 映射本身共轭线性(§A2b.12.2),但伴随在"两次 Riesz"(输入端一次、输出端一次)中把两个共轭抵消,最终 \(T^*\) 是线性算子。
这一点与 §A2b.16 的 \(T^*=\Phi_V\circ T^t\circ\Phi_W^{-1}\) 公式一致:\(T^t\) 线性,两端各夹一个共轭线性的 Riesz 映射 \(\Phi\),\(\bar{\bar\lambda}=\lambda\),合成仍线性。
⚠️ 常见陷阱¶
💡 概念误区:以为伴随的存在"显然"无需证明 - 新手想法:"伴随不就是转置吗,直接写出来即可。" - 现象/后果:跳过 Riesz 论证,在抽象内积空间(非 \(\mathbb{R}^n\))里以为伴随自动存在,无穷维时栽跟头。 - 根本原因:伴随存在性是定理,核心依赖 Riesz(有限维 + 正定);"它是转置"只是有限维标准正交基下的**结论**(§A2b.15),不是定义。 - 正确做法:伴随由 \(\langle Tv,w\rangle=\langle v,T^*w\rangle\) 定义,存在性靠 Riesz 证;矩阵转置是其特例。
🧠 思维陷阱:把伴随当成共轭线性 - 新手想法:"Riesz 映射共轭线性,那伴随也共轭线性吧。" - 现象/后果:误以为 \((\lambda T)^*=\lambda T^*\)(漏共轭)或 \(T^*\) 对输入共轭线性。 - 根本原因:伴随作为算子 \(T^*:W\to V\) 是**线性**的(双重共轭抵消);但作为"\(T\) 到 \(T^*\) 的映射"则有 \((\lambda T)^*=\bar\lambda T^*\)(共轭)——别把这两件事混了。 - 正确做法:\(T^*\) 本身线性;"取伴随"这个元运算 \(T\mapsto T^*\) 共轭线性(§A2b.15 性质)。
💡 概念误区:忘记 \(T^*\) 的方向(定义域/值域反转) - 新手想法:"\(T:V\to W\),那 \(T^*\) 也是 \(V\to W\)。" - 现象/后果:维度不匹配,矩阵乘法报错。 - 根本原因:\(T^*:W\to V\) 方向相反(与对偶映射 \(T^t:W^*\to V^*\) 一致)。 - 正确做法:\(T:V\to W\Rightarrow T^*:W\to V\);矩阵上 \(A\in F^{m\times n}\Rightarrow A^*\in F^{n\times m}\)。
练习¶
1.(证明题)证明伴随的"伴随是自己":\((T^*)^*=T\)。(提示:用定义 \(\langle T^*w,v\rangle=\langle w,(T^*)^*v\rangle\) 与 \(\langle Tv,w\rangle=\langle v,T^*w\rangle\) 比对,注意共轭对称。在草稿纸上完成。)
2.(计算题)在 \(\mathbb{R}^2\)(标准内积)上,\(T(x_1,x_2)=(x_1+2x_2,\,3x_1)\)。直接用定义 \(\langle Tv,w\rangle=\langle v,T^*w\rangle\) 求 \(T^*\)(不许直接写转置!设 \(T^*(w_1,w_2)=(?,?)\) 待定,配平内积)。验证结果确实是 \(T\) 的矩阵转置。
3.(开放思考题)无穷维微分算子 \(D=\frac{d}{dt}\) 在 \(L^2[0,1]\) 上的"伴随"是什么?为什么需要边界条件(提示:分部积分 \(\int f'g=-\int fg'+[fg]_0^1\),边界项不消失时伴随不是 \(-D\))?这说明无穷维伴随比有限维多了什么麻烦?
§A2b.15 伴随的代数性质、矩阵表示与四个基本子空间 ⭐⭐⭐¶
动机:伴随的"运算法则"与它揭示的空间结构¶
定义了伴随后,要把它变成好用的工具,需要两样东西:一是**运算法则**(伴随对加法、乘法、求逆如何分配),二是**它在矩阵上长什么样**(答案:共轭转置)。更深一层,伴随揭示了任意线性映射的"四个基本子空间"及其正交关系——这是 Strang 线性代数的核心图景,也是 SLAM 可观性、控制可控性的几何语言。
理论:性质、矩阵公式、四基本子空间¶
§A2b.15.1 伴随的代数性质¶
性质:对 \(S,T\in L(V)\)(或合适维度的算子)与标量 \(\lambda\): 1. \((S+T)^*=S^*+T^*\); 2. \((\lambda T)^*=\bar\lambda\,T^*\)(注意共轭); 3. \((ST)^*=T^*S^*\)(反序); 4. \((T^*)^*=T\); 5. \(I^*=I\); 6. \(T\) 可逆 \(\Rightarrow T^*\) 可逆且 \((T^*)^{-1}=(T^{-1})^*\)。
证明(性质 3,反序,最易记错):对所有 \(u,v\), $\(\langle STu,v\rangle=\langle Tu,S^*v\rangle=\langle u,T^*S^*v\rangle.\)$ (第一步把 \(S\) 挪过去用 \(S^*\),第二步把 \(T\) 挪过去用 \(T^*\)。)另一方面按定义 \(\langle STu,v\rangle=\langle u,(ST)^*v\rangle\)。比对得 \((ST)^*=T^*S^*\)。\(\blacksquare\)
证明(性质 2,共轭):\(\langle\lambda Tv,w\rangle=\lambda\langle Tv,w\rangle=\lambda\langle v,T^*w\rangle=\langle v,\bar\lambda T^*w\rangle\)(第二变量 \(\bar\lambda\) 拉进),故 \((\lambda T)^*=\bar\lambda T^*\)。\(\blacksquare\)
本质洞察:性质 3 的"反序" \((ST)^*=T^*S^*\) 和矩阵转置/求逆的反序 \((AB)^{\mathsf T}=B^{\mathsf T}A^{\mathsf T}\)、\((AB)^{-1}=B^{-1}A^{-1}\) 同源——都来自"先做 \(S\)(或 \(A\))后做 \(T\)(或 \(B\)),取伴随/逆时顺序颠倒"的复合结构。性质 2 的共轭 \(\bar\lambda\) 再次是 §A2b.1 共轭基因的体现。把这两条记牢:伴随是共轭 + 反序的运算,与转置(实情况)只差一个共轭。
§A2b.15.2 矩阵表示:伴随就是共轭转置¶
定理(伴随的矩阵表示):设 \(\{e_i\}\)、\(\{f_j\}\) 分别是 \(V\)、\(W\) 的**标准正交基**,\(T\) 在这两组基下的矩阵为 \(A\)(即 \(A_{ji}=\langle Te_i,f_j\rangle\))。则 \(T^*\) 在对应基下的矩阵是 \(A^*=\bar A^{\mathsf T}\)(共轭转置)。
证明:\(T^*\) 的矩阵元 \((A^*)_{ij}=\langle T^*f_j,e_i\rangle\)(§A2b.6 练习 2 公式)。用伴随定义 + 共轭对称: $\((A^*)_{ij}=\langle T^*f_j,e_i\rangle=\overline{\langle e_i,T^*f_j\rangle}=\overline{\langle Te_i,f_j\rangle}=\overline{A_{ji}}.\)$ 即 \((A^*)_{ij}=\overline{A_{ji}}\),正是共轭转置 \(\bar A^{\mathsf T}\)。\(\blacksquare\)
关键限定(务必记住):伴随矩阵 = 共轭转置,这个结论**只在标准正交基下成立**。若用一般(非正交)基,伴随的矩阵是 \(G^{-1}A^*G\) 形式(\(G\) 是 Gram 矩阵),不再是简单转置。这是 §A2b.16 要深挖的"伴随 vs 对偶"区别的矩阵根源——对偶 \(T^t\) 在任意基下都是转置 \(A^{\mathsf T}\),伴随 \(T^*\) 只在标准正交基下才是 \(\bar A^{\mathsf T}\)。
§A2b.15.3 四个基本子空间及其正交关系¶
伴随让我们能精确陈述任意 \(T\in L(V,W)\)(矩阵 \(A\in F^{m\times n}\))的四个基本子空间的正交结构——Strang 线性代数的中心定理。
定理(四个基本子空间):对 \(T\in L(V,W)\), $\(\boxed{\ \ker T=(\operatorname{im}T^*)^\perp,\qquad \operatorname{im}T=(\ker T^*)^\perp\ }\)$ 等价地(取正交补)\(\operatorname{im}T^*=(\ker T)^\perp\),\(\ker T^*=(\operatorname{im}T)^\perp\)。于是: - \(V=\ker T\oplus\operatorname{im}T^*\)(定义域劈成"零空间"与"行空间"); - \(W=\ker T^*\oplus\operatorname{im}T\)(到达域劈成"左零空间"与"列空间")。
证明(\(\ker T=(\operatorname{im}T^*)^\perp\)): $\(v\in\ker T\iff Tv=0\iff\langle Tv,w\rangle=0\ \forall w\iff\langle v,T^*w\rangle=0\ \forall w\iff v\perp\operatorname{im}T^*\iff v\in(\operatorname{im}T^*)^\perp.\)$ 关键中间步用伴随定义把 \(\langle Tv,w\rangle\) 换成 \(\langle v,T^*w\rangle\)。\(\blacksquare\) 其余三式由取正交补(§A2b.10 双重正交补)与 \((T^*)^*=T\) 得到。
矩阵语言(\(A\in\mathbb{R}^{m\times n}\),实情况 \(A^*=A^{\mathsf T}\)):\(\ker A=(\operatorname{row}A)^\perp\)(零空间 \(\perp\) 行空间,在 \(\mathbb{R}^n\)),\(\operatorname{im}A=(\ker A^{\mathsf T})^\perp\)(列空间 \(\perp\) 左零空间,在 \(\mathbb{R}^m\))。这就是 Strang 的"四子空间正交配对"图。
本质洞察:四个基本子空间定理说"伴随的像 = 原映射核的正交补",几何上即:\(A\) 把 \(\ker A\) 压成 0、把 \((\ker A)^\perp=\operatorname{row}A\) 一一映到 \(\operatorname{im}A\)。一个线性映射的全部信息被这两对正交子空间编码——定义域里"被消灭的方向(核)"与"有效作用的方向(行空间)"垂直,到达域里"够不到的方向(左零空间)"与"能达到的方向(列空间)"垂直。这个图景把"秩-零度定理"(A2a)几何化、正交化,是理解最小二乘(残差落在左零空间)、SVD(四子空间的标准正交基 = 奇异向量)的统一框架。
理论-工程桥接(可观性与可控性):四个基本子空间是机器人"可观/可控"概念的代数核心。 | 概念 | 矩阵 | 子空间含义 | |---|---|---| | 可观性 | 可观性矩阵 \(\mathcal{O}\) | \(\ker\mathcal{O}\) = 不可观子空间(观测看不到的状态方向)| | 可控性 | 可控性矩阵 \(\mathcal{C}\) | \(\operatorname{im}\mathcal{C}\) = 可达子空间(控制能到达的状态方向)|
"状态 \(x\) 不可观" \(\iff x\in\ker\mathcal{O}\)(被观测映射消灭,落在 \((\operatorname{row}\mathcal{O})^\perp\))。SLAM 的"规范自由度"(gauge freedom:全局位姿不可观)正是信息矩阵 \(\Lambda=A^*A\) 的零空间——整体平移/旋转不改变任何相对观测,故落在 \(\ker A\)。"七维规范自由度"(3 平移 + 3 旋转 + 1 尺度,单目情形)就是 \(\dim\ker A=7\)。处理办法(固定第一帧、加先验、零空间投影)本质都是"在 \(\ker A\) 方向上补充信息或约束"。四个基本子空间定理把这些工程现象统一成一句话:伴随的核与像决定了你能估计什么、不能估计什么。
⚠️ 常见陷阱¶
🧠 思维陷阱:把 \((ST)^*\) 写成 \(S^*T^*\)(忘记反序) - 新手想法:"伴随对乘积分配,\((ST)^*=S^*T^*\)。" - 现象/后果:维度都可能不匹配,推导(如证 \(A^*A\) 自伴)全错。 - 根本原因:伴随是反序运算 \((ST)^*=T^*S^*\),与转置/求逆一致。 - 正确做法:永远 \((ST)^*=T^*S^*\),顺序颠倒;验算时检查维度是否吻合。
💡 概念误区:以为伴随矩阵在任意基下都是共轭转置 - 新手想法:"\(T^*\) 的矩阵就是 \(A\) 的共轭转置,跟基无关。" - 现象/后果:在非正交基下错误地用 \(\bar A^{\mathsf T}\),结果与真实伴随差一个 Gram 矩阵因子。 - 根本原因:"伴随 = 共轭转置"仅在**标准正交基**下成立。 - 正确做法:标准正交基下 \(T^*\leftrightarrow\bar A^{\mathsf T}\);一般基下 \(T^*\leftrightarrow G^{-1}A^*G\)。
💡 概念误区:混淆行空间和列空间的正交补归属 - 新手想法:"\(\ker A\) 与 \(\operatorname{im}A\) 正交。" - 现象/后果:把住在不同空间(\(\mathbb{R}^n\) vs \(\mathbb{R}^m\))的子空间硬说成正交,类型错误。 - 根本原因:\(\ker A\subseteq\mathbb{R}^n\) 与 \(\operatorname{row}A\subseteq\mathbb{R}^n\) 正交(同一空间);\(\operatorname{im}A\subseteq\mathbb{R}^m\) 与 \(\ker A^{\mathsf T}\subseteq\mathbb{R}^m\) 正交(另一空间)。\(\ker A\) 与 \(\operatorname{im}A\) 一般不在同一空间,谈不上正交。 - 正确做法:分清定义域侧(\(\ker A\perp\operatorname{row}A\),在 \(\mathbb{R}^n\))与到达域侧(\(\operatorname{im}A\perp\ker A^{\mathsf T}\),在 \(\mathbb{R}^m\))。
练习¶
1.(计算题)\(A=\begin{pmatrix}1&2&3\\2&4&6\end{pmatrix}\)。求四个基本子空间 \(\operatorname{row}A,\ker A,\operatorname{im}A,\ker A^{\mathsf T}\) 的基,验证 \(\operatorname{row}A\perp\ker A\)(在 \(\mathbb{R}^3\))、\(\operatorname{im}A\perp\ker A^{\mathsf T}\)(在 \(\mathbb{R}^2\)),并核对维数 \(\dim\operatorname{row}A+\dim\ker A=3\)。
2.(证明题)证明 \(\ker(A^*A)=\ker A\)。(提示:\(A^*Ax=0\Rightarrow x^*A^*Ax=0\Rightarrow\|Ax\|^2=0\Rightarrow Ax=0\)。在草稿纸上完成——这正是 §A2b.11 法方程"列满秩 ⟹ \(A^*A\) 可逆"的关键引理。)
3.(开放思考题 / 跨章综合)SLAM 单目重建有 7 维规范自由度(gauge freedom)。请论证:这 7 维恰是雅可比 \(A\) 的零空间 \(\ker A\)(整体相似变换不改变任何相对观测)。为什么固定一帧位姿(7 个约束)能让 \(A^*A\) 变可逆?用四个基本子空间的语言解释"加先验消除规范自由度"。(综合 §A2b.11 法方程、§A2b.15 四子空间。)
§A2b.16 伴随 \(T^*\) 与对偶 \(T^t\) 的区分 ⭐⭐⭐⭐¶
本节兑现 §A2b 开篇"Notation 警告"承诺的"顿悟时刻"。如果你曾觉得"\(T^*\) 和 \(T^t\) 不就是转置吗",读完本节它会变成"原来它们是两个住在不同世界、只在特殊巧合下相同的对象"。
动机:机器人里 \(J^{\mathsf T}\) 的转置到底是哪个¶
回到 §A2b 开篇"如果跳过会怎样·场景二":机器人静力学 \(\tau=J^{\mathsf T}F\)(关节力矩 = 雅可比转置 × 末端力)里的 \(J^{\mathsf T}\) 是**对偶映射** \(J^t\)(把末端力——一个余向量/wrench——拉回成关节力矩),它**不需要任何内积**;而动态一致伪逆 \(J^+_M=M^{-1}J^{\mathsf T}(JM^{-1}J^{\mathsf T})^{-1}\) 里隐含的是**伴随**(用动能度量 \(M\) 定义)。这两个"转置"在数学上是不同对象。不区分它们,会在"该用哪个度量""转置是否需要质量矩阵加权"上犯系统性错误。本节把它们彻底厘清。
理论:两个对象的对照与统一公式¶
§A2b.16.1 对偶映射 \(T^t\) 回顾(不需内积)¶
A2a 定义:给定 \(T:V\to W\),对偶映射 \(T^t:W^*\to V^*\) 为 $\((T^t\psi)(v)=\psi(Tv),\quad\psi\in W^*,\ v\in V.\)$ 它把 \(W\) 上的泛函 \(\psi\) "沿 \(T\) 拉回"成 \(V\) 上的泛函。关键:定义只用泛函复合,不涉及任何内积。 在任意基(及其对偶基)下,\(T^t\) 的矩阵是 \(A^{\mathsf T}\)(普通转置,无共轭,任意基都成立)。
§A2b.16.2 伴随 \(T^*\) 回顾(需内积)¶
§A2b.14 定义:\(T^*:W\to V\) 满足 \(\langle Tv,w\rangle_W=\langle v,T^*w\rangle_V\)。它**需要 \(V,W\) 上各有一个内积**。在标准正交基下矩阵是 \(\bar A^{\mathsf T}\)(共轭转置);一般基下是 \(G_V^{-1}A^*G_W\)。
§A2b.16.3 统一公式:伴随 = Riesz 翻译过的对偶¶
两者的精确关系由 Riesz 映射给出:
定理(伴随与对偶的关系):设 \(\Phi_V:V^*\to V\)、\(\Phi_W:W^*\to W\) 是 Riesz 映射。则 $\(T^*=\Phi_V\circ T^t\circ\Phi_W^{-1}.\)$ 即:把 \(w\in W\) 经 \(\Phi_W^{-1}\) 变成泛函,用对偶 \(T^t\) 拉回到 \(V^*\),再经 \(\Phi_V\) 变回向量——结果就是 \(T^*w\)。
证明:对 \(w\in W\),\(\Phi_W^{-1}(w)\) 是泛函 \(\langle\cdot,w\rangle_W\)。\(T^t\) 作用得泛函 \(v\mapsto\langle Tv,w\rangle_W\)。\(\Phi_V\) 把它变回的向量 \(u\) 满足 \(\langle v,u\rangle_V=\langle Tv,w\rangle_W\)——这正是 \(T^*w\) 的定义。\(\blacksquare\)
这条公式把"两个转置"的关系钉死:对偶 \(T^t\) 是底层、典范的对象(无需度量);伴随 \(T^*\) 是把 \(T^t\) 用两端的 Riesz 映射(即两个内积)"翻译"到原空间的产物。 换一个内积(换 \(\Phi\)),\(T^t\) 不变但 \(T^*\) 变——这就是为什么"伴随依赖度量,对偶不依赖"。
§A2b.16.4 "三重巧合":何时它们矩阵相同¶
何时 \(T^*\) 与 \(T^t\) 的矩阵相同? 需要三个条件同时满足: 1. 实数域(否则伴随带共轭 \(\bar A^{\mathsf T}\),对偶不带 \(A^{\mathsf T}\)); 2. 标准正交基(否则伴随是 \(G^{-1}A^*G\),不是简单转置); 3. 把 \(V^*\) 用标准内积与 \(V\) 等同(即对偶基 = 原基的内积像)。
这三重巧合在 \(\mathbb{R}^n\) 标准点积 + 标准基下恰好全部成立,所以本科线性代数里"伴随 = 对偶 = 转置 \(A^{\mathsf T}\)"——但这是**巧合**,不是普遍真理。
§A2b.16.5 五种"adjoint"消歧¶
"adjoint"在数学中是过载词,机器人/物理文献里至少有五种含义,必须分清:
名称 记号 定义 需要内积? 对偶/转置映射 \(T^t\) \((T^t\psi)(v)=\psi(Tv)\) 否 内积伴随(本章主角) \(T^*\) \(\langle Tv,w\rangle=\langle v,T^*w\rangle\) 是 经典伴随(伴随矩阵) \(\operatorname{adj}(A)\) 代数余子式转置,\(A\cdot\operatorname{adj}(A)=\det(A)I\) 否(纯代数) Hermitian 共轭(物理) \(T^\dagger\) = \(T^*\)(物理记号) 是 李代数伴随表示 \(\operatorname{ad}_X,\operatorname{Ad}_g\) \(\operatorname{ad}_XY=[X,Y]\) 否(李括号) 本质洞察(顿悟时刻):本章开篇警告的"\(T^*\) 与 \(T^t\) 只在实数 + 标准正交基的三重巧合下相同",到这里完全揭晓。底层只有一个典范对象:对偶 \(T^t\)(A2a,纯线性、无度量)。伴随 \(T^*\) 是它经过两个内积(Riesz 映射)翻译后的"度量版影子"。 你选不同内积,影子就变形;不选内积,根本投不出影子(只剩 \(T^t\))。本科教育把它们混为"转置",是因为永远在 \(\mathbb{R}^n\) 标准基下工作;一旦进入加权内积、复空间、抽象空间,"哪个转置"就成了必须回答的问题。这正是机器人动态一致控制、信息几何、量子力学里反复出现的分水岭。
理论-工程桥接(静力学的转置之辨): | 机器人公式 | 转置类型 | 为什么 | |---|---|---| | \(\tau=J^{\mathsf T}F\)(关节力矩)| 对偶 \(J^t\) | 力是余向量(wrench ∈ 余切空间),\(J^t\) 把它拉回关节空间,由"功率守恒 \(\tau^{\mathsf T}\dot q=F^{\mathsf T}\dot x\)"决定,不需度量 | | 动态一致伪逆 \(J^+_M=M^{-1}J^{\mathsf T}(JM^{-1}J^{\mathsf T})^{-1}\) | 伴随(动能度量)| 用质量矩阵 \(M\) 定义的内积,最小化动能而非欧氏范数,伴随随 \(M\) 变 | | 操作空间惯量 \(\Lambda=(JM^{-1}J^{\mathsf T})^{-1}\) | 度量诱导 | \(M\)-内积在末端空间的"投影",本质是伴随 + 投影 |
结论:\(\tau=J^{\mathsf T}F\) 的转置是**对偶**(普适、无度量),不要给它配质量矩阵;而冗余机器人的零空间投影、动态一致控制用的是**动能度量下的伴随**,必须带 \(M^{-1}\)。混淆二者会让你在"投影该不该加权""转置后要不要乘 \(M\)"上犯错——这就是 §A2b 开篇承诺要根治的"场景二"。
⚠️ 常见陷阱¶
💡 概念误区:以为 \(T^*\) 和 \(T^t\) 永远是同一个转置 - 新手想法:"伴随、对偶、转置都是 \(A^{\mathsf T}\),三个名字一回事。" - 现象/后果:在复空间漏共轭、在加权内积下漏 Gram 因子、给 \(\tau=J^{\mathsf T}F\) 乱加质量矩阵。 - 根本原因:三者相同只在"实 + 标准正交基"的巧合下;本质上对偶不需度量、伴随需度量。 - 正确做法:先问"有没有内积、是不是标准正交基、是不是实数";对偶 \(T^t\) 普适用 \(A^{\mathsf T}\),伴随 \(T^*\) 随内积变。
🧠 思维陷阱:给静力学的 \(J^{\mathsf T}\) 加权 - 新手想法:"\(\tau=J^{\mathsf T}F\) 也是一种伴随,应该用动能度量加权成 \(M J^{\mathsf T}\) 之类。" - 现象/后果:力-力矩映射出错,违反功率守恒。 - 根本原因:\(\tau=J^{\mathsf T}F\) 的转置是**对偶**(由功率配对 \(\tau^{\mathsf T}\dot q=F^{\mathsf T}\dot x\) 唯一决定),与度量无关。 - 正确做法:力学对偶 \(J^t\) 不加权;只有"动态一致逆/零空间投影"这类涉及"最小动能"的问题才用 \(M\)-加权伴随。
💡 概念误区:把李代数伴随 \(\operatorname{Ad}\) 与内积伴随 \(T^*\) 混淆 - 新手想法:"\(\operatorname{Ad}_g\) 也叫 adjoint,应该和 \(T^*\) 有关。" - 现象/后果:在 \(SE(3)\) 上把伴随表示 \(\operatorname{Ad}_g\)(twist 的坐标变换)误当成内积伴随。 - 根本原因:"adjoint"过载:\(\operatorname{Ad}_g\) 是群对李代数的伴随**表示**(共轭作用 \(gXg^{-1}\)),与内积无关;\(T^*\) 是内积伴随。 - 正确做法:见到 \(\operatorname{Ad}/\operatorname{ad}\) 想"李括号/共轭作用"(第一层李群内容);见到 \(T^*/T^\dagger\) 想"内积伴随"。
练习¶
1.(计算题)\(\mathbb{C}^2\) 上 \(T\) 的矩阵 \(A=\begin{pmatrix}1&i\\0&2\end{pmatrix}\)(标准 Hermitian 内积,标准正交基)。写出对偶 \(T^t\) 的矩阵(\(A^{\mathsf T}\))与伴随 \(T^*\) 的矩阵(\(\bar A^{\mathsf T}\)),明确指出二者差在哪里(共轭)。
2.(推导题)在 \(\mathbb{R}^2\) 上取加权内积 \(\langle x,y\rangle_M=x^{\mathsf T}My\),\(M=\operatorname{diag}(1,2)\)。对 \(T\) 的标准矩阵 \(A=\begin{pmatrix}0&1\\1&0\end{pmatrix}\),用伴随定义 \(\langle Tx,y\rangle_M=\langle x,T^*y\rangle_M\) 求 \(T^*\) 的矩阵,验证它是 \(M^{-1}A^{\mathsf T}M\) 而非 \(A^{\mathsf T}\)。(在草稿纸上完成,体会"伴随随内积变"。)
3.(开放思考题 / 跨章)功率守恒 \(\tau^{\mathsf T}\dot q=F^{\mathsf T}\dot x\) 配合 \(\dot x=J\dot q\) 推出 \(\tau=J^{\mathsf T}F\)。请论证:这个推导**全程没用任何内积/度量**,因此 \(J^{\mathsf T}\) 是对偶映射。再问:动态一致伪逆为什么必须引入 \(M\)?它在最小化什么(提示:约束 \(\dot x\) 给定时的最小动能 \(\frac12\dot q^{\mathsf T}M\dot q\))?
§A2b.17 算子分类:自伴、正规、酉/正交 ⭐⭐⭐¶
本节是 A2b 的终点,也是 §A2c 谱定理的起点。前面建立的全部内积机器,在这里用来定义三类"行为良好"的算子,为谱分解、SVD、极分解铺好全部前置。
动机:哪些算子有最好的谱结构¶
一般线性算子的特征值可以是任意复数,特征向量未必正交,甚至未必可对角化(Jordan 块)。但有三类算子特别"乖":它们的特征向量构成标准正交基,特征值有特殊结构(实/单位模)。这三类就是自伴、正规、酉算子。它们的好行为全部由"与伴随 \(T^*\) 的关系"刻画——这正是为什么必须先学伴随(§A2b.14–15)才能讲谱定理。本节定义这三类并给出最基本的性质,把接力棒交给 §A2c。
理论:三类算子的定义、层级与性质¶
§A2b.17.1 三类定义¶
定义(算子分类):设 \(T\in L(V)\)(\(V\) 有限维内积空间)。 - \(T\) 自伴(self-adjoint / Hermitian):\(T^*=T\)。实矩阵即**对称** \(A^{\mathsf T}=A\),复矩阵即 Hermitian \(\bar A^{\mathsf T}=A\)。 - \(T\) 正规(normal):\(T^*T=TT^*\)(与自己的伴随可交换)。 - \(T\) 酉(unitary,复)/ 正交(orthogonal,实):\(T^*T=TT^*=I\),即 \(T^*=T^{-1}\)。
§A2b.17.2 层级关系¶
三类不是并列的,而是**层层包含**:
层级:\(\{\text{自伴}\}\subseteq\{\text{正规}\}\),\(\{\text{酉/正交}\}\subseteq\{\text{正规}\}\)。 - 自伴 \(\Rightarrow\) 正规:\(T^*=T\Rightarrow T^*T=TT=TT^*\)。✓ - 酉 \(\Rightarrow\) 正规:\(T^*T=I=TT^*\)。✓ - 自伴与酉一般不互含(自伴特征值实,酉特征值模 1;交集是"特征值 \(\pm1\)"的算子,如反射)。
正规是最大的类,自伴和酉是它的两个重要子类。谱定理对正规算子(复)成立:"\(T\) 正规 \(\iff T\) 可**酉对角化**"——这是 §A2c 的主定理。
§A2b.17.3 自伴算子:实特征值与正交特征向量¶
定理:自伴算子 \(T=T^*\) 的特征值全是**实数**,且不同特征值的特征向量**正交**。
证明(特征值实):设 \(Tv=\lambda v\),\(v\ne 0\)。则 $\(\lambda\langle v,v\rangle=\langle Tv,v\rangle=\langle v,T^*v\rangle=\langle v,Tv\rangle=\langle v,\lambda v\rangle=\bar\lambda\langle v,v\rangle.\)$ \(\langle v,v\rangle\ne 0\),故 \(\lambda=\bar\lambda\),\(\lambda\) 是实数。\(\blacksquare\) 证明(特征向量正交):设 \(Tv_1=\lambda_1v_1\),\(Tv_2=\lambda_2v_2\),\(\lambda_1\ne\lambda_2\)(均实)。 $\(\lambda_1\langle v_1,v_2\rangle=\langle Tv_1,v_2\rangle=\langle v_1,Tv_2\rangle=\langle v_1,\lambda_2v_2\rangle=\bar\lambda_2\langle v_1,v_2\rangle=\lambda_2\langle v_1,v_2\rangle.\)$ \((\lambda_1-\lambda_2)\langle v_1,v_2\rangle=0\),\(\lambda_1\ne\lambda_2\) 故 \(\langle v_1,v_2\rangle=0\)。\(\blacksquare\)
本质洞察:自伴算子"特征值实 + 特征向量正交"两条好性质,根源都在 \(T^*=T\) 让算子在内积两边自由移动且不变。物理上,自伴对应"可观测量"(量子力学中 Hermitian 算子的本征值是实测量值,本征态正交即可区分);机器人里协方差矩阵、惯量张量、Hessian 都是对称(自伴)的,它们的实特征值对应方差/主惯量/曲率,正交特征向量对应主轴。这是 PCA、主惯量轴、最优性二阶条件的共同数学根基。谱定理将把这两条加强为"存在标准正交特征基"。
§A2b.17.4 酉/正交算子:保内积的"刚性变换"¶
定理(酉算子的等价刻画):以下等价:(i) \(T\) 酉(\(T^*T=I\));(ii) \(T\) 保内积 \(\langle Tu,Tv\rangle=\langle u,v\rangle\);(iii) \(T\) 保范 \(\|Tv\|=\|v\|\);(iv) \(T\) 把标准正交基映成标准正交基。
证明((i)⟹(ii)):\(\langle Tu,Tv\rangle=\langle u,T^*Tv\rangle=\langle u,Iv\rangle=\langle u,v\rangle\)。\(\blacksquare\) 证明((iii)⟹(ii),复情况用极化):保范即 \(\|Tv\|^2=\|v\|^2\),由极化恒等式(§A2b.5.2)内积可由范数表达,保范则保内积。\(\blacksquare\)(这里用到 §A2b.3.4 的 rotation trick / §A2b.5 极化,呼应前文。)
本质洞察:酉/正交算子是内积空间的"刚性变换"——它们不改变任何长度和角度(保内积),几何上对应旋转和反射。它们的特征值模长全为 1(\(|\lambda|=1\),因 \(\|Tv\|=\|v\|\Rightarrow|\lambda|\|v\|=\|v\|\)),在复平面上落在单位圆。正交矩阵 \(R\in O(n)\) 是机器人旋转 \(SO(3)\) 的母体(\(SO(3)\) = 行列式 +1 的正交群),保内积正是"旋转不改变物体形状"的数学表述。点云配准的 Kabsch 算法找最优旋转、姿态估计、坐标系变换,全在酉/正交算子的世界里。\(R^{-1}=R^{\mathsf T}\) 这个"逆等于转置"的便利(§A2b.R9 陷阱里提过)正是正交性 \(R^*R=I\) 的直接体现。
§A2b.17.5 通往 §A2c 的接口¶
本节定义的三类算子,是 §A2c 谱理论的全部主角:
§A2b 建立的概念 §A2c 将证明的定理 自伴 \(T^*=T\)(实特征值、正交特征向量) 实谱定理:自伴算子可正交对角化 \(T=Q\Lambda Q^{\mathsf T}\) 正规 \(T^*T=TT^*\) 复谱定理:正规算子可酉对角化 \(T=U\Lambda U^*\) 酉/正交(保内积) 对角化中的变换矩阵 \(Q/U\) 本身是正交/酉 任意 \(T\) + 伴随 + 四子空间 SVD \(T=U\Sigma V^*\):\(T^*T\) 自伴 ⟹ 奇异值/奇异向量 自伴 + 正定 极分解 \(T=U\lvert T\rvert\),\(\lvert T\rvert=\sqrt{T^*T}\)
谱定理的归纳证明引擎是 §A2b.8 的扩充定理(每找一个特征向量就在其正交补里递归);SVD 把四个基本子空间(§A2b.15)配上标准正交基;极分解则把任意算子分解为"旋转(酉)× 拉伸(正定自伴)"。A2b 的全部内容,到 §A2c 将兑现为这三大分解。
理论-工程桥接(三大分解的机器人地图): | 分解 | 机器人应用 | |---|---| | 谱分解(对称矩阵)| 协方差主轴(不确定性椭球)、惯量主轴、Hessian 曲率分析 | | SVD | 雅可比的可操作度椭球(奇异值 = 椭球半轴)、伪逆求解、奇异构型检测(最小奇异值 → 0)| | 极分解 | 点云配准最优旋转提取、形变梯度的"旋转 × 拉伸"分解(连续介质/软体机器人)|
这张表是 §A2b 全部努力的"兑付清单"——内积、正交、伴随、四子空间,最终都为这三大分解服务,而三大分解是机器人感知、估计、控制的数值核心。
⚠️ 常见陷阱¶
💡 概念误区:以为自伴和酉是并列的两类(非此即彼) - 新手想法:"算子要么自伴要么酉。" - 现象/后果:遇到既非自伴也非酉的正规算子(如一般旋转 + 缩放的复算子)时无法归类。 - 根本原因:正规是最大类,自伴和酉是它的两个**子类**,二者交集小(特征值 \(\pm1\) 的对称正交阵,如反射)。 - 正确做法:层级是 自伴 \(\subseteq\) 正规、酉 \(\subseteq\) 正规;存在正规但既非自伴也非酉的算子。
🧠 思维陷阱:把"正规"误记为"可对角化" - 新手想法:"正规就是可对角化。" - 现象/后果:把任意可对角化算子当成正规(错:可对角化只要求特征向量构成基,不要求**正交**基)。 - 根本原因:正规 \(\iff\) 可**酉**对角化(特征向量构成**标准正交**基);普通可对角化只要特征向量线性无关。 - 正确做法:正规 = 可酉对角化(正交特征基);可对角化 = 有特征基(未必正交)。前者强于后者。
💡 概念误区:实对称矩阵在复意义下可能有复特征值 - 新手想法:"实矩阵特征值可能复,对称的也不例外。" - 现象/后果:对实对称矩阵求特征值时担心出现复数,或不理解为何 PCA 特征值总实。 - 根本原因:实对称 = 自伴(实内积),自伴特征值必实(§A2b.17.3 定理)。 - 正确做法:实对称矩阵特征值**必为实数**(自伴定理保证);一般实矩阵(非对称)才可能有复特征值。
练习¶
1.(判定题)判断下列实矩阵属于自伴/正规/正交中的哪些类(可多选或都不属于):(a) \(\begin{pmatrix}2&1\\1&2\end{pmatrix}\);(b) \(\begin{pmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{pmatrix}\);(c) \(\begin{pmatrix}0&-1\\1&0\end{pmatrix}\);(d) \(\begin{pmatrix}1&1\\0&1\end{pmatrix}\)。对每个说明理由(验证 \(A^{\mathsf T}A\overset?=AA^{\mathsf T}\)、\(A^{\mathsf T}\overset?=A\)、\(A^{\mathsf T}A\overset?=I\))。
2.(证明题)证明:\(T\) 正规 \(\iff\|Tv\|=\|T^*v\|\) 对所有 \(v\)。(提示:\(\|Tv\|^2=\langle Tv,Tv\rangle=\langle v,T^*Tv\rangle\),\(\|T^*v\|^2=\langle v,TT^*v\rangle\),作差。在草稿纸上完成——这是谱定理证明的关键引理。)
3.(开放思考题 / 跨章综合)旋转矩阵 \(R\in SO(3)\) 是正交的(\(R^{\mathsf T}R=I\))。它的特征值是什么(提示:一个是 1,对应转轴;另两个是 \(e^{\pm i\theta}\),模 1)?请用"酉算子特征值模 1"解释为什么旋转必有一个实特征值 1(转轴方向不变),并联系第一层"旋转的轴-角表示"。
§A2b.R 应用视角汇编:内积几何的机器人兑现 ⭐⭐⭐¶
本节集中回填导航图承诺的"机器人动机线 §A2b.R1–R9"。前面各节的"理论-工程桥接"方框是分散的随文注脚,这里把它们串成一条完整的应用线,让读者一次看清"A2b 的每块数学砖头落在机器人的哪面墙上"。建议二读时配合各主节阅读。
§A2b.R1 内积即度量选择:欧氏、能量、信息三种"长度"¶
机器人里"长度/误差"从来不是唯一的,取决于装哪个内积(§A2b.1 例 5):
- 欧氏内积 \(\langle x,y\rangle=x^{\mathsf T}y\):几何空间的直线距离,用于笛卡尔位置误差、点云欧氏对齐。
- 能量内积 \(\langle\dot q_1,\dot q_2\rangle_M=\dot q_1^{\mathsf T}M(q)\dot q_2\):以质量矩阵 \(M(q)\) 为度量,"长度平方"是两倍动能。关节空间插值、动态一致控制用它,因为它尊重"不同关节惯量不同"这一物理事实。
- 信息内积 \(\langle x,y\rangle_{\Sigma^{-1}}=x^{\mathsf T}\Sigma^{-1}y\):以协方差逆(信息矩阵)为度量,诱导马氏距离(§A2b.4 桥接)。它"归一化"不同方向的不确定性,是卡尔曼滤波加权残差的根据。
本质洞察:这三种内积对应三种世界观——几何(欧氏)、力学(能量)、统计(信息)。同一个向量空间装上不同内积,"谁离谁近""哪个方向重要"的答案完全不同。选内积是建模决策,不是数学细节。
§A2b.R2 范数与诱导度量:误差的统一语言¶
§A2b.4 桥接指出,机器人里形形色色的"误差"本质都是某个内积空间的诱导距离 \(d(u,v)=\|u-v\|\)。把它们摆在一起,差别只在"选哪个内积":
| 误差类型 | 度量 | 内积 |
|---|---|---|
| 笛卡尔位置 RMSE | 欧氏距离 | 标准点积 |
| 轨迹跟踪偏差 | 加权欧氏 | 对角加权(按轴重要性) |
| 点云配准残差 | 欧氏 / 鲁棒 | 标准(\(L^2\))或非内积(\(L^1\)/Huber) |
| 状态估计偏差 | 马氏距离 | 信息内积 \(\Sigma^{-1}\) |
| 姿态误差(\(SO(3)\)) | 测地距离 | 李群左不变度量(第一层) |
本质洞察:当有人说"这个算法误差小",第一个该问的是"在什么度量下"。\(L^2\) 误差小不代表 \(L^\infty\)(最坏情况)小;欧氏误差小不代表马氏(统计显著性)小。度量即价值判断——你优化哪个范数,就声明了你认为"什么样的错误更不可接受"。§A2b.5′ 进一步警告:选 \(L^2\)(来自内积)才有正交投影闭式解,选 \(L^1\)(鲁棒但不来自内积)须迭代。
§A2b.R3 相关系数与一致性:Cauchy–Schwarz 的统计化身¶
§A2b.3 桥接已点出相关系数 \(\rho=\dfrac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}\) 就是 \(L^2\) 随机变量空间里的 Cauchy–Schwarz(保证 \(|\rho|\le 1\))。在机器人里这条不等式有三处直接用途:
- 传感器一致性检验:两路冗余传感器读数 \(X,Y\) 的相关系数接近 1 说明它们"看到同一信号",接近 0 说明独立或一路失效——这是故障检测(FDI)的统计基础。
- 观测信息量:\(\rho^2\)(决定系数)量化"一个观测能解释目标多少方差",对应 §A2b.6 Bessel 不等式的"保留能量比"。
- 退化预警:当雅可比两列的"相关系数"(归一化内积)趋近 1,即将奇异(§A2b.R7),等号成立条件(线性相关,§A2b.3.1)正是退化的数学定义。
本质洞察:Cauchy–Schwarz 的等号刻画"线性相关时取等"在统计、几何、数值三个层面是同一件事——相关系数饱和、向量共线、矩阵退化。一条不等式串起三个领域的"临界现象"。
§A2b.R6 动态一致伪逆:能量内积下的伴随与投影¶
冗余机器人(关节数 > 任务维度)的逆运动学有无穷多解,"动态一致伪逆" \(J^+_M=M^{-1}J^{\mathsf T}(JM^{-1}J^{\mathsf T})^{-1}\) 选出"最小动能"的那个。它是 §A2b.11 加权最小二乘 + §A2b.16 能量度量伴随的合体:
- 约束 \(\dot x=J\dot q\) 给定时,最小化动能 \(\frac12\dot q^{\mathsf T}M\dot q\)(即能量内积下的范数平方);
- 解是 \(\dot q=J^+_M\dot x\),残余自由度落在 \(\ker J\)(零空间),可叠加零空间运动 \((I-J^+_MJ)\dot q_0\) 完成次级任务(避障、避奇异)。
注意这里的 \(J^{\mathsf T}\) 与 \(M^{-1}\) 缠在一起——正是因为伴随在能量内积下不是裸转置而是 \(M\)-加权(§A2b.16 故障 4)。这是 §A2b 开篇"场景二"承诺根治的混淆点。
§A2b.R7 SVD 与可操作度椭球:奇异值即椭球半轴¶
雅可比 \(J\) 的 SVD(§A2c 将证)\(J=U\Sigma V^*\) 给出"可操作度椭球":单位关节速度球 \(\{\dot q:\|\dot q\|=1\}\) 经 \(J\) 映射成末端速度椭球,其半轴长正是奇异值 \(\sigma_i\)。
- 奇异值趋零 \(\Rightarrow\) 椭球某轴压扁 \(\Rightarrow\) 奇异构型(某方向末端速度产生不了),对应 §A2b.3 桥接"雅可比某两列线性相关";
- 条件数 \(\sigma_{\max}/\sigma_{\min}\) 衡量"灵巧度",越接近 1 越各向同性(运动越灵活);
- SVD 的四组奇异向量正是四个基本子空间(§A2b.15)的标准正交基。
这把 §A2b.6 标准正交基、§A2b.15 四子空间、§A2b.17 正规算子全部兑现成"看得见的椭球"。
§A2b.R8 最小二乘三范式与平方根滤波:投影的递归化¶
§A2b.11 桥接给出了 OLS/WLS/Kalman 三范式"只差内积选择"的统一表。这里补上它们如何从"一次性投影"升级为"递归投影"——这是实时机器人估计的关键:
- 批量最小二乘(batch):一次性解 \(\min\|Ax-b\|^2\),适合离线建图(全局 BA)。
- 递归最小二乘(RLS):每来一个新观测,用矩阵求逆引理增量更新解,避免重解整个系统——对应 §A2b.7 新息正交化(把新观测正交于历史)。
- 平方根信息滤波(SRIF)/ 平方根 SAM:维护信息矩阵 \(\Lambda=A^*A\) 的 Cholesky/QR 因子 \(R\)(\(\Lambda=R^*R\))而非 \(\Lambda\) 本身,把条件数从 \(\kappa^2\) 压回 \(\kappa\)(§A2b.7、§A2b.11 故障 2)。iSAM 用 Givens 旋转增量更新 \(R\),每个新测量只做局部正交变换。
理论-工程桥接:从"批量投影"到"递归 + 平方根"的演进,本质是把 §A2b.11 的正交投影**在线化、数值稳健化**。平方根形式的深刻之处:它永远操作 \(R\)(信息的"平方根"),保证 \(\Lambda=R^*R\) 自动半正定(避免数值误差让协方差出现负特征值这一经典灾难)。这是 §A2b.7 QR 分解"正交 + 三角"范式在估计领域最重要的落地。
§A2b.R9 旋转群 \(SO(3)\):保内积变换的工程化身¶
旋转矩阵 \(R\in SO(3)\) 是 §A2b.17 正交算子的最重要实例:\(R^{\mathsf T}R=I\) 即"保内积",几何上"旋转不改变长度和角度"。由此:
- \(R^{-1}=R^{\mathsf T}\)(逆等于转置)——这不是巧合,是正交性的定义性质(§A2b.17.4);
- \(R\) 的特征值是 \(\{1,e^{i\theta},e^{-i\theta}\}\),实特征值 1 对应**转轴**(旋转下不变方向),\(\theta\) 是转角;
- 保内积 \(\Rightarrow\) 保 Gram 矩阵 \(\Rightarrow\) 点云配准的 Kabsch 算法用极分解/SVD 从对应点对提取最优 \(R\)(§A2c)。
\(SO(3)\) 是第一层李群内容的核心,本章的"正交算子 = 保内积刚性变换"是它的代数地基。
理论-工程桥接(应用线总览):把 §A2b.R 串起来看,内积几何的工程兑现是一条清晰的链——选内积(R1)决定度量 → 加权最小二乘/伴随(R6)解冗余与估计 → SVD/椭球(R7)诊断构型与灵巧度 → 正交群(R9)刻画旋转。这条链覆盖了机器人运动学、动力学、状态估计、感知配准的数学内核。A2b 不是抽象的代数练习,而是这四大支柱的共同地基。
本章常见误解汇总¶
下表汇总贯穿全章最容易出错的 10 个误解。它们大多源于"把特例当普遍""忽略复共轭""混淆需不需要度量"三类思维惯性。
| # | 常见误解 | 正确理解 | 对应节 |
|---|---|---|---|
| 1 | 内积就是点积 \(\sum x_iy_i\) | 点积是内积的一个例子;内积是满足三公理的任何运算,可加权、可在函数/矩阵空间上定义 | §A2b.1 |
| 2 | 复内积也是对称的 \(\langle u,v\rangle=\langle v,u\rangle\) | 复内积**共轭对称** \(\langle u,v\rangle=\overline{\langle v,u\rangle}\);共轭是正定性的守护者 | §A2b.1 |
| 3 | 所有范数都来自内积 | 仅满足平行四边形恒等式的范数来自内积(Jordan–von Neumann);\(\ell^1,\ell^\infty\) 不来自内积 | §A2b.5′ |
| 4 | 正交就是线性无关 | 正交 ⟹ 线性无关(单向);线性无关一般不正交 | §A2b.6 |
| 5 | Fourier 系数 \(c_i=\langle x,e_i\rangle\) 对任意基成立 | 仅对**标准正交基**;一般基要解 Gram 方程组 | §A2b.6 |
| 6 | 代数补和正交补一样 | 代数补不唯一(无穷多),正交补唯一(垂直条件锁定);只有正交补给唯一投影 | §A2b.10 |
| 7 | "最近"和"垂直"是两件事 | 内积空间中严格等价(最佳逼近定理,Pythagoras 一步打通) | §A2b.11 |
| 8 | 直接解法方程 \(A^*Ax=A^*b\) | 条件数平方 \(\kappa^2\),病态放大;应用 QR/Cholesky 把条件数降回 \(\kappa\) | §A2b.11 |
| 9 | 伴随、对偶、转置是同一个 \(A^{\mathsf T}\) | 仅在"实 + 标准正交基"巧合下相同;对偶不需度量,伴随随内积变 | §A2b.16 |
| 10 | 自伴和酉是并列两类 | 自伴 \(\subseteq\) 正规、酉 \(\subseteq\) 正规;正规是最大类,可酉对角化 \(\neq\) 普通可对角化 | §A2b.17 |
本章小结¶
一句话总览¶
A2b 做了一件事:给裸向量空间装上"内积"这台度量仪器,由此派生出长度、角度、正交、投影、最佳逼近五层几何结构(主干 §1–11),再用 Riesz 定理生出伴随算子,揭示四个基本子空间与三类特殊算子(支线二 §12–17),为 §A2c 的谱定理、SVD、极分解备齐全部前置。 贯穿全程的工程主线是:内积的选择决定度量,度量决定"误差/最优"的含义,最小二乘 = 正交投影 = 卡尔曼滤波的几何母体。
符号表¶
| 符号 | 含义 | 首次出现 |
|---|---|---|
| \(\langle u,v\rangle\) | 内积(第一变量线性,第二变量共轭线性) | §A2b.1 |
| \(\|v\|=\sqrt{\langle v,v\rangle}\) | 诱导范数 | §A2b.2 |
| \(u\perp v\) | 正交(\(\langle u,v\rangle=0\)) | §A2b.2 |
| \(d(u,v)=\|u-v\|\) | 诱导度量(距离) | §A2b.4 |
| \(\langle\cdot,\cdot\rangle_M=x^{\mathsf T}My\) | 加权/能量内积(\(M\) 对称正定) | §A2b.1 |
| \(\delta_{ij}\) | Kronecker delta(标准正交条件) | §A2b.6 |
| \(\{e_i\}\), ONB | 标准正交集 / 标准正交基 | §A2b.6 |
| \(P_W\) | 到子空间 \(W\) 的正交投影 | §A2b.11 |
| \(W^\perp\) | 正交补(垂直于 \(W\) 的子空间,需内积) | §A2b.9 |
| \(W^\circ\) | 零化子(消灭 \(W\) 的泛函,\(\subseteq V^*\),不需内积) | A2a / §A2b.9 |
| \(A^+=(A^*A)^{-1}A^*\) | (左)Moore–Penrose 伪逆 | §A2b.11 |
| \(\Phi:V^*\to V\) | Riesz 映射(共轭线性同构) | §A2b.12 |
| \(T^*\) | 伴随算子(\(\langle Tv,w\rangle=\langle v,T^*w\rangle\),需内积) | §A2b.14 |
| \(T^t\) | 对偶/转置映射(\((T^t\psi)(v)=\psi(Tv)\),不需内积) | A2a / §A2b.16 |
| \(A^*=\bar A^{\mathsf T}\) | 共轭转置(标准正交基下的伴随矩阵) | §A2b.15 |
| \(\Lambda=A^*A\) | 信息矩阵 / Gram 矩阵 | §A2b.11, §A2b.15 |
术语速查表(中英对照)¶
本章主参考教材(Axler、Halmos、Strang、Roman)与机器人估计文献(Kailath、Dellaert、Barfoot)全部为英文。下表把每个核心概念锁定到**标准英文术语**,并给出一句"最易混淆点"提示,方便对照原著与论文检索。术语在正文首次出现处均已标中英对照(R7),此处汇总速查。
| 中文术语 | 英文术语 | 一句话辨析(最易混淆点) | 对应节 |
|---|---|---|---|
| 内积 | inner product | 复情形是 sesquilinear(一线性一共轭线性),不是双线性 | §A2b.1 |
| 共轭对称 | conjugate symmetry / Hermitian symmetry | \(\langle u,v\rangle=\overline{\langle v,u\rangle}\);实情形退化为对称 | §A2b.1 |
| 正定 | positive-definite | \(\langle v,v\rangle>0\)(\(v\ne0\));矩阵判据为主子式全正 | §A2b.1 |
| 加权 / 能量内积 | weighted / energy inner product | \(\langle x,y\rangle_M=x^{\mathsf T}My\),\(M\) 须对称正定;马氏距离的源头 | §A2b.1 |
| 诱导范数 | induced / canonical norm | \(\|v\|=\sqrt{\langle v,v\rangle}\);并非所有范数都被诱导 | §A2b.2 |
| 平行四边形恒等式 | parallelogram law | 范数"来自内积"的充要指纹(Jordan–von Neumann) | §A2b.5′ |
| 极化恒等式 | polarization identity | 从范数还原内积;复情形四项带 \(i^k\) | §A2b.5 |
| 标准正交基 | orthonormal basis (ONB) | Fourier 系数 \(\langle x,e_i\rangle\) 仅对 ONB 成立 | §A2b.6 |
| 格拉姆–施密特正交化 | Gram–Schmidt process | 数值上用 MGS(修正版),CGS 病态时失正交 | §A2b.7 |
| QR 分解 | QR decomposition | \(A=QR\);最小二乘的数值引擎,避开法方程平方条件数 | §A2b.7 |
| 格拉姆矩阵 | Gram matrix | \(G_{ij}=\langle v_i,v_j\rangle\);其行列式 = 平行体体积平方 | §A2b.7 |
| 正交补 | orthogonal complement | \(W^\perp\) 唯一(需内积),区别于不唯一的代数补 | §A2b.9 |
| 零化子 | annihilator | \(W^\circ\subseteq V^*\),消灭 \(W\) 的泛函;不需要内积 | §A2b.9 |
| 正交分解 | orthogonal decomposition | \(V=W\oplus W^\perp\);唯一的垂直分解 | §A2b.10 |
| 正交投影 | orthogonal projection | \(P_W\) 自伴幂等;= 最佳逼近(最近点) | §A2b.11 |
| 最佳逼近 | best approximation | 在内积空间中严格 ⟺ 残差正交于子空间 | §A2b.11 |
| 最小二乘 | least squares | 法方程 \(A^*Ax=A^*b\);几何上即正交投影 | §A2b.11 |
| 法方程 | normal equations | "normal"指残差**法向**(正交)于列空间,非"正规算子" | §A2b.11 |
| 伪逆 | (Moore–Penrose) pseudoinverse | \(A^+=(A^*A)^{-1}A^*\)(列满秩);§A2c 用 SVD 推广 | §A2b.11 |
| 正交性原理 | orthogonality principle | 估计误差 \(\perp\) 观测;Kalman 滤波的几何核心 | §A2b.11 |
| 里斯表示定理 | Riesz representation theorem | 每个泛函 = 唯一向量的内积;映射 \(\Phi\) 是共轭线性同构 | §A2b.12 |
| 伴随算子 | adjoint operator | \(\langle Tv,w\rangle=\langle v,T^*w\rangle\);随内积而变 | §A2b.14 |
| 对偶 / 转置映射 | dual / transpose map | \(T^t\) 作用在 \(V^*\) 上,不需要内积;勿与伴随混用 | §A2b.16 |
| 共轭转置 | conjugate transpose / Hermitian adjoint | \(A^*=\bar A^{\mathsf T}\);仅在 ONB 下等于伴随矩阵 | §A2b.15 |
| 四个基本子空间 | four fundamental subspaces | \(\ker T=(\operatorname{im}T^*)^\perp\) 等两对正交;可观/可控的代数核心 | §A2b.15 |
| 规范自由度 | gauge freedom | 落在 \(\ker A\) 的不可观方向;单目 SLAM 典型 7 维 | §A2b.15 |
| 自伴 / 埃尔米特 | self-adjoint / Hermitian | \(T=T^*\);实特征值 + 正交特征向量(谱定理前置) | §A2b.17 |
| 正规算子 | normal operator | \(T^*T=TT^*\);可酉对角化的最大类 | §A2b.17 |
| 酉 / 正交算子 | unitary / orthogonal operator | 保内积 ⟺ 保范;\(SO(3)\) 是其实例 | §A2b.17 |
| 信息矩阵 | information matrix | \(\Lambda=A^*A\);其奇异 ⟺ 存在规范自由度 | §A2b.11, §A2b.15 |
定理速查表¶
| 定理 / 公式 | 一句话说明 | 对应节 |
|---|---|---|
| 复内积共轭对称 | 共轭是正定性的守护者,让 \(\langle v,v\rangle\ge 0\) | §A2b.1 |
| 展开恒等式 \(\|u+v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2\) | 全任务主力代数工具 | §A2b.2 |
| Cauchy–Schwarz \(\lvert\langle u,v\rangle\rvert\le\|u\|\|v\|\) | 夹角可定义的保证;三种证明(几何/变分/代数) | §A2b.3 |
| 三角不等式 | 由 Cauchy–Schwarz 推出,范数自洽的最低要求 | §A2b.4 |
| 平行四边形恒等式 | 范数来自内积的指纹(充要,Jordan–von Neumann) | §A2b.5, 5′ |
| 极化恒等式 | 从范数唯一还原内积 | §A2b.5 |
| 正交集线性无关 | "内积探针"\(\langle\cdot,e_j\rangle\) 提取分量 | §A2b.6 |
| Bessel / Parseval | 投影能量界 / 标准正交基下范数 = 系数平方和 | §A2b.6 |
| Gram–Schmidt → QR | 任意基正交化;\(A=QR\)(\(Q\) 正交、\(R\) 上三角) | §A2b.7 |
| 正交分解 \(V=W\oplus W^\perp\) | 唯一的几何垂直分解 | §A2b.10 |
| 最佳逼近定理 | 正交投影 = 最近点(Pythagoras) | §A2b.11 |
| 法方程 \(A^*Ax=A^*b\) | 最小二乘解;残差 \(\perp\) 列空间 | §A2b.11 |
| 正交性原理 | 估计误差 \(\perp\) 观测;Kalman 的几何核心 | §A2b.11 |
| Riesz 表示 \(\varphi(v)=\langle v,u\rangle\) | 每个泛函由唯一向量代表(典范 \(V\cong V^*\)) | §A2b.12 |
| \(\Phi(W^\circ)=W^\perp\) | 正交补 = 零化子的 Riesz 像 | §A2b.13 |
| 伴随存在唯一 \(\langle Tv,w\rangle=\langle v,T^*w\rangle\) | Riesz 逐点应用 + 线性验证 | §A2b.14 |
| 四个基本子空间 \(\ker T=(\operatorname{im}T^*)^\perp\) | Strang 正交配对;可观/可控的代数核心 | §A2b.15 |
| \(T^*=\Phi_V T^t\Phi_W^{-1}\) | 伴随 = Riesz 翻译过的对偶;伴随随度量变 | §A2b.16 |
| 自伴 ⟹ 实特征值 + 正交特征向量 | 谱定理前置 | §A2b.17 |
| 酉/正交 ⟺ 保内积 ⟺ 保范 | 刚性变换;\(SO(3)\) 的母体 | §A2b.17 |
知识点总表¶
| 编号 | 知识点 | 核心要点 | 对应节 | 难度 |
|---|---|---|---|---|
| 1 | 内积公理 | 实:双线性对称正定;复:共轭对称 | §A2b.1 | ⭐⭐ |
| 2 | 诱导范数 | \(\|v\|=\sqrt{\langle v,v\rangle}\),展开恒等式 | §A2b.2 | ⭐⭐ |
| 3 | Cauchy–Schwarz | 三种证明,变分证明 = 一维最小二乘 | §A2b.3 | ⭐⭐⭐ |
| 4 | 三角不等式 + 度量 | 内积→范数→距离→度量空间链 | §A2b.4 | ⭐⭐ |
| 5 | 平行四边形 / 极化 | 范数↔内积互还原 | §A2b.5 | ⭐⭐ |
| 5′ | Jordan–von Neumann | 平行四边形律是来自内积的充要条件 | §A2b.5′ | ⭐⭐⭐⭐ |
| 6 | 正交集 / 标准正交基 | Fourier 系数、Bessel、Parseval | §A2b.6 | ⭐⭐ |
| 7 | Gram–Schmidt / QR | 构造标准正交基;QR 是最小二乘数值引擎 | §A2b.7 | ⭐⭐⭐ |
| 8 | ONB 存在与扩充 | 算法即存在性证明;正交向外生长 | §A2b.8 | ⭐⭐ |
| 9 | 正交补 \(W^\perp\) | 唯一垂直补;与零化子 \(W^\circ\) 对照 | §A2b.9 | ⭐⭐⭐ |
| 10 | 正交分解 | \(V=W\oplus W^\perp\) 唯一;双重正交补 | §A2b.10 | ⭐⭐⭐ |
| 11 | 正交投影 / 最小二乘 | 最佳逼近 = 投影 = 法方程;Kalman 桥 | §A2b.11 | ⭐⭐⭐ |
| 12 | Riesz 表示 | 泛函 = 向量;伴随的钥匙 | §A2b.12 | ⭐⭐⭐ |
| 13 | \(W^\perp\leftrightarrow W^\circ\) | Riesz 缝合对偶与几何 | §A2b.13 | ⭐⭐⭐ |
| 14 | 伴随存在唯一 | Riesz 逐点应用 | §A2b.14 | ⭐⭐⭐ |
| 15 | 伴随性质 / 四子空间 | 共轭转置(仅 ONB);Strang 正交配对 | §A2b.15 | ⭐⭐⭐ |
| 16 | 伴随 vs 对偶 | 五种 adjoint;伴随随度量变,对偶不变 | §A2b.16 | ⭐⭐⭐⭐ |
| 17 | 算子分类 | 自伴/正规/酉;谱定理/SVD 前置 | §A2b.17 | ⭐⭐⭐ |
🔧 故障排查手册¶
本章以推导为主,"故障"主要表现为**推导卡壳**、结论自相矛盾**或**把数学结论错误地映射到工程。下表给出 7 个高频故障的结构化排查路径。
故障 1:证明里冒出 \(\langle v,v\rangle<0\) 或长度为负¶
| 项目 | 内容 |
|---|---|
| 症状 | 计算"长度平方"得到负数,或 \(\cos\theta\) 落在 \([-1,1]\) 外 |
| 可能原因 | (a) 用了非正定的"内积"(如闵可夫斯基 \(\operatorname{diag}(1,-1)\));(b) 复空间漏了共轭,把 \(\langle iv,iv\rangle\) 算成 \(-\langle v,v\rangle\) |
| 排查步骤 | ① 检查所用"内积"是否满足正定性公理(实:\(M\) 对称正定?复:Hermitian 正定?);② 复情况逐项核对第二变量是否带共轭;③ 用 §A2b.1 例 5 的判据(主子式全正)验证 \(M\) |
| 相关节 | §A2b.1(正定性)、§A2b.1 例 5、§A2b.3.4(复情况 rotation trick) |
故障 2:最小二乘解严重失准 / 数值发散¶
| 项目 | 内容 |
|---|---|
| 症状 | 解出的 \(\hat x\) 与真值偏差巨大,或迭代不收敛,小扰动导致解剧变 |
| 可能原因 | (a) 直接解法方程 \(A^*Ax=A^*b\),条件数被平方(\(\kappa^2\));(b) \(A\) 列相关/接近相关(构型退化),\(A^*A\) 奇异或病态;(c) 存在异常值,\(L^2\) 被拉偏 |
| 排查步骤 | ① 改用 QR(\(R\hat x=Q^*b\))或 SVD,条件数降回 \(\kappa\);② 算 \(A\) 的最小奇异值,接近 0 说明秩亏 → 加正则化(阻尼最小二乘 \((A^*A+\lambda I)^{-1}A^*\));③ 检查残差分布,重尾 → 换 Huber/Cauchy 鲁棒核或 RANSAC |
| 相关节 | §A2b.7(QR)、§A2b.11(法方程、阻尼)、§A2b.5′(鲁棒范数不来自内积) |
故障 3:Gram–Schmidt 输出的"正交基"不正交¶
| 项目 | 内容 |
|---|---|
| 症状 | 算出的 \(Q\) 满足 \(Q^*Q\) 明显偏离单位阵 |
| 可能原因 | (a) 用经典 Gram–Schmidt(CGS)处理近共线列,舍入误差累积;(b) 输入向量线性相关,某 \(u_k\approx 0\),单位化放大噪声 |
| 排查步骤 | ① 换修正 Gram–Schmidt(MGS)或 Householder/Givens;② 检查输入是否线性无关(算秩);③ 监控每步 \(\|u_k\|\),过小说明该向量几乎落在前驱张成空间 |
| 相关节 | §A2b.7.4(CGS vs MGS)、§A2b.7 陷阱 |
故障 4:把"伴随"和"对偶/转置"用混,量纲或维度出错¶
| 项目 | 内容 |
|---|---|
| 症状 | 静力学 \(\tau=J^{\mathsf T}F\) 加了质量矩阵后量纲错;或加权内积下伴随算错;或复空间漏共轭 |
| 可能原因 | (a) 把对偶 \(J^t\)(不需度量)当伴随 \(J^*\)(需度量)加权;(b) 非标准正交基下用 \(\bar A^{\mathsf T}\) 当伴随,漏 Gram 因子;(c) 复空间用 \(A^{\mathsf T}\) 当伴随漏共轭 |
| 排查步骤 | ① 先问"这个转置来自什么":功率配对 → 对偶 \(J^t\)(不加权);最小动能/加权最小二乘 → 伴随(加权);② 非正交基下伴随 = \(G^{-1}A^*G\);③ 复空间伴随务必共轭转置 |
| 相关节 | §A2b.15.2(矩阵表示限定)、§A2b.16(五种 adjoint、统一公式) |
故障 5:SLAM/估计的信息矩阵奇异,优化无唯一解¶
| 项目 | 内容 |
|---|---|
| 症状 | 信息矩阵 \(\Lambda=A^*A\) 不可逆,求解器报"奇异"或解漂移 |
| 可能原因 | 存在规范自由度(gauge freedom):整体平移/旋转/尺度不改变相对观测,落在 \(\ker A\)(四个基本子空间的零空间) |
| 排查步骤 | ① 算 \(\ker A\) 的维数(单目 SLAM 典型为 7:3 平移 + 3 旋转 + 1 尺度);② 固定第一帧位姿 / 加先验 / 零空间投影来补充缺失信息;③ 用 §A2b.15 语言确认"被固定的方向恰好张成 \(\ker A\)" |
| 相关节 | §A2b.15.3(四个基本子空间、可观性)、§A2b.11(加先验 = 正则化) |
故障 6:极化 / 平行四边形恒等式用在不该用的地方¶
| 项目 | 内容 |
|---|---|
| 症状 | 在 \(L^1\)/\(L^\infty\) 或鲁棒估计里套用平行四边形恒等式、正交投影,得到错误结论 |
| 可能原因 | 误以为所用范数来自内积,实际不满足平行四边形律(Jordan–von Neumann 判据失败) |
| 排查步骤 | ① 用平行四边形恒等式检验该范数是否来自内积(取两个简单向量验证);② 若不来自内积,放弃正交投影/最佳逼近闭式解,改用迭代优化;③ 复情况极化务必用四项(带 \(i^k\)) |
| 相关节 | §A2b.5(极化、平行四边形)、§A2b.5′(Jordan–von Neumann) |
故障 7:自伴/对称矩阵求出复特征值,或对角化矩阵非正交¶
| 项目 | 内容 |
|---|---|
| 症状 | 对称协方差/惯量矩阵算出复特征值;或以为"可对角化"就有正交特征基 |
| 可能原因 | (a) 矩阵实际不对称(数值上未对称化,\(A\ne A^{\mathsf T}\));(b) 混淆"可对角化"(特征向量线性无关)与"可酉对角化"(特征向量正交,要求正规) |
| 排查步骤 | ① 强制对称化 \(\frac12(A+A^{\mathsf T})\) 后再求特征值(自伴定理保证实);② 确认算子是否正规(\(A^*A=AA^*\))才能期待正交特征基;③ 普通可对角化不保证正交,需 Gram–Schmidt 或直接用谱定理(§A2c) |
| 相关节 | §A2b.17.3(自伴实特征值)、§A2b.17 陷阱(正规 vs 可对角化) |
累积项目:本章新增模块¶
数学地基层的累积项目是"手写一个最小可用的状态估计内核",逐任务增砖加瓦。A2b 贡献"线性最小二乘 + 正交几何"模块。
本章新增(建议在草稿纸 + 少量数值验证脚本上完成,理论教学不强制编程):
- 线性最小二乘求解器(几何版):实现"给定 \(A,b\),用 QR(手写 MGS)求 \(\min\|Ax-b\|^2\)",对比直接解法方程的数值精度差异(构造一个病态 \(A\),观察 \(\kappa^2\) 放大)。
- 正交投影可视化:在 \(\mathbb{R}^3\) 中取一个平面 \(W\),把若干点正交投影到 \(W\),验证"残差 \(\perp\) \(W\)"与"投影是最近点"。
- 正交性原理小实验:模拟标量卡尔曼更新(§A2b.11 练习 3),数值验证"新息与后验误差正交",并画出协方差随观测下降的 Pythagoras 关系。
- 四个基本子空间报告:对一个小矩阵 \(A\),算出四个基本子空间的基,验证两对正交关系,并解释若 \(A\) 是某 SLAM 雅可比,\(\ker A\) 对应什么规范自由度。
这些模块将在 §A2c(谱定理/SVD)升级为"用 SVD 做伪逆、用谱分解做不确定性椭球",最终在状态估计专题里拼成完整的 EKF/因子图后端。
延伸阅读¶
教材(按难度):
- ⭐⭐ Strang, Introduction to Linear Algebra(第 4 章四个基本子空间、第 5 章正交性)——最直观的"四子空间正交图"讲法,机器人读者首选的几何直觉来源。
- ⭐⭐⭐ Axler, Linear Algebra Done Right (4th ed, 2024)(第 6–7 章)——本章主线,内积、Gram–Schmidt、Riesz、伴随、谱前置的现代标准讲法,避开行列式。
- ⭐⭐⭐ Hoffman & Kunze, Linear Algebra (2nd ed)(第 8–9 章)——伴随的逐点定义最严格,复化技巧细致。
- ⭐⭐⭐⭐ Halmos, Finite-Dimensional Vector Spaces——抽象最简,非构造性 Riesz,适合二刷追求"为什么"的读者。
- ⭐⭐⭐⭐ Roman, Advanced Linear Algebra (GTM 135)——Riesz 与对偶的范畴论连接,\(T^*\) 与 \(T^t\) 关系讲得最透。
机器人 / 估计方向:
- ⭐⭐⭐ Kailath, Sayed & Hassibi, Linear Estimation——把 Kalman 滤波讲成 \(L^2\) Hilbert 空间正交投影的权威,§A2b.11 桥接的完整展开。
- ⭐⭐⭐ Dellaert & Kaess, Factor Graphs for Robot Perception(Foundations and Trends, 2017)——平方根 SAM、iSAM,QR/Cholesky 在 SLAM 后端的工程化(§A2b.7 桥接)。
- ⭐⭐⭐ Lynch & Park, Modern Robotics(第 3、5 章)——twist/wrench 对偶、雅可比转置 \(J^{\mathsf T}F\) 的力学(§A2b.16 对偶 vs 伴随)。
- ⭐⭐⭐⭐ Barfoot, State Estimation for Robotics——把内积几何、矩阵分解与机器人估计系统整合。
论文 / 经典:
- Kalman (1960), "A New Approach to Linear Filtering and Prediction Problems"——卡尔曼原文,正交投影视角的源头。
- Riesz (1907) / Fréchet (1907)——Riesz 表示定理原始文献(泛函分析诞生标志)。
- Jordan & von Neumann (1935), "On Inner Products in Linear, Metric Spaces", Ann. Math.——平行四边形律充要性的原始证明。
本章与后续章节的关系¶
| 后续章节 | 与本章的关系 | 本章哪个知识点为其铺垫 |
|---|---|---|
| §A2c 谱定理 | 自伴算子正交对角化的完整证明 | §A2b.17 自伴(实特征值、正交特征向量)、§A2b.8 扩充定理(归纳引擎) |
| §A2c SVD | 任意算子 \(T=U\Sigma V^*\) 的奇异值分解 | §A2b.15 四个基本子空间、§A2b.14 伴随、§A2b.17 正规 |
| §A2c 极分解 | \(T=U\lvert T\rvert\),\(\lvert T\rvert=\sqrt{T^*T}\) | §A2b.17 自伴正定、§A2b.11 投影 |
| §A2d Jordan 标准形 | 不可对角化算子的结构 | §A2b.17(对比:正规可对角化 vs 一般不可) |
| §A2e 张量积/外代数 | 多线性代数 | §A2b.1 双线性型、Gram 行列式(§A2b.7 练习 2) |
| 第一层 · 李群度量 | \(SO(3)/SE(3)\) 上的左不变度量、惯量张量 | §A2b.1 加权内积、§A2b.17 正交群(\(SO(3)\) 是保内积变换) |
| 状态估计专题 | EKF、因子图、平方根 SAM | §A2b.11 正交性原理(Kalman 几何核心)、§A2b.7 QR(平方根 SAM) |
| 机器人静力学/动力学 | \(\tau=J^{\mathsf T}F\)、动态一致控制 | §A2b.16 对偶 vs 伴随(哪个转置、要不要加权) |
研究实践建议¶
给初学者:
- 先吃透三条公理与"共轭守护正定性"(§A2b.1)。本章 90% 的复情况错误都源于漏共轭;把"看到共轭就问'它在守护什么正定性'"变成条件反射。
- 把"内积探针 \(\langle\cdot,e_j\rangle\) 提取第 \(j\) 分量"刻进肌肉记忆(§A2b.6)。Fourier 系数、Gram–Schmidt、Bessel、伴随存在性证明全用它,掌握它等于掌握半本书。
- 手推一遍标量卡尔曼更新(§A2b.11 练习 3)。这是"理论 → 工程"的最短路径,推完你会真正理解"Kalman 增益 = 投影系数"。
- 不要急于跳到 SVD。SVD 的所有零件(伴随、四子空间、正规、谱)都在本章,地基不牢 §A2c 必塌。
给有经验者:
- 重新审视你代码里的每一个
.T/.conj().T:它是对偶还是伴随?在什么内积下?是不是误用了标准内积?§A2b.16 的"三重巧合"清单值得对照自查。 - 检查最小二乘求解的数值路径:是否还在直接解法方程?换 QR/Cholesky 能立刻改善病态问题(§A2b.7、§A2b.11 桥接)。
- 从规范自由度角度复查 SLAM 信息矩阵的奇异性(§A2b.15.3):\(\ker A\) 的维数、固定方案是否恰好覆盖零空间。
- 理解"换内积 = 换问题":自然梯度、动态一致控制、马氏距离,本质都是"选了一个非标准内积",Riesz/伴随随之改变(§A2b.12、§A2b.16 桥接)。
高频深度问答(顿悟清单)¶
本章正文多处埋下"到这里你会顿悟"的伏笔。下面把贯穿全程、最容易反复困惑的四个"为什么"集中作答。它们不是新知识,而是把散落各节的洞察拧成一股绳。
Q1:伴随 \(T^*\) 不就是转置吗?为什么要分对偶 \(T^t\)、伴随 \(T^*\)、共轭转置 \(\bar A^{\mathsf T}\) 三个名字?
因为它们活在不同的舞台上。对偶 \(T^t\) 作用在**对偶空间** \(V^*\)(泛函)上,靠"先喂向量再求值"定义,完全不碰内积——A2a 就讲完了它。伴随 \(T^*\) 作用在**原空间** \(V\) 上,靠"内积配对相等"\(\langle Tv,w\rangle=\langle v,T^*w\rangle\) 定义,离了内积无法存在。共轭转置 \(\bar A^{\mathsf T}\) 只是一个**矩阵运算**。三者在"实数域 + 标准正交基"这一**三重巧合**下数值相同,于是初学时被误当成一个东西。
本质洞察:\(T^*=\Phi_V\,T^t\,\Phi_W^{-1}\)(§A2b.16)。伴随 = 用 Riesz 映射 \(\Phi\) 把对偶"翻译"回原空间。换内积就换了 \(\Phi\),于是同一个 \(T\) 的伴随 \(T^*\) 会变,但对偶 \(T^t\) 永不变。一旦看清这点,你代码里每个
.conj().T都该被追问:"它是对偶还是伴随?在哪个内积下?"
Q2:为什么复内积非要共轭对称?把它定义成普通对称 \(\langle u,v\rangle=\langle v,u\rangle\) 不行吗?
不行,会摧毁正定性这块地基。若复内积普通对称又线性,取 \(v\ne0\),则 \(\langle iv,iv\rangle=i\cdot i\,\langle v,v\rangle=-\langle v,v\rangle\),于是 \(v\) 和 \(iv\) 必有一个"长度平方"为负,\(\|v\|=\sqrt{\langle v,v\rangle}\) 直接崩溃。共轭对称让第二变量的标量带共轭出来,\(\langle iv,iv\rangle=i\bar i\langle v,v\rangle=|i|^2\langle v,v\rangle=\langle v,v\rangle\ge0\),正定性得以保全。
本质洞察:共轭是正定性的守护者(§A2b.1)。本章里 90% 的复情形错误(极化漏 \(i^k\)、伴随漏共轭、Cauchy–Schwarz 复版出错)都源于"看到复数没想起共轭"。把"见共轭就问'它在守护哪条正定性'"练成条件反射,复情形就不再可怕。
Q3:"最近"(最佳逼近)和"垂直"(正交投影)凭什么是同一件事?这听起来像两个独立的几何概念。
在内积空间里它们由 Pythagoras 一步焊死。设 \(p=P_Wx\) 是正交投影,\(w\in W\) 是任意点,则 \(x-w=(x-p)+(p-w)\),其中 \(x-p\perp W\)(投影的定义)而 \(p-w\in W\),两者正交,于是 \(\|x-w\|^2=\|x-p\|^2+\|p-w\|^2\ge\|x-p\|^2\),等号当且仅当 \(w=p\)。所以"垂直落点"就是"最近点",反之亦然。
本质洞察:这条等价是整条工程主线的总开关(§A2b.11)。最小二乘(残差 \(\perp\) 列空间 = 误差最小)、卡尔曼滤波(新息 \(\perp\) 后验误差 = 估计最优)、傅里叶逼近(截断 \(\perp\) 高频 = \(L^2\) 最佳),全是同一句"垂直即最近"在不同内积下的化身。脱离内积(如 \(L^1\)/\(L^\infty\))这条等价立刻失效,最佳逼近不再有闭式解——这正是 §A2b.5′ 强调"范数是否来自内积"的现实意义。
Q4:四个基本子空间的正交关系 \(\ker T=(\operatorname{im}T^*)^\perp\) 到底有什么用?看起来只是抽象的代数等式。
它是"可观测性/可控性"的代数核心,也是 SLAM 信息矩阵奇异的诊断器。\(\ker T\) 装着"被 \(T\) 抹平、观测不到"的方向,\(\operatorname{im}T^*\) 装着"\(T\) 真正能影响"的方向,两者正交互补意味着:任何向量都能唯一拆成"可观部分 + 不可观部分"。当 \(A^*A\)(信息矩阵)奇异,奇异方向恰好张成 \(\ker A\),对应物理上的规范自由度(如单目 SLAM 的 7 维相似变换)。
本质洞察:Strang 的四子空间图(§A2b.15)把"线性方程组有没有解、解唯不唯一"翻译成"两对正交子空间的维数账"。在机器人里它直接回答"我固定哪些自由度才能让优化有唯一解"——固定的方向必须恰好覆盖 \(\ker A\),多一维过约束、少一维仍奇异。这也是 §A2c 谱定理与 SVD 的入场券:SVD 的四块奇异向量正是这四个子空间的标准正交基。
结语:A2b 从"裸向量空间缺了长度和角度"出发,一路装上内积、范数、正交、投影、伴随,最终抵达"任意算子的四子空间正交结构"与"三类特殊算子"。回头看导航图(本章开头),主干"内积→范数→正交→投影"几何化了代数空间,支线一"正交→Gram–Schmidt→最佳逼近→最小二乘"建起了机器人状态估计的数学母体,支线二"Riesz→伴随→四子空间→算子分类"备齐了谱论的全部入场券。下一站 §A2c,这些零件将组装成谱定理、SVD、极分解——机器人感知与估计的三大数值引擎。带着本章建立的几何直觉前进:你看到的不再是公式,而是 Hilbert 空间里向量的投影、旋转与分解。