内积空间与伴随算子¶

前置依赖：A2a（向量空间、线性变换、对偶空间 $V^*$、对偶映射 $T^t$、零化子 $W^\circ$、直和分解、维数理论） 后继章节：A2c（谱定理、SVD、极分解）、A2d（极小多项式与 Jordan 标准形）、A2e（张量积、外代数、行列式）

约定与符号惯例¶

项目	本课程选择	说明
域	$F = \mathbb{R}$ 或 $\mathbb{C}$	内积空间只在这两个域上讨论（需要"正定"与"共轭"）
内积线性位置	第一变量线性，第二变量共轭线性	数学惯例（Axler/Hoffman-Kunze/Friedberg/Roman/Halmos/Lang/Rudin 七大教材全部如此）
内积记号	$\langle u, v\rangle$	物理 Dirac 惯例 $\langle u\mid v\rangle$ 第二变量线性，给出对照表（§A2b.1.3）
伴随符号	$T^*$ 为正式名称	物理/机器人文献常用 $T^\dagger$，作并用提醒
对偶映射	$T^t$（来自 A2a）	与伴随 $T^*$ 严格区分（§A2b.16）
共轭转置	$A^* = \bar A^{\mathsf T}$	实矩阵退化为转置 $A^{\mathsf T}$

Notation 警告（读者最易踩的第一个坑）：本课程中 $T^*$（伴随，需要内积）与 $T^t$（对偶/转置，不需要内积）是**两个不同的对象**。它们只在"实数域 + 标准正交基"这一三重巧合下矩阵相同。A2a 已经讲过 $T^t$，本章讲 $T^*$，§A2b.16 专门讲它们的区别。如果你现在觉得"它们不就是转置吗"，请记住这句话，到 §A2b.16 时它会变成"顿悟时刻"。

主参考教材排序¶

书	缩写	在本章中的定位
Axler, Linear Algebra Done Right (4th ed, 2024)	[Axler]	主线：内积、Gram-Schmidt、Riesz、伴随、谱前置的现代标准讲法
Friedberg/Insel/Spence, Linear Algebra (5th ed)	[FIS]	补充例题与计算
Hoffman & Kunze, Linear Algebra (2nd ed, 1971)	[HK]	经典严格性，伴随的逐点定义最细
Roman, Advanced Linear Algebra (GTM 135, 3rd ed)	[Roman]	高阶视角：Riesz 与对偶的范畴论连接
Halmos, Finite-Dimensional Vector Spaces (1958)	[Halmos]	抽象最简，非构造性 Riesz 证明
Greub, Linear Algebra (GTM 23, 4th ed)	[Greub]	实/复分别处理，复化技巧
Lang, Algebra (GTM 211, Ch. V)	[Lang]	对偶与内积的连接

机器人方向补充参考：Strang《线性代数及其应用》（四个基本子空间）、Kailath-Sayed-Hassibi《Linear Estimation》（Kalman 的正交投影解释）、Lynch-Park《Modern Robotics》（twist/wrench 对偶）、Dellaert-Kaess《Factor Graphs for Robot Perception》（平方根 SAM）。

本章知识导航¶

在深入推导之前，先看清整片森林。A2b 要解决的根本问题只有一句话：A2a 给了我们没有"长度"和"角度"的裸向量空间，现在我们要给它装上"内积"这一台度量仪器，看看会派生出多少几何结构。

整个 A2b 由一条主干和两条支线构成。主干是"内积 → 范数 → 正交 → 投影"，它把代数空间几何化；第一条支线是"正交 → Gram-Schmidt → 正交分解 → 最佳逼近 → 最小二乘"，这是机器人状态估计的数学母体；第二条支线是"Riesz 表示 → 伴随算子 → 四个基本子空间 → 算子分类"，这是谱定理与 SVD 的入场券。

═══ 主干：度量结构的引入 (§A2b.1 – §A2b.5) ═══
§A2b.1  内积公理（实/复）
   └─→ §A2b.2  由内积诱导的范数
         ├─→ §A2b.3  Cauchy–Schwarz 不等式（三种证明）
         │     └─→ §A2b.4  三角不等式 → 度量空间
         └─→ §A2b.5  平行四边形恒等式 / 极化恒等式
               └─→ §A2b.5′ Jordan–von Neumann 定理（哪些范数来自内积）🟣
    ↓
═══ 支线一：正交与逼近 (§A2b.6 – §A2b.11) ═══
§A2b.6  正交性、正交集、标准正交集
   ├─→ §A2b.7  Gram–Schmidt 正交化 → QR 分解
   │     └─→ §A2b.8  标准正交基的存在性
   └─→ §A2b.9  正交补 W⊥
         ├─→ §A2b.10 正交分解 V = W ⊕ W⊥
         │     └─→ §A2b.11 正交投影与最佳逼近 → 最小二乘法方程
         ↓
═══ 支线二：Riesz、伴随与算子分类 (§A2b.12 – §A2b.17) ═══
§A2b.12 Riesz 表示定理
   ├─→ §A2b.13 V ≅ V* 的共轭线性同构 → W⊥ ↔ W° 的对应 🟣
   └─→ §A2b.14 伴随算子 T* 的存在唯一性
         ├─→ §A2b.15 T* 的代数性质、矩阵表示、四个基本子空间
         ├─→ §A2b.16 伴随 T* 与对偶 T^t 的区分（五种"adjoint"）
         └─→ §A2b.17 算子类：自伴、正规、酉/正交
                                  └─→ 接口 §A2c（谱定理、SVD）

推荐阅读路径：

主干优先（首读）：§A2b.1 → 2 → 3 → 4 → 6 → 7 → 9 → 10 → 11 → 12 → 14 → 15 → 17。这条线串起"内积—正交—投影—最小二乘—伴随—算子分类"，读完即可进入 §A2c。
进阶补全（二读）：§A2b.5′（Jordan–von Neumann）、§A2b.13（$W^\perp\leftrightarrow W^\circ$）。这两节标 🟣，跳过不影响主线。
机器人动机线（贯穿）：每个主节末尾的"应用视角"小方框（§A2b.R1–R8），可在首读时略过，二读时回填。

注意：导航路线图只展示**结构**，不展开具体内容。每个箭头代表"下游节的证明依赖上游节"。

前置知识桥接¶

A2a 留给我们的三件遗产，是理解本章的全部前提。这里用 2-3 行各重述一次，让你不必翻回去也能跟上：

向量空间与线性映射（A2a 第一至三幕）：$V$ 是域 $F$ 上满足八条公理的集合，$T\in L(V,W)$ 是保持加法与数乘的映射。本章始终在**有限维**内积空间上工作——有限维是 Riesz 定理与伴随存在性的关键假设，无穷维需要"完备性"和"有界性"补丁（留给 B3 泛函分析）。
对偶空间 $V^*$ 与对偶映射 $T^t$（A2a 第四幕，§A2a.19–24）：$V^*=L(V,F)$ 是 $V$ 上所有线性泛函构成的空间；给定 $T:V\to W$，对偶映射 $T^t:W^*\to V^*$ 定义为 $(T^t\varphi)(v)=\varphi(Tv)$。关键：$T^t$ 的定义不需要任何内积，它纯粹来自"把泛函沿 $T$ 拉回"。本章的 Riesz 定理将给出第二种 $V\to V^*$ 的联系（通过内积），而伴随 $T^*$ 正是 $T^t$ 在内积视角下的"翻译"——§A2b.16 把这件事讲到底。
零化子 $W^\circ$ 与维数公式（§A2a.25）：对子空间 $W\subseteq V$，零化子 $W^\circ=\{\varphi\in V^*:\varphi(w)=0,\ \forall w\in W\}\subseteq V^*$，满足 $\dim W+\dim W^\circ=\dim V$。本章将引入一个长得很像但本质不同的对象——正交补 $W^\perp\subseteq V$（需要内积），§A2b.13 揭示 Riesz 同构把 $W^\perp$ 精确地送到 $W^\circ$。
直和与商空间（§A2a.4–5）：内直和 $V=W_1\oplus W_2$ 意味着 $V=W_1+W_2$ 且 $W_1\cap W_2=\{0\}$。本章的正交分解 $V=W\oplus W^\perp$ 是直和的一个**特例**——它额外要求两个补空间相互正交，从而是唯一的、几何上"垂直"的分解，而 A2a 的代数补不唯一。

如果跳过本章会怎样¶

不学 A2b，后续会在以下三个具体场景中卡住：

场景一：读不懂 Kalman 滤波的推导。 几乎所有严肃的估计理论教材（Kailath、Anderson-Moore）都把 Kalman 滤波讲成"$L^2$ 随机变量 Hilbert 空间上的正交投影"。如果你不知道"条件期望 = 正交投影"、"新息序列 = 测量的 Gram-Schmidt 正交化"、"协方差更新 = Pythagoras 定理"，你只能背诵卡尔曼增益公式而不理解它为什么长这样。
场景二：分不清 $J^{\mathsf T} F$ 里的转置到底是什么。 机器人静力学的核心公式 $\tau=J^{\mathsf T}F$（关节力矩 = 雅可比转置乘末端力）中的 $J^{\mathsf T}$ 是**对偶映射**（不需要内积），而动态一致伪逆 $J^+_M=M^{-1}J^{\mathsf T}(JM^{-1}J^{\mathsf T})^{-1}$ 里隐含的"伴随"用的是**动能度量**。不区分这两者，你会在度量选择上犯系统性错误。
场景三：进入 §A2c 时谱定理像天书。 谱定理的陈述是"自伴算子可正交对角化、正规算子可酉对角化"。这三个形容词——自伴、正交、正规——全部在 A2b 定义。没有 A2b，SVD 的 $T=U\Sigma V^*$、极分解 $T=U|T|$、点云配准的 Kabsch 算法都无从谈起。

前置自测 ⭐¶

📋 答不出 ≥ 2 题 → 先回 A2a（20_向量空间与线性变换.md）复习

编号	问题	答不出 → 回顾
1	什么是线性泛函？对偶空间 $V^$ 的元素长什么样？$\dim V^$ 与 $\dim V$ 是什么关系？	A2a §19–20
2	对偶映射 $T^t:W^\to V^$ 的定义是什么？它需要内积吗？	A2a §24
3	零化子 $W^\circ$ 的定义是什么？维数公式 $\dim W+\dim W^\circ=?$	A2a §25
4	内直和 $V=W_1\oplus W_2$ 的三个等价定义是什么？代数补唯一吗？	A2a §4
5	秩-零度定理 $\dim V=\dim\ker T+\dim\operatorname{im}T$ 怎么证？	A2a §15

如果第 1–3 题答不出，本章的 Riesz 定理与伴随算子部分会很吃力——它们整个建立在"$V$ 与 $V^*$ 的关系"之上。第 4–5 题答不出，正交分解和四个基本子空间会跟不上。

预计阅读时间¶

阅读方式	时间	适合谁
精读（含全部证明与练习）	14–16 小时	需要为 §A2c 谱定理/SVD 打牢地基的读者
主干速读（跳过 🟣 节与部分证明细节）	7–9 小时	有本科线性代数基础、想快速建立算子论视角的读者
速查（只看定义、定理速查表、符号表）	40 分钟	遇到具体问题（如"伴随矩阵是不是转置"）回来查证

§A2b.1 内积的公理化定义 ⭐⭐¶

动机：裸向量空间缺了什么¶

A2a 教会我们在向量空间里做加法、数乘、求基、定维数。但有一件极其基本的事，裸向量空间**做不到**：它无法回答"这个向量有多长？""这两个向量夹角多大？""它们垂直吗？"

这不是吹毛求疵。机器人的几乎每一个问题都需要长度和角度：

状态估计要问"估计值离真值有多远"——这是**距离**；
控制要问"当前姿态偏离目标姿态多少"——这是**角度**或**模长**；
SLAM 要把测量残差最小化——这是最小化某种**范数**；
点云配准要找一个旋转使两堆点"最对齐"——这是最大化**内积**。

裸向量空间为什么做不到？因为它的公理里**根本没有提到任何数值化的"大小"。八条公理只规定了加法和数乘如何运算，从未说"向量 $v$ 对应一个非负实数 $\|v\|$"。长度、角度、垂直，这些是**额外**的结构，必须我们主动装上去。装上去的这台仪器，就叫**内积。

如果不这样做会怎样：欧氏点积的"逆向工程"¶

我们最熟悉的长度公式是 $\mathbb{R}^n$ 上的欧氏长度 $\|x\|=\sqrt{x_1^2+\cdots+x_n^2}$，夹角公式是 $\cos\theta=\dfrac{x\cdot y}{\|x\|\,\|y\|}$。这两个公式背后共用一个运算：点积 $x\cdot y=\sum_i x_iy_i$。

现在做一次"逆向工程"：如果我们想把这套长度-角度体系推广到任意向量空间（多项式空间、矩阵空间、函数空间、随机变量空间），应该抽象出点积的**哪些性质**？换句话说，点积之所以能定义长度和角度，靠的是它满足的几条规律，而不是它"恰好是坐标乘积之和"这个具体形式。把这几条规律提炼成公理，任何满足这些公理的运算就都能定义长度和角度——这正是公理化方法的威力。

点积 $x\cdot y=\sum_i x_iy_i$ 满足三条核心性质：

对第一个变量线性：$(\alpha x+\beta x')\cdot y=\alpha(x\cdot y)+\beta(x'\cdot y)$；
对称：$x\cdot y=y\cdot x$；
正定：$x\cdot x=\sum_i x_i^2\ge 0$，且 $=0$ 当且仅当 $x=0$。

第 3 条是长度能开平方根的保证（被开方数非负），也是"只有零向量长度为零"的保证。第 1、2 条合起来给出"双线性"。这三条，就是实内积的全部公理。

历史：从 Grassmann 到 Hilbert¶

内积作为公理化对象的历史，与"长度"概念的抽象化同步。Hermann Grassmann 在 1844 年的《延伸论》（Ausdehnungslehre）中已经在向量空间上考虑"内积"（Innere Produkt）一词的雏形。但把"满足若干公理的双线性正定型"作为研究对象，是 20 世纪初泛函分析兴起后的事——David Hilbert 在 1900 年代研究积分方程时，引入了无穷维"内积空间"（后人称 Hilbert 空间）的原型，John von Neumann 在 1929 年给出了 Hilbert 空间的公理化定义。复内积的"共轭对称"则源于量子力学：波函数的内积 $\langle\psi\mid\phi\rangle=\int\bar\psi\phi$ 必须共轭，才能让 $\langle\psi\mid\psi\rangle=\int|\psi|^2$ 是非负实数（概率密度）。

本质洞察：内积不是向量空间"自带"的属性，而是**外加的、可选的**结构。同一个向量空间可以装上不同的内积（如 $\mathbb{R}^n$ 上的标准点积、加权点积 $\langle x,y\rangle=x^{\mathsf T}Wy$、能量内积 $x^{\mathsf T}Mx$），每一种都给出一套不同的长度和角度。在机器人学里，"用哪个内积"往往不是数学问题而是物理问题——动能内积、信息度量、欧氏度量对应不同的物理量纲。这一点贯穿整个任务，到 §A2b.R6 讲动态一致伪逆时达到顶点。

理论：实内积与复内积的公理¶

§A2b.1.1 实内积的三公理¶

定义（实内积空间）：设 $V$ 是实数域 $\mathbb{R}$ 上的向量空间。一个**实内积**（real inner product）是一个映射 $\langle\cdot,\cdot\rangle:V\times V\to\mathbb{R}$，满足对所有 $u,v,w\in V$ 与 $\lambda\in\mathbb{R}$：

第一变量线性（linearity in the first slot）： $$\langle\lambda u+w,\,v\rangle=\lambda\langle u,v\rangle+\langle w,v\rangle;$$

对称性（symmetry）： $$\langle u,v\rangle=\langle v,u\rangle;$$

正定性（positive-definiteness）： $$\langle v,v\rangle\ge 0,\quad\text{且}\quad\langle v,v\rangle=0\iff v=0.$$

配备了内积的实向量空间 $(V,\langle\cdot,\cdot\rangle)$ 称为**实内积空间**（real inner product space）。

注意第二变量的线性是**白送**的，不需要单列为公理：由对称性 + 第一变量线性， $$\langle u,\lambda v+w\rangle\overset{\text{对称}}{=}\langle\lambda v+w,u\rangle\overset{\text{第一线性}}{=}\lambda\langle v,u\rangle+\langle w,u\rangle\overset{\text{对称}}{=}\lambda\langle u,v\rangle+\langle u,w\rangle.$$ 所以实内积是一个**双线性、对称、正定**的型（bilinear symmetric positive-definite form）。

§A2b.1.2 复内积与共轭对称（sesquilinear form）¶

到了复数域，事情出现一个微妙但关键的转折。我们想保留"正定性"——$\langle v,v\rangle$ 必须是非负实数才能开平方根定义长度。但如果硬把实内积的"对称 + 双线性"照搬到复空间，正定性会**立刻崩溃**。

看反面：假设 $\langle\cdot,\cdot\rangle$ 在复空间上对称且对两个变量都线性（双线性）。取任意 $v\ne 0$，考虑 $\langle iv,iv\rangle$： $$\langle iv,iv\rangle=i\cdot i\cdot\langle v,v\rangle=i^2\langle v,v\rangle=-\langle v,v\rangle.$$ 如果 $\langle v,v\rangle>0$，那么 $\langle iv,iv\rangle=-\langle v,v\rangle<0$——正定性被破坏了！而 $iv$ 是个完全合法的非零向量，它的"长度平方"竟然是负的。

问题的根源：复双线性让纯虚数标量 $i$ 在两个变量上各贡献一个 $i$，乘起来变成 $-1$。修复办法是让第二个变量"共轭线性"，这样 $i$ 在第二变量拉出来时变成 $\bar i=-i$，与第一变量的 $i$ 相乘恰好得 $-i\cdot i=1$（正号）。具体推导见下面的齐次性验证。

定义（复内积空间）：设 $V$ 是复数域 $\mathbb{C}$ 上的向量空间。一个**复内积**（complex inner product）是映射 $\langle\cdot,\cdot\rangle:V\times V\to\mathbb{C}$，满足对所有 $u,v,w\in V$ 与 $\lambda\in\mathbb{C}$：

第一变量线性：$\langle\lambda u+w,v\rangle=\lambda\langle u,v\rangle+\langle w,v\rangle$；

共轭对称性（conjugate symmetry / Hermitian symmetry）：$\langle u,v\rangle=\overline{\langle v,u\rangle}$；

正定性：$\langle v,v\rangle\ge 0$（自动是实数，见下），且 $=0\iff v=0$。

这样的型称为 sesquilinear form（拉丁词头 sesqui = "一倍半"，即"一个半线性"——第一变量全线性，第二变量带共轭的"半线性"）。

由共轭对称，$\langle v,v\rangle=\overline{\langle v,v\rangle}$，所以 $\langle v,v\rangle$ 自动是实数，正定性的"$\ge 0$"才有意义。第二变量的共轭线性同样是推论： $$\langle u,\lambda v+w\rangle\overset{\text{共轭对称}}{=}\overline{\langle\lambda v+w,u\rangle}\overset{\text{第一线性}}{=}\overline{\lambda\langle v,u\rangle+\langle w,u\rangle}=\bar\lambda\,\overline{\langle v,u\rangle}+\overline{\langle w,u\rangle}\overset{\text{共轭对称}}{=}\bar\lambda\langle u,v\rangle+\langle u,w\rangle.$$ 所以 $\langle u,\lambda v\rangle=\bar\lambda\langle u,v\rangle$——第二变量带共轭。这正是上面修复正定性所需的性质：重验 $\langle iv,iv\rangle=i\cdot\bar i\langle v,v\rangle=i\cdot(-i)\langle v,v\rangle=\langle v,v\rangle\ge 0$，危机解除。

本质洞察：复内积的"共轭"不是装饰，而是**正定性的守护者**。每当你在某个公式里看到一个共轭符号 $\bar{(\cdot)}$ 而不明白它为什么在那儿，回到这条根源：它的存在是为了让"长度平方"始终非负实数。后面 Riesz 定理的系数共轭（§A2b.11）、伴随的标量律 $(\lambda T)^*=\bar\lambda T^*$（§A2b.15）、伴随的存在性证明里"双重共轭抵消"（§A2b.14）——所有共轭的来龙去脉都能追溯到这里。

§A2b.1.3 约定分歧与本课程选择¶

复内积"哪个变量带共轭"是一个**纯约定**，数学界和物理界选了相反的方向。这造成大量跨文献阅读的混乱，必须一次讲清。

项目	数学惯例（本课程）	物理 Dirac 惯例
线性变量	第一个	第二个
共轭线性变量	第二个	第一个
$\langle\lambda u,v\rangle$	$\lambda\langle u,v\rangle$	$\bar\lambda\langle u,v\rangle$
$\langle u,\lambda v\rangle$	$\bar\lambda\langle u,v\rangle$	$\lambda\langle u,v\rangle$
$\mathbb{C}^n$ 上	$\langle x,y\rangle=\sum_i x_i\bar y_i$	$\langle x\mid y\rangle=\sum_i\bar x_i y_i$
典型教材	Axler, HK, FIS, Roman, Halmos, Lang, Rudin	Dirac, Sakurai, 量子力学课本

七教材一致性（一个安心的事实）：本章参考的七大数学线性代数教材（Axler / Hoffman-Kunze / Friedberg / Roman / Halmos / Lang / Rudin）全部采用第一变量线性。所以只要你读的是数学系教材，约定是统一的；只有跨到物理/量子计算文献时才需要"翻译"。机器人文献多数沿用数学惯例，但状态估计中借用量子记号的论文偶有例外，读到 bra-ket 记号 $\langle\cdot\mid\cdot\rangle$ 时务必先确认约定。

本课程**坚定采用数学惯例（第一变量线性）**。原因有二：其一，与七大教材一致，便于交叉阅读；其二，与 A2a 的对偶配对 $\langle\varphi,v\rangle=\varphi(v)$（第一变量 $\varphi$ 是泛函、线性）在记号直觉上协调。

§A2b.1.4 标准例子目录¶

公理化的好处是"一套理论，处处适用"。以下五个例子是全任务反复使用的"试验场"，务必熟悉：

例 1（$\mathbb{R}^n$ 欧氏点积）：$\langle x,y\rangle=x^{\mathsf T}y=\sum_{i=1}^n x_iy_i$。这是最基本的实内积，是其它所有内积的原型。

例 2（$\mathbb{C}^n$ Hermitian 点积）：$\langle x,y\rangle=\sum_{i=1}^n x_i\bar y_i=y^*x$（这里 $y^*=\bar y^{\mathsf T}$ 是共轭转置行向量）。注意求和里 $y_i$ 带共轭——这是数学惯例下第二变量共轭的体现。验证 $\langle x,x\rangle=\sum|x_i|^2\ge 0$，正定。

例 3（连续函数空间 $C[a,b]$ 的 $L^2$ 内积）：$\langle f,g\rangle=\int_a^b f(t)\overline{g(t)}\,dt$。这是把"有限和"换成"积分"的无穷维推广。正定性 $\langle f,f\rangle=\int|f|^2\ge 0$ 且 $=0\iff f\equiv 0$（对连续函数成立；对 $L^2$ 可测函数需"几乎处处"，留给 B2 测度论）。这个例子是傅里叶级数、球谐函数、姿态学习中 $L^2(\mathrm{SO}(3))$ 分解的源头。

例 4（矩阵空间 $M_n(F)$ 的 Frobenius 内积）：$\langle A,B\rangle=\operatorname{tr}(AB^*)=\sum_{i,j}A_{ij}\overline{B_{ij}}$。它把矩阵当作 $n^2$ 维向量做点积。这个内积在机器人优化里出现于"矩阵流形上的梯度"、协方差矩阵的距离度量。验证迹的循环性 $\operatorname{tr}(AB^*)=\overline{\operatorname{tr}(BA^*)}$ 给出共轭对称。

例 5（加权 / 能量内积）：在 $\mathbb{R}^n$ 上取一个**对称正定矩阵** $M$（$M=M^{\mathsf T}$，且 $x^{\mathsf T}Mx>0\ \forall x\ne 0$），定义 $\langle x,y\rangle_M=x^{\mathsf T}My$。正定性恰由 $M$ 的正定性保证。这个例子至关重要：机器人动能 $T=\tfrac12\dot q^{\mathsf T}M(q)\dot q$ 中的质量矩阵 $M(q)$ 就定义了关节速度空间上的"动能内积"，动态一致伪逆用的就是它（§A2b.R6）。

这五个例子覆盖了"有限维实/复、无穷维函数、矩阵、加权"五种典型情形。后面每证一个定理，都可以拿这五个例子检验直觉。

⚠️ 常见陷阱¶

💡 概念误区：以为"内积就是点积" - 新手想法："内积不就是 $\sum x_iy_i$ 吗，换个名字而已。" - 现象/后果：遇到加权内积 $x^{\mathsf T}My$、函数 $L^2$ 内积、Frobenius 内积时认不出来，或错误地以为"长度只有一种"。在机器人里会导致用欧氏度量处理本该用能量度量的问题（如把关节空间当欧氏空间做插值，忽略不同关节的惯量差异）。 - 根本原因：把"一个具体实例"误当成"定义本身"。点积是内积的**一个**例子，内积是满足三公理的**任何**运算。 - 正确做法：记住内积是公理化对象。判断一个运算是不是内积，逐条验证三公理，而不是看它"像不像点积"。

🧠 思维陷阱：在复空间用实内积的"对称" - 新手想法："复内积应该也是对称的 $\langle u,v\rangle=\langle v,u\rangle$ 吧。" - 现象/后果：得出 $\langle iv,iv\rangle=-\langle v,v\rangle<0$ 的荒谬结论，或在计算 $\langle u,\lambda v\rangle$ 时漏掉共轭。 - 根本原因：没理解共轭对称是"正定性"逼出来的必然，不是可有可无的风格选择。 - 正确做法：复内积是**共轭对称** $\langle u,v\rangle=\overline{\langle v,u\rangle}$，第二变量带共轭 $\langle u,\lambda v\rangle=\bar\lambda\langle u,v\rangle$。验算时把共轭符号当成"必须守恒的量"。

💡 概念误区：以为任意对称矩阵都能定义内积 - 新手想法："$\langle x,y\rangle=x^{\mathsf T}My$，只要 $M$ 对称就行。" - 现象/后果：取 $M=\mathrm{diag}(1,-1)$，则 $\langle x,x\rangle=x_1^2-x_2^2$ 可以为负（如 $x=(0,1)$ 得 $-1$），违反正定性。这其实是闵可夫斯基"内积"（狭义相对论的度量），它是**不定**的，不是本章意义下的内积。 - 根本原因：忽略了正定性公理，只记住了对称性。 - 正确做法：$\langle x,y\rangle_M=x^{\mathsf T}My$ 是内积 $\iff M$ 对称正定（实情况）或 Hermitian 正定（复情况）。正定是不可省的。

练习¶

1.（验证题）在 $\mathbb{R}^2$ 上定义 $\langle x,y\rangle=2x_1y_1+x_1y_2+x_2y_1+3x_2y_2$。写出对应的矩阵 $M$，并判断它是否是内积（在草稿纸上验证三公理，特别是正定性——提示：检查 $M$ 的对角线与行列式 / 主子式符号）。

2.（构造题）在次数 $\le 2$ 的实多项式空间 $\mathcal{P}_2(\mathbb{R})$ 上，验证 $\langle p,q\rangle=\int_{-1}^1 p(t)q(t)\,dt$ 是内积。计算 $\langle 1,t\rangle$、$\langle 1,t^2\rangle$、$\langle t,t^2\rangle$，并据此说出 $\{1,t,t^2\}$ 中哪些对是正交的。（这是 Legendre 多项式的起点。）

3.（开放思考题）量子力学用第二变量线性的 Dirac 惯例，数学用第一变量线性。请论证：在**实**内积空间里，这两种惯例给出的内积**完全相同**；而在复空间里，从数学惯例的内积 $\langle\cdot,\cdot\rangle_{\text{math}}$ 出发，物理惯例的内积是 $\langle u,v\rangle_{\text{phys}}=\langle v,u\rangle_{\text{math}}=\overline{\langle u,v\rangle_{\text{math}}}$。这说明两种惯例只差一个整体共轭。

§A2b.2 由内积诱导的范数 ⭐⭐¶

动机：从内积造出"长度"¶

有了内积，定义长度就水到渠成。回到逆向工程的起点：欧氏长度 $\|x\|=\sqrt{\sum x_i^2}=\sqrt{x\cdot x}$。把点积换成抽象内积，就得到诱导范数。这一步看似平凡，但它把一个**二元运算**（内积，吃两个向量）压缩成一个**一元运算**（范数，吃一个向量），是整个度量几何的基石。

理论：诱导范数的定义与展开恒等式¶

§A2b.2.1 范数的定义与良定义性¶

定义（诱导范数）：内积空间 $(V,\langle\cdot,\cdot\rangle)$ 上，向量 $v$ 的**范数**（norm）定义为 $$\|v\|:=\sqrt{\langle v,v\rangle}.$$

这个定义**良定义**（well-defined），靠的恰是正定性公理：$\langle v,v\rangle\ge 0$ 保证被开方数非负，平方根在实数范围内有意义；$\langle v,v\rangle=0\iff v=0$ 保证 $\|v\|=0\iff v=0$。如果没有正定性（比如闵可夫斯基"内积"），这个平方根可能要开负数，范数就不存在了。这里用到了"实数完备性"这一黑盒——非负实数总有非负平方根（B1 实分析的结论）。

诱导范数立刻满足两条基本性质：

齐次性（homogeneity）：对标量 $\lambda$， $$\|\lambda v\|=\sqrt{\langle\lambda v,\lambda v\rangle}=\sqrt{\lambda\bar\lambda\langle v,v\rangle}=\sqrt{|\lambda|^2\langle v,v\rangle}=|\lambda|\,\|v\|.$$ 注意这里复情况用了 $\langle\lambda v,\lambda v\rangle=\lambda\bar\lambda\langle v,v\rangle=|\lambda|^2\langle v,v\rangle$——第二变量的共轭把 $\lambda$ 变成 $\bar\lambda$，两者相乘成模平方。这又是 §A2b.1 那句"共轭守护正定性"的直接后果。

正性：$\|v\|\ge 0$，$\|v\|=0\iff v=0$（直接来自正定性）。

第三条性质——三角不等式 $\|u+v\|\le\|u\|+\|v\|$——不是显然的，需要 Cauchy–Schwarz 才能证，留到 §A2b.4。一旦三条齐备，$\|\cdot\|$ 才是真正数学意义上的"范数"。

§A2b.2.2 Pythagoras 定理¶

正交的向量满足勾股定理——这是内积几何与中学平面几何接轨的第一个桥。

定理（Pythagoras）：若 $\langle u,v\rangle=0$（称 $u\perp v$，正交），则 $$\|u+v\|^2=\|u\|^2+\|v\|^2.$$

证明：直接展开（这是下面 §A2b.2.3 展开恒等式的特例）： $$\|u+v\|^2=\langle u+v,u+v\rangle=\langle u,u\rangle+\langle u,v\rangle+\langle v,u\rangle+\langle v,v\rangle.$$ 由 $\langle u,v\rangle=0$ 且共轭对称 $\langle v,u\rangle=\overline{\langle u,v\rangle}=0$，中间两项消失，得 $\|u+v\|^2=\|u\|^2+\|v\|^2$。$\blacksquare$

这个简短证明里藏着一个**反复出现的主力工具**：把 $\|u+v\|^2$ 拆成四项内积。下面把它单独提炼出来。

§A2b.2.3 $\|u+v\|^2$ 的展开恒等式¶

展开恒等式（关键代数工具，全任务反复使用）： $$\|u+v\|^2=\langle u,u\rangle+\langle u,v\rangle+\langle v,u\rangle+\langle v,v\rangle=\|u\|^2+\langle u,v\rangle+\overline{\langle u,v\rangle}+\|v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2.$$

最后一步用了 $z+\bar z=2\operatorname{Re}(z)$。在实情况下 $\langle u,v\rangle$ 本就是实数，$\operatorname{Re}\langle u,v\rangle=\langle u,v\rangle$，恒等式简化为 $\|u+v\|^2=\|u\|^2+2\langle u,v\rangle+\|v\|^2$。

同理可得 $$\|u-v\|^2=\|u\|^2-2\operatorname{Re}\langle u,v\rangle+\|v\|^2.$$

阶段小结：到这里我们完成了三件事——从内积定义了范数、验证了齐次性、得到了主力展开恒等式 $\|u+v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2$。接下来 §A2b.3 要用这个恒等式（连同它的变分形式）证明内积几何里最重要的不等式：Cauchy–Schwarz。它是三角不等式、夹角定义、最佳逼近的共同源头。

本质洞察：展开恒等式告诉我们，$\|u+v\|^2$ 与 $\|u\|^2+\|v\|^2$ 的"差"恰好是 $2\operatorname{Re}\langle u,v\rangle$，即内积的实部。换句话说，内积测量的就是"两个向量有多大程度上'同向'"——同向（$\operatorname{Re}\langle u,v\rangle>0$）时合向量更长，反向时更短，正交时恰好满足勾股定理。这个直觉把抽象内积锚定回中学的"投影"图像。

⚠️ 常见陷阱¶

💡 概念误区：以为所有范数都来自内积 - 新手想法："范数和内积是一回事，有了范数就有内积。" - 现象/后果：试图对 $\ell^1$ 范数 $\|x\|_1=\sum|x_i|$ 或 $\ell^\infty$ 范数 $\|x\|_\infty=\max|x_i|$ 反推内积，失败而困惑。 - 根本原因：范数是更弱的结构（只需正性、齐次、三角不等式），内积更强。诱导范数是范数，但反之不一定。 - 正确做法：一个范数来自内积当且仅当它满足平行四边形恒等式（Jordan–von Neumann 定理，§A2b.5′）。$\ell^1,\ell^\infty$ 不满足，故不来自内积。

🧠 思维陷阱：复情况漏掉 $\operatorname{Re}$ - 新手想法："$\|u+v\|^2=\|u\|^2+2\langle u,v\rangle+\|v\|^2$，照实情况写。" - 现象/后果：在复空间里 $\langle u,v\rangle$ 可能是复数，$2\langle u,v\rangle$ 不是实数，但等号左边 $\|u+v\|^2$ 必是实数——自相矛盾。 - 根本原因：忘了复情况要取实部，$\langle u,v\rangle+\langle v,u\rangle=\langle u,v\rangle+\overline{\langle u,v\rangle}=2\operatorname{Re}\langle u,v\rangle$。 - 正确做法：复情况一律写 $2\operatorname{Re}\langle u,v\rangle$；只有确认在实空间时才简化掉 $\operatorname{Re}$。

练习¶

1.（计算题）在 $\mathbb{C}^2$ 上取标准 Hermitian 内积，$u=(1,i)$，$v=(i,1)$。计算 $\langle u,v\rangle$、$\|u\|$、$\|v\|$、$\|u+v\|^2$，并验证展开恒等式 $\|u+v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2$。

2.（证明题）证明诱导范数满足 $\|u+v\|^2+\|u-v\|^2=2\|u\|^2+2\|v\|^2$（平行四边形恒等式的预演——把两个展开恒等式相加，在草稿纸上完成）。

3.（开放思考题）能否在 $\mathbb{R}^2$ 上定义一个范数，使得单位"圆" $\{x:\|x\|=1\}$ 是一个正方形？如果能，这个范数还能来自内积吗？（提示：内积诱导的范数其单位球总是椭球——想想为什么。）

§A2b.3 Cauchy–Schwarz 不等式 ⭐⭐⭐¶

动机：夹角的定义需要一个保证¶

我们想定义两个向量的夹角 $\cos\theta=\dfrac{\langle u,v\rangle}{\|u\|\,\|v\|}$（实情况）。但 $\cos\theta$ 必须落在 $[-1,1]$ 里，否则 $\theta$ 不存在。这就要求 $$\left|\frac{\langle u,v\rangle}{\|u\|\,\|v\|}\right|\le 1\quad\Longleftrightarrow\quad|\langle u,v\rangle|\le\|u\|\,\|v\|.$$ 这个不等式如果不成立，"夹角"概念就垮了。Cauchy–Schwarz 不等式正是这个保证。它是内积几何里**最重要、用得最多**的不等式——三角不等式、Bessel 不等式、最佳逼近、Riesz 映射的等距性，全都依赖它。

如果不这样做会怎样¶

没有 Cauchy–Schwarz，我们连"$\cos\theta\in[-1,1]$"都无法保证，夹角无法定义，"正交""投影"等一切角度相关概念都建立不起来。更实际地：统计学里相关系数 $\rho=\dfrac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}\in[-1,1]$ 正是 $L^2$ 随机变量空间里的 Cauchy–Schwarz，没有它相关系数可能超过 1，整个回归分析失去意义。

历史：三个名字，一个不等式¶

这个不等式有三位"署名人"，对应它在三个层次的发现：

Augustin-Louis Cauchy（1821）：在《分析教程》中证明了有限和形式 $\left(\sum a_ib_i\right)^2\le\left(\sum a_i^2\right)\left(\sum b_i^2\right)$。
Viktor Bunyakovsky（1859）：把它推广到积分形式（俄语文献称 Cauchy–Bunyakovsky 不等式）。
Hermann Amandus Schwarz（1888）：在研究极小曲面时给出二维积分的现代证明（用判别式），并强调了内积空间的抽象框架。

因此英语世界叫 Cauchy–Schwarz，俄语世界叫 Cauchy–Bunyakovsky–Schwarz（CBS）。三个名字提醒我们：同一个数学真理可以在"离散和""积分""抽象内积"三个层次被独立发现——这正是公理化的价值，一次证明覆盖全部层次。

理论：陈述与三种证明¶

§A2b.3.1 Cauchy–Schwarz 陈述与等号刻画¶

定理（Cauchy–Schwarz 不等式）：内积空间 $V$ 中，对所有 $u,v\in V$， $$|\langle u,v\rangle|\le\|u\|\,\|v\|.$$ 等号成立当且仅当 $u,v$ 线性相关（即其中一个是另一个的标量倍）。

下面给三种证明。它们不是重复劳动——每一种揭示不等式的一个侧面：正交分解（几何）、最小化（变分）、判别式（代数）。机器人读者尤其要掌握第二种，它是最小二乘的雏形。

§A2b.3.2 证明一：正交分解 + Pythagoras（Axler 路线）¶

这是最"几何"的证明，思路是把 $u$ 分解成"沿 $v$ 的分量"加"垂直于 $v$ 的分量"。

证明：若 $v=0$，两边都是 $0$，不等式成立（且 $u,v$ 线性相关）。设 $v\ne 0$。定义 $$w:=u-\frac{\langle u,v\rangle}{\|v\|^2}v.$$ 直觉：$\dfrac{\langle u,v\rangle}{\|v\|^2}v$ 是 $u$ 在 $v$ 方向的"投影"，$w$ 是减去投影后的"垂直余量"。验证 $w\perp v$： $$\langle w,v\rangle=\langle u,v\rangle-\frac{\langle u,v\rangle}{\|v\|^2}\langle v,v\rangle=\langle u,v\rangle-\langle u,v\rangle=0.$$ 于是 $u=w+\dfrac{\langle u,v\rangle}{\|v\|^2}v$ 是正交分解（两项正交）。由 Pythagoras（§A2b.2.2）： $$\|u\|^2=\|w\|^2+\left\|\frac{\langle u,v\rangle}{\|v\|^2}v\right\|^2=\|w\|^2+\frac{|\langle u,v\rangle|^2}{\|v\|^4}\|v\|^2=\|w\|^2+\frac{|\langle u,v\rangle|^2}{\|v\|^2}.$$ 由于 $\|w\|^2\ge 0$， $$\|u\|^2\ge\frac{|\langle u,v\rangle|^2}{\|v\|^2}\quad\Longrightarrow\quad|\langle u,v\rangle|^2\le\|u\|^2\|v\|^2\quad\Longrightarrow\quad|\langle u,v\rangle|\le\|u\|\,\|v\|.$$ 等号刻画：等号 $\iff\|w\|^2=0\iff w=0\iff u=\dfrac{\langle u,v\rangle}{\|v\|^2}v$，即 $u$ 是 $v$ 的标量倍，线性相关。$\blacksquare$

本质洞察：Cauchy–Schwarz 等号成立当且仅当线性相关，几何含义是"两个向量共线时夹角为 0 或 π，$|\cos\theta|=1$ 达到极值"。这条等号刻画在机器人里反复出现：当雅可比矩阵某两列接近线性相关时，操作度椭球被压扁成近似退化——这是奇异构型的征兆（§A2b.R7 SVD 的奇异值趋零）。

§A2b.3.3 证明二：关于 $t$ 的最小化（变分路线）¶

这个证明把不等式看成一个**最优化问题**：在直线 $\{u-tv:t\in F\}$ 上找离原点最近的点。这正是最小二乘的一维原型，机器人读者必须吃透。

证明（实情况，复情况见 §A2b.3.4 的修补）：设 $v\ne 0$。对任意标量 $t$，由范数正性 $\|u-tv\|^2\ge 0$。展开（实情况）： $$\|u-tv\|^2=\|u\|^2-2t\langle u,v\rangle+t^2\|v\|^2\ge 0.$$ 这是关于实变量 $t$ 的二次函数，开口向上（系数 $\|v\|^2>0$）。它的最小值在 $t^*=\dfrac{\langle u,v\rangle}{\|v\|^2}$ 处取得（令导数 $-2\langle u,v\rangle+2t\|v\|^2=0$）。代入： $$\min_t\|u-tv\|^2=\|u\|^2-\frac{\langle u,v\rangle^2}{\|v\|^2}\ge 0\quad\Longrightarrow\quad\langle u,v\rangle^2\le\|u\|^2\|v\|^2.$$ 开方即得。$\blacksquare$

注意 $t^*=\dfrac{\langle u,v\rangle}{\|v\|^2}$ 与证明一里投影系数**完全相同**——两种证明在代数上是同一件事，只是一个从几何（正交分解）切入，一个从变分（最小化）切入。

理论-工程桥接：证明二的"找 $t$ 使 $\|u-tv\|$ 最小"就是**一维最小二乘**：把 $u$ 看成观测数据，$v$ 看成模型基向量，$t$ 是待估参数，$\|u-tv\|^2$ 是残差平方和，$t^*$ 是最小二乘估计。把 $v$ 从一个向量换成一组向量（矩阵 $A$），就得到一般最小二乘 $\min_x\|Ax-b\|^2$ 与法方程 $A^*Ax=A^*b$（§A2b.11.3）。所以 Cauchy–Schwarz 的变分证明不是孤立技巧，而是机器人状态估计的数学胚胎。

§A2b.3.4 证明三：实判别式与复情况的注意点¶

实情况判别式证明：把 $f(t)=\|u+tv\|^2=\|v\|^2 t^2+2\langle u,v\rangle t+\|u\|^2$ 看成实系数二次多项式。它对所有实 $t$ 非负，故判别式 $\le 0$： $$\Delta=(2\langle u,v\rangle)^2-4\|v\|^2\|u\|^2\le 0\quad\Longrightarrow\quad\langle u,v\rangle^2\le\|u\|^2\|v\|^2.$$ 干净利落。但——

复情况陷阱（务必警惕）：判别式证明**不能直接照搬到复空间**。原因：当 $t\in\mathbb{C}$ 时， $$\|u+tv\|^2=\|u\|^2+2\operatorname{Re}(\bar t\langle u,v\rangle)+|t|^2\|v\|^2$$ 含有 $\bar t$ 项，不是 $t$ 的多项式（多项式不能有 $\bar t$），"判别式"无从谈起。

标准修补：把复内积 $\langle u,v\rangle$ 写成极坐标 $\langle u,v\rangle=|\langle u,v\rangle|e^{i\theta}$，令 $u'=e^{-i\theta}u$。则 $\langle u',v\rangle=e^{-i\theta}\langle u,v\rangle=|\langle u,v\rangle|$ 变成**非负实数**，问题退化到实情况，对 $u',v$ 用实证明即可，最后 $|\langle u',v\rangle|=|\langle u,v\rangle|$、$\|u'\|=\|u\|$，不等式对原 $u,v$ 成立。

这个"乘以单位复数转成实数"的技巧（rotation trick）在复内积空间里反复出现（如证明 §A2b.17 酉算子保内积时），值得记住。

系统性分类（三种证明的适用边界）： | 证明 | 核心工具 | 实/复 | 揭示的侧面 | 机器人共鸣 | |---|---|---|---|---| | 一·正交分解 | Pythagoras | 实+复均可 | 几何（投影余量）| 奇异构型、投影 | | 二·最小化 | 二次函数极值 | 实直接，复需 rotation | 变分（最小二乘）| 最小二乘、Kalman | | 三·判别式 | 二次多项式 $\Delta\le 0$ | **仅实**直接 | 代数（系数关系）| —（最易踩复情况坑）|

⚠️ 常见陷阱¶

🧠 思维陷阱：复情况套用实判别式 - 新手想法："实情况判别式证明很漂亮，复情况照抄。" - 现象/后果：把 $\|u+tv\|^2$ 当成 $t$ 的二次多项式求判别式，但它含 $\bar t$ 不是多项式，推导无意义。 - 根本原因：忽略了复数的共轭破坏多项式结构。 - 正确做法：复情况用 rotation trick（乘 $e^{-i\theta}$ 转成实数），或直接用证明一/二。

💡 概念误区：忘记等号刻画里 $v=0$ 的单独处理 - 新手想法："等号成立当且仅当 $u=\lambda v$。" - 现象/后果：当 $v=0$ 时 $u=\lambda v$ 要求 $u=0$，但实际上 $v=0$ 时无论 $u$ 是什么等号都成立（两边都是 0），漏掉了 $u\ne 0,v=0$ 的情形。 - 根本原因：除以 $\|v\|^2$ 的证明默认 $v\ne 0$，忘了单独处理 $v=0$。 - 正确做法：等号刻画的完整表述是"$u,v$ 线性相关"（包含任一为零的情形），而非简单的"$u=\lambda v$"。

🧠 思维陷阱：把 Cauchy–Schwarz 与三角不等式混为一谈 - 新手想法："$|\langle u,v\rangle|\le\|u\|\|v\|$ 和 $\|u+v\|\le\|u\|+\|v\|$ 差不多。" - 现象/后果：在需要 Cauchy–Schwarz 的地方误用三角不等式，反之亦然。 - 根本原因：没看清逻辑顺序——Cauchy–Schwarz 是**因**，三角不等式是**果**（§A2b.4 用前者证后者）。 - 正确做法：Cauchy–Schwarz 约束**内积**的大小，三角不等式约束**和的范数**。前者先证，后者由前者推出。

练习¶

1.（证明题）用 Cauchy–Schwarz 证明：对正实数 $a_1,\dots,a_n$，有 $\left(\sum a_i\right)\left(\sum\frac{1}{a_i}\right)\ge n^2$。（提示：在 $\mathbb{R}^n$ 上取 $u=(\sqrt{a_i})$，$v=(1/\sqrt{a_i})$，在草稿纸上完成。）

2.（推导题）在 $L^2[0,1]$ 上，用 Cauchy–Schwarz 证明 $\left(\int_0^1 f(t)\,dt\right)^2\le\int_0^1 f(t)^2\,dt$。说明这等价于"方差非负"在概率论中的形式 $E[X]^2\le E[X^2]$。

3.（开放思考题）证明二（最小化）给出了"$u$ 在 $\operatorname{span}\{v\}$ 上的最佳逼近系数 $t^*$"。如果把 $v$ 换成两个线性无关向量 $v_1,v_2$，求 $\min_{t_1,t_2}\|u-t_1v_1-t_2v_2\|^2$ 的最优系数满足什么方程组？（这是法方程的二维特例，预习 §A2b.11。在草稿纸上写出正规方程。）

§A2b.4 三角不等式与度量结构 ⭐⭐¶

动机：范数要配得上"长度"这个名号¶

我们已经从内积定义了 $\|v\|=\sqrt{\langle v,v\rangle}$，并验证了正性和齐次性。但要让 $\|\cdot\|$ 真正成为数学意义上的**范数**，还差最后一条：三角不等式 $\|u+v\|\le\|u\|+\|v\|$。它的几何含义是"三角形两边之和不小于第三边"，是"距离"概念自洽的最低要求——没有它，"两点间直线最短"都不成立。

理论：从 Cauchy–Schwarz 到度量空间¶

§A2b.4.1 三角不等式证明¶

定理（三角不等式）：内积空间中 $\|u+v\|\le\|u\|+\|v\|$。

证明：从展开恒等式（§A2b.2.3）出发，每一步注明依据： $$\|u+v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2.$$ 第一步，$\operatorname{Re}(z)\le|z|$（任何复数实部不超过模），所以 $2\operatorname{Re}\langle u,v\rangle\le 2|\langle u,v\rangle|$： $$\|u+v\|^2\le\|u\|^2+2|\langle u,v\rangle|+\|v\|^2.$$ 第二步，用 Cauchy–Schwarz $|\langle u,v\rangle|\le\|u\|\,\|v\|$： $$\|u+v\|^2\le\|u\|^2+2\|u\|\,\|v\|+\|v\|^2=(\|u\|+\|v\|)^2.$$ 第三步，两边开平方（都是非负数，开方保序）：$\|u+v\|\le\|u\|+\|v\|$。$\blacksquare$

整个证明的关键一步是"第二步用 Cauchy–Schwarz"——这就是为什么 §A2b.3 必须先于本节。证明清楚展示了知识的依赖链：展开恒等式 → $\operatorname{Re}\le|\cdot|$ → Cauchy–Schwarz → 三角不等式。

等号条件：等号成立需要两个不等式同时取等——$\operatorname{Re}\langle u,v\rangle=|\langle u,v\rangle|$（即 $\langle u,v\rangle$ 是非负实数）且 $|\langle u,v\rangle|=\|u\|\|v\|$（即线性相关）。合起来：$u,v$ 线性相关**且同向**（$v=cu$，$c\ge 0$）。几何上即"两向量同方向时三角形退化为线段"。

§A2b.4.2 反向三角不等式与度量结构¶

推论（反向三角不等式）：$\big|\,\|u\|-\|v\|\,\big|\le\|u-v\|$。

证明：由 $\|u\|=\|(u-v)+v\|\le\|u-v\|+\|v\|$ 得 $\|u\|-\|v\|\le\|u-v\|$；对称地 $\|v\|-\|u\|\le\|v-u\|=\|u-v\|$。两式合并即得绝对值形式。$\blacksquare$

反向三角不等式的工程意义：它说明"范数是连续函数"——输入变化 $\|u-v\|$ 很小时，输出变化 $|\|u\|-\|v\||$ 也很小。这是数值计算稳定性的基础。

诱导度量：有了范数，定义两点间**距离** $$d(u,v):=\|u-v\|.$$ 它满足度量空间三公理：(i) $d(u,v)\ge 0$ 且 $=0\iff u=v$（正性，来自范数正性）；(ii) $d(u,v)=d(v,u)$（对称，因 $\|u-v\|=\|v-u\|$，由齐次性 $\|-(v-u)\|=|-1|\|v-u\|$）；(iii) $d(u,w)\le d(u,v)+d(v,w)$（三角不等式，因 $\|u-w\|=\|(u-v)+(v-w)\|\le\|u-v\|+\|v-w\|$）。

阶段小结：到这里，度量结构的链条完整了——内积 → 范数 → 距离 → 度量空间。每一层都严格建立在上一层之上：内积给范数（开平方根，需正定），范数给距离（作差取范数），距离给度量空间（三公理由范数性质推出）。于是内积空间是赋范空间，赋范空间是度量空间，度量空间有拓扑（开球、收敛、连续）。这条链为 §A2c 讨论"算子连续性"、为 B3 泛函分析讨论"Hilbert 空间完备性"铺好了路。

理论-工程桥接：诱导度量 $d(u,v)=\|u-v\|$ 是机器人"误差"的统一语言。状态估计的 RMSE、轨迹跟踪的偏差、点云配准的对齐残差，本质都是某个内积空间里的诱导距离。选不同内积 → 不同度量 → 不同"误差"定义。例如在协方差加权内积 $\langle x,y\rangle_{\Sigma^{-1}}=x^{\mathsf T}\Sigma^{-1}y$ 下，距离就是马氏距离（Mahalanobis distance），它在统计意义上"归一化"了不同方向的不确定性——这正是卡尔曼滤波用信息矩阵加权残差的原因。

⚠️ 常见陷阱¶

💡 概念误区：以为三角不等式是公理 - 新手想法："三角不等式是内积的基本公理之一。" - 现象/后果：在证明里直接引用三角不等式而不知它需要 Cauchy–Schwarz 支撑，逻辑循环。 - 根本原因：混淆了"内积公理"（线性、对称、正定）与"诱导范数的性质"（三角不等式是定理，不是公理）。 - 正确做法：内积只有三条公理；三角不等式是由公理 + Cauchy–Schwarz **推出**的定理。

🧠 思维陷阱：误记反向三角不等式的方向 - 新手想法："$\|u-v\|\le|\|u\|-\|v\||$？" - 现象/后果：方向写反，得到荒谬结论（如取 $u=(1,0),v=(0,1)$，左边 $\sqrt2$，右边 $0$，"$\sqrt2\le 0$"显然错）。 - 根本原因：没理解反向三角不等式给的是 $\|u-v\|$ 的**下界**。 - 正确做法：$\big|\|u\|-\|v\|\big|\le\|u-v\|$——绝对值在小的一侧，差的范数在大的一侧。

练习¶

1.（证明题）证明三角不等式的等号成立当且仅当 $u,v$ 中有一个是另一个的**非负**实数倍（不只是线性相关，还要同向）。给出一个线性相关但等号不成立的例子（提示：$v=-u$）。

2.（推导题）在 $L^2$ 随机变量空间（$\langle X,Y\rangle=E[XY]$）中，把三角不等式 $\|X+Y\|\le\|X\|+\|Y\|$ 翻译成关于 $\sqrt{E[(X+Y)^2]}$ 的不等式，并解释它在"标准差的次可加性"中的含义。

3.（开放思考题）马氏距离 $d_\Sigma(x,y)=\sqrt{(x-y)^{\mathsf T}\Sigma^{-1}(x-y)}$ 是某个内积诱导的距离。它满足三角不等式吗？为什么？（提示：$\Sigma^{-1}$ 对称正定，回到 §A2b.1 例 5。在草稿纸上验证它确实来自内积。）

§A2b.5 平行四边形恒等式与极化恒等式 ⭐⭐¶

动机：内积与范数能互相还原吗¶

到目前为止，我们的方向是单向的：内积 → 范数（开平方根）。一个自然的反问是：能不能反过来，从范数还原内积？这个问题不是闲来无事的好奇。它在两个地方至关重要：

理论上：如果范数能唯一决定内积，那么"内积空间"和"满足某种特殊条件的赋范空间"就是一回事，几何信息没有在"压缩成一元运算"时丢失。
工程上：很多算法只接触"距离/范数"（如优化的目标函数是 $\|Ax-b\|^2$），但证明性质时需要内积的双线性。如果能从范数把内积"调"出来，就能在只有范数的场合借用内积工具。

答案是：在内积空间里，范数确实唯一决定内积——这就是极化恒等式（polarization identity）。而判断"一个赋范空间的范数是否来自某内积"的判据，则是平行四边形恒等式（parallelogram law）。两者是一对孪生定理。

如果不这样做会怎样¶

设想我们只有范数 $\|\cdot\|$，想定义"$u,v$ 是否正交"。没有内积，"正交"无从谈起——我们只能说"长度"，不能说"角度"。极化恒等式恰好补上这一环：它用纯范数表达式 $\frac14(\|u+v\|^2-\|u-v\|^2)$（实情况）重建出内积 $\langle u,v\rangle$，于是"正交"$\iff\|u+v\|=\|u-v\|$（几何上即"平行四边形对角线等长当且仅当它是矩形"）。没有极化，范数和内积之间就缺了一座可逆的桥。

理论：两个恒等式¶

§A2b.5.1 平行四边形恒等式¶

定理（平行四边形恒等式）：内积空间中，对所有 $u,v$， $$\|u+v\|^2+\|u-v\|^2=2\|u\|^2+2\|v\|^2.$$

证明：把 §A2b.2.3 的两个展开恒等式相加。由 $$\|u+v\|^2=\|u\|^2+2\operatorname{Re}\langle u,v\rangle+\|v\|^2,\qquad\|u-v\|^2=\|u\|^2-2\operatorname{Re}\langle u,v\rangle+\|v\|^2,$$ 相加时 $+2\operatorname{Re}\langle u,v\rangle$ 与 $-2\operatorname{Re}\langle u,v\rangle$ 恰好抵消，余下 $2\|u\|^2+2\|v\|^2$。$\blacksquare$

证明只有一行，但结论的几何意义极漂亮：以 $u,v$ 为邻边的平行四边形，两条对角线长度的平方和等于四条边长度的平方和（注意 $\|u+v\|$、$\|u-v\|$ 是两条对角线，$\|u\|$、$\|v\|$ 各出现两次是四条边）。这是欧氏几何里一条古老的定理，现在它成了"范数来自内积"的指纹。

本质洞察：平行四边形恒等式是内积空间的**判别指纹**——它对所有内积诱导的范数成立，且（由 Jordan–von Neumann 定理，§A2b.5′）只对内积诱导的范数成立。它的深刻之处在于：恒等式里**完全没有内积符号**，纯粹是范数的代数关系。这意味着"是否来自内积"这件事，可以仅凭范数本身检验，无需事先知道内积。$\ell^1$、$\ell^\infty$ 范数违反它（见练习），所以它们"不够圆"，不来自任何内积。

§A2b.5.2 极化恒等式：从范数还原内积¶

平行四边形恒等式说"范数若来自内积，必满足某关系"；极化恒等式更进一步，显式地把内积写成范数的组合。

定理（极化恒等式，实情况）：实内积空间中， $$\langle u,v\rangle=\frac{1}{4}\left(\|u+v\|^2-\|u-v\|^2\right).$$

证明：实情况下展开恒等式为 $\|u\pm v\|^2=\|u\|^2\pm 2\langle u,v\rangle+\|v\|^2$，相减得 $\|u+v\|^2-\|u-v\|^2=4\langle u,v\rangle$，除以 4 即得。$\blacksquare$

定理（极化恒等式，复情况）：复内积空间（第一变量线性约定）中， $$\langle u,v\rangle=\frac{1}{4}\sum_{k=0}^{3}i^{k}\,\|u+i^{k}v\|^2=\frac14\Big(\|u+v\|^2-\|u-v\|^2+i\|u+iv\|^2-i\|u-iv\|^2\Big).$$

证明（复情况）：记 $z=\langle u,v\rangle$。逐项用展开恒等式 $\|u+i^kv\|^2=\|u\|^2+2\operatorname{Re}(\overline{i^k}\,z)+\|v\|^2$（因 $\langle u,i^kv\rangle=\overline{i^k}\langle u,v\rangle=\overline{i^k}z$）。将四项按 $i^k$ 加权求和，$\|u\|^2$ 与 $\|v\|^2$ 项的系数 $\sum_k i^k=1+i-1-i=0$ 全部抵消；交叉项给出 $$\sum_{k=0}^3 i^k\cdot 2\operatorname{Re}(\overline{i^k}z)=2\sum_{k=0}^3 i^k\operatorname{Re}(\overline{i^k}z).$$ 逐 $k$ 代入（$\operatorname{Re}(\bar 1\,z)=\operatorname{Re}z$，$\operatorname{Re}(\overline{i}\,z)=\operatorname{Re}(-iz)=\operatorname{Im}z$，余类推）可算出此和等于 $4z$，除以 4 得 $z$。$\blacksquare$

理论-工程桥接：极化恒等式在机器人里有一个低调但关键的用途——当算法只暴露"平方距离查询"时重建内积/相关。例如核方法（kernel method）、高斯过程回归中，核函数 $k(x,y)$ 扮演内积角色，但有时我们只能测量 $\|x-y\|^2$（如某些度量学习场景）；极化让我们从成对距离矩阵反推 Gram 矩阵 $G_{ij}=\langle x_i,x_j\rangle$，这正是多维标度（MDS）和 ISOMAP 等流形学习算法的数学第一步。"双中心化距离矩阵得到内积矩阵"这一操作，本质就是极化恒等式的矩阵版本。

§A2b.5.3 一个推论：内积由范数唯一决定¶

极化恒等式的直接推论是一条唯一性结论：

推论：若两个内积 $\langle\cdot,\cdot\rangle_1$ 与 $\langle\cdot,\cdot\rangle_2$ 诱导出**相同的范数**（即 $\|v\|_1=\|v\|_2$ 对所有 $v$），则它们**是同一个内积**。

证明：极化恒等式把内积完全表达为范数的函数，范数相同则右端相同，故 $\langle u,v\rangle_1=\langle u,v\rangle_2$ 对所有 $u,v$。$\blacksquare$

这条推论看似抽象，却堵死了一个常见误解："同一个范数下可以配不同内积。"不行——范数一旦给定，内积没有自由度。

⚠️ 常见陷阱¶

💡 概念误区：以为极化恒等式实/复同形 - 新手想法："实情况是 $\frac14(\|u+v\|^2-\|u-v\|^2)$，复情况照抄即可。" - 现象/后果：复情况只用两项会丢掉虚部，得到的"内积"实部对了虚部全错。 - 根本原因：复内积是复数，需要四项（带 $i^k$ 权重）才能同时恢复实部和虚部；两项只能给出 $\operatorname{Re}\langle u,v\rangle$。 - 正确做法：复情况务必用四项求和 $\frac14\sum_{k=0}^3 i^k\|u+i^kv\|^2$。

🧠 思维陷阱：把平行四边形恒等式当成对所有范数成立 - 新手想法："$\|u+v\|^2+\|u-v\|^2=2\|u\|^2+2\|v\|^2$ 是范数的普遍性质。" - 现象/后果：在 $\ell^1$ 或 $\ell^\infty$ 空间里套用它，得到错误结论。 - 根本原因：该恒等式是内积空间的特征，不是一般赋范空间的性质（Jordan–von Neumann 定理刻画了这个边界）。 - 正确做法：只有当范数来自内积时才能用平行四边形恒等式；用前先确认空间是内积空间。

💡 概念误区：混淆"极化"与"分解" - 新手想法："极化恒等式就是把向量分解成正交分量。" - 现象/后果：把极化（用范数表达内积）与正交分解（§A2b.10，把向量拆成子空间分量）搞混。 - 根本原因：两者都带"分解"直觉，但极化是标量恒等式，正交分解是向量等式。 - 正确做法：极化恒等式输出一个**数**（内积值），正交投影输出一个**向量**（投影分量），层次不同。

练习¶

1.（计算题）在 $\mathbb{R}^2$ 上取 $\ell^1$ 范数 $\|x\|_1=|x_1|+|x_2|$，令 $u=(1,0)$，$v=(0,1)$。计算 $\|u+v\|_1^2+\|u-v\|_1^2$ 与 $2\|u\|_1^2+2\|v\|_1^2$，验证平行四边形恒等式**不成立**，从而 $\ell^1$ 范数不来自内积。

2.（推导题）用复极化恒等式四项展开，逐 $k$ 验证 $\|u\|^2$ 与 $\|v\|^2$ 项系数之和为零、交叉项之和为 $4\langle u,v\rangle$。（在草稿纸上完成，注意 $\overline{i^k}$ 的取值循环 $1,-i,-1,i$。）

3.（开放思考题）极化恒等式说"范数唯一决定内积"。反过来，一个内积是否唯一决定它的"正交关系"？即：若两内积有相同的正交向量对集合 $\{(u,v):u\perp v\}$，它们是否必为同一内积（或差一个正标量倍）？给出你的猜想与理由。

§A2b.5′ Jordan–von Neumann 定理：哪些范数来自内积 🟣 ⭐⭐⭐⭐¶

本节标 🟣，首读可跳过。它回答一个"封闭性"问题：平行四边形恒等式不仅是内积范数的**必要**条件，还是**充分**条件。

动机：把"指纹"升级为"判据"¶

§A2b.5 证明了"内积范数 ⟹ 平行四边形恒等式"。但要让平行四边形恒等式成为真正的**判据**（拿到一个范数就能判断它是否来自内积），还需要反方向："平行四边形恒等式 ⟹ 存在内积诱导它"。这正是 Jordan 与 von Neumann 在 1935 年证明的定理。它把一条几何观察提升为完整的充要刻画，是泛函分析里"内积空间 = 满足平行四边形律的赋范空间"这一论断的严格基础。

理论：定理与证明骨架¶

定理（Jordan–von Neumann, 1935）：设 $(V,\|\cdot\|)$ 是实赋范空间。则 $\|\cdot\|$ 来自某个内积（即存在内积 $\langle\cdot,\cdot\rangle$ 使 $\|v\|=\sqrt{\langle v,v\rangle}$）当且仅当 $\|\cdot\|$ 满足平行四边形恒等式 $$\|u+v\|^2+\|u-v\|^2=2\|u\|^2+2\|v\|^2\quad\forall u,v\in V.$$ 此时该内积唯一，由极化恒等式给出。

证明骨架（实情况，充分性是难点）：必要性已在 §A2b.5 证毕。充分性：假设平行四边形恒等式成立，定义 $\langle u,v\rangle:=\frac14(\|u+v\|^2-\|u-v\|^2)$（极化公式），然后逐条验证它是内积。

对称性：$\langle v,u\rangle=\frac14(\|v+u\|^2-\|v-u\|^2)=\frac14(\|u+v\|^2-\|u-v\|^2)=\langle u,v\rangle$（用 $\|v-u\|=\|u-v\|$）。✓
正定性：$\langle v,v\rangle=\frac14(\|2v\|^2-0)=\frac14\cdot 4\|v\|^2=\|v\|^2\ge 0$，且 $=0\iff v=0$。✓ 同时这验证了诱导范数确实是 $\|\cdot\|$。
可加性 $\langle u+w,v\rangle=\langle u,v\rangle+\langle w,v\rangle$：这是全证明的技术核心。反复使用平行四边形恒等式，可推出 $$\|u+w+v\|^2+\|u-w+v\|^2=2\|u+v\|^2+2\|w\|^2,$$ 配合若干类似式做加减消元，最终得到可加性。这一步纯靠平行四边形恒等式的代数操作，没有任何捷径。
齐次性 $\langle\lambda u,v\rangle=\lambda\langle u,v\rangle$：先由可加性推出对整数 $n$ 成立（$\langle nu,v\rangle=n\langle u,v\rangle$），再推有理数，最后用范数的**连续性**（$\lambda\mapsto\|u+\lambda v\|$ 连续）把有理数结论延拓到所有实数 $\lambda$。

四条齐备，$\langle\cdot,\cdot\rangle$ 是内积。唯一性由 §A2b.5.3 推论给出。$\blacksquare$

本质洞察：这个定理的精神是"几何性质完全编码在度量里"。表面上内积比范数多了"角度"信息，似乎是更丰富的结构；但 Jordan–von Neumann 说，只要范数满足一条代数恒等式，"角度"就能从"长度"里**唯一地解码出来**——多出来的信息其实是幻觉。这与一个更广的主题呼应：常常一个看似更强的结构，实际由更弱的结构在某个约束下唯一确定（如连续函数由它在有理点的值确定）。证明里第 4 步用"有理数稠密 + 连续性延拓"正是这种思想的标志性手法。

理论-工程桥接：这个定理在机器人里更多是"思想工具"而非直接公式，但它给出一条重要判断准则：当你为某个估计/优化问题挑选范数时，若希望事后能用正交投影、最佳逼近、Pythagoras 这套内积工具，就必须选满足平行四边形律的范数（即 $L^2$ 型），而不能选 $L^1$（鲁棒估计常用）或 $L^\infty$（最坏情况控制常用）。这解释了为什么最小二乘（$L^2$）有优雅的闭式法方程解，而 $L^1$ 鲁棒估计（如 LASSO、M-估计）必须用迭代算法——后者的范数不来自内积，没有正交投影可用。范数的选择，本质上决定了你能否动用内积几何这整套机器。

⚠️ 常见陷阱¶

🧠 思维陷阱：以为充分性"显然" - 新手想法："必要性证完了，充分性反着写一遍就行。" - 现象/后果：跳过可加性证明，误以为"定义了极化公式就自动是内积"。 - 根本原因：极化公式定义的二元函数，对称性和正定性容易，但**可加性和齐次性需要平行四边形恒等式做大量代数工作**，绝非显然。 - 正确做法：承认充分性是定理的实质内容，可加性的消元 + 齐次性的稠密延拓是真正的技术难点。

💡 概念误区：把定理误用到无穷维而忽略完备性 - 新手想法："Jordan–von Neumann 对任意赋范空间都给出内积空间，所以任意满足平行四边形律的空间都是 Hilbert 空间。" - 现象/后果：把"内积空间"与"Hilbert 空间"（完备内积空间）混为一谈。 - 根本原因：定理只保证存在**内积**，不保证**完备性**；Hilbert 空间还要求按该范数完备。 - 正确做法：满足平行四边形律 ⟹ 内积空间（pre-Hilbert）；再加完备性 ⟹ Hilbert 空间。两者区别留待 B3 泛函分析。

练习¶

1.（证明题）补全 Jordan–von Neumann 充分性证明的"可加性"一步：利用平行四边形恒等式，证明 $\langle u+w,v\rangle=\langle u,v\rangle+\langle w,v\rangle$。（提示：先证 $\|u+w+v\|^2+\|u-w+v\|^2=2\|u+v\|^2+2\|w\|^2$ 与其对偶式，再相减。在草稿纸上完成，这是一道有难度的硬推导。）

2.（开放思考题）齐次性证明用了"有理数稠密 + 连续性延拓"。如果范数**不连续**（在无穷维某些病态情形），这套延拓会失败吗？这说明内积的齐次性其实悄悄依赖了什么拓扑假设？

3.（综合题，连接 §A2b.2）$\ell^p$ 范数 $\|x\|_p=(\sum|x_i|^p)^{1/p}$ 只在 $p=2$ 时来自内积。用平行四边形恒等式在 $\mathbb{R}^2$ 上取 $u=(1,0),v=(0,1)$ 验证：仅当 $p=2$ 时恒等式成立。（计算两边关于 $p$ 的表达式并比较。）

§A2b.6 正交性、正交集与标准正交集 ⭐⭐¶

动机：从"两个向量垂直"到"一组向量互相垂直"¶

§A2b.2–5 处理的是两个向量之间的几何（夹角、投影、距离）。但线性代数的威力在于"基"——用一组向量张成整个空间。如果这组基里的向量**两两正交**，所有计算都会简化到不可思议的程度：坐标可以逐个独立算出来（不必解线性方程组），范数变成各分量范数的平方和（Pythagoras 的多向量版），矩阵变成对角的。正交基是线性代数里"最好用的基"，本节先把正交性从"成对"推广到"成组"，并证明它带来的第一个红利：正交集自动线性无关。

如果不这样做会怎样：一般基的坐标计算之痛¶

给定一般基 $\{v_1,\dots,v_n\}$，要把向量 $x$ 写成 $x=\sum_i c_iv_i$，必须解线性方程组 $\sum_i c_i\langle v_i,v_j\rangle=\langle x,v_j\rangle$（即 Gram 矩阵方程），这是 $O(n^3)$ 的工作量，且 Gram 矩阵病态时数值不稳。而如果基是标准正交的，$\langle v_i,v_j\rangle=\delta_{ij}$，方程组瞬间解耦成 $c_j=\langle x,v_j\rangle$——一个内积就是一个坐标。没有正交性，每次换基都要解一遍方程组；有了正交性，坐标"读"出来即可。这就是为什么后面 Gram-Schmidt（把一般基正交化）如此重要。

理论：正交集、标准正交集与基本性质¶

§A2b.6.1 定义：正交集与标准正交集¶

定义：内积空间中一组非零向量 $\{e_1,e_2,\dots\}$： - 称为**正交集**（orthogonal set），若两两正交：$\langle e_i,e_j\rangle=0$ 当 $i\ne j$； - 称为**标准正交集**（orthonormal set），若进一步每个都是单位向量：$\langle e_i,e_j\rangle=\delta_{ij}$（$i=j$ 时为 1，$i\ne j$ 时为 0）。

这里 $\delta_{ij}$ 是 Kronecker delta。标准正交集 = 正交集 + 单位化。

把正交集单位化很容易：每个 $e_i$ 除以自己的范数 $\hat e_i=e_i/\|e_i\|$ 即得标准正交集。所以"正交"是本质，"标准（单位化）"只是归一化的方便。

§A2b.6.2 正交集自动线性无关¶

正交集的第一个、也是最重要的红利：

定理：内积空间中的正交集（非零向量）必**线性无关**。

证明：设 $\{e_1,\dots,e_k\}$ 正交且非零，假设有线性组合 $\sum_{i=1}^k c_ie_i=0$。对固定的 $j$，两边与 $e_j$ 作内积： $$0=\Big\langle\sum_i c_ie_i,\,e_j\Big\rangle=\sum_i c_i\langle e_i,e_j\rangle=c_j\langle e_j,e_j\rangle=c_j\|e_j\|^2.$$ 中间一步：除 $i=j$ 外所有内积 $\langle e_i,e_j\rangle=0$（正交性），只剩 $i=j$ 项。由于 $e_j\ne 0$，$\|e_j\|^2>0$，故 $c_j=0$。对每个 $j$ 都如此，所有系数为零，线性无关。$\blacksquare$

本质洞察：这条定理揭示了正交性"自动解耦"的核心机制——与 $e_j$ 作内积，能把其它所有项一笔勾销，只留下 $e_j$ 自己的那一项。这个"内积探针"技巧贯穿全任务：算坐标用它（§A2b.6.3）、Gram-Schmidt 减投影用它（§A2b.7）、证 Bessel 不等式用它（§A2b.6.4）、Fourier 系数用它。记住这个动作：想提取第 $j$ 个分量，就用 $\langle\cdot,e_j\rangle$ 去探。

§A2b.6.3 标准正交基下的坐标、范数与内积公式¶

设 $\{e_1,\dots,e_n\}$ 是 $n$ 维空间的**标准正交基**（orthonormal basis, ONB）。它带来三组"傻瓜公式"：

Fourier 系数公式：任意 $x=\sum_{i=1}^n c_ie_i$ 的坐标是 $c_i=\langle x,e_i\rangle$。

证明：$\langle x,e_j\rangle=\langle\sum_i c_ie_i,e_j\rangle=\sum_i c_i\delta_{ij}=c_j$。$\blacksquare$ 于是 $x=\sum_i\langle x,e_i\rangle e_i$。

Parseval 恒等式（范数）：$\|x\|^2=\sum_{i=1}^n|\langle x,e_i\rangle|^2=\sum_i|c_i|^2$。

证明：$\|x\|^2=\langle\sum_i c_ie_i,\sum_j c_je_j\rangle=\sum_{i,j}c_i\bar c_j\delta_{ij}=\sum_i|c_i|^2$。$\blacksquare$

内积的坐标公式：$\langle x,y\rangle=\sum_{i=1}^n\langle x,e_i\rangle\overline{\langle y,e_i\rangle}$。在标准正交基下，抽象内积**退化成坐标的标准点积**。

这三条公式的意义无论怎么强调都不过分：标准正交基把任意抽象内积空间"坐标化"成 $\mathbb{R}^n$ 或 $\mathbb{C}^n$ 上的标准点积。傅里叶级数（三角函数构成 $L^2$ 的标准正交基）、球谐函数展开、PCA（协方差矩阵的标准正交特征向量）全是这三条公式的实例。

§A2b.6.4 Bessel 不等式：投影到子空间的"能量损失"¶

如果 $\{e_1,\dots,e_k\}$ 是一个标准正交集，但**不是**整个空间的基（即 $k<n$，只张成一个子空间 $W$），那么 $\sum_i\langle x,e_i\rangle e_i$ 是 $x$ 在 $W$ 上的投影，它的范数不超过 $x$ 本身：

定理（Bessel 不等式）：对标准正交集 $\{e_1,\dots,e_k\}$ 和任意 $x$， $$\sum_{i=1}^k|\langle x,e_i\rangle|^2\le\|x\|^2.$$ 等号成立 $\iff x\in\operatorname{span}\{e_1,\dots,e_k\}$。

证明：令 $p=\sum_{i=1}^k\langle x,e_i\rangle e_i$（$x$ 在子空间上的"投影"），$r=x-p$（余量）。先验证 $r\perp e_j$ 对每个 $j\le k$： $$\langle r,e_j\rangle=\langle x,e_j\rangle-\sum_i\langle x,e_i\rangle\langle e_i,e_j\rangle=\langle x,e_j\rangle-\langle x,e_j\rangle=0.$$ 于是 $r\perp p$（$p$ 是 $e_j$ 的组合）。由 Pythagoras： $$\|x\|^2=\|p\|^2+\|r\|^2\ge\|p\|^2=\sum_{i=1}^k|\langle x,e_i\rangle|^2.$$ 等号 $\iff\|r\|^2=0\iff x=p\in\operatorname{span}\{e_i\}$。$\blacksquare$

Bessel 不等式是 §A2b.11 最佳逼近定理的"前哨"：它已经隐含了"投影是最佳逼近"的思想——投影 $p$ 抓住了 $x$ 的"大部分能量"，余量 $r$ 与子空间正交。当标准正交集扩成完整基时 Bessel 不等式升级为 Parseval 等式（损失为零）。

理论-工程桥接：Bessel 不等式是**降维与压缩的数学许可证**。PCA 取协方差矩阵前 $k$ 个主成分（标准正交特征向量），用 $\sum_{i=1}^k\langle x,e_i\rangle e_i$ 近似数据 $x$，Bessel 不等式保证"保留的能量 $\sum_{i\le k}|\langle x,e_i\rangle|^2$ 不超过总能量 $\|x\|^2$"，而"丢失的能量 $\|r\|^2$"正是被截断的小特征值之和。机器人里点云的主方向提取、SLAM 中协方差的主轴分析、图像/特征的有损压缩，本质都是"在标准正交集上做 Bessel 截断"。Parseval（等号）对应"无损"，Bessel 严格不等号对应"有损但可控"。

⚠️ 常见陷阱¶

💡 概念误区：以为"正交"就是"线性无关"的同义词 - 新手想法："正交集线性无关，那线性无关集也正交吧。" - 现象/后果：把一般线性无关基当成正交基，直接用 Fourier 系数公式 $c_i=\langle x,e_i\rangle$ 算坐标，结果全错。 - 根本原因：正交 ⟹ 线性无关是**单向**的；线性无关集一般不正交（如 $(1,0),(1,1)$ 无关但不正交）。 - 正确做法：只有标准正交基才能用 $c_i=\langle x,e_i\rangle$；一般基要解 Gram 方程组，或先用 Gram-Schmidt 正交化。

🧠 思维陷阱：忘记 Fourier/Parseval 公式只对标准正交基成立 - 新手想法："$x=\sum\langle x,e_i\rangle e_i$ 是普适展开。" - 现象/后果：对仅正交（未单位化）的基直接套公式，漏掉了 $\frac{1}{\|e_i\|^2}$ 因子。 - 根本原因：正交基的展开是 $x=\sum\frac{\langle x,e_i\rangle}{\|e_i\|^2}e_i$；只有 $\|e_i\|=1$ 时分母才消失。 - 正确做法：正交基（未单位化）用 $c_i=\frac{\langle x,e_i\rangle}{\langle e_i,e_i\rangle}$；标准正交基才简化为 $c_i=\langle x,e_i\rangle$。

💡 概念误区：以为 Bessel 不等式对一般基成立 - 新手想法："任意基都满足 $\sum|\langle x,e_i\rangle|^2\le\|x\|^2$。" - 现象/后果：对非正交基套用，得到错误的"能量界"。 - 根本原因：Bessel 的证明关键是 $r\perp e_j$，这一步要求 $\{e_i\}$ 标准正交。 - 正确做法：Bessel 不等式仅对**标准正交集**成立；非正交情形没有这么干净的能量界。

练习¶

1.（计算题）在 $\mathbb{R}^3$ 中验证 $\{(1,1,0),(1,-1,0),(0,0,1)\}$ 是正交集但非标准正交。把它单位化成标准正交基，然后用 Fourier 系数公式把 $x=(2,0,3)$ 在这组基下展开。

2.（证明题）证明：若 $\{e_1,\dots,e_n\}$ 是标准正交基，则线性映射 $T$ 在该基下的矩阵元素是 $A_{ij}=\langle Te_j,e_i\rangle$。（这是 §A2b.15 伴随矩阵公式的前奏，在草稿纸上完成。）

3.（开放思考题）Bessel 不等式在无穷维（如 $L^2$ 的傅里叶级数）说 $\sum_{i=1}^\infty|\langle x,e_i\rangle|^2\le\|x\|^2$，因此左边级数收敛。但"收敛"不等于"等于 $\|x\|^2$"。什么条件下 Bessel 升级为 Parseval（即标准正交集是"完备"的）？这个"完备性"和度量空间的完备性是一回事吗？（提示：两者不同，前者指"张成稠密"，留待 B3。）

§A2b.7 Gram–Schmidt 正交化与 QR 分解 ⭐⭐⭐¶

动机：把一般基"扶正"成标准正交基¶

§A2b.6 证明了标准正交基的种种好处，但留下一个问题：任意有限维内积空间真的存在标准正交基吗？怎么造？ Gram–Schmidt 过程给出一个**构造性**答案：拿任意一组线性无关向量（如随便一个基），逐个减去它在前面已正交化向量上的投影，就能"扶正"成标准正交基。这个过程不仅是存在性证明，本身就是数值线性代数最重要的算法之一，并直接给出矩阵的 QR 分解。

如果不这样做会怎样：没有构造，存在性只是空话¶

如果只用抽象论证说"标准正交基存在"（如 Zorn 引理在无穷维），我们无法**算出**它，所有 §A2b.6 的傻瓜公式就用不上。Gram–Schmidt 的价值在于把"存在"变成"可计算"：给定任意基的坐标，它输出标准正交基的坐标，并且每一步都有清晰的几何意义（减投影 = 去掉与已有方向重合的部分）。最小二乘求解、QR 分解、Krylov 子空间方法（GMRES、共轭梯度）全建立在它之上。

理论：过程、定理与 QR 分解¶

§A2b.7.1 Gram–Schmidt 过程¶

Gram–Schmidt 过程：给定线性无关向量 $v_1,\dots,v_n$，递归构造正交向量 $u_1,\dots,u_n$，再单位化得标准正交 $e_1,\dots,e_n$： $$u_1=v_1,\qquad u_k=v_k-\sum_{j=1}^{k-1}\frac{\langle v_k,u_j\rangle}{\langle u_j,u_j\rangle}u_j\quad(k=2,\dots,n),\qquad e_k=\frac{u_k}{\|u_k\|}.$$

几何直觉：$u_k$ 是把 $v_k$ **减去它在前面所有 $u_j$（已两两正交）方向上的投影**后剩下的"新方向"。投影 $\frac{\langle v_k,u_j\rangle}{\langle u_j,u_j\rangle}u_j$ 正是 §A2b.3 证明二里那个最佳逼近系数（一维最小二乘）。减掉所有旧方向的投影，剩下的 $u_k$ 必与所有 $u_j$（$j<k$）正交——这就是构造的核心。

正交性验证（归纳法）：假设 $u_1,\dots,u_{k-1}$ 已两两正交。验证 $u_k\perp u_m$ 对任意 $m<k$： $$\langle u_k,u_m\rangle=\langle v_k,u_m\rangle-\sum_{j=1}^{k-1}\frac{\langle v_k,u_j\rangle}{\langle u_j,u_j\rangle}\langle u_j,u_m\rangle.$$ 由归纳假设 $\langle u_j,u_m\rangle=0$ 除非 $j=m$，求和只剩 $j=m$ 项： $$\langle u_k,u_m\rangle=\langle v_k,u_m\rangle-\frac{\langle v_k,u_m\rangle}{\langle u_m,u_m\rangle}\langle u_m,u_m\rangle=\langle v_k,u_m\rangle-\langle v_k,u_m\rangle=0.$$ 故 $u_k$ 与所有前驱正交，归纳完成。又因 $v_k$ 不在 $\operatorname{span}\{v_1,\dots,v_{k-1}\}=\operatorname{span}\{u_1,\dots,u_{k-1}\}$ 中（线性无关），$u_k\ne 0$，可单位化。$\blacksquare$

§A2b.7.2 关键不变量：张成空间逐级相等¶

Gram–Schmidt 有一条至关重要的结构性质，是 QR 分解的根基：

定理（张成保持）：对每个 $k$，$\operatorname{span}\{u_1,\dots,u_k\}=\operatorname{span}\{v_1,\dots,v_k\}=\operatorname{span}\{e_1,\dots,e_k\}$。

证明：归纳。$k=1$ 时 $u_1=v_1$ 显然。设 $k-1$ 成立。$u_k=v_k-\sum_{j<k}(\cdots)u_j$，右端 $u_j\in\operatorname{span}\{v_1,\dots,v_{k-1}\}$（归纳假设），故 $u_k\in\operatorname{span}\{v_1,\dots,v_k\}$；反之 $v_k=u_k+\sum_{j<k}(\cdots)u_j\in\operatorname{span}\{u_1,\dots,u_k\}$。两个张成空间维数相同且互相包含，相等。$\blacksquare$

这条"逐级张成相等"意味着：$v_k$ 只用到 $e_1,\dots,e_k$（前 $k$ 个），不涉及更靠后的 $e$。这种"下三角"的依赖关系，正是 QR 分解里 $R$ 上三角的来源。

§A2b.7.3 QR 分解¶

把 Gram–Schmidt 写成矩阵语言，立刻得到 QR 分解。设 $A=[v_1\mid\cdots\mid v_n]$ 是列满秩矩阵（列为 $v_i$）。

由 §A2b.7.2，每个 $v_k\in\operatorname{span}\{e_1,\dots,e_k\}$，故 $v_k=\sum_{i=1}^k r_{ik}e_i$，其中 $r_{ik}=\langle v_k,e_i\rangle$（Fourier 系数），且当 $i>k$ 时 $r_{ik}=0$。写成矩阵：

QR 分解：列满秩矩阵 $A\in F^{m\times n}$（$m\ge n$）可唯一分解为 $$A=QR,$$ 其中 $Q=[e_1\mid\cdots\mid e_n]\in F^{m\times n}$ 列标准正交（$Q^*Q=I_n$），$R\in F^{n\times n}$ 上三角且对角元 $r_{kk}=\|u_k\|>0$。

矩阵元 $r_{ik}=\langle v_k,e_i\rangle$（$i\le k$），对角 $r_{kk}=\langle v_k,e_k\rangle=\|u_k\|$。$R$ 上三角正是"$v_k$ 只用前 $k$ 个 $e$"的矩阵化。

唯一性：若 $A=Q_1R_1=Q_2R_2$ 都满足条件，则 $Q_2^*Q_1=R_2R_1^{-1}$ 既是上三角（右端）又满足 $(Q_2^*Q_1)^*(Q_2^*Q_1)=I$（左端列正交）——上三角的正交矩阵且对角正，必是单位阵，故 $Q_1=Q_2,R_1=R_2$。$\blacksquare$

本质洞察：QR 分解的本质是"把一组斜的、长短不一的基向量（$A$ 的列）正交标准化，并把'怎么从正交基拼回原向量'的配方记录在上三角 $R$ 里"。$Q$ 装"扶正后的方向"，$R$ 装"原向量在新方向下的坐标"。因为 Gram–Schmidt 是"逐级"的（第 $k$ 列只依赖前 $k$ 个正交方向），$R$ 必然上三角。这个"正交部分 + 三角部分"的分工，是数值线性代数的核心范式之一（与 LU 的"下三角 × 上三角"、Cholesky 的"$LL^*$"并列）。

§A2b.7.4 数值警示：经典 vs 修正 Gram–Schmidt¶

理论上经典 Gram–Schmidt（CGS）和修正 Gram–Schmidt（MGS）等价，但**浮点运算下行为天差地别**。

经典 GS（CGS）：一次性算出 $v_k$ 对所有前驱的投影 $\frac{\langle v_k,u_j\rangle}{\langle u_j,u_j\rangle}$（都用原始 $v_k$）。问题：当 $v_k$ 与前驱接近共线时，舍入误差累积，算出的 $e_k$ 会**严重偏离正交**（$Q^*Q$ 远离 $I$）。
修正 GS（MGS）：每减一个投影就**更新** $v_k$，下一个投影用更新后的向量算。数学上等价，但数值上正交性损失小一个量级。

实践中估计/SLAM 求解器若手写 QR，应用 MGS 或更稳的 Householder 反射 / Givens 旋转（它们用正交变换而非减投影，正交性由构造保证，最稳）。这是"数学等价 $\neq$ 数值等价"的经典案例。

理论-工程桥接：QR 分解是机器人状态估计的**主力数值引擎**。最小二乘 $\min_x\|Ax-b\|^2$ 的法方程 $A^*Ax=A^*b$（§A2b.11）若直接解，条件数是 $A$ 的平方（$\kappa(A^*A)=\kappa(A)^2$），病态时灾难性放大误差。改用 QR：$A=QR\Rightarrow Rx=Q^*b$，条件数只有 $\kappa(A)$，且 $R$ 上三角可回代速解。因子图 SLAM 的"平方根信息滤波"（square-root SAM, Dellaert-Kaess）正是用 QR/Cholesky 把信息矩阵 $\Lambda=A^*A$ 的平方根 $R$ 直接维护，避免显式形成 $\Lambda$ 而保持数值稳定。增量平滑（iSAM）更进一步，用 Givens 旋转增量更新 $R$，每来一个新测量只做局部正交变换——这就是 Gram–Schmidt 思想在实时 SLAM 中的化身。

⚠️ 常见陷阱¶

🧠 思维陷阱：以为 CGS 和 MGS 数值上一样 - 新手想法："修正 Gram–Schmidt 只是换个写法，结果一样。" - 现象/后果：手写求解器用 CGS，在病态问题（近共线列）上 $Q$ 严重失正交，最小二乘解漂移。 - 根本原因：CGS 用原始 $v_k$ 算所有投影，舍入误差不被后续步骤吸收；MGS 边减边更新，误差被局部化。 - 正确做法：数值场合用 MGS、Householder 或 Givens；CGS 仅用于教学推导。

💡 概念误区：以为 Gram–Schmidt 能直接处理线性相关向量 - 新手想法："输入随便一组向量，Gram–Schmidt 都能正交化。" - 现象/后果：若 $v_k$ 落在前驱张成空间里，$u_k=0$，单位化时除以零，算法崩溃。 - 根本原因：过程要求输入**线性无关**；相关向量产生零余量。 - 正确做法：先确认线性无关；若可能相关，用"带主元的 QR"或 SVD，遇 $u_k=0$ 跳过该向量（对应秩亏）。

💡 概念误区：把 $R$ 的对角元符号搞错 - 新手想法："QR 分解唯一。" - 现象/后果：不同软件给出的 $Q,R$ 差若干列/行的符号，误以为算错。 - 根本原因：QR 唯一性需附加"$R$ 对角元为正"的约定；不加约定时 $Q\to QD$、$R\to D^{-1}R$（$D$ 为 $\pm1$ 对角阵）也是合法分解。 - 正确做法：比较 QR 结果时统一"$R$ 对角正"约定，或只比较 $QR$ 的乘积与张成空间。

练习¶

1.（计算题）对 $v_1=(1,1,1),v_2=(1,1,0),v_3=(1,0,0)$ 手动执行 Gram–Schmidt，写出 $u_1,u_2,u_3$ 与标准正交 $e_1,e_2,e_3$，并据此写出 $A=[v_1\,v_2\,v_3]$ 的 QR 分解。（在草稿纸上完成，验证 $Q^{\mathsf T}Q=I$、$R$ 上三角。）

2.（证明题）证明 QR 分解中 $r_{kk}=\|u_k\|=\dfrac{\operatorname{vol}_k(v_1,\dots,v_k)}{\operatorname{vol}_{k-1}(v_1,\dots,v_{k-1})}$，即对角元是"逐级体积比"。（提示：$\prod_{j\le k}\|u_j\|=\operatorname{vol}_k$ 是 $k$ 维平行体体积，连接 §A2b.R 的 Gram 行列式。）

3.（开放思考题）共轭梯度法（CG）在 Krylov 子空间 $\{b,Ab,A^2b,\dots\}$ 上做"$A$-内积"下的 Gram–Schmidt。为什么用 $A$-内积 $\langle x,y\rangle_A=x^{\mathsf T}Ay$ 而非标准内积？这样正交化出的方向有什么特殊性质（"$A$-共轭"）？（连接 §A2b.1 例 5 加权内积。）

§A2b.8 标准正交基的存在性与扩充 ⭐⭐¶

动机：把构造性算法升级为存在性定理¶

§A2b.7 的 Gram–Schmidt 实际上已经"顺便"证明了标准正交基的存在——只要把任意一个基喂进去就行。本节把这个结论正式陈述，并补上一个常用的加强版："任意标准正交集都能扩充成标准正交基"。后者在证明谱定理、构造不变子空间的正交补时反复用到（§A2c）。

理论：存在性与扩充定理¶

§A2b.8.1 存在性定理¶

定理（标准正交基存在性）：每个有限维内积空间 $V$（$\dim V=n\ge 1$）都有标准正交基。

证明：$V$ 有限维，故有基 $\{v_1,\dots,v_n\}$（A2a 结论）。对它执行 Gram–Schmidt（§A2b.7），得标准正交集 $\{e_1,\dots,e_n\}$。由 §A2b.6.2 它线性无关，又含 $n=\dim V$ 个向量，故是基。$\blacksquare$

这是一个"算法即证明"的典范：存在性不靠抽象的选择公理，而靠一个能真正跑出结果的过程。有限维下我们永远能算出标准正交基。

§A2b.8.2 扩充定理¶

定理（标准正交扩充）：$V$ 中任意标准正交集 $\{e_1,\dots,e_k\}$（$k<n$）都能扩充为 $V$ 的标准正交基 $\{e_1,\dots,e_k,e_{k+1},\dots,e_n\}$。

证明：标准正交集线性无关（§A2b.6.2），由 A2a 的基扩充定理，可补 $v_{k+1},\dots,v_n$ 使 $\{e_1,\dots,e_k,v_{k+1},\dots,v_n\}$ 成基。对**后补的部分**做 Gram–Schmidt（前 $k$ 个保持不动，因为它们已标准正交，减投影时只减到自己之前的），得到 $e_{k+1},\dots,e_n$，与原 $e_1,\dots,e_k$ 合为标准正交基。$\blacksquare$

本质洞察：扩充定理的精神是"正交性是可以局部固定、向外生长的"。已经摆好的正交方向不必推倒重来，只需在它们的正交补里继续找方向填满空间。这与代数补的基扩充（A2a）形成对照：代数补的扩充有无穷多种选择且不唯一，而正交扩充虽然新向量仍可旋转，但"新方向必须落在已有方向的正交补里"这个约束是刚性的。这条性质是 §A2c 谱定理归纳证明的引擎——每找到一个特征向量，就在它的正交补（一个低一维的不变子空间）里递归。

理论-工程桥接：扩充定理在机器人里对应"给定若干约束方向，补全一组正交标架"。例如已知机械臂末端某两个受约束的笛卡尔方向（如装配任务中必须保持的接触法向），要构造完整的任务空间正交标架以分解力/速度，就是把这两个方向标准正交化后扩充成 $\mathbb{R}^6$（或 $SE(3)$ 切空间）的标准正交基——约束方向与自由方向自动正交分离，这正是混合力/位置控制（hybrid force/position control）选择矩阵的几何基础。

⚠️ 常见陷阱¶

💡 概念误区：以为扩充时要对所有向量重新正交化 - 新手想法："扩充标准正交集，得把已有的也一起重新做 Gram–Schmidt。" - 现象/后果：浪费计算，甚至因数值误差破坏原本精确的正交向量。 - 根本原因：没注意已标准正交的部分在 Gram–Schmidt 中是"不动点"。 - 正确做法：只对新补的向量做正交化，前 $k$ 个保持原样。

🧠 思维陷阱：把"存在"误解为"唯一" - 新手想法："标准正交基存在，所以它是唯一的。" - 现象/后果：以为 $V$ 只有一组标准正交基，遇到不同算法给出不同 ONB 时困惑。 - 根本原因：标准正交基有无穷多组（任意正交/酉变换作用都得到新的 ONB）。 - 正确做法：存在性 $\neq$ 唯一性；所有标准正交基之间差一个正交（实）/酉（复）变换。

练习¶

1.（计算题）把 $\mathbb{R}^3$ 中标准正交集 $\{\frac{1}{\sqrt2}(1,1,0)\}$ 扩充为标准正交基。（提示：在它的正交补里取两个无关向量做 Gram–Schmidt。）

2.（证明题）证明：$V$ 的两组标准正交基 $\{e_i\}$ 与 $\{f_i\}$ 之间的过渡矩阵 $P$（$f_j=\sum_i P_{ij}e_i$）满足 $P^*P=I$，即是酉（实情况正交）矩阵。（在草稿纸上用 $\langle f_j,f_k\rangle=\delta_{jk}$ 推。）

3.（开放思考题）扩充定理在无穷维（如 $L^2$）还成立吗？需要把"基"换成什么概念（提示：Hilbert 基/完备标准正交系），需要哪条有限维没有的假设（提示：Zorn 引理 + 完备性）？

§A2b.9 正交补 ⭐⭐⭐¶

动机：每个子空间都自带一个"垂直方向"的集合¶

给定子空间 $W\subseteq V$，一个极自然的问题是："哪些向量与 $W$ 里**所有**向量都垂直？"这些向量构成的集合就是**正交补** $W^\perp$。它是 A2a 零化子 $W^\circ$ 的"内积版"——零化子用泛函刻画"消灭 $W$"，正交补用内积刻画"垂直于 $W$"。正交补是正交分解（§A2b.10）、最佳逼近（§A2b.11）、四个基本子空间（§A2b.15）的共同基石。

如果不这样做会怎样：没有正交补，"投影"无处落脚¶

我们想把向量 $x$ 分解成"在 $W$ 里的部分"加"垂直于 $W$ 的部分"。"垂直于 $W$ 的部分"必须落在某个明确的集合里——那就是 $W^\perp$。如果不先把 $W^\perp$ 定义清楚、证明它是子空间且 $V=W\oplus W^\perp$，"正交投影"就没有定义域和值域，最佳逼近定理（机器人最小二乘的理论核心）也无从建立。

理论：定义与基本性质¶

§A2b.9.1 定义与子空间性¶

定义（正交补）：子空间 $W\subseteq V$ 的**正交补**为 $$W^\perp:=\{v\in V:\langle v,w\rangle=0\ \forall w\in W\}.$$

命题：$W^\perp$ 是 $V$ 的子空间。

证明：$0\in W^\perp$（$\langle 0,w\rangle=0$）。若 $u,v\in W^\perp$，$\lambda$ 标量，则对所有 $w\in W$，$\langle\lambda u+v,w\rangle=\lambda\langle u,w\rangle+\langle v,w\rangle=0$，故 $\lambda u+v\in W^\perp$。$\blacksquare$

注意：即便 $W$ 只是一个张成集（未必子空间），$W^\perp$ 仍是子空间，且 $W^\perp=(\operatorname{span}W)^\perp$——因为与一组向量都正交等价于与它们的所有线性组合都正交。验证子空间性时只需检验 $W$ 的一组生成元。

§A2b.9.2 基本性质清单¶

性质：设 $W,U$ 是 $V$ 的子空间。 1. $W\cap W^\perp=\{0\}$（唯一同时属于两者的是零向量）； 2. $W\subseteq U\Rightarrow U^\perp\subseteq W^\perp$（取补反序）； 3. $\{0\}^\perp=V$，$V^\perp=\{0\}$； 4. （有限维）$W\subseteq(W^\perp)^\perp$，且下节将证等号 $(W^\perp)^\perp=W$。

证明（性质 1）：若 $v\in W\cap W^\perp$，则 $v\perp v$ 即 $\langle v,v\rangle=0$，由正定性 $v=0$。$\blacksquare$ —— 这一步是正定性的直接威力：一个向量若与"包括自己在内的所有 $W$ 向量"正交，它只能是零。

证明（性质 2）：$v\in U^\perp\Rightarrow v\perp$ 所有 $U$ 向量 $\Rightarrow v\perp$ 所有 $W$ 向量（因 $W\subseteq U$）$\Rightarrow v\in W^\perp$。$\blacksquare$

本质洞察：性质 1（$W\cap W^\perp=\{0\}$）是正交分解唯一性的全部秘密。代数补 $V=W\oplus U$ 里的 $U$ 不唯一（有无穷多个补），但正交补 $W^\perp$ 是**唯一**的——因为它由"垂直"这个度量条件唯一确定，没有自由度。正定性保证 $W$ 和 $W^\perp$ 只在原点相交，于是 $W+W^\perp$ 自动是直和。这把 A2a 里"不唯一的代数补"收紧成"唯一的正交补"，是内积带来的关键升级。

§A2b.9.3 与零化子 $W^\circ$ 的对照（预告 §A2b.13）¶

A2a 的零化子 $W^\circ=\{\varphi\in V^*:\varphi|_W=0\}\subseteq V^*$ 与正交补 $W^\perp\subseteq V$ 形式相似但**住在不同空间**：$W^\circ$ 在对偶空间 $V^*$ 里，$W^\perp$ 在原空间 $V$ 里。它们的维数公式相同： $$\dim W+\dim W^\circ=\dim V\quad(\text{A2a}),\qquad\dim W+\dim W^\perp=\dim V\quad(\text{下节证}).$$ §A2b.13 将证明 Riesz 同构 $V\cong V^*$ 恰好把 $W^\perp$ 一一映到 $W^\circ$——这是"正交补就是零化子在内积视角下的化身"的精确表述。现在只需记住：两者形似，维数公式同，但一个用内积（$W^\perp$）一个用泛函（$W^\circ$）。

⚠️ 常见陷阱¶

💡 概念误区：把正交补 $W^\perp$ 和零化子 $W^\circ$ 当成一回事 - 新手想法："$W^\perp$ 和 $W^\circ$ 不就是一个东西吗。" - 现象/后果：在没有内积的纯向量空间里谈 $W^\perp$（错，那只有 $W^\circ$），或在 $V^*$ 和 $V$ 之间张冠李戴。 - 根本原因：$W^\circ\subseteq V^*$ 不需要内积；$W^\perp\subseteq V$ 需要内积。它们经 Riesz 同构对应但不是同一对象。 - 正确做法：没有内积只能谈 $W^\circ$（A2a）；有内积才能谈 $W^\perp$；§A2b.13 给出二者的精确桥梁。

🧠 思维陷阱：无穷维直接用 $(W^\perp)^\perp=W$ - 新手想法："正交补的正交补等于自己，永远成立。" - 现象/后果：在无穷维（如 $L^2$）对**不闭**的子空间套用 $(W^\perp)^\perp=W$，得到错误结论。 - 根本原因：$(W^\perp)^\perp$ 等于 $W$ 的**闭包**；有限维子空间总闭故等号成立，无穷维不闭时 $(W^\perp)^\perp=\overline{W}\supsetneq W$。 - 正确做法：有限维放心用 $(W^\perp)^\perp=W$；无穷维须先确认 $W$ 闭（留待 B3）。

💡 概念误区：以为 $W^\perp$ 是 $W$ 的"补集" - 新手想法："$W^\perp$ 是不在 $W$ 里的那些向量。" - 现象/后果：把集合补 $V\setminus W$ 与正交补 $W^\perp$ 混淆。 - 根本原因：$W^\perp$ 是**垂直**于 $W$ 的子空间，不是集合意义的补；二者只在原点相交但远非互补集（$V\setminus W$ 甚至不是子空间）。 - 正确做法：$W^\perp$ 是子空间，满足 $W\oplus W^\perp=V$（直和补），不是集合补。

练习¶

1.（计算题）在 $\mathbb{R}^4$ 中求 $W=\operatorname{span}\{(1,1,0,0),(0,1,1,0)\}$ 的正交补 $W^\perp$（写出 $W^\perp$ 的一组基），并验证 $\dim W+\dim W^\perp=4$。

2.（证明题）证明性质 4 的包含 $W\subseteq(W^\perp)^\perp$（不必证等号）。（提示：取 $w\in W$，证它与所有 $W^\perp$ 向量正交。在草稿纸上完成。）

3.（开放思考题）对矩阵 $A$，行空间 $\operatorname{row}(A)$ 与零空间 $\ker A$ 在 $\mathbb{R}^n$ 中互为正交补（§A2b.15 将证）。请先用"$Ax=0\iff x$ 与 $A$ 每行正交"这一观察，直观说明 $\ker A=(\operatorname{row}A)^\perp$ 为什么成立。

§A2b.10 正交分解 $V=W\oplus W^\perp$ ⭐⭐⭐¶

动机：把空间"垂直地"劈成两半¶

§A2b.9 定义了 $W^\perp$ 并证明 $W\cap W^\perp=\{0\}$。现在要证明决定性的一步：$W$ 和 $W^\perp$ 合起来填满整个 $V$，即 $V=W\oplus W^\perp$。这意味着每个向量 $x$ 都能**唯一**地写成"$W$ 分量 + $W^\perp$ 分量"。这个唯一分解是正交投影的定义基础，也是"条件期望 = 正交投影"（Kalman 的灵魂）的数学骨架。

如果不这样做会怎样：没有 $V=W\oplus W^\perp$，投影可能无定义或不唯一¶

若只有 $W\cap W^\perp=\{0\}$ 而没证 $W+W^\perp=V$，可能存在向量 $x$ **既不在 $W$ 里、也无法分解**为两部分之和——投影 $P_Wx$ 就没有定义。反过来若分解不唯一，投影是多值的，"最佳逼近"也不唯一。必须严格证明"存在且唯一"，整套投影理论才站得住。Gram–Schmidt 在这里再次充当构造工具。

理论：分解定理与维数公式¶

§A2b.10.1 正交分解定理¶

定理（正交分解）：设 $W$ 是有限维内积空间 $V$ 的子空间。则 $$V=W\oplus W^\perp,$$ 即每个 $v\in V$ 唯一地写成 $v=w+w'$，其中 $w\in W$，$w'\in W^\perp$。

证明（构造性，用标准正交基）：取 $W$ 的标准正交基 $\{e_1,\dots,e_k\}$（§A2b.8 存在）。对任意 $v\in V$，定义 $$w:=\sum_{i=1}^k\langle v,e_i\rangle e_i\in W,\qquad w':=v-w.$$ 显然 $v=w+w'$，$w\in W$。验证 $w'\in W^\perp$：只需 $w'\perp e_j$ 对每个 $j\le k$（因 $e_j$ 张成 $W$）： $$\langle w',e_j\rangle=\langle v,e_j\rangle-\sum_i\langle v,e_i\rangle\langle e_i,e_j\rangle=\langle v,e_j\rangle-\langle v,e_j\rangle=0.$$ 故存在性成立。唯一性：若 $v=w_1+w_1'=w_2+w_2'$（两个分解），则 $w_1-w_2=w_2'-w_1'$，左端 $\in W$，右端 $\in W^\perp$，故同时属于 $W\cap W^\perp=\{0\}$，得 $w_1=w_2$、$w_1'=w_2'$。$\blacksquare$

这个 $w=\sum_i\langle v,e_i\rangle e_i$ 正是 §A2b.6.4 Bessel 不等式里的"投影 $p$"——现在我们正式确认它是 $v$ 在 $W$ 上的正交投影，且这种分解唯一。

§A2b.10.2 维数公式与双重正交补¶

推论（维数公式）：$\dim W+\dim W^\perp=\dim V$。

证明：直和 $V=W\oplus W^\perp$ 的维数相加（A2a 直和维数公式）。$\blacksquare$

推论（双重正交补）：有限维下 $(W^\perp)^\perp=W$。

证明：由 §A2b.9 性质 4，$W\subseteq(W^\perp)^\perp$。又由维数公式两次：$\dim(W^\perp)^\perp=\dim V-\dim W^\perp=\dim V-(\dim V-\dim W)=\dim W$。维数相等 + 包含，故 $(W^\perp)^\perp=W$。$\blacksquare$

双重正交补 $(W^\perp)^\perp=W$ 在有限维是干净的等式，说明"取正交补"是一个**对合**（involution，做两次回到原处）。这对应 §A2b.15 四个基本子空间里 $\operatorname{row}(A)=(\ker A)^\perp$ 与 $\ker A=(\operatorname{row}A)^\perp$ 的互补关系。

本质洞察：正交分解 $V=W\oplus W^\perp$ 是内积空间区别于裸向量空间的**标志性结构**。裸空间里子空间 $W$ 有无穷多个代数补，没有"典范"的那一个；一旦装上内积，$W^\perp$ 脱颖而出成为**唯一的、几何上垂直的**补。"唯一性"带来了"投影算子唯一"，进而"最佳逼近唯一"。从信息论角度看，这个分解就是"把信号 $v$ 拆成'能被 $W$ 解释的部分 $w$'和'$W$ 解释不了的残差 $w'$'"——残差与 $W$ 正交，意味着"$W$ 已榨干了 $v$ 在该方向的全部信息"。这正是 Kalman 滤波"新息与历史观测正交"的几何本质。

理论-工程桥接：正交分解是**卡尔曼滤波与最小二乘的统一框架**。把"所有历史观测张成的子空间"记为 $W$，当前状态的最优估计就是真值在 $W$ 上的正交投影 $\hat x=P_W x$，估计误差 $x-\hat x\in W^\perp$ 与所有观测正交——这就是"正交性原理"（orthogonality principle），Kalman 滤波的核心定理。每来一个新观测 $z$，把它正交分解成"已被 $W$ 预测的部分"和"新信息（新息 innovation）$z-\hat z\in W^\perp$"，用新息更新估计。协方差更新公式 $P^+=P^--KHP^-$ 本质就是 Pythagoras 定理：投影后误差的"长度平方"等于投影前减去新息贡献。 §A2b.11 会把这套思想精确化为最佳逼近定理。

⚠️ 常见陷阱¶

💡 概念误区：以为代数补和正交补一样唯一 - 新手想法："$V=W\oplus U$ 的补 $U$ 和 $W^\perp$ 差不多。" - 现象/后果：在需要唯一分解（如投影）的地方用了任意代数补，得到非正交、不唯一的"投影"。 - 根本原因：代数补不唯一（无穷多个），正交补唯一（由垂直条件锁定）。 - 正确做法：要唯一的、几何垂直的分解必须用 $W^\perp$；普通直和补不行。

🧠 思维陷阱：无穷维直接断言 $V=W\oplus W^\perp$ - 新手想法："正交分解定理对任意内积空间成立。" - 现象/后果：在无穷维对不完备空间或不闭子空间套用，分解可能不存在（某些 $v$ 投影不存在）。 - 根本原因：定理证明用了"$W$ 有标准正交基"（有限维）或"$V$ 完备 + $W$ 闭"（Hilbert 投影定理）。 - 正确做法：有限维无条件成立；无穷维需 $V$ 是 Hilbert 空间且 $W$ 是闭子空间（B3 的投影定理）。

💡 概念误区：忘记 $(W^\perp)^\perp=W$ 需要有限维（或闭） - 新手想法："双重正交补永远等于自己。" - 现象/后果：无穷维对不闭子空间用，得 $(W^\perp)^\perp=\overline W\ne W$。 - 根本原因：维数论证只在有限维有效；无穷维要用闭包。 - 正确做法：有限维 $(W^\perp)^\perp=W$；无穷维 $(W^\perp)^\perp=\overline W$。

练习¶

1.（计算题）承 §A2b.9 练习 1 的 $W=\operatorname{span}\{(1,1,0,0),(0,1,1,0)\}\subseteq\mathbb{R}^4$，把 $v=(1,2,3,4)$ 正交分解为 $v=w+w'$（$w\in W$，$w'\in W^\perp$），并验证 $\langle w,w'\rangle=0$。

2.（证明题）用正交分解定理证明：对任意子空间 $W$，投影到 $W$ 的映射 $P_W:v\mapsto w$（$v=w+w'$ 的 $W$ 分量）是良定义的线性映射。（在草稿纸上验证良定义性来自分解唯一性。）

3.（综合题，连接 §A2a）零化子满足 $\dim W+\dim W^\circ=\dim V$，正交补满足 $\dim W+\dim W^\perp=\dim V$。请论证：这两个维数公式虽然形式相同，但 $W^\circ$ 的证明（A2a）不需要内积，而 $W^\perp$ 的证明（本节）用了标准正交基（依赖内积）。这种"殊途同归"暗示了 §A2b.13 的什么结论？

§A2b.11 正交投影、最佳逼近与最小二乘 ⭐⭐⭐¶

本节是整个 A2b 的"应用枢纽"。前面所有几何结构（内积、正交、分解）在这里汇聚成一个工程上极度重要的结论：正交投影 = 最佳逼近 = 最小二乘解。机器人状态估计的全部数学根基都在这一节。

动机：在子空间里找离目标最近的点¶

工程中无处不在的问题：给定一个目标向量 $b$ 和一个子空间 $W$（模型能表达的所有向量），在 $W$ 里找一个 $\hat b$ 使它**离 $b$ 最近**（$\|b-\hat b\|$ 最小）。这就是最佳逼近问题。它的答案出奇地简单优美：$\hat b$ 就是 $b$ 在 $W$ 上的**正交投影**。"最近"和"垂直"这两个看似不同的概念在内积空间里完全等价——这是内积几何最美的定理之一。

如果不这样做会怎样：超定方程组的困境¶

机器人里测量方程 $Ax=b$ 几乎总是**超定**的（方程比未知数多：观测冗余）。例如用 100 个带噪声的距离测量估计 3 维位置，$A$ 是 $100\times 3$ 矩阵，$Ax=b$ 一般**无解**（100 个等式不可能同时满足）。怎么办？退而求其次：找 $x$ 使 $Ax$ 尽可能接近 $b$，即 $\min_x\|Ax-b\|^2$。这就把"无解的方程组"转化成"可解的最优化问题"。但要保证这个最优 $x$ 存在、唯一、可计算，必须有最佳逼近定理 + 正交投影理论撑腰。没有它，超定问题就是死胡同。

理论：投影算子、最佳逼近定理、法方程¶

§A2b.11.1 正交投影算子的定义与性质¶

由 §A2b.10 正交分解 $V=W\oplus W^\perp$，每个 $v$ 唯一写成 $v=w+w'$。

定义（正交投影）：映射 $P_W:V\to V$，$P_Wv:=w$（$v$ 的 $W$ 分量），称为 $V$ 到 $W$ 的**正交投影**（orthogonal projection）。

用 $W$ 的标准正交基 $\{e_1,\dots,e_k\}$，有显式公式 $P_Wv=\sum_{i=1}^k\langle v,e_i\rangle e_i$。

性质：正交投影 $P_W$ 满足 1. 线性：$P_W\in L(V)$； 2. 幂等（idempotent）：$P_W^2=P_W$（投影两次等于投影一次）； 3. 自伴（self-adjoint）：$\langle P_Wu,v\rangle=\langle u,P_Wv\rangle$（§A2b.14 后回看，这是"正交"投影区别于"斜"投影的标志）； 4. $\operatorname{im}P_W=W$，$\ker P_W=W^\perp$，$I-P_W=P_{W^\perp}$。

证明（幂等）：对 $v=w+w'$，$P_Wv=w\in W$，再投影 $P_W(w)=w$（$w$ 的 $W$ 分量是自己），故 $P_W^2v=P_Wv$。$\blacksquare$ 证明（自伴）：写 $u=w_1+w_1'$，$v=w_2+w_2'$。$\langle P_Wu,v\rangle=\langle w_1,w_2+w_2'\rangle=\langle w_1,w_2\rangle$（$w_1\perp w_2'$）。同理 $\langle u,P_Wv\rangle=\langle w_1+w_1',w_2\rangle=\langle w_1,w_2\rangle$。两者相等。$\blacksquare$

本质洞察：幂等性 $P^2=P$ 是"一切投影（含斜投影）"的共性，而自伴性 $P^*=P$ 是"正交**投影"的专属标志。一个幂等算子 $P^2=P$ 总把空间分解成 $\operatorname{im}P\oplus\ker P$，但这个分解未必正交（斜投影：沿某个非垂直方向投）。只有当 $\ker P\perp\operatorname{im}P$（即 $P$ 自伴）时才是正交投影。记住这条判据：**幂等 = 投影，幂等 + 自伴 = 正交投影。§A2b.17 讲算子分类时这条会再次出现。

§A2b.11.2 最佳逼近定理¶

定理（最佳逼近）：设 $W$ 是有限维内积空间 $V$ 的子空间，$v\in V$。则在所有 $w\in W$ 中，$\|v-w\|$ 在 $w=P_Wv$ 处**唯一**取得最小值。即正交投影是 $v$ 在 $W$ 中的唯一最佳逼近。

证明（Pythagoras 一击致命）：记 $p=P_Wv$。对任意 $w\in W$，把 $v-w$ 拆成 $$v-w=\underbrace{(v-p)}_{\in W^\perp}+\underbrace{(p-w)}_{\in W}.$$ 第一项 $v-p=P_{W^\perp}v\in W^\perp$，第二项 $p-w\in W$（两个 $W$ 向量之差），二者**正交**。由 Pythagoras： $$\|v-w\|^2=\|v-p\|^2+\|p-w\|^2\ge\|v-p\|^2,$$ 等号成立 $\iff\|p-w\|^2=0\iff w=p$。故 $w=p=P_Wv$ 是唯一最小值点。$\blacksquare$

这个证明短得惊人，全部威力来自"把误差 $v-w$ 正交分解后用 Pythagoras"。它把一个**最优化问题**（找最小值）化归为一个**几何事实**（直角三角形斜边最长）。

本质洞察：最佳逼近定理的精髓是"垂直即最近"。直觉图像：你站在直线/平面 $W$ 外一点 $v$，要走到 $W$ 上离你最近的点，必然沿**垂直**方向落脚——斜着走总是更远（多走了 $\|p-w\|$ 那条直角边）。这条"垂线最短"的中学几何常识，被内积公理化后升级为任意维、任意内积空间的普遍定理。机器人里"最优估计 = 把真值垂直投影到观测空间"、"最优控制 = 把目标垂直投影到可达集"，全是这条定理的化身。

§A2b.11.3 最小二乘与法方程¶

现在把最佳逼近用矩阵语言写出来，得到机器人最常用的公式。设 $A\in F^{m\times n}$（$m\ge n$，列满秩），目标 $b\in F^m$。子空间取 $W=\operatorname{im}A=\{Ax:x\in F^n\}$（$A$ 的列空间）。最小二乘问题： $$\min_{x\in F^n}\|Ax-b\|^2.$$ 由最佳逼近定理，最优 $A\hat x=P_Wb$ 是 $b$ 在列空间的投影，等价于**残差 $b-A\hat x\perp W=\operatorname{im}A$**。残差垂直于列空间 $\iff$ 残差垂直于 $A$ 的每一列 $\iff A^*(b-A\hat x)=0$：

定理（法方程 / Normal Equations）：$\min_x\|Ax-b\|^2$ 的解 $\hat x$ 满足 $$A^*A\,\hat x=A^*b.$$ 当 $A$ 列满秩时 $A^*A$ 可逆，解唯一：$\hat x=(A^*A)^{-1}A^*b$，且 $\hat b=A(A^*A)^{-1}A^*b=P_{\operatorname{im}A}\,b$。矩阵 $A^+:=(A^*A)^{-1}A^*$ 称为 $A$ 的（左）Moore–Penrose 伪逆。

推导：残差 $r=b-A\hat x$ 须 $\perp\operatorname{im}A$，即对所有 $x$，$\langle Ax,r\rangle=0$。用伴随（§A2b.14 将正式定义，这里先用其定义关系 $\langle Ax,r\rangle=\langle x,A^*r\rangle$）：$\langle x,A^*r\rangle=0\ \forall x\Rightarrow A^*r=0\Rightarrow A^*(b-A\hat x)=0\Rightarrow A^*A\hat x=A^*b$。$\blacksquare$

本质洞察：法方程 $A^*A\hat x=A^*b$ 的几何意义是"残差与每个观测方向正交"。$A^*A$ 是 Gram 矩阵（列与列的内积表），列满秩保证它正定可逆。投影矩阵 $P=A(A^*A)^{-1}A^*$ 自动满足 $P^2=P$（幂等）、$P^*=P$（自伴）——正是 §A2b.11.1 说的正交投影的两个标志。伪逆 $A^+$ 是"在无解时给出最佳近似解、在多解时给出最小范数解"的统一工具，§A2c 将用 SVD 给出它的完整形式。

理论-工程桥接（最小二乘的工程地图）：法方程是机器人三大估计范式的共同祖先： | 范式 | 形式 | 与法方程的关系 | |---|---|---| | 普通最小二乘 OLS | $\min\|Ax-b\|^2$ | $A^*A\hat x=A^*b$（标准内积投影）| | 加权最小二乘 WLS | $\min\|Ax-b\|_\Sigma^2$ | $A^*\Sigma^{-1}A\hat x=A^*\Sigma^{-1}b$（用协方差加权内积，§A2b.1 例 5）| | 卡尔曼/信息滤波 | 递归 WLS | 信息矩阵 $\Lambda=A^*\Sigma^{-1}A$，信息向量 $\eta=A^*\Sigma^{-1}b$ |

注意三者**只是内积选得不同**：OLS 用标准内积，WLS/Kalman 用 $\Sigma^{-1}$ 加权内积（马氏度量）。这呼应 §A2b.1"内积是外加结构，选哪个是物理问题"。数值上绝不直接解法方程（条件数平方），而用 §A2b.7 的 QR：$A=QR\Rightarrow R\hat x=Q^*b$；或 Cholesky $A^*A=LL^*$。因子图 SLAM 的"平方根 SAM"正是维护 $R$ 而非 $A^*A$，把条件数从 $\kappa^2$ 降回 $\kappa$。

§A2b.11.4 与 Kalman 滤波的桥接：正交性原理¶

把最佳逼近定理搬到 $L^2$ 随机变量空间（内积 $\langle X,Y\rangle=E[XY]$），就得到估计理论的核心。

设要用观测 $Z_1,\dots,Z_m$（张成子空间 $W=\operatorname{span}\{Z_i\}$）估计随机变量 $X$。线性最小均方误差估计（LMMSE）$\hat X$ 是使 $E[(X-\hat X)^2]=\|X-\hat X\|^2$ 最小的 $\hat X\in W$。由最佳逼近定理：

正交性原理（Orthogonality Principle）：最优估计 $\hat X=P_W X$ 是 $X$ 在观测空间 $W$ 上的正交投影；等价地，估计误差与所有观测正交： $$E[(X-\hat X)Z_i]=0,\quad i=1,\dots,m.$$

这条原理是 Kalman 滤波的灵魂，三个支柱性结论全部由它派生：

条件期望 = 正交投影：当 $(X,Z)$ 联合高斯时，$\hat X=E[X\mid Z]$ 恰是正交投影（线性估计达到全局最优）。
新息序列 = 观测的 Gram–Schmidt 正交化（§A2b.7）：把相关的观测序列 $\{Z_i\}$ 正交化成互不相关的"新息"$\{\nu_i\}$，估计可逐个新息独立更新——这就是 Kalman 滤波"递归"的来源。
协方差更新 = Pythagoras（§A2b.2.2）：$\|X-\hat X\|^2=\|X\|^2-\|\hat X\|^2$，即"投影后的误差能量 = 原能量 − 投影能量"，对应协方差更新 $P^+=P^--KHP^-$（不确定性因吸收新信息而下降）。

本质洞察（Kalman 的几何重述）：整个卡尔曼滤波可以**不写一个增益公式**地用内积几何讲完：状态真值是一个向量，每来一个观测就把观测空间 $W$ 扩大一维，最优估计始终是真值在 $W$ 上的正交投影；预测步把投影"推前"（沿动力学），更新步把 $W$ 扩张并重新投影。卡尔曼增益 $K$ 不过是"新息方向上的投影系数"（Fourier 系数的随机版）。理解了这一点，你就不再是背公式，而是**看到**滤波在 Hilbert 空间里发生。这正是 §A2b 开头"如果跳过会怎样·场景一"承诺要兑现的。详细的递归公式推导留给后续状态估计专题（本章只建立几何根基）。

⚠️ 常见陷阱¶

🧠 思维陷阱：把"最近"和"垂直"当成两件需要分别验证的事 - 新手想法："最佳逼近要先证它最近，再单独证它垂直。" - 现象/后果：绕弯路，或在某些场景只验证了垂直就以为没证最近（或反之）。 - 根本原因：没看清最佳逼近定理的精髓——"最近"与"垂直"在内积空间里**严格等价**，Pythagoras 一步打通。 - 正确做法：垂直 $\Rightarrow$（Pythagoras）最近，最近 $\Rightarrow$（变分/一阶条件）垂直，二者是同一事实的两面。

💡 概念误区：直接数值求解法方程 $A^*A x=A^*b$ - 新手想法："法方程有闭式解 $(A^*A)^{-1}A^*b$，直接算。" - 现象/后果：$A^*A$ 的条件数是 $\kappa(A)^2$，病态问题（如近退化构型的雅可比）误差被平方放大，解严重失准。 - 根本原因：显式形成 $A^*A$ 丢失了一半有效数字。 - 正确做法：用 QR（$R\hat x=Q^*b$）或 SVD 求解，条件数只有 $\kappa(A)$；大规模稀疏问题用 Cholesky + 排序（SAM）。

🧠 思维陷阱：以为最小二乘对异常值鲁棒 - 新手想法："最小二乘是最优估计，对坏数据也最优。" - 现象/后果：少数异常观测（outlier）就把估计拉偏（$L^2$ 对大残差平方惩罚，异常值权重过大）。 - 根本原因：$L^2$ 范数来自内积（§A2b.5′），优雅但对异常值敏感；鲁棒估计需 $L^1$ 或 Huber 等非内积范数。 - 正确做法：有异常值时用鲁棒核（Huber/Cauchy）或 RANSAC；它们的范数不来自内积，故无闭式法方程，须迭代（呼应 §A2b.5′ 桥接）。

💡 概念误区：忘记法方程要求列满秩 - 新手想法："$A^*A\hat x=A^*b$ 永远有唯一解。" - 现象/后果：$A$ 列相关（如观测不足、构型退化）时 $A^*A$ 奇异，$(A^*A)^{-1}$ 不存在，求逆崩溃。 - 根本原因：$A^*A$ 可逆 $\iff A$ 列满秩；秩亏时投影仍存在但 $x$ 不唯一。 - 正确做法：列满秩才能用 $(A^*A)^{-1}$；秩亏时用伪逆（SVD）取最小范数解，或加正则化（Tikhonov/阻尼最小二乘，机器人里的"阻尼伪逆"$（A^*A+\lambda I)^{-1}A^*$）。

练习¶

1.（计算题）用法方程求解超定方程组 $\min_x\|Ax-b\|^2$，其中 $A=\begin{pmatrix}1&0\\1&1\\1&2\end{pmatrix}$，$b=(1,2,2)^{\mathsf T}$（最小二乘拟合直线）。写出 $A^{\mathsf T}A$、$A^{\mathsf T}b$ 并解出 $\hat x$，再算投影 $\hat b=A\hat x$ 与残差 $b-\hat b$，验证残差 $\perp$ $A$ 的两列。

2.（证明题）证明正交投影矩阵 $P=A(A^*A)^{-1}A^*$（$A$ 列满秩）满足 $P^2=P$ 与 $P^*=P$。再证 $\operatorname{tr}(P)=\operatorname{rank}(A)$（提示：$\operatorname{tr}(P)=\operatorname{tr}((A^*A)^{-1}A^*A)=\operatorname{tr}(I_n)$）。在草稿纸上完成。

3.（开放思考题 / 跨章综合）用正交性原理推导"标量卡尔曼更新"：设先验估计 $\hat x^-$、观测 $z=hx+v$（$v$ 零均值方差 $r$，与先验误差无关），证明后验估计 $\hat x^+=\hat x^-+K(z-h\hat x^-)$ 中的增益 $K$ 由"新息 $z-h\hat x^-$ 与后验误差正交"决定，并解出 $K=\dfrac{p^-h}{h^2p^-+r}$。（综合 §A2b.7 新息、§A2b.10 正交分解、§A2b.11 正交性原理，在草稿纸上完成。）

§A2b.12 Riesz 表示定理 ⭐⭐⭐¶

进入支线二。从这里开始，内积几何与 A2a 的对偶理论交汇，最终生出"伴随算子"。Riesz 定理是这一切的入口。

动机：每个线性泛函都"是"一个向量¶

A2a 告诉我们，$V$ 上的线性泛函（$\varphi:V\to F$ 线性）构成对偶空间 $V^*$，它与 $V$ 同维但"长得不一样"——泛函是"吃向量吐标量"的机器，不是向量本身。现在有了内积，一个惊人的简化出现了：每个线性泛函都可以写成"与某个固定向量作内积"的形式。即对任意 $\varphi\in V^*$，存在唯一的 $u\in V$ 使 $\varphi(v)=\langle v,u\rangle$。这就是 Riesz 表示定理。它把抽象的"泛函"具体化为"向量"，是伴随算子存在性的唯一钥匙。

如果不这样做会怎样：伴随算子无从定义¶

我们想定义伴随 $T^*$，使 $\langle Tv,w\rangle=\langle v,T^*w\rangle$。固定 $w$，左边 $v\mapsto\langle Tv,w\rangle$ 是 $V$ 上的一个线性泛函。要找到"代表"它的向量（那就是 $T^*w$），必须有一条定理保证"任意线性泛函都由唯一向量代表"。没有 Riesz 定理，$T^*w$ 就没有定义，整个伴随理论塌方。Riesz 定理是伴随存在性证明的**唯一支点**。

历史：Riesz 与泛函分析的诞生¶

Frigyes Riesz（匈牙利数学家）在 1907 年研究 $L^2$ 空间的线性泛函时证明了这个定理（同年 Maurice Fréchet 独立得到），它是泛函分析的奠基性结果之一。在无穷维 Hilbert 空间，Riesz 表示定理需要"完备性 + 泛函有界（连续）"两个条件；在有限维则无条件成立。这个定理的深刻在于它建立了 $V$ 与 $V^*$ 之间一个**典范的**（不依赖基选择的）对应——而 A2a 的 $V\cong V^*$ 同构需要选基，不典范。内积提供了"典范同构"所缺的那把尺子。

理论：陈述、构造性证明、共轭线性¶

§A2b.12.1 定理与构造性证明¶

定理（Riesz 表示）：设 $V$ 是有限维内积空间，$\varphi\in V^*$ 是任一线性泛函。则存在**唯一**的 $u\in V$，使得 $$\varphi(v)=\langle v,u\rangle\quad\forall v\in V.$$

证明（构造性，用标准正交基）：取 $V$ 的标准正交基 $\{e_1,\dots,e_n\}$。构造 $u$：令 $$u:=\sum_{i=1}^n\overline{\varphi(e_i)}\,e_i.$$ （注意系数取了**共轭**——这是数学惯例第二变量共轭的代价，下面验证为何。）验证它代表 $\varphi$：对任意 $v=\sum_j\langle v,e_j\rangle e_j$， $$\langle v,u\rangle=\Big\langle v,\sum_i\overline{\varphi(e_i)}e_i\Big\rangle=\sum_i\overline{\overline{\varphi(e_i)}}\langle v,e_i\rangle=\sum_i\varphi(e_i)\langle v,e_i\rangle=\varphi\Big(\sum_i\langle v,e_i\rangle e_i\Big)=\varphi(v).$$ 关键第二步：第二变量的共轭把 $\overline{\varphi(e_i)}$ 变回 $\varphi(e_i)$（双重共轭抵消），危机正是靠这个共轭解除。第四步用 $\varphi$ 的线性。唯一性：若 $\langle v,u_1\rangle=\langle v,u_2\rangle\ \forall v$，则 $\langle v,u_1-u_2\rangle=0\ \forall v$；特取 $v=u_1-u_2$ 得 $\|u_1-u_2\|^2=0$，故 $u_1=u_2$。$\blacksquare$

唯一性证明里"$\langle v,w\rangle=0$ 对所有 $v$ $\Rightarrow$ $w=0$"是一个**反复使用的引理**（正定性的推论），后面伴随唯一性还要用它。

§A2b.12.2 Riesz 映射的共轭线性¶

Riesz 定理给出一个映射 $\Phi:V^*\to V$，$\varphi\mapsto u_\varphi$（把泛函送到它的代表向量）。这个映射有一个微妙特征：

命题：Riesz 映射 $\Phi:V^*\to V$ 是**共轭线性**双射（实情况则是线性同构）： $$\Phi(\varphi+\psi)=\Phi(\varphi)+\Phi(\psi),\qquad\Phi(\lambda\varphi)=\bar\lambda\,\Phi(\varphi).$$ 且保范 $\|\Phi(\varphi)\|=\|\varphi\|$（等距）。

证明（共轭齐次性）：$(\lambda\varphi)(v)=\lambda\varphi(v)=\lambda\langle v,u_\varphi\rangle=\langle v,\bar\lambda u_\varphi\rangle$（第二变量共轭把 $\lambda$ 变 $\bar\lambda$ 拉进去），故 $\lambda\varphi$ 的代表是 $\bar\lambda u_\varphi$，即 $\Phi(\lambda\varphi)=\bar\lambda\Phi(\varphi)$。$\blacksquare$

本质洞察：Riesz 映射是**共轭线性**而非线性，这又是复内积"共轭"基因的体现（§A2b.1）。它说明 $V$ 与 $V^*$ 之间的内积同构是"扭了一下"（带共轭）的同构。这个共轭会一路传染：伴随的标量律 $(\lambda T)^*=\bar\lambda T^*$（§A2b.15）就是 Riesz 共轭的直接后果。实情况下共轭无效（实数的共轭是自己），映射退化为通常的线性同构，所有共轭符号消失——这解释了为什么实数域里伴随和转置看起来"没有共轭"。

理论-工程桥接：Riesz 定理在机器人里对应"梯度是一个向量"这一看似理所当然实则依赖内积的事实。标量函数 $f:V\to\mathbb{R}$ 在某点的微分 $df_x$ 是一个线性泛函（属于 $V^*$）；我们习惯说的"梯度 $\nabla f$"是 Riesz 定理把这个泛函翻译成的**向量**，满足 $df_x(v)=\langle v,\nabla f\rangle$。关键：梯度依赖内积的选择！标准内积给欧氏梯度，黎曼度量给"黎曼梯度"，质量矩阵内积给"自然梯度"。机器人优化里"自然梯度下降"（natural gradient）、信息几何里 Fisher 度量下的梯度，本质都是"换一个内积，Riesz 就给出不同的梯度向量"。微分（泛函）是典范的，梯度（向量）依赖度量——这个区分极其重要。

⚠️ 常见陷阱¶

💡 概念误区：以为泛函就是向量，无需 Riesz - 新手想法："泛函和向量本来就一样，$\varphi(v)$ 当然等于某种点积。" - 现象/后果：在没有内积的空间（纯向量空间）里也想把泛函写成内积，或忽略 Riesz 代表依赖内积选择。 - 根本原因：$V\cong V^*$ 在裸空间需选基（不典范）；只有内积才给典范的、由 Riesz 唯一确定的对应。 - 正确做法：泛函 $\in V^*$ 与向量 $\in V$ 是不同对象；Riesz 定理（需内积）给出二者的典范对应，且代表向量随内积变化。

🧠 思维陷阱：复情况漏掉 Riesz 系数的共轭 - 新手想法："代表向量是 $u=\sum\varphi(e_i)e_i$。" - 现象/后果：复情况漏共轭，验证 $\langle v,u\rangle=\varphi(v)$ 时多出一个共轭，等式不成立。 - 根本原因：数学惯例第二变量共轭，要让双重共轭抵消，系数必须先取共轭 $\overline{\varphi(e_i)}$。 - 正确做法：复情况 $u=\sum\overline{\varphi(e_i)}e_i$；实情况共轭无影响可省。

💡 概念误区：把 Riesz 映射当成线性同构 - 新手想法："$\Phi:V^*\to V$ 是线性同构。" - 现象/后果：复情况把 $\Phi(\lambda\varphi)$ 当成 $\lambda\Phi(\varphi)$，漏掉共轭。 - 根本原因：Riesz 映射是**共轭线性**（$\Phi(\lambda\varphi)=\bar\lambda\Phi(\varphi)$），复情况下不是线性的。 - 正确做法：实情况线性同构；复情况共轭线性同构（保范双射但齐次性带共轭）。

练习¶

1.（计算题）在 $\mathbb{R}^3$（标准内积）上，泛函 $\varphi(x)=2x_1-x_2+3x_3$。用 Riesz 定理求它的代表向量 $u$（使 $\varphi(x)=\langle x,u\rangle$）。（答案应是 $\varphi$ 的"系数向量"，体会为什么实情况无共轭。）

2.（证明题）证明 Riesz 映射的等距性 $\|\Phi(\varphi)\|=\|\varphi\|$，其中泛函范数 $\|\varphi\|=\sup_{\|v\|=1}|\varphi(v)|$。（提示：用 Cauchy–Schwarz 证 $\le$，取 $v=u/\|u\|$ 证 $\ge$。在草稿纸上完成。）

3.（开放思考题）"梯度依赖内积"：在 $\mathbb{R}^2$ 上取函数 $f(x)=x_1^2+x_2^2$，分别用标准内积和加权内积 $\langle x,y\rangle_M=x^{\mathsf T}My$（$M=\operatorname{diag}(1,4)$）计算 Riesz 意义下的梯度 $\nabla_M f$。两者一样吗？这对"自然梯度下降"意味着什么？

§A2b.13 $W^\perp\leftrightarrow W^\circ$：正交补就是零化子在内积下的化身 🟣 ⭐⭐⭐¶

本节标 🟣，首读可跳过。它兑现 §A2b.9.3 与 §A2b.10 练习 3 埋下的伏笔：Riesz 同构把正交补 $W^\perp$ 精确地送到零化子 $W^\circ$。

动机：两个"同维补"为什么形状一样¶

§A2b.9.3 注意到一个巧合：零化子 $W^\circ\subseteq V^*$ 与正交补 $W^\perp\subseteq V$ 满足同样的维数公式 $\dim W+\dim(\cdot)=\dim V$。这不可能是偶然。本节用 Riesz 映射给出精确解释：$W^\perp$ 就是 $W^\circ$ 在 Riesz 同构下的像。这把 A2a 的对偶理论与 A2b 的内积几何缝合成一块，也为 §A2b.16"伴随 $T^*$ vs 对偶 $T^t$"做最后的铺垫。

理论：对应定理¶

定理：设 $\Phi:V^*\to V$ 是 Riesz 映射（$\varphi\mapsto u_\varphi$，$\varphi(v)=\langle v,u_\varphi\rangle$），$W\subseteq V$ 子空间。则 $$\Phi(W^\circ)=W^\perp.$$ 即 Riesz 映射把 $W$ 的零化子一一映到 $W$ 的正交补。

证明：取 $\varphi\in W^\circ$，即 $\varphi(w)=0\ \forall w\in W$。设其 Riesz 代表 $u_\varphi=\Phi(\varphi)$，则 $\varphi(w)=\langle w,u_\varphi\rangle$。于是 $$\varphi\in W^\circ\iff\varphi(w)=0\ \forall w\in W\iff\langle w,u_\varphi\rangle=0\ \forall w\in W\iff u_\varphi\in W^\perp.$$ 故 $\Phi$ 把 $W^\circ$ 双射地映到 $W^\perp$（$\Phi$ 本身是双射）。$\blacksquare$

本质洞察：这条定理是"内积统一对偶与几何"的标志性结果。在没有内积的 A2a 世界里，$W^\circ$（住在 $V^*$）是唯一能表达"消灭 $W$"的对象；装上内积后，Riesz 把它"翻译"回 $V$ 里的 $W^\perp$（垂直于 $W$）。"消灭"（泛函视角）和"垂直"（度量视角）原来是同一件事的两种语言，翻译词典就是 Riesz 映射。这也解释了 §A2b.10 练习 3 的"殊途同归"：$W^\circ$ 的维数公式不需内积，$W^\perp$ 的需内积，但因 Riesz 同构二者本质相同，维数自然一致。

理论-工程桥接：这个对应在机器人静力学里有直接体现。末端速度（twist）住在切空间 $V$，末端力（wrench）住在对偶空间 $V^*$，配对 $\langle\text{wrench},\text{twist}\rangle=\text{功率}$ 是 A2a 的对偶配对（不需内积）。约束子空间 $W$（允许的运动方向）的零化子 $W^\circ$ 是"不做功的力"（约束反力），而若强行引入一个度量（如动能内积），$W^\perp$ 就是"与允许运动垂直的速度"。§A2b.13 提醒我们：约束反力天然属于零化子 $W^\circ$（对偶、不需度量），把它说成"正交于运动的力"$W^\perp$ 是偷偷选了一个度量——这正是 §A2b.16 要警告的"伴随 vs 对偶"混淆在静力学中的源头。

⚠️ 常见陷阱¶

💡 概念误区：以为对应定理在实/复都不带共轭 - 新手想法："$\Phi(W^\circ)=W^\perp$ 是集合等式，与共轭无关。" - 现象/后果：虽然集合对应不受共轭影响，但若进一步追踪单个泛函到向量的系数，复情况会漏共轭。 - 根本原因：集合层面对应干净，但 Riesz 映射本身共轭线性（§A2b.12.2），逐元素追踪要注意。 - 正确做法：作为子空间对应 $\Phi(W^\circ)=W^\perp$ 无须担心共轭；逐元素算代表向量时复情况记得共轭。

🧠 思维陷阱：把 $W^\circ$ 和 $W^\perp$ 直接划等号而忽略它们住在不同空间 - 新手想法："既然 $\Phi(W^\circ)=W^\perp$，那 $W^\circ=W^\perp$。" - 现象/后果：在 $V$ 和 $V^*$ 之间混用，类型错误。 - 根本原因：$W^\circ\subseteq V^*$、$W^\perp\subseteq V$，是**不同空间的子空间**，只是经 $\Phi$ 对应，不是相等。 - 正确做法：$W^\circ$ 与 $W^\perp$ 经 Riesz 同构对应（同构像），而非相等；保持类型清醒。

练习¶

1.（证明题）补全细节：证明 $\Phi(W^\circ)\subseteq W^\perp$ 与 $W^\perp\subseteq\Phi(W^\circ)$ 两个包含，从而等号成立。（在草稿纸上完成。）

2.（开放思考题）对偶映射满足 $(\operatorname{im}T)^\circ=\ker T^t$（A2a 结论）。结合 §A2b.13 与即将学的 §A2b.16（$T^*=\Phi\circ T^t\circ\Phi^{-1}$ 式的关系），猜想 $(\operatorname{im}T)^\perp$ 与 $\ker T^*$ 的关系。（这是 §A2b.15 四个基本子空间定理的预告。）

§A2b.14 伴随算子 $T^*$ 的存在唯一性 ⭐⭐⭐¶

本节是支线二的心脏。Riesz 定理在这里"开花结果"，定义出贯穿全部后续内容（谱定理、SVD、Kalman、静力学）的核心对象——伴随算子。

动机：把内积"挪"到算子的另一边¶

无数推导里需要这样一个操作：把内积 $\langle Tv,w\rangle$ 里的算子 $T$ "挪"到第二个变量上，变成 $\langle v,?\,w\rangle$。这个"?"就是伴随算子 $T^*$。它让我们在内积中**自由移动算子**，是几乎所有涉及"算子 + 内积"推导的润滑剂——最小二乘的法方程（§A2b.11）、自伴算子的实特征值（§A2c）、SVD 的构造，全靠这一步"挪过去"。

如果不这样做会怎样：法方程都写不出来¶

回看 §A2b.11.3 法方程的推导：残差垂直列空间 $\langle Ax,r\rangle=0$，我们要把它变成"$A^*r=0$"——这一步正是用了伴随的定义 $\langle Ax,r\rangle=\langle x,A^*r\rangle$。没有伴随，"残差与列空间正交"这个几何条件无法翻译成可解的代数方程 $A^*r=0$。伴随是连接"几何正交条件"与"代数方程"的桥。同样，谱定理"自伴算子特征值实"、SVD 的全部构造都建立在伴随之上。

历史：从矩阵转置到抽象伴随¶

"伴随"概念经历了从具体到抽象的演进。最早是矩阵转置（Cauchy 时代），用于二次型；复矩阵的共轭转置（Hermite, 1855）随复二次型出现；把伴随提升为"内积空间上算子的抽象运算"（满足 $\langle Tv,w\rangle=\langle v,T^*w\rangle$）则是 20 世纪泛函分析的产物（von Neumann 在无界算子上的工作最深）。本节走的是现代路线：先用 Riesz 定理证存在唯一，再导出它在矩阵上恰是共轭转置——这样"为什么伴随矩阵是共轭转置"就不再是规定，而是定理。

理论：存在唯一性定理与证明¶

§A2b.14.1 定义与存在唯一性¶

定义/定理（伴随算子）：设 $V,W$ 是有限维内积空间，$T\in L(V,W)$。则存在**唯一**的线性映射 $T^*\in L(W,V)$，称为 $T$ 的**伴随**（adjoint），满足 $$\langle Tv,w\rangle_W=\langle v,T^*w\rangle_V\quad\forall v\in V,\ w\in W.$$

证明（用 Riesz 定理）：

存在性：固定 $w\in W$。考虑映射 $\varphi_w:V\to F$，$\varphi_w(v):=\langle Tv,w\rangle_W$。它是 $V$ 上的线性泛函（$v\mapsto Tv$ 线性，再与固定 $w$ 作内积，对第一变量线性）。由 Riesz 定理（§A2b.12），存在唯一向量记作 $T^*w\in V$，使 $$\varphi_w(v)=\langle v,T^*w\rangle_V,\quad\text{即}\quad\langle Tv,w\rangle_W=\langle v,T^*w\rangle_V.$$ 这对每个 $w$ 定义了一个 $T^*w$，得到映射 $T^*:W\to V$。

$T^*$ 线性：要证 $T^*(\lambda w_1+w_2)=\lambda T^*w_1+T^*w_2$。对任意 $v$， $$\langle v,T^*(\lambda w_1+w_2)\rangle=\langle Tv,\lambda w_1+w_2\rangle=\bar\lambda\langle Tv,w_1\rangle+\langle Tv,w_2\rangle=\bar\lambda\langle v,T^*w_1\rangle+\langle v,T^*w_2\rangle=\langle v,\lambda T^*w_1+T^*w_2\rangle.$$ 注意第二步第二变量的 $\lambda$ 拉出来带共轭变 $\bar\lambda$，第四步再拉回去又变回 $\lambda$（双重共轭抵消，正是 §A2b.1 那句"共轭守护"的又一次兑现）。由 $v$ 任意 + 正定性引理（§A2b.12.1 唯一性那条），$T^*(\lambda w_1+w_2)=\lambda T^*w_1+T^*w_2$，线性成立。

唯一性：若 $S,T^*$ 都满足 $\langle Tv,w\rangle=\langle v,Sw\rangle=\langle v,T^*w\rangle$，则 $\langle v,(S-T^*)w\rangle=0\ \forall v$，取 $v=(S-T^*)w$ 得 $\|(S-T^*)w\|^2=0$，故 $Sw=T^*w$ 对所有 $w$，即 $S=T^*$。$\blacksquare$

本质洞察：伴随存在性的证明是"Riesz 定理逐点应用 + 验证拼起来是线性的"这一模式的典范。固定 $w$，左边 $\langle Tv,w\rangle$ 是 $v$ 的泛函 → Riesz 给一个代表向量 $T^*w$ → 让 $w$ 跑遍 $W$ → 得到映射 $T^*$ → 验证它线性。整个伴随理论的存在性**只依赖一件事：Riesz 定理（而 Riesz 依赖有限维 + 内积正定）**。这解释了为什么无穷维伴随要小心（无界算子的伴随定义域是难点，von Neumann 的深刻工作）。有限维下，伴随永远存在且唯一，可以放心使用。

§A2b.14.2 伴随与对偶的"双重共轭"现象¶

证明里反复出现"$\lambda$ 拉出带共轭、拉回又变回来"。把这个现象单独点明：

在验证 $T^*$ 线性时，标量 $\lambda$ 经历了 $\lambda\to\bar\lambda\to\lambda$ 的旅程。这个"双重共轭抵消"是伴随保持**线性**（而非共轭线性）的原因——尽管 Riesz 映射本身共轭线性（§A2b.12.2），但伴随在"两次 Riesz"（输入端一次、输出端一次）中把两个共轭抵消，最终 $T^*$ 是线性算子。

这一点与 §A2b.16 的 $T^*=\Phi_V\circ T^t\circ\Phi_W^{-1}$ 公式一致：$T^t$ 线性，两端各夹一个共轭线性的 Riesz 映射 $\Phi$，$\bar{\bar\lambda}=\lambda$，合成仍线性。

⚠️ 常见陷阱¶

💡 概念误区：以为伴随的存在"显然"无需证明 - 新手想法："伴随不就是转置吗，直接写出来即可。" - 现象/后果：跳过 Riesz 论证，在抽象内积空间（非 $\mathbb{R}^n$）里以为伴随自动存在，无穷维时栽跟头。 - 根本原因：伴随存在性是定理，核心依赖 Riesz（有限维 + 正定）；"它是转置"只是有限维标准正交基下的**结论**（§A2b.15），不是定义。 - 正确做法：伴随由 $\langle Tv,w\rangle=\langle v,T^*w\rangle$ 定义，存在性靠 Riesz 证；矩阵转置是其特例。

🧠 思维陷阱：把伴随当成共轭线性 - 新手想法："Riesz 映射共轭线性，那伴随也共轭线性吧。" - 现象/后果：误以为 $(\lambda T)^*=\lambda T^*$（漏共轭）或 $T^*$ 对输入共轭线性。 - 根本原因：伴随作为算子 $T^*:W\to V$ 是**线性**的（双重共轭抵消）；但作为"$T$ 到 $T^*$ 的映射"则有 $(\lambda T)^*=\bar\lambda T^*$（共轭）——别把这两件事混了。 - 正确做法：$T^*$ 本身线性；"取伴随"这个元运算 $T\mapsto T^*$ 共轭线性（§A2b.15 性质）。

💡 概念误区：忘记 $T^*$ 的方向（定义域/值域反转） - 新手想法："$T:V\to W$，那 $T^*$ 也是 $V\to W$。" - 现象/后果：维度不匹配，矩阵乘法报错。 - 根本原因：$T^*:W\to V$ 方向相反（与对偶映射 $T^t:W^*\to V^*$ 一致）。 - 正确做法：$T:V\to W\Rightarrow T^*:W\to V$；矩阵上 $A\in F^{m\times n}\Rightarrow A^*\in F^{n\times m}$。

练习¶

1.（证明题）证明伴随的"伴随是自己"：$(T^*)^*=T$。（提示：用定义 $\langle T^*w,v\rangle=\langle w,(T^*)^*v\rangle$ 与 $\langle Tv,w\rangle=\langle v,T^*w\rangle$ 比对，注意共轭对称。在草稿纸上完成。）

2.（计算题）在 $\mathbb{R}^2$（标准内积）上，$T(x_1,x_2)=(x_1+2x_2,\,3x_1)$。直接用定义 $\langle Tv,w\rangle=\langle v,T^*w\rangle$ 求 $T^*$（不许直接写转置！设 $T^*(w_1,w_2)=(?,?)$ 待定，配平内积）。验证结果确实是 $T$ 的矩阵转置。

3.（开放思考题）无穷维微分算子 $D=\frac{d}{dt}$ 在 $L^2[0,1]$ 上的"伴随"是什么？为什么需要边界条件（提示：分部积分 $\int f'g=-\int fg'+[fg]_0^1$，边界项不消失时伴随不是 $-D$）？这说明无穷维伴随比有限维多了什么麻烦？

§A2b.15 伴随的代数性质、矩阵表示与四个基本子空间 ⭐⭐⭐¶

动机：伴随的"运算法则"与它揭示的空间结构¶

定义了伴随后，要把它变成好用的工具，需要两样东西：一是**运算法则**（伴随对加法、乘法、求逆如何分配），二是**它在矩阵上长什么样**（答案：共轭转置）。更深一层，伴随揭示了任意线性映射的"四个基本子空间"及其正交关系——这是 Strang 线性代数的核心图景，也是 SLAM 可观性、控制可控性的几何语言。

理论：性质、矩阵公式、四基本子空间¶

§A2b.15.1 伴随的代数性质¶

性质：对 $S,T\in L(V)$（或合适维度的算子）与标量 $\lambda$： 1. $(S+T)^*=S^*+T^*$； 2. $(\lambda T)^*=\bar\lambda\,T^*$（注意共轭）； 3. $(ST)^*=T^*S^*$（反序）； 4. $(T^*)^*=T$； 5. $I^*=I$； 6. $T$ 可逆 $\Rightarrow T^*$ 可逆且 $(T^*)^{-1}=(T^{-1})^*$。

证明（性质 3，反序，最易记错）：对所有 $u,v$， $$\langle STu,v\rangle=\langle Tu,S^*v\rangle=\langle u,T^*S^*v\rangle.$$ （第一步把 $S$ 挪过去用 $S^*$，第二步把 $T$ 挪过去用 $T^*$。）另一方面按定义 $\langle STu,v\rangle=\langle u,(ST)^*v\rangle$。比对得 $(ST)^*=T^*S^*$。$\blacksquare$

证明（性质 2，共轭）：$\langle\lambda Tv,w\rangle=\lambda\langle Tv,w\rangle=\lambda\langle v,T^*w\rangle=\langle v,\bar\lambda T^*w\rangle$（第二变量 $\bar\lambda$ 拉进），故 $(\lambda T)^*=\bar\lambda T^*$。$\blacksquare$

本质洞察：性质 3 的"反序" $(ST)^*=T^*S^*$ 和矩阵转置/求逆的反序 $(AB)^{\mathsf T}=B^{\mathsf T}A^{\mathsf T}$、$(AB)^{-1}=B^{-1}A^{-1}$ 同源——都来自"先做 $S$（或 $A$）后做 $T$（或 $B$），取伴随/逆时顺序颠倒"的复合结构。性质 2 的共轭 $\bar\lambda$ 再次是 §A2b.1 共轭基因的体现。把这两条记牢：伴随是共轭 + 反序的运算，与转置（实情况）只差一个共轭。

§A2b.15.2 矩阵表示：伴随就是共轭转置¶

定理（伴随的矩阵表示）：设 $\{e_i\}$、$\{f_j\}$ 分别是 $V$、$W$ 的**标准正交基**，$T$ 在这两组基下的矩阵为 $A$（即 $A_{ji}=\langle Te_i,f_j\rangle$）。则 $T^*$ 在对应基下的矩阵是 $A^*=\bar A^{\mathsf T}$（共轭转置）。

证明：$T^*$ 的矩阵元 $(A^*)_{ij}=\langle T^*f_j,e_i\rangle$（§A2b.6 练习 2 公式）。用伴随定义 + 共轭对称： $$(A^*)_{ij}=\langle T^*f_j,e_i\rangle=\overline{\langle e_i,T^*f_j\rangle}=\overline{\langle Te_i,f_j\rangle}=\overline{A_{ji}}.$$ 即 $(A^*)_{ij}=\overline{A_{ji}}$，正是共轭转置 $\bar A^{\mathsf T}$。$\blacksquare$

关键限定（务必记住）：伴随矩阵 = 共轭转置，这个结论**只在标准正交基下成立**。若用一般（非正交）基，伴随的矩阵是 $G^{-1}A^*G$ 形式（$G$ 是 Gram 矩阵），不再是简单转置。这是 §A2b.16 要深挖的"伴随 vs 对偶"区别的矩阵根源——对偶 $T^t$ 在任意基下都是转置 $A^{\mathsf T}$，伴随 $T^*$ 只在标准正交基下才是 $\bar A^{\mathsf T}$。

§A2b.15.3 四个基本子空间及其正交关系¶

伴随让我们能精确陈述任意 $T\in L(V,W)$（矩阵 $A\in F^{m\times n}$）的四个基本子空间的正交结构——Strang 线性代数的中心定理。

定理（四个基本子空间）：对 $T\in L(V,W)$， $$\boxed{\ \ker T=(\operatorname{im}T^*)^\perp,\qquad \operatorname{im}T=(\ker T^*)^\perp\ }$$ 等价地（取正交补）$\operatorname{im}T^*=(\ker T)^\perp$，$\ker T^*=(\operatorname{im}T)^\perp$。于是： - $V=\ker T\oplus\operatorname{im}T^*$（定义域劈成"零空间"与"行空间"）； - $W=\ker T^*\oplus\operatorname{im}T$（到达域劈成"左零空间"与"列空间"）。

证明（$\ker T=(\operatorname{im}T^*)^\perp$）： $$v\in\ker T\iff Tv=0\iff\langle Tv,w\rangle=0\ \forall w\iff\langle v,T^*w\rangle=0\ \forall w\iff v\perp\operatorname{im}T^*\iff v\in(\operatorname{im}T^*)^\perp.$$ 关键中间步用伴随定义把 $\langle Tv,w\rangle$ 换成 $\langle v,T^*w\rangle$。$\blacksquare$ 其余三式由取正交补（§A2b.10 双重正交补）与 $(T^*)^*=T$ 得到。

矩阵语言（$A\in\mathbb{R}^{m\times n}$，实情况 $A^*=A^{\mathsf T}$）：$\ker A=(\operatorname{row}A)^\perp$（零空间 $\perp$ 行空间，在 $\mathbb{R}^n$），$\operatorname{im}A=(\ker A^{\mathsf T})^\perp$（列空间 $\perp$ 左零空间，在 $\mathbb{R}^m$）。这就是 Strang 的"四子空间正交配对"图。

本质洞察：四个基本子空间定理说"伴随的像 = 原映射核的正交补"，几何上即：$A$ 把 $\ker A$ 压成 0、把 $(\ker A)^\perp=\operatorname{row}A$ 一一映到 $\operatorname{im}A$。一个线性映射的全部信息被这两对正交子空间编码——定义域里"被消灭的方向（核）"与"有效作用的方向（行空间）"垂直，到达域里"够不到的方向（左零空间）"与"能达到的方向（列空间）"垂直。这个图景把"秩-零度定理"（A2a）几何化、正交化，是理解最小二乘（残差落在左零空间）、SVD（四子空间的标准正交基 = 奇异向量）的统一框架。

理论-工程桥接（可观性与可控性）：四个基本子空间是机器人"可观/可控"概念的代数核心。 | 概念 | 矩阵 | 子空间含义 | |---|---|---| | 可观性 | 可观性矩阵 $\mathcal{O}$ | $\ker\mathcal{O}$ = 不可观子空间（观测看不到的状态方向）| | 可控性 | 可控性矩阵 $\mathcal{C}$ | $\operatorname{im}\mathcal{C}$ = 可达子空间（控制能到达的状态方向）|

"状态 $x$ 不可观" $\iff x\in\ker\mathcal{O}$（被观测映射消灭，落在 $(\operatorname{row}\mathcal{O})^\perp$）。SLAM 的"规范自由度"（gauge freedom：全局位姿不可观）正是信息矩阵 $\Lambda=A^*A$ 的零空间——整体平移/旋转不改变任何相对观测，故落在 $\ker A$。"七维规范自由度"（3 平移 + 3 旋转 + 1 尺度，单目情形）就是 $\dim\ker A=7$。处理办法（固定第一帧、加先验、零空间投影）本质都是"在 $\ker A$ 方向上补充信息或约束"。四个基本子空间定理把这些工程现象统一成一句话：伴随的核与像决定了你能估计什么、不能估计什么。

⚠️ 常见陷阱¶

🧠 思维陷阱：把 $(ST)^*$ 写成 $S^*T^*$（忘记反序） - 新手想法："伴随对乘积分配，$(ST)^*=S^*T^*$。" - 现象/后果：维度都可能不匹配，推导（如证 $A^*A$ 自伴）全错。 - 根本原因：伴随是反序运算 $(ST)^*=T^*S^*$，与转置/求逆一致。 - 正确做法：永远 $(ST)^*=T^*S^*$，顺序颠倒；验算时检查维度是否吻合。

💡 概念误区：以为伴随矩阵在任意基下都是共轭转置 - 新手想法："$T^*$ 的矩阵就是 $A$ 的共轭转置，跟基无关。" - 现象/后果：在非正交基下错误地用 $\bar A^{\mathsf T}$，结果与真实伴随差一个 Gram 矩阵因子。 - 根本原因："伴随 = 共轭转置"仅在**标准正交基**下成立。 - 正确做法：标准正交基下 $T^*\leftrightarrow\bar A^{\mathsf T}$；一般基下 $T^*\leftrightarrow G^{-1}A^*G$。

💡 概念误区：混淆行空间和列空间的正交补归属 - 新手想法："$\ker A$ 与 $\operatorname{im}A$ 正交。" - 现象/后果：把住在不同空间（$\mathbb{R}^n$ vs $\mathbb{R}^m$）的子空间硬说成正交，类型错误。 - 根本原因：$\ker A\subseteq\mathbb{R}^n$ 与 $\operatorname{row}A\subseteq\mathbb{R}^n$ 正交（同一空间）；$\operatorname{im}A\subseteq\mathbb{R}^m$ 与 $\ker A^{\mathsf T}\subseteq\mathbb{R}^m$ 正交（另一空间）。$\ker A$ 与 $\operatorname{im}A$ 一般不在同一空间，谈不上正交。 - 正确做法：分清定义域侧（$\ker A\perp\operatorname{row}A$，在 $\mathbb{R}^n$）与到达域侧（$\operatorname{im}A\perp\ker A^{\mathsf T}$，在 $\mathbb{R}^m$）。

练习¶

1.（计算题）$A=\begin{pmatrix}1&2&3\\2&4&6\end{pmatrix}$。求四个基本子空间 $\operatorname{row}A,\ker A,\operatorname{im}A,\ker A^{\mathsf T}$ 的基，验证 $\operatorname{row}A\perp\ker A$（在 $\mathbb{R}^3$）、$\operatorname{im}A\perp\ker A^{\mathsf T}$（在 $\mathbb{R}^2$），并核对维数 $\dim\operatorname{row}A+\dim\ker A=3$。

2.（证明题）证明 $\ker(A^*A)=\ker A$。（提示：$A^*Ax=0\Rightarrow x^*A^*Ax=0\Rightarrow\|Ax\|^2=0\Rightarrow Ax=0$。在草稿纸上完成——这正是 §A2b.11 法方程"列满秩 ⟹ $A^*A$ 可逆"的关键引理。）

3.（开放思考题 / 跨章综合）SLAM 单目重建有 7 维规范自由度（gauge freedom）。请论证：这 7 维恰是雅可比 $A$ 的零空间 $\ker A$（整体相似变换不改变任何相对观测）。为什么固定一帧位姿（7 个约束）能让 $A^*A$ 变可逆？用四个基本子空间的语言解释"加先验消除规范自由度"。（综合 §A2b.11 法方程、§A2b.15 四子空间。）

§A2b.16 伴随 $T^*$ 与对偶 $T^t$ 的区分 ⭐⭐⭐⭐¶

本节兑现 §A2b 开篇"Notation 警告"承诺的"顿悟时刻"。如果你曾觉得"$T^*$ 和 $T^t$ 不就是转置吗"，读完本节它会变成"原来它们是两个住在不同世界、只在特殊巧合下相同的对象"。

动机：机器人里 $J^{\mathsf T}$ 的转置到底是哪个¶

回到 §A2b 开篇"如果跳过会怎样·场景二"：机器人静力学 $\tau=J^{\mathsf T}F$（关节力矩 = 雅可比转置 × 末端力）里的 $J^{\mathsf T}$ 是**对偶映射** $J^t$（把末端力——一个余向量/wrench——拉回成关节力矩），它**不需要任何内积**；而动态一致伪逆 $J^+_M=M^{-1}J^{\mathsf T}(JM^{-1}J^{\mathsf T})^{-1}$ 里隐含的是**伴随**（用动能度量 $M$ 定义）。这两个"转置"在数学上是不同对象。不区分它们，会在"该用哪个度量""转置是否需要质量矩阵加权"上犯系统性错误。本节把它们彻底厘清。

理论：两个对象的对照与统一公式¶

§A2b.16.1 对偶映射 $T^t$ 回顾（不需内积）¶

A2a 定义：给定 $T:V\to W$，对偶映射 $T^t:W^*\to V^*$ 为 $$(T^t\psi)(v)=\psi(Tv),\quad\psi\in W^*,\ v\in V.$$ 它把 $W$ 上的泛函 $\psi$ "沿 $T$ 拉回"成 $V$ 上的泛函。关键：定义只用泛函复合，不涉及任何内积。 在任意基（及其对偶基）下，$T^t$ 的矩阵是 $A^{\mathsf T}$（普通转置，无共轭，任意基都成立）。

§A2b.16.2 伴随 $T^*$ 回顾（需内积）¶

§A2b.14 定义：$T^*:W\to V$ 满足 $\langle Tv,w\rangle_W=\langle v,T^*w\rangle_V$。它**需要 $V,W$ 上各有一个内积**。在标准正交基下矩阵是 $\bar A^{\mathsf T}$（共轭转置）；一般基下是 $G_V^{-1}A^*G_W$。

§A2b.16.3 统一公式：伴随 = Riesz 翻译过的对偶¶

两者的精确关系由 Riesz 映射给出：

定理（伴随与对偶的关系）：设 $\Phi_V:V^*\to V$、$\Phi_W:W^*\to W$ 是 Riesz 映射。则 $$T^*=\Phi_V\circ T^t\circ\Phi_W^{-1}.$$ 即：把 $w\in W$ 经 $\Phi_W^{-1}$ 变成泛函，用对偶 $T^t$ 拉回到 $V^*$，再经 $\Phi_V$ 变回向量——结果就是 $T^*w$。

证明：对 $w\in W$，$\Phi_W^{-1}(w)$ 是泛函 $\langle\cdot,w\rangle_W$。$T^t$ 作用得泛函 $v\mapsto\langle Tv,w\rangle_W$。$\Phi_V$ 把它变回的向量 $u$ 满足 $\langle v,u\rangle_V=\langle Tv,w\rangle_W$——这正是 $T^*w$ 的定义。$\blacksquare$

这条公式把"两个转置"的关系钉死：对偶 $T^t$ 是底层、典范的对象（无需度量）；伴随 $T^*$ 是把 $T^t$ 用两端的 Riesz 映射（即两个内积）"翻译"到原空间的产物。 换一个内积（换 $\Phi$），$T^t$ 不变但 $T^*$ 变——这就是为什么"伴随依赖度量，对偶不依赖"。

§A2b.16.4 "三重巧合"：何时它们矩阵相同¶

何时 $T^*$ 与 $T^t$ 的矩阵相同？ 需要三个条件同时满足： 1. 实数域（否则伴随带共轭 $\bar A^{\mathsf T}$，对偶不带 $A^{\mathsf T}$）； 2. 标准正交基（否则伴随是 $G^{-1}A^*G$，不是简单转置）； 3. 把 $V^*$ 用标准内积与 $V$ 等同（即对偶基 = 原基的内积像）。

这三重巧合在 $\mathbb{R}^n$ 标准点积 + 标准基下恰好全部成立，所以本科线性代数里"伴随 = 对偶 = 转置 $A^{\mathsf T}$"——但这是**巧合**，不是普遍真理。

§A2b.16.5 五种"adjoint"消歧¶

"adjoint"在数学中是过载词，机器人/物理文献里至少有五种含义，必须分清：

名称记号定义需要内积？

对偶/转置映射 $T^t$ $(T^t\psi)(v)=\psi(Tv)$ 否

内积伴随（本章主角） $T^*$ $\langle Tv,w\rangle=\langle v,T^*w\rangle$ 是

经典伴随（伴随矩阵） $\operatorname{adj}(A)$ 代数余子式转置，$A\cdot\operatorname{adj}(A)=\det(A)I$ 否（纯代数）

Hermitian 共轭（物理） $T^\dagger$ = $T^*$（物理记号）是

李代数伴随表示 $\operatorname{ad}_X,\operatorname{Ad}_g$ $\operatorname{ad}_XY=[X,Y]$ 否（李括号）

本质洞察（顿悟时刻）：本章开篇警告的"$T^*$ 与 $T^t$ 只在实数 + 标准正交基的三重巧合下相同"，到这里完全揭晓。底层只有一个典范对象：对偶 $T^t$（A2a，纯线性、无度量）。伴随 $T^*$ 是它经过两个内积（Riesz 映射）翻译后的"度量版影子"。 你选不同内积，影子就变形；不选内积，根本投不出影子（只剩 $T^t$）。本科教育把它们混为"转置"，是因为永远在 $\mathbb{R}^n$ 标准基下工作；一旦进入加权内积、复空间、抽象空间，"哪个转置"就成了必须回答的问题。这正是机器人动态一致控制、信息几何、量子力学里反复出现的分水岭。

理论-工程桥接（静力学的转置之辨）： | 机器人公式 | 转置类型 | 为什么 | |---|---|---| | $\tau=J^{\mathsf T}F$（关节力矩）| 对偶 $J^t$ | 力是余向量（wrench ∈ 余切空间），$J^t$ 把它拉回关节空间，由"功率守恒 $\tau^{\mathsf T}\dot q=F^{\mathsf T}\dot x$"决定，不需度量 | | 动态一致伪逆 $J^+_M=M^{-1}J^{\mathsf T}(JM^{-1}J^{\mathsf T})^{-1}$ | 伴随（动能度量）| 用质量矩阵 $M$ 定义的内积，最小化动能而非欧氏范数，伴随随 $M$ 变 | | 操作空间惯量 $\Lambda=(JM^{-1}J^{\mathsf T})^{-1}$ | 度量诱导 | $M$-内积在末端空间的"投影"，本质是伴随 + 投影 |

结论：$\tau=J^{\mathsf T}F$ 的转置是**对偶**（普适、无度量），不要给它配质量矩阵；而冗余机器人的零空间投影、动态一致控制用的是**动能度量下的伴随**，必须带 $M^{-1}$。混淆二者会让你在"投影该不该加权""转置后要不要乘 $M$"上犯错——这就是 §A2b 开篇承诺要根治的"场景二"。

⚠️ 常见陷阱¶

💡 概念误区：以为 $T^*$ 和 $T^t$ 永远是同一个转置 - 新手想法："伴随、对偶、转置都是 $A^{\mathsf T}$，三个名字一回事。" - 现象/后果：在复空间漏共轭、在加权内积下漏 Gram 因子、给 $\tau=J^{\mathsf T}F$ 乱加质量矩阵。 - 根本原因：三者相同只在"实 + 标准正交基"的巧合下；本质上对偶不需度量、伴随需度量。 - 正确做法：先问"有没有内积、是不是标准正交基、是不是实数"；对偶 $T^t$ 普适用 $A^{\mathsf T}$，伴随 $T^*$ 随内积变。

🧠 思维陷阱：给静力学的 $J^{\mathsf T}$ 加权 - 新手想法："$\tau=J^{\mathsf T}F$ 也是一种伴随，应该用动能度量加权成 $M J^{\mathsf T}$ 之类。" - 现象/后果：力-力矩映射出错，违反功率守恒。 - 根本原因：$\tau=J^{\mathsf T}F$ 的转置是**对偶**（由功率配对 $\tau^{\mathsf T}\dot q=F^{\mathsf T}\dot x$ 唯一决定），与度量无关。 - 正确做法：力学对偶 $J^t$ 不加权；只有"动态一致逆/零空间投影"这类涉及"最小动能"的问题才用 $M$-加权伴随。

💡 概念误区：把李代数伴随 $\operatorname{Ad}$ 与内积伴随 $T^*$ 混淆 - 新手想法："$\operatorname{Ad}_g$ 也叫 adjoint，应该和 $T^*$ 有关。" - 现象/后果：在 $SE(3)$ 上把伴随表示 $\operatorname{Ad}_g$（twist 的坐标变换）误当成内积伴随。 - 根本原因："adjoint"过载：$\operatorname{Ad}_g$ 是群对李代数的伴随**表示**（共轭作用 $gXg^{-1}$），与内积无关；$T^*$ 是内积伴随。 - 正确做法：见到 $\operatorname{Ad}/\operatorname{ad}$ 想"李括号/共轭作用"（第一层李群内容）；见到 $T^*/T^\dagger$ 想"内积伴随"。

练习¶

1.（计算题）$\mathbb{C}^2$ 上 $T$ 的矩阵 $A=\begin{pmatrix}1&i\\0&2\end{pmatrix}$（标准 Hermitian 内积，标准正交基）。写出对偶 $T^t$ 的矩阵（$A^{\mathsf T}$）与伴随 $T^*$ 的矩阵（$\bar A^{\mathsf T}$），明确指出二者差在哪里（共轭）。

2.（推导题）在 $\mathbb{R}^2$ 上取加权内积 $\langle x,y\rangle_M=x^{\mathsf T}My$，$M=\operatorname{diag}(1,2)$。对 $T$ 的标准矩阵 $A=\begin{pmatrix}0&1\\1&0\end{pmatrix}$，用伴随定义 $\langle Tx,y\rangle_M=\langle x,T^*y\rangle_M$ 求 $T^*$ 的矩阵，验证它是 $M^{-1}A^{\mathsf T}M$ 而非 $A^{\mathsf T}$。（在草稿纸上完成，体会"伴随随内积变"。）

3.（开放思考题 / 跨章）功率守恒 $\tau^{\mathsf T}\dot q=F^{\mathsf T}\dot x$ 配合 $\dot x=J\dot q$ 推出 $\tau=J^{\mathsf T}F$。请论证：这个推导**全程没用任何内积/度量**，因此 $J^{\mathsf T}$ 是对偶映射。再问：动态一致伪逆为什么必须引入 $M$？它在最小化什么（提示：约束 $\dot x$ 给定时的最小动能 $\frac12\dot q^{\mathsf T}M\dot q$）？

§A2b.17 算子分类：自伴、正规、酉/正交 ⭐⭐⭐¶

本节是 A2b 的终点，也是 §A2c 谱定理的起点。前面建立的全部内积机器，在这里用来定义三类"行为良好"的算子，为谱分解、SVD、极分解铺好全部前置。

动机：哪些算子有最好的谱结构¶

一般线性算子的特征值可以是任意复数，特征向量未必正交，甚至未必可对角化（Jordan 块）。但有三类算子特别"乖"：它们的特征向量构成标准正交基，特征值有特殊结构（实/单位模）。这三类就是自伴、正规、酉算子。它们的好行为全部由"与伴随 $T^*$ 的关系"刻画——这正是为什么必须先学伴随（§A2b.14–15）才能讲谱定理。本节定义这三类并给出最基本的性质，把接力棒交给 §A2c。

理论：三类算子的定义、层级与性质¶

§A2b.17.1 三类定义¶

定义（算子分类）：设 $T\in L(V)$（$V$ 有限维内积空间）。 - $T$ 自伴（self-adjoint / Hermitian）：$T^*=T$。实矩阵即**对称** $A^{\mathsf T}=A$，复矩阵即 Hermitian $\bar A^{\mathsf T}=A$。 - $T$ 正规（normal）：$T^*T=TT^*$（与自己的伴随可交换）。 - $T$ 酉（unitary，复）/ 正交（orthogonal，实）：$T^*T=TT^*=I$，即 $T^*=T^{-1}$。

§A2b.17.2 层级关系¶

三类不是并列的，而是**层层包含**：

层级：$\{\text{自伴}\}\subseteq\{\text{正规}\}$，$\{\text{酉/正交}\}\subseteq\{\text{正规}\}$。 - 自伴 $\Rightarrow$ 正规：$T^*=T\Rightarrow T^*T=TT=TT^*$。✓ - 酉 $\Rightarrow$ 正规：$T^*T=I=TT^*$。✓ - 自伴与酉一般不互含（自伴特征值实，酉特征值模 1；交集是"特征值 $\pm1$"的算子，如反射）。

正规是最大的类，自伴和酉是它的两个重要子类。谱定理对正规算子（复）成立："$T$ 正规 $\iff T$ 可**酉对角化**"——这是 §A2c 的主定理。

§A2b.17.3 自伴算子：实特征值与正交特征向量¶

定理：自伴算子 $T=T^*$ 的特征值全是**实数**，且不同特征值的特征向量**正交**。

证明（特征值实）：设 $Tv=\lambda v$，$v\ne 0$。则 $$\lambda\langle v,v\rangle=\langle Tv,v\rangle=\langle v,T^*v\rangle=\langle v,Tv\rangle=\langle v,\lambda v\rangle=\bar\lambda\langle v,v\rangle.$$ $\langle v,v\rangle\ne 0$，故 $\lambda=\bar\lambda$，$\lambda$ 是实数。$\blacksquare$ 证明（特征向量正交）：设 $Tv_1=\lambda_1v_1$，$Tv_2=\lambda_2v_2$，$\lambda_1\ne\lambda_2$（均实）。 $$\lambda_1\langle v_1,v_2\rangle=\langle Tv_1,v_2\rangle=\langle v_1,Tv_2\rangle=\langle v_1,\lambda_2v_2\rangle=\bar\lambda_2\langle v_1,v_2\rangle=\lambda_2\langle v_1,v_2\rangle.$$ $(\lambda_1-\lambda_2)\langle v_1,v_2\rangle=0$，$\lambda_1\ne\lambda_2$ 故 $\langle v_1,v_2\rangle=0$。$\blacksquare$

本质洞察：自伴算子"特征值实 + 特征向量正交"两条好性质，根源都在 $T^*=T$ 让算子在内积两边自由移动且不变。物理上，自伴对应"可观测量"（量子力学中 Hermitian 算子的本征值是实测量值，本征态正交即可区分）；机器人里协方差矩阵、惯量张量、Hessian 都是对称（自伴）的，它们的实特征值对应方差/主惯量/曲率，正交特征向量对应主轴。这是 PCA、主惯量轴、最优性二阶条件的共同数学根基。谱定理将把这两条加强为"存在标准正交特征基"。

§A2b.17.4 酉/正交算子：保内积的"刚性变换"¶

定理（酉算子的等价刻画）：以下等价：(i) $T$ 酉（$T^*T=I$）；(ii) $T$ 保内积 $\langle Tu,Tv\rangle=\langle u,v\rangle$；(iii) $T$ 保范 $\|Tv\|=\|v\|$；(iv) $T$ 把标准正交基映成标准正交基。

证明（(i)⟹(ii)）：$\langle Tu,Tv\rangle=\langle u,T^*Tv\rangle=\langle u,Iv\rangle=\langle u,v\rangle$。$\blacksquare$ 证明（(iii)⟹(ii)，复情况用极化）：保范即 $\|Tv\|^2=\|v\|^2$，由极化恒等式（§A2b.5.2）内积可由范数表达，保范则保内积。$\blacksquare$（这里用到 §A2b.3.4 的 rotation trick / §A2b.5 极化，呼应前文。）

本质洞察：酉/正交算子是内积空间的"刚性变换"——它们不改变任何长度和角度（保内积），几何上对应旋转和反射。它们的特征值模长全为 1（$|\lambda|=1$，因 $\|Tv\|=\|v\|\Rightarrow|\lambda|\|v\|=\|v\|$），在复平面上落在单位圆。正交矩阵 $R\in O(n)$ 是机器人旋转 $SO(3)$ 的母体（$SO(3)$ = 行列式 +1 的正交群），保内积正是"旋转不改变物体形状"的数学表述。点云配准的 Kabsch 算法找最优旋转、姿态估计、坐标系变换，全在酉/正交算子的世界里。$R^{-1}=R^{\mathsf T}$ 这个"逆等于转置"的便利（§A2b.R9 陷阱里提过）正是正交性 $R^*R=I$ 的直接体现。

§A2b.17.5 通往 §A2c 的接口¶

本节定义的三类算子，是 §A2c 谱理论的全部主角：

§A2b 建立的概念 §A2c 将证明的定理

自伴 $T^*=T$（实特征值、正交特征向量） 实谱定理：自伴算子可正交对角化 $T=Q\Lambda Q^{\mathsf T}$

正规 $T^*T=TT^*$ 复谱定理：正规算子可酉对角化 $T=U\Lambda U^*$

酉/正交（保内积）对角化中的变换矩阵 $Q/U$ 本身是正交/酉

任意 $T$ + 伴随 + 四子空间 SVD $T=U\Sigma V^*$：$T^*T$ 自伴 ⟹ 奇异值/奇异向量

自伴 + 正定 极分解 $T=U\lvert T\rvert$，$\lvert T\rvert=\sqrt{T^*T}$

谱定理的归纳证明引擎是 §A2b.8 的扩充定理（每找一个特征向量就在其正交补里递归）；SVD 把四个基本子空间（§A2b.15）配上标准正交基；极分解则把任意算子分解为"旋转（酉）× 拉伸（正定自伴）"。A2b 的全部内容，到 §A2c 将兑现为这三大分解。

理论-工程桥接（三大分解的机器人地图）： | 分解 | 机器人应用 | |---|---| | 谱分解（对称矩阵）| 协方差主轴（不确定性椭球）、惯量主轴、Hessian 曲率分析 | | SVD | 雅可比的可操作度椭球（奇异值 = 椭球半轴）、伪逆求解、奇异构型检测（最小奇异值 → 0）| | 极分解 | 点云配准最优旋转提取、形变梯度的"旋转 × 拉伸"分解（连续介质/软体机器人）|

这张表是 §A2b 全部努力的"兑付清单"——内积、正交、伴随、四子空间，最终都为这三大分解服务，而三大分解是机器人感知、估计、控制的数值核心。

⚠️ 常见陷阱¶

💡 概念误区：以为自伴和酉是并列的两类（非此即彼） - 新手想法："算子要么自伴要么酉。" - 现象/后果：遇到既非自伴也非酉的正规算子（如一般旋转 + 缩放的复算子）时无法归类。 - 根本原因：正规是最大类，自伴和酉是它的两个**子类**，二者交集小（特征值 $\pm1$ 的对称正交阵，如反射）。 - 正确做法：层级是自伴 $\subseteq$ 正规、酉 $\subseteq$ 正规；存在正规但既非自伴也非酉的算子。

🧠 思维陷阱：把"正规"误记为"可对角化" - 新手想法："正规就是可对角化。" - 现象/后果：把任意可对角化算子当成正规（错：可对角化只要求特征向量构成基，不要求**正交**基）。 - 根本原因：正规 $\iff$ 可**酉**对角化（特征向量构成**标准正交**基）；普通可对角化只要特征向量线性无关。 - 正确做法：正规 = 可酉对角化（正交特征基）；可对角化 = 有特征基（未必正交）。前者强于后者。

💡 概念误区：实对称矩阵在复意义下可能有复特征值 - 新手想法："实矩阵特征值可能复，对称的也不例外。" - 现象/后果：对实对称矩阵求特征值时担心出现复数，或不理解为何 PCA 特征值总实。 - 根本原因：实对称 = 自伴（实内积），自伴特征值必实（§A2b.17.3 定理）。 - 正确做法：实对称矩阵特征值**必为实数**（自伴定理保证）；一般实矩阵（非对称）才可能有复特征值。

练习¶

1.（判定题）判断下列实矩阵属于自伴/正规/正交中的哪些类（可多选或都不属于）：(a) $\begin{pmatrix}2&1\\1&2\end{pmatrix}$；(b) $\begin{pmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{pmatrix}$；(c) $\begin{pmatrix}0&-1\\1&0\end{pmatrix}$；(d) $\begin{pmatrix}1&1\\0&1\end{pmatrix}$。对每个说明理由（验证 $A^{\mathsf T}A\overset?=AA^{\mathsf T}$、$A^{\mathsf T}\overset?=A$、$A^{\mathsf T}A\overset?=I$）。

2.（证明题）证明：$T$ 正规 $\iff\|Tv\|=\|T^*v\|$ 对所有 $v$。（提示：$\|Tv\|^2=\langle Tv,Tv\rangle=\langle v,T^*Tv\rangle$，$\|T^*v\|^2=\langle v,TT^*v\rangle$，作差。在草稿纸上完成——这是谱定理证明的关键引理。）

3.（开放思考题 / 跨章综合）旋转矩阵 $R\in SO(3)$ 是正交的（$R^{\mathsf T}R=I$）。它的特征值是什么（提示：一个是 1，对应转轴；另两个是 $e^{\pm i\theta}$，模 1）？请用"酉算子特征值模 1"解释为什么旋转必有一个实特征值 1（转轴方向不变），并联系第一层"旋转的轴-角表示"。

§A2b.R 应用视角汇编：内积几何的机器人兑现 ⭐⭐⭐¶

本节集中回填导航图承诺的"机器人动机线 §A2b.R1–R9"。前面各节的"理论-工程桥接"方框是分散的随文注脚，这里把它们串成一条完整的应用线，让读者一次看清"A2b 的每块数学砖头落在机器人的哪面墙上"。建议二读时配合各主节阅读。

§A2b.R1 内积即度量选择：欧氏、能量、信息三种"长度"¶

机器人里"长度/误差"从来不是唯一的，取决于装哪个内积（§A2b.1 例 5）：

欧氏内积 $\langle x,y\rangle=x^{\mathsf T}y$：几何空间的直线距离，用于笛卡尔位置误差、点云欧氏对齐。
能量内积 $\langle\dot q_1,\dot q_2\rangle_M=\dot q_1^{\mathsf T}M(q)\dot q_2$：以质量矩阵 $M(q)$ 为度量，"长度平方"是两倍动能。关节空间插值、动态一致控制用它，因为它尊重"不同关节惯量不同"这一物理事实。
信息内积 $\langle x,y\rangle_{\Sigma^{-1}}=x^{\mathsf T}\Sigma^{-1}y$：以协方差逆（信息矩阵）为度量，诱导马氏距离（§A2b.4 桥接）。它"归一化"不同方向的不确定性，是卡尔曼滤波加权残差的根据。

本质洞察：这三种内积对应三种世界观——几何（欧氏）、力学（能量）、统计（信息）。同一个向量空间装上不同内积，"谁离谁近""哪个方向重要"的答案完全不同。选内积是建模决策，不是数学细节。

§A2b.R2 范数与诱导度量：误差的统一语言¶

§A2b.4 桥接指出，机器人里形形色色的"误差"本质都是某个内积空间的诱导距离 $d(u,v)=\|u-v\|$。把它们摆在一起，差别只在"选哪个内积"：

误差类型	度量	内积
笛卡尔位置 RMSE	欧氏距离	标准点积
轨迹跟踪偏差	加权欧氏	对角加权（按轴重要性）
点云配准残差	欧氏 / 鲁棒	标准（$L^2$）或非内积（$L^1$/Huber）
状态估计偏差	马氏距离	信息内积 $\Sigma^{-1}$
姿态误差（$SO(3)$）	测地距离	李群左不变度量（第一层）

本质洞察：当有人说"这个算法误差小"，第一个该问的是"在什么度量下"。$L^2$ 误差小不代表 $L^\infty$（最坏情况）小；欧氏误差小不代表马氏（统计显著性）小。度量即价值判断——你优化哪个范数，就声明了你认为"什么样的错误更不可接受"。§A2b.5′ 进一步警告：选 $L^2$（来自内积）才有正交投影闭式解，选 $L^1$（鲁棒但不来自内积）须迭代。

§A2b.R3 相关系数与一致性：Cauchy–Schwarz 的统计化身¶

§A2b.3 桥接已点出相关系数 $\rho=\dfrac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}$ 就是 $L^2$ 随机变量空间里的 Cauchy–Schwarz（保证 $|\rho|\le 1$）。在机器人里这条不等式有三处直接用途：

传感器一致性检验：两路冗余传感器读数 $X,Y$ 的相关系数接近 1 说明它们"看到同一信号"，接近 0 说明独立或一路失效——这是故障检测（FDI）的统计基础。
观测信息量：$\rho^2$（决定系数）量化"一个观测能解释目标多少方差"，对应 §A2b.6 Bessel 不等式的"保留能量比"。
退化预警：当雅可比两列的"相关系数"（归一化内积）趋近 1，即将奇异（§A2b.R7），等号成立条件（线性相关，§A2b.3.1）正是退化的数学定义。

本质洞察：Cauchy–Schwarz 的等号刻画"线性相关时取等"在统计、几何、数值三个层面是同一件事——相关系数饱和、向量共线、矩阵退化。一条不等式串起三个领域的"临界现象"。

§A2b.R6 动态一致伪逆：能量内积下的伴随与投影¶

冗余机器人（关节数 > 任务维度）的逆运动学有无穷多解，"动态一致伪逆" $J^+_M=M^{-1}J^{\mathsf T}(JM^{-1}J^{\mathsf T})^{-1}$ 选出"最小动能"的那个。它是 §A2b.11 加权最小二乘 + §A2b.16 能量度量伴随的合体：

约束 $\dot x=J\dot q$ 给定时，最小化动能 $\frac12\dot q^{\mathsf T}M\dot q$（即能量内积下的范数平方）；
解是 $\dot q=J^+_M\dot x$，残余自由度落在 $\ker J$（零空间），可叠加零空间运动 $(I-J^+_MJ)\dot q_0$ 完成次级任务（避障、避奇异）。

注意这里的 $J^{\mathsf T}$ 与 $M^{-1}$ 缠在一起——正是因为伴随在能量内积下不是裸转置而是 $M$-加权（§A2b.16 故障 4）。这是 §A2b 开篇"场景二"承诺根治的混淆点。

§A2b.R7 SVD 与可操作度椭球：奇异值即椭球半轴¶

雅可比 $J$ 的 SVD（§A2c 将证）$J=U\Sigma V^*$ 给出"可操作度椭球"：单位关节速度球 $\{\dot q:\|\dot q\|=1\}$ 经 $J$ 映射成末端速度椭球，其半轴长正是奇异值 $\sigma_i$。

奇异值趋零 $\Rightarrow$ 椭球某轴压扁 $\Rightarrow$ 奇异构型（某方向末端速度产生不了），对应 §A2b.3 桥接"雅可比某两列线性相关";
条件数 $\sigma_{\max}/\sigma_{\min}$ 衡量"灵巧度"，越接近 1 越各向同性（运动越灵活）；
SVD 的四组奇异向量正是四个基本子空间（§A2b.15）的标准正交基。

这把 §A2b.6 标准正交基、§A2b.15 四子空间、§A2b.17 正规算子全部兑现成"看得见的椭球"。

§A2b.R8 最小二乘三范式与平方根滤波：投影的递归化¶

§A2b.11 桥接给出了 OLS/WLS/Kalman 三范式"只差内积选择"的统一表。这里补上它们如何从"一次性投影"升级为"递归投影"——这是实时机器人估计的关键：

批量最小二乘（batch）：一次性解 $\min\|Ax-b\|^2$，适合离线建图（全局 BA）。
递归最小二乘（RLS）：每来一个新观测，用矩阵求逆引理增量更新解，避免重解整个系统——对应 §A2b.7 新息正交化（把新观测正交于历史）。
平方根信息滤波（SRIF）/ 平方根 SAM：维护信息矩阵 $\Lambda=A^*A$ 的 Cholesky/QR 因子 $R$（$\Lambda=R^*R$）而非 $\Lambda$ 本身，把条件数从 $\kappa^2$ 压回 $\kappa$（§A2b.7、§A2b.11 故障 2）。iSAM 用 Givens 旋转增量更新 $R$，每个新测量只做局部正交变换。

理论-工程桥接：从"批量投影"到"递归 + 平方根"的演进，本质是把 §A2b.11 的正交投影**在线化、数值稳健化**。平方根形式的深刻之处：它永远操作 $R$（信息的"平方根"），保证 $\Lambda=R^*R$ 自动半正定（避免数值误差让协方差出现负特征值这一经典灾难）。这是 §A2b.7 QR 分解"正交 + 三角"范式在估计领域最重要的落地。

§A2b.R9 旋转群 $SO(3)$：保内积变换的工程化身¶

旋转矩阵 $R\in SO(3)$ 是 §A2b.17 正交算子的最重要实例：$R^{\mathsf T}R=I$ 即"保内积"，几何上"旋转不改变长度和角度"。由此：

$R^{-1}=R^{\mathsf T}$（逆等于转置）——这不是巧合，是正交性的定义性质（§A2b.17.4）；
$R$ 的特征值是 $\{1,e^{i\theta},e^{-i\theta}\}$，实特征值 1 对应**转轴**（旋转下不变方向），$\theta$ 是转角；
保内积 $\Rightarrow$ 保 Gram 矩阵 $\Rightarrow$ 点云配准的 Kabsch 算法用极分解/SVD 从对应点对提取最优 $R$（§A2c）。

$SO(3)$ 是第一层李群内容的核心，本章的"正交算子 = 保内积刚性变换"是它的代数地基。

理论-工程桥接（应用线总览）：把 §A2b.R 串起来看，内积几何的工程兑现是一条清晰的链——选内积（R1）决定度量 → 加权最小二乘/伴随（R6）解冗余与估计 → SVD/椭球（R7）诊断构型与灵巧度 → 正交群（R9）刻画旋转。这条链覆盖了机器人运动学、动力学、状态估计、感知配准的数学内核。A2b 不是抽象的代数练习，而是这四大支柱的共同地基。

本章常见误解汇总¶

下表汇总贯穿全章最容易出错的 10 个误解。它们大多源于"把特例当普遍""忽略复共轭""混淆需不需要度量"三类思维惯性。

#	常见误解	正确理解	对应节
1	内积就是点积 $\sum x_iy_i$	点积是内积的一个例子；内积是满足三公理的任何运算，可加权、可在函数/矩阵空间上定义	§A2b.1
2	复内积也是对称的 $\langle u,v\rangle=\langle v,u\rangle$	复内积共轭对称 $\langle u,v\rangle=\overline{\langle v,u\rangle}$；共轭是正定性的守护者	§A2b.1
3	所有范数都来自内积	仅满足平行四边形恒等式的范数来自内积（Jordan–von Neumann）；$\ell^1,\ell^\infty$ 不来自内积	§A2b.5′
4	正交就是线性无关	正交 ⟹ 线性无关（单向）；线性无关一般不正交	§A2b.6
5	Fourier 系数 $c_i=\langle x,e_i\rangle$ 对任意基成立	仅对标准正交基；一般基要解 Gram 方程组	§A2b.6
6	代数补和正交补一样	代数补不唯一（无穷多），正交补唯一（垂直条件锁定）；只有正交补给唯一投影	§A2b.10
7	"最近"和"垂直"是两件事	内积空间中严格等价（最佳逼近定理，Pythagoras 一步打通）	§A2b.11
8	直接解法方程 $A^Ax=A^b$	条件数平方 $\kappa^2$，病态放大；应用 QR/Cholesky 把条件数降回 $\kappa$	§A2b.11
9	伴随、对偶、转置是同一个 $A^{\mathsf T}$	仅在"实 + 标准正交基"巧合下相同；对偶不需度量，伴随随内积变	§A2b.16
10	自伴和酉是并列两类	自伴 $\subseteq$ 正规、酉 $\subseteq$ 正规；正规是最大类，可酉对角化 $\neq$ 普通可对角化	§A2b.17

本章小结¶

一句话总览¶

A2b 做了一件事：给裸向量空间装上"内积"这台度量仪器，由此派生出长度、角度、正交、投影、最佳逼近五层几何结构（主干 §1–11），再用 Riesz 定理生出伴随算子，揭示四个基本子空间与三类特殊算子（支线二 §12–17），为 §A2c 的谱定理、SVD、极分解备齐全部前置。贯穿全程的工程主线是：内积的选择决定度量，度量决定"误差/最优"的含义，最小二乘 = 正交投影 = 卡尔曼滤波的几何母体。

符号表¶

符号	含义	首次出现
$\langle u,v\rangle$	内积（第一变量线性，第二变量共轭线性）	§A2b.1
$\\|v\\|=\sqrt{\langle v,v\rangle}$	诱导范数	§A2b.2
$u\perp v$	正交（$\langle u,v\rangle=0$）	§A2b.2
$d(u,v)=\\|u-v\\|$	诱导度量（距离）	§A2b.4
$\langle\cdot,\cdot\rangle_M=x^{\mathsf T}My$	加权/能量内积（$M$ 对称正定）	§A2b.1
$\delta_{ij}$	Kronecker delta（标准正交条件）	§A2b.6
$\{e_i\}$, ONB	标准正交集 / 标准正交基	§A2b.6
$P_W$	到子空间 $W$ 的正交投影	§A2b.11
$W^\perp$	正交补（垂直于 $W$ 的子空间，需内积）	§A2b.9
$W^\circ$	零化子（消灭 $W$ 的泛函，$\subseteq V^*$，不需内积）	A2a / §A2b.9
$A^+=(A^A)^{-1}A^$	（左）Moore–Penrose 伪逆	§A2b.11
$\Phi:V^*\to V$	Riesz 映射（共轭线性同构）	§A2b.12
$T^*$	伴随算子（$\langle Tv,w\rangle=\langle v,T^*w\rangle$，需内积）	§A2b.14
$T^t$	对偶/转置映射（$(T^t\psi)(v)=\psi(Tv)$，不需内积）	A2a / §A2b.16
$A^*=\bar A^{\mathsf T}$	共轭转置（标准正交基下的伴随矩阵）	§A2b.15
$\Lambda=A^*A$	信息矩阵 / Gram 矩阵	§A2b.11, §A2b.15

术语速查表（中英对照）¶

本章主参考教材（Axler、Halmos、Strang、Roman）与机器人估计文献（Kailath、Dellaert、Barfoot）全部为英文。下表把每个核心概念锁定到**标准英文术语**，并给出一句"最易混淆点"提示，方便对照原著与论文检索。术语在正文首次出现处均已标中英对照（R7），此处汇总速查。

中文术语	英文术语	一句话辨析（最易混淆点）	对应节
内积	inner product	复情形是 sesquilinear（一线性一共轭线性），不是双线性	§A2b.1
共轭对称	conjugate symmetry / Hermitian symmetry	$\langle u,v\rangle=\overline{\langle v,u\rangle}$；实情形退化为对称	§A2b.1
正定	positive-definite	$\langle v,v\rangle>0$（$v\ne0$）；矩阵判据为主子式全正	§A2b.1
加权 / 能量内积	weighted / energy inner product	$\langle x,y\rangle_M=x^{\mathsf T}My$，$M$ 须对称正定；马氏距离的源头	§A2b.1
诱导范数	induced / canonical norm	$\\|v\\|=\sqrt{\langle v,v\rangle}$；并非所有范数都被诱导	§A2b.2
平行四边形恒等式	parallelogram law	范数"来自内积"的充要指纹（Jordan–von Neumann）	§A2b.5′
极化恒等式	polarization identity	从范数还原内积；复情形四项带 $i^k$	§A2b.5
标准正交基	orthonormal basis (ONB)	Fourier 系数 $\langle x,e_i\rangle$ 仅对 ONB 成立	§A2b.6
格拉姆–施密特正交化	Gram–Schmidt process	数值上用 MGS（修正版），CGS 病态时失正交	§A2b.7
QR 分解	QR decomposition	$A=QR$；最小二乘的数值引擎，避开法方程平方条件数	§A2b.7
格拉姆矩阵	Gram matrix	$G_{ij}=\langle v_i,v_j\rangle$；其行列式 = 平行体体积平方	§A2b.7
正交补	orthogonal complement	$W^\perp$ 唯一（需内积），区别于不唯一的代数补	§A2b.9
零化子	annihilator	$W^\circ\subseteq V^$，消灭 $W$ 的泛函；不需要内积*	§A2b.9
正交分解	orthogonal decomposition	$V=W\oplus W^\perp$；唯一的垂直分解	§A2b.10
正交投影	orthogonal projection	$P_W$ 自伴幂等；= 最佳逼近（最近点）	§A2b.11
最佳逼近	best approximation	在内积空间中严格 ⟺ 残差正交于子空间	§A2b.11
最小二乘	least squares	法方程 $A^Ax=A^b$；几何上即正交投影	§A2b.11
法方程	normal equations	"normal"指残差法向（正交）于列空间，非"正规算子"	§A2b.11
伪逆	(Moore–Penrose) pseudoinverse	$A^+=(A^A)^{-1}A^$（列满秩）；§A2c 用 SVD 推广	§A2b.11
正交性原理	orthogonality principle	估计误差 $\perp$ 观测；Kalman 滤波的几何核心	§A2b.11
里斯表示定理	Riesz representation theorem	每个泛函 = 唯一向量的内积；映射 $\Phi$ 是共轭线性同构	§A2b.12
伴随算子	adjoint operator	$\langle Tv,w\rangle=\langle v,T^w\rangle$；随内积而变*	§A2b.14
对偶 / 转置映射	dual / transpose map	$T^t$ 作用在 $V^$ 上，不需要内积*；勿与伴随混用	§A2b.16
共轭转置	conjugate transpose / Hermitian adjoint	$A^*=\bar A^{\mathsf T}$；仅在 ONB 下等于伴随矩阵	§A2b.15
四个基本子空间	four fundamental subspaces	$\ker T=(\operatorname{im}T^*)^\perp$ 等两对正交；可观/可控的代数核心	§A2b.15
规范自由度	gauge freedom	落在 $\ker A$ 的不可观方向；单目 SLAM 典型 7 维	§A2b.15
自伴 / 埃尔米特	self-adjoint / Hermitian	$T=T^*$；实特征值 + 正交特征向量（谱定理前置）	§A2b.17
正规算子	normal operator	$T^T=TT^$；可酉对角化的最大类	§A2b.17
酉 / 正交算子	unitary / orthogonal operator	保内积 ⟺ 保范；$SO(3)$ 是其实例	§A2b.17
信息矩阵	information matrix	$\Lambda=A^*A$；其奇异 ⟺ 存在规范自由度	§A2b.11, §A2b.15

定理速查表¶

定理 / 公式	一句话说明	对应节
复内积共轭对称	共轭是正定性的守护者，让 $\langle v,v\rangle\ge 0$	§A2b.1
展开恒等式 $\\|u+v\\|^2=\\|u\\|^2+2\operatorname{Re}\langle u,v\rangle+\\|v\\|^2$	全任务主力代数工具	§A2b.2
Cauchy–Schwarz $\lvert\langle u,v\rangle\rvert\le\\|u\\|\\|v\\|$	夹角可定义的保证；三种证明（几何/变分/代数）	§A2b.3
三角不等式	由 Cauchy–Schwarz 推出，范数自洽的最低要求	§A2b.4
平行四边形恒等式	范数来自内积的指纹（充要，Jordan–von Neumann）	§A2b.5, 5′
极化恒等式	从范数唯一还原内积	§A2b.5
正交集线性无关	"内积探针"$\langle\cdot,e_j\rangle$ 提取分量	§A2b.6
Bessel / Parseval	投影能量界 / 标准正交基下范数 = 系数平方和	§A2b.6
Gram–Schmidt → QR	任意基正交化；$A=QR$（$Q$ 正交、$R$ 上三角）	§A2b.7
正交分解 $V=W\oplus W^\perp$	唯一的几何垂直分解	§A2b.10
最佳逼近定理	正交投影 = 最近点（Pythagoras）	§A2b.11
法方程 $A^Ax=A^b$	最小二乘解；残差 $\perp$ 列空间	§A2b.11
正交性原理	估计误差 $\perp$ 观测；Kalman 的几何核心	§A2b.11
Riesz 表示 $\varphi(v)=\langle v,u\rangle$	每个泛函由唯一向量代表（典范 $V\cong V^*$）	§A2b.12
$\Phi(W^\circ)=W^\perp$	正交补 = 零化子的 Riesz 像	§A2b.13
伴随存在唯一 $\langle Tv,w\rangle=\langle v,T^*w\rangle$	Riesz 逐点应用 + 线性验证	§A2b.14
四个基本子空间 $\ker T=(\operatorname{im}T^*)^\perp$	Strang 正交配对；可观/可控的代数核心	§A2b.15
$T^*=\Phi_V T^t\Phi_W^{-1}$	伴随 = Riesz 翻译过的对偶；伴随随度量变	§A2b.16
自伴 ⟹ 实特征值 + 正交特征向量	谱定理前置	§A2b.17
酉/正交 ⟺ 保内积 ⟺ 保范	刚性变换；$SO(3)$ 的母体	§A2b.17

知识点总表¶

编号	知识点	核心要点	对应节	难度
1	内积公理	实：双线性对称正定；复：共轭对称	§A2b.1	⭐⭐
2	诱导范数	$\\|v\\|=\sqrt{\langle v,v\rangle}$，展开恒等式	§A2b.2	⭐⭐
3	Cauchy–Schwarz	三种证明，变分证明 = 一维最小二乘	§A2b.3	⭐⭐⭐
4	三角不等式 + 度量	内积→范数→距离→度量空间链	§A2b.4	⭐⭐
5	平行四边形 / 极化	范数↔内积互还原	§A2b.5	⭐⭐
5′	Jordan–von Neumann	平行四边形律是来自内积的充要条件	§A2b.5′	⭐⭐⭐⭐
6	正交集 / 标准正交基	Fourier 系数、Bessel、Parseval	§A2b.6	⭐⭐
7	Gram–Schmidt / QR	构造标准正交基；QR 是最小二乘数值引擎	§A2b.7	⭐⭐⭐
8	ONB 存在与扩充	算法即存在性证明；正交向外生长	§A2b.8	⭐⭐
9	正交补 $W^\perp$	唯一垂直补；与零化子 $W^\circ$ 对照	§A2b.9	⭐⭐⭐
10	正交分解	$V=W\oplus W^\perp$ 唯一；双重正交补	§A2b.10	⭐⭐⭐
11	正交投影 / 最小二乘	最佳逼近 = 投影 = 法方程；Kalman 桥	§A2b.11	⭐⭐⭐
12	Riesz 表示	泛函 = 向量；伴随的钥匙	§A2b.12	⭐⭐⭐
13	$W^\perp\leftrightarrow W^\circ$	Riesz 缝合对偶与几何	§A2b.13	⭐⭐⭐
14	伴随存在唯一	Riesz 逐点应用	§A2b.14	⭐⭐⭐
15	伴随性质 / 四子空间	共轭转置（仅 ONB）；Strang 正交配对	§A2b.15	⭐⭐⭐
16	伴随 vs 对偶	五种 adjoint；伴随随度量变，对偶不变	§A2b.16	⭐⭐⭐⭐
17	算子分类	自伴/正规/酉；谱定理/SVD 前置	§A2b.17	⭐⭐⭐

🔧 故障排查手册¶

本章以推导为主，"故障"主要表现为**推导卡壳**、结论自相矛盾**或**把数学结论错误地映射到工程。下表给出 7 个高频故障的结构化排查路径。

故障 1：证明里冒出 $\langle v,v\rangle<0$ 或长度为负¶

项目	内容
症状	计算"长度平方"得到负数，或 $\cos\theta$ 落在 $[-1,1]$ 外
可能原因	(a) 用了非正定的"内积"（如闵可夫斯基 $\operatorname{diag}(1,-1)$）；(b) 复空间漏了共轭，把 $\langle iv,iv\rangle$ 算成 $-\langle v,v\rangle$
排查步骤	① 检查所用"内积"是否满足正定性公理（实：$M$ 对称正定？复：Hermitian 正定？）；② 复情况逐项核对第二变量是否带共轭；③ 用 §A2b.1 例 5 的判据（主子式全正）验证 $M$
相关节	§A2b.1（正定性）、§A2b.1 例 5、§A2b.3.4（复情况 rotation trick）

故障 2：最小二乘解严重失准 / 数值发散¶

项目	内容
症状	解出的 $\hat x$ 与真值偏差巨大，或迭代不收敛，小扰动导致解剧变
可能原因	(a) 直接解法方程 $A^Ax=A^b$，条件数被平方（$\kappa^2$）；(b) $A$ 列相关/接近相关（构型退化），$A^*A$ 奇异或病态；(c) 存在异常值，$L^2$ 被拉偏
排查步骤	① 改用 QR（$R\hat x=Q^b$）或 SVD，条件数降回 $\kappa$；② 算 $A$ 的最小奇异值，接近 0 说明秩亏 → 加正则化（阻尼最小二乘 $(A^A+\lambda I)^{-1}A^*$）；③ 检查残差分布，重尾 → 换 Huber/Cauchy 鲁棒核或 RANSAC
相关节	§A2b.7（QR）、§A2b.11（法方程、阻尼）、§A2b.5′（鲁棒范数不来自内积）

故障 3：Gram–Schmidt 输出的"正交基"不正交¶

项目	内容
症状	算出的 $Q$ 满足 $Q^*Q$ 明显偏离单位阵
可能原因	(a) 用经典 Gram–Schmidt（CGS）处理近共线列，舍入误差累积；(b) 输入向量线性相关，某 $u_k\approx 0$，单位化放大噪声
排查步骤	① 换修正 Gram–Schmidt（MGS）或 Householder/Givens；② 检查输入是否线性无关（算秩）；③ 监控每步 $\\|u_k\\|$，过小说明该向量几乎落在前驱张成空间
相关节	§A2b.7.4（CGS vs MGS）、§A2b.7 陷阱

故障 4：把"伴随"和"对偶/转置"用混，量纲或维度出错¶

项目	内容
症状	静力学 $\tau=J^{\mathsf T}F$ 加了质量矩阵后量纲错；或加权内积下伴随算错；或复空间漏共轭
可能原因	(a) 把对偶 $J^t$（不需度量）当伴随 $J^*$（需度量）加权；(b) 非标准正交基下用 $\bar A^{\mathsf T}$ 当伴随，漏 Gram 因子；(c) 复空间用 $A^{\mathsf T}$ 当伴随漏共轭
排查步骤	① 先问"这个转置来自什么"：功率配对 → 对偶 $J^t$（不加权）；最小动能/加权最小二乘 → 伴随（加权）；② 非正交基下伴随 = $G^{-1}A^*G$；③ 复空间伴随务必共轭转置
相关节	§A2b.15.2（矩阵表示限定）、§A2b.16（五种 adjoint、统一公式）

故障 5：SLAM/估计的信息矩阵奇异，优化无唯一解¶

项目	内容
症状	信息矩阵 $\Lambda=A^*A$ 不可逆，求解器报"奇异"或解漂移
可能原因	存在规范自由度（gauge freedom）：整体平移/旋转/尺度不改变相对观测，落在 $\ker A$（四个基本子空间的零空间）
排查步骤	① 算 $\ker A$ 的维数（单目 SLAM 典型为 7：3 平移 + 3 旋转 + 1 尺度）；② 固定第一帧位姿 / 加先验 / 零空间投影来补充缺失信息；③ 用 §A2b.15 语言确认"被固定的方向恰好张成 $\ker A$"
相关节	§A2b.15.3（四个基本子空间、可观性）、§A2b.11（加先验 = 正则化）

故障 6：极化 / 平行四边形恒等式用在不该用的地方¶

项目	内容
症状	在 $L^1$/$L^\infty$ 或鲁棒估计里套用平行四边形恒等式、正交投影，得到错误结论
可能原因	误以为所用范数来自内积，实际不满足平行四边形律（Jordan–von Neumann 判据失败）
排查步骤	① 用平行四边形恒等式检验该范数是否来自内积（取两个简单向量验证）；② 若不来自内积，放弃正交投影/最佳逼近闭式解，改用迭代优化；③ 复情况极化务必用四项（带 $i^k$）
相关节	§A2b.5（极化、平行四边形）、§A2b.5′（Jordan–von Neumann）

故障 7：自伴/对称矩阵求出复特征值，或对角化矩阵非正交¶

项目	内容
症状	对称协方差/惯量矩阵算出复特征值；或以为"可对角化"就有正交特征基
可能原因	(a) 矩阵实际不对称（数值上未对称化，$A\ne A^{\mathsf T}$）；(b) 混淆"可对角化"（特征向量线性无关）与"可酉对角化"（特征向量正交，要求正规）
排查步骤	① 强制对称化 $\frac12(A+A^{\mathsf T})$ 后再求特征值（自伴定理保证实）；② 确认算子是否正规（$A^A=AA^$）才能期待正交特征基；③ 普通可对角化不保证正交，需 Gram–Schmidt 或直接用谱定理（§A2c）
相关节	§A2b.17.3（自伴实特征值）、§A2b.17 陷阱（正规 vs 可对角化）

累积项目：本章新增模块¶

数学地基层的累积项目是"手写一个最小可用的状态估计内核"，逐任务增砖加瓦。A2b 贡献"线性最小二乘 + 正交几何"模块。

本章新增（建议在草稿纸 + 少量数值验证脚本上完成，理论教学不强制编程）：

线性最小二乘求解器（几何版）：实现"给定 $A,b$，用 QR（手写 MGS）求 $\min\|Ax-b\|^2$"，对比直接解法方程的数值精度差异（构造一个病态 $A$，观察 $\kappa^2$ 放大）。
正交投影可视化：在 $\mathbb{R}^3$ 中取一个平面 $W$，把若干点正交投影到 $W$，验证"残差 $\perp$ $W$"与"投影是最近点"。
正交性原理小实验：模拟标量卡尔曼更新（§A2b.11 练习 3），数值验证"新息与后验误差正交"，并画出协方差随观测下降的 Pythagoras 关系。
四个基本子空间报告：对一个小矩阵 $A$，算出四个基本子空间的基，验证两对正交关系，并解释若 $A$ 是某 SLAM 雅可比，$\ker A$ 对应什么规范自由度。

这些模块将在 §A2c（谱定理/SVD）升级为"用 SVD 做伪逆、用谱分解做不确定性椭球"，最终在状态估计专题里拼成完整的 EKF/因子图后端。

延伸阅读¶

教材（按难度）：

⭐⭐ Strang, Introduction to Linear Algebra（第 4 章四个基本子空间、第 5 章正交性）——最直观的"四子空间正交图"讲法，机器人读者首选的几何直觉来源。
⭐⭐⭐ Axler, Linear Algebra Done Right (4th ed, 2024)（第 6–7 章）——本章主线，内积、Gram–Schmidt、Riesz、伴随、谱前置的现代标准讲法，避开行列式。
⭐⭐⭐ Hoffman & Kunze, Linear Algebra (2nd ed)（第 8–9 章）——伴随的逐点定义最严格，复化技巧细致。
⭐⭐⭐⭐ Halmos, Finite-Dimensional Vector Spaces——抽象最简，非构造性 Riesz，适合二刷追求"为什么"的读者。
⭐⭐⭐⭐ Roman, Advanced Linear Algebra (GTM 135)——Riesz 与对偶的范畴论连接，$T^*$ 与 $T^t$ 关系讲得最透。

机器人 / 估计方向：

⭐⭐⭐ Kailath, Sayed & Hassibi, Linear Estimation——把 Kalman 滤波讲成 $L^2$ Hilbert 空间正交投影的权威，§A2b.11 桥接的完整展开。
⭐⭐⭐ Dellaert & Kaess, Factor Graphs for Robot Perception（Foundations and Trends, 2017）——平方根 SAM、iSAM，QR/Cholesky 在 SLAM 后端的工程化（§A2b.7 桥接）。
⭐⭐⭐ Lynch & Park, Modern Robotics（第 3、5 章）——twist/wrench 对偶、雅可比转置 $J^{\mathsf T}F$ 的力学（§A2b.16 对偶 vs 伴随）。
⭐⭐⭐⭐ Barfoot, State Estimation for Robotics——把内积几何、矩阵分解与机器人估计系统整合。

论文 / 经典：

Kalman (1960), "A New Approach to Linear Filtering and Prediction Problems"——卡尔曼原文，正交投影视角的源头。
Riesz (1907) / Fréchet (1907)——Riesz 表示定理原始文献（泛函分析诞生标志）。
Jordan & von Neumann (1935), "On Inner Products in Linear, Metric Spaces", Ann. Math.——平行四边形律充要性的原始证明。

本章与后续章节的关系¶

后续章节	与本章的关系	本章哪个知识点为其铺垫
§A2c 谱定理	自伴算子正交对角化的完整证明	§A2b.17 自伴（实特征值、正交特征向量）、§A2b.8 扩充定理（归纳引擎）
§A2c SVD	任意算子 $T=U\Sigma V^*$ 的奇异值分解	§A2b.15 四个基本子空间、§A2b.14 伴随、§A2b.17 正规
§A2c 极分解	$T=U\lvert T\rvert$，$\lvert T\rvert=\sqrt{T^*T}$	§A2b.17 自伴正定、§A2b.11 投影
§A2d Jordan 标准形	不可对角化算子的结构	§A2b.17（对比：正规可对角化 vs 一般不可）
§A2e 张量积/外代数	多线性代数	§A2b.1 双线性型、Gram 行列式（§A2b.7 练习 2）
第一层 · 李群度量	$SO(3)/SE(3)$ 上的左不变度量、惯量张量	§A2b.1 加权内积、§A2b.17 正交群（$SO(3)$ 是保内积变换）
状态估计专题	EKF、因子图、平方根 SAM	§A2b.11 正交性原理（Kalman 几何核心）、§A2b.7 QR（平方根 SAM）
机器人静力学/动力学	$\tau=J^{\mathsf T}F$、动态一致控制	§A2b.16 对偶 vs 伴随（哪个转置、要不要加权）

研究实践建议¶

给初学者：

先吃透三条公理与"共轭守护正定性"（§A2b.1）。本章 90% 的复情况错误都源于漏共轭；把"看到共轭就问'它在守护什么正定性'"变成条件反射。
把"内积探针 $\langle\cdot,e_j\rangle$ 提取第 $j$ 分量"刻进肌肉记忆（§A2b.6）。Fourier 系数、Gram–Schmidt、Bessel、伴随存在性证明全用它，掌握它等于掌握半本书。
手推一遍标量卡尔曼更新（§A2b.11 练习 3）。这是"理论 → 工程"的最短路径，推完你会真正理解"Kalman 增益 = 投影系数"。
不要急于跳到 SVD。SVD 的所有零件（伴随、四子空间、正规、谱）都在本章，地基不牢 §A2c 必塌。

给有经验者：

重新审视你代码里的每一个 .T / .conj().T：它是对偶还是伴随？在什么内积下？是不是误用了标准内积？§A2b.16 的"三重巧合"清单值得对照自查。
检查最小二乘求解的数值路径：是否还在直接解法方程？换 QR/Cholesky 能立刻改善病态问题（§A2b.7、§A2b.11 桥接）。
从规范自由度角度复查 SLAM 信息矩阵的奇异性（§A2b.15.3）：$\ker A$ 的维数、固定方案是否恰好覆盖零空间。
理解"换内积 = 换问题"：自然梯度、动态一致控制、马氏距离，本质都是"选了一个非标准内积"，Riesz/伴随随之改变（§A2b.12、§A2b.16 桥接）。

高频深度问答（顿悟清单）¶

本章正文多处埋下"到这里你会顿悟"的伏笔。下面把贯穿全程、最容易反复困惑的四个"为什么"集中作答。它们不是新知识，而是把散落各节的洞察拧成一股绳。

Q1：伴随 $T^*$ 不就是转置吗？为什么要分对偶 $T^t$、伴随 $T^*$、共轭转置 $\bar A^{\mathsf T}$ 三个名字？

因为它们活在不同的舞台上。对偶 $T^t$ 作用在**对偶空间** $V^*$（泛函）上，靠"先喂向量再求值"定义，完全不碰内积——A2a 就讲完了它。伴随 $T^*$ 作用在**原空间** $V$ 上，靠"内积配对相等"$\langle Tv,w\rangle=\langle v,T^*w\rangle$ 定义，离了内积无法存在。共轭转置 $\bar A^{\mathsf T}$ 只是一个**矩阵运算**。三者在"实数域 + 标准正交基"这一**三重巧合**下数值相同，于是初学时被误当成一个东西。

本质洞察：$T^*=\Phi_V\,T^t\,\Phi_W^{-1}$（§A2b.16）。伴随 = 用 Riesz 映射 $\Phi$ 把对偶"翻译"回原空间。换内积就换了 $\Phi$，于是同一个 $T$ 的伴随 $T^*$ 会变，但对偶 $T^t$ 永不变。一旦看清这点，你代码里每个 .conj().T 都该被追问："它是对偶还是伴随？在哪个内积下？"

Q2：为什么复内积非要共轭对称？把它定义成普通对称 $\langle u,v\rangle=\langle v,u\rangle$ 不行吗？

不行，会摧毁正定性这块地基。若复内积普通对称又线性，取 $v\ne0$，则 $\langle iv,iv\rangle=i\cdot i\,\langle v,v\rangle=-\langle v,v\rangle$，于是 $v$ 和 $iv$ 必有一个"长度平方"为负，$\|v\|=\sqrt{\langle v,v\rangle}$ 直接崩溃。共轭对称让第二变量的标量带共轭出来，$\langle iv,iv\rangle=i\bar i\langle v,v\rangle=|i|^2\langle v,v\rangle=\langle v,v\rangle\ge0$，正定性得以保全。

本质洞察：共轭是正定性的守护者（§A2b.1）。本章里 90% 的复情形错误（极化漏 $i^k$、伴随漏共轭、Cauchy–Schwarz 复版出错）都源于"看到复数没想起共轭"。把"见共轭就问'它在守护哪条正定性'"练成条件反射，复情形就不再可怕。

Q3："最近"（最佳逼近）和"垂直"（正交投影）凭什么是同一件事？这听起来像两个独立的几何概念。

在内积空间里它们由 Pythagoras 一步焊死。设 $p=P_Wx$ 是正交投影，$w\in W$ 是任意点，则 $x-w=(x-p)+(p-w)$，其中 $x-p\perp W$（投影的定义）而 $p-w\in W$，两者正交，于是 $\|x-w\|^2=\|x-p\|^2+\|p-w\|^2\ge\|x-p\|^2$，等号当且仅当 $w=p$。所以"垂直落点"就是"最近点"，反之亦然。

本质洞察：这条等价是整条工程主线的总开关（§A2b.11）。最小二乘（残差 $\perp$ 列空间 = 误差最小）、卡尔曼滤波（新息 $\perp$ 后验误差 = 估计最优）、傅里叶逼近（截断 $\perp$ 高频 = $L^2$ 最佳），全是同一句"垂直即最近"在不同内积下的化身。脱离内积（如 $L^1$/$L^\infty$）这条等价立刻失效，最佳逼近不再有闭式解——这正是 §A2b.5′ 强调"范数是否来自内积"的现实意义。

Q4：四个基本子空间的正交关系 $\ker T=(\operatorname{im}T^*)^\perp$ 到底有什么用？看起来只是抽象的代数等式。

它是"可观测性/可控性"的代数核心，也是 SLAM 信息矩阵奇异的诊断器。$\ker T$ 装着"被 $T$ 抹平、观测不到"的方向，$\operatorname{im}T^*$ 装着"$T$ 真正能影响"的方向，两者正交互补意味着：任何向量都能唯一拆成"可观部分 + 不可观部分"。当 $A^*A$（信息矩阵）奇异，奇异方向恰好张成 $\ker A$，对应物理上的规范自由度（如单目 SLAM 的 7 维相似变换）。

本质洞察：Strang 的四子空间图（§A2b.15）把"线性方程组有没有解、解唯不唯一"翻译成"两对正交子空间的维数账"。在机器人里它直接回答"我固定哪些自由度才能让优化有唯一解"——固定的方向必须恰好覆盖 $\ker A$，多一维过约束、少一维仍奇异。这也是 §A2c 谱定理与 SVD 的入场券：SVD 的四块奇异向量正是这四个子空间的标准正交基。

结语：A2b 从"裸向量空间缺了长度和角度"出发，一路装上内积、范数、正交、投影、伴随，最终抵达"任意算子的四子空间正交结构"与"三类特殊算子"。回头看导航图（本章开头），主干"内积→范数→正交→投影"几何化了代数空间，支线一"正交→Gram–Schmidt→最佳逼近→最小二乘"建起了机器人状态估计的数学母体，支线二"Riesz→伴随→四子空间→算子分类"备齐了谱论的全部入场券。下一站 §A2c，这些零件将组装成谱定理、SVD、极分解——机器人感知与估计的三大数值引擎。带着本章建立的几何直觉前进：你看到的不再是公式，而是 Hilbert 空间里向量的投影、旋转与分解。

§A2b 建立的概念	§A2c 将证明的定理
自伴 \(T^*=T\)（实特征值、正交特征向量）	实谱定理：自伴算子可正交对角化 \(T=Q\Lambda Q^{\mathsf T}\)
正规 \(T^T=TT^\)	复谱定理：正规算子可酉对角化 \(T=U\Lambda U^*\)
酉/正交（保内积）	对角化中的变换矩阵 \(Q/U\) 本身是正交/酉
任意 \(T\) + 伴随 + 四子空间	SVD \(T=U\Sigma V^\)：\(T^T\) 自伴 ⟹ 奇异值/奇异向量
自伴 + 正定	极分解 \(T=U\lvert T\rvert\)，\(\lvert T\rvert=\sqrt{T^*T}\)

项目	本课程选择	说明
域	\(F = \mathbb{R}\) 或 \(\mathbb{C}\)	内积空间只在这两个域上讨论（需要"正定"与"共轭"）
内积线性位置	第一变量线性，第二变量共轭线性	数学惯例（Axler/Hoffman-Kunze/Friedberg/Roman/Halmos/Lang/Rudin 七大教材全部如此）
内积记号	\(\langle u, v\rangle\)	物理 Dirac 惯例 \(\langle u\mid v\rangle\) 第二变量线性，给出对照表（§A2b.1.3）
伴随符号	\(T^*\) 为正式名称	物理/机器人文献常用 \(T^\dagger\)，作并用提醒
对偶映射	\(T^t\)（来自 A2a）	与伴随 \(T^*\) 严格区分（§A2b.16）
共轭转置	\(A^* = \bar A^{\mathsf T}\)	实矩阵退化为转置 \(A^{\mathsf T}\)

编号	问题	答不出 → 回顾
1	什么是线性泛函？对偶空间 \(V^\) 的元素长什么样？\(\dim V^\) 与 \(\dim V\) 是什么关系？	A2a §19–20
2	对偶映射 \(T^t:W^\to V^\) 的定义是什么？它需要内积吗？	A2a §24
3	零化子 \(W^\circ\) 的定义是什么？维数公式 \(\dim W+\dim W^\circ=?\)	A2a §25
4	内直和 \(V=W_1\oplus W_2\) 的三个等价定义是什么？代数补唯一吗？	A2a §4
5	秩-零度定理 \(\dim V=\dim\ker T+\dim\operatorname{im}T\) 怎么证？	A2a §15

名称	记号	定义	需要内积？
对偶/转置映射	\(T^t\)	\((T^t\psi)(v)=\psi(Tv)\)	否
内积伴随（本章主角）	\(T^*\)	\(\langle Tv,w\rangle=\langle v,T^*w\rangle\)	是
经典伴随（伴随矩阵）	\(\operatorname{adj}(A)\)	代数余子式转置，\(A\cdot\operatorname{adj}(A)=\det(A)I\)	否（纯代数）
Hermitian 共轭（物理）	\(T^\dagger\)	= \(T^*\)（物理记号）	是
李代数伴随表示	\(\operatorname{ad}_X,\operatorname{Ad}_g\)	\(\operatorname{ad}_XY=[X,Y]\)	否（李括号）

#	常见误解	正确理解	对应节
1	内积就是点积 \(\sum x_iy_i\)	点积是内积的一个例子；内积是满足三公理的任何运算，可加权、可在函数/矩阵空间上定义	§A2b.1
2	复内积也是对称的 \(\langle u,v\rangle=\langle v,u\rangle\)	复内积共轭对称 \(\langle u,v\rangle=\overline{\langle v,u\rangle}\)；共轭是正定性的守护者	§A2b.1
3	所有范数都来自内积	仅满足平行四边形恒等式的范数来自内积（Jordan–von Neumann）；\(\ell^1,\ell^\infty\) 不来自内积	§A2b.5′
4	正交就是线性无关	正交 ⟹ 线性无关（单向）；线性无关一般不正交	§A2b.6
5	Fourier 系数 \(c_i=\langle x,e_i\rangle\) 对任意基成立	仅对标准正交基；一般基要解 Gram 方程组	§A2b.6
6	代数补和正交补一样	代数补不唯一（无穷多），正交补唯一（垂直条件锁定）；只有正交补给唯一投影	§A2b.10
7	"最近"和"垂直"是两件事	内积空间中严格等价（最佳逼近定理，Pythagoras 一步打通）	§A2b.11
8	直接解法方程 \(A^Ax=A^b\)	条件数平方 \(\kappa^2\)，病态放大；应用 QR/Cholesky 把条件数降回 \(\kappa\)	§A2b.11
9	伴随、对偶、转置是同一个 \(A^{\mathsf T}\)	仅在"实 + 标准正交基"巧合下相同；对偶不需度量，伴随随内积变	§A2b.16
10	自伴和酉是并列两类	自伴 \(\subseteq\) 正规、酉 \(\subseteq\) 正规；正规是最大类，可酉对角化 \(\neq\) 普通可对角化	§A2b.17

符号	含义	首次出现
\(\langle u,v\rangle\)	内积（第一变量线性，第二变量共轭线性）	§A2b.1
\(\\|v\\|=\sqrt{\langle v,v\rangle}\)	诱导范数	§A2b.2
\(u\perp v\)	正交（\(\langle u,v\rangle=0\)）	§A2b.2
\(d(u,v)=\\|u-v\\|\)	诱导度量（距离）	§A2b.4
\(\langle\cdot,\cdot\rangle_M=x^{\mathsf T}My\)	加权/能量内积（\(M\) 对称正定）	§A2b.1
\(\delta_{ij}\)	Kronecker delta（标准正交条件）	§A2b.6
\(\{e_i\}\), ONB	标准正交集 / 标准正交基	§A2b.6
\(P_W\)	到子空间 \(W\) 的正交投影	§A2b.11
\(W^\perp\)	正交补（垂直于 \(W\) 的子空间，需内积）	§A2b.9
\(W^\circ\)	零化子（消灭 \(W\) 的泛函，\(\subseteq V^*\)，不需内积）	A2a / §A2b.9
\(A^+=(A^A)^{-1}A^\)	（左）Moore–Penrose 伪逆	§A2b.11
\(\Phi:V^*\to V\)	Riesz 映射（共轭线性同构）	§A2b.12
\(T^*\)	伴随算子（\(\langle Tv,w\rangle=\langle v,T^*w\rangle\)，需内积）	§A2b.14
\(T^t\)	对偶/转置映射（\((T^t\psi)(v)=\psi(Tv)\)，不需内积）	A2a / §A2b.16
\(A^*=\bar A^{\mathsf T}\)	共轭转置（标准正交基下的伴随矩阵）	§A2b.15
\(\Lambda=A^*A\)	信息矩阵 / Gram 矩阵	§A2b.11, §A2b.15

定理 / 公式	一句话说明	对应节
复内积共轭对称	共轭是正定性的守护者，让 \(\langle v,v\rangle\ge 0\)	§A2b.1
展开恒等式 \(\\|u+v\\|^2=\\|u\\|^2+2\operatorname{Re}\langle u,v\rangle+\\|v\\|^2\)	全任务主力代数工具	§A2b.2
Cauchy–Schwarz \(\lvert\langle u,v\rangle\rvert\le\\|u\\|\\|v\\|\)	夹角可定义的保证；三种证明（几何/变分/代数）	§A2b.3
三角不等式	由 Cauchy–Schwarz 推出，范数自洽的最低要求	§A2b.4
平行四边形恒等式	范数来自内积的指纹（充要，Jordan–von Neumann）	§A2b.5, 5′
极化恒等式	从范数唯一还原内积	§A2b.5
正交集线性无关	"内积探针"\(\langle\cdot,e_j\rangle\) 提取分量	§A2b.6
Bessel / Parseval	投影能量界 / 标准正交基下范数 = 系数平方和	§A2b.6
Gram–Schmidt → QR	任意基正交化；\(A=QR\)（\(Q\) 正交、\(R\) 上三角）	§A2b.7
正交分解 \(V=W\oplus W^\perp\)	唯一的几何垂直分解	§A2b.10
最佳逼近定理	正交投影 = 最近点（Pythagoras）	§A2b.11
法方程 \(A^Ax=A^b\)	最小二乘解；残差 \(\perp\) 列空间	§A2b.11
正交性原理	估计误差 \(\perp\) 观测；Kalman 的几何核心	§A2b.11
Riesz 表示 \(\varphi(v)=\langle v,u\rangle\)	每个泛函由唯一向量代表（典范 \(V\cong V^*\)）	§A2b.12
\(\Phi(W^\circ)=W^\perp\)	正交补 = 零化子的 Riesz 像	§A2b.13
伴随存在唯一 \(\langle Tv,w\rangle=\langle v,T^*w\rangle\)	Riesz 逐点应用 + 线性验证	§A2b.14
四个基本子空间 \(\ker T=(\operatorname{im}T^*)^\perp\)	Strang 正交配对；可观/可控的代数核心	§A2b.15
\(T^*=\Phi_V T^t\Phi_W^{-1}\)	伴随 = Riesz 翻译过的对偶；伴随随度量变	§A2b.16
自伴 ⟹ 实特征值 + 正交特征向量	谱定理前置	§A2b.17
酉/正交 ⟺ 保内积 ⟺ 保范	刚性变换；\(SO(3)\) 的母体	§A2b.17

项目	内容
症状	计算"长度平方"得到负数，或 \(\cos\theta\) 落在 \([-1,1]\) 外
可能原因	(a) 用了非正定的"内积"（如闵可夫斯基 \(\operatorname{diag}(1,-1)\)）；(b) 复空间漏了共轭，把 \(\langle iv,iv\rangle\) 算成 \(-\langle v,v\rangle\)
排查步骤	① 检查所用"内积"是否满足正定性公理（实：\(M\) 对称正定？复：Hermitian 正定？）；② 复情况逐项核对第二变量是否带共轭；③ 用 §A2b.1 例 5 的判据（主子式全正）验证 \(M\)
相关节	§A2b.1（正定性）、§A2b.1 例 5、§A2b.3.4（复情况 rotation trick）

项目	内容
症状	解出的 \(\hat x\) 与真值偏差巨大，或迭代不收敛，小扰动导致解剧变
可能原因	(a) 直接解法方程 \(A^Ax=A^b\)，条件数被平方（\(\kappa^2\)）；(b) \(A\) 列相关/接近相关（构型退化），\(A^*A\) 奇异或病态；(c) 存在异常值，\(L^2\) 被拉偏
排查步骤	① 改用 QR（\(R\hat x=Q^b\)）或 SVD，条件数降回 \(\kappa\)；② 算 \(A\) 的最小奇异值，接近 0 说明秩亏 → 加正则化（阻尼最小二乘 \((A^A+\lambda I)^{-1}A^*\)）；③ 检查残差分布，重尾 → 换 Huber/Cauchy 鲁棒核或 RANSAC
相关节	§A2b.7（QR）、§A2b.11（法方程、阻尼）、§A2b.5′（鲁棒范数不来自内积）

项目	内容
症状	算出的 \(Q\) 满足 \(Q^*Q\) 明显偏离单位阵
可能原因	(a) 用经典 Gram–Schmidt（CGS）处理近共线列，舍入误差累积；(b) 输入向量线性相关，某 \(u_k\approx 0\)，单位化放大噪声
排查步骤	① 换修正 Gram–Schmidt（MGS）或 Householder/Givens；② 检查输入是否线性无关（算秩）；③ 监控每步 \(\\|u_k\\|\)，过小说明该向量几乎落在前驱张成空间
相关节	§A2b.7.4（CGS vs MGS）、§A2b.7 陷阱

项目	内容
症状	静力学 \(\tau=J^{\mathsf T}F\) 加了质量矩阵后量纲错；或加权内积下伴随算错；或复空间漏共轭
可能原因	(a) 把对偶 \(J^t\)（不需度量）当伴随 \(J^*\)（需度量）加权；(b) 非标准正交基下用 \(\bar A^{\mathsf T}\) 当伴随，漏 Gram 因子；(c) 复空间用 \(A^{\mathsf T}\) 当伴随漏共轭
排查步骤	① 先问"这个转置来自什么"：功率配对 → 对偶 \(J^t\)（不加权）；最小动能/加权最小二乘 → 伴随（加权）；② 非正交基下伴随 = \(G^{-1}A^*G\)；③ 复空间伴随务必共轭转置
相关节	§A2b.15.2（矩阵表示限定）、§A2b.16（五种 adjoint、统一公式）

项目	内容
症状	信息矩阵 \(\Lambda=A^*A\) 不可逆，求解器报"奇异"或解漂移
可能原因	存在规范自由度（gauge freedom）：整体平移/旋转/尺度不改变相对观测，落在 \(\ker A\)（四个基本子空间的零空间）
排查步骤	① 算 \(\ker A\) 的维数（单目 SLAM 典型为 7：3 平移 + 3 旋转 + 1 尺度）；② 固定第一帧位姿 / 加先验 / 零空间投影来补充缺失信息；③ 用 §A2b.15 语言确认"被固定的方向恰好张成 \(\ker A\)"
相关节	§A2b.15.3（四个基本子空间、可观性）、§A2b.11（加先验 = 正则化）

项目	内容
症状	在 \(L^1\)/\(L^\infty\) 或鲁棒估计里套用平行四边形恒等式、正交投影，得到错误结论
可能原因	误以为所用范数来自内积，实际不满足平行四边形律（Jordan–von Neumann 判据失败）
排查步骤	① 用平行四边形恒等式检验该范数是否来自内积（取两个简单向量验证）；② 若不来自内积，放弃正交投影/最佳逼近闭式解，改用迭代优化；③ 复情况极化务必用四项（带 \(i^k\)）
相关节	§A2b.5（极化、平行四边形）、§A2b.5′（Jordan–von Neumann）

内积空间与伴随算子¶

约定与符号惯例¶

主参考教材排序¶

本章知识导航¶

前置知识桥接¶

如果跳过本章会怎样¶

前置自测 ⭐¶

预计阅读时间¶

§A2b.1 内积的公理化定义 ⭐⭐¶

动机：裸向量空间缺了什么¶

如果不这样做会怎样：欧氏点积的"逆向工程"¶

历史：从 Grassmann 到 Hilbert¶

理论：实内积与复内积的公理¶

§A2b.1.1 实内积的三公理¶

§A2b.1.2 复内积与共轭对称（sesquilinear form）¶

§A2b.1.3 约定分歧与本课程选择¶

§A2b.1.4 标准例子目录¶

⚠️ 常见陷阱¶

练习¶

§A2b.2 由内积诱导的范数 ⭐⭐¶

动机：从内积造出"长度"¶

理论：诱导范数的定义与展开恒等式¶

§A2b.2.1 范数的定义与良定义性¶

§A2b.2.2 Pythagoras 定理¶

§A2b.2.3 \(\|u+v\|^2\) 的展开恒等式¶

⚠️ 常见陷阱¶

练习¶

§A2b.3 Cauchy–Schwarz 不等式 ⭐⭐⭐¶

动机：夹角的定义需要一个保证¶

如果不这样做会怎样¶

历史：三个名字，一个不等式¶

理论：陈述与三种证明¶

§A2b.3.1 Cauchy–Schwarz 陈述与等号刻画¶

§A2b.3.2 证明一：正交分解 + Pythagoras（Axler 路线）¶

§A2b.3.3 证明二：关于 \(t\) 的最小化（变分路线）¶

§A2b.3.4 证明三：实判别式与复情况的注意点¶

⚠️ 常见陷阱¶

练习¶

§A2b.4 三角不等式与度量结构 ⭐⭐¶

动机：范数要配得上"长度"这个名号¶

理论：从 Cauchy–Schwarz 到度量空间¶

§A2b.4.1 三角不等式证明¶

§A2b.4.2 反向三角不等式与度量结构¶

⚠️ 常见陷阱¶

练习¶

§A2b.5 平行四边形恒等式与极化恒等式 ⭐⭐¶

动机：内积与范数能互相还原吗¶

如果不这样做会怎样¶

理论：两个恒等式¶

§A2b.5.1 平行四边形恒等式¶

§A2b.5.2 极化恒等式：从范数还原内积¶

§A2b.5.3 一个推论：内积由范数唯一决定¶

⚠️ 常见陷阱¶

练习¶

§A2b.5′ Jordan–von Neumann 定理：哪些范数来自内积 🟣 ⭐⭐⭐⭐¶

动机：把"指纹"升级为"判据"¶

理论：定理与证明骨架¶

⚠️ 常见陷阱¶

练习¶

§A2b.6 正交性、正交集与标准正交集 ⭐⭐¶

动机：从"两个向量垂直"到"一组向量互相垂直"¶

如果不这样做会怎样：一般基的坐标计算之痛¶

理论：正交集、标准正交集与基本性质¶

§A2b.6.1 定义：正交集与标准正交集¶

§A2b.6.2 正交集自动线性无关¶

§A2b.6.3 标准正交基下的坐标、范数与内积公式¶

§A2b.6.4 Bessel 不等式：投影到子空间的"能量损失"¶

⚠️ 常见陷阱¶

练习¶

§A2b.7 Gram–Schmidt 正交化与 QR 分解 ⭐⭐⭐¶

动机：把一般基"扶正"成标准正交基¶

如果不这样做会怎样：没有构造，存在性只是空话¶

理论：过程、定理与 QR 分解¶

§A2b.7.1 Gram–Schmidt 过程¶

§A2b.7.2 关键不变量：张成空间逐级相等¶

§A2b.7.3 QR 分解¶

§A2b.7.4 数值警示：经典 vs 修正 Gram–Schmidt¶

⚠️ 常见陷阱¶

练习¶

§A2b.8 标准正交基的存在性与扩充 ⭐⭐¶