极小多项式与 Jordan 标准形¶

前置：A2a（不变子空间、直和、商空间、同构定理）、A2c（Schur 分解、特征值、可对角化）、A1（多项式环基础、Zorn 引理）后继：A2e（张量积、外代数、行列式）、A3（微分几何预备）、A4（抽象代数：PID 与模结构定理） 核心目标：完整、严谨地给出 Cayley--Hamilton 定理与 Jordan 标准形的**两路证明**（直接构造路径 + \(F[x]\)-模路径），并显式连接到机器人控制中的矩阵指数、Lie 群指数映射与稳定性理论

前置自测¶

答不出以下 \(\geq 2\) 题，建议先回 A2a / A2c 复习。

不变子空间：设 \(T: V \to V\) 是线性算子，\(W \subset V\) 是 \(T\)-不变子空间。请给出 \(T\)-不变的定义，并说明为什么"特征空间"一定是 \(T\)-不变子空间。
特征值与可对角化：设 \(A \in M_3(\mathbb{R})\) 的特征值为 \(\{1, 2, 2\}\)。列出所有可能的 Jordan 标准形（即使你还不知道如何证明其存在性——仅凭直觉猜测即可）。
多项式环：在 \(\mathbb{R}[x]\) 中，计算 \(\gcd(x^3 - 1, x^2 - 1)\)。你使用的算法是什么？
Schur 分解：陈述 Schur 分解定理，并说明它与对角化的区别。
矩阵指数：写出 \(e^{tA}\) 的定义（级数形式）。对角矩阵 \(A = \mathrm{diag}(\lambda_1, \lambda_2)\) 时，\(e^{tA}\) 等于什么？

本章目标¶

学完本章后，你应该能够：

**定义并计算**任意有限维线性算子的极小多项式 \(m_T\) 和特征多项式 \(p_T\)，并解释二者的关系（整除性、同根性）
陈述并证明 Cayley--Hamilton 定理，掌握至少两条独立证明路径（Schur 分解路径 + 伴随矩阵路径）
执行准素分解，将向量空间 \(V\) 按极小多项式的不可约因子分解为广义特征空间的直和
分类幂零算子，使用核旗升法（Filippov--Strang 构造）构造 Jordan 基
构造并证明 Jordan 标准形的存在性与唯一性，理解直接构造路径和 \(F[x]\)-模路径的各自优势
计算矩阵指数 \(e^{tA}\)，利用 Jordan 形将无穷级数截断为有限多项式，并推导 Rodrigues 旋转公式作为 \(\mathfrak{so}(3)\) 上的特例
应用 Jordan 理论于控制系统的稳定性分析（Lyapunov 方程）和极点配置（Ackermann 公式）

本章知识导航¶

本章包含 17 个核心节，可划分为四条主线：

主线	包含节	核心问题
代数基础	\(\S1\)--\(\S3\)	\(F[x]\) 的环结构、极小多项式、特征多项式
核心定理	\(\S4\)--\(\S6\)	Cayley--Hamilton、\(m_T\) 与 \(p_T\) 的关系、准素分解
结构分类	\(\S7\)--\(\S12\)	广义特征空间、幂零分类、JNF 两路径、有理标准形
应用桥梁	\(\S13\)--\(\S17\)	算法、矩阵指数、控制论、Lie 群、总结

知识点之间的依赖关系：

S1(F[x]环) --> S2(极小多项式) --> S4(Cayley-Hamilton)
                                         |
S3(特征多项式) -------------------------+
                                         |
                                         v
                                    S5(m_T与p_T关系)
                                         |
                                         v
                                    S6(准素分解)
                                         |
                                         v
                                    S7(广义特征空间)
                                         |
                                         v
                                    S8(幂零分类)
                                        / \
                                       /   \
                                      v     v
                               S10(JNF-A)  S10'(JNF-B:F[x]-模)
                                      \     /
                                       \   /
                                        v v
                                   S11(唯一性)
                                        |
                              +---------+---------+
                              |                   |
                              v                   v
                        S12(有理标准形)     S14(矩阵指数)
                                                  |
                                          +-------+-------+
                                          |               |
                                          v               v
                                   S15(控制论)     S16(Lie群)

推荐阅读路径： - 首次阅读：\(\S1 \to \S2 \to \S3 \to \S4\)（路径1+2） \(\to \S5 \to \S6 \to \S7 \to \S8 \to \S9 \to \S10\)（路径A） \(\to \S11 \to \S14 \to \S15\)--\(\S17\) - 深化阅读：补充 \(\S10'\)（\(F[x]\)-模路径）、\(\S12\)（有理标准形）、\(\S13\)（算法） - 机器人方向重点：\(\S14\)（矩阵指数）和 \(\S15\)--\(\S16\) 的机器人应用专栏

前置知识桥接¶

本章建立在前置模块 A2a 和 A2c 的核心成果之上。

来自 A2a 的关键概念：在 A2a 中，我们建立了不变子空间理论——即若 \(W \subset V\) 满足 \(T(W) \subset W\)，则称 \(W\) 为 \(T\)-不变子空间。我们还证明了直和分解定理：若 \(V = W_1 \oplus W_2 \oplus \cdots \oplus W_k\)，则每个 \(v \in V\) 可唯一写成 \(v = w_1 + w_2 + \cdots + w_k\)。本章的核心目标之一就是找到一种"最精细"的不变子空间直和分解——Jordan 分解。

来自 A2c 的关键概念：在 A2c 中，我们证明了复向量空间上的每个线性算子都有特征值，并建立了 Schur 分解定理——每个算子都可以在某个标准正交基下表示为上三角矩阵。我们还讨论了可对角化条件：\(T\) 可对角化当且仅当 \(V\) 有由 \(T\) 的特征向量构成的基。本章的问题正是：当 \(T\) 不可对角化时，最简的矩阵表示是什么？

如果跳过本章会怎样¶

矩阵指数计算受阻：在机器人学中，\(\exp(t\hat{\omega})\)（Rodrigues 公式）和 \(\exp([S]\theta)\)（SE(3) 螺旋指数）都依赖于 Cayley--Hamilton 定理将无穷级数截断为有限多项式。不理解 Jordan 理论，你只能死记公式而无法理解其代数根源。
控制系统稳定性分析失效：判断 \(\dot{x} = Ax\) 在存在重特征值时是否稳定，需要知道 Jordan 块大小——仅靠特征值不够。例如，\(\lambda = 0\) 的 \(2 \times 2\) Jordan 块产生 \(t\) 增长项，导致系统漂移。

预计阅读时间¶

阅读方式	时间	适合谁
精读（含练习）	12--15 小时	需要深入理解代数结构的读者
速读（跳过推导细节）	4--5 小时	有相关经验、只需回顾核心思想的读者
速查（只看表格和速查卡）	30 分钟	遇到具体问题时回来查阅定理或公式

1. 多项式环 \(F[x]\)：算子理论所需基础 ⭐⭐¶

动机¶

在线性代数中，我们经常需要对线性算子 \(T\) 进行"多项式运算"。例如，\(T^2 - 3T + 2I\) 是一个完全合法的表达式——它表示"先作用 \(T\) 两次、减去 \(T\) 的三倍、再加回两个恒等变换"。自然的问题是：哪些多项式 \(p(x)\) 会让 \(p(T) = 0\)（零算子）？ 这个问题的答案将引出极小多项式和 Cayley--Hamilton 定理。

但要严格讨论"算子的多项式"，我们首先需要理解多项式环 \(F[x]\) 本身的代数结构——特别是它作为主理想整环（Principal Ideal Domain, PID）的性质。这些性质将在后续章节中反复使用：带余除法给出整除性判定，Bezout 恒等式给出准素分解的显式投影算子，唯一分解保证了 Jordan 分解的唯一性。

如果不理解多项式环会怎样¶

如果跳过本节直接进入极小多项式的讨论，你会遇到以下困难：

无法理解"极小多项式是零化理想的唯一首一生成元"——因为你不知道什么是理想、什么是生成元
无法理解准素分解中"Bezout 恒等式给出投影算子"——因为你不知道 Bezout 恒等式从何而来
无法理解 \(F[x]\)-模路径——因为你不知道 \(F[x]\) 的代数性质为何如此关键

1.1 \(F[x]\) 的环结构 ⭐¶

定义：设 \(F\) 是一个域（Field），\(F[x]\) 是系数在 \(F\) 中的一元多项式构成的集合，配备标准的多项式加法和乘法。具体地，\(F[x]\) 中的元素形如

\[p(x) = a_n x^n + a_{n-1} x^{n-1} + \cdots + a_1 x + a_0, \quad a_i \in F\]

整环性质：\(F[x]\) 是整环（Integral Domain），即没有零因子：若 \(p(x) \cdot q(x) = 0\)，则 \(p(x) = 0\) 或 \(q(x) = 0\)。这直接来自 \(F\) 是域（因此无零因子）以及多项式乘法的性质——两个非零多项式的乘积的首项系数是各自首项系数的乘积，在域中非零。

次数函数：对非零多项式 \(p(x) = a_n x^n + \cdots + a_0\)（\(a_n \neq 0\)），定义 \(\deg(p) = n\)。次数函数满足：

\[\deg(p \cdot q) = \deg(p) + \deg(q)\]

这个等式再次依赖 \(F\) 无零因子的事实。对比：在 \(\mathbb{Z}/6\mathbb{Z}\) 上，\((2x)(3x) = 6x^2 = 0\)，次数不满足加法性。

阶段小结：\(F[x]\) 是一个整环，配备次数函数 \(\deg\)。接下来我们将看到 \(\deg\) 的关键作用——它使得 \(F[x]\) 中的带余除法成为可能。

1.2 Euclidean 带余除法与 PID ⭐⭐¶

定理（带余除法）：对任意 \(f, g \in F[x]\)，\(g \neq 0\)，存在唯一的 \(q, r \in F[x]\) 使得

\[f = g \cdot q + r, \quad \deg(r) < \deg(g) \text{ 或 } r = 0\]

证明思路：对 \(\deg(f)\) 进行归纳。若 \(\deg(f) < \deg(g)\)，取 \(q = 0, r = f\)。否则，设 \(f\) 的首项为 \(a_n x^n\)，\(g\) 的首项为 \(b_m x^m\)（\(n \geq m\)）。令 \(f_1 = f - \frac{a_n}{b_m} x^{n-m} \cdot g\)，则 \(\deg(f_1) < \deg(f)\)，对 \(f_1\) 归纳即可。注意这里使用了 \(b_m\) 在域 \(F\) 中可逆——这就是为什么 \(F\) 必须是域（不仅仅是环）才能保证带余除法成立。

推论（\(F[x]\) 是 PID）：\(F[x]\) 中的每个理想 \(I\) 都是主理想，即存在 \(d \in F[x]\) 使得 \(I = (d) = \{d \cdot h : h \in F[x]\}\)。

证明：设 \(I \neq \{0\}\)。取 \(I\) 中次数最小的非零元素 \(d\)（次数的良序性保证存在）。对任意 \(f \in I\)，用 \(d\) 做带余除法：\(f = d \cdot q + r\)，\(\deg(r) < \deg(d)\)。由 \(f, d \in I\) 得 \(r = f - dq \in I\)。若 \(r \neq 0\)，则 \(r\) 是 \(I\) 中次数比 \(d\) 更小的非零元素，矛盾。故 \(r = 0\)，\(f = dq \in (d)\)。

本质洞察：\(F[x]\) 是 PID 这一事实是本章一切结构定理的代数根基。Jordan 标准形的存在性、唯一性，以及准素分解的显式构造，最终都可以追溯到 \(F[x]\) 的 PID 性质。从某种意义上说，有限维线性算子的完全分类之所以可能，正是因为 \(F[x]\) 的理想结构足够简单。

1.3 最大公因式与 Bezout 恒等式 ⭐⭐¶

定义：\(\gcd(f, g)\) 是 \(f\) 和 \(g\) 的最大公因式，即 \((f) + (g) = (\gcd(f, g))\) 的唯一首一生成元。

Bezout 恒等式：由于 \((f) + (g) = (\gcd(f, g))\)，存在 \(s, t \in F[x]\) 使得

\[s(x) \cdot f(x) + t(x) \cdot g(x) = \gcd(f, g)\]

特别地，若 \(\gcd(f, g) = 1\)（\(f, g\) 互素），则存在 \(s, t\) 使得 \(sf + tg = 1\)。

计算方法（Euclidean 算法）：反复应用带余除法，直到余式为零。最后一个非零余式（归一化后）即为 \(\gcd(f, g)\)。回代可得 \(s, t\)。

例：计算 \(\gcd(x^3 - 1, x^2 - 1)\)。 - \(x^3 - 1 = (x^2 - 1) \cdot x + (x - 1)\) - \(x^2 - 1 = (x - 1)(x + 1) + 0\) - 故 \(\gcd(x^3 - 1, x^2 - 1) = x - 1\)

为什么 Bezout 恒等式重要：在 \(\S6\) 准素分解中，我们需要构造向广义特征空间的投影算子。Bezout 恒等式提供了将恒等算子分解为幂等投影之和的显式方法——"\(sf + tg = 1\) 在算子层面变成 \(s(T)f(T) + t(T)g(T) = I\)"。

1.4 不可约元与唯一分解 ⭐⭐¶

定义：\(F[x]\) 中的非零非单位元素 \(p(x)\) 称为不可约的（Irreducible），如果 \(p = fg\) 蕴含 \(f\) 或 \(g\) 是单位元（即非零常数）。

直觉理解：不可约多项式是多项式环中的"原子"——不能进一步分解的基本构建块。它们在 \(F[x]\) 中的角色类似于质数在 \(\mathbb{Z}\) 中的角色。

唯一分解定理（UFD）：\(F[x]\) 中每个次数 \(\geq 1\) 的多项式 \(f\) 可以唯一分解为

\[f(x) = c \cdot p_1(x)^{a_1} \cdot p_2(x)^{a_2} \cdots p_k(x)^{a_k}\]

其中 \(c \in F^*\) 是首项系数，\(p_i\) 是互不相同的首一不可约多项式，\(a_i \geq 1\)。唯一性指在重排顺序的意义下。

证明思路：存在性由 \(\deg\) 上的归纳法给出（若 \(f\) 不可约则已完成，否则 \(f = gh\) 且 \(\deg g, \deg h < \deg f\)，对 \(g, h\) 归纳）。唯一性由不可约元素在 PID 中是素元素保证——若 \(p \mid fg\)，则 \(p \mid f\) 或 \(p \mid g\)。

代数闭域的特殊性：域 \(F\) 称为代数闭的（Algebraically Closed），如果 \(F[x]\) 的不可约元素恰好是一次多项式 \(x - a\)（\(a \in F\)）。\(\mathbb{C}\) 是代数闭的（代数基本定理），\(\mathbb{R}\) 不是（\(x^2 + 1\) 在 \(\mathbb{R}[x]\) 中不可约）。

各域上的不可约多项式比较：

域 \(F\)	不可约多项式	例子
\(\mathbb{C}\)	仅一次：\(x - a\)	\(x^2 + 1 = (x-i)(x+i)\)
\(\mathbb{R}\)	一次 + 判别式 \(< 0\) 的二次	\(x^2 + 1\) 不可约
\(\mathbb{Q}\)	由 Eisenstein 等判据确定	\(x^4 + 1\) 不可约
\(\mathbb{F}_p\)	存在任意次数的不可约多项式	\(x^2 + x + 1\) 在 \(\mathbb{F}_2\) 上不可约

这一区分对 Jordan 理论至关重要：Jordan 标准形（由一次因子构成的块对角形式）仅当 \(F\) 代数闭（或更精确地说，特征多项式在 \(F\) 上完全分裂）时才存在。当 \(F\) 非代数闭时，我们需要有理标准形（Frobenius 标准形，\(\S12\)）作为替代。

反事实推理：如果 \(\mathbb{R}\) 是代数闭的会怎样？那么 \(x^2 + 1\) 在 \(\mathbb{R}\) 上就有根，设为 \(i\)，但 \(i^2 = -1 < 0\)，这与 \(\mathbb{R}\) 上非零实数的平方总为正矛盾。所以 \(\mathbb{R}\) 不可能是代数闭的——代数闭性是复数域 \(\mathbb{C}\) 的特权，代价是失去全序关系。

1.5 预告：\(V\) 如何成为 \(F[x]\)-模 ⭐¶

核心思想：给定线性算子 \(T: V \to V\)，我们可以让 \(F[x]\) 作用在 \(V\) 上：定义 \(x \cdot v := T(v)\)，进而 \(p(x) \cdot v := p(T)(v)\)。这使得 \(V\) 成为 \(F[x]\)-模（Module over \(F[x]\)）。

这个看似简单的观察拥有深远的后果：所有关于线性算子的结构定理（Jordan 标准形、有理标准形、Cayley--Hamilton）都可以从 PID 上有限生成模的结构定理——一个纯代数定理——推导出来。这条路径将在 \(\S10'\) 中完整展开。

现在只需记住一个关键事实：\(V\) 作为 \(F[x]\)-模是挠模（Torsion Module），即每个 \(v \in V\) 都有非零的零化多项式。这是因为 \(\{v, Tv, T^2 v, \ldots, T^{n^2} v\}\)（\(n = \dim V\)）在 \(n^2 + 1\) 维空间中必然线性相关。

1.6 \(F[x]\) 与 \(\mathrm{End}(V)\) 的关系 ⭐⭐¶

给定线性算子 \(T: V \to V\)，定义**求值同态**（Evaluation Homomorphism）：

\[\mathrm{ev}_T: F[x] \to \mathrm{End}(V), \quad p(x) \mapsto p(T)\]

这是一个 \(F\)-代数同态，即： - \(\mathrm{ev}_T(p + q) = p(T) + q(T)\) - \(\mathrm{ev}_T(p \cdot q) = p(T) \circ q(T)\) - \(\mathrm{ev}_T(c) = cI\)（常数映为数量算子）

第一同构定理的应用：\(\ker(\mathrm{ev}_T) = \mathrm{Ann}(T) = (m_T)\)，因此

\[F[x]/(m_T) \cong \mathrm{Im}(\mathrm{ev}_T) = F[T] \subset \mathrm{End}(V)\]

其中 \(F[T] = \{p(T) : p \in F[x]\}\) 是 \(T\) 生成的 \(F\)-子代数。\(\dim_F F[T] = \deg(m_T)\)。

意义：这个同构告诉我们，\(T\) 的所有多项式表达式（\(T\) 的加法、乘法、标量倍）构成的代数，完全由 \(m_T\) 决定。两个算子有相同的极小多项式当且仅当它们生成同构的 \(F\)-子代数。

常见陷阱¶

💡 概念误区 1：认为"多项式等于零"和"多项式函数等于零"是同一回事

新手想法：\(p(x) = x^2 - x\) 在 \(\mathbb{F}_2 = \{0, 1\}\) 上满足 \(p(0) = 0, p(1) = 0\)，所以 \(p = 0\)。

实际上：多项式 \(p(x) = x^2 - x\) 作为 \(\mathbb{F}_2[x]\) 的元素是非零的（它有 \(x^2\) 项），即使作为函数 \(\mathbb{F}_2 \to \mathbb{F}_2\) 它是零函数。在有限域上，多项式和多项式函数不一一对应。不过在 \(\mathbb{R}\) 或 \(\mathbb{C}\) 上不存在这个问题（无穷域上的区别消失）。

为什么重要：本章中"\(p(T) = 0\)"指的是将 \(T\) 代入后得到零算子，而非在某些特定向量上为零。

🧠 思维陷阱 2：混淆"\(F[x]\) 是 PID"与"\(F[x, y]\) 也是 PID"

新手想法：既然一元多项式环是 PID，多元的也应该是。

实际上：\(F[x, y]\) 不是 PID。例如理想 \((x, y)\)（由 \(x\) 和 \(y\) 生成）不是主理想——不存在单个多项式 \(d\) 使得 \((x, y) = (d)\)。这就是为什么多元情况下的不变子空间理论远为复杂，也是为什么本章所有结构定理本质上是一元多项式环的特权。

正确理解：PID 性质是 \(F[x]\) 的"恩赐"，它使得线性算子的完全分类成为可能。

练习¶

(手推) 在 \(\mathbb{Q}[x]\) 中，使用 Euclidean 算法计算 \(\gcd(x^4 - 1, x^6 - 1)\)，并显式求出 Bezout 系数 \(s, t\)。
(思考) 证明：若 \(F\) 是域，则 \(F[x]\) 中次数 \(\leq 1\) 的非零多项式都是不可约的。对次数 \(\geq 2\) 的多项式，给出一个在 \(\mathbb{Q}[x]\) 中不可约但在 \(\mathbb{R}[x]\) 中仍然不可约、但在 \(\mathbb{C}[x]\) 中可约的例子。

上节建立了 \(F[x]\) 的代数基础。核心收获是：\(F[x]\) 是 PID，具有带余除法、Bezout 恒等式和唯一分解。下一步的问题是：将这些工具应用于线性算子——给定 \(T: V \to V\)，哪些多项式 \(p\) 会让 \(p(T) = 0\)？

2. \(T\)-零化多项式与极小多项式 \(m_T\) ⭐⭐⭐¶

动机¶

假设你有一个线性算子 \(T: V \to V\)。你知道 \(T\) 的矩阵表示（在某个基下）是一个 \(n \times n\) 矩阵 \(A\)。你想理解 \(T\) 的"本质结构"——不依赖于基选择的内在性质。

一个关键的观察是：\(T\) 的幂 \(I, T, T^2, T^3, \ldots\) 不可能全部线性无关。因为 \(\mathrm{End}(V) \cong M_n(F)\) 是 \(n^2\) 维的，所以 \(\{I, T, T^2, \ldots, T^{n^2}\}\) 这 \(n^2 + 1\) 个算子必然线性相关。换言之，必然存在一个非零多项式 \(p(x)\) 使得 \(p(T) = 0\)。

问题：在所有满足 \(p(T) = 0\) 的非零多项式中，次数最小的那个是什么？它唯一吗？它携带了 \(T\) 的哪些信息？

如果没有极小多项式会怎样¶

没有极小多项式，我们就无法： - 判断 \(T\) 是否可对角化（\(m_T\) 无重根 \(\Leftrightarrow\) 可对角化） - 执行准素分解（\(m_T\) 的分解直接给出 \(V\) 的分解） - 将矩阵指数的无穷级数截断为有限多项式（Cayley--Hamilton）

历史背景¶

极小多项式的概念可追溯到 19 世纪的 Cayley 和 Hamilton 的工作。Arthur Cayley 在 1858 年首次猜测每个矩阵都满足自己的特征方程，William Rowan Hamilton 在四元数理论中独立发现了类似结果。这个猜想的严格证明（即 Cayley--Hamilton 定理）将在 \(\S4\) 给出，而极小多项式是理解这一定理的必要前置。

2.1 零化理想 \(\mathrm{Ann}(T)\) ⭐⭐⭐¶

定义：设 \(T: V \to V\) 是有限维向量空间上的线性算子。\(T\) 的**零化理想**（Annihilator Ideal）定义为

\[\mathrm{Ann}(T) := \{p \in F[x] : p(T) = 0\} \subset F[x]\]

验证 \(\mathrm{Ann}(T)\) 确实是理想：

加法封闭：若 \(p(T) = 0\) 且 \(q(T) = 0\)，则 \((p + q)(T) = p(T) + q(T) = 0\)
吸收性：若 \(p(T) = 0\)，则对任意 \(h \in F[x]\)，\((h \cdot p)(T) = h(T) \circ p(T) = h(T) \circ 0 = 0\)

注意这里用到了一个关键事实：对于可交换的多项式 \(f, g \in F[x]\)，有 \(f(T) \circ g(T) = (fg)(T)\)。这是因为 \(T\) 与自身交换（\(T \circ T = T \circ T\)），所以 \(T\) 的各次幂之间也互相交换。

2.2 存在性论证 ⭐⭐⭐¶

定理：\(\mathrm{Ann}(T) \neq \{0\}\)，即存在非零多项式零化 \(T\)。

证明：\(\mathrm{End}(V)\) 作为 \(F\)-向量空间的维数是 \(n^2\)（其中 \(n = \dim V\)）。考虑 \(n^2 + 1\) 个算子 \(I, T, T^2, \ldots, T^{n^2}\)，它们必然线性相关。因此存在不全为零的 \(c_0, c_1, \ldots, c_{n^2} \in F\) 使得

\[c_0 I + c_1 T + c_2 T^2 + \cdots + c_{n^2} T^{n^2} = 0\]

这意味着多项式 \(p(x) = c_0 + c_1 x + \cdots + c_{n^2} x^{n^2}\) 属于 \(\mathrm{Ann}(T)\) 且非零。

上界：这个论证给出 \(\mathrm{Ann}(T)\) 中存在次数 \(\leq n^2\) 的非零元素。Cayley--Hamilton 定理（\(\S4\)）将给出更强的结论：\(p_T \in \mathrm{Ann}(T)\)，其次数为 \(n\)。因此极小多项式 \(m_T\) 的次数最多为 \(n\)（而非 \(n^2\)）。

2.3 极小多项式的定义与唯一性 ⭐⭐⭐¶

定义：\(T\) 的**极小多项式**（Minimal Polynomial）\(m_T\) 是 \(\mathrm{Ann}(T)\) 中次数最小的首一多项式。

唯一性：由于 \(F[x]\) 是 PID，\(\mathrm{Ann}(T)\) 作为 \(F[x]\) 的理想，是主理想——即存在唯一的首一多项式 \(m_T\) 使得 \(\mathrm{Ann}(T) = (m_T)\)。\(m_T\) 的唯一性来自 PID 中主理想生成元的唯一性（在单位倍的意义下，首一化后绝对唯一）。

本质洞察：极小多项式 \(m_T\) 捕获了算子 \(T\) 的"代数本质"——它是最精简的多项式关系。\(m_T\) 可以告诉我们 \(T\) 的所有本质信息：\(T\) 的特征值（\(m_T\) 的根）、\(T\) 是否可对角化（\(m_T\) 是否无重根）、\(V\) 如何按 \(T\) 的作用分解（\(m_T\) 的因式分解）。

2.4 整除性刻画 ⭐⭐⭐¶

定理：\(q(T) = 0\) 当且仅当 \(m_T \mid q\)。

证明：\((\Leftarrow)\) 若 \(m_T \mid q\)，则 \(q = m_T \cdot h\)，故 \(q(T) = m_T(T) \cdot h(T) = 0 \cdot h(T) = 0\)。\((\Rightarrow)\) 若 \(q(T) = 0\)，则 \(q \in \mathrm{Ann}(T) = (m_T)\)，故 \(m_T \mid q\)。

直觉理解：\(m_T\) 是所有零化多项式的"最大公因式"——准确地说，\(m_T\) 生成零化理想，所以任何零化多项式都是 \(m_T\) 的倍数。

应用示例：如何利用整除性判断 \(T\) 是否可逆？\(T\) 可逆当且仅当 \(0\) 不是 \(T\) 的特征值，等价于 \(m_T(0) \neq 0\)，等价于 \(m_T\) 的常数项非零。更一般地，若 \(m_T(x) = x^r + c_{r-1}x^{r-1} + \cdots + c_0\)，则 \(T\) 可逆当且仅当 \(c_0 \neq 0\)。此时 \(T^{-1} = -\frac{1}{c_0}(T^{r-1} + c_{r-1}T^{r-2} + \cdots + c_1 I)\)——极小多项式直接给出了逆算子的显式表达。

2.5 限制到不变子空间 ⭐⭐¶

命题：设 \(W \subset V\) 是 \(T\)-不变子空间，则 \(m_{T|_W} \mid m_T\)。

证明：\(m_T(T) = 0\) 在 \(V\) 上成立，特别在 \(W\) 上成立：\(m_T(T|_W) = m_T(T)|_W = 0|_W = 0\)。由 \(\S2.4\) 的整除性刻画，\(m_{T|_W} \mid m_T\)。

类比理解：这就像一条河（\(V\)）的流速规律（\(m_T\)）决定了每条支流（\(W\)）的规律（\(m_{T|_W}\)）——支流的规律必须"整除"主流的规律。但要注意**类比的边界**：支流可能有比主流更简单的规律（\(m_{T|_W}\) 的次数可以严格小于 \(m_T\) 的次数），但不可能有与主流矛盾的规律。

2.6 直和分解下的极小多项式 ⭐⭐¶

命题：若 \(V = V_1 \oplus V_2 \oplus \cdots \oplus V_k\)，每个 \(V_i\) 都是 \(T\)-不变子空间，则

\[m_T = \mathrm{lcm}(m_{T|_{V_1}}, m_{T|_{V_2}}, \ldots, m_{T|_{V_k}})\]

证明思路：\(m_T(T) = 0\) 当且仅当 \(m_T(T|_{V_i}) = 0\) 对所有 \(i\) 成立，即 \(m_{T|_{V_i}} \mid m_T\) 对所有 \(i\) 成立。最小的这样的 \(m_T\) 就是各 \(m_{T|_{V_i}}\) 的最小公倍式。

推论：这个公式将在 Jordan 标准形的唯一性证明中起到关键作用——每个 Jordan 块的极小多项式是 \((x - \lambda)^k\)，整体的极小多项式是这些的 \(\mathrm{lcm}\)，等于最大的那个 \((x - \lambda)^{k_{\max}}\)。

常见陷阱¶

💡 概念误区 1：混淆"极小多项式"与"特征多项式"

新手想法：\(m_T\) 和 \(p_T\) 不就是同一个东西吗？

实际上：\(m_T\) 和 \(p_T\) 有相同的根集合（\(\S5\) 将证明），但重数可以不同。例如，\(2 \times 2\) 单位矩阵 \(I_2\) 的 \(p_{I_2}(x) = (x-1)^2\) 但 \(m_{I_2}(x) = x - 1\)。\(m_T = p_T\) 当且仅当 \(T\) 有**循环向量**（\(\S9\)）。

正确理解：\(m_T\) 是最小的零化多项式，\(p_T\) 是固定次数 \(n\) 的"特征方程"。Cayley--Hamilton 保证 \(m_T \mid p_T\)。

🧠 思维陷阱 2：认为极小多项式的次数总是很小

新手想法：\(m_T\) 的次数远小于 \(n\)，所以 \(T\) 的高次幂都可以"压缩"。

实际上：\(m_T\) 的次数可以等于 \(n\)（此时 \(m_T = p_T\)），也可以小至 \(1\)（当 \(T = cI\) 时，\(m_T = x - c\)）。一般的"泛型"矩阵满足 \(m_T = p_T\)，次数等于 \(n\)。

正确理解：\(m_T\) 的次数由 \(T\) 的代数结构决定，范围是 \(1 \leq \deg(m_T) \leq n\)。

练习¶

(手推) 计算以下矩阵的极小多项式：(a) \(A = \begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix}\)；(b) \(A = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}\)；(c) \(A = \begin{pmatrix} 1 & 0 \\ 0 & 2 \end{pmatrix}\)。对比它们的特征多项式。
(证明) 证明：若 \(T\) 可对角化且有 \(k\) 个互不相同的特征值，则 \(\deg(m_T) = k\)。
(思考) 设 \(V = \mathbb{R}^4\)，\(T\) 的矩阵在标准基下为 \(\mathrm{diag}(J_2(0), J_2(0))\)（两个 \(2 \times 2\) 零特征值 Jordan 块）。计算 \(m_T\)。如果改为 \(\mathrm{diag}(J_3(0), J_1(0))\)，\(m_T\) 会变吗？

上节建立了极小多项式 \(m_T\) 的概念。下面我们需要另一个核心工具——特征多项式 \(p_T\)。虽然特征多项式在 A2c 中已有介绍，这里我们从另一个角度重新审视它，特别是为 Cayley--Hamilton 定理做准备。

3. 特征多项式 \(p_T(\lambda) = \det(\lambda I - T)\) ⭐⭐⭐¶

动机¶

特征多项式 \(p_T(\lambda)\) 编码了 \(T\) 的全部特征值（及其代数重数）。回顾 A2c：\(\lambda_0\) 是 \(T\) 的特征值当且仅当 \(\det(\lambda_0 I - T) = 0\)，即 \(\lambda_0\) 是 \(p_T\) 的根。

但特征多项式还有一个更深层的作用：Cayley--Hamilton 定理断言 \(p_T(T) = 0\)，即将特征多项式中的 \(\lambda\) "替换"为算子 \(T\) 本身后得到零算子。这将极小多项式和特征多项式紧密联系起来。

本节定位说明¶

行列式的完整理论将在 A2e（张量积、外代数、行列式）中系统建立。此处我们采取"黑盒 + 最小公理"策略，只使用行列式的以下三条基本性质：

P1（乘性）：\(\det(AB) = \det(A) \det(B)\)
P2（对角）：上三角矩阵的行列式等于对角元素的乘积
P3（多项式形式）：\(\det(\lambda I - A)\) 是 \(\lambda\) 的首一 \(n\) 次多项式

3.1 特征多项式的定义与基独立性 ⭐⭐⭐¶

定义：设 \(T: V \to V\) 的矩阵表示（在某个基下）为 \(A\)。\(T\) 的**特征多项式**为

\[p_T(\lambda) := \det(\lambda I - A)\]

基独立性：若 \(B = P^{-1}AP\) 是 \(T\) 在另一个基下的矩阵，则

\[\det(\lambda I - B) = \det(\lambda I - P^{-1}AP) = \det(P^{-1}(\lambda I - A)P) = \det(P^{-1}) \det(\lambda I - A) \det(P) = \det(\lambda I - A)\]

这里用到了行列式的乘性（P1）。因此 \(p_T\) 是 \(T\) 的内在不变量，不依赖于基的选择。

3.2 \(p_T\) 的结构 ⭐⭐¶

由性质 P3，\(p_T(\lambda)\) 是首一 \(n\) 次多项式，具体形式为

\[p_T(\lambda) = \lambda^n - (\mathrm{tr}\,T)\lambda^{n-1} + \cdots + (-1)^n \det(T)\]

其中： - 最高项：系数为 \(1\)（首一），来自 \(\det(\lambda I - A)\) 展开中 \(\prod_{i=1}^n (\lambda - a_{ii})\) 的 \(\lambda^n\) 项 - 次高项：系数为 \(-\mathrm{tr}(T) = -(a_{11} + a_{22} + \cdots + a_{nn})\) - 常数项：\(p_T(0) = \det(-A) = (-1)^n \det(A)\)

3.3 特征值即 \(p_T\) 的根 ⭐⭐⭐¶

命题：\(\lambda_0\) 是 \(T\) 的特征值当且仅当 \(p_T(\lambda_0) = 0\)。

证明：\(\lambda_0\) 是特征值 \(\Leftrightarrow\) 存在 \(v \neq 0\) 使得 \(Tv = \lambda_0 v\) \(\Leftrightarrow\) \((\lambda_0 I - T)v = 0\) 有非零解 \(\Leftrightarrow\) \(\lambda_0 I - T\) 不可逆 \(\Leftrightarrow\) \(\det(\lambda_0 I - T) = 0\) \(\Leftrightarrow\) \(p_T(\lambda_0) = 0\)。

代数重数：特征值 \(\lambda_0\) 的**代数重数**（Algebraic Multiplicity）定义为 \(\lambda_0\) 作为 \(p_T\) 的根的重数。

3.4 伴随矩阵简介 ⭐⭐¶

定义：矩阵 \(A\) 的**伴随矩阵**（Adjugate Matrix）\(\mathrm{adj}(A)\) 的 \((i, j)\) 元素是 \(A\) 的 \((j, i)\) 代数余子式。

关键恒等式：对任意 \(n \times n\) 矩阵 \(A\)，

\[A \cdot \mathrm{adj}(A) = \mathrm{adj}(A) \cdot A = \det(A) \cdot I\]

将 \(A\) 替换为 \(\lambda I - A\)（视为 \(F[\lambda]\) 上的矩阵），得到

\[(\lambda I - A) \cdot \mathrm{adj}(\lambda I - A) = p_A(\lambda) \cdot I\]

这个恒等式是 Cayley--Hamilton 定理伴随矩阵证明路径的起点（\(\S4.2\)）。

常见陷阱¶

💡 概念误区 1：混淆"特征多项式"与"最小多项式"的次数关系

新手想法："\(p_T\) 的次数是 \(n\)，\(m_T\) 的次数也差不多吧"

实际上：\(m_T\) 的次数可以远小于 \(n\)。极端例子：\(T = cI\)（数量矩阵），\(p_T = (x-c)^n\) 次数 \(n\)，\(m_T = x - c\) 次数 \(1\)。\(m_T\) 的次数由 \(T\) 的"复杂程度"决定。

正确理解：\(m_T \mid p_T\)，\(1 \leq \deg(m_T) \leq \deg(p_T) = n\)。

🧠 思维陷阱 2：忘记 \(\det(\lambda I - A)\) 中 \(\lambda\) 是标量而非矩阵

新手想法："既然 \(p_A(\lambda) = \det(\lambda I - A)\)，那 \(p_A(A) = \det(AI - A) = \det(0) = 0\)，Cayley--Hamilton 就这么证完了！"

实际上：这个"证明"犯了根本性错误——\(\det\) 的输入是标量矩阵（元素为域 \(F\) 中的元素），而 \(AI - A\) 中的"元素"是矩阵，不能直接代入 \(\det\)。\(\S4.2\) 将给出正确的处理方式。

正确理解："用 \(A\) 代入 \(\lambda\)"这个操作在行列式内部无意义。正确的做法需要引入非交换多项式环。

练习¶

(手推) 对 \(A = \begin{pmatrix} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 2 & -5 & 4 \end{pmatrix}\)，计算 \(p_A(\lambda)\) 和 \(\mathrm{adj}(\lambda I - A)\)，验证 \((\lambda I - A) \cdot \mathrm{adj}(\lambda I - A) = p_A(\lambda) I\)。
(思考) 证明：\(\mathrm{tr}(T)\) 等于 \(T\) 的全部特征值之和（含重数），\(\det(T)\) 等于全部特征值之积。提示：利用 \(p_T\) 的因式分解。

现在我们已经拥有了极小多项式和特征多项式这两个核心工具。它们之间有什么关系？答案是 Cayley--Hamilton 定理——线性代数中最重要的定理之一。

4. Cayley--Hamilton 定理 ⭐⭐⭐¶

动机¶

Cayley--Hamilton 定理回答了一个看似大胆的问题：特征多项式 \(p_T\) 是不是也零化 \(T\)？ 即 \(p_T(T) = 0\)？

直觉上，\(p_T(\lambda) = 0\) 当 \(\lambda\) 取特征值时成立。但 \(p_T(T) = 0\) 是一个更强的断言——它说的是将**整个算子 \(T\)** 代入 \(p_T\)（而非单个标量）后得到零算子。这两件事之间的逻辑跳跃需要严格的证明来弥合。

陈述（Cayley--Hamilton 定理）：设 \(T: V \to V\) 是有限维向量空间上的线性算子，\(p_T(\lambda) = \det(\lambda I - T)\) 是其特征多项式。则

\[p_T(T) = 0\]

即 \(p_T\) 零化 \(T\)。

如果没有 Cayley--Hamilton 定理¶

矩阵指数无法截断：\(e^{tA} = \sum_{k=0}^{\infty} \frac{(tA)^k}{k!}\) 是无穷级数。Cayley--Hamilton 说 \(A^n\) 可以表示为 \(\{I, A, \ldots, A^{n-1}\}\) 的线性组合，于是 \(e^{tA}\) 可以写成次数 \(< n\) 的矩阵多项式——这是 \(\S14\) Sylvester--Buchheim 公式的基础
极小多项式的次数无上界：没有 Cayley--Hamilton，我们只能说 \(\deg(m_T) \leq n^2\)（\(\S2.2\) 的粗糙上界）。有了它，\(\deg(m_T) \leq n\)

历史¶

Arthur Cayley（1821--1895）在 1858 年的论文 A Memoir on the Theory of Matrices 中为 \(2 \times 2\) 和 \(3 \times 3\) 矩阵验证了这一结论，并声称"无需给出一般情况的证明"（"I have not thought it necessary to undertake the labour of a formal proof"）。William Rowan Hamilton（1805--1865）在四元数理论中独立发现了类似结果。首个严格证明由 Ferdinand Georg Frobenius 于 1878 年给出。

4.1 路径 1：经 Schur 分解（几何证明） ⭐⭐⭐¶

前提：\(F\) 代数闭（例如 \(F = \mathbb{C}\)）。在 A2c 中我们已证明：复向量空间上的任意线性算子都存在不变旗（Invariant Flag），即存在子空间链

\[\{0\} = V_0 \subset V_1 \subset V_2 \subset \cdots \subset V_n = V\]

满足 \(\dim V_k = k\) 且 \(T(V_k) \subset V_k\)。在对应的基下，\(T\) 表示为上三角矩阵，对角元素为 \(\lambda_1, \lambda_2, \ldots, \lambda_n\)（\(T\) 的特征值，含重数）。

关键引理：\((T - \lambda_k I)\) 将 \(V_k\) 映入 \(V_{k-1}\)。

引理的证明：设 \(v \in V_k\)。由于 \(T(V_k) \subset V_k\)（不变性），\(Tv \in V_k\)。在旗的基 \(\{e_1, \ldots, e_n\}\) 下，\(T\) 的矩阵是上三角的，其中 \(Te_k = \lambda_k e_k + \sum_{j < k} a_{jk} e_j\)。因此

\[(T - \lambda_k I)e_k = \sum_{j < k} a_{jk} e_j \in V_{k-1}\]

由于 \(T - \lambda_k I\) 也将 \(V_{k-1}\) 映入 \(V_{k-1}\)（因为 \(T\) 在 \(V_{k-1}\) 上的对角元不影响低维子空间），我们得到 \((T - \lambda_k I)(V_k) \subset V_{k-1}\)。

定理的证明：考虑算子的复合

\[(T - \lambda_n I)(T - \lambda_{n-1} I) \cdots (T - \lambda_1 I)\]

作用在 \(V_n = V\) 上。由引理：

\((T - \lambda_1 I)\) 将 \(V_1\) 映入 \(V_0 = \{0\}\)
对 \(V_2\)，\((T - \lambda_1 I)\) 将 \(V_2\) 映入 \(V_1\)（因为 \(T - \lambda_1 I\) 保持 \(V_2\) 不变，但不一定映入 \(V_1\)——这里需要更仔细的论证）

更精确地：\((T - \lambda_1 I)\) 将 \(V_n\) 映入 \(V_n\)（但不缩小），\((T - \lambda_2 I)\) 在此基础上将像缩入 \(V_{n-1}\)，依次类推。关键的链式推理如下：

设 \(v \in V = V_n\)。

\((T - \lambda_1 I)v \in V_n\)（因为 \(T - \lambda_1 I\) 保持 \(V_n\)）
但对于上三角矩阵，\((T - \lambda_k I)\) 将 \(V_k\) 映入 \(V_{k-1}\)。

正确的论证顺序是：对任意 \(v \in V_n\)，

\[(T - \lambda_n I)v \in V_{n-1}\]

然后 \((T - \lambda_{n-1} I)\) 将 \(V_{n-1}\) 映入 \(V_{n-2}\)，所以

\[(T - \lambda_{n-1} I)(T - \lambda_n I)v \in V_{n-2}\]

依次类推：

\[(T - \lambda_1 I)(T - \lambda_2 I) \cdots (T - \lambda_n I)v \in V_0 = \{0\}\]

注意因子的顺序从右到左是 \(\lambda_n, \lambda_{n-1}, \ldots, \lambda_1\)。但由于 \(p_T(\lambda) = (\lambda - \lambda_1)(\lambda - \lambda_2) \cdots (\lambda - \lambda_n)\)，而代入 \(T\) 后各因子 \((T - \lambda_i I)\) 之间可交换（它们都是 \(T\) 的多项式），所以

\[p_T(T) = (T - \lambda_1 I)(T - \lambda_2 I) \cdots (T - \lambda_n I) = 0\]

阶段小结：路径 1 的核心思想是利用上三角化——在旗基下，每个因子 \((T - \lambda_k I)\) 将子空间链"降一级"，\(n\) 个因子的复合将 \(V\) 映到 \(\{0\}\)。

适用范围：此证明要求 \(F\) 代数闭（以保证上三角化存在）。对一般域，需要路径 2。

4.2 路径 2：经伴随矩阵（纯代数证明） ⭐⭐⭐¶

此路径适用于任意交换环，不要求域或代数闭。

起点：\(\S3.4\) 的关键恒等式

\[(\lambda I - A) \cdot \mathrm{adj}(\lambda I - A) = p_A(\lambda) \cdot I \qquad (\star)\]

新手常犯的致命错误：

"把 \(\lambda\) 换成 \(A\)：\((AI - A) \cdot \mathrm{adj}(AI - A) = p_A(A) \cdot I\)，左边 \(= 0 \cdot \mathrm{adj}(0) = 0\)，所以 \(p_A(A) = 0\)。证毕。"

这个"证明"是错误的！ 错在两处：

\((\star)\) 式中的 \(\lambda\) 是**标量**，\(\mathrm{adj}(\lambda I - A)\) 是以 \(\lambda\) 的多项式为元素的**标量矩阵**。"将 \(\lambda\) 换成 \(A\)"在行列式内部无意义——\(\det\) 只对标量矩阵有定义
即使形式上"替换"，\(AI - A = 0\) 但 \(p_A(A)\) 的计算不能通过 \(\det(0) = 0\) 得到，因为 \(p_A(A)\) 是将多项式 \(p_A\) 的系数与 \(A\) 的幂相乘再求和，而非计算行列式

严谨处理：引入**非交换多项式环 \(M_n(F)[\lambda]\)**——以 \(\lambda\) 为中心不定元（与所有矩阵交换）、以 \(n \times n\) 矩阵为系数的多项式环。

在 \((\star)\) 式中，将 \(\mathrm{adj}(\lambda I - A)\) 展开为 \(\lambda\) 的多项式：

\[\mathrm{adj}(\lambda I - A) = B_{n-1} \lambda^{n-1} + B_{n-2} \lambda^{n-2} + \cdots + B_1 \lambda + B_0\]

其中每个 \(B_j\) 是 \(n \times n\) 矩阵（\(A\) 的元素的多项式函数）。

类似地，\(p_A(\lambda) = \lambda^n + c_{n-1}\lambda^{n-1} + \cdots + c_0\)。

将 \((\star)\) 式两边按 \(\lambda\) 的幂次展开并比较系数：

\[(\lambda I - A)(B_{n-1}\lambda^{n-1} + \cdots + B_0) = (\lambda^n + c_{n-1}\lambda^{n-1} + \cdots + c_0) I\]

左边展开后，\(\lambda^n\) 的系数为 \(B_{n-1}\)，\(\lambda^{n-1}\) 的系数为 \(B_{n-2} - AB_{n-1}\)，依次类推。与右边比较：

\(\lambda\) 的幂	等式
\(\lambda^n\)	\(B_{n-1} = I\)
\(\lambda^{n-1}\)	\(B_{n-2} - AB_{n-1} = c_{n-1} I\)
\(\lambda^{n-2}\)	\(B_{n-3} - AB_{n-2} = c_{n-2} I\)
\(\vdots\)	\(\vdots\)
\(\lambda^1\)	\(B_0 - AB_1 = c_1 I\)
\(\lambda^0\)	\(-AB_0 = c_0 I\)

现在，关键一步：将这些等式分别左乘 \(A^n, A^{n-1}, \ldots, A, I\) 并求和：

第 1 式左乘 \(A^n\)：\(A^n B_{n-1} = A^n\)
第 2 式左乘 \(A^{n-1}\)：\(A^{n-1} B_{n-2} - A^n B_{n-1} = c_{n-1} A^{n-1}\)
\(\vdots\)
末式左乘 \(I\)：\(-AB_0 = c_0 I\)

求和时，左边的 \(A^k B_{k-1}\) 项与 \(-A^k B_{k-1}\) 项相消（望远镜求和/telescoping），最终只剩下

\[0 = A^n + c_{n-1} A^{n-1} + \cdots + c_1 A + c_0 I = p_A(A)\]

验证交换性：上述望远镜求和的正确性依赖于 \(A\) 与各 \(B_j\) 的交换性——即 \(A B_j = B_j A\)。这是因为每个 \(B_j\) 是 \(A\) 的元素的多项式函数（可以通过 \(B_j\) 的递推关系 \(B_{j-1} = c_j I + AB_j\) 归纳证明 \(B_j\) 实际上是 \(A\) 的多项式）。

本质洞察：路径 2 的核心技巧是"望远镜求和"——将关于 \(\lambda\) 的多项式恒等式转化为关于 \(A\) 的矩阵恒等式。这个技巧的深层原因是：\(M_n(F)[\lambda]\) 中的恒等式可以通过"求值映射" \(\lambda \mapsto A\) 传递到 \(M_n(F)\)，前提是系数矩阵与 \(A\) 交换。

4.3 路径 3：稠密性论证（简述） ⭐¶

思想：可对角化矩阵在 \(M_n(\mathbb{C})\) 中 Zariski 稠密（判别式非零的矩阵构成开稠密集）。映射 \(A \mapsto p_A(A)\) 是连续的。对可对角化矩阵 \(A = P\mathrm{diag}(\lambda_i)P^{-1}\)，\(p_A(A) = P\mathrm{diag}(p_A(\lambda_i))P^{-1} = P \cdot 0 \cdot P^{-1} = 0\)（平凡）。由连续性和稠密性，对全体矩阵成立。

价值：展示了"代数恒等式由稠密子集上成立推得"的通用技巧。但对一般域需要额外的代数论证（Lefschetz 原理或 universal identity）。

4.4 路径 4：经 \(F[x]\)-模结构（预告） ⭐¶

思想：由 \(\S10'\) 的模结构定理，\(V \cong \bigoplus F[x]/(f_i)\)，其中 \(f_1 \mid f_2 \mid \cdots \mid f_k\)。特征多项式 \(p_T = \prod f_i\)，极小多项式 \(m_T = f_k\)。在每个分量 \(F[x]/(f_i)\) 上，\(f_i(T) = 0\)，因此 \(p_T(T) = \prod f_i(T) = 0\)。

这条路径的优点是使 \(m_T \mid p_T\) 与 Cayley--Hamilton 合为**同一个推论**。

4.5 典型错误清单¶

错误	正确理解
"\(p_A(A) = \det(AI - A) = \det(0) = 0\)"	左边是矩阵（\(p_A\) 在 \(A\) 处的求值），右边是标量；禁止在 \(\det\) 内部"矩阵代入标量"
混淆"以多项式为元素的矩阵"与"以矩阵为系数的多项式"	两者作为加法群同构，但只有后者承载求值映射 \(\mathrm{ev}_A\)
忘记 \(\mathrm{ev}_A\) 是环同态的前提（交换性）	必须验证系数矩阵与 \(A\) 交换才能使望远镜求和成立
认为路径 1 对所有域都成立	路径 1 需要代数闭性（保证上三角化），一般域用路径 2

常见陷阱¶

💡 概念误区：认为 Cayley--Hamilton 只是一个"计算便利"

新手想法："\(p_T(T) = 0\) 不过是让我们少算几步而已"

实际上：Cayley--Hamilton 的深层意义在于——它将 \(T\) 的矩阵指数（无穷级数）截断为有限多项式，使得 Rodrigues 公式、SE(3) 指数映射的闭式表达成为可能。没有它，这些公式只能用数值方法近似计算。

正确理解：Cayley--Hamilton 是连接"代数结构"与"计算可行性"的桥梁。

🧠 思维陷阱：认为存在某条"最好"的证明路径

新手想法："四条路径里哪条最正确？学一条就够了吧"

实际上：每条路径揭示不同的数学面向。路径 1 展示几何直觉（旗与上三角化），路径 2 展示代数技巧（望远镜求和），路径 3 展示拓扑方法（稠密性），路径 4 展示模论统一性。掌握多条路径才能真正理解定理的深度。

正确思维：数学中同一定理的多条证明路径不是冗余，而是从不同侧面照亮同一真理。

练习¶

(手推) 对 \(A = \begin{pmatrix} 1 & 1 \\ 0 & 2 \end{pmatrix}\)，计算 \(p_A(\lambda)\)，然后直接验证 \(p_A(A) = A^2 - 3A + 2I = 0\)。
(证明) 使用路径 2（伴随矩阵方法），对 \(2 \times 2\) 矩阵 \(A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}\) 完成 Cayley--Hamilton 定理的完整证明。显式写出 \(B_0, B_1\) 和望远镜求和的每一步。
(思考) Cayley--Hamilton 定理的逆命题"\(p(T) = 0\) 蕴含 \(p = p_T\)"是否成立？给出证明或反例。

练习 4¶

5. 极小多项式与特征多项式的关系 ⭐⭐⭐¶

动机¶

我们现在有两个与 \(T\) 相关的多项式：极小多项式 \(m_T\)（最小的零化多项式）和特征多项式 \(p_T\)（\(\det(\lambda I - T)\)）。Cayley--Hamilton 告诉我们 \(p_T(T) = 0\)，即 \(p_T \in \mathrm{Ann}(T)\)，故 \(m_T \mid p_T\)。但这两个多项式之间的关系远不止"整除"——它们还有**完全相同的根集合**。

5.1 \(m_T \mid p_T\)（Cayley--Hamilton 的直接推论） ⭐⭐⭐¶

由 Cayley--Hamilton 定理：\(p_T(T) = 0\)，即 \(p_T \in \mathrm{Ann}(T) = (m_T)\)，故 \(m_T \mid p_T\)。

5.2 同根定理 ⭐⭐⭐¶

定理：\(m_T\) 与 \(p_T\) 有**完全相同的根集合**（但重数可以不同）。

证明： - \(m_T\) 的根 \(\subset\) \(p_T\) 的根：由 \(m_T \mid p_T\)，\(m_T\) 的每个根都是 \(p_T\) 的根。 - \(p_T\) 的根 \(\subset\) \(m_T\) 的根：设 \(\lambda_0\) 是 \(p_T\) 的根，即 \(T\) 的特征值。存在 \(v \neq 0\) 使得 \(Tv = \lambda_0 v\)。则 \(0 = m_T(T)v = m_T(\lambda_0)v\)。由 \(v \neq 0\) 得 \(m_T(\lambda_0) = 0\)，即 \(\lambda_0\) 是 \(m_T\) 的根。

推论：\(T\) 可对角化当且仅当 \(m_T\) 可分解为互不相同的一次因式的乘积（在 \(F\) 代数闭时），即 \(m_T\) 无重根。

为什么这个推论重要：它给出了可对角化的代数刻画——不需要检查所有特征空间的维数，只需看 \(m_T\) 是否有重根。

5.3 典型例子 ⭐⭐¶

矩阵 \(A\)	\(p_A\)	\(m_A\)	可对角化？
\(\begin{pmatrix} 2 & 0 \\ 0 & 3 \end{pmatrix}\)	\((x-2)(x-3)\)	\((x-2)(x-3)\)	是
\(\begin{pmatrix} 2 & 0 \\ 0 & 2 \end{pmatrix}\)	\((x-2)^2\)	\(x-2\)	是
\(\begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}\)	\((x-2)^2\)	\((x-2)^2\)	否
\(\begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}\) (旋转 \(90°\))	\(x^2+1\)	\(x^2+1\)	在 \(\mathbb{R}\) 上否，在 \(\mathbb{C}\) 上是

反事实推理：如果 \(m_T\) 和 \(p_T\) 的根集合不相同会怎样？那就意味着存在一个特征值 \(\lambda_0\)（\(p_T\) 的根）但 \(m_T(\lambda_0) \neq 0\)。这又意味着 \(m_T(T)v = m_T(\lambda_0)v \neq 0\) 对特征向量 \(v\) 成立——但 \(m_T(T) = 0\) 要求右边为零，矛盾。所以同根性不是巧合，而是定义的必然。

常见陷阱¶

💡 概念误区：认为"\(m_T\) 的重数"和"\(p_T\) 的重数"相同

新手想法："同根就意味着同重数吧？"

实际上：完全不是。\(\S5.3\) 的第二个例子中，\(p_A = (x-2)^2\)（重数 2）但 \(m_A = x - 2\)（重数 1）。\(m_T\) 中 \((x-\lambda)\) 的幂次等于最大 Jordan 块的大小，而 \(p_T\) 中的幂次等于代数重数（所有 Jordan 块大小之和）。

正确理解：同根不同重。\(m_T\) 中的重数反映"最大 Jordan 块"，\(p_T\) 中的重数反映"总维数"。

🧠 思维陷阱：认为"\(m_T = p_T\)"是常态

新手想法："大多数矩阵的 \(m_T\) 和 \(p_T\) 应该不同吧？"

实际上：恰恰相反——"泛型"（一般位置的）矩阵满足 \(m_T = p_T\)。\(m_T \neq p_T\) 意味着 \(T\) 有特殊的结构（例如某些特征空间维数大于 1），这是"非泛型"的。

正确理解：\(m_T = p_T\) 是常态（对应于循环向量的存在），\(m_T \neq p_T\) 是特例。

练习¶

(手推) 构造一个 \(4 \times 4\) 矩阵 \(A\)，使得 \(p_A = (x-1)^2(x-2)^2\) 但 \(m_A = (x-1)(x-2)\)。
(证明) 证明：投影算子 \(P\)（\(P^2 = P\)）的极小多项式整除 \(x(x-1)\)，并给出 \(m_P = x\)、\(m_P = x - 1\)、\(m_P = x(x-1)\) 分别对应什么情况。

6. 准素分解定理 ⭐⭐⭐¶

动机¶

现在我们知道 \(m_T \mid p_T\) 且二者同根。下一步的目标是：利用 \(m_T\) 的因式分解将 \(V\) 分解为 \(T\)-不变子空间的直和。这就是准素分解（Primary Decomposition）——Jordan 理论的基石之一。

类比理解：准素分解就像将白光通过棱镜分解为不同颜色的光。每种"颜色"对应 \(m_T\) 的一个不可约因子，每束"单色光"是一个广义特征空间。分解后，每个子空间上的算子结构更简单——只与单个特征值相关。类比的边界：棱镜分解是物理过程，准素分解是代数分解；棱镜分解依赖于光的波长连续性，准素分解依赖于 \(F[x]\) 的 PID 结构。

准素分解定理的陈述¶

定理：设 \(m_T = \prod_{i=1}^k p_i(x)^{a_i}\)，其中 \(p_i\) 是互不相同的首一不可约多项式，\(a_i \geq 1\)。则

\[V = \bigoplus_{i=1}^k \ker p_i(T)^{a_i}\]

且 \(m_{T|_{\ker p_i(T)^{a_i}}} = p_i^{a_i}\)。

6.1 路径 A：Bezout 显式投影 ⭐⭐⭐¶

构造：令 \(q_i(x) := m_T(x) / p_i(x)^{a_i}\)。由于 \(p_1, p_2, \ldots, p_k\) 互不相同且不可约，\(\{q_1, q_2, \ldots, q_k\}\) 两两互素。因此由 Bezout 恒等式（\(\S1.3\)），存在 \(h_1, \ldots, h_k \in F[x]\) 使得

\[\sum_{i=1}^k h_i(x) q_i(x) = 1\]

定义投影算子 \(E_i := h_i(T) q_i(T)\)。则：

\(\sum E_i = I\)：将 \(\sum h_i q_i = 1\) 在 \(T\) 处求值即得
\(E_i E_j = 0\)（\(i \neq j\)）：\(E_i E_j = h_i(T) q_i(T) h_j(T) q_j(T)\)。注意 \(q_i q_j\) 包含 \(m_T\) 作为因子（因为 \(q_i q_j\) 包含 \(p_l^{a_l}\) 对所有 \(l\) 的因子——当 \(i \neq j\) 时，\(q_i\) 缺少 \(p_i^{a_i}\) 而 \(q_j\) 缺少 \(p_j^{a_j}\)，但 \(q_i q_j\) 包含所有 \(p_l^{a_l}\)）。故 \(q_i(T)q_j(T) = 0\)，\(E_i E_j = 0\)
\(E_i^2 = E_i\)：\(E_i = E_i \cdot I = E_i \sum_j E_j = E_i^2 + \sum_{j \neq i} E_i E_j = E_i^2\)
\(\mathrm{Im}(E_i) = \ker p_i(T)^{a_i}\)：
\(\mathrm{Im}(E_i) \subset \ker p_i(T)^{a_i}\)：对 \(v = E_i w\)，\(p_i(T)^{a_i} v = p_i(T)^{a_i} h_i(T) q_i(T) w\)。注意 \(p_i^{a_i} \cdot q_i = m_T\)，故 \(p_i(T)^{a_i} q_i(T) = m_T(T) = 0\)
\(\ker p_i(T)^{a_i} \subset \mathrm{Im}(E_i)\)：若 \(v \in \ker p_i(T)^{a_i}\)，则 \(v = \sum_j E_j v = E_i v\)（因为 \(E_j v = h_j(T) q_j(T) v\)，而 \(q_j\) 包含 \(p_i^{a_i}\) 作为因子当 \(j \neq i\)，故 \(q_j(T) v = 0\)）

因此 \(V = \bigoplus_i \mathrm{Im}(E_i) = \bigoplus_i \ker p_i(T)^{a_i}\)。

阶段小结：Bezout 恒等式 \(\sum h_i q_i = 1\) 在算子层面给出了"分色镜" \(\sum E_i = I\)。每个 \(E_i\) 是向 \(\ker p_i(T)^{a_i}\) 的投影算子。

6.2 路径 B：中国剩余定理 ⭐⭐¶

等价视角：准素分解也可以从中国剩余定理（Chinese Remainder Theorem, CRT）的角度理解。

\(F[x]\) 中的 CRT 断言：若 \(m_T = \prod p_i^{a_i}\)，\(p_i\) 互不相同且不可约，则

\[F[x]/(m_T) \cong \prod_{i=1}^k F[x]/(p_i^{a_i})\]

作为 \(F\)-代数的同构。\(V\) 是 \(F[x]/(m_T)\)-模（因为 \(m_T(T) = 0\)），按 CRT 的幂等元自然分解为各分量的直和。

6.3 关键推论与例题 ⭐⭐¶

推论 1（可对角化判据）：\(T\) 可对角化 \(\Leftrightarrow\) \(V = \bigoplus_\lambda \ker(T - \lambda I)\)，即每个广义特征空间就是普通特征空间（\(a_i = 1\)）。

推论 2（投影分解）：投影算子 \(P^2 = P\) 满足 \(m_P \mid x(x-1)\)，故 \(V = \ker P \oplus \mathrm{Im}(P)\)。

这是线性代数中最基本的直和分解之一。准素分解的观点使证明变得极其简洁：\(P^2 = P\) 蕴含 \(P^2 - P = 0\)，即 \(P(P - I) = 0\)，故 \(m_P \mid x(x-1)\)。由于 \(x\) 和 \(x-1\) 互素，准素分解给出 \(V = \ker P \oplus \ker(P - I) = \ker P \oplus \mathrm{Im}(P)\)。

推论 3（复结构）：复结构 \(J^2 = -I\) 满足 \(m_J \mid x^2 + 1 = (x - i)(x + i)\)（在 \(\mathbb{C}\) 上），故 \(V = \ker(J - iI) \oplus \ker(J + iI)\)。

推论 4（幂等分解的一般形式）：设 \(T^k = T\) 对某个 \(k \geq 2\)，则 \(m_T \mid x^k - x = x(x^{k-1} - 1)\)。在 \(\mathbb{C}\) 上，\(x^{k-1} - 1\) 分裂为 \(k-1\) 个不同的一次因子（\(k-1\) 次单位根），故 \(V\) 分解为 \(\leq k\) 个子空间的直和。

详细例题：设 \(T: \mathbb{C}^4 \to \mathbb{C}^4\)，\(m_T(x) = (x-1)^2(x-3)\)。

准素分解：\(V = \ker(T - I)^2 \oplus \ker(T - 3I)\)
\(\dim \ker(T - 3I) \geq 1\)（因为 \(3\) 是 \(m_T\) 的根，故是特征值，特征空间至少 \(1\) 维）
\(\dim \ker(T - I)^2 = 4 - \dim \ker(T - 3I)\)
在 \(\ker(T - I)^2\) 上，\((T - I)^2 = 0\) 但 \((T - I) \neq 0\)——即 \(T - I\) 是幂零的，指标为 \(2\)
在 \(\ker(T - 3I)\) 上，\(T = 3I\)——最简单的情况

阶段小结：准素分解将"一般算子"的结构问题归约为"单特征值幂零算子"的结构问题。后者正是 \(\S8\) 的主题。

常见陷阱¶

💡 概念误区：认为准素分解只需要特征值

新手想法："\(V = \bigoplus \ker(T - \lambda_i I)^{a_i}\) 中的 \(a_i\) 就是代数重数吧？"

实际上：\(a_i\) 是 \((x - \lambda_i)\) 在**极小多项式 \(m_T\)** 中的幂次，不是在特征多项式 \(p_T\) 中的。\(a_i\) 等于最大 Jordan 块的大小，而 \(p_T\) 中的幂次等于代数重数（所有 Jordan 块大小之和）。

正确理解：准素分解中的幂次来自 \(m_T\)，不是 \(p_T\)。

🧠 思维陷阱：认为"准素分解 = 对角化"

新手想法："准素分解把 \(V\) 分成了直和，这不就是对角化吗？"

实际上：准素分解将 \(V\) 分解为广义特征空间的直和，但每个广义特征空间**内部**的结构还没有确定。在每个广义特征空间上，\(T - \lambda_i I\) 是幂零的——幂零算子的结构分类（Jordan 块）才是下一步的任务（\(\S8\)）。

正确理解：准素分解是"粗分"，Jordan 分解是"细分"。

练习¶

(手推) 对 \(A = \begin{pmatrix} 2 & 1 & 0 \\ 0 & 2 & 0 \\ 0 & 0 & 3 \end{pmatrix}\)，计算 \(m_A\)，执行准素分解，写出 Bezout 系数和投影矩阵 \(E_1, E_2\)。
(证明) 证明准素分解中的投影算子 \(E_i\) 满足 \(E_i\) 是 \(T\) 的多项式（即 \(E_i = g_i(T)\) 对某个 \(g_i \in F[x]\)），并解释这为什么保证 \(\mathrm{Im}(E_i)\) 是 \(T\)-不变的。

7. 广义特征空间 \(G(\lambda, T)\) ⭐⭐⭐¶

动机¶

准素分解（\(\S6\)）将 \(V\) 分解为 \(\bigoplus_\lambda G(\lambda, T)\)，其中 \(G(\lambda, T) = \ker(T - \lambda I)^{a_\lambda}\)。现在我们需要深入研究单个广义特征空间的内部结构。

7.1 定义与核链 ⭐⭐⭐¶

定义：\(T\) 关于特征值 \(\lambda\) 的**广义特征空间**（Generalized Eigenspace）为

\[G(\lambda, T) := \ker(T - \lambda I)^n = \{v \in V : (T - \lambda I)^n v = 0\}\]

其中 \(n = \dim V\)。等价地，\(G(\lambda, T) = \bigcup_{k=1}^{\infty} \ker(T - \lambda I)^k\)（核链的稳定极限）。

7.2 核链升降引理 ⭐⭐⭐¶

引理：核链

\[\{0\} \subseteq \ker(T - \lambda I) \subseteq \ker(T - \lambda I)^2 \subseteq \cdots\]

是严格递增的直到某个 \(d\) 后稳定，即存在 \(d \leq n\) 使得

\[\{0\} \subsetneq \ker(T - \lambda I) \subsetneq \cdots \subsetneq \ker(T - \lambda I)^d = \ker(T - \lambda I)^{d+1} = \cdots\]

\(d\) 称为 \(\lambda\) 的**指标**（Index）。

证明关键：若 \(\ker(T - \lambda I)^k = \ker(T - \lambda I)^{k+1}\)，则对所有 \(j \geq k\)，\(\ker(T - \lambda I)^j = \ker(T - \lambda I)^k\)。（通过 \(v \in \ker(T - \lambda I)^{k+2}\) 蕴含 \((T - \lambda I)v \in \ker(T - \lambda I)^{k+1} = \ker(T - \lambda I)^k\) 来证明。）

7.3 维数与代数重数 ⭐⭐⭐¶

定理：\(\dim G(\lambda, T)\) 等于 \(\lambda\) 的代数重数（\(\lambda\) 在 \(p_T\) 中的重数）。

证明思路：在 \(G(\lambda, T)\) 上，\(T - \lambda I\) 是幂零的，故 \(p_{T|_{G(\lambda,T)}} = (x - \lambda)^{\dim G(\lambda,T)}\)。由准素分解，\(p_T = \prod_\lambda p_{T|_{G(\lambda,T)}} = \prod_\lambda (x - \lambda)^{\dim G(\lambda,T)}\)。因此 \(\lambda\) 在 \(p_T\) 中的重数恰好是 \(\dim G(\lambda, T)\)。

这意味着准素分解 \(V = \bigoplus_\lambda G(\lambda, T)\) 中各分量的维数之和恰好等于 \(\dim V\)——正如应该的。

三种"重数"的对比：

重数类型	定义	符号	关系
代数重数	\(\lambda\) 在 \(p_T\) 中的重数	\(\alpha_\lambda\)	\(\alpha_\lambda = \dim G(\lambda, T)\)
几何重数	\(\dim \ker(T - \lambda I)\)	\(\gamma_\lambda\)	\(1 \leq \gamma_\lambda \leq \alpha_\lambda\)
指标	\((x-\lambda)\) 在 \(m_T\) 中的幂次	\(d_\lambda\)	\(1 \leq d_\lambda \leq \alpha_\lambda\)

代数重数 = 所有 Jordan 块大小之和，几何重数 = Jordan 块的数量，指标 = 最大 Jordan 块的大小。

7.4 指标与极小多项式 ⭐⭐⭐¶

命题：指标 \(d\) 等于 \((x - \lambda)\) 在极小多项式 \(m_T\) 中的幂次，也等于 \(\lambda\) 对应的最大 Jordan 块的大小。

证明：在 \(G(\lambda, T)\) 上，\(N = T - \lambda I\) 是幂零的。\(N^d = 0\) 但 \(N^{d-1} \neq 0\)，故 \(m_{N} = x^d\)，即 \(m_{T|_{G(\lambda,T)}} = (x - \lambda)^d\)。由 \(\S2.6\) 的 lcm 公式，\((x - \lambda)\) 在 \(m_T\) 中的幂次等于各广义特征空间上 \(m_{T|_{G(\lambda,T)}}\) 中 \((x-\lambda)\) 幂次的最大值，即 \(d\)。

直觉：指标 \(d\) 衡量了"\(T - \lambda I\) 有多'接近零'"——需要 \(d\) 次迭代才能完全"消灭"广义特征空间中的所有向量。\(d = 1\) 意味着 \(T - \lambda I\) 在特征空间上直接为零（可对角化情况），\(d > 1\) 意味着存在"阶梯"——这正是 Jordan 链。

7.5 广义特征空间直和分解 ⭐⭐⭐¶

定理：当 \(p_T\) 在 \(F\) 上完全分裂时（例如 \(F = \mathbb{C}\)），

\[V = \bigoplus_{\lambda \in \mathrm{spec}(T)} G(\lambda, T)\]

这就是 \(\S6\) 准素分解的特殊情况（\(F\) 代数闭时，不可约因子都是一次的）。

这个分解的意义：它将一般算子的研究归约为幂零算子的研究——在每个 \(G(\lambda, T)\) 上，\(T - \lambda I\) 是幂零的，而幂零算子的结构将在 \(\S8\) 完全分类。

常见陷阱¶

💡 概念误区：混淆"特征空间"与"广义特征空间"

新手想法："\(\ker(T - \lambda I)\) 不就是广义特征空间吗？"

实际上：\(\ker(T - \lambda I)\) 是**特征空间**（Eigenspace），\(G(\lambda, T) = \ker(T - \lambda I)^d\) 是**广义特征空间**。前者只包含特征向量，后者还包含广义特征向量（满足 \((T - \lambda I)^k v = 0\) 但 \((T - \lambda I)^{k-1} v \neq 0\) 的向量，\(k > 1\)）。

正确理解：\(\ker(T - \lambda I) \subseteq G(\lambda, T)\)，等号成立当且仅当 \(\lambda\) 对应的 Jordan 块全为 \(1 \times 1\)。

🧠 思维陷阱：认为"仅知代数重数和几何重数就能确定 Jordan 结构"

新手想法："\(\lambda\) 的代数重数 4、几何重数 2——Jordan 结构唯一确定了吧？"

实际上：代数重数 4、几何重数 2 有两种可能：(a) 一个 \(3 \times 3\) 块 + 一个 \(1 \times 1\) 块；(b) 两个 \(2 \times 2\) 块。需要进一步看 \(\dim \ker(T - \lambda I)^2\) 才能区分。

正确理解：完整的 Jordan 结构由**整个核维数序列** \(\{\dim \ker(T - \lambda I)^k\}_{k \geq 1}\) 决定，而非仅由代数重数（\(k = n\) 时的值）和几何重数（\(k = 1\) 时的值）决定。

练习¶

(手推) 对 \(N = \begin{pmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \end{pmatrix}\)，计算核维数序列 \(\dim \ker N^k\) (\(k = 1, 2, 3, \ldots\))，并验证 \(d = 2\)。
(思考) 说明为什么指标 \(d\) 不可能超过 \(\dim G(\lambda, T)\)。

8. 幂零算子的完整结构 ⭐⭐⭐¶

动机¶

经过准素分解，我们将问题归约到每个广义特征空间 \(G(\lambda, T)\) 上。在 \(G(\lambda, T)\) 上，算子 \(N_\lambda := T - \lambda I\) 是**幂零的**（Nilpotent），即 \(N_\lambda^d = 0\) 对某个 \(d\) 成立。因此，Jordan 标准形的核心引擎是幂零算子的结构分类。

这是整章最技术性的部分，也是最有成就感的部分：我们将证明每个幂零算子都可以分解为"Jordan 链"的直和——这种分解是唯一的（模重排），且由核维数序列完全决定。

如果不理解幂零分类会怎样¶

没有幂零分类，Jordan 标准形就无法构造——准素分解只给出"粗分"，幂零分类才给出每个广义特征空间内部的"细分"。

8.1 幂零算子的基本性质 ⭐⭐⭐¶

定义：线性算子 \(N: V \to V\) 称为**幂零的**，如果存在正整数 \(r\) 使得 \(N^r = 0\)。最小的这样的 \(r\) 称为 \(N\) 的**幂零指标**（Nilpotency Index）。

基本性质： - \(N\) 的唯一特征值是 \(0\)：若 \(Nv = \lambda v\)，则 \(0 = N^r v = \lambda^r v\)，\(v \neq 0\) 蕴含 \(\lambda = 0\) - \(p_N(x) = x^n\)（\(n = \dim V\)），\(m_N(x) = x^r\) - \(N\) 不可逆（除非 \(N = 0\)） - \(\mathrm{rank}(N^k)\) 严格递减直至 \(0\)：\(n > \mathrm{rank}(N) > \mathrm{rank}(N^2) > \cdots > \mathrm{rank}(N^r) = 0\)

8.2 Young 图与分区 ⭐⭐⭐¶

幂零算子的 Jordan 结构可以用**分区**（Partition）描述。设 \(N\) 的 Jordan 块大小为 \(k_1 \geq k_2 \geq \cdots \geq k_m\)，\(\sum k_i = n = \dim V\)。

两种等价描述：

名称	定义	含义
Segre 特征	\((k_1, k_2, \ldots, k_m)\)，\(k_1 \geq k_2 \geq \cdots\)	Jordan 块大小（行 = 各块）
Weyr 特征	\(\nu_k := \dim \ker N^k - \dim \ker N^{k-1}\)	大小 \(\geq k\) 的块的数量

两者互为**共轭分区**——在 Young 图中转置行和列即可相互转换。

例：\(n = 7\)，Jordan 块大小 \((3, 2, 2)\)。

Segre 特征：\((3, 2, 2)\)。

Young 图：

■ ■ ■
■ ■
■ ■

转置后的共轭分区（Weyr 特征的累积形式）：\((3, 3, 1)\)，对应 \(\dim \ker N^k\) 序列为 \(3, 6, 7\)。

8.3 关键不变量公式 ⭐⭐⭐¶

定理：大小恰为 \(k\) 的 Jordan 块的数量为

\[\#\{\text{大小恰为 } k \text{ 的 Jordan 块}\} = 2\dim\ker N^k - \dim\ker N^{k-1} - \dim\ker N^{k+1}\]

证明思路：在 Jordan 基下，每个 \(j \times j\) Jordan 块对 \(\dim \ker N^k\) 的贡献为 \(\min(j, k)\)。设 \(n_k := \dim \ker N^k\)，则

\[n_k = \sum_{j} \min(j, k) \cdot (\text{大小为 } j \text{ 的块数量})\]

对 \(n_k\) 取二阶差分 \(2n_k - n_{k-1} - n_{k+1}\) 即可分离出大小恰为 \(k\) 的块的贡献。

推论：Jordan 块结构由核维数序列 \(\{n_k := \dim \ker N^k\}\) 唯一决定。这是 Jordan 标准形唯一性的核心。

8.4 分类定理（存在性）：核旗升法 ⭐⭐⭐¶

构造（Filippov / Strang）：这是构造 Jordan 基的显式算法。

步骤：

考虑**核旗**（Kernel Flag）：\(\{0\} \subsetneq \ker N \subsetneq \ker N^2 \subsetneq \cdots \subsetneq \ker N^r = V\)
从最高层开始：取 \(\ker N^{r-1}\) 在 \(\ker N^r = V\) 中的**补空间**的基 \(B_r = \{v_1, \ldots, v_{s_r}\}\)
交换引理（关键）：\(N\) 将 \(B_r\) 映入 \(\ker N^{r-1}\)，且模 \(\ker N^{r-2}\) 线性无关
扩展 \(N(B_r) = \{Nv_1, \ldots, Nv_{s_r}\}\) 为 \(\ker N^{r-1}\) 模 \(\ker N^{r-2}\) 的补空间基的一部分——补充新向量记为 \(B_{r-1}\)
归纳下降至 \(B_1\)
最终基：对每个 \(b \in B_k\)，链 \(\{b, Nb, N^2 b, \ldots, N^{k-1}b\}\) 构成一条 Jordan 链。所有 Jordan 链合在一起构成 \(V\) 的 Jordan 基

为什么这样做有效：核旗的维数差 \(\dim \ker N^k - \dim \ker N^{k-1}\) 精确编码了"有多少条 Jordan 链在第 \(k\) 层'结束'"。从最高层（最长的链）开始构造，逐层向下，确保各链之间线性无关。

8.5 替代路径：极大循环向量 ⭐⭐¶

另一种构造 Jordan 基的方法：

取 \(v\) 满足 \(N^{r-1}v \neq 0\)（即 \(v\) 有最大"深度" \(r\)）
构造循环子空间 \(W = \mathrm{span}\{v, Nv, \ldots, N^{r-1}v\}\)——这是一个 \(r\) 维的 \(N\)-不变子空间
找到 \(N\)-不变补空间 \(W'\)（这一步非平凡，通常需要对偶空间或投影构造）
对 \(N|_{W'}\) 归纳

关于不变补空间的存在性：这是证明中最微妙的一步。与特征空间（可以用正交补）不同，一般 \(T\)-不变子空间不一定有 \(T\)-不变补空间。但对幂零算子，可以利用以下技巧之一： - 对偶空间方法：在对偶空间 \(V^*\) 上构造 \(N^*\)-不变补，再拉回 - 投影构造：利用 \(\S6.1\) 的 Bezout 投影思想（在幂零情况下简化） - 维数论证：利用核维数序列的严格递增性保证存在性

8.6 详细计算示例 ⭐⭐¶

例：设 \(V = \mathbb{R}^5\)，\(N\) 在标准基下的矩阵为

\[N = \begin{pmatrix} 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 \end{pmatrix}\]

Step 1：计算核链。

\[\ker N = \mathrm{span}\{e_3, e_5\}, \quad \dim = 2\]

\[N^2 = \begin{pmatrix} 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \end{pmatrix}, \quad \ker N^2 = \mathrm{span}\{e_2, e_3, e_4, e_5\}, \quad \dim = 4\]

\[N^3 = 0, \quad \ker N^3 = V, \quad \dim = 5\]

Step 2：核维数序列 \(\{2, 4, 5\}\)。

Step 3：由 \(\S8.3\) 公式： - 大小 \(= 3\) 的块数：\(2 \cdot 5 - 4 - 5 = 1\)（用 \(k = 3\)，\(n_2 = 4\)，\(n_3 = 5\)，\(n_4 = 5\)） - 大小 \(= 2\) 的块数：\(2 \cdot 4 - 2 - 5 = 1\) - 大小 \(= 1\) 的块数：\(2 \cdot 2 - 0 - 4 = 0\)

结论：Jordan 结构为 \((3, 2)\)——一个 \(3 \times 3\) 块和一个 \(2 \times 2\) 块。

验证：\(3 + 2 = 5 = \dim V\)。几何重数 \(= 2\)（块的数量）\(= \dim \ker N\)。指标 \(= 3\)（最大块大小）\(= r\)。全部吻合。

常见陷阱¶

💡 概念误区：混淆 Segre 特征和 Weyr 特征的方向

新手想法："Segre 和 Weyr 不过是换了个名字而已"

实际上：Segre 特征 \((k_1, k_2, \ldots)\) 列出 Jordan 块的**大小**（按降序），Weyr 特征 \((\nu_1, \nu_2, \ldots)\) 列出"核链在每层增长的维数"。两者是共轭分区，关系通过 Young 图的转置给出。混淆两者会导致计算 Jordan 结构时出错。

正确理解：Segre 看"列"（块大小），Weyr 看"行"（每层维数增量）。Young 图是理解二者关系的最直观工具。

🧠 思维陷阱：认为"幂零算子 = 零算子"

新手想法："\(N^r = 0\) 说明 \(N\) 本质上就是零嘛，没什么结构"

实际上：幂零算子虽然"最终归零"，但它在归零的**过程**中有丰富的结构——不同的向量需要不同次数的 \(N\) 作用才能归零。这种"分层归零"的结构正是 Jordan 块的来源。\(2 \times 2\) 的 \(N = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}\) 和 \(2 \times 2\) 的 \(0\) 有完全不同的 Jordan 结构。

正确理解：幂零算子的结构由"归零的速度分布"决定，这正是 Jordan 分类所捕获的信息。

练习¶

(手推) 设 \(N\) 是 \(6 \times 6\) 幂零矩阵，核维数序列为 \(\dim \ker N = 2, \dim \ker N^2 = 4, \dim \ker N^3 = 6\)。确定 Jordan 块结构。
(构造) 对上述矩阵，使用核旗升法构造一组具体的 Jordan 基（选择你自己的具体 \(N\)）。
(思考) 证明：\(n \times n\) 幂零矩阵的幂零指标最大为 \(n\)，且等于 \(n\) 当且仅当 Jordan 结构为单个 \(n \times n\) 块。

9. Jordan 链与循环子空间 ⭐⭐⭐¶

动机¶

在 \(\S8\) 的幂零分类中，Jordan 基的构造自然引出了两个关键概念：Jordan 链**和**循环子空间。这些概念不仅是 Jordan 标准形的构建模块，还与控制论中的能控标准型直接相关。

9.1 \(T\)-循环子空间 ⭐⭐⭐¶

定义：给定向量 \(v \in V\) 和线性算子 \(T\)，\(v\) 生成的 \(T\)-**循环子空间**为

\[Z(v, T) := \mathrm{span}\{v, Tv, T^2 v, \ldots\}\]

由于 \(\dim V < \infty\)，这个集合最终会稳定——存在最小的 \(k\) 使得 \(T^k v \in \mathrm{span}\{v, Tv, \ldots, T^{k-1}v\}\)。

\(v\) 的 \(T\)-零化多项式（T-annihilator of \(v\)）是满足 \(p(T)v = 0\) 的最小首一多项式。它的次数等于 \(\dim Z(v, T)\)。

9.2 Jordan 链 ⭐⭐⭐¶

定义：关于特征值 \(\lambda\) 的 **Jordan 链**是一组向量

\[\{v, (T - \lambda I)v, (T - \lambda I)^2 v, \ldots, (T - \lambda I)^{k-1}v\}\]

其中 \((T - \lambda I)^{k-1}v \neq 0\) 但 \((T - \lambda I)^k v = 0\)。链的**长度**为 \(k\)。

在 Jordan 链基下 \(T\) 的矩阵：设 Jordan 链为 \(e_1 = (T - \lambda I)^{k-1}v, e_2 = (T - \lambda I)^{k-2}v, \ldots, e_k = v\)。则

\[Te_j = \lambda e_j + e_{j+1} \quad (j < k), \quad Te_k = \lambda e_k\]

即 \(T\) 在这个基下的矩阵是 \(k \times k\) 的 Jordan 块 \(J_k(\lambda)\)：

\[J_k(\lambda) = \begin{pmatrix} \lambda & 1 & & \\ & \lambda & 1 & \\ & & \ddots & 1 \\ & & & \lambda \end{pmatrix}\]

9.3 循环子空间与伴随矩阵 ⭐⭐⭐¶

在循环子空间 \(Z(v, T)\) 上，\(T\) 的矩阵（在基 \(\{v, Tv, \ldots, T^{k-1}v\}\) 下）是**伴随矩阵**（Companion Matrix）。若 \(v\) 的 \(T\)-零化多项式为 \(f(x) = x^k + c_{k-1}x^{k-1} + \cdots + c_0\)，则

\[C(f) = \begin{pmatrix} 0 & & & -c_0 \\ 1 & 0 & & -c_1 \\ & \ddots & \ddots & \vdots \\ & & 1 & -c_{k-1} \end{pmatrix}\]

当 \(f(x) = (x - \lambda)^k\) 时（幂零 + 平移），\(C(f)\) 相似于 \(J_k(\lambda)\)。

9.4 循环向量的存在条件 ⭐⭐¶

定理：\(V\) 是单个 \(T\)-循环子空间（即存在 \(v\) 使得 \(V = Z(v, T)\)）当且仅当 \(m_T = p_T\)。

证明方向（\(\Rightarrow\)）：若 \(V = Z(v, T)\)，则 \(\dim V = \deg(m_{T,v})\)（\(v\) 的零化多项式的次数）。\(m_{T,v} \mid m_T\) 且 \(m_T \mid p_T\)，而 \(\deg(p_T) = n = \dim V = \deg(m_{T,v}) \leq \deg(m_T) \leq \deg(p_T)\)，故各处取等，\(m_T = p_T\)。

理论-工程桥接：控制论中**能控标准型**将单入系统 \((A, b)\) 化为伴随矩阵 + 标准输入列——正是单循环子空间下 \(T\) 的矩阵表示。定理：单入系统 \((A, b)\) 能控 \(\Leftrightarrow\) \(b\) 是 \(A\) 的循环向量。

常见陷阱¶

💡 概念误区：混淆"Jordan 链"与"特征向量"

新手想法："Jordan 链的所有元素都是特征向量吧？"

实际上：Jordan 链中只有最后一个元素 \((T - \lambda I)^{k-1}v\) 是真正的特征向量（属于 \(\ker(T - \lambda I)\)）。其余元素是**广义特征向量**——它们满足 \((T - \lambda I)^j v = 0\) 对某个 \(j > 1\)，但 \((T - \lambda I)v \neq 0\)。

正确理解：Jordan 链是"从广义特征向量到特征向量的一条路径"，每走一步就"降一级深度"。

🧠 思维陷阱：认为 \(m_T = p_T\) 是罕见情况

新手想法："\(m_T = p_T\) 需要特殊条件，大多数矩阵不满足"

实际上：\(m_T = p_T\) 等价于存在循环向量，这对"泛型"矩阵成立。\(m_T \neq p_T\) 意味着某些特征值的几何重数 \(> 1\)，这是需要矩阵有特殊对称性的非泛型情况。

正确理解：\(m_T = p_T\) 才是一般情况，\(m_T \subsetneq p_T\) 是特例。

练习¶

(手推) 对 \(A = \begin{pmatrix} 0 & 0 & 2 \\ 1 & 0 & -5 \\ 0 & 1 & 4 \end{pmatrix}\)，验证 \(e_1 = (1, 0, 0)^T\) 是 \(A\) 的循环向量，并写出 \(A\) 在基 \(\{e_1, Ae_1, A^2 e_1\}\) 下的矩阵（应为伴随矩阵）。
(思考) 在什么条件下，\(n \times n\) 矩阵 \(A\) 的所有向量（除零向量外）都是循环向量？

10. Jordan 标准形：存在性（路径 A 直接构造） ⭐⭐⭐¶

动机¶

前面的准备工作——准素分解（\(\S6\)）将 \(V\) 拆为广义特征空间，幂零分类（\(\S8\)）将每个广义特征空间分解为 Jordan 链——现在可以组装成完整的结果。

主定理（Jordan 标准形）：设 \(F\) 代数闭（或 \(p_T\) 在 \(F\) 上分裂），则存在基使 \(T\) 的矩阵为

\[J = \mathrm{diag}\bigl(J_{k_1}(\lambda_{i_1}), J_{k_2}(\lambda_{i_2}), \ldots, J_{k_m}(\lambda_{i_m})\bigr)\]

其中 \(J_k(\lambda) = \lambda I_k + N_k\)（\(N_k\) 是 \(k \times k\) 的标准幂零矩阵，超对角线为 \(1\)）。

10.1 证明组装 ⭐⭐⭐¶

路径 A 的证明可以精确分为五步，每一步都利用前面章节的结果。

Step 1：准素分解（\(\S6\)）

\[V = \bigoplus_{\lambda \in \mathrm{spec}(T)} G(\lambda, T) = \bigoplus_\lambda \ker(T - \lambda I)^{a_\lambda}\]

这一步将 \(V\) 按特征值分解。每个 \(G(\lambda, T)\) 是 \(T\)-不变子空间，\(T\) 在各子空间上独立作用。

Step 2：单特征值归约

固定 \(\lambda\)，在 \(G(\lambda, T)\) 上定义 \(N_\lambda := T - \lambda I\)。由于 \(N_\lambda^{a_\lambda} = 0\)，\(N_\lambda\) 是幂零算子。注意 \(T|_{G(\lambda,T)} = \lambda I + N_\lambda\)——即 \(T\) 在每个广义特征空间上分解为"标量部分 \(\lambda I\)"和"幂零部分 \(N_\lambda\)"。

Step 3：幂零分类（\(\S8\)）

在 \(G(\lambda, T)\) 上，对幂零算子 \(N_\lambda\) 应用核旗升法（\(\S8.4\)），构造 Jordan 基。每条长度为 \(k\) 的 Jordan 链在其基下给出 \(k \times k\) 幂零 Jordan 块。

Step 4：恢复 \(T\) 的矩阵

在 Jordan 链基下，\(T = \lambda I + N_\lambda\) 的矩阵为 \(J_k(\lambda) = \lambda I_k + N_k\)。这里的关键观察是：\(\lambda I\) 的矩阵是对角的（\(\lambda\) 在对角线上），\(N_k\) 的矩阵是超对角线为 \(1\) 的严格上三角矩阵。两者之和就是标准 Jordan 块。

Step 5：全局拼装

对所有 \(\lambda\) 重复 Step 2--4，将各广义特征空间的 Jordan 基合并为 \(V\) 的全局基。\(T\) 在此基下的矩阵为 \(J = \mathrm{diag}(J_{k_1}(\lambda_{i_1}), \ldots)\)。

阶段小结：路径 A 的证明链为 \(\S1\)（PID）\(\to\) \(\S2\)（\(m_T\)）\(\to\) \(\S4\)（CH）\(\to\) \(\S5\)（同根）\(\to\) \(\S6\)（准素分解）\(\to\) \(\S7\)（广义特征空间）\(\to\) \(\S8\)（幂零分类）\(\to\) \(\S10\)（组装）。每一步都不可省略。

10.2 代数闭性的角色 ⭐⭐¶

Jordan 标准形并不严格要求 \(F\) 代数闭——只需 \(p_T\) 在 \(F\) 上完全分裂为一次因子。例如，实矩阵 \(A\) 若所有特征值都是实数，则在 \(\mathbb{R}\) 上就有 JNF。

但若 \(p_T\) 有不可约的高次因子（如实矩阵有复特征值对），则 JNF 在 \(F\) 上不存在。此时需要： - 扩展到代数闭包（如 \(\mathbb{R} \to \mathbb{C}\)）使用复 JNF - 或使用 有理标准形（\(\S12\)，对任意域成立）

10.3 实 Jordan 形 ⭐⭐¶

对实矩阵有复共轭特征值对 \(\lambda = a \pm bi\)，实 Jordan 形用 \(2 \times 2\) 实块替代复 \(1 \times 1\) 块：

\[\text{复 } J_k(\lambda) \text{ 和 } J_k(\bar\lambda) \quad \longrightarrow \quad \text{实 } 2k \times 2k \text{ 块}\]

其中对角 \(2 \times 2\) 块为 \(C = \begin{pmatrix} a & -b \\ b & a \end{pmatrix}\)，超对角块为 \(I_2\)。

理论-工程桥接：实 Jordan 形直接给出 \(\dot{x} = Ax\) 的**实模态**：每个 \(2 \times 2\) 复共轭块贡献 \(e^{at}(\cos bt, \sin bt)\) 振荡模式——控制论中"阻尼振荡模态"的代数根源。MATLAB 的 cdf2rdf 函数正是执行此变换。

常见陷阱¶

💡 概念误区：认为 JNF 需要 \(F\) 是代数闭域

新手想法："Jordan 标准形只在复数域上才有"

实际上：JNF 只需要 \(p_T\) 在 \(F\) 上分裂。例如，\(A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}\) 在 \(\mathbb{R}\) 上就已经是 Jordan 形了（所有特征值 \(= 1 \in \mathbb{R}\)）。

正确理解："\(F\) 代数闭"是**充分**条件（保证 \(p_T\) 总分裂），但不是**必要**条件。

🧠 思维陷阱：认为 Jordan 基可以是正交的

新手想法："像特征向量那样找正交 Jordan 基"

实际上：Jordan 基一般不是正交的。如果 \(T\) 有非对角 Jordan 块（即不可对角化），则 Jordan 基包含广义特征向量，这些向量之间没有正交性保证。如果需要正交基，应使用 Schur 分解（上三角形式）而非 Jordan 形。

正确理解：JNF 牺牲了正交性换取最简的块对角结构。Schur 分解保持正交性但只能得到上三角。

练习¶

(手推) 对 \(A = \begin{pmatrix} 2 & 1 & 0 \\ 0 & 2 & 1 \\ 0 & 0 & 3 \end{pmatrix}\)，求 JNF 和 Jordan 基。
(思考) 对 \(A = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}\)（90 度旋转），说明为什么在 \(\mathbb{R}\) 上没有 JNF，并写出复 JNF 和实 Jordan 形。

10'. Jordan 标准形：存在性（路径 B：\(F[x]\)-模） ⭐⭐⭐¶

动机¶

路径 A 通过"准素分解 + 幂零分类"逐步构造 Jordan 标准形，几何直觉强但步骤较多。路径 B 利用 \(F[x]\)-模的结构定理一步到位——它将 JNF、有理标准形、Cayley--Hamilton 和 \(m_T \mid p_T\) 统一为同一个代数定理的不同推论。

代价：路径 B 需要 PID 上有限生成模的结构定理，这是一个更深的代数工具。以下给出自包含的处理。

10'.1 \(V\) 的 \(F[x]\)-模结构 ⭐⭐⭐¶

构造：定义 \(F[x]\) 在 \(V\) 上的作用：\(x \cdot v := T(v)\)，更一般地 \(p(x) \cdot v := p(T)v\)。

验证模公理：\(1 \cdot v = v\)，\((fg) \cdot v = f \cdot (g \cdot v)\)，\((f + g) \cdot v = f \cdot v + g \cdot v\)，\(f \cdot (v + w) = f \cdot v + f \cdot w\)——全部来自 \(T\) 的线性性。

关键性质： - \(V\) 是**有限生成** \(F[x]\)-模（\(V\) 的 \(F\)-基也是 \(F[x]\)-生成元） - \(V\) 是**挠模**（\(m_T(T)v = 0\) 对所有 \(v\)） - \(V\) 的 \(F[x]\)-子模恰好是 \(T\)-不变子空间

10'.2 PID 结构定理 ⭐⭐⭐¶

定理（不变因子形式）：设 \(R\) 为 PID，\(M\) 为有限生成 \(R\)-模，则

\[M \cong R^r \oplus R/(d_1) \oplus \cdots \oplus R/(d_s), \quad d_1 \mid d_2 \mid \cdots \mid d_s\]

\(d_i\) 称为**不变因子**，在单位元意义下唯一。\(r\) 称为自由秩。

定理（初等因子形式）：

\[M \cong R^r \oplus \bigoplus_{i,j} R/(p_i^{a_{ij}})\]

\(p_i\) 为 \(R\) 中素元，\(p_i^{a_{ij}}\) 称为**初等因子**。

两种形式的等价性：由中国剩余定理，\(R/(d_k) \cong \prod R/(p_i^{a_{ik}})\)（\(d_k = \prod p_i^{a_{ik}}\)）。

10'.3 应用至 \(V\) 的分解 ⭐⭐⭐¶

将 \(R = F[x]\)，\(M = V\)（挠 \(F[x]\)-模，\(r = 0\)）代入：

不变因子形式：

\[V \cong F[x]/(f_1) \oplus \cdots \oplus F[x]/(f_k), \quad f_1 \mid \cdots \mid f_k\]

\(f_k = m_T\)（最大的不变因子 = 极小多项式）
\(\prod f_i = p_T\)（不变因子之积 = 特征多项式）
立得 \(m_T \mid p_T\) 和 Cayley--Hamilton 作为**一句话推论**

初等因子形式（\(F\) 代数闭）：

\[V \cong \bigoplus F[x]/((x - \lambda)^{k_{ij}})\]

每个 \(F[x]/((x - \lambda)^k)\) 在基 \(\{1, (x-\lambda), \ldots, (x-\lambda)^{k-1}\}\) 下，\(T\)（即 \(x\) 的乘法）的矩阵恰好是 \(k \times k\) 的 Jordan 块 \(J_k(\lambda)\)。

本质洞察：\(F[x]\)-模路径将 Jordan 标准形、有理标准形、Cayley--Hamilton 和 \(m_T \mid p_T\) 统一为 PID 结构定理的不同"面目"。这不是四个独立定理，而是同一个定理的四种解读。

10'.4 两路径对比 ⭐⭐¶

维度	路径 A（直接构造）	路径 B（\(F[x]\)-模）
前置知识	CH + 准素分解 + 幂零分类	PID 结构定理
几何直觉	高（核旗、循环链可视化）	低（代数抽象）
适用域	要求 \(p_T\) 分裂	任意域（\(F[x]\) 始终 PID）
到有理标准形	需额外工作	免费获得（不变因子形式）
到唯一性	需独立的维数公式	由定理唯一性直接给出
教学建议	先学 A（建立直觉）	后学 B（获得统一视角）

常见陷阱¶

💡 概念误区：认为路径 B "更好"，应该只学路径 B

新手想法："路径 B 更统一更优雅，路径 A 是多余的"

实际上：路径 A 提供了路径 B 所缺乏的几何直觉——核旗、循环链、广义特征空间在路径 A 中都有具体的几何意义。工程应用（如构造 Jordan 基、计算矩阵指数）中需要路径 A 的显式构造。路径 B 的价值在于统一视角和更深层的代数理解。

正确理解：两条路径互补，各有不可替代的价值。

练习¶

(手推) 对 \(A = \begin{pmatrix} 0 & 1 \\ -2 & 3 \end{pmatrix}\)，将 \(\mathbb{R}^2\) 视为 \(\mathbb{R}[x]\)-模（\(x\) 作用为 \(A\)），求不变因子和初等因子。
(证明) 使用 \(F[x]\)-模路径，证明 Cayley--Hamilton 定理（一句话版本：\(p_T = \prod f_i\) 在 \(V \cong \bigoplus F[x]/(f_i)\) 上为零）。

11. Jordan 标准形：唯一性 ⭐⭐⭐¶

动机¶

我们已经证明了 Jordan 标准形的**存在性**（路径 A 或 B）。现在需要证明**唯一性**——即 Jordan 块的数量和大小由 \(T\) 唯一确定（模块的排列顺序）。

唯一性定理¶

定理：对每个特征值 \(\lambda\)，Jordan 块的数量与尺寸（作为多重集）由 \(T\) 唯一确定。因此 JNF 模去块的重排后唯一。

证明：

\(G(\lambda, T) = \ker(T - \lambda I)^n\) 由 \(T\) 和 \(\lambda\) 唯一确定（不依赖基选择）
限制到 \(G(\lambda, T)\)，由 \(\S8.3\) 的公式：

\[\#\{\text{大小恰为 } k \text{ 的块}\} = 2\dim\ker(T - \lambda I)^k - \dim\ker(T - \lambda I)^{k-1} - \dim\ker(T - \lambda I)^{k+1}\]

\(\dim \ker(T - \lambda I)^k\) 是 \(T\) 的内禀不变量（与基无关），因此右边由 \(T\) 唯一确定
对所有 \(\lambda\) 和 \(k\) 重复，得到完整的 Jordan 块多重集

**路径 B 下的唯一性**更直接：PID 结构定理中不变因子（或初等因子）的唯一性直接蕴含 JNF 的唯一性。

唯一性的完整例题 ⭐⭐¶

例：两个 \(4 \times 4\) 矩阵 \(A, B\) 都有特征多项式 \((x-2)^4\)。假设 \(\dim \ker(A - 2I) = 1\)，\(\dim \ker(B - 2I) = 2\)。

对于 \(A\)：几何重数 \(= 1\)，意味着只有 \(1\) 个 Jordan 块。由代数重数 \(= 4\)，该块大小为 \(4\)。\(A\) 的 JNF 为 \(J_4(2)\)。

对于 \(B\)：几何重数 \(= 2\)，意味着有 \(2\) 个 Jordan 块，大小之和 \(= 4\)。可能是 \((3, 1)\) 或 \((2, 2)\)。

若 \(\dim \ker(B - 2I)^2 = 3\)：由 \(\S8.3\) 公式，大小 \(= 2\) 的块数 \(= 2 \cdot 3 - 2 - 4 = 0\)，大小 \(= 1\) 的块数 \(= 2 \cdot 2 - 0 - 3 = 1\)。由总维数 \(4 - 1 = 3\)，剩下一个大小 \(= 3\) 的块。JNF 为 \(J_3(2) \oplus J_1(2)\)。
若 \(\dim \ker(B - 2I)^2 = 4\)：大小 \(= 2\) 的块数 \(= 2 \cdot 4 - 2 - 4 = 2\)。JNF 为 \(J_2(2) \oplus J_2(2)\)。

结论：即使 \(p_A = p_B\)、几何重数相同（都是 \(2\)），\(A\) 和 \(B\) 仍可能有不同的 JNF。核维数序列是区分它们的关键。

常见陷阱¶

💡 概念误区：认为"知道特征值的代数重数和几何重数就够了"

新手想法："代数重数 4、几何重数 2——Jordan 形唯一确定了"

实际上：这**不**足以确定 JNF。反例：\(\lambda\) 代数重数 4、几何重数 2——可能是 \((3, 1)\)（一个 \(3 \times 3\) 块 + 一个 \(1 \times 1\) 块）或 \((2, 2)\)（两个 \(2 \times 2\) 块）。需要进一步检查 \(\dim \ker(T - \lambda I)^2\)：若为 3，则是 \((3, 1)\)；若为 4，则是 \((2, 2)\)。

正确理解：完整的 JNF 由核维数序列 \(\{\dim \ker(T - \lambda I)^k\}_{k \geq 1}\) 决定，而非仅由前两个值。

练习¶

(手推) 给出核维数序列 \(\dim \ker N^k = 1, 3, 5, 6, 6\)，反推 Jordan 块结构。
(证明) 证明：两个 \(n \times n\) 矩阵 \(A, B\) 相似（即存在可逆 \(P\) 使 \(B = P^{-1}AP\)）当且仅当它们有相同的 JNF。

12. 有理标准形（Frobenius 标准形） ⭐⭐⭐¶

动机¶

Jordan 标准形需要 \(p_T\) 在 \(F\) 上分裂。当 \(F\) 非代数闭且 \(p_T\) 有不可约的高次因子时（例如实矩阵有复特征值对），JNF 不可得。但**相似类仍有标准代表元**——这就是有理标准形（Rational Canonical Form, RCF），也称 Frobenius 标准形。

12.1 伴随矩阵 \(C(f)\) ⭐⭐⭐¶

定义：对首一多项式 \(f(x) = x^d + c_{d-1}x^{d-1} + \cdots + c_0\)，其**伴随矩阵**为

\[C(f) = \begin{pmatrix} 0 & & & -c_0 \\ 1 & 0 & & -c_1 \\ & \ddots & \ddots & \vdots \\ & & 1 & -c_{d-1} \end{pmatrix}\]

关键性质：\(p_{C(f)} = m_{C(f)} = f\)——伴随矩阵的特征多项式和极小多项式相同，都等于 \(f\)。

12.2 有理标准形定理 ⭐⭐⭐¶

定理：对任意域 \(F\) 和 \(T: V \to V\)，\(T\) 相似于唯一的

\[\mathrm{diag}(C(f_1), C(f_2), \ldots, C(f_k)), \quad f_1 \mid f_2 \mid \cdots \mid f_k\]

其中 \(f_k = m_T\)，\(\prod f_i = p_T\)，\(f_i\) 为**不变因子**。

12.3 不变因子 vs 初等因子 ⭐⭐¶

特征	不变因子	初等因子
定义	\(f_1 \mid f_2 \mid \cdots \mid f_k\)	\(p^a\) 型（不可约元的幂）
对应标准形	有理标准形（任意域）	Jordan 形（需 \(F\) 代数闭）
换算	\(f_i = \prod_j p_j^{a_{ij}}\)	反向通过 CRT 重组

12.4 相似性判定 ⭐⭐¶

定理：\(A, B \in M_n(F)\) 在 \(F\) 上相似 \(\Leftrightarrow\) 有相同不变因子 \(\Leftrightarrow\) \(xI - A\) 与 \(xI - B\) 有相同 Smith 正规形。

重要事实（Keith Conrad）：\(A, B \in M_n(F)\) 在扩域 \(K \supset F\) 上相似 \(\Leftrightarrow\) 在 \(F\) 上相似。即有理标准形是"真正的" \(F\)-不变量。

理论-工程桥接：线性系统 \((A, B)\) 在状态坐标变换下的能控标准型对应 \((A, B)\) 视为 \(F[x]\)-模的不变因子分解。Kalman 可控分解等价于按 \(T\)-循环子空间分块——有理标准形是控制论"最小实现"理论的代数底层。

常见陷阱¶

💡 概念误区：认为有理标准形只在非代数闭域上有用

新手想法："在 \(\mathbb{C}\) 上已经有 JNF 了，不需要有理标准形"

实际上：有理标准形在任何域上都有用——它提供了不依赖于代数闭性的相似分类。即使在 \(\mathbb{C}\) 上，有理标准形也与 JNF 互补：不变因子给出"模结构"的全局视图，而 JNF 给出"局部"（每个特征值）的视图。

正确理解：JNF 和 RCF 是同一代数真理的两种视角——一种用初等因子，一种用不变因子。

练习¶

(手推) 对 \(A = \begin{pmatrix} 0 & -1 \\ 1 & 0 \end{pmatrix}\)（90 度旋转），计算不变因子并写出有理标准形。
(思考) 在 \(\mathbb{R}\) 上，写出一个 \(4 \times 4\) 矩阵的有理标准形和复 Jordan 标准形的对应关系，假设不变因子为 \((x^2 + 1, x^2 + 1)\)。

13. 计算 Jordan 形：算法 ⭐⭐¶

动机¶

理论上 JNF 存在且唯一，但**实际计算**需要具体算法。此外，还有一个重要的数值警告：JNF 对矩阵扰动高度敏感（病态问题），在数值计算中通常用 Schur 分解替代。

13.1 计算步骤概述 ⭐⭐¶

求特征多项式 \(p_T\)：Leverrier--Faddeev 算法，\(O(n^4)\)
求特征值：\(p_T\) 的根（数值方法：QR 算法；符号方法：因式分解）
求极小多项式 \(m_T\)：Krylov 子空间法——从随机向量 \(v\) 开始，找最小的 \(k\) 使得 \(\{v, Tv, \ldots, T^k v\}\) 线性相关
确定 Jordan 块大小：计算核维数序列 \(\dim \ker(T - \lambda I)^k\) 直至稳定
构造 Jordan 基：核旗升法（\(\S8.4\)）

13.2 Smith 正规形算法 ⭐⭐¶

**Smith 正规形**是计算不变因子（从而确定 JNF 和 RCF）的系统化方法。

输入：\(n \times n\) 多项式矩阵 \(\lambda I - A \in M_n(F[\lambda])\)

算法：通过 \(F[\lambda]\) 上的初等行列变换（交换、加倍、加法）将 \(\lambda I - A\) 化为对角形式

\[S = \mathrm{diag}(s_1(\lambda), s_2(\lambda), \ldots, s_n(\lambda)), \quad s_1 \mid s_2 \mid \cdots \mid s_n\]

结果：非单位的 \(s_i\) 就是不变因子 \(f_j\)（去掉前面的 \(s_i = 1\) 的部分），\(s_n = m_A\)，\(\prod s_i = p_A\)。

例：对 \(A = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}\)，

\[\lambda I - A = \begin{pmatrix} \lambda - 2 & -1 \\ 0 & \lambda - 2 \end{pmatrix}\]

通过列变换加上行变换化为 \(\mathrm{diag}(1, (\lambda - 2)^2)\)。不变因子为 \((\lambda - 2)^2\)，确认 \(m_A = p_A = (x-2)^2\)，JNF 为 \(J_2(2)\)。

13.3 数值警告 ⭐⭐⭐¶

JNF 对扰动病态。经典例子：

\[A = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix} \quad (\text{一个 } 2 \times 2 \text{ Jordan 块})\]

扰动 \(A_\varepsilon = A + \varepsilon E\)（\(\varepsilon\) 很小）可以将 JNF 从 \(J_2(0)\) 变为 \(\mathrm{diag}(\sqrt{\varepsilon}, -\sqrt{\varepsilon})\)——结构发生质的变化。

推论：在数值计算中，不要使用 JNF。改用 Schur 分解（正交上三角化）或 实 Schur 形（正交准上三角化），它们对扰动是连续的。

Schur 分解与 JNF 的对比：

特性	JNF	Schur 分解
块结构	块对角（Jordan 块）	上三角
正交基	否	是
数值稳定	否（病态）	是
理论价值	高（完全分类）	中
实际使用	符号/精确计算	数值计算

常见陷阱¶

🧠 思维陷阱：在数值代码中使用 JNF

新手想法："Jordan 标准形是最简形式，数值计算应该用它"

实际上：JNF 的数值计算是病态的——微小的浮点误差就可能改变 Jordan 结构。实际数值软件（MATLAB, NumPy, Eigen）使用 Schur 分解而非 JNF。JNF 适合符号计算（Mathematica, SymPy）和理论分析。

正确做法：理论推导用 JNF，数值实现用 Schur 分解。

练习¶

(手推) 对 \(A = \begin{pmatrix} 5 & 4 & 2 & 1 \\ 0 & 1 & -1 & -1 \\ -1 & -1 & 3 & 0 \\ 1 & 1 & -1 & 2 \end{pmatrix}\)，用核维数序列法确定 JNF（提示：先求特征值和极小多项式）。
(思考) 解释为什么 \(n \times n\) 对角矩阵 \(D + \varepsilon E\)（\(E\) 随机）对小 \(\varepsilon\) 仍然可对角化，但 \(J_n(0) + \varepsilon E\) 的 Jordan 结构可能完全不同。

14. 矩阵指数 \(\exp(tA)\) via Jordan 形 ⭐⭐⭐¶

动机¶

矩阵指数 \(\exp(tA)\) 是线性常微分方程 \(\dot{x} = Ax\) 的解：\(x(t) = \exp(tA) x(0)\)。它在机器人学中无处不在——Rodrigues 旋转公式、SE(3) 螺旋指数、线性系统的模态分析都依赖它。

核心问题：\(\exp(tA) = \sum_{k=0}^{\infty} \frac{(tA)^k}{k!}\) 是无穷级数。如何将其简化为闭式表达？答案正是 Jordan 标准形 + Cayley--Hamilton 定理。

如果不理解矩阵指数的 Jordan 分解¶

无法理解 Rodrigues 公式的代数来源
无法分析线性系统中重特征值导致的多项式增长模态（\(t^k e^{\lambda t}\)）
无法理解 Lyapunov 稳定性中 Jordan 块大小的作用

14.1 定义与基本性质 ⭐⭐⭐¶

定义：

\[\exp(tA) := \sum_{k=0}^{\infty} \frac{(tA)^k}{k!} = I + tA + \frac{t^2}{2!}A^2 + \cdots\]

在 \(M_n(F)\) 上绝对收敛（对任意矩阵范数 \(\|\cdot\|\)，\(\sum \frac{|t|^k \|A\|^k}{k!} = e^{|t| \cdot \|A\|} < \infty\)）。

基本性质：

性质	公式	条件
半群性	\(\exp((s+t)A) = \exp(sA)\exp(tA)\)	无
导数	\(\frac{d}{dt}\exp(tA) = A\exp(tA) = \exp(tA)A\)	无
可交换情况	\(\exp(A+B) = \exp(A)\exp(B)\)	仅当 \(AB = BA\)
行列式	\(\det(\exp(A)) = e^{\mathrm{tr}(A)}\)	无
逆	\((\exp(A))^{-1} = \exp(-A)\)	无

反事实推理：如果 \(\exp(A+B) = \exp(A)\exp(B)\) 对所有 \(A, B\) 成立会怎样？那么 \(\exp\) 就是从加法群 \((M_n, +)\) 到乘法群 \((GL_n, \cdot)\) 的群同态。但这是错的——Baker--Campbell--Hausdorff 公式告诉我们 \(\log(\exp(X)\exp(Y)) = X + Y + \frac{1}{2}[X, Y] + \cdots\)，交换子 \([X, Y] = XY - YX\) 的存在使得乘法比加法复杂得多。

14.2 Jordan 形上的计算 ⭐⭐⭐¶

Step 1：若 \(A = PJP^{-1}\)（\(J\) 为 Jordan 形），则

\[\exp(tA) = P \exp(tJ) P^{-1}\]

Step 2：\(J = \mathrm{diag}(J_{k_1}(\lambda_1), \ldots)\)，则

\[\exp(tJ) = \mathrm{diag}(\exp(tJ_{k_1}(\lambda_1)), \ldots)\]

Step 3：对单个 Jordan 块 \(J_k(\lambda) = \lambda I_k + N_k\)（\(N_k\) 幂零，\(N_k^k = 0\)）。由于 \(\lambda I_k\) 和 \(N_k\) 交换：

\[\exp(tJ_k(\lambda)) = e^{\lambda t} \exp(tN_k) = e^{\lambda t}\left(I + tN_k + \frac{t^2}{2!}N_k^2 + \cdots + \frac{t^{k-1}}{(k-1)!}N_k^{k-1}\right)\]

级数在 \(N_k^{k-1}\) 处截断（因为 \(N_k^k = 0\)——这正是 Cayley--Hamilton 的直接后果）。

显式公式：

\[\exp(tJ_k(\lambda)) = e^{\lambda t} \begin{pmatrix} 1 & t & \frac{t^2}{2!} & \cdots & \frac{t^{k-1}}{(k-1)!} \\ & 1 & t & \cdots & \frac{t^{k-2}}{(k-2)!} \\ & & \ddots & \ddots & \vdots \\ & & & 1 & t \\ & & & & 1 \end{pmatrix}\]

模态解读：\(k \times k\) Jordan 块 \(J_k(\lambda)\) 产生模态 \(\{e^{\lambda t}, te^{\lambda t}, \ldots, t^{k-1}e^{\lambda t}\}\)。

14.3 Sylvester--Buchheim 闭式 ⭐⭐⭐¶

定理：若 \(m_A\) 的次数为 \(m\)，则 \(\exp(tA)\) 可以表示为 \(A\) 的次数 \(< m\) 的矩阵多项式：

\[\exp(tA) = \sum_{j=0}^{m-1} \beta_j(t) A^j\]

系数 \(\beta_j(t)\) 由在 \(\mathrm{spec}(A)\) 上的 **Hermite 插值**决定：要求 \(p(\lambda_i) = e^{\lambda_i t}\)，以及导数匹配至 Jordan 块大小。

本质洞察：Cayley--Hamilton 将矩阵指数的无穷级数"塌缩"为有限多项式。这个塌缩之所以可能，是因为 \(A^n\) 可以表示为 \(\{I, A, \ldots, A^{n-1}\}\) 的线性组合——高次项全部折叠到低次上。Sylvester--Buchheim 公式精确地告诉我们折叠的系数。

14.4 机器人学核心应用：Rodrigues 公式 ⭐⭐⭐¶

\(\mathfrak{so}(3)\) 上的 Cayley--Hamilton：对单位旋转轴 \(\hat{\omega} \in \mathfrak{so}(3)\)（\(3 \times 3\) 反对称矩阵，\(\|\omega\| = 1\)），特征多项式为

\[p(x) = x(x^2 + 1)\]

由 Cayley--Hamilton 得 \(\hat{\omega}^3 = -\hat{\omega}\)，因此 \(\hat{\omega}\) 的所有高次幂都可以用 \(\{I, \hat{\omega}, \hat{\omega}^2\}\) 表示。

代入矩阵指数的定义并分组奇偶项：

\[\exp(\hat{\omega}\theta) = I + \sin\theta \cdot \hat{\omega} + (1 - \cos\theta) \cdot \hat{\omega}^2\]

这正是 Rodrigues 旋转公式——从轴角表示直接计算旋转矩阵，避免了矩阵指数的无穷级数。

类比理解：Rodrigues 公式之于 \(\mathfrak{so}(3)\)，就像 Euler 公式 \(e^{i\theta} = \cos\theta + i\sin\theta\) 之于复数——二者都利用"最小多项式的循环性"（\(i^2 = -1\) 对应 \(\hat{\omega}^3 = -\hat{\omega}\)）将指数函数截断为有限三角表达。类比的边界：Euler 公式是标量等式，Rodrigues 是矩阵等式；\(i^2 = -1\) 是精确的二次关系，\(\hat{\omega}^3 = -\hat{\omega}\) 是三次关系。

14.5 SE(3) 螺旋指数 ⭐⭐¶

对 \(\mathfrak{se}(3)\) 中的螺旋运动 \([S] = \begin{pmatrix} \hat{\omega} & v \\ 0 & 0 \end{pmatrix}\)（\(\|\omega\| = 1\)），利用 \(4 \times 4\) 矩阵的最小多项式可以得到闭式：

\[\exp([S]\theta) = \begin{pmatrix} R(\theta, \hat{\omega}) & G(\theta, \hat{\omega})v \\ 0 & 1 \end{pmatrix}\]

其中 \(R\) 由 Rodrigues 公式给出，\(G = I\theta + (1 - \cos\theta)\hat{\omega} + (\theta - \sin\theta)\hat{\omega}^2\)。这是正向运动学中产品指数公式（Product of Exponentials）的基础。

14.6 线性 ODE \(\dot{x} = Ax\) 的解 ⭐⭐⭐¶

解：\(x(t) = \exp(tA) x(0)\)。

模态分析：每个 Jordan 块 \(J_k(\lambda)\) 贡献模态 \(\{e^{\lambda t}, te^{\lambda t}, \ldots, t^{k-1}e^{\lambda t}\}\)。

条件	模态行为	渐近行为
\(\mathrm{Re}(\lambda) < 0\)	指数衰减（可能伴随振荡）	\(\to 0\)
\(\mathrm{Re}(\lambda) > 0\)	指数增长	\(\to \infty\)
\(\mathrm{Re}(\lambda) = 0, k = 1\)	纯振荡（若 \(\mathrm{Im}(\lambda) \neq 0\)）或常数	有界
\(\mathrm{Re}(\lambda) = 0, k > 1\)	多项式增长 \(t^{k-1}\)	\(\to \infty\)

最后一种情况正是 Jordan 块大小对稳定性的关键影响——仅靠特征值无法判断，必须知道 Jordan 结构。

详细例题：考虑 \(3 \times 3\) 系统 \(\dot{x} = Ax\)，\(A\) 的 JNF 为 \(J = \begin{pmatrix} -1 & 1 & 0 \\ 0 & -1 & 0 \\ 0 & 0 & 2 \end{pmatrix}\)。

\[\exp(tJ) = \begin{pmatrix} e^{-t} & te^{-t} & 0 \\ 0 & e^{-t} & 0 \\ 0 & 0 & e^{2t} \end{pmatrix}\]

前两个分量（\(\lambda = -1\) 的 \(2 \times 2\) Jordan 块）：\(x_1(t) \sim (c_1 + c_2 t)e^{-t} \to 0\)。尽管有 \(te^{-t}\) 项（多项式增长），但指数衰减 \(e^{-t}\) 足以压过，仍然稳定
第三个分量（\(\lambda = 2\)）：\(x_3(t) = c_3 e^{2t} \to \infty\)。系统整体不稳定

反事实推理：如果上述系统的 \(\lambda = 2\) 被替换为 \(\lambda = 0\)（即 \(A\) 的 JNF 变为 \(\mathrm{diag}(J_2(-1), J_1(0))\)），系统变为"部分稳定"——前两个分量衰减，第三个保持常数。但如果进一步将 \(J_1(0)\) 换成 \(J_2(0)\)（即 \(A\) 有 \(\lambda = 0\) 的 \(2 \times 2\) Jordan 块），则第三和第四分量包含 \(t\) 增长项——系统变为不稳定。这清楚地展示了 Jordan 块大小（而非仅特征值）对稳定性的决定性作用。

14.7 谱映射定理 ⭐⭐¶

定理：\(\mathrm{spec}(\exp(A)) = \exp(\mathrm{spec}(A)) = \{e^{\lambda} : \lambda \in \mathrm{spec}(A)\}\)，代数重数保持。

推论：\(\det(\exp(A)) = \exp(\mathrm{tr}(A))\)。

证明：\(\det(\exp(A)) = \prod_{i} e^{\lambda_i} = e^{\sum \lambda_i} = e^{\mathrm{tr}(A)}\)。

这个推论有重要的几何意义：\(\exp(A)\) 将体积缩放 \(e^{\mathrm{tr}(A)}\) 倍。特别地，若 \(\mathrm{tr}(A) = 0\)（如 \(A \in \mathfrak{so}(n)\) 或 \(A \in \mathfrak{sl}(n)\)），则 \(\det(\exp(A)) = 1\)，即 \(\exp(A)\) 保体积。

常见陷阱¶

💡 概念误区：认为 \(\exp(A+B) = \exp(A)\exp(B)\) 总成立

新手想法："指数函数的加法公式应该对矩阵也成立"

实际上：仅当 \(AB = BA\) 时成立。一般情况需要 Baker--Campbell--Hausdorff 公式：\(\log(\exp(A)\exp(B)) = A + B + \frac{1}{2}[A,B] + \cdots\)。这个区别在 Lie 群理论中至关重要。

正确理解：矩阵的非交换性使得指数映射远比标量复杂。\([A, B] \neq 0\) 是"非交换修正"的来源。

🧠 思维陷阱：死记 Rodrigues 公式而不理解代数来源

新手想法："Rodrigues 公式 = \(I + \sin\theta\hat{\omega} + (1-\cos\theta)\hat{\omega}^2\)，记住就行"

实际上：公式的来源是 \(\hat{\omega}^3 = -\hat{\omega}\)（Cayley--Hamilton 在 \(\mathfrak{so}(3)\) 上的特例），它将无穷级数截断为三项。理解这个来源后，你可以对**任何**矩阵推导类似的闭式——只需知道其最小多项式。

正确理解：Rodrigues 公式是 Cayley--Hamilton + 矩阵指数的具体实例，不是孤立的公式。

练习¶

(手推) 计算 \(\exp(tA)\)，其中 \(A = \begin{pmatrix} 2 & 1 \\ 0 & 2 \end{pmatrix}\)。解释结果中 \(te^{2t}\) 项的物理含义（在 \(\dot{x} = Ax\) 的背景下）。
(推导) 从 \(\hat{\omega} = \begin{pmatrix} 0 & -\omega_3 & \omega_2 \\ \omega_3 & 0 & -\omega_1 \\ -\omega_2 & \omega_1 & 0 \end{pmatrix}\)（\(\|\omega\| = 1\)）出发，验证 \(\hat{\omega}^3 = -\hat{\omega}\)，然后推导 Rodrigues 公式。在草稿纸上完成。
(跨章综合) 利用 A2c 的 Schur 分解和本章的 Jordan 理论，证明：对称矩阵 \(A = A^T\) 的 \(\exp(tA)\) 也是对称的。提示：对称矩阵可正交对角化。

15. 应用：控制论稳定性 ⭐⭐¶

动机¶

Jordan 理论在控制论中的应用是最直接的——线性系统 \(\dot{x} = Ax\) 的行为完全由 \(A\) 的 Jordan 结构决定。本节将 Jordan 块的代数结构与控制系统的稳定性、Lyapunov 方程、极点配置联系起来。

15.1 线性系统的稳定性分类 ⭐⭐¶

\(\dot{x} = Ax\) 在原点的稳定性：

条件	稳定性类型	Jordan 结构要求
全部 \(\mathrm{Re}(\lambda_i) < 0\)	渐近稳定	无额外要求
全部 \(\mathrm{Re}(\lambda_i) \leq 0\)，虚轴上 \(\lambda\) 的 Jordan 块全为 \(1 \times 1\)	临界稳定	虚轴特征值无高阶块
存在 \(\mathrm{Re}(\lambda) > 0\)	不稳定	无额外要求
全部 \(\mathrm{Re}(\lambda_i) \leq 0\)，但虚轴上 \(\lambda\) 有 \(\geq 2\) 的 Jordan 块	不稳定	\(t^j\) 多项式增长

最后一种情况尤为重要：即使所有特征值的实部 \(\leq 0\)，高阶 Jordan 块也会导致不稳定。

理论-工程桥接：二维双积分器 \(A = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}\)（如无控制的轮式小车位置-速度）在 \(\lambda = 0\) 有 \(2 \times 2\) Jordan 块，解包含 \(t\) 项，导致位置无界增长——这正是 Jordan 块对机器人控制的直接后果。

15.2 Lyapunov 方程 ⭐⭐¶

定理：\(A\) Hurwitz（即渐近稳定，全部 \(\mathrm{Re}(\lambda_i) < 0\)）当且仅当对任意正定矩阵 \(Q \succ 0\)，Lyapunov 方程

\[A^T P + PA = -Q\]

有唯一的正定解 \(P = \int_0^{\infty} e^{A^T t} Q e^{At} dt \succ 0\)。

为什么 \(P\) 是正定的：对任意 \(x \neq 0\)，

\[x^T P x = \int_0^{\infty} x^T e^{A^T t} Q e^{At} x \, dt = \int_0^{\infty} (e^{At}x)^T Q (e^{At}x) \, dt = \int_0^{\infty} \|Q^{1/2} e^{At}x\|^2 \, dt > 0\]

最后的严格正性来自连续性——\(e^{A \cdot 0}x = x \neq 0\)，所以被积函数在 \(t = 0\) 附近严格正。

与 Jordan 形的联系：积分收敛性由 \(\|e^{At}\| \leq C(1 + t^{k-1})e^{\alpha t}\)（\(\alpha = \max \mathrm{Re}(\lambda_i) < 0\)）保证。这里 \(k-1\) 是最大 Jordan 块中的多项式增长阶，但由于 \(e^{\alpha t}\) 的指数衰减足以压过多项式增长，积分仍然收敛。

为什么 \(P\) 满足 Lyapunov 方程：对 \(P = \int_0^{\infty} e^{A^T t} Q e^{At} dt\) 两边左乘 \(A^T\) 并加上右乘 \(A\)：

\[A^T P + PA = \int_0^{\infty} \left(A^T e^{A^T t} Q e^{At} + e^{A^T t} Q e^{At} A\right) dt = \int_0^{\infty} \frac{d}{dt}\left(e^{A^T t} Q e^{At}\right) dt\]

\[= \left[e^{A^T t} Q e^{At}\right]_0^{\infty} = 0 - Q = -Q\]

其中 \(\lim_{t \to \infty} e^{A^T t} Q e^{At} = 0\)（因为 \(A\) Hurwitz）。

理论-工程桥接：在机器人控制中，二次 Lyapunov 函数 \(V(x) = x^T P x\) 用于：(1) 计算力矩控制的稳定性证明；(2) 被动性控制的能量函数构造；(3) 神经网络策略的终止证书（Certificate of Stability）。Lyapunov 方程的数值稳定求解使用 Bartels--Stewart 算法（基于实 Schur 分解，而非 JNF）。

15.3 Ackermann 极点配置公式 ⭐⭐⭐¶

定理：对能控 SISO 系统 \((A, b)\)，欲配置闭环特征多项式 \(\Delta_d(s)\)，状态反馈增益

\[k^T = \begin{bmatrix} 0 & \cdots & 0 & 1 \end{bmatrix} \mathcal{C}^{-1} \Delta_d(A)\]

其中 \(\mathcal{C} = [b, Ab, \ldots, A^{n-1}b]\) 是能控性矩阵。

证明核心：由 Cayley--Hamilton，闭环矩阵 \(A_{cl} = A - bk^T\) 满足 \(\Delta_d(A_{cl}) = 0\)。能控性保证 \(\mathcal{C}\) 可逆，从而可以解出 \(k^T\)。

这是 Cayley--Hamilton 定理在机器人控制中最直接、最重要的应用。

15.4 有限步能控判据 ⭐⭐¶

为什么能控性矩阵 \(\mathcal{C} = [B, AB, \ldots, A^{n-1}B]\) 只需到 \(A^{n-1}\)？ 答案正是 Cayley--Hamilton：\(A^n\) 是 \(\{I, A, \ldots, A^{n-1}\}\) 的线性组合，所以 \(A^n B\) 不会提供 \(\mathcal{C}\) 之外的新信息。

常见陷阱¶

💡 概念误区：认为"特征值实部 \(\leq 0\) = 稳定"

新手想法："只要没有正实部特征值就稳定"

实际上：虚轴上特征值的 Jordan 块大小决定了临界稳定还是不稳定。\(\lambda = 0\) 的 \(2 \times 2\) Jordan 块产生线性增长 \(t\)，\(\lambda = i\omega\) 的 \(2 \times 2\) Jordan 块产生共振增长 \(t\sin(\omega t)\)——都是不稳定的。

正确理解：稳定性判断需要特征值**和** Jordan 块大小。

🧠 思维陷阱：认为"Schur 分解可以完全替代 Jordan 形做稳定性分析"

新手想法："既然数值上用 Schur 分解，稳定性分析也不需要 Jordan 形了吧？"

实际上：Schur 分解给出特征值（对角元素），但不直接给出 Jordan 块大小。虽然可以从 Schur 形推断"是否可对角化"（看超对角元是否接近零），但精确的多项式增长阶需要 Jordan 分析。理论推导中 Jordan 形不可替代。

正确理解：Schur 分解用于数值计算，Jordan 形用于理论分析。两者互补。

练习¶

(手推) 对系统 \(\dot{x} = \begin{pmatrix} 0 & 1 \\ -2 & -3 \end{pmatrix}x + \begin{pmatrix} 0 \\ 1 \end{pmatrix}u\)，使用 Ackermann 公式设计状态反馈 \(u = -k^T x\)，使闭环极点在 \(\{-1, -2\}\)。
(思考) 为什么 Ackermann 公式只适用于 SISO 系统？MIMO 情况需要什么替代方法？

16. 应用：矩阵对数与 Lie 群 ⭐⭐¶

动机¶

矩阵指数 \(\exp: \mathfrak{g} \to G\) 将 Lie 代数映射到 Lie 群。其逆运算——矩阵对数 \(\log: G \to \mathfrak{g}\)——在 SLAM（同步定位与地图构建）和 Lie 群优化中至关重要。

16.1 矩阵对数的存在性 ⭐⭐¶

Culver 定理：实矩阵 \(M\) 存在实对数当且仅当 \(M\) 可逆且负实特征值的 Jordan 块成对出现。

主对数：特征值在带状区域 \(|\mathrm{Im}(z)| < \pi\) 的对数。存在当且仅当 \(M\) 无特征值在闭负实轴上。

\(SO(3)\) 中的特殊情况：旋转角 \(\theta = \pi\) 时，特征值为 \(\{1, -1, -1\}\)，主对数不唯一——对数的不唯一性对应于旋转轴的方向歧义。

16.2 SE(3) 对数与 SLAM ⭐⭐⭐¶

位姿图 SLAM 的误差残差定义为

\[r_{ij} = \log(\hat{T}_{ij}^{-1} T_i^{-1} T_j)^{\vee} \in \mathbb{R}^6\]

其中 \(\log\) 是 \(SE(3)\) 上的对数映射，\(\vee\) 是从李代数到向量空间的同构。这个残差用于 g2o、GTSAM、Ceres 等非线性优化框架。

16.3 BCH 公式与 Lie 代数积分 ⭐¶

Baker--Campbell--Hausdorff 公式：

\[\log(\exp(X)\exp(Y)) = X + Y + \frac{1}{2}[X, Y] + \frac{1}{12}([X, [X, Y]] - [Y, [X, Y]]) + \cdots\]

为什么 BCH 公式重要：当 \([X, Y] \neq 0\) 时，\(\exp(X)\exp(Y) \neq \exp(X+Y)\)。BCH 公式精确地告诉我们"非交换修正"是什么——它由交换子 \([X, Y]\) 及其高阶嵌套构成。

在 \(SO(3)\) 上的截断：由于 \(\mathfrak{so}(3)\) 的交换子 \([\hat{\omega}_1, \hat{\omega}_2] = \hat{\omega}_1 \hat{\omega}_2 - \hat{\omega}_2 \hat{\omega}_1\) 仍在 \(\mathfrak{so}(3)\) 中（反对称矩阵的交换子仍是反对称的），BCH 公式的每一项都停留在 \(\mathfrak{so}(3)\) 中。对小角度旋转，一阶截断 \(\log(\exp(X)\exp(Y)) \approx X + Y\) 就足够了；二阶截断包含 \(\frac{1}{2}[X, Y]\) 修正。

在 IMU 预积分中的应用：IMU 测量的角速度 \(\omega(t)\) 需要积分得到旋转。连续积分 \(R(t) = \exp(\int_0^t \hat{\omega}(\tau) d\tau)\) 在离散化时变为 \(R_k = R_{k-1} \exp(\hat{\omega}_k \Delta t)\)。BCH 公式的截断精度决定了预积分的精度——这在 SLAM 和 VIO（Visual-Inertial Odometry）中至关重要。

16.4 广义 Rodrigues 公式 ⭐¶

一般原理：对极小多项式次数为 \(m\) 的任意方阵 \(A\)，\(\exp(tA)\) 可以表示为 \(A\) 的 \(\leq m-1\) 次多项式，系数由 Hermite 插值在 \(\mathrm{spec}(A)\) 上确定。

Lie 代数	\(m_A\) 的次数	\(\exp\) 闭式结构
\(\mathfrak{so}(3)\)	\(3\)（\(x^3 + x\)）	\(I + \sin\theta \hat{\omega} + (1-\cos\theta)\hat{\omega}^2\)
\(\mathfrak{se}(3)\)	\(4\)（\(x^4 + x^2\)）	涉及 \(I, \hat{\omega}, \hat{\omega}^2, \hat{\omega}^3\)，但 \(\hat{\omega}^3 = -\hat{\omega}\) 简化为三项
\(\mathfrak{su}(2)\)	\(2\)（\(x^2 + \\|\omega\\|^2\)）	\(\cos\\|\omega\\| I + \frac{\sin\\|\omega\\|}{\\|\omega\\|} X\)
\(\mathfrak{sl}(2, \mathbb{R})\)	\(2\)--\(3\)	取决于特征值是否为零

这种统一的闭式积分方法由 Gallier--Xu (IJRA 2003) 系统化——其核心工具正是本章的 Cayley--Hamilton 定理和极小多项式。

常见陷阱¶

💡 概念误区：认为矩阵对数总是存在且唯一的

新手想法："\(\exp\) 可逆，\(\log\) 应该总存在"

实际上：即使对可逆矩阵，实对数也不一定存在（需要 Culver 条件）。即使存在，也不一定唯一（如 \(SO(3)\) 中 \(\pi\) 旋转）。

正确理解：\(\exp\) 是满射但非单射（在 Lie 群的大范围内）。\(\log\) 只在 \(\exp\) 的单射区域（如 \(SO(3)\) 中 \(|\theta| < \pi\)）上良定义。

练习¶

(手推) 对旋转矩阵 \(R = \begin{pmatrix} 0 & -1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix}\)（绕 \(z\) 轴旋转 \(90°\)），计算 \(\log(R)\)（即找 \(\hat{\omega}\theta\) 使得 \(\exp(\hat{\omega}\theta) = R\)）。
(思考) 为什么 \(\theta = \pi\) 时 \(\log(R)\) 的计算公式会退化？从 Jordan 理论的角度解释。

17. 综合实例与跨模块连接 ⭐⭐¶

17.1 完整计算实例：从矩阵到模态分析¶

问题：对矩阵 \(A = \begin{pmatrix} 3 & 1 & 0 & 0 \\ 0 & 3 & 0 & 0 \\ 0 & 0 & 3 & 0 \\ 0 & 0 & 0 & 5 \end{pmatrix}\)，完成以下全部分析。

Step 1：特征多项式和极小多项式

\[p_A(\lambda) = (\lambda - 3)^3(\lambda - 5)\]

\(m_A\) 必须整除 \(p_A\) 且与 \(p_A\) 同根。检验：\((A - 3I)^2(A - 5I)\)——第 \((1,2)\) 元素是否为零？\((A - 3I) = \mathrm{diag}(J_2(0), 0, 2)\)，\((A-3I)^2 = \mathrm{diag}(N_2^2, 0, 4) = \mathrm{diag}(0, 0, 0, 4)\)。\((A-3I)^2(A-5I) = \mathrm{diag}(0, 0, 0, 4) \cdot \mathrm{diag}(-2, J, -2, 0)\)... 让我们更仔细地计算。

实际上 \(A\) 已经是 Jordan 形：\(J_2(3) \oplus J_1(3) \oplus J_1(5)\)。

\[m_A = (x-3)^2(x-5)\]

（最大 Jordan 块大小为 \(2\) 对 \(\lambda = 3\)，为 \(1\) 对 \(\lambda = 5\)）

Step 2：准素分解

\[V = G(3, A) \oplus G(5, A) = \mathrm{span}\{e_1, e_2, e_3\} \oplus \mathrm{span}\{e_4\}\]

Step 3：Jordan 结构

\(\lambda = 3\)：代数重数 \(3\)，几何重数 \(= \dim \ker(A - 3I) = 2\)（\(e_2\) 和 \(e_3\) 是特征向量），Jordan 块为 \((2, 1)\)
\(\lambda = 5\)：代数重数 \(1\)，几何重数 \(1\)，Jordan 块为 \((1)\)

Step 4：矩阵指数

\[\exp(tA) = \begin{pmatrix} e^{3t} & te^{3t} & 0 & 0 \\ 0 & e^{3t} & 0 & 0 \\ 0 & 0 & e^{3t} & 0 \\ 0 & 0 & 0 & e^{5t} \end{pmatrix}\]

Step 5：模态分析（若 \(\dot{x} = Ax\)）

系统有三个模态：\(e^{3t}\)（衰减/增长取决于符号，此处增长）、\(te^{3t}\)（多项式-指数混合增长）、\(e^{5t}\)（指数增长）。系统不稳定（所有 \(\mathrm{Re}(\lambda) > 0\)）。

17.2 面向机器人博士生的"必会清单"¶

从 \(\mathfrak{so}(3)\) 的特征多项式 \(x(x^2 + \|\omega\|^2)\) 推出 Rodrigues 公式
从 \(\mathfrak{se}(3)\) 的极小多项式写出指数闭式（知其代数根源，而非仅记公式）
解释为何 JNF 中 Jordan 块大小 \(k\) 产生 \(t^{k-1} e^{\lambda t}\) 模态
在 SISO 系统上完整执行 Ackermann 极点配置（显式用 CH）
判断 \(R \in SO(3)\) 的对数何时不唯一（\(\pi\) 旋转）
对给定 \(4 \times 4\) 矩阵计算 JNF：求 \(m_T \to\) 求特征值 \(\to\) 按 \(\dim \ker(T - \lambda I)^k\) 定块

17.3 与后续模块的连接¶

\(\to\) A2e（张量积、外代数、行列式）：补齐 \(\S3\)、\(\S4.2\) 中黑盒化的 \(\det\) 与伴随矩阵；Cayley--Hamilton 的外代数证明
\(\to\) A3（微分几何）：\(\S14\) 矩阵指数为 Lie 群指数映射的线性化；\(\S16\) 对数映射为逆
\(\to\) A4（抽象代数）：\(\S10'.2\) 的 PID 结构定理将作正式化复习；本模块中 mini 模块为 motivation
\(\to\) 控制论模块：\(\S15\) Ackermann、能控/能观标准型；\(\S12\) RCF 为最小实现理论底层
\(\to\) 数值线性代数模块：\(\S13.3\) JNF 病态问题的 Schur 替代；实 Jordan 形的数值版本

本章常见误解汇总¶

误解	正确理解
\(m_T\) 和 \(p_T\) 是同一个多项式	同根但重数可不同；\(m_T \mid p_T\)，\(m_T = p_T\) 仅当存在循环向量
\(p_A(A) = \det(AI - A) = \det(0) = 0\)	\(\det\) 的输入必须是标量矩阵，不能在行列式内部做"矩阵代入标量"
知道代数重数和几何重数就能确定 JNF	需要完整的核维数序列 \(\{\dim \ker(T - \lambda I)^k\}\)
JNF 需要 \(F\) 是代数闭域	只需 \(p_T\) 在 \(F\) 上分裂
数值计算应使用 JNF	JNF 对扰动病态；数值计算用 Schur 分解
\(\exp(A+B) = \exp(A)\exp(B)\) 总成立	仅当 \(AB = BA\)；一般情况需要 BCH 修正
Rodrigues 公式是独立的公式	它是 Cayley--Hamilton 在 \(\mathfrak{so}(3)\) 上的特例
特征值实部 \(\leq 0\) 保证稳定	虚轴上特征值的 Jordan 块大小 \(> 1\) 导致不稳定

本章小结¶

符号表¶

符号	含义	首次出现
\(F[x]\)	域 \(F\) 上的一元多项式环	\(\S1\)
\(\mathrm{Ann}(T)\)	\(T\) 的零化理想 \(\{p \in F[x] : p(T) = 0\}\)	\(\S2\)
\(m_T\)	\(T\) 的极小多项式（\(\mathrm{Ann}(T)\) 的首一生成元）	\(\S2\)
\(p_T(\lambda)\)	\(T\) 的特征多项式 \(\det(\lambda I - T)\)	\(\S3\)
\(\mathrm{adj}(A)\)	\(A\) 的伴随矩阵（adjugate）	\(\S3\)
\(G(\lambda, T)\)	\(T\) 关于 \(\lambda\) 的广义特征空间 \(\ker(T - \lambda I)^n\)	\(\S7\)
\(N_\lambda\)	\(T\) 在 \(G(\lambda, T)\) 上的幂零部分 \(T - \lambda I\)	\(\S8\)
\(J_k(\lambda)\)	\(k \times k\) Jordan 块	\(\S9\)
\(C(f)\)	多项式 \(f\) 的伴随矩阵（companion matrix）	\(\S12\)
\(\hat{\omega}\)	\(\omega \in \mathbb{R}^3\) 的反对称矩阵表示	\(\S14\)

定理速查表¶

定理/公式	一句话说明	对应节
Cayley--Hamilton	\(p_T(T) = 0\)：特征多项式零化算子	\(\S4\)
同根定理	\(m_T\) 与 \(p_T\) 有相同根集合	\(\S5\)
准素分解	\(V = \bigoplus \ker p_i(T)^{a_i}\)：按不可约因子分解	\(\S6\)
幂零分类	幂零算子 \(\leftrightarrow\) Young 图（分区）	\(\S8\)
JNF 存在	\(p_T\) 分裂时，\(T\) 可化为 Jordan 块对角形	\(\S10\)
JNF 唯一	块结构由核维数序列唯一决定	\(\S11\)
有理标准形	任意域下 \(T \sim \mathrm{diag}(C(f_1), \ldots, C(f_k))\)	\(\S12\)
Rodrigues 公式	\(\exp(\hat{\omega}\theta) = I + \sin\theta\hat{\omega} + (1-\cos\theta)\hat{\omega}^2\)	\(\S14\)
Ackermann 公式	\(k^T = e_n^T \mathcal{C}^{-1}\Delta_d(A)\)：基于 CH 的极点配置	\(\S15\)

知识点总表¶

编号	知识点	核心要点	对应节	难度
1	\(F[x]\) 环结构	PID、带余除法、Bezout	\(\S1\)	⭐⭐
2	极小多项式	零化理想的生成元、整除性	\(\S2\)	⭐⭐⭐
3	特征多项式	\(\det(\lambda I - T)\)、基独立性	\(\S3\)	⭐⭐⭐
4	Cayley--Hamilton	四条证明路径	\(\S4\)	⭐⭐⭐
5	\(m_T\) 与 \(p_T\) 关系	整除、同根、可对角化判据	\(\S5\)	⭐⭐⭐
6	准素分解	Bezout 投影、CRT	\(\S6\)	⭐⭐⭐
7	广义特征空间	核链、指标	\(\S7\)	⭐⭐⭐
8	幂零分类	Young 图、核旗升法	\(\S8\)	⭐⭐⭐
9	Jordan 链	循环子空间、伴随矩阵	\(\S9\)	⭐⭐⭐
10	JNF（路径 A）	准素 + 幂零 = JNF	\(\S10\)	⭐⭐⭐
10'	JNF（路径 B）	\(F[x]\)-模、PID 结构定理	\(\S10'\)	⭐⭐⭐
11	JNF 唯一性	核维数公式	\(\S11\)	⭐⭐⭐
12	有理标准形	不变因子、伴随矩阵	\(\S12\)	⭐⭐⭐
13	计算算法	Krylov、数值警告	\(\S13\)	⭐⭐
14	矩阵指数	Jordan 截断、Rodrigues	\(\S14\)	⭐⭐⭐
15	控制论稳定性	Lyapunov、Ackermann	\(\S15\)	⭐⭐
16	矩阵对数与 Lie 群	\(\log\) 存在性、SLAM	\(\S16\)	⭐⭐

累积项目：本章新增模块¶

项目名称：手写线性代数核心库

本章新增：Jordan 分解模块 - 实现 minimal_polynomial(A) 函数（Krylov 子空间法） - 实现 jordan_form(A) 函数（核旗升法），返回 Jordan 基和 Jordan 矩阵 - 实现 matrix_exp_jordan(t, A) 函数（通过 Jordan 形计算矩阵指数） - 实现 rodrigues(omega, theta) 函数（从 \(\hat{\omega}^3 = -\hat{\omega}\) 出发推导）

与前章的衔接： - 依赖 Ch40（特征值分解模块）的 eigenvalues(A) 和 schur_decomposition(A) - 依赖 Ch30（矩阵基本运算）的矩阵乘法和求逆

与后续章节的关系： - Ch60（微分几何）将使用 rodrigues 作为 Lie 群指数映射的基础实现 - Ch70（控制论）将调用 matrix_exp_jordan 进行系统仿真

延伸阅读¶

教材¶

教材	难度	侧重
Axler, Linear Algebra Done Right (4th ed.)	⭐⭐	无行列式路径，几何直觉强
Hoffman--Kunze, Linear Algebra	⭐⭐⭐	经典传统，证明严谨
Roman, Advanced Linear Algebra	⭐⭐⭐	模论视角，路径 B 首选
Horn--Johnson, Matrix Analysis	⭐⭐⭐⭐	矩阵分析百科全书
Dummit--Foote, Abstract Algebra \(\S12\)	⭐⭐⭐	PID 结构定理的完整证明
Lang, Algebra Ch. XIV	⭐⭐⭐⭐	最抽象但最统一

机器人学应用参考¶

参考	难度	内容
Lynch--Park, Modern Robotics \(\S3\)	⭐⭐	Rodrigues 公式、SE(3) 指数
Murray--Li--Sastry, A Mathematical Introduction to Robotic Manipulation	⭐⭐⭐	李群基础
Barfoot, State Estimation for Robotics Ch. 7	⭐⭐⭐	SE(3) 对数与 SLAM
Higham, Functions of Matrices	⭐⭐⭐⭐	矩阵函数的数值计算

论文¶

论文	年份	内容
Gallier--Xu, IJRA 2003	2003	广义 Rodrigues / Sylvester 公式
Grinberg, Trace Cayley--Hamilton 讲义	2025	伴随矩阵证明的现代处理

本章与后续章节的关系¶

后续章节	与本章的关系	本章哪个知识点为其铺垫
A2e（张量积、外代数、行列式）	补齐 \(\S3\)、\(\S4.2\) 中黑盒化的 \(\det\) 与伴随矩阵	\(\S3\) 特征多项式、\(\S4\) 伴随矩阵证明
A3（微分几何预备）	\(\S14\) 矩阵指数为 Lie 群指数映射的线性化	\(\S14\) Rodrigues 公式、\(\S16\) 矩阵对数
A4（抽象代数）	\(\S10'\) 的 PID 结构定理将作正式化复习	\(\S10'.2\) PID 结构定理
控制论模块	\(\S15\) Ackermann、能控/能观标准型	\(\S9\) 循环子空间、\(\S15\) 极点配置
数值线性代数模块	\(\S13.6\) JNF 病态的 Schur 替代	\(\S13\) 计算算法与数值警告

🔧 故障排查手册¶

症状	可能原因	排查步骤	相关章节
计算 \(m_T\) 得到的多项式不整除 \(p_T\)	计算错误；\(m_T\) 不是首一的；或 \(p_T\) 计算有误	1. 验证 \(m_T(T) = 0\)（代入检验）；2. 验证 \(m_T\) 是首一的；3. 重新计算 \(p_T\)	\(\S2\), \(\S3\), \(\S5\)
构造 Jordan 基时基向量不线性无关	核旗升法中补空间选取不当；交换引理使用不当	1. 检查核旗的维数是否正确；2. 验证每层的补空间选取；3. 用行列式检验线性无关性	\(\S8.4\)
\(\exp(tA)\) 的计算结果不满足 \(\frac{d}{dt}\exp(tA) = A\exp(tA)\)	Jordan 块大小判断错误导致截断错误；幂零部分的计算有误	1. 重新确认 JNF；2. 验证幂零部分 \(N^k = 0\) 的截断位置；3. 对小 \(t\) 数值验证	\(\S14\)
Ackermann 公式计算的增益 \(k^T\) 不能配置目标极点	能控性矩阵 \(\mathcal{C}\) 不可逆（系统不能控）；\(\Delta_d(A)\) 计算错误	1. 检查 \(\mathrm{rank}(\mathcal{C}) = n\)；2. 重新计算 \(\Delta_d(A)\)（注意 Cayley--Hamilton 截断）；3. 验证闭环 \(A - bk^T\) 的特征值	\(\S15.3\)
Rodrigues 公式计算的旋转矩阵不正交	\(\hat{\omega}\) 不是反对称的；\(\\|\omega\\| \neq 1\)；数值误差累积	1. 验证 \(\hat{\omega}^T = -\hat{\omega}\)；2. 归一化 \(\omega\)；3. 检查 \(R^T R = I\) 和 \(\det R = 1\)	\(\S14.4\)

研究实践建议¶

给新手的建议¶

先掌握路径 A：直接构造路径（准素分解 + 幂零分类）提供了最强的几何直觉。在真正理解核旗、Jordan 链之前，不要急于学习 \(F[x]\)-模路径
大量手算练习：对 \(3 \times 3\) 和 \(4 \times 4\) 矩阵完整执行 JNF 计算——求 \(p_T\)、\(m_T\)、核维数序列、Jordan 基。没有手算经验，理论理解会停留在表面
始终连接应用：每学完一个定理，立即思考它在矩阵指数或控制论中的含义。例如：学完 Cayley--Hamilton 后立刻推导 Rodrigues 公式

给有经验者的建议¶

深入 \(F[x]\)-模路径：如果已经熟悉路径 A，认真学习路径 B 会获得更统一的代数视角——JNF、RCF、CH、\(m_T \mid p_T\) 都成为同一定理的推论
关注数值方面：理论上完美的 JNF 在数值计算中是病态的。研究 pseudo-spectra 和 \(\varepsilon\)-Jordan 形式，理解理论与实践的差距
推广到无穷维：本章的全部结果限于有限维。在无穷维 Hilbert 空间上，紧算子的谱定理部分替代了 JNF 的角色，但结构远为复杂

跨章综合练习¶

以下练习需要综合本章和前置章节（A2a 不变子空间、A2c 特征值与 Schur 分解）的知识。

(综合：不变子空间 + Jordan 形) 设 \(T: \mathbb{C}^5 \to \mathbb{C}^5\) 的 Jordan 标准形为 \(J_3(1) \oplus J_2(1)\)。列出所有 \(T\)-不变子空间的维数可能取的值，并对每个维数给出一个具体的不变子空间（用 Jordan 基表示）。提示：\(T\)-不变子空间对应 Jordan 块的"前缀"（链的子链）。
(综合：Schur 分解 + Jordan 形 + 矩阵指数) 对正规矩阵（\(A^*A = AA^*\)），证明：(a) Jordan 标准形必为对角矩阵（即正规矩阵一定可对角化）；(b) Schur 分解中的上三角矩阵实际上是对角矩阵；(c) \(\exp(tA)\) 的计算可以完全通过特征值完成，无需 Jordan 链。在草稿纸上完成推导。
(综合：多项式环 + 控制论) 对二阶系统 \(\dot{x} = \begin{pmatrix} 0 & 1 \\ 0 & 0 \end{pmatrix}x + \begin{pmatrix} 0 \\ 1 \end{pmatrix}u\)（双积分器），使用 \(F[x]\)-模的语言重新表述能控性条件，并说明循环向量与能控性之间的对应关系。

版本信息速查¶

工具/库	相关函数	备注
MATLAB	`jordan(A)`, `minpoly(A)`, `cdf2rdf`	`jordan` 是符号计算，需要 Symbolic Math Toolbox
SymPy (Python)	`Matrix.jordan_form()`, `Matrix.minimal_polynomial()`	符号计算，精确结果
NumPy/SciPy	`scipy.linalg.expm(A)`, `scipy.linalg.schur(A)`	无 JNF 函数——因为数值病态
Eigen (C++)	无直接 JNF 函数；用 `RealSchur` 类	数值库不提供 JNF

教材交叉引用表¶

主题	Hoffman--Kunze	Axler 4e	Roman	Friedberg	Horn--Johnson	Lang	Dummit--Foote
极小多项式	\(\S6.3\)	\(\S5\)E	\(\S7\)	\(\S7.3\)	\(\S3.3\)	XIV.\(\S2\)	\(\S12.2\)
特征多项式	\(\S5.2\), \(\S6.2\)	\(\S9\)C	\(\S7\)	\(\S5.1\)	\(\S1.2\)	XIV.\(\S3\)	\(\S12.2\)
Cayley--Hamilton	\(\S6.3\)	\(\S8\)B	\(\S7\)	\(\S5.4\)	\(\S2.4\)	XIV.\(\S3\)	\(\S12.2\)
准素分解	\(\S6.8\)	\(\S8\)B	\(\S7\)	\(\S7.3\)	\(\S3.2\)	XIV.\(\S6\)	\(\S12.2\)
广义特征空间	\(\S6.7\)	\(\S8\)A	\(\S7\)	\(\S7.1\)	\(\S3.1\)	--	\(\S12.3\)
幂零分类	\(\S7.3\)	\(\S8\)B	\(\S7\)	\(\S7.2\)	\(\S3.2\)	XIV.\(\S2\)	\(\S12.3\)
JNF 存在	\(\S7.3\)	\(\S8\)D	\(\S8\)	\(\S7.2\)	\(\S3.1\)	XIV.\(\S3\)	\(\S12.3\)
JNF 唯一	\(\S7.3\)	\(\S8\)D	\(\S8\)	\(\S7.2\)	\(\S3.1\)	XIV.\(\S3\)	\(\S12.3\)
有理标准形	\(\S7.1\)--\(7.2\)	--	\(\S8\)	\(\S7.4\)	\(\S3.3\)	XIV.\(\S2\)	\(\S12.2\)
PID 模定理	\(\S7.1\) (间接)	--	\(\S6\)	--	--	III.\(\S7\)	\(\S12.1\)
实 Jordan	习题	--	--	习题	\(\S3.4\)	--	--