实分析(Real Analysis)¶
所属层级:Layer-0 · Batch B · Task 1 面向对象:机器人学博士生 Layer-0 数学基础 深度要求:极端严格,不留空白——每个定理完整证明,每步推导交代动机 先修:集合论与 \(\mathbb{R}\) 的 Dedekind 构造(§10)· 向量空间基础(§20)· 点集拓扑(§70,可并行) 后续:测度论与 Lebesgue 积分(§100)· 泛函分析(§110)· 常微分方程(§120)· Layer-1 微分流形与优化
前置自测¶
📋 答不出 \(\geq 2\) 题 \(\to\) 先回 §10/§20/§70 复习
- 实数的完备性:什么是有序域的最小上界性质(Least Upper Bound Property)?为什么 \(\mathbb{Q}\) 不满足这个性质?请举出一个具体的反例。
- 序列与极限:用 \(\varepsilon\)-\(N\) 语言精确叙述"序列 \(\{a_n\}\) 收敛到 \(L\)"的定义。Cauchy 列和收敛列的关系是什么?
- 度量空间基础:什么是度量空间中的开集?紧集的定义是什么?Heine-Borel 定理在 \(\mathbb{R}^n\) 中怎么表述?
- 线性映射:什么是从 \(\mathbb{R}^n\) 到 \(\mathbb{R}^m\) 的线性映射?它的矩阵表示和映射本身是什么关系?
- 连续性直觉:给出一个在 \([0,1]\) 上连续但不一致连续的函数的例子——等等,这可能吗?如果不可能,说明原因。
本章目标¶
学完本章后,你应该能够:
- **完整复述**实数完备性的四种等价表述,并证明它们之间的等价关系
- 独立证明 Bolzano-Weierstrass 定理、中值定理链(Rolle \(\to\) Lagrange \(\to\) Cauchy)、微积分基本定理
- **严格区分**逐点收敛与一致收敛,并掌握一致收敛保持连续/积分/微分的三大定理
- 完整证明 Banach 压缩映射原理及其在 ODE 存在唯一性中的应用框架
- **完整证明**反函数定理与隐函数定理,理解其与压缩映射原理的关系
- 理解 Arzelà-Ascoli 定理和 Stone-Weierstrass 定理的证明思路及其在函数逼近中的意义
- **建立**实分析与机器人学的桥梁:正/逆运动学的局部可逆性、Lipschitz 连续性在控制论中的角色、函数逼近与神经网络
本章知识导航¶
实分析是数学分析的严格化——它将微积分从"直觉计算工具"提升为"有坚实地基的逻辑大厦"。本章的知识结构可以分为三条主线:
主线一:完备性与极限理论(§1-§2) 从实数的完备性出发,建立序列、级数的收敛理论。这是所有后续内容的地基。
主线二:连续性与微积分(§3-§6) 在完备性的基础上,严格定义连续性、微分、积分,证明微积分基本定理。这是对本科微积分的"重新审视"。
主线三:函数空间与高维推广(§7-§12) 从函数序列的收敛出发,建立函数空间的理论,然后推广到多变量微积分和反/隐函数定理。这是通向泛函分析和微分流形的桥梁。
§1 实数完备性 ──→ §2 序列与级数 ──→ §3 连续性 ──→ §4 一致连续与Lipschitz
│ │ │ │
│ │ ▼ ▼
│ │ §5 单变量微分 ──→ §6 Riemann-Stieltjes积分
│ │ │
│ ▼ ▼
│ §7 函数序列一致收敛 ──→ §8 Arzelà-Ascoli
│ │ │
│ ▼ ▼
│ §9 Stone-Weierstrass §10 压缩映射原理
│ │
▼ ▼
§15 凸性与Jensen §11 多变量微分 ──→ §12 反/隐函数定理
│
▼
§13 高阶Taylor ──→ §14 多变量积分
推荐阅读路径:§1-§6 为主干,必须按顺序精读;§7-§10 可在 §6 之后平行阅读;§11-§14 依赖 §5-§6 和 §10;§15 相对独立,可随时插入。
前置知识桥接¶
回顾 §10 集合论:在那里我们通过 Dedekind 分割从有理数 \(\mathbb{Q}\) 构造了实数 \(\mathbb{R}\),并证明 \(\mathbb{R}\) 是完备有序域。本章**从这个结果出发**,将完备性化为分析学的核心工具——不再关心"\(\mathbb{R}\) 是如何构造的",而是关心"完备性能帮我们证明什么"。
回顾 §20 向量空间:线性映射 \(L: \mathbb{R}^n \to \mathbb{R}^m\) 的概念将在 §11 多变量微分中扮演核心角色——总导数(Fréchet 导数)本质上就是"最佳线性逼近"。
回顾 §70 点集拓扑:度量空间、开集、紧集、连通集的抽象定义已在 §70 中建立。本章**不重复这些抽象内容**,而是把它们"落地"到 \(\mathbb{R}\) 和 \(\mathbb{R}^n\) 上做具体分析。
如果跳过本章会怎样¶
- 微分流形无法入门:流形上的坐标卡变换依赖反函数定理(§12),子流形的定义依赖隐函数定理——不学本章,Layer-1 的微分几何完全无法展开。
- 控制理论的收敛性分析无从谈起:机器人控制中的 Picard-Lindelöf 定理(ODE 解的存在唯一性)直接依赖压缩映射原理(§10);Lipschitz 条件(§4)是控制系统稳定性分析的基本工具。
预计阅读时间¶
| 阅读方式 | 时间 | 适合谁 |
|---|---|---|
| 精读(含推导和练习) | 40-50 小时 | 需要深入理解理论基础的读者 |
| 速读(跳过部分推导细节) | 15-20 小时 | 有本科分析基础、需要复习的读者 |
| 速查(只看定理和速查表) | 2-3 小时 | 遇到具体问题时回来查阅 |
§1 实数系的完备性再审视 ⭐¶
上节解决了什么:§10 集合论中我们从零构造了 \(\mathbb{R}\)。本节解决什么:把完备性从"构造副产品"提升为"分析核心工具",建立四种等价表述之间的完整证明链。
1.1 动机:为什么完备性是实分析的基石¶
在本科微积分中,我们自由地使用极限、连续、微分、积分,很少追问:为什么这些操作是合法的? 答案几乎总是回到同一个地方——实数的完备性。
考虑一个看似简单的问题:方程 \(x^2 = 2\) 在 \(\mathbb{Q}\) 中没有解。更准确地说,我们可以构造一个有理数序列 \(\{a_n\}\)——比如用 Newton 迭代 \(a_{n+1} = \frac{1}{2}(a_n + \frac{2}{a_n})\),从 \(a_0 = 1\) 出发——它在直觉上"趋近于 \(\sqrt{2}\)",但在 \(\mathbb{Q}\) 中**没有极限**。这意味着 \(\mathbb{Q}\) 作为分析学的舞台是有缺陷的:序列可以"越来越聚拢"(Cauchy 列),却找不到聚拢的目标。
类比:想象一条数轴上布满了"洞"——\(\mathbb{Q}\) 就是这样的数轴。有理数之间有无理数大小的"空隙"。完备性就是"填满所有空隙"——\(\mathbb{R}\) 是没有洞的数轴。这个类比在"序列极限存在"的层面是准确的,但要注意:\(\mathbb{Q}\) 在 \(\mathbb{R}\) 中是稠密的(任何两个实数之间都有有理数),所以"洞"不是肉眼可见的间隙,而是"极限过程中的缺失"。
1.2 最小上界性质(LUB) ⭐¶
定义(最小上界性质,Least Upper Bound Property):有序域 \(F\) 满足最小上界性质,是指 \(F\) 中每个非空有上界的子集都有上确界(最小上界)。
用符号表示:若 \(S \subseteq F\) 非空且 \(\exists M \in F, \forall x \in S, x \leq M\),则 \(\exists \sup S \in F\) 使得
第二个条件是"最小性"——\(\sup S\) 是所有上界中最小的那个。
为什么 \(\mathbb{Q}\) 不满足 LUB:取 \(S = \{q \in \mathbb{Q} : q^2 < 2\}\)。这个集合非空(\(1 \in S\)),有上界(\(2\) 是上界),但在 \(\mathbb{Q}\) 中**没有上确界**。如果上确界 \(\alpha\) 存在于 \(\mathbb{Q}\) 中,则必有 \(\alpha^2 = 2\)(否则可以构造更好的上界或找到更大的元素),但 \(\sqrt{2} \notin \mathbb{Q}\)——矛盾。这就是 \(\mathbb{Q}\) 的"洞"的精确数学表述。
本质洞察:LUB 性质的本质不是"某个集合有上确界"这件具体的事,而是"极限过程不会把我们带出实数系"这个保证。实分析中几乎所有存在性定理(极限存在、最大值存在、不动点存在……)最终都回溯到 LUB。
1.3 Archimedean 性质与 \(\mathbb{Q}\) 的稠密性 ⭐¶
定理(Archimedean 性质):对任意 \(x, y \in \mathbb{R}\),\(x > 0\),存在正整数 \(n\) 使得 \(nx > y\)。
证明:用反证法。假设对所有正整数 \(n\) 都有 \(nx \leq y\)。则集合 \(A = \{nx : n \in \mathbb{N}\}\) 有上界 \(y\)。由 LUB,\(\alpha = \sup A\) 存在。由于 \(\alpha\) 是上界,\((n+1)x \leq \alpha\),即 \(nx \leq \alpha - x\)。这说明 \(\alpha - x\) 也是 \(A\) 的上界——但 \(\alpha - x < \alpha\),与 \(\alpha\) 是最小上界矛盾。\(\square\)
这个证明展示了 LUB 的典型用法:假设结论不成立 \(\to\) 构造有界集合 \(\to\) 取上确界 \(\to\) 利用"最小性"得到矛盾。这是实分析中最常见的证明模式之一。
定理(\(\mathbb{Q}\) 的稠密性):对任意实数 \(a < b\),存在有理数 \(q\) 使得 \(a < q < b\)。
证明:由 Archimedean 性质,取正整数 \(n\) 使得 \(n(b - a) > 1\)。再取整数 \(m = \lfloor na \rfloor + 1\)(即大于 \(na\) 的最小整数)。则 \(m > na\) 即 \(\frac{m}{n} > a\)。又 \(m \leq na + 1 < na + n(b-a) = nb\),即 \(\frac{m}{n} < b\)。因此 \(q = \frac{m}{n}\) 满足 \(a < q < b\)。\(\square\)
类似地,可以证明无理数在 \(\mathbb{R}\) 中也是稠密的——在任意两个实数之间也存在无理数。
1.4 完备性的四种等价刻画 ⭐⭐¶
实数完备性有多种等价表述。理解它们之间的等价关系,不仅帮助我们灵活选择证明工具,更揭示了完备性这个概念的多面性。
四种表述:
| 表述 | 内容 | 直觉 |
|---|---|---|
| (LUB) 最小上界性质 | 非空有上界的集合有上确界 | "极限过程不出界" |
| (MCT) 单调有界收敛 | 单调有界序列必收敛 | "单调递增且有天花板,必定停下" |
| (NIP) 闭区间套 | \([a_n, b_n]\) 递缩且长度 \(\to 0\),则交集恰含一点 | "越来越精确的逼近锁定一个点" |
| (BW) Bolzano-Weierstrass | 有界序列有收敛子列 | "有界序列不可能'永远散开'" |
等价性证明循环:我们证明 LUB \(\Rightarrow\) MCT \(\Rightarrow\) NIP \(\Rightarrow\) BW \(\Rightarrow\) LUB。
LUB \(\Rightarrow\) MCT:设 \(\{a_n\}\) 单调递增且有上界 \(M\)。集合 \(S = \{a_n : n \in \mathbb{N}\}\) 非空有上界,由 LUB 取 \(\alpha = \sup S\)。对任意 \(\varepsilon > 0\),由上确界的定义,存在 \(a_N > \alpha - \varepsilon\)。由单调性,\(n \geq N\) 时 \(\alpha - \varepsilon < a_N \leq a_n \leq \alpha\),即 \(|a_n - \alpha| < \varepsilon\)。这证明了 \(a_n \to \alpha\)。\(\square\)
阶段小结:到这里我们从"集合的上确界存在"推出了"单调有界序列收敛"。关键步骤是将序列的值域视为集合,然后用上确界作为极限候选。
MCT \(\Rightarrow\) NIP:设 \([a_n, b_n]\) 为递缩闭区间套,即 \(a_n \leq a_{n+1} \leq b_{n+1} \leq b_n\),且 \(b_n - a_n \to 0\)。则 \(\{a_n\}\) 单调递增有上界 \(b_1\),由 MCT 收敛到 \(\alpha\)。类似地 \(\{b_n\}\) 单调递减有下界 \(a_1\),收敛到 \(\beta\)。由 \(b_n - a_n \to 0\) 得 \(\alpha = \beta\)。这个公共极限 \(\alpha\) 满足 \(\alpha \in [a_n, b_n]\) 对所有 \(n\) 成立。若 \(x \in \bigcap [a_n, b_n]\),则 \(a_n \leq x \leq b_n\) 对所有 \(n\) 成立,取极限得 \(x = \alpha\)。因此交集恰含一点 \(\{\alpha\}\)。\(\square\)
NIP \(\Rightarrow\) BW:设 \(\{x_n\}\) 有界,\(x_n \in [a, b]\)。将 \([a, b]\) 二等分为 \([a, \frac{a+b}{2}]\) 和 \([\frac{a+b}{2}, b]\),至少有一半包含 \(\{x_n\}\) 的无穷多项,选这一半记为 \([a_1, b_1]\)。重复此过程,得到闭区间套 \([a_k, b_k]\),长度 \(b_k - a_k = \frac{b-a}{2^k} \to 0\),且每个区间包含 \(\{x_n\}\) 的无穷多项。在每个 \([a_k, b_k]\) 中选一项 \(x_{n_k}\)(使 \(n_k\) 严格递增),则 \(|x_{n_k} - \alpha| \leq b_k - a_k \to 0\),其中 \(\alpha\) 是区间套的交点。\(\square\)
BW \(\Rightarrow\) LUB:设 \(S\) 非空有上界。取 \(b_0\) 为 \(S\) 的一个上界,\(a_0 \in S\)。考虑中点 \(c = \frac{a_0 + b_0}{2}\):若 \(c\) 是 \(S\) 的上界,令 \(b_1 = c, a_1 = a_0\);否则存在 \(s \in S, s > c\),令 \(a_1 = s, b_1 = b_0\)。如此构造的 \(\{a_n\}\) 和 \(\{b_n\}\):\(a_n \in S\) 或 \(a_n\) 是 \(S\) 中某元素(因此 \(a_n\) 不是 \(S\) 的上界的证据),\(b_n\) 是 \(S\) 的上界,且 \(b_n - a_n \to 0\)。由 BW(或由 MCT,但我们要独立于 LUB 证明),\(\{a_n\}\) 有收敛子列趋向 \(\alpha\)。可以验证 \(\alpha = \sup S\):\(\alpha\) 是上界(因为 \(b_n \to \alpha\) 且 \(b_n\) 都是上界),且 \(\alpha\) 是最小上界(因为 \(a_n \to \alpha\) 且任何小于 \(\alpha\) 的数不是上界)。\(\square\)
本质洞察:四种等价表述看似不同,实则抓住了同一个本质——\(\mathbb{R}\) 没有"洞"。LUB 从集合论角度说"没有洞",MCT 从序列角度说"单调逼近必命中目标",NIP 从区间角度说"缩小范围必锁定一点",BW 从子列角度说"有界序列必能聚拢"。选哪个作为公理起点是品味问题,但四者等价是 \(\mathbb{R}\) 的深层结构决定的。
1.5 Cauchy 完备性 ⭐⭐¶
定义:度量空间 \((X, d)\) 是 **Cauchy 完备**的,如果其中每个 Cauchy 列都收敛。
定理:\(\mathbb{R}\)(带标准距离 \(|x-y|\))是 Cauchy 完备的。
证明:设 \(\{a_n\}\) 是 \(\mathbb{R}\) 中的 Cauchy 列。Cauchy 列有界(因为 \(\exists N, n,m \geq N \Rightarrow |a_n - a_m| < 1\),故 \(|a_n| \leq \max\{|a_1|, \ldots, |a_N|, |a_N| + 1\}\))。由 BW,\(\{a_n\}\) 有收敛子列 \(a_{n_k} \to L\)。对任意 \(\varepsilon > 0\),取 \(N_1\) 使 \(n,m \geq N_1 \Rightarrow |a_n - a_m| < \varepsilon/2\),取 \(K\) 使 \(k \geq K \Rightarrow |a_{n_k} - L| < \varepsilon/2\)。对 \(n \geq N_1\) 且 \(n_k \geq N_1\):
因此 \(a_n \to L\)。\(\square\)
重要备注:Cauchy 完备性加上 Archimedean 性质等价于 LUB 性质。单有 Cauchy 完备性不够——例如非 Archimedean 的 \(p\)-adic 数域 \(\mathbb{Q}_p\) 是 Cauchy 完备的,但不满足 LUB(它没有全序)。
1.6 扩展实数系 \(\overline{\mathbb{R}}\) ⭐¶
为了方便处理无界集合的上确界和 \(\limsup\) / \(\liminf\),引入 \(\overline{\mathbb{R}} = \mathbb{R} \cup \{-\infty, +\infty\}\)。
拓扑结构:\(\overline{\mathbb{R}}\) 配备**序拓扑**——基本开集为 \((a, b)\)、\([-\infty, b)\)、\((a, +\infty]\)。在这个拓扑下 \(\overline{\mathbb{R}}\) 是紧空间(同胚于闭区间 \([-1, 1]\),通过映射 \(x \mapsto \frac{2}{\pi}\arctan x\))。
运算约定:对任意 \(a \in \mathbb{R}\),\(a + (+\infty) = +\infty\),\(a + (-\infty) = -\infty\)。对 \(a > 0\),\(a \cdot (+\infty) = +\infty\)。注意 \(\infty - \infty\) 和 \(0 \cdot \infty\) 未定义——这些不定式在极限计算中需要具体分析。
在 \(\overline{\mathbb{R}}\) 中的 sup/inf:一个核心优势是,在 \(\overline{\mathbb{R}}\) 中**任何非空集合都有上确界和下确界**。对无上界的集合 \(S\),\(\sup S = +\infty\);对空集以外的无下界集合,\(\inf S = -\infty\)。这消除了"上确界是否存在"的讨论,简化了后续 \(\limsup / \liminf\) 的定义。
工程桥接:在数值优化中,将不可行解的代价设为 \(+\infty\) 是标准做法。这不是随意的约定,而是扩展实数系中 \(\sup\) 和 \(\inf\) 的自然延伸——使得"所有非空集合都有上确界和下确界"成为普遍成立的命题。在控制论的李雅普诺夫函数分析中,函数值域在 \(\overline{\mathbb{R}}\) 中取值允许处理"系统在有限时间逃逸到无穷"的情形。
⚠️ 常见陷阱¶
💡 概念误区 1:认为"完备性就是 Cauchy 完备性"
新手想法:\(\mathbb{R}\) 的完备性就是"Cauchy 列都收敛"。
实际上:Cauchy 完备性是度量空间的性质,而 LUB 性质是有序域的性质。在 \(\mathbb{R}\) 中它们等价(加上 Archimedean 性质),但在一般度量空间中 LUB 没有意义(因为没有序结构)。说"完备性"时要明确是哪种完备性。
🧠 思维陷阱 1:认为"四种等价表述选哪个都一样,不需要都学"
新手想法:既然四种等价,学一种就够了。
实际上:不同证明场景适合不同工具。证明序列收敛通常用 MCT;证明存在性(如中间值定理的证明)用 NIP 或 LUB 最直接;证明紧致性相关结论用 BW。掌握所有四种表述及其证明技巧是实分析的基本功。
💡 概念误区 2:混淆"有界"与"有上确界"
新手想法:集合有界就有上确界,这不是显然的吗?
实际上:在 \(\mathbb{Q}\) 中,集合 \(\{q \in \mathbb{Q} : q^2 < 2\}\) 有界但在 \(\mathbb{Q}\) 中没有上确界。"有界集合有上确界"恰恰是 \(\mathbb{R}\) 的特殊性质,不是所有有序域共享的。
练习¶
- (证明题)证明:\(\mathbb{R}\) 中无理数集在 \(\mathbb{R}\) 中稠密,即对任意 \(a < b\),存在无理数 \(\xi\) 使得 \(a < \xi < b\)。(提示:利用 \(\mathbb{Q}\) 的稠密性和 \(\sqrt{2}\) 的无理性。)
- (推导题)用 LUB 性质证明自然对数的底 \(e = \sum_{n=0}^{\infty} \frac{1}{n!}\) 存在(即该级数收敛)。要求写出完整的每一步。
- (开放思考题)Cauchy 完备性 + Archimedean 性质 \(\Leftrightarrow\) LUB。如果去掉 Archimedean 条件,会有什么反例?试构造一个非 Archimedean 的 Cauchy 完备有序域(提示:考虑形式 Laurent 级数域)。
§2 \(\mathbb{R}\) 中序列与级数 ⭐¶
§1 建立了完备性工具箱。本节将其应用于序列和级数的系统研究——这是分析学中最基本的极限操作。
2.1 收敛、Cauchy 列、子列 ⭐¶
定义(序列收敛):序列 \(\{a_n\}\) 收敛到 \(L\),记 \(\lim_{n\to\infty} a_n = L\) 或 \(a_n \to L\),是指:
读到这里你可能会问:为什么用 \(\varepsilon > 0\) 而不是 \(\varepsilon > 0\) 足够小?因为如果条件对所有 \(\varepsilon > 0\) 成立,自然对小的 \(\varepsilon\) 也成立。\(\varepsilon\)-\(N\) 定义的力量在于它**精确刻画了"无穷逼近"**——序列尾部的所有项都落在目标 \(L\) 的 \(\varepsilon\)-邻域内。
极限的唯一性:若 \(a_n \to L_1\) 且 \(a_n \to L_2\),则 \(L_1 = L_2\)。证明:\(|L_1 - L_2| \leq |L_1 - a_n| + |a_n - L_2| < \varepsilon + \varepsilon = 2\varepsilon\) 对任意 \(\varepsilon > 0\),因此 \(L_1 = L_2\)。
定义(Cauchy 列):序列 \(\{a_n\}\) 是 Cauchy 列,是指:
Cauchy 列的优势在于:判断是否为 Cauchy 列**不需要知道极限是什么**——这在极限未知时特别有用。例如,要判断 \(\sum \frac{1}{n!}\) 是否收敛,我们不需要知道极限是 \(e\);只需证明部分和构成 Cauchy 列(\(|S_n - S_m| = |\sum_{k=m+1}^{n} \frac{1}{k!}| \leq \frac{2}{m!} \to 0\))。
收敛 \(\Rightarrow\) Cauchy:由三角不等式 \(|a_n - a_m| \leq |a_n - L| + |L - a_m|\)。
Cauchy \(\Rightarrow\) 收敛(在 \(\mathbb{R}\) 中):这就是 §1.5 中证明的 \(\mathbb{R}\) 的 Cauchy 完备性。注意在 \(\mathbb{Q}\) 中 Cauchy \(\not\Rightarrow\) 收敛。
子列:序列 \(\{a_{n_k}\}\) 是 \(\{a_n\}\) 的子列,其中 \(n_1 < n_2 < n_3 < \cdots\)(下标严格递增)。
基本性质: - 如果 \(a_n \to L\),则 \(a_n\) 的任何子列也趋向 \(L\)(由 \(\varepsilon\)-\(N\) 定义直接验证,利用 \(n_k \geq k\)) - 反之不然——子列可以收敛但原序列不收敛(如 \(a_n = (-1)^n\),子列 \(a_{2k} \to 1\) 但 \(\{a_n\}\) 发散) - 判敛应用:如果两个不同子列有不同极限,则原序列发散。这提供了一种**证明发散**的有效方法
2.2 \(\limsup\) 与 \(\liminf\) ⭐⭐¶
对于不收敛的有界序列,\(\limsup\) 和 \(\liminf\) 提供了有力的分析工具。
定义:
为什么这些极限存在?因为 \(b_n = \sup_{k \geq n} a_k\) 是单调递减的(\(\sup\) 取在越来越小的集合上),且 \(\{a_n\}\) 有界意味着 \(b_n\) 有下界——由 MCT,\(\{b_n\}\) 收敛。
关键性质:\(\limsup a_n\) 恰好是 \(\{a_n\}\) 的所有收敛子列极限中的**最大者**;\(\liminf a_n\) 恰好是**最小者**。
类比:\(\limsup\) 和 \(\liminf\) 就像序列的"天花板"和"地板"——序列可以在它们之间振荡,但不会长期超出。\(\limsup = \liminf\) 当且仅当序列收敛。这个类比在"振荡序列"的图景下是准确的,但注意对于单调序列,天花板和地板重合(就是极限本身)。
定理(\(\limsup\) 的刻画):\(L = \limsup a_n\) 当且仅当以下两个条件同时成立: 1. 对任意 \(\varepsilon > 0\),\(a_n > L + \varepsilon\) 仅对有限个 \(n\) 成立 2. 对任意 \(\varepsilon > 0\),\(a_n > L - \varepsilon\) 对无穷多个 \(n\) 成立
证明:(1) 若 \(a_n > L + \varepsilon\) 对无穷多 \(n\),则 \(\sup_{k\geq n} a_k \geq L + \varepsilon\) 对所有 \(n\),矛盾于 \(b_n \to L\)。(2) 若存在 \(\varepsilon > 0\) 使 \(a_n > L - \varepsilon\) 仅对有限个 \(n\),则存在 \(N\) 使 \(n \geq N \Rightarrow a_n \leq L - \varepsilon\),故 \(b_n = \sup_{k \geq n} a_k \leq L - \varepsilon\) 对 \(n \geq N\),矛盾于 \(b_n \to L\)。\(\square\)
2.3 级数:收敛判别法 ⭐¶
级数 \(\sum_{n=1}^{\infty} a_n\) 收敛是指其部分和序列 \(S_N = \sum_{n=1}^{N} a_n\) 收敛。级数理论是序列理论的直接推广——将"求和"视为序列(部分和)的极限。
必要条件(级数发散判别法):若 \(\sum a_n\) 收敛,则 \(a_n \to 0\)。反之不成立(调和级数)。因此 \(a_n \not\to 0 \Rightarrow \sum a_n\) 发散——这是最快的发散排除法。
比较判别法:若 \(0 \leq a_n \leq b_n\),\(\sum b_n\) 收敛,则 \(\sum a_n\) 收敛。(由部分和单调递增有上界,用 MCT。)
极限比较判别法:若 \(a_n, b_n > 0\) 且 \(\lim \frac{a_n}{b_n} = L\)(\(0 < L < \infty\)),则 \(\sum a_n\) 和 \(\sum b_n\) 同敛散。(因为 \(\frac{L}{2} b_n \leq a_n \leq 2L b_n\) 对充分大的 \(n\)。)
比值判别法(D'Alembert):若 \(\limsup \frac{|a_{n+1}|}{|a_n|} = r\),则 \(r < 1\) 时绝对收敛,\(r > 1\) 时发散。
根值判别法(Cauchy):若 \(\limsup \sqrt[n]{|a_n|} = r\),则 \(r < 1\) 时绝对收敛,\(r > 1\) 时发散。
根值判别法严于比值判别法:这个说法的严格含义是——对于任何正项序列:
因此根值判别法能判定的级数,比值判别法也能判定,但反过来不一定。反例:取 \(a_n = 2^{-n}\) 当 \(n\) 为奇数,\(a_n = 3^{-n}\) 当 \(n\) 为偶数。\(\limsup \sqrt[n]{a_n} = \frac{1}{2} < 1\)(根值法判定收敛),但 \(\limsup \frac{a_{n+1}}{a_n} = +\infty\)(比值法失效)。
Cauchy 凝聚判别法:正项递减序列 \(\sum a_n\) 与 \(\sum 2^k a_{2^k}\) 同敛散。
证明思路:将 \(\sum a_n\) 按 \(2^k\) 的块分组:\(a_1 + (a_2 + a_3) + (a_4 + a_5 + a_6 + a_7) + \cdots\)。由 \(a_n\) 递减,每块的和 \(\leq 2^k a_{2^k}\)(用最大项估计)且 \(\geq 2^{k-1} a_{2^k}\)(用最小项估计)。因此 \(\sum a_n\) 和 \(\sum 2^k a_{2^k}\) 同敛散。\(\square\)
经典应用:\(\sum \frac{1}{n^p}\) 收敛当且仅当 \(p > 1\)。凝聚后得到 \(\sum 2^k \cdot \frac{1}{(2^k)^p} = \sum (2^{1-p})^k\)——这是公比为 \(2^{1-p}\) 的等比级数,收敛当且仅当 \(2^{1-p} < 1\),即 \(p > 1\)。
Dirichlet 判别法:若 \(\{b_n\}\) 单调趋于 \(0\),\(\sum a_n\) 的部分和有界,则 \(\sum a_n b_n\) 收敛。
证明工具——Abel 求和法(分部求和,离散版分部积分):设 \(A_n = \sum_{k=1}^{n} a_k\)。则
由 \(A_n\) 有界、\(b_n\) 单调趋于 \(0\),前两项趋于 \(0\)。第三项由 \(b_k - b_{k+1} \geq 0\)(单调递减)和 \(|A_k|\) 有界,形成绝对收敛级数。\(\square\)
Abel 判别法:若 \(\{b_n\}\) 单调有界,\(\sum a_n\) 收敛,则 \(\sum a_n b_n\) 收敛。(将 \(b_n\) 分解为常数 + 趋于 \(0\) 的单调序列,利用 Dirichlet 判别法。)
收敛判别法分类总结:
| 判别法 | 适用条件 | 强度 | 典型应用 |
|---|---|---|---|
| 比较法 | 正项级数 | 基础 | 与已知级数比较 |
| 极限比较法 | 正项级数 | 基础 | 与 \(p\)-级数比较 |
| 比值法 | 一般级数 | 中等 | 含阶乘或指数 |
| 根值法 | 一般级数 | 强于比值 | 含 \(a_n^n\) 结构 |
| 凝聚法 | 正项递减 | 专用 | \(p\)-级数 |
| Dirichlet/Abel | 部分和有界 + 单调 | 专用 | 交错级数、三角级数 |
2.4 绝对收敛 vs 条件收敛 ⭐⭐¶
定义:\(\sum a_n\) **绝对收敛**是指 \(\sum |a_n|\) 收敛;**条件收敛**是指 \(\sum a_n\) 收敛但 \(\sum |a_n|\) 发散。
绝对收敛 \(\Rightarrow\) 收敛:由 \(|S_N - S_M| = |\sum_{n=M+1}^{N} a_n| \leq \sum_{n=M+1}^{N} |a_n|\),\(\sum |a_n|\) 收敛意味着部分和是 Cauchy 列。
Cauchy 乘积(Mertens 定理):若 \(\sum a_n = A\)(绝对收敛),\(\sum b_n = B\)(收敛),则 Cauchy 乘积 \(\sum c_n\) 收敛到 \(AB\),其中 \(c_n = \sum_{k=0}^{n} a_k b_{n-k}\)。
2.5 Riemann 重排定理 ⭐⭐⭐¶
定理(Riemann 重排定理):设 \(\sum a_n\) 条件收敛。对任意 \(L \in \overline{\mathbb{R}}\),存在重排 \(\sigma: \mathbb{N} \to \mathbb{N}\)(双射)使得 \(\sum a_{\sigma(n)} = L\)。
证明(完整):条件收敛意味着正项部分 \(\sum a_n^+\) 和负项部分 \(\sum a_n^-\) 均发散(其中 \(a_n^+ = \max(a_n, 0)\),\(a_n^- = \max(-a_n, 0)\)),但 \(a_n \to 0\)。
构造达到目标 \(L \in \mathbb{R}\) 的重排:先取正项 \(a_{n_1}^+, a_{n_2}^+, \ldots\) 直到部分和首次超过 \(L\);再取负项 \(a_{m_1}^-, a_{m_2}^-, \ldots\) 直到部分和首次低于 \(L\);交替进行。由于 \(a_n \to 0\),每次"越线"的幅度趋于 \(0\),因此部分和趋于 \(L\)。
为什么这个过程必定覆盖所有项?因为每次取正项或负项时,都是从**剩余**的正项或负项中按**原顺序**依次取的。由于正项和负项各有无穷多个且各自发散到 \(+\infty\),每次切换都必定能越过目标——因此不会卡在只取正项(或只取负项)的状态。\(\square\)
反事实推理:如果 \(\sum a_n\) 绝对收敛,重排定理还成立吗?不成立。绝对收敛级数的任何重排都收敛到相同的和——这是绝对收敛的一个核心优势。条件收敛的"脆弱性"正体现在重排可改变和值。
工程桥接:在强化学习中,折扣回报 \(\sum_{k=0}^{\infty} \gamma^k r_k\)(\(0 < \gamma < 1\))的绝对收敛性保证了策略评估(Policy Evaluation)的良定义——无论以什么顺序累加奖励,结果都一样。如果不满足绝对收敛,回报的定义就会依赖于"时间步的排列",这在数学上是不可接受的。
⚠️ 常见陷阱¶
💡 概念误区:认为"\(a_n \to 0\) 就意味着 \(\sum a_n\) 收敛"
这是分析学中最经典的误区。调和级数 \(\sum \frac{1}{n}\) 的项趋于 \(0\) 但级数发散。\(a_n \to 0\) 是收敛的**必要**条件,不是**充分**条件。
🧠 思维陷阱:认为"根值法和比值法能判定所有级数"
实际上两种方法在临界情况 \(r = 1\) 时都失效。例如 \(\sum \frac{1}{n^p}\)(\(p\) 级数)的比值和根值均为 \(1\),但 \(p > 1\) 收敛,\(p \leq 1\) 发散。此时需要 Cauchy 凝聚判别法或直接比较。
💡 概念误区:混淆"绝对收敛"和"收敛"
绝对收敛是严格强于收敛的概念。\(\sum \frac{(-1)^n}{n}\) 收敛(Leibniz 判别法)但不绝对收敛(\(\sum \frac{1}{n}\) 发散)。许多定理(如 Mertens 定理、重排不变性)需要绝对收敛而非仅仅收敛。
练习¶
- (推导题)证明不等式链:\(\liminf \frac{a_{n+1}}{a_n} \leq \liminf \sqrt[n]{a_n} \leq \limsup \sqrt[n]{a_n} \leq \limsup \frac{a_{n+1}}{a_n}\)(对正项序列)。
- (证明题)证明 Riemann 重排定理中,对 \(L = +\infty\) 的情况:存在重排使部分和趋于 \(+\infty\)。
- (开放思考题)交错级数 \(\sum \frac{(-1)^n}{n}\) 条件收敛。如果我们将其重排为"取两个正项,再取一个负项"的模式,重排后的级数收敛到什么?计算并解释。
§3 度量空间上的连续性 ⭐¶
§2 建立了序列和级数的理论。本节将极限的概念推广到函数——连续性是函数的"极限保持性质"。
3.1 连续性的三种等价定义 ⭐¶
定义设置:设 \((X, d_X)\) 和 \((Y, d_Y)\) 是度量空间,\(f: X \to Y\),\(p \in X\)。
\(\varepsilon\)-\(\delta\) 定义:\(f\) 在 \(p\) 连续,是指:
序列定义:\(f\) 在 \(p\) 连续 \(\Leftrightarrow\) 对任何序列 \(x_n \to p\),都有 \(f(x_n) \to f(p)\)。
拓扑定义:\(f\) 在 \(X\) 上连续 \(\Leftrightarrow\) 对 \(Y\) 中任何开集 \(V\),原像 \(f^{-1}(V)\) 是 \(X\) 中的开集。
三者等价的证明:
\(\varepsilon\)-\(\delta\) \(\Rightarrow\) 序列:设 \(x_n \to p\)。对任意 \(\varepsilon > 0\),取 \(\delta\) 使 \(d_X(x, p) < \delta \Rightarrow d_Y(f(x), f(p)) < \varepsilon\)。又取 \(N\) 使 \(n \geq N \Rightarrow d_X(x_n, p) < \delta\)。则 \(n \geq N \Rightarrow d_Y(f(x_n), f(p)) < \varepsilon\)。
序列 \(\Rightarrow\) \(\varepsilon\)-\(\delta\)(反证法):若 \(\varepsilon\)-\(\delta\) 定义不成立,则存在 \(\varepsilon_0 > 0\) 使对任意 \(\delta = \frac{1}{n}\),存在 \(x_n\) 满足 \(d_X(x_n, p) < \frac{1}{n}\) 但 \(d_Y(f(x_n), f(p)) \geq \varepsilon_0\)。则 \(x_n \to p\) 但 \(f(x_n) \not\to f(p)\),矛盾。
\(\varepsilon\)-\(\delta\) \(\Leftrightarrow\) 拓扑:\(f\) 全局连续当且仅当对每点 \(p\) 连续。\(f^{-1}(V)\) 是开集等价于:对每个 \(p \in f^{-1}(V)\),存在 \(\delta\) 使 \(B(p, \delta) \subseteq f^{-1}(V)\)。这恰好是 \(\varepsilon\)-\(\delta\) 连续(取 \(\varepsilon\) 使 \(B(f(p), \varepsilon) \subseteq V\))。\(\square\)
不是三种不同的概念,而是同一个概念的三副面孔。\(\varepsilon\)-\(\delta\) 适合做估计,序列定义适合具体计算,拓扑定义适合抽象推理。选择哪个取决于证明的需要。
3.2 紧集上的连续映射 ⭐⭐¶
定理(连续映射保紧):若 \(K \subseteq X\) 紧,\(f: X \to Y\) 连续,则 \(f(K)\) 紧。
证明:设 \(\{V_\alpha\}\) 是 \(f(K)\) 的开覆盖。则 \(\{f^{-1}(V_\alpha)\}\) 是 \(K\) 的开覆盖(因为 \(f\) 连续,原像为开)。\(K\) 紧,取有限子覆盖 \(f^{-1}(V_{\alpha_1}), \ldots, f^{-1}(V_{\alpha_n})\)。则 \(V_{\alpha_1}, \ldots, V_{\alpha_n}\) 覆盖 \(f(K)\)。\(\square\)
推论(极值定理,Extreme Value Theorem):若 \(K \subseteq \mathbb{R}^n\) 紧,\(f: K \to \mathbb{R}\) 连续,则 \(f\) 在 \(K\) 上取到最大值和最小值。
证明:\(f(K) \subseteq \mathbb{R}\) 紧,在 \(\mathbb{R}\) 中紧 \(\Leftrightarrow\) 有界闭(Heine-Borel),因此 \(f(K)\) 有界闭。有界意味着 \(\sup f(K)\) 和 \(\inf f(K)\) 存在(由 LUB)。闭意味着 \(\sup f(K) \in f(K)\)(否则 \(\sup\) 是聚点但不属于 \(f(K)\),与闭集矛盾)。\(\square\)
反事实推理:如果 \(K\) 不紧(比如开区间 \((0, 1)\)),极值定理还成立吗?不成立。\(f(x) = \frac{1}{x}\) 在 \((0, 1)\) 上连续但无最大值。紧致性是极值定理不可省略的条件。
3.3 连通集上的连续映射 ⭐⭐¶
定理(中间值定理,Intermediate Value Theorem):若 \(f: [a, b] \to \mathbb{R}\) 连续,\(f(a) < c < f(b)\)(或 \(f(b) < c < f(a)\)),则存在 \(\xi \in (a, b)\) 使 \(f(\xi) = c\)。
证明(利用 LUB):设 \(f(a) < c < f(b)\)。令 \(S = \{x \in [a, b] : f(x) < c\}\)。\(S\) 非空(\(a \in S\)),有上界 \(b\),取 \(\xi = \sup S\)。
- 若 \(f(\xi) < c\):由连续性,\(f\) 在 \(\xi\) 附近仍 \(< c\),因此 \(\xi\) 右边还有 \(S\) 的元素(除非 \(\xi = b\),但 \(f(b) > c\)),与 \(\xi = \sup S\) 矛盾。
- 若 \(f(\xi) > c\):由连续性,\(f\) 在 \(\xi\) 的某左邻域内 \(> c\),因此 \(\xi\) 的某左邻域不含 \(S\) 的元素,\(\xi\) 不是 \(\sup S\),矛盾。
- 因此 \(f(\xi) = c\)。\(\square\)
更一般的版本:连续映射保连通(\(f\) 连续,\(E\) 连通 \(\Rightarrow\) \(f(E)\) 连通)。在 \(\mathbb{R}\) 中,连通集恰好是区间,因此连续实值函数的像集是区间——这就是中间值性质。
3.4 单调函数的不连续点集 ⭐⭐¶
定理:单调函数 \(f: (a, b) \to \mathbb{R}\) 的不连续点集至多可数。
证明思路:设 \(f\) 单调递增。在不连续点 \(x\) 处,左极限 \(f(x^-) < f(x^+)\) 右极限(跳跃间断点)。将每个不连续点 \(x\) 对应到开区间 \((f(x^-), f(x^+))\)。由 \(f\) 单调,不同不连续点对应的开区间**互不相交**。每个非空开区间包含一个有理数(\(\mathbb{Q}\) 稠密),因此不连续点集到 \(\mathbb{Q}\) 有单射,从而至多可数。\(\square\)
这个定理说明单调函数"本质上"是连续的——不连续点很稀少(至多可数),而 \((a, b)\) 中的点是不可数的。
⚠️ 常见陷阱¶
💡 概念误区:认为"连续函数的像集一定是开集"
反例:\(f(x) = x^2\) 将开集 \((-1, 1)\) 映到 \([0, 1)\)——像集不是开集。连续映射保开集的说法是错误的。连续映射保紧、保连通,但一般**不保开**。
🧠 思维陷阱:认为"中间值定理的逆成立"
即:如果 \(f\) 满足中间值性质(取到端点之间的所有值),那么 \(f\) 连续。这是错误的。Darboux 定理指出导函数 \(f'\) 总满足中间值性质,但导函数不一定连续。
💡 概念误区:认为"连续映射保持序列的所有性质"
连续映射保持收敛性(\(x_n \to p \Rightarrow f(x_n) \to f(p)\)),但不保持 Cauchy 性(除非 \(f\) 是一致连续的)。\(f(x) = 1/x\) 将 \((0, 1)\) 中的 Cauchy 列 \(1/n\) 映为非 Cauchy 列 \(n\)。
练习¶
- (证明题)设 \(f: [a, b] \to [a, b]\) 连续。证明 \(f\) 有不动点,即存在 \(x_0 \in [a, b]\) 使 \(f(x_0) = x_0\)。(提示:考虑 \(g(x) = f(x) - x\),用中间值定理。)
- (推导题)给出一个从 \(\mathbb{R}\) 到 \(\mathbb{R}\) 的函数,它处处不连续但满足中间值性质。(提示:考虑 Conway 基函数或适当构造。)
- (开放思考题)极值定理要求 \(K\) 紧且 \(f\) 连续。能否将"连续"弱化为"上半连续"?如果可以,叙述并证明相应的结论。
§4 一致连续与半连续 ⭐¶
§3 的连续性是"逐点"的——\(\delta\) 可以依赖于点 \(p\)。本节研究更强的连续性条件:\(\delta\) 不依赖于 \(p\)(一致连续),以及更弱的条件(半连续)。
4.1 一致连续 ⭐¶
定义:\(f: (X, d_X) \to (Y, d_Y)\) 一致连续,是指:
与逐点连续的关键区别:一致连续中 \(\delta\) 只依赖于 \(\varepsilon\),不依赖于点 \(x\)。
经典反例:\(f(x) = \frac{1}{x}\) 在 \((0, 1)\) 上连续但不一致连续。因为当 \(x\) 越靠近 \(0\),函数变化越剧烈——对于固定的 \(\varepsilon\),所需的 \(\delta\) 必须随 \(x \to 0\) 而趋于 \(0\)。
定理(Heine-Cantor):紧集上的连续函数一致连续。
证明:设 \(K\) 紧,\(f: K \to Y\) 连续。反证:假设 \(f\) 不一致连续,则存在 \(\varepsilon_0 > 0\) 和序列 \(x_n, y_n \in K\),\(d_X(x_n, y_n) < \frac{1}{n}\) 但 \(d_Y(f(x_n), f(y_n)) \geq \varepsilon_0\)。\(K\) 紧,\(\{x_n\}\) 有收敛子列 \(x_{n_k} \to p\)。由 \(d_X(x_{n_k}, y_{n_k}) < \frac{1}{n_k} \to 0\),\(y_{n_k} \to p\)。由 \(f\) 在 \(p\) 连续,\(f(x_{n_k}) \to f(p)\) 且 \(f(y_{n_k}) \to f(p)\),因此 \(d_Y(f(x_{n_k}), f(y_{n_k})) \to 0\),矛盾于 \(\geq \varepsilon_0\)。\(\square\)
这就是为什么前置自测第 5 题的答案是"不可能"——\([0,1]\) 上连续函数必然一致连续,因为 \([0,1]\) 是紧集。
4.2 Lipschitz 连续与 Hölder 连续 ⭐⭐¶
定义(Lipschitz 连续):\(f: X \to Y\) 是 \(L\)-Lipschitz 的,如果存在常数 \(L \geq 0\) 使得:
最小的这样的 \(L\) 称为 Lipschitz 常数。
定义(Hölder 连续):\(f: X \to Y\) 是 \(\alpha\)-Hölder 连续的(\(0 < \alpha \leq 1\)),如果存在 \(C \geq 0\) 使得:
\(\alpha = 1\) 即 Lipschitz 连续。
连续性强弱链:
每个包含关系都是严格的,需要反例分离各层:
| 关系 | 反例 |
|---|---|
| Hölder \(\not\Rightarrow\) Lipschitz | \(f(x) = \sqrt{x}\)(\(\frac{1}{2}\)-Hölder),\(\frac{f(x)-f(0)}{x-0} = \frac{1}{\sqrt{x}} \to \infty\) |
| 一致连续 \(\not\Rightarrow\) Hölder | 需要更精细的构造(如某些 Cantor 函数) |
| 连续 \(\not\Rightarrow\) 一致连续 | \(f(x) = \sin(\frac{1}{x})\) 在 \((0, 1)\) 上 |
工程桥接:Lipschitz 条件在机器人学中无处不在。控制系统 \(\dot{x} = f(x, u)\) 中,如果 \(f\) 关于 \(x\) 是 Lipschitz 的,则 Picard-Lindelöf 定理保证初值问题有唯一解——这是控制器设计的数学前提。如果 \(f\) 不满足 Lipschitz 条件(比如 \(\dot{x} = x^{2/3}\)),解可能不唯一,控制器的行为将不可预测。在机器学习中,Lipschitz 约束也被用于稳定生成对抗网络(GAN)的训练——通过谱归一化(spectral normalization)强制判别器的 Lipschitz 常数不超过 \(1\)。
4.3 下半连续与上半连续 ⭐⭐⭐¶
动机:许多优化问题中的目标函数不是连续的,但仍然希望极值存在。半连续是比连续更弱的条件,在优化理论中扮演关键角色。
定义:\(f: X \to \overline{\mathbb{R}}\) 在 \(p\) 下半连续(lower semicontinuous, lsc),是指:
等价刻画:对任何 \(\alpha \in \mathbb{R}\),下水平集 \(\{x : f(x) \leq \alpha\}\) 是闭集。
直觉:下半连续函数"不会突然跌落"——函数值可以"跳上去"但不能"跳下来"。
定理:若 \(K\) 紧,\(f: K \to \mathbb{R}\) 下半连续,则 \(f\) 在 \(K\) 上取到下确界。
证明:令 \(m = \inf_{K} f\)。对每个 \(n\),下水平集 \(F_n = \{x \in K : f(x) \leq m + \frac{1}{n}\}\) 非空(由下确界定义)且闭(下半连续的等价刻画)。\(K\) 紧且 \(F_n\) 闭,故 \(F_n\) 紧。\(\{F_n\}\) 递减,有限交非空(每个 \(F_n\) 非空且紧),由紧集的有限交性质,\(\bigcap F_n \neq \emptyset\)。取 \(x_0 \in \bigcap F_n\),则 \(f(x_0) \leq m + \frac{1}{n}\) 对所有 \(n\),故 \(f(x_0) = m\)。\(\square\)
工程桥接:在最优控制中,代价泛函(Cost Functional)\(J: \mathcal{U} \to \mathbb{R}\) 往往只是下半连续的(而非连续的)。上述定理保证了在紧的容许控制集上,最优控制存在——这是 Tonelli 定理的预演,完整版在测度论(§100)之后展开。
⚠️ 常见陷阱¶
💡 概念误区:混淆一致连续和 Lipschitz 连续
新手经常认为两者等价。\(f(x) = \sqrt{x}\) 在 \([0, 1]\) 上一致连续(Heine-Cantor),但不是 Lipschitz 的(\(f'(x) = \frac{1}{2\sqrt{x}} \to \infty\))。Lipschitz 条件比一致连续**严格更强**。
🧠 思维陷阱:认为"只要函数有界且连续,就一致连续"
反例:\(f(x) = \sin(x^2)\) 在 \(\mathbb{R}\) 上连续且有界(\(|f| \leq 1\)),但不一致连续——当 \(x\) 很大时,函数振荡得越来越快。有界性和一致连续性是独立的性质。
💡 概念误区:认为"下半连续就是'几乎连续'"
下半连续允许函数在某些点"向上跳"(想象一个阶梯函数只有上跳没有下跳)。它比连续弱得多。但在优化中,下半连续加上紧性就足以保证极小值存在——这是一个出人意料的强结论。
练习¶
- (证明题)证明:\(f: \mathbb{R} \to \mathbb{R}\) Lipschitz \(\Rightarrow\) \(f\) 将 Cauchy 列映为 Cauchy 列。一致连续函数是否也有此性质?
- (推导题)设 \(f: [0, \infty) \to \mathbb{R}\) 一致连续,证明存在常数 \(a, b \geq 0\) 使 \(|f(x)| \leq a + bx\) 对所有 \(x \geq 0\)。
- (开放思考题)是否存在函数 \(f: \mathbb{R} \to \mathbb{R}\),同时是下半连续和上半连续的,但在某些点不连续?为什么?
§5 单变量微分学 ⭐¶
有了连续性的严格基础,现在转向微分——连续函数的"局部线性逼近"。
5.1 导数定义与基本性质 ⭐¶
动机:微分的核心思想是**局部线性逼近**——在一个点附近,用"直线"(最简单的函数)近似一个"曲线"(一般的函数)。导数 \(f'(x_0)\) 就是这条最佳逼近直线的斜率。
定义:\(f: (a, b) \to \mathbb{R}\) 在 \(x_0\) 可导,是指极限
存在(作为有限实数)。\(f'(x_0)\) 称为 \(f\) 在 \(x_0\) 的**导数**。
等价表述:\(f\) 在 \(x_0\) 可导当且仅当存在实数 \(A\) 使得
其中 \(o(h)\) 表示 \(\frac{|o(h)|}{|h|} \to 0\)。此 \(A\) 就是 \(f'(x_0)\)。这个表述更清楚地展示了导数的本质——\(f\) 在 \(x_0\) 附近被仿射函数 \(f(x_0) + A(x - x_0)\) 逼近,误差比 \(|h|\) 更小。
可导 \(\Rightarrow\) 连续:若 \(f\) 在 \(x_0\) 可导,则 \(f(x_0 + h) - f(x_0) = h \cdot \frac{f(x_0+h)-f(x_0)}{h} \to 0 \cdot f'(x_0) = 0\)。
反之不然:\(f(x) = |x|\) 在 \(x = 0\) 连续但不可导——左右极限不等:\(\lim_{h \to 0^+} \frac{|h|}{h} = 1\),\(\lim_{h \to 0^-} \frac{|h|}{h} = -1\)。几何上,\(|x|\) 在原点有"尖角"——不存在唯一的切线。
更极端的例子——Weierstrass 函数是**处处连续但无处可导**的。其构造在 §7 一致收敛中给出。这个反例在 1872 年由 Weierstrass 构造,颠覆了当时数学家"连续函数处处可导(除个别点外)"的普遍信念。
基本求导法则:设 \(f, g\) 在 \(x_0\) 可导。 - 线性性:\((af + bg)' = af' + bg'\) - 乘积法则(Leibniz):\((fg)' = f'g + fg'\) - 商法则:\((\frac{f}{g})' = \frac{f'g - fg'}{g^2}\)(\(g(x_0) \neq 0\)) - 链式法则:\((g \circ f)'(x_0) = g'(f(x_0)) \cdot f'(x_0)\)
乘积法则的证明:\(\frac{f(x+h)g(x+h) - f(x)g(x)}{h} = f(x+h) \cdot \frac{g(x+h)-g(x)}{h} + g(x) \cdot \frac{f(x+h)-f(x)}{h}\)。由 \(f\) 可导 \(\Rightarrow\) \(f\) 连续 \(\Rightarrow\) \(f(x+h) \to f(x)\),取极限即得。
**链式法则的证明**需要小心处理 \(f(x_0 + h) - f(x_0) = 0\) 的情况(此时不能直接写 \(\frac{g(f(x+h))-g(f(x))}{f(x+h)-f(x)} \cdot \frac{f(x+h)-f(x)}{h}\))。标准做法是引入辅助函数:定义
则 \(\psi\) 在 \(0\) 连续,且 \(g(f(x_0+h)) - g(f(x_0)) = \psi(f(x_0+h)-f(x_0)) \cdot (f(x_0+h)-f(x_0))\)。除以 \(h\) 取极限即得链式法则。
Darboux 定理(导函数的中间值性质):即使 \(f'\) 不连续,\(f'\) 仍然满足中间值性质——若 \(f'(a) < c < f'(b)\),则存在 \(\xi \in (a, b)\) 使 \(f'(\xi) = c\)。证明利用极值定理应用于 \(g(x) = f(x) - cx\)。这说明导函数虽然可以不连续,但不能有"跳跃间断点"。
5.2 中值定理链 ⭐⭐¶
这是实分析中最重要的定理链之一:Rolle \(\to\) Lagrange \(\to\) Cauchy。每一步都建立在前一步之上。
定理(Rolle 定理):若 \(f: [a, b] \to \mathbb{R}\) 连续,在 \((a, b)\) 可导,且 \(f(a) = f(b)\),则存在 \(c \in (a, b)\) 使 \(f'(c) = 0\)。
证明:由极值定理(§3.2),\(f\) 在 \([a, b]\) 上取到最大值 \(M\) 和最小值 \(m\)。若 \(M = m\),则 \(f\) 为常数,\(f' \equiv 0\)。若 \(M \neq m\),由 \(f(a) = f(b)\),\(M\) 和 \(m\) 中至少有一个在 \((a, b)\) 的内点 \(c\) 取到。在极值点处,\(f'(c)\) 存在且为 \(0\)(Fermat 引理:内部极值点处导数为零——因为左右单侧导数异号)。\(\square\)
定理(Lagrange 中值定理):若 \(f: [a, b] \to \mathbb{R}\) 连续,在 \((a, b)\) 可导,则存在 \(c \in (a, b)\) 使得:
证明:构造辅助函数 \(g(x) = f(x) - \frac{f(b) - f(a)}{b - a}(x - a)\)。验证 \(g(a) = f(a), g(b) = f(a)\)(即 \(g(a) = g(b)\)),由 Rolle 定理存在 \(c\) 使 \(g'(c) = 0\),即 \(f'(c) = \frac{f(b)-f(a)}{b-a}\)。\(\square\)
类比:中值定理说"平均速度等于某时刻的瞬时速度"。如果你从 A 城开车到 B 城,平均速度是 80 km/h,那么旅途中**至少有一个时刻**你的瞬时速度恰好是 80 km/h。这个类比在一维情况下是精确的,但注意在多维情况(\(f: \mathbb{R}^n \to \mathbb{R}^n\))中,中值定理**不成立**——这是一个重要的区别。
定理(Cauchy 中值定理):若 \(f, g: [a, b] \to \mathbb{R}\) 连续,在 \((a, b)\) 可导,\(g'(x) \neq 0\) 对所有 \(x \in (a, b)\),则存在 \(c \in (a, b)\) 使得:
证明:令 \(h(x) = f(x) - \frac{f(b)-f(a)}{g(b)-g(a)} \cdot g(x)\),验证 \(h(a) = h(b)\),用 Rolle 定理。(注意 \(g(b) \neq g(a)\),否则由 Rolle 定理 \(g'\) 有零点,矛盾。)\(\square\)
5.3 L'Hôpital 法则 ⭐⭐¶
动机:当直接代入导致 \(\frac{0}{0}\) 或 \(\frac{\infty}{\infty}\) 时,极限的计算需要更精细的工具。L'Hôpital 法则将函数极限的问题转化为导数极限的问题。
定理(L'Hôpital,\(0/0\) 型):设 \(f, g\) 在 \((a, b)\) 可导,\(g'(x) \neq 0\),\(\lim_{x \to a^+} f(x) = \lim_{x \to a^+} g(x) = 0\)。若 \(\lim_{x \to a^+} \frac{f'(x)}{g'(x)} = L\)(\(L\) 可为 \(\pm\infty\)),则 \(\lim_{x \to a^+} \frac{f(x)}{g(x)} = L\)。
证明(利用 Cauchy MVT):定义 \(f(a) = g(a) = 0\)(使 \(f, g\) 在 \([a, x]\) 连续)。对 \(x \in (a, b)\),由 Cauchy MVT 存在 \(c_x \in (a, x)\) 使 \(\frac{f(x)}{g(x)} = \frac{f(x)-f(a)}{g(x)-g(a)} = \frac{f'(c_x)}{g'(c_x)}\)。当 \(x \to a^+\) 时 \(c_x \to a^+\)(因为 \(c_x \in (a, x)\)),故 \(\frac{f(x)}{g(x)} \to L\)。\(\square\)
\(\infty/\infty\) 型:类似但证明更复杂——需要利用 Cauchy MVT 和极限的定义更精细地控制。设 \(f(x), g(x) \to +\infty\),\(\frac{f'(x)}{g'(x)} \to L\)。对任意 \(\varepsilon > 0\),取 \(c\) 使 \(x > c\) 时 \(|f'(x)/g'(x) - L| < \varepsilon\)。对 \(x > y > c\),由 Cauchy MVT,\(\frac{f(x)-f(y)}{g(x)-g(y)} = \frac{f'(\xi)}{g'(\xi)}\)(\(\xi \in (y, x)\)),故此比值在 \((L-\varepsilon, L+\varepsilon)\) 内。令 \(x \to \infty\)(\(y\) 固定),\(\frac{f(x)}{g(x)} \cdot \frac{1 - f(y)/f(x)}{1 - g(y)/g(x)} \in (L-\varepsilon, L+\varepsilon)\),由 \(f, g \to \infty\) 得 \(\frac{f(x)}{g(x)} \to L\)。
常见误用:对 \(\frac{f'(x)}{g'(x)}\) 极限不存在的情况,L'Hôpital 法则**无结论**(不是说原极限不存在)。例如 \(\frac{x + \sin x}{x}\) 的极限存在(\(= 1\)),但 \(\frac{1 + \cos x}{1}\) 极限不存在。这说明 L'Hôpital 法则的**逆命题不成立**。
反事实推理:如果没有 \(g'(x) \neq 0\) 的条件会怎样?此条件保证 \(g(x)\) 在 \((a, b)\) 上严格单调(因此 \(g(x) \neq g(y)\) 对 \(x \neq y\)),使 Cauchy MVT 可以应用。去掉此条件,\(g\) 可能在 \(a\) 附近振荡,\(\frac{f}{g}\) 的极限行为可以是任意的。
5.4 Taylor 定理与余项 ⭐⭐¶
定理(Taylor 定理,Lagrange 余项):设 \(f \in C^{n+1}([a, b])\)(即 \(f\) 有 \(n+1\) 阶连续导数),\(x_0 \in [a, b]\)。则对 \(x \in [a, b]\):
其中 Lagrange 余项为
\(\xi\) 在 \(x_0\) 与 \(x\) 之间。
证明(用 Rolle 定理的归纳应用):定义
选 \(C\) 使 \(F(x_0) = 0\)(即 \(C = R_n(x)/(x-x_0)^{n+1}\))。直接代入 \(t = x\) 可验证 \(F(x) = 0\)(级数在 \(t=x\) 时除 \(k=0\) 项外全为零)。由 Rolle 定理,存在 \(\xi\) 使 \(F'(\xi) = 0\)。计算 \(F'(t)\)(展开后大量抵消),得到所求余项公式。\(\square\)
**Cauchy 余项**和**积分余项**提供了不同形式的误差估计。积分余项为:
它的优势在于可以直接估计余项大小,且不涉及"某个未知点 \(\xi\)"。
工程桥接:非线性动力系统 \(\dot{x} = f(x, u)\) 在平衡点 \((x^*, u^*)\) 处的 Taylor 展开 \(\dot{x} \approx A(x - x^*) + B(u - u^*)\)(其中 \(A = \frac{\partial f}{\partial x}\),\(B = \frac{\partial f}{\partial u}\))就是 Jacobian 线性化。Taylor 余项的大小决定了线性化的适用范围——这是 LQR 控制器设计的数学基础。
⚠️ 常见陷阱¶
💡 概念误区:认为"\(f^{(n)}(x_0) = 0\) 对所有 \(n\) 意味着 \(f \equiv 0\)"
反例:\(f(x) = e^{-1/x^2}\)(\(x \neq 0\)),\(f(0) = 0\)。这个函数 \(f^{(n)}(0) = 0\) 对所有 \(n\),但 \(f\) 不恒为零。它在 \(0\) 处的 Taylor 级数恒为 \(0\),但函数本身不是零——Taylor 级数不收敛到函数值。这种函数叫做"在 \(0\) 处不解析(non-analytic)"。
🧠 思维陷阱:认为"中值定理可以推广到向量值函数"
\(f: [a,b] \to \mathbb{R}^n\)(\(n \geq 2\))不满足 Lagrange 中值定理。反例:\(f(t) = (\cos t, \sin t)\),\(f(0) = f(2\pi) = (1, 0)\),但不存在 \(c\) 使 \(f'(c) = 0\)(因为 \(|f'(t)| = 1 \neq 0\))。多维替代品是 MVT 不等式 \(\|f(b)-f(a)\| \leq \sup \|f'(c)\| \cdot (b-a)\)。
练习¶
- (推导题)从 Cauchy 中值定理推导 \(\infty/\infty\) 型 L'Hôpital 法则。
- (证明题)证明 Taylor 定理的积分余项形式:\(R_n(x) = \frac{1}{n!}\int_{x_0}^{x} f^{(n+1)}(t)(x-t)^n dt\)。(提示:对 \(n\) 归纳,使用分部积分。)
- (开放思考题)Lagrange 余项中的 \(\xi\) 依赖于 \(x\) 和 \(n\)。随着 \(n \to \infty\),\(\xi\) 是否有确定的极限行为?试对 \(f(x) = e^x\) 做具体分析。
§6 Riemann-Stieltjes 积分 ⭐⭐¶
本节选择 Riemann-Stieltjes 积分而非纯 Riemann 积分,是因为 R-S 积分直接为测度论(§100)铺路,并服务于概率论中对分布函数的积分。
6.1 动机:为什么不只学 Riemann 积分¶
Riemann 积分 \(\int_a^b f(x) \, dx\) 以"均匀切分"的长度 \(\Delta x_i\) 为权重。但在许多应用中,权重不是均匀的:
- 概率论:期望 \(E[g(X)] = \int g(x) \, dF(x)\),其中 \(F\) 是累积分布函数——可以是离散的、连续的或混合的
- 物理学:质量分布可能集中在某些点上(点质量),力矩计算需要对质量分布积分
- 信号处理:离散采样信号和连续信号的统一描述
Riemann-Stieltjes 积分 \(\int_a^b f \, d\alpha\) 允许积分子 \(\alpha\) 是任意单调递增函数,统一处理上述所有情况。当 \(\alpha(x) = x\) 时退化为 Riemann 积分。当 \(\alpha\) 是阶梯函数时,积分退化为离散求和。
"不是 Riemann 积分的推广,而是求和与积分的统一"——这是 R-S 积分最正确的理解。在测度论(§100)中,这种统一将被进一步推广为对一般测度的积分。
历史注记:Stieltjes 在 1894 年引入这种积分来处理矩问题(moment problem)。Riemann 积分(1854)在 Stieltjes 积分中是特殊情况。Lebesgue 积分(1902)又是 Stieltjes 积分在一般测度上的推广。
6.2 定义与可积性 ⭐⭐¶
定义:设 \(f: [a, b] \to \mathbb{R}\) 有界,\(\alpha: [a, b] \to \mathbb{R}\) 单调递增。分划 \(P = \{a = x_0 < x_1 < \cdots < x_n = b\}\)。定义
其中 \(M_i = \sup_{[x_{i-1}, x_i]} f\),\(m_i = \inf_{[x_{i-1}, x_i]} f\),\(\Delta\alpha_i = \alpha(x_i) - \alpha(x_{i-1})\)。
\(f\) 关于 \(\alpha\) 在 \([a, b]\) 上 Riemann-Stieltjes 可积,是指
此公共值记为 \(\int_a^b f \, d\alpha\)。
Cauchy 可积性判据:\(f \in \mathscr{R}(\alpha)\)(\(f\) 关于 \(\alpha\) 可积)当且仅当
定理:\(f\) 在 \([a, b]\) 上连续,\(\alpha\) 单调递增 \(\Rightarrow\) \(f \in \mathscr{R}(\alpha)\)。
证明:\([a, b]\) 紧,\(f\) 连续 \(\Rightarrow\) \(f\) 一致连续(Heine-Cantor)。对 \(\varepsilon > 0\),取 \(\delta\) 使 \(|x - y| < \delta \Rightarrow |f(x) - f(y)| < \frac{\varepsilon}{\alpha(b) - \alpha(a) + 1}\)。取分划 \(P\) 使 \(\Delta x_i < \delta\)。则 \(M_i - m_i < \frac{\varepsilon}{\alpha(b)-\alpha(a)+1}\),故
\(\square\)
6.3 积分的基本性质 ⭐¶
线性:\(\int (af + bg) \, d\alpha = a\int f \, d\alpha + b\int g \, d\alpha\)。
区间可加:\(\int_a^c f \, d\alpha = \int_a^b f \, d\alpha + \int_b^c f \, d\alpha\)(\(a < b < c\))。
换积分子:若 \(\alpha\) 可微且 \(\alpha'\) 连续,则 \(\int_a^b f \, d\alpha = \int_a^b f(x) \alpha'(x) \, dx\)。这将 R-S 积分化为普通 Riemann 积分。
估值定理:若 \(m \leq f(x) \leq M\),则 \(m(\alpha(b)-\alpha(a)) \leq \int_a^b f \, d\alpha \leq M(\alpha(b)-\alpha(a))\)。
6.4 微积分基本定理 ⭐⭐¶
定理(FTC Part I):设 \(f \in \mathscr{R}(\alpha)\)(\(\alpha(x) = x\),即 Riemann 积分),定义 \(F(x) = \int_a^x f(t) \, dt\)。若 \(f\) 在 \(x_0\) 连续,则 \(F\) 在 \(x_0\) 可导且 \(F'(x_0) = f(x_0)\)。
证明:对 \(h > 0\),
由 \(f\) 在 \(x_0\) 连续:\(\forall \varepsilon > 0, \exists \delta > 0, |t - x_0| < \delta \Rightarrow |f(t) - f(x_0)| < \varepsilon\)。当 \(0 < h < \delta\):
\(\square\)
定理(FTC Part II):设 \(f = g'\) 在 \([a, b]\) 上连续。则 \(\int_a^b f(x) \, dx = g(b) - g(a)\)。
证明:由 FTC I,\(F(x) = \int_a^x f(t) \, dt\) 满足 \(F' = f = g'\)。因此 \((F - g)' = 0\) 在 \((a, b)\) 上成立。由中值定理,\(F - g\) 为常数 \(c\)。\(F(a) = 0\),故 \(c = -g(a)\),\(F(b) = g(b) + c = g(b) - g(a)\)。\(\square\)
本质洞察:FTC 是微分和积分这两个看似不相关的操作之间的深层联系——微分和积分互为逆运算。这不是"显然的",它依赖于实数的完备性(确保 \(F(x) = \int_a^x f\) 是良定义的)和中值定理(确保 \(F' = f\))。从信息论的角度看,FTC 说"函数的全局行为(积分)可以从局部行为(导数)完全恢复"。
6.5 积分中值定理 ⭐⭐¶
第一中值定理:若 \(f\) 在 \([a, b]\) 上连续,\(\alpha\) 单调递增,则存在 \(\xi \in [a, b]\) 使得
证明:由 §3.2 极值定理,\(f\) 取到最小值 \(m\) 和最大值 \(M\)。由估值定理,\(m[\alpha(b)-\alpha(a)] \leq \int f \, d\alpha \leq M[\alpha(b)-\alpha(a)]\)。若 \(\alpha(b) = \alpha(a)\),等式平凡成立。否则 \(m \leq \frac{\int f \, d\alpha}{\alpha(b)-\alpha(a)} \leq M\),由中间值定理(§3.3),存在 \(\xi\) 使 \(f(\xi)\) 等于该中间值。\(\square\)
第二中值定理(需要 Abel 求和法):若 \(f\) 在 \([a, b]\) 上单调,\(g\) 连续,则存在 \(\xi \in [a, b]\) 使得
6.6 分部积分与变量替换 ⭐¶
分部积分:\(\int_a^b f \, dg = f(b)g(b) - f(a)g(a) - \int_a^b g \, df\)(在 R-S 积分框架下,双方只要一边存在,另一边也存在)。
这个公式的证明基于 Darboux 和的恒等式,并利用加细分划的极限过程。
变量替换:若 \(\phi: [\alpha, \beta] \to [a, b]\) 严格递增且可微,\(f \in \mathscr{R}[a, b]\),则
证明思路:设 \(F(x) = \int_a^x f(u) \, du\)。由 FTC,\(F' = f\)(在 \(f\) 连续点处)。令 \(G(t) = F(\phi(t))\),由链式法则 \(G'(t) = f(\phi(t)) \phi'(t)\)。再由 FTC Part II,\(\int_\alpha^\beta G'(t) \, dt = G(\beta) - G(\alpha) = F(b) - F(a) = \int_a^b f(x) \, dx\)。\(\square\)
⚠️ 常见陷阱¶
💡 概念误区:认为"R-S 积分只是 Riemann 积分的微小推广"
R-S 积分的核心优势是:统一处理离散和连续的"权重"。当 \(\alpha\) 是阶梯函数(在 \(c_k\) 处跳跃 \(w_k\)),\(\int f \, d\alpha = \sum f(c_k) w_k\)——这就是离散求和。R-S 积分将求和与积分统一为同一个框架。
🧠 思维陷阱:认为"FTC 对所有可积函数成立"
FTC Part I 要求 \(f\) 在 \(x_0\) 连续——如果 \(f\) 在 \(x_0\) 不连续,\(F\) 在 \(x_0\) 可能不可导。FTC Part II 要求 \(f = g'\) 连续——如果 \(g'\) 存在但不连续,需要更精细的分析(Lebesgue 积分的 FTC,见 §100)。
练习¶
- (推导题)设 \(\alpha\) 是阶梯函数,在 \(c_1, c_2, \ldots, c_m\) 处分别有跳跃量 \(w_1, \ldots, w_m\)。证明 \(\int_a^b f \, d\alpha = \sum_{k=1}^{m} f(c_k) w_k\)(假设 \(f\) 在跳跃点连续)。
- (证明题)推导 R-S 积分的分部积分公式。
- (开放思考题)对于 R-S 积分 \(\int_0^1 f \, d\alpha\),当 \(\alpha\) 是 Cantor 函数("魔鬼阶梯")时,积分有什么特殊行为?
§7 函数序列与级数 · 一致收敛 ⭐⭐¶
§2 研究了数列,§5-§6 研究了单个函数。本节将两者结合——研究函数序列的收敛性。一致收敛是将逐点分析提升为全局分析的关键概念。
7.1 逐点收敛 vs 一致收敛 ⭐¶
定义(逐点收敛):函数序列 \(\{f_n\}\) **逐点收敛**到 \(f\),是指对每个 \(x\),\(f_n(x) \to f(x)\):
注意 \(N\) 可以依赖于 \(x\)。
定义(一致收敛):\(\{f_n\}\) **一致收敛**到 \(f\)(记 \(f_n \rightrightarrows f\)),是指:
\(N\) 不依赖于 \(x\)。等价刻画:\(\|f_n - f\|_\infty = \sup_x |f_n(x) - f(x)| \to 0\)。
经典反例:\(f_n(x) = x^n\) 在 \([0, 1]\) 上。逐点极限为 \(f(x) = 0\)(\(x < 1\)),\(f(1) = 1\)。每个 \(f_n\) 连续,但极限 \(f\) 不连续——这说明逐点收敛**不保持连续性**。\(\|f_n - f\|_\infty = \sup_{[0,1]} |x^n - f(x)| = 1\)(在 \(x\) 接近 \(1\) 处),因此收敛不一致。
类比:逐点收敛就像"每个学生各自通过考试"(每人有自己的准备时间),一致收敛就像"全班同时通过考试"(有统一的截止时间)。前者允许个别学生准备很久,后者要求所有人在同一时间点之后都合格。这个类比在"\(N\) 是否依赖于 \(x\)"的层面是精确的。
7.2 一致收敛的 Cauchy 准则 ⭐⭐¶
定理:\(\{f_n\}\) 在 \(E\) 上一致收敛 \(\Leftrightarrow\) \(\{f_n\}\) 在 \(E\) 上一致 Cauchy:
证明:\(\Rightarrow\):由一致收敛,\(\sup |f_n - f| \to 0\),故 \(\sup |f_n - f_m| \leq \sup |f_n - f| + \sup |f_m - f| \to 0\)。
\(\Leftarrow\):对每个 \(x\),\(\{f_n(x)\}\) 是 \(\mathbb{R}\) 中 Cauchy 列,由 \(\mathbb{R}\) 完备收敛到某个 \(f(x)\)。在 \(|f_n(x) - f_m(x)| < \varepsilon\)(对所有 \(x\),\(n, m \geq N\))中令 \(m \to \infty\),得 \(|f_n(x) - f(x)| \leq \varepsilon\)(对所有 \(x\),\(n \geq N\)),即一致收敛。\(\square\)
这个结果为 §16 中 \(C(X)\) 的完备性奠定基础。
7.3 一致收敛保持的性质 ⭐⭐¶
这三个定理是一致收敛理论的核心:
定理 1(保持连续性):\(f_n\) 连续,\(f_n \rightrightarrows f\) \(\Rightarrow\) \(f\) 连续。
证明(\(\varepsilon/3\) 论证):对 \(\varepsilon > 0\),取 \(N\) 使 \(\sup |f_N - f| < \varepsilon/3\)。\(f_N\) 在 \(p\) 连续,取 \(\delta\) 使 \(d(x, p) < \delta \Rightarrow |f_N(x) - f_N(p)| < \varepsilon/3\)。则
\(\square\)
定理 2(保持积分):\(f_n \in \mathscr{R}(\alpha)\),\(f_n \rightrightarrows f\) \(\Rightarrow\) \(f \in \mathscr{R}(\alpha)\) 且
即"极限与积分可交换"。
证明:由 \(\sup |f_n - f| \to 0\),\(|f(x) - f_n(x)| < \varepsilon\) 对所有 \(x\)(\(n\) 足够大)。\(f\) 有界(\(f_n\) 有界 + 一致接近),且 \(f\) 的振幅控制在 \(f_n\) 的振幅加 \(2\varepsilon\) 以内——由此推出 \(f\) 可积。积分的估计:\(|\int f \, d\alpha - \int f_n \, d\alpha| \leq \int |f - f_n| \, d\alpha \leq \varepsilon \cdot (\alpha(b) - \alpha(a)) \to 0\)。\(\square\)
定理 3(保持微分,带额外条件):设 \(f_n\) 在 \((a, b)\) 上可导,\(f_n'\) 一致收敛到某函数 \(g\),且存在 \(x_0 \in (a, b)\) 使 \(\{f_n(x_0)\}\) 收敛。则 \(f_n\) 一致收敛到某 \(f\),\(f\) 可导且 \(f' = g\)。
注意条件的微妙之处:不是 \(f_n\) 一致收敛就够,需要的是 \(f_n'\) 一致收敛。
反事实推理:如果只要求 \(f_n \rightrightarrows f\) 而不要求 \(f_n' \rightrightarrows g\),能否交换极限和导数?不能。反例:\(f_n(x) = \frac{\sin(nx)}{\sqrt{n}}\) 一致收敛到 \(0\),但 \(f_n'(x) = \sqrt{n}\cos(nx)\) 在几乎所有点发散。
7.4 Weierstrass M-判别法 ⭐¶
定理:设 \(\{f_n\}\) 是定义在 \(E\) 上的函数序列,\(|f_n(x)| \leq M_n\) 对所有 \(x \in E\)。若 \(\sum M_n\) 收敛,则 \(\sum f_n\) 在 \(E\) 上一致收敛(且绝对收敛)。
证明:\(|\sum_{k=m}^{n} f_k(x)| \leq \sum_{k=m}^{n} M_k\)。\(\sum M_n\) 收敛意味着右侧趋于 \(0\)(Cauchy),因此 \(\sum f_n\) 的部分和一致 Cauchy,由 §7.2 一致收敛。\(\square\)
应用:Weierstrass 处处连续无处可导函数
由 \(|a^n \cos(b^n \pi x)| \leq a^n\) 且 \(\sum a^n < \infty\),Weierstrass M-判别法保证 \(W\) 一致收敛,因此连续。但不可导的证明要精细得多——核心思想是高频项 \(\cos(b^n \pi x)\) 的振荡掩盖了低频项的贡献。
本质洞察:Weierstrass 函数打破了"连续函数应该'几乎处处'可导"的直觉。事实上,在某种测度论意义下,"大部分"连续函数都是处处不可导的——可导函数反而是例外。这个惊人的事实在 §100 测度论之后才能严格表述。
7.5 幂级数 ⭐¶
定理(Cauchy-Hadamard):幂级数 \(\sum a_n x^n\) 的收敛半径为
(约定 \(1/0 = +\infty\),\(1/\infty = 0\)。)
在 \(|x| < R\) 内绝对收敛,\(|x| > R\) 发散。在 \([-r, r]\)(\(0 < r < R\))上一致收敛。
Abel 定理:若 \(\sum a_n\) 收敛,则 \(\lim_{x \to 1^-} \sum a_n x^n = \sum a_n\)。这保证了幂级数在收敛区间端点的"连续延拓"——即便端点处的收敛可能只是条件收敛。
证明思路:设 \(f(x) = \sum a_n x^n\)(\(|x| < 1\))。令 \(s = \sum a_n\)。需证 \(f(x) \to s\)(\(x \to 1^-\))。利用 Abel 求和法:\(f(x) = (1-x) \sum_{n=0}^{\infty} S_n x^n\)(其中 \(S_n = \sum_{k=0}^{n} a_k\))。由 \(S_n \to s\),\((1-x) \sum S_n x^n \to s\)(Cesàro 求和的连续版本)。\(\square\)
经典应用:\(\sum_{n=1}^{\infty} \frac{(-1)^{n+1}}{n} = \ln 2\)。这个等式的严格证明需要 Abel 定理——因为该级数只是条件收敛。在 \(|x| < 1\) 内 \(\sum \frac{(-1)^{n+1}}{n} x^n = \ln(1+x)\)(逐项积分 \(\sum (-x)^n = \frac{1}{1+x}\)),由 Abel 定理令 \(x \to 1^-\) 得到等式。
逐项微分与积分:在收敛半径内,幂级数可逐项微分和积分,且微分/积分后的级数收敛半径不变。
具体而言:若 \(f(x) = \sum a_n x^n\)(\(|x| < R\)),则 - \(f'(x) = \sum n a_n x^{n-1}\)(\(|x| < R\)),收敛半径仍为 \(R\) - \(\int_0^x f(t) \, dt = \sum \frac{a_n}{n+1} x^{n+1}\)(\(|x| < R\)),收敛半径仍为 \(R\)
这使得幂级数成为计算导数和积分的强大工具——将无穷求和与微积分操作"交换"。
7.6 实解析函数 vs \(C^\infty\) ⭐⭐¶
一个 \(C^\infty\)(光滑)函数是否一定等于它的 Taylor 级数?不一定。 这是实分析中最出人意料的现象之一。
反例:\(f(x) = e^{-1/x^2}\)(\(x \neq 0\)),\(f(0) = 0\)。可以证明 \(f^{(n)}(0) = 0\) 对所有 \(n\)——每次求导后,\(e^{-1/x^2}\) 衰减得比任何 \(x^k\) 都快。因此 \(f\) 在 \(0\) 处的 Taylor 级数是 \(0 + 0 + 0 + \cdots = 0\),但 \(f\) 本身对 \(x \neq 0\) 不为零。
为什么会这样? Taylor 级数收敛到 \(f\) 需要余项 \(R_n(x) \to 0\)(当 \(n \to \infty\)),而这个条件可能在某些点不满足。对 \(e^{-1/x^2}\),虽然每个 Taylor 系数都是 \(0\),函数的"信息"全部隐藏在余项中。
定义:函数 \(f\) 在 \(x_0\) 处**实解析(real analytic)**,如果在 \(x_0\) 的某邻域内 \(f\) 等于它的 Taylor 级数,即存在 \(r > 0\) 使得
连续性强弱链的延伸:
每个包含关系都是严格的。\(e^{-1/x^2}\) 分离了实解析和 \(C^\infty\)。
实解析和 \(C^\infty\) 的区分在 §9 Stone-Weierstrass 中变得重要——Stone-Weierstrass 定理说多项式可以一致逼近连续函数,但不等于它。在微分流形理论中,\(C^\infty\) 流形和实解析流形是不同的范畴。
有趣的事实:在复分析中,\(C^1\)(复可微)就意味着解析——不需要额外假设。这是实分析和复分析最深刻的区别之一。\(e^{-1/z^2}\) 在 \(z = 0\) 有本性奇点,不是全纯的——复变量的情况完全不同。
⚠️ 常见陷阱¶
💡 概念误区:混淆"逐点收敛"和"一致收敛"
两者的区别看似只是量词顺序的差别(\(\forall x, \exists N\) vs \(\exists N, \forall x\)),但后果天壤之别。逐点收敛不保持连续性、不保持积分——在分析学中几乎"无用"。一致收敛才是有力的工具。
🧠 思维陷阱:认为"幂级数在收敛圆上的行为统一"
幂级数在收敛半径 \(R\) 处的行为可以是:收敛、条件收敛、发散。例如 \(\sum x^n/n\) 在 \(x = -1\) 收敛(交错级数),在 \(x = 1\) 发散(调和级数)。收敛圆上的行为需要逐个判断。
练习¶
- (证明题)证明一致收敛保持连续性的定理(定理 1),用序列定义替代 \(\varepsilon\)-\(\delta\) 语言重新写出证明。
- (推导题)计算 \(\sum_{n=1}^{\infty} \frac{x^n}{n}\) 的收敛半径和在端点的收敛性。在 \((-1, 1)\) 内,对该级数逐项微分得到什么?
- (开放思考题)Weierstrass M-判别法的条件能否弱化?即是否存在 \(\sum f_n\) 一致收敛但不满足 M-判别法条件的例子?
§8 等度连续与 Arzelà-Ascoli 定理 ⭐⭐⭐¶
§7 研究了函数序列的收敛。本节回答一个更深的问题:什么条件下函数序列有收敛子列?这是函数空间中的"紧致性"。
8.1 动机:函数空间中的 Bolzano-Weierstrass¶
回顾 §1 的 BW 定理:\(\mathbb{R}^n\) 中有界序列有收敛子列。能否将此推广到函数空间 \(C([0, 1])\)?
直接推广是**不成立的**——在无穷维空间中,有界不蕴含紧。这是有限维和无穷维空间最深刻的区别之一。
反例 1:\(f_n(x) = \sin(nx)\) 在 \(C([0, 1])\) 中有界(\(\|f_n\|_\infty = 1\)),但没有一致收敛的子列。证明:对 \(n \neq m\),取 \(x_0\) 使 \(\sin(nx_0) = 1\) 且 \(\sin(mx_0) = -1\)(通过适当选取)——这给出 \(\|f_n - f_m\|_\infty \geq 2\)。实际上只需证明不存在 Cauchy 子列就够了。
反例 2:\(f_n(x) = x^n\) 在 \(C([0, 1])\) 中有界(\(\|f_n\|_\infty = 1\)),其逐点极限是不连续函数——因此没有任何子列在 \(C([0, 1])\) 中收敛(一致收敛保持连续性)。
为什么有界不够? 在 \(\mathbb{R}^n\) 中,BW 定理的证明依赖于"逐坐标取子列"——有限维意味着有限步完成。在无穷维空间中,函数有"无穷多个自由度"——单纯的有界性无法控制所有自由度。
需要额外条件——**等度连续性**就是缺失的那块拼图。它控制的恰恰是"不同点处的函数值不能变化太快"——限制了函数的"自由度"。
8.2 等度连续性 ⭐⭐¶
定义:函数族 \(\mathcal{F} \subseteq C(X, Y)\) 在 \(p \in X\) 等度连续,是指:
关键:\(\delta\) 不依赖于 \(f\)——整个函数族共享同一个 \(\delta\)。
类比:如果每个函数的连续性像"每个人各自的步速",那么等度连续就是"全队的最低步速保证"——整个团队都能以统一的精度响应输入变化。这个类比在"\(\delta\) 的统一性"层面准确,但注意等度连续不要求函数值相近(那是逐点有界)。
8.3 Arzelà-Ascoli 定理 ⭐⭐⭐¶
定理(Arzelà-Ascoli):设 \((X, d)\) 是紧致度量空间,\(\mathcal{F} \subseteq C(X, \mathbb{R})\)。则 \(\mathcal{F}\) 在 \((C(X), \|\cdot\|_\infty)\) 中**相对紧**(即 \(\overline{\mathcal{F}}\) 紧,等价于每个序列有一致收敛的子列)当且仅当: 1. 逐点有界:对每个 \(x \in X\),\(\{f(x) : f \in \mathcal{F}\}\) 有界 2. 等度连续
证明(充分性,即条件 \(\Rightarrow\) 相对紧):
Step 1:\(X\) 紧致度量空间有**可数稠密子集** \(\{x_k\}_{k=1}^{\infty}\)(可分性)。
Step 2(Cantor 对角线法):设 \(\{f_n\}\) 是 \(\mathcal{F}\) 中的序列。在 \(x_1\) 处,\(\{f_n(x_1)\}\) 有界,由 BW 取收敛子列 \(\{f_{n_k^{(1)}}\}\) 使 \(f_{n_k^{(1)}}(x_1)\) 收敛。在 \(x_2\) 处,从 \(\{f_{n_k^{(1)}}\}\) 中再取子列使其在 \(x_2\) 也收敛。如此继续。取"对角线"子列 \(g_k = f_{n_k^{(k)}}\)——它在每个 \(x_j\) 上都收敛。
Step 3(等度连续 + 稠密性 \(\Rightarrow\) 一致收敛):对 \(\varepsilon > 0\),由等度连续取 \(\delta\) 使 \(d(x, y) < \delta \Rightarrow |f(x) - f(y)| < \varepsilon/3\) 对所有 \(f \in \mathcal{F}\)。\(X\) 紧,取有限个 \(\delta\)-球覆盖 \(X\),球心在 \(\{x_k\}\) 中选取,设为 \(x_{k_1}, \ldots, x_{k_m}\)。\(\{g_n\}\) 在这有限个点上收敛,取 \(N\) 使 \(n, p \geq N \Rightarrow |g_n(x_{k_j}) - g_p(x_{k_j})| < \varepsilon/3\) 对所有 \(j\)。对任意 \(x \in X\),取 \(x_{k_j}\) 使 \(d(x, x_{k_j}) < \delta\):
因此 \(\{g_n\}\) 一致 Cauchy,由 §7.2 一致收敛。\(\square\)
阶段小结:Arzelà-Ascoli 定理是无穷维空间中 BW 定理的正确推广。有界性需要替换为"逐点有界 + 等度连续"——前者控制"函数值不会跑太远",后者控制"函数不会振荡太快"。
工程桥接:在最优控制中,一族满足 Lipschitz 界的容许控制所对应的状态轨迹——由 Arzelà-Ascoli 定理——在 \(C([0,T], \mathbb{R}^n)\) 中预紧。这保证了最优轨迹的存在(取子列极限),是 Pontryagin 最大值原理的前置工具。
⚠️ 常见陷阱¶
💡 概念误区:认为"逐点有界就够了"
逐点有界但不等度连续的函数族可以没有收敛子列——前面的 \(\sin(nx)\) 例子就是如此。等度连续是不可省略的条件。
🧠 思维陷阱:混淆"等度连续"和"一致连续"
一致连续是单个函数的性质(\(\delta\) 不依赖于 \(x\)),等度连续是函数族的性质(\(\delta\) 不依赖于 \(f\))。一个函数一致连续不意味着包含它的函数族等度连续。
练习¶
- (证明题)证明 Arzelà-Ascoli 定理的必要性:如果 \(\mathcal{F}\) 相对紧,则 \(\mathcal{F}\) 逐点有界且等度连续。
- (推导题)设 \(K\) 是紧度量空间上的连续核函数,定义积分算子 \(Tf(x) = \int K(x, y) f(y) \, dy\)。用 Arzelà-Ascoli 定理证明 \(T\) 将有界集映到相对紧集。
§9 Stone-Weierstrass 定理 ⭐⭐⭐¶
§8 回答了"何时有收敛子列",本节回答"何种函数能被逼近"——逼近理论的核心。
9.1 动机与 Weierstrass 逼近定理 ⭐⭐¶
经典问题:连续函数能被更"简单"的函数一致逼近吗?
这个问题不仅有理论价值,也有深刻的实际意义。在工程中,我们经常需要用有限参数的函数族(多项式、三角函数、神经网络)来逼近复杂的连续函数。Weierstrass 定理保证这种逼近是可行的。
定理(Weierstrass,1885):\([a, b]\) 上的连续函数可被多项式一致逼近。即对任意 \(f \in C([a, b])\) 和 \(\varepsilon > 0\),存在多项式 \(p\) 使 \(\|f - p\|_\infty < \varepsilon\)。
历史背景:Weierstrass 在 1885 年发表了这个定理,当时证明使用了卷积方法。后来 Bernstein 在 1912 年给出了一个概率论风格的构造性证明。
构造性证明(Bernstein 多项式):定义
可以证明 \(B_n(f, x) \rightrightarrows f(x)\) 在 \([0, 1]\) 上。证明的关键步骤:
- \(\sum_{k=0}^{n} \binom{n}{k} x^k(1-x)^{n-k} = 1\)(二项式定理)
- \(\sum_{k=0}^{n} (k/n - x)^2 \binom{n}{k} x^k(1-x)^{n-k} = \frac{x(1-x)}{n} \leq \frac{1}{4n}\)(二项分布方差)
- 对 \(\varepsilon > 0\),由 \(f\) 一致连续取 \(\delta\)。将求和分为 \(|k/n - x| < \delta\) 和 \(|k/n - x| \geq \delta\) 两部分——前者由 \(f\) 的一致连续性控制,后者由方差趋于 \(0\) 控制。
类比:Bernstein 多项式可以理解为"概率采样"——在 \([0, 1]\) 上做 \(n\) 次独立的 Bernoulli 试验(成功概率 \(x\)),成功 \(k\) 次的概率就是 \(\binom{n}{k}x^k(1-x)^{n-k}\)。\(B_n(f, x)\) 就是 \(f(k/n)\) 关于这个概率的期望。大数定律保证 \(k/n \to x\),因此 \(B_n(f, x) \to f(x)\)。这个类比在概率视角下是精确的,但注意一致收敛的证明需要更定量的估计(不仅仅是"大数定律"的逐点版本)。
9.2 Stone-Weierstrass 定理 ⭐⭐⭐¶
Stone(1937)认识到 Weierstrass 定理的本质不在于多项式的特殊性,而在于多项式构成的**代数**的性质。
定义:\(A \subseteq C(X, \mathbb{R})\) 是**子代数**,如果对加法、标量乘法和函数乘法封闭。\(A\) 分离点,如果对任意 \(x \neq y\),存在 \(f \in A\) 使 \(f(x) \neq f(y)\)。
定理(Stone-Weierstrass,实代数版本):\(X\) 紧 Hausdorff 空间,\(A \subseteq C(X, \mathbb{R})\) 是子代数。若 \(A\) 含常数函数且分离 \(X\) 的点,则 \(A\) 在 \(C(X, \mathbb{R})\) 中稠密(关于 \(\|\cdot\|_\infty\))。
证明要点:
引理 1:\(|t|\) 在 \([-M, M]\) 可被多项式一致逼近。(利用 \(\sqrt{t^2} = |t|\),从 \(\sqrt{1-u}\) 的 Taylor 级数在 \([0, 1]\) 上一致收敛出发。)
引理 2:\(A\) 的一致闭包 \(\overline{A}\) 对 \(\max\) 和 \(\min\) 封闭。(因为 \(\max(f, g) = \frac{f+g+|f-g|}{2}\),\(|f-g|\) 可被 \(A\) 中多项式逼近。)
引理 3:分离点 + 含常数 \(\Rightarrow\) 对任意 \(x \neq y\) 和 \(\alpha, \beta \in \mathbb{R}\),存在 \(f \in \overline{A}\) 使 \(f(x) = \alpha, f(y) = \beta\)。(由分离性和仿射变换。)
主证明:对 \(g \in C(X)\) 和 \(\varepsilon > 0\)。对每对点 \(s, t \in X\),由引理 3 取 \(f_{s,t} \in \overline{A}\) 使 \(f_{s,t}(s) = g(s)\) 且 \(f_{s,t}(t) = g(t)\)。固定 \(s\),用 \(\min\) 操作将不同 \(t\) 对应的函数"压低"到 \(g + \varepsilon\) 以下;然后用 \(\max\) 操作将不同 \(s\) 对应的函数"抬高"到 \(g - \varepsilon\) 以上。紧致性保证有限步完成。最终得到 \(\|h - g\|_\infty < \varepsilon\),\(h \in \overline{A}\)。\(\square\)
本质洞察:Stone-Weierstrass 定理的深层含义是——在紧空间上,能分离点的代数已经"足够丰富"以逼近任意连续函数。这不需要代数的元素是多项式——它们可以是三角函数、指数函数、甚至神经网络的激活函数。
工程桥接:神经网络的通用逼近定理(Cybenko 1989, Hornik 1991)可以视为 Stone-Weierstrass 的现代版本——单隐层 ReLU 网络在紧集上一致逼近连续函数。多项式样条(B-spline, Bézier)在机器人轨迹参数化中的使用,其理论根源也在于 Weierstrass 逼近。
⚠️ 常见陷阱¶
💡 概念误区:认为"Stone-Weierstrass 对复值函数也成立"
复代数版本需要额外的"共轭闭"条件(即 \(f \in A \Rightarrow \bar{f} \in A\))。没有此条件的反例:全纯多项式代数在圆盘边界的连续函数空间中不稠密(因为全纯函数在边界的值满足 Cauchy 积分公式的约束)。
🧠 思维陷阱:认为"逼近意味着相等"
多项式可以一致逼近连续函数,但(一般地)不等于它。\(e^x\) 不是多项式,但可被多项式任意精确地逼近。逼近是"无穷精度的近似",不是"严格相等"。
练习¶
- (证明题)用 Stone-Weierstrass 定理证明:\([0, 2\pi]\) 上的连续周期函数可被三角多项式一致逼近。
- (开放思考题)Stone-Weierstrass 定理要求 \(X\) 紧。在非紧空间上能得到什么样的逼近结果?
§10 压缩映射原理 ⭐⭐¶
§8 和 §9 讨论了函数空间的紧致性和逼近。本节引入一个完全不同但极其强大的工具——压缩映射原理——它在存在唯一性证明中扮演核心角色。
10.1 动机:从迭代到不动点¶
**不动点问题**是数学中最基本的问题框架之一——找 \(x\) 使 \(T(x) = x\)。许多看似不同的问题都可以归结为不动点问题:
- 方程求根:\(f(x) = 0\) 可改写为 \(x = x - \alpha f(x) = T(x)\)(适当选择 \(\alpha\))
- ODE 初值问题:\(\dot{x} = f(t, x), x(0) = x_0\) 等价于积分方程 \(x(t) = x_0 + \int_0^t f(s, x(s)) ds = T[x](t)\)
- 最优控制:Bellman 方程 \(V = \mathcal{T}V\) 的解是值函数——动态规划的核心
- 博弈论:Nash 均衡是最佳响应映射的不动点
- 经济学:一般均衡是超额需求映射的零点(等价于不动点问题)
如果 \(T\) 是"压缩的"——每次迭代让点更近——那么迭代序列 \(x, T(x), T^2(x), \ldots\) 将收敛到唯一的不动点。这个思想如此强大,以至于 Banach(1922)的压缩映射原理被认为是 20 世纪函数分析中影响最深远的单一定理之一。
10.2 Banach 压缩映射原理 ⭐⭐¶
定理(Banach 不动点定理,1922):设 \((X, d)\) 是完备度量空间,\(T: X \to X\) 是压缩映射,即存在 \(0 \leq k < 1\) 使得
则 \(T\) 有唯一不动点 \(x^*\),且对任意初始点 \(x_0 \in X\),迭代序列 \(x_n = T(x_{n-1})\) 满足 \(x_n \to x^*\),收敛速率为
证明(完整):
存在性:构造 \(x_n = T(x_{n-1})\)。估计相邻项的距离:
对 \(n > m\):
因此 \(\{x_n\}\) 是 Cauchy 列。\(X\) 完备,\(x_n \to x^*\)。
\(x^*\) 是不动点:\(d(T(x^*), x^*) \leq d(T(x^*), T(x_n)) + d(x_{n+1}, x^*) \leq k \cdot d(x^*, x_n) + d(x_{n+1}, x^*) \to 0\)。
唯一性:若 \(y^*\) 也是不动点,\(d(x^*, y^*) = d(T(x^*), T(y^*)) \leq k \cdot d(x^*, y^*)\)。由 \(k < 1\),必须 \(d(x^*, y^*) = 0\),即 \(x^* = y^*\)。
收敛速率:在 \(d(x_n, x_m) \leq \frac{k^m}{1-k} d(x_1, x_0)\) 中令 \(n \to \infty\) 得 \(d(x_m, x^*) \leq \frac{k^m}{1-k} d(x_1, x_0)\)。\(\square\)
本质洞察:压缩映射原理的力量在于它同时给出三样东西:存在性(不动点存在)、唯一性(不动点唯一)、收敛速率(迭代多快到达)。大部分存在性定理只给前两者。收敛速率 \(k^n\)(指数衰减)使得该定理在数值计算中极其实用。
10.3 参数化版本 ⭐⭐⭐¶
定理:设 \(T(x, \lambda)\) 对参数 \(\lambda\) 连续,且对每个 \(\lambda\),\(x \mapsto T(x, \lambda)\) 是压缩映射(压缩系数 \(k\) 统一)。则不动点 \(x^*(\lambda)\) 对 \(\lambda\) 连续。
证明思路:\(d(x^*(\lambda_1), x^*(\lambda_2)) = d(T(x^*(\lambda_1), \lambda_1), T(x^*(\lambda_2), \lambda_2))\)。加减 \(T(x^*(\lambda_1), \lambda_2)\),利用压缩性和 \(T\) 对 \(\lambda\) 的连续性得到
右侧由 \(T\) 对 \(\lambda\) 的连续性趋于 \(0\)。\(\square\)
这个参数化版本是 §12 反函数定理证明的关键准备。
10.4 应用预览:ODE 存在唯一性 ⭐⭐¶
Picard-Lindelöf 定理框架:考虑初值问题
其中 \(f\) 关于 \(x\) 满足 Lipschitz 条件 \(|f(t, x) - f(t, y)| \leq L|x - y|\)。
关键思想:将 ODE 转化为积分方程。\(x(t)\) 是解当且仅当
定义 Picard 算子 \(T[\phi](t) = x_0 + \int_{t_0}^{t} f(s, \phi(s)) \, ds\),作用在 \(C([t_0 - \delta, t_0 + \delta], \mathbb{R}^n)\) 上(配 sup 范数)。ODE 的解就是 \(T\) 的不动点。
\(T\) 的压缩性:
当 \(\delta < 1/L\) 时,\(L\delta < 1\),\(T\) 是压缩映射。由 Banach 定理,\(T\) 有唯一不动点——即 ODE 在 \([t_0 - \delta, t_0 + \delta]\) 上有唯一解。
**Picard 迭代**就是压缩映射的迭代:\(\phi_0(t) = x_0\),\(\phi_{n+1} = T[\phi_n]\)。显式写出前几步:
这些 Picard 迭代在数值方法中直接可用,收敛速率由压缩常数 \(L\delta\) 控制。
完整证明(包括最大存在区间的讨论)推迟到 §120(常微分方程),此处给出框架让读者看到压缩映射原理的威力。
10.5 Newton 迭代的局部收敛性 ⭐⭐⭐¶
另一个重要应用是 Newton 迭代法的局部收敛性分析。
考虑求解 \(F(x) = 0\)(\(F: \mathbb{R}^n \to \mathbb{R}^n\),\(C^2\)),Newton 迭代为
定义 \(T(x) = x - [DF(x)]^{-1}F(x)\),则 Newton 迭代就是 \(x_{n+1} = T(x_n)\)。
关键计算:\(DT(x) = I - [DF(x)]^{-1}DF(x) - D([DF(x)]^{-1}F(x)) = -[DF(x)]^{-1}D^2F(x)[\cdot, [DF(x)]^{-1}F(x)]\)。在解 \(x^*\)(即 \(F(x^*) = 0\))处,\(DT(x^*) = 0\)——这意味着 \(T\) 在 \(x^*\) 附近的压缩常数趋于 \(0\),收敛速度是**二次的**(超线性),比一般压缩映射(线性收敛)快得多。
工程桥接:ICP 算法(Iterative Closest Point)用于点云配准——每步寻找最近点对并求最优刚体变换,本质上是压缩映射的迭代。Gauss-Newton 法在局部极小附近也具有压缩性质,这解释了它的快速收敛。SLAM 中 factor graph 优化的收敛性分析同样依赖压缩映射框架。
⚠️ 常见陷阱¶
💡 概念误区:认为"\(d(T(x), T(y)) < d(x, y)\)(严格不等式)就够了"
这个条件叫"非扩张映射",不保证不动点存在。反例:\(T(x) = x + \frac{1}{x}\) 在 \((1, \infty)\) 上,虽然每步"拉近"了(\(|T(x) - T(y)| < |x-y|\) 对足够大的 \(x, y\)),但没有不动点。关键是需要**严格小于 \(1\) 的统一压缩常数 \(k\)**。
🧠 思维陷阱:认为"完备性条件可以去掉"
反例:\(T(x) = x/2\) 在不完备空间 \((0, 1) \cap \mathbb{Q}\) 上是压缩映射,不动点 \(0\) 不在空间中。完备性保证 Cauchy 列有极限,是不可省略的。
练习¶
- (证明题)证明参数化压缩映射定理:若 \(T\) 对 \(\lambda\) 还可微,则 \(x^*(\lambda)\) 对 \(\lambda\) 也可微。给出 \(\frac{dx^*}{d\lambda}\) 的公式。
- (推导题)用压缩映射原理证明:方程 \(x = \cos x\) 在 \(\mathbb{R}\) 上有唯一解。估计从 \(x_0 = 0\) 出发迭代 10 次的误差上界。
§11 多变量微分学 · 总导数 ⭐⭐¶
§5 讨论了单变量微分。本节跨入多变量——核心概念是总导数(Fréchet 导数),它是"最佳线性逼近"。
11.1 动机:偏导数不等于可微 ⭐¶
在多变量微积分中,一个最危险的误解是"偏导数存在 \(\Rightarrow\) 可微"。
反例:\(f(x, y) = \frac{xy^2}{x^2 + y^4}\)(\((x, y) \neq (0, 0)\)),\(f(0, 0) = 0\)。
所有方向导数在 \((0, 0)\) 存在:沿方向 \((a, b)\),\(\lim_{t \to 0} \frac{f(ta, tb)}{t} = \lim \frac{tab^2t^2}{t^2a^2 + t^4b^4} = \frac{ab^2}{a^2} = \frac{b^2}{a}\)(\(a \neq 0\))。但 \(f\) 在 \((0, 0)\) 甚至不连续——沿抛物线 \(x = y^2\) 趋近原点时 \(f = \frac{1}{2}\),沿 \(x\) 轴趋近时 \(f = 0\)。
因此,偏导数存在(甚至所有方向导数存在)不保证可微。需要更强的条件。
11.2 Fréchet 可微(总导数) ⭐⭐¶
定义:\(f: U \subseteq \mathbb{R}^n \to \mathbb{R}^m\)(\(U\) 开),\(f\) 在 \(a \in U\) 可微(Fréchet 可微),是指存在线性映射 \(L: \mathbb{R}^n \to \mathbb{R}^m\) 使得
此 \(L\) 唯一,记为 \(Df(a)\),称为 \(f\) 在 \(a\) 的**总导数**或 Fréchet 导数。\(L\) 的矩阵表示就是 Jacobian 矩阵:
类比:总导数 \(Df(a)\) 就是函数在 \(a\) 处的"最佳线性逼近"——\(f(a + h) \approx f(a) + Df(a) \cdot h\)。一维时 \(Df(a) = f'(a)\),"线性映射"退化为"乘以一个数"。多维时,线性映射由矩阵表示。这个类比在"一阶近似"的层面是精确的。
11.3 可微的充分条件 ⭐⭐¶
定理:若 \(f\) 的所有偏导数在 \(a\) 的某邻域存在,且在 \(a\) 连续,则 \(f\) 在 \(a\) 可微。
证明(以 \(n = 2, m = 1\) 为例,一般情况类似):设 \(h = (h_1, h_2)\)。
对第一项用中值定理(关于 \(x_1\)):\(= \frac{\partial f}{\partial x_1}(\xi_1, a_2 + h_2) \cdot h_1\),其中 \(\xi_1\) 在 \(a_1\) 和 \(a_1 + h_1\) 之间。
对第二项用中值定理(关于 \(x_2\)):\(= \frac{\partial f}{\partial x_2}(a_1, \xi_2) \cdot h_2\)。
由偏导数在 \(a\) 连续,\(\frac{\partial f}{\partial x_1}(\xi_1, a_2 + h_2) = \frac{\partial f}{\partial x_1}(a) + o(1)\),类似地第二项。因此
这正是可微的定义(\(L(h) = \nabla f(a) \cdot h\))。\(\square\)
11.4 链式法则 ⭐⭐¶
定理:若 \(f\) 在 \(a\) 可微,\(g\) 在 \(f(a)\) 可微,则 \(g \circ f\) 在 \(a\) 可微且
这里 \(\cdot\) 是线性映射的复合(矩阵乘法)。
证明:设 \(Df(a) = A\),\(Dg(f(a)) = B\)。对 \(\varepsilon > 0\),取 \(\delta_1\) 使 \(\|g(f(a)+k) - g(f(a)) - Bk\| \leq \varepsilon\|k\|\)(\(\|k\| < \delta_1\)),取 \(\delta_2\) 使 \(\|f(a+h) - f(a) - Ah\| \leq \varepsilon\|h\|\)(\(\|h\| < \delta_2\))。设 \(k = f(a+h) - f(a)\),则 \(\|k\| \leq (\|A\| + \varepsilon)\|h\|\)(\(\|h\|\) 足够小)。
第一项 \(\leq \varepsilon\|k\| \leq \varepsilon(\|A\|+\varepsilon)\|h\|\)。第二项 \(\leq \|B\| \cdot \varepsilon\|h\|\)。总共 \(= O(\varepsilon)\|h\|\)。\(\square\)
11.5 Jacobian 矩阵与梯度 ⭐¶
对实值函数 \(f: \mathbb{R}^n \to \mathbb{R}\),\(Df(a)\) 是 \(1 \times n\) 行向量,即梯度的转置 \(\nabla f(a)^T\)。方向导数为 \(D_v f(a) = \nabla f(a) \cdot v = \|\nabla f(a)\| \cos\theta\),其中 \(\theta\) 是 \(\nabla f(a)\) 与 \(v\) 的夹角。
几何意义:\(\nabla f(a)\) 指向 \(f\) 增长最快的方向(\(\cos\theta = 1\)),\(\|\nabla f(a)\|\) 是最大增长率,\(\nabla f(a)\) 垂直于等值面 \(\{x : f(x) = f(a)\}\)。这是梯度下降法 \(x_{n+1} = x_n - \alpha \nabla f(x_n)\) 的数学基础。
对一般映射 \(f: \mathbb{R}^n \to \mathbb{R}^m\),只有 \(n = m\) 时 Jacobian 矩阵是方阵,才有行列式 \(\det J_f(a)\)。其几何意义是体积变化率——在 §14 变量替换和 §12 反函数定理中扮演核心角色。
工程桥接:机器人正运动学 \(\text{FK}: \mathbb{R}^n \to SE(3)\) 将关节角映射到末端执行器位姿。其 Jacobian(几何 Jacobian 或分析 Jacobian)是机器人学中最核心的计算对象。奇异位形(\(\text{rank}(J) < \max\))对应 Jacobian 降秩的点——在那里反函数定理(§12)失效,逆运动学不再有唯一解。
⚠️ 常见陷阱¶
💡 概念误区:认为"偏导数存在就可微"
这是多变量微积分中最危险的误区。§11.1 的反例已经展示:所有偏导数甚至所有方向导数存在,函数仍然可以不连续——遑论可微。正确的充分条件是"偏导数存在且**连续**"(\(C^1\) 条件)。
🧠 思维陷阱:认为"Jacobian 矩阵就是导数"
更准确地说,导数 \(Df(a)\) 是**线性映射**,Jacobian 矩阵是这个线性映射在标准基下的**矩阵表示**。换基后矩阵会变,但线性映射不变。这个区分在微分流形上变得重要——流形上没有标准基。
练习¶
- (证明题)构造一个 \(f: \mathbb{R}^2 \to \mathbb{R}\),使得 \(f\) 在原点的所有方向导数存在,但 \(f\) 在原点不可微。
- (推导题)用 Fréchet 导数的定义直接证明:\(f(x) = \|x\|^2\)(\(x \in \mathbb{R}^n\))在每点可微,计算 \(Df(a)\)。
§12 反函数定理与隐函数定理 ⭐⭐¶
本节是 B1 的最高潮。两个定理是微分流形(Layer-1)的基石——没有它们,"子流形"和"坐标卡"的概念无法建立。
12.1 预备:算子范数与 \(GL(\mathbb{R}^n)\) 是开集 ⭐⭐¶
算子范数:对线性映射 \(L: \mathbb{R}^n \to \mathbb{R}^m\),定义
算子范数满足**次可乘性**:\(\|AB\| \leq \|A\| \cdot \|B\|\)。这是一个重要的不等式,使得 \(\text{Mat}(n)\) 成为 Banach 代数。
Neumann 级数:若 \(\|C\| < 1\),则 \(I - C\) 可逆且
证明:\(\sum \|C^k\| \leq \sum \|C\|^k = \frac{1}{1-\|C\|} < \infty\)(几何级数)。设 \(S_N = \sum_{k=0}^{N} C^k\),则 \((I-C)S_N = I - C^{N+1}\),\(\|C^{N+1}\| \leq \|C\|^{N+1} \to 0\)。取极限得 \((I-C) \cdot \sum C^k = I\)。\(\square\)
这个结果是矩阵分析中的基本工具。它的名字来源于与实数几何级数 \(\frac{1}{1-x} = \sum x^k\) 的类比——将实数换成算子,绝对值换成范数。
定义:\(GL(\mathbb{R}^n)\) 是 \(n \times n\) 可逆矩阵的集合(一般线性群)。
引理:\(GL(\mathbb{R}^n)\) 在 \(\text{Mat}(n) \cong \mathbb{R}^{n^2}\) 中是开集。
证明:设 \(A \in GL(\mathbb{R}^n)\),\(\|B - A\| < \frac{1}{\|A^{-1}\|}\)。则 \(\|A^{-1}(B - A)\| \leq \|A^{-1}\| \cdot \|B - A\| < 1\),因此 \(A^{-1}B = I - (-(A^{-1}(B-A))) = I - C\)(\(\|C\| < 1\))可逆(由 Neumann 级数),从而 \(B = A \cdot (A^{-1}B)\) 可逆。\(\square\)
推论 1:映射 \(\text{Inv}: A \mapsto A^{-1}\) 在 \(GL(\mathbb{R}^n)\) 上连续。实际上 \(\text{Inv}\) 是 \(C^\infty\) 的,因为 \(A^{-1} = \frac{1}{\det A} \text{adj}(A)\),而行列式和伴随矩阵都是矩阵元素的多项式。
推论 2:\(\|A^{-1} - B^{-1}\| = \|A^{-1}(B-A)B^{-1}\| \leq \|A^{-1}\| \cdot \|A - B\| \cdot \|B^{-1}\|\)。这给出了矩阵逆的**Lipschitz 估计**,在反函数定理的证明中会用到。
12.2 反函数定理 ⭐⭐¶
定理(反函数定理,Inverse Function Theorem):设 \(f \in C^1(U, \mathbb{R}^n)\)(\(U \subseteq \mathbb{R}^n\) 开),\(a \in U\),\(Df(a)\) 可逆。则存在 \(a\) 的开邻域 \(V\) 和 \(f(a)\) 的开邻域 \(W\),使得 \(f: V \to W\) 是 \(C^1\) 微分同胚。且
证明(完整,按 Rudin 9.24 路径,四步):
Step 1(归约):不失一般性,设 \(a = 0, f(0) = 0, Df(0) = I\)。(否则用 \(g(x) = [Df(a)]^{-1}(f(a + x) - f(a))\) 替换。)
Step 2(构造压缩映射):对 \(y \in \mathbb{R}^n\),定义 \(\varphi_y(x) = x + y - f(x)\)。则 \(D\varphi_y(x) = I - Df(x)\)。
由 \(Df(0) = I\) 和 \(Df\) 连续,取 \(r > 0\) 使在 \(\overline{B}(0, r)\) 上 \(\|I - Df(x)\| \leq \frac{1}{2}\)。
由中值定理不等式:\(\|\varphi_y(x_1) - \varphi_y(x_2)\| \leq \frac{1}{2}\|x_1 - x_2\|\)。
\(\varphi_y\) 将 \(\overline{B}(0, r)\) 映入自身(当 \(\|y\|\) 足够小时):\(\|\varphi_y(x)\| \leq \|\varphi_y(x) - \varphi_y(0)\| + \|\varphi_y(0)\| \leq \frac{1}{2}\|x\| + \|y\| \leq \frac{r}{2} + \|y\|\),取 \(\|y\| \leq \frac{r}{2}\)。
Step 3(存在唯一性):由 §10 Banach 压缩映射原理,\(\varphi_y\) 在 \(\overline{B}(0, r)\) 上有唯一不动点 \(x\)。不动点方程 \(x = x + y - f(x)\) 即 \(f(x) = y\)。因此 \(x = f^{-1}(y)\) 存在且唯一。
Step 4(\(f^{-1}\) 的 \(C^1\) 性):
首先 \(f^{-1}\) 是 Lipschitz 的:\(\|f^{-1}(y_1) - f^{-1}(y_2)\| \leq 2\|y_1 - y_2\|\)(由压缩估计推导)。
然后 \(f^{-1}\) 可微:设 \(k = f^{-1}(y + l) - f^{-1}(y)\),则 \(l = f(x + k) - f(x) = Df(x) \cdot k + o(\|k\|)\)。由 \(\|k\| \leq 2\|l\|\),\(k = [Df(x)]^{-1} l + o(\|l\|)\),即 \(Df^{-1}(y) = [Df(x)]^{-1}\)。
最后 \(f^{-1} \in C^1\):\(Df^{-1} = (\text{Inv}) \circ Df \circ f^{-1}\),其中 \(\text{Inv}: A \mapsto A^{-1}\) 连续(§12.1),\(Df\) 连续(\(f \in C^1\)),\(f^{-1}\) 连续(Lipschitz),复合连续。\(\square\)
阶段小结:反函数定理的证明汇聚了前面几乎所有工具——\(Df\) 连续(§11)、压缩映射原理(§10)、Neumann 级数(§12.1)、中值定理不等式。它是实分析的**集大成之作**。
12.3 隐函数定理 ⭐⭐¶
定理(隐函数定理,Implicit Function Theorem):设 \(F: \mathbb{R}^n \times \mathbb{R}^m \to \mathbb{R}^m\) 是 \(C^1\) 映射,\(F(a, b) = 0\),\(\frac{\partial F}{\partial y}(a, b)\) 可逆。则存在 \(a\) 的邻域 \(U\) 和 \(b\) 的邻域 \(V\),以及唯一的 \(C^1\) 函数 \(g: U \to V\) 使得 \(F(x, g(x)) = 0\) 对所有 \(x \in U\)。且
证明(从反函数定理导出):定义 \(\Phi(x, y) = (x, F(x, y))\)。则
\(\frac{\partial F}{\partial y}(a, b)\) 可逆 \(\Rightarrow\) \(D\Phi(a, b)\) 可逆。由反函数定理,\(\Phi\) 在 \((a, b)\) 附近有 \(C^1\) 逆。设 \(\Phi^{-1}(x, z) = (\alpha(x, z), \beta(x, z))\)。由 \(\Phi(\alpha, \beta) = (x, z)\) 的第一分量 \(\alpha = x\)。取 \(z = 0\):\(\Phi(x, \beta(x, 0)) = (x, F(x, \beta(x, 0))) = (x, 0)\),故 \(F(x, \beta(x, 0)) = 0\)。令 \(g(x) = \beta(x, 0)\) 即可。
导数公式由对 \(F(x, g(x)) = 0\) 两边关于 \(x\) 求导(链式法则)得到。\(\square\)
本质洞察:隐函数定理的深层含义是——方程 \(F(x, y) = 0\) 定义的集合在非退化点附近是一个光滑子流形,而且可以局部参数化为函数 \(y = g(x)\) 的图像。这是微分流形理论的起点——流形不是嵌入空间中的全局函数图,而是到处"局部像函数图"。
工程桥接:逆运动学的局部存在性——在非奇异位形 \(q_0\) 处,正运动学 FK 的 Jacobian 满秩,反函数定理保证逆运动学 \(\text{IK} = \text{FK}^{-1}\) 在 \(p_0 = \text{FK}(q_0)\) 的邻域内 \(C^1\) 存在且唯一。在奇异位形处 Jacobian 降秩,反函数定理失效——此时逆运动学不再有唯一解,需要伪逆或其他正则化方法。
**隐函数定理**保证约束流形 \(\{q : h(q) = 0\}\)(如机器人关节约束)在非退化点附近是光滑子流形——这是 Layer-1 微分流形入口的关键。
⚠️ 常见陷阱¶
💡 概念误区:认为"反函数定理给出全局逆"
反函数定理只保证**局部**可逆——在 \(a\) 的某邻域内。\(f(x) = e^{ix}\)(\(\mathbb{R} \to \mathbb{S}^1\))在每点局部可逆,但全局不可逆(不是单射)。全局可逆需要额外条件(如 Hadamard 全局反函数定理)。
🧠 思维陷阱:认为"隐函数定理的条件 \(\frac{\partial F}{\partial y}\) 可逆是技术性的"
这个条件有清晰的几何含义:它意味着在 \((a, b)\) 处,方程 \(F = 0\) 定义的集合在 \(y\) 方向上"不平行"——可以把 \(y\) 表达为 \(x\) 的函数。如果 \(\frac{\partial F}{\partial y}\) 不可逆(退化点),集合可能有"折叠"或"分叉"——如 \(y^2 = x\) 在原点处。
练习¶
- (证明题)用反函数定理证明:\(f(x) = x + \varepsilon \sin x\)(\(|\varepsilon| < 1\))在 \(\mathbb{R}\) 上是 \(C^1\) 微分同胚。
- (推导题)设 \(F(x, y) = x^2 + y^2 - 1\)。在 \((x_0, y_0) = (\frac{1}{2}, \frac{\sqrt{3}}{2})\) 处应用隐函数定理,求出 \(g'(x_0)\)(其中 \(y = g(x)\) 是局部定义的隐函数)。
- (跨章综合题)结合 §10 压缩映射原理和 §12 反函数定理:设 \(f \in C^1(\mathbb{R}^n, \mathbb{R}^n)\),\(\|Df(x) - I\| \leq k < 1\) 对所有 \(x\)。证明 \(f\) 是全局 \(C^1\) 微分同胚(提示:先用压缩映射证明满射,再用局部反函数定理证明局部单射,最后组合)。
§13 高阶导数、Taylor 展开与临界点分类 ⭐⭐¶
§11-§12 建立了一阶微分的完整理论。本节向高阶推进,为优化理论奠基。
13.1 高阶 Fréchet 导数 ⭐⭐¶
\(f\) 的一阶导数 \(Df\) 是从 \(U\) 到 \(L(\mathbb{R}^n, \mathbb{R}^m)\) 的映射。如果 \(Df\) 本身可微,其导数 \(D^2f(a) \in L(\mathbb{R}^n, L(\mathbb{R}^n, \mathbb{R}^m))\)——这是一个**双线性映射**。
Schwarz 定理(混合偏导数交换):若 \(f \in C^2\),则 \(\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i}\)。
证明(利用中值定理):考虑 \(\Delta = f(a+h+k) - f(a+h) - f(a+k) + f(a)\)(\(h = (h_1, 0, \ldots, 0)\),\(k = (0, k_2, 0, \ldots, 0)\))。对 \(x_1\) 方向用 MVT 两次,再对 \(x_2\) 方向用 MVT,可以将 \(\Delta\) 表示为混合偏导数的值乘以 \(h_1 k_2\)。由两种顺序得到的表达式都等于 \(\Delta\),取极限后偏导数相等。\(\square\)
13.2 多变量 Taylor 定理 ⭐⭐¶
定理:\(f \in C^{k+1}(U, \mathbb{R})\),\(a \in U\)。对 \(a + h \in U\):
其中 \(\alpha = (\alpha_1, \ldots, \alpha_n)\) 是多重指标,\(|\alpha| = \alpha_1 + \cdots + \alpha_n\),\(\alpha! = \alpha_1! \cdots \alpha_n!\),\(h^\alpha = h_1^{\alpha_1} \cdots h_n^{\alpha_n}\)。
余项 \(R_k(h) = O(\|h\|^{k+1})\)。
证明(归约到单变量):令 \(g(t) = f(a + th)\),\(g\) 是 \([0, 1]\) 上的单变量函数。对 \(g\) 用单变量 Taylor 定理(§5.4),展开后用链式法则将 \(g^{(j)}(0)\) 化为 \(f\) 的多重偏导数。\(\square\)
13.3 临界点二阶分类 ⭐⭐¶
定义:\(a\) 是 \(f: U \subseteq \mathbb{R}^n \to \mathbb{R}\) 的**临界点**,如果 \(Df(a) = 0\)(即 \(\nabla f(a) = 0\))。
Hessian 矩阵:\(H(a) = D^2 f(a) = \left(\frac{\partial^2 f}{\partial x_i \partial x_j}(a)\right)_{n \times n}\)。
二阶充分条件: - \(H(a)\) 正定 \(\Rightarrow\) \(a\) 是严格局部极小 - \(H(a)\) 负定 \(\Rightarrow\) \(a\) 是严格局部极大 - \(H(a)\) 不定(有正有负特征值) \(\Rightarrow\) \(a\) 是鞍点 - \(H(a)\) 半定 \(\Rightarrow\) 不确定,需要高阶分析
证明(正定情况):由 Taylor 展开,\(f(a + h) - f(a) = \frac{1}{2} h^T H(a) h + o(\|h\|^2)\)。\(H(a)\) 正定意味着 \(h^T H(a) h \geq \lambda_{\min} \|h\|^2\)(\(\lambda_{\min} > 0\) 是 \(H\) 的最小特征值)。对足够小的 \(\|h\|\),高阶项 \(|o(\|h\|^2)| < \frac{\lambda_{\min}}{2}\|h\|^2\),因此 \(f(a+h) - f(a) > 0\)。\(\square\)
工程桥接:非线性优化(如轨迹优化)中,判断临界点是极小还是鞍点正是用 Hessian 的正定性。在高维优化中(如神经网络训练),大部分临界点是鞍点而非极小——这是深度学习优化中的著名现象。
13.4 Morse 引理(预告 Layer-1) ⭐⭐⭐¶
定理(Morse 引理):设 \(f \in C^3\),\(a\) 是 \(f\) 的非退化临界点(即 \(\nabla f(a) = 0\) 且 \(H(a)\) 可逆)。则在 \(a\) 的某邻域内存在 \(C^1\) 坐标变换 \(u = u(x)\),使得
其中 \(+\) 和 \(-\) 的个数由 \(H(a)\) 的惯性指数(Inertia Index)决定——即 \(H(a)\) 的正特征值个数 \(p\) 和负特征值个数 \(q\)(\(p + q = n\),因为非退化意味着没有零特征值)。
意义:Morse 引理说明在非退化临界点附近,函数的形状完全由 Hessian 的符号结构决定——高阶项可以通过坐标变换"消除"。这意味着非退化临界点只有有限种"类型":
| 维度 \(n\) | 类型 \((p, q)\) | 几何形状 |
|---|---|---|
| 1 | \((1, 0)\) 或 \((0, 1)\) | 极小或极大 |
| 2 | \((2, 0)\) | 极小(碗底) |
| 2 | \((1, 1)\) | 鞍点(马鞍) |
| 2 | \((0, 2)\) | 极大(碗顶翻转) |
一维版本的证明思路:\(f(x) = f(0) + \frac{1}{2}f''(0)x^2 + O(x^3) = f(0) + \frac{1}{2}f''(0)x^2(1 + O(x))\)。定义 \(u(x) = x\sqrt{|1 + O(x)|} \cdot \text{sgn}(\sqrt{f''(0)/2})\),则 \(f(x) = f(0) \pm u^2\)。关键是要验证 \(u(x)\) 是 \(C^1\) 微分同胚,这利用了 \(f''(0) \neq 0\)。
在优化中的应用:Morse 引理保证了非退化极小点是"稳定的"——小扰动不会改变它的局部拓扑结构。退化临界点(\(H(a)\) 奇异)可能在小扰动下"分裂"为多个非退化临界点——这就是**分岔理论**的起点。
完整证明在 Layer-1 微分流形中给出,它依赖于隐函数定理和 Sylvester 惯性定理。
⚠️ 常见陷阱¶
💡 概念误区:认为"Hessian 半正定就是极小"
\(f(x, y) = x^4 - y^4\) 在原点 \(\nabla f = 0\),Hessian 为零矩阵(半正定也半负定),但原点是鞍点。半定情况需要更高阶分析。
🧠 思维陷阱:在一维中 \(f''(a) = 0\) 时直接判定"不确定"
一维中 \(f''(a) = 0\) 确实不确定(如 \(x^3\) 在 \(0\) 处),但 \(f(x) = x^4\) 在 \(0\) 处 \(f''(0) = 0\) 而 \(0\) 是极小。需要更高阶导数。
练习¶
- (推导题)对 \(f(x, y) = x^3 - 3xy + y^3\),找出所有临界点并用 Hessian 分类。
- (证明题)证明 Morse 引理的一维版本:若 \(f \in C^3\),\(f'(0) = 0\),\(f''(0) \neq 0\),则在 \(0\) 附近存在 \(C^1\) 坐标变换 \(u = u(x)\) 使 \(f(x) = f(0) \pm u^2\)。
§14 \(\mathbb{R}^n\) 中的 Riemann 积分与变量替换 ⭐⭐¶
§6 建立了单变量积分,本节推广到多变量。变量替换公式是其核心,也是流形上积分的原型。
14.1 矩形上的 Riemann 积分 ⭐¶
将 §6 的 Darboux 定义推广到 \(\mathbb{R}^n\)。对矩形 \(R = [a_1, b_1] \times \cdots \times [a_n, b_n]\),分划 \(P\) 将每个坐标方向独立切分,得到小矩形 \(R_j\)。定义
其中 \(M_j = \sup_{R_j} f\),\(m_j = \inf_{R_j} f\),\(|R_j|\) 是小矩形的 \(n\) 维体积。\(f\) 在 \(R\) 上可积当且仅当 \(\sup_P L(P, f) = \inf_P U(P, f)\)。
可积性判据:与一维类似,\(f\) 在 \(R\) 上可积等价于 \(\forall \varepsilon > 0, \exists P, U(P,f) - L(P,f) < \varepsilon\)。连续函数在紧矩形上 Riemann 可积(证明与一维相同,利用一致连续性)。
14.2 Jordan 可测集与零测集 ⭐⭐¶
定义(Jordan 零测集):\(E \subseteq \mathbb{R}^n\) 是 Jordan 零测的,如果对任意 \(\varepsilon > 0\),\(E\) 可以被有限个矩形覆盖,且这些矩形的总体积 \(< \varepsilon\)。
定义(Jordan 可测集):有界集 \(E\) 的 Jordan 外测度 \(\overline{J}(E) = \inf\{\sum |R_j| : E \subseteq \bigcup R_j, \text{有限个矩形}\}\),Jordan 内测度 \(\underline{J}(E) = \sup\{\sum |R_j| : \bigcup R_j \subseteq E, \text{有限个矩形}\}\)。\(E\) Jordan 可测当且仅当 \(\overline{J}(E) = \underline{J}(E)\),此公共值为 Jordan 测度 \(J(E)\)。
一般区域 \(E\) 上的积分定义为 \(\int_E f = \int_R f \cdot \chi_E\),其中 \(\chi_E\) 是 \(E\) 的特征函数,\(R \supseteq E\) 是包含矩形(需要 \(f \cdot \chi_E\) 可积)。
可积性与边界的关系:\(E\) Jordan 可测 \(\Leftrightarrow\) \(\partial E\)(边界)是 Jordan 零测的。这解释了为什么光滑曲线围成的区域是 Jordan 可测的(边界是 \(C^1\) 曲线,有"零面积")。
关键区分:Jordan 零测集 \(\subseteq\) Lebesgue 零测集,但反向不成立。Jordan 可测集比 Lebesgue 可测集范围窄得多——例如 \(\mathbb{Q} \cap [0,1]\) 是 Lebesgue 零测的,但不是 Jordan 可测的(因为 \(\mathbb{Q} \cap [0,1]\) 的边界是 \([0,1]\) 本身,不是零测的)。完整的 Lebesgue 理论在 §100 中展开。
Lebesgue 可积判据(叙述,证明推迟到 §100):有界函数 \(f\) 在 Jordan 可测集 \(E\) 上 Riemann 可积 \(\Leftrightarrow\) \(f\) 的不连续点集是 Lebesgue 零测的。这是 Riemann 积分理论的顶峰结论,解释了"哪些函数可积"——答案是"不连续点很少(零测)的有界函数"。
14.3 Fubini 定理 ⭐⭐¶
定理(Fubini,Riemann 版本):\(f\) 在矩形 \(R = A \times B\) 上 Riemann 可积。则
前提是内层积分作为外层积分变量的函数是可积的。
注意:Riemann 版本的 Fubini 定理比 Lebesgue 版本限制更强——后者在 §100 中给出。Lebesgue 版本(Tonelli-Fubini)对非负可测函数总是成立的,不需要额外的可积性假设。
14.4 变量替换公式 ⭐⭐¶
定理:\(\phi: U \to V\) 是 \(\mathbb{R}^n\) 开集间的 \(C^1\) 微分同胚,\(f\) 在 \(V\) 上可积。则
证明思路(Spivak 路径,四步):
Step 1(一维情形):这就是 §6.6 的变量替换公式——最基础的情况。
Step 2(基本变换):对三类基本变换直接验证: - 线性映射 \(\phi(x) = Ax\):\(\int_V f = \int_U (f \circ \phi) |\det A| \, dx\)(线性代数中行列式的体积解释) - 坐标置换 \(\phi(x_1, \ldots, x_n) = (x_{\sigma(1)}, \ldots, x_{\sigma(n)})\):\(|\det D\phi| = 1\)(置换矩阵的行列式为 \(\pm 1\)) - 剪切变换 \(\phi(x) = (x_1 + g(x_2, \ldots, x_n), x_2, \ldots, x_n)\):\(\det D\phi = 1\)
Step 3(局部分解):由反函数定理(§12),在每个点附近 \(\phi\) 可以局部分解为上述基本变换的复合。关键技术:利用 \(D\phi(a)\) 可以通过行变换分解为初等矩阵的乘积。
Step 4(全局拼接):用**单位分拆**(partition of unity)——对 \(U\) 的每个点取局部适用的分解,用光滑的"权重函数"将局部结果粘合为全局结果。单位分拆的存在依赖于 §70 中度量空间的仿紧性。
\(|\det D\phi|\) 的几何意义是**体积的伸缩因子**——\(\phi\) 将无穷小体积元 \(dx\) 变为 \(|\det D\phi| \, dx\)。如果 \(\det D\phi > 0\),\(\phi\) 保持定向;如果 \(\det D\phi < 0\),\(\phi\) 翻转定向。绝对值确保体积始终为正。
工程桥接:概率密度变换 \(p_Y(y) = p_X(\phi^{-1}(y)) \cdot |\det D\phi^{-1}(y)|\) 是粒子滤波、normalizing flows 以及 \(SE(3)\) 上不变测度的基础。机器人的位形空间体积积分在坐标变换下正是由 \(|\det D\phi|\) 修正。
⚠️ 常见陷阱¶
💡 概念误区:忘记绝对值 \(|\det D\phi|\)
\(\det D\phi\) 可以为负(当 \(\phi\) 改变定向时),但体积始终为正。遗漏绝对值会导致积分变号的错误。
🧠 思维陷阱:认为"Fubini 定理总是成立"
Riemann 版本的 Fubini 定理需要 \(f\) 在矩形上可积。有反例显示:如果 \(f\) 只在一般区域(非矩形)上可积,累次积分可能不等。Lebesgue 版本在 §100 中消除了这个限制(对非负可测函数)。
练习¶
- (推导题)用变量替换公式和极坐标变换,计算 \(\int\int_{x^2+y^2 \leq R^2} e^{-(x^2+y^2)} \, dx \, dy\)。
- (证明题)证明 \(n\) 维球体积公式 \(V_n(R) = \frac{\pi^{n/2}}{\Gamma(n/2 + 1)} R^n\) 中变量替换的关键步骤。
§15 凸性与 Jensen 不等式 ⭐⭐¶
本节为 Layer-2 优化理论预备。凸性是优化理论的基石——凸问题的局部最优 \(=\) 全局最优。
15.1 凸集与凸函数 ⭐¶
动机:为什么凸性在优化中如此重要?因为凸函数的每个局部极小都是全局极小——这意味着只要找到一个"看起来最好"的点,它就是真正的最好。非凸优化中可能有大量局部极小(如神经网络训练),每个都可能是"陷阱"。
定义:\(C \subseteq \mathbb{R}^n\) 是**凸集**,如果 \(\forall x, y \in C, \forall t \in [0, 1], tx + (1-t)y \in C\)。
几何直觉:集合中任意两点之间的"线段"完全包含在集合内——没有"凹陷"的部分。
凸集的基本性质: - 任意多个凸集的交仍是凸集 - 凸集的仿射像和原像是凸集 - 开球和闭球都是凸集
定义:\(f: C \to \mathbb{R}\)(\(C\) 凸)是**凸函数**,如果
严格凸:上式中 \(<\) 对 \(x \neq y\) 和 \(0 < t < 1\) 成立。严格凸函数至多有一个极小点。
等价刻画:\(f\) 凸 \(\Leftrightarrow\) \(\text{epi}(f) = \{(x, \alpha) : f(x) \leq \alpha\}\)(上方图)是凸集。
几何直觉:"弦在曲线上方"——连接函数图上两点的线段不低于函数本身。
常见凸函数示例:\(|x|\),\(x^2\),\(e^x\),\(-\log x\)(\(x > 0\)),范数 \(\|x\|\)(任何范数)。凹函数是凸函数取负:\(\log x\),\(\sqrt{x}\)。
15.2 凸函数的正则性 ⭐⭐¶
定理:凸函数在开凸集的内部**自动连续**。
证明(一维情形):设 \(f: (a, b) \to \mathbb{R}\) 凸,\(c \in (a, b)\)。取 \([p, q] \subset (a, b)\),\(c \in (p, q)\)。凸性蕴含:\(f\) 在 \([p, q]\) 上有界(由端点值和凸性)。对 \(x\) 接近 \(c\),\(|f(x) - f(c)|\) 被 \(f\) 在 \(c\) 附近的斜率控制:
(这是凸性的"斜率单调性")。因此 \(f(x) - f(c) \to 0\) 当 \(x \to c\)。\(\square\)
这个结果说明凸函数"自带连续性"——不需要额外假设。但注意凸函数在**边界**上可以不连续。例如 \(f(x) = 0\)(\(0 < x < 1\)),\(f(0) = f(1) = 1\) 在 \([0, 1]\) 上凸但在端点不连续。
一阶条件(可微情况):\(f\) 凸 \(\Leftrightarrow\) \(f(y) \geq f(x) + \nabla f(x)^T(y - x)\) 对所有 \(x, y\)。
证明:\(\Rightarrow\):由凸性,\(f(x + t(y-x)) \leq f(x) + t(f(y) - f(x))\)。即 \(\frac{f(x + t(y-x)) - f(x)}{t} \leq f(y) - f(x)\)。令 \(t \to 0^+\),左侧趋向 \(\nabla f(x)^T(y-x)\)(方向导数)。故 \(\nabla f(x)^T(y-x) \leq f(y) - f(x)\)。
\(\Leftarrow\):设 \(z = tx + (1-t)y\)。由条件:\(f(x) \geq f(z) + \nabla f(z)^T(x-z)\) 和 \(f(y) \geq f(z) + \nabla f(z)^T(y-z)\)。将第一个乘以 \(t\),第二个乘以 \((1-t)\) 相加:\(tf(x) + (1-t)f(y) \geq f(z) + \nabla f(z)^T(t(x-z) + (1-t)(y-z)) = f(z)\)。\(\square\)
几何意义:函数不低于任何**切线(超平面)**——这就是"支撑超平面性质"。
\(C^2\) 凸性判据:\(f \in C^2\) 凸 \(\Leftrightarrow\) Hessian \(H(x) \succeq 0\)(半正定)对所有 \(x\)。
证明:\(\Rightarrow\):对任意 \(v\),\(g(t) = f(x + tv)\) 是凸的一维函数。\(g''(0) = v^T H(x) v \geq 0\)(凸函数二阶导非负)。
\(\Leftarrow\):由 Taylor 展开,\(f(y) = f(x) + \nabla f(x)^T(y-x) + \frac{1}{2}(y-x)^T H(\xi)(y-x) \geq f(x) + \nabla f(x)^T(y-x)\)(因为 \(H(\xi) \succeq 0\)),即一阶条件成立。\(\square\)
凸函数的极值性质:如果 \(f\) 凸且 \(x^*\) 是局部极小,则 \(x^*\) 是全局极小。证明:设 \(y\) 是另一点,\(f(y) < f(x^*)\)。由凸性,线段 \(x^* + t(y - x^*)\) 上 \(f\) 值 \(\leq (1-t)f(x^*) + tf(y) < f(x^*)\)(\(t > 0\)),矛盾于 \(x^*\) 是局部极小。\(\square\)
这就是凸优化的核心定理——不需要担心"是否找到了全局最优"。只要找到一个满足 \(\nabla f(x) = 0\) 的点,它就是全局最优。
15.3 Jensen 不等式 ⭐⭐¶
定理(Jensen 不等式,有限和形式):\(f\) 凸,\(\lambda_i \geq 0\),\(\sum \lambda_i = 1\)。则
证明(对 \(n\) 归纳):\(n = 2\) 是凸函数定义。设 \(n - 1\) 时成立。\(\sum_{i=1}^{n} \lambda_i x_i = \lambda_n x_n + (1 - \lambda_n) \sum_{i=1}^{n-1} \frac{\lambda_i}{1-\lambda_n} x_i\)。由凸性和归纳假设:
\(\square\)
积分形式(需要测度论的严格版本,见 §100):对概率测度 \(\mu\),
15.4 次微分预告 ⭐⭐⭐¶
定义:\(f\) 在 \(x\) 处的**次微分**(subdifferential)为
\(\partial f(x)\) 中的元素称为**次梯度**。
定理:凸函数在开凸集的内点处次微分非空。(证明利用支撑超平面定理。完整理论在 Layer-2 凸优化中展开。)
次微分是凸优化中处理不可微凸函数的核心工具——例如 \(f(x) = |x|\) 在 \(x = 0\) 处不可微,但 \(\partial f(0) = [-1, 1]\)。
工程桥接:MPC(模型预测控制)的凸二次目标 + 凸约束形成凸 QP 问题——此时全局最优 \(=\) 局部最优(由凸性保证)。Jensen 不等式在机器学习的变分推断(ELBO 推导)和信息论(熵的凹性)中无处不在。
⚠️ 常见陷阱¶
💡 概念误区:认为"连续 \(\Rightarrow\) 凸和凹之一"
大部分连续函数既不凸也不凹。凸性是非常特殊的性质——它要求函数的"弯曲方向"全局一致。
🧠 思维陷阱:混淆"凸函数"和"凸集"
"\(f\) 是凸函数"和"\(f\) 的图像是凸集"是**不同的概念**。凸函数的图像不是凸集;凸函数的上方图(epigraph)才是凸集。
练习¶
- (证明题)证明:\(f: \mathbb{R}^n \to \mathbb{R}\) 凸,\(S = \{x : f(x) \leq c\}\)(下水平集)是凸集。反过来,下水平集都是凸集是否意味着 \(f\) 凸?给出证明或反例。
- (推导题)用 Jensen 不等式证明 AM-GM 不等式:\(\frac{x_1 + \cdots + x_n}{n} \geq (x_1 \cdots x_n)^{1/n}\)(\(x_i > 0\))。
§16 函数空间 \(C(X)\) 初步 ⭐⭐⭐¶
本节是泛函分析(§110)的入口——将前面所有工具在"函数空间"这个统一框架中汇聚。
16.1 \(C(X)\) 与 sup 范数 ⭐⭐¶
定义:\(X\) 紧度量空间。\(C(X, \mathbb{R}^n)\) 表示从 \(X\) 到 \(\mathbb{R}^n\) 的连续函数全体。配以 sup 范数:
验证范数公理:
- \(\|f\|_\infty \geq 0\),等号当且仅当 \(f \equiv 0\)(极值定理保证 sup 可达到)
- \(\|\alpha f\|_\infty = |\alpha| \cdot \|f\|_\infty\)
- \(\|f + g\|_\infty \leq \|f\|_\infty + \|g\|_\infty\)
定理:\((C(X), \|\cdot\|_\infty)\) 是 Banach 空间(完备赋范空间)。
证明:设 \(\{f_n\}\) 是 \(C(X)\) 中的 Cauchy 列(关于 \(\|\cdot\|_\infty\))。则 \(\{f_n\}\) 一致 Cauchy(定义相同)。由 §7.2,\(f_n\) 一致收敛到某 \(f\)。由 §7.3 定理 1,\(f\) 连续,即 \(f \in C(X)\)。因此 Cauchy 列在 \(C(X)\) 中收敛——完备性成立。\(\square\)
阶段小结:\(C(X)\) 的完备性证明汇聚了三个结果:§7.2(一致 Cauchy \(\Rightarrow\) 一致收敛,利用 \(\mathbb{R}\) 的完备性),§7.3(一致收敛保持连续性),以及 sup 范数与一致收敛的等价。这展示了本章各部分如何像积木一样搭建起来。
16.2 子集的拓扑性质 ⭐⭐⭐¶
本章前面的两大定理在 \(C(X)\) 中有优美的表述:
- 紧性(Arzelà-Ascoli,§8):\(\mathcal{F} \subseteq C(X)\) 相对紧 \(\Leftrightarrow\) 逐点有界 + 等度连续
- 稠密性(Stone-Weierstrass,§9):含常数、分离点的子代数在 \(C(X)\) 中稠密
由 Stone-Weierstrass,\(C([a, b])\) 是**可分**的:取多项式的有理系数子集——它是可数的且稠密(有理系数多项式一致逼近连续函数,再用 \(\mathbb{Q}\) 逼近系数)。
可分性在泛函分析中意义重大——它保证了可数正交基的存在(在 Hilbert 空间中),是 Fourier 分析的前提。
\(C(X)\) 的结构总结:
| 性质 | 结论 | 证明来源 |
|---|---|---|
| 完备性 | \((C(X), \|\cdot\|_\infty)\) 是 Banach 空间 | §7.2 + §7.3 |
| 可分性 | \(C([a,b])\) 可分 | Stone-Weierstrass + \(\mathbb{Q}\) 稠密 |
| 紧子集刻画 | 逐点有界 + 等度连续 | Arzelà-Ascoli §8 |
| 稠密子集刻画 | 含常数分离点的子代数 | Stone-Weierstrass §9 |
这四个性质——完备性、可分性、紧子集刻画、稠密子集刻画——构成了泛函分析对 Banach 空间研究的四大支柱。\(C(X)\) 是所有支柱都有具体答案的"模范空间"。
16.3 通向泛函分析 ⭐⭐⭐¶
\(C(X)\) 是第一个非平凡的 Banach 空间实例。在 §110 泛函分析中,我们将:
- 研究一般 Banach 空间和 Hilbert 空间
- 将 Arzelà-Ascoli 定理推广为紧算子的谱理论
- 将 Stone-Weierstrass 定理推广为 \(C^*\)-代数的 Gelfand 表示
当前只需知道:\(C(X)\) 的完备性、可分性、以及其紧子集和稠密子代数的刻画,构成了泛函分析的出发点。
⚠️ 常见陷阱¶
💡 概念误区:认为"\(C(X)\) 中的闭有界集就是紧的"
这在有限维空间(\(\mathbb{R}^n\),Heine-Borel 定理)中成立,但在无穷维空间中**不成立**。\(C([0,1])\) 中的闭单位球 \(\{f : \|f\|_\infty \leq 1\}\) 不紧——需要额外的等度连续性条件(Arzelà-Ascoli)。这是有限维与无穷维空间的本质区别。
🧠 思维陷阱:认为"完备性在所有范数下都成立"
\(C([0,1])\) 在 sup 范数下完备,但在 \(L^1\) 范数 \(\|f\|_1 = \int |f|\) 下**不完备**(\(L^1\) 完备化得到的是 Lebesgue 可积函数空间,不仅仅是连续函数)。完备性依赖于所选的范数。
练习¶
- (证明题)证明 \(C([0, 1])\) 是可分的。(提示:有理系数多项式。)
- (开放思考题)\(C([0, 1])\) 中的闭单位球不紧。这对机器学习中函数空间上的优化有什么影响?
§17 与后续章节的接口¶
本节总结 B1 的成果如何输入到 B2/B3/B4/Layer-1。读完本节,你应该知道本章的每一个工具在后续理论中的确切用途。
17.1 \(\to\) §100 测度论¶
核心接口:本章的 Riemann 积分理论在 §100 中被全面升级为 Lebesgue 积分。
- §6 Riemann 积分的 Lebesgue 可积判据(\(f\) Riemann 可积 \(\Leftrightarrow\) 不连续点集 Lebesgue 零测)是 §100 的核心动机——Lebesgue 理论给出"哪些函数可积"的最终回答
- §14 Fubini 定理的 Lebesgue 版本(Tonelli-Fubini)更强大——对非负可测函数**总是成立**,不需要额外的可积性假设。这消除了 Riemann 版本中的技术限制
- §14 变量替换的 Lebesgue 版本需要绝对连续测度的概念——Radon-Nikodym 定理
- §6 的 R-S 积分框架自然延伸为一般测度上的积分——\(\int f \, d\mu\)
为什么需要升级:Riemann 积分在三个方面有根本局限:(1) 可积函数类太窄(Dirichlet 函数不可积);(2) 极限和积分的交换条件太强(需要一致收敛);(3) 完备性不好(Riemann 可积函数在 \(L^1\) 范数下不完备)。Lebesgue 理论彻底解决了这三个问题。
17.2 \(\to\) §110 泛函分析¶
核心接口:本章的函数空间理论在 §110 中被系统化。
- §16 \(C(X)\) 是首个 Banach 空间实例——§110 将研究一般 Banach 空间的理论(Hahn-Banach、开映射、闭图像定理)
- §8 Arzelà-Ascoli 定理在 §110 中推广为紧算子的谱理论——紧算子是"类有限维"的算子,Arzelà-Ascoli 告诉我们何时积分算子是紧的
- §9 Stone-Weierstrass 推广为 \(C^*\)-代数的 Gelfand 表示——揭示了交换 Banach 代数与紧空间之间的深刻对偶
- §10 压缩映射原理在 Banach 空间框架下自然工作——它不需要有限维
17.3 \(\to\) §120 常微分方程¶
核心接口:本章提供了 ODE 理论的几乎所有分析工具。
- §10 压缩映射 + §6 积分算子 \(\Rightarrow\) Picard-Lindelöf 局部存在唯一性(§10.4 已给出框架)
- §8 Arzelà-Ascoli \(\Rightarrow\) Peano 存在性定理(无 Lipschitz 条件时解存在但可能不唯一——用 Arzelà-Ascoli 从近似解序列中提取收敛子列)
- §11-§13 多变量微分 \(\Rightarrow\) 解对初值和参数的光滑依赖性(\(C^k\) 动力系统的解是初值的 \(C^k\) 函数)
17.4 \(\to\) Layer-1 微分流形¶
核心接口:本章的反/隐函数定理是微分流形的基石。
- §12 反函数定理保证坐标卡的变换映射是微分同胚——这是流形定义的核心
- §12 隐函数定理是"子流形判据"——方程 \(F(x) = 0\) 在非退化点附近定义光滑子流形
- §12 + 秩定理(预告)给出了浸入和淹没的局部标准形
- §13 Hessian 分类是 Morse 理论入口——Morse 函数的临界点决定了流形的拓扑
- §14 变量替换是流形上积分与体积形式的原型——微分形式 \(\omega\) 的积分定义需要变量替换公式
本章常见误解汇总¶
| 误解 | 正确理解 |
|---|---|
| 完备性就是 Cauchy 完备性 | \(\mathbb{R}\) 的完备性有四种等价表述,Cauchy 完备性只是其一(且需要 Archimedean 性质) |
| \(a_n \to 0\) 意味着 \(\sum a_n\) 收敛 | \(a_n \to 0\) 是必要条件,不是充分条件(调和级数反例) |
| 偏导数存在 \(\Rightarrow\) 可微 | 偏导数存在甚至方向导数存在都不保证可微;需偏导数**连续** |
| 中值定理对向量值函数成立 | 不成立,只有 MVT 不等式 |
| 逐点收敛保持连续性 | 不保持;需**一致收敛** |
| \(C(X)\) 中闭有界集是紧的 | 无穷维空间中不成立;需 Arzelà-Ascoli 条件 |
| 反函数定理给出全局逆 | 只给出**局部**逆 |
| Hessian 半正定就是极小点 | 半定情况不确定,需高阶分析 |
本章小结¶
符号表¶
| 符号 | 含义 | 首次出现 |
|---|---|---|
| \(\sup S\) | 集合 \(S\) 的上确界 | §1.2 |
| \(\limsup a_n\) | 序列的上极限 | §2.2 |
| \(f \rightrightarrows g\) | \(f_n\) 一致收敛到 \(g\) | §7.1 |
| \(\|\cdot\|_\infty\) | sup 范数 | §7.1 |
| \(Df(a)\) | \(f\) 在 \(a\) 的 Fréchet 导数(总导数) | §11.2 |
| \(J_f(a)\) | \(f\) 在 \(a\) 的 Jacobian 矩阵 | §11.2 |
| \(H(a)\) | Hessian 矩阵 \(D^2 f(a)\) | §13.3 |
| \(\mathscr{R}(\alpha)\) | 关于 \(\alpha\) 的 R-S 可积函数类 | §6.2 |
| \(GL(\mathbb{R}^n)\) | \(n \times n\) 可逆矩阵全体 | §12.1 |
| \(C(X)\) | \(X\) 上连续函数空间(配 sup 范数) | §16.1 |
| \(\partial f(x)\) | \(f\) 在 \(x\) 的次微分 | §15.4 |
定理速查表¶
| 定理/公式 | 一句话说明 | 对应节 |
|---|---|---|
| 完备性四等价 | LUB \(\Leftrightarrow\) MCT \(\Leftrightarrow\) NIP \(\Leftrightarrow\) BW | §1.4 |
| Heine-Cantor | 紧集上连续 \(\Rightarrow\) 一致连续 | §4.1 |
| MVT 链 | Rolle \(\to\) Lagrange \(\to\) Cauchy 中值定理 | §5.2 |
| FTC | 微分和积分互为逆运算 | §6.4 |
| 一致收敛三大定理 | 保持连续/积分/(条件下)微分 | §7.3 |
| Weierstrass M-判别法 | \(\sum M_n < \infty \Rightarrow \sum f_n\) 一致收敛 | §7.4 |
| Arzelà-Ascoli | 逐点有界 + 等度连续 \(\Leftrightarrow\) 相对紧 | §8.3 |
| Stone-Weierstrass | 含常数分离点的子代数在 \(C(X)\) 中稠密 | §9.2 |
| Banach 压缩映射 | 完备空间上压缩映射有唯一不动点 | §10.2 |
| 反函数定理 | \(Df(a)\) 可逆 \(\Rightarrow\) \(f\) 局部 \(C^1\) 同胚 | §12.2 |
| 隐函数定理 | \(\partial_y F\) 可逆 \(\Rightarrow\) \(F=0\) 局部可表为 \(y = g(x)\) | §12.3 |
| 变量替换 | $\int_V f = \int_U (f \circ \phi) | \det D\phi |
| Jensen 不等式 | 凸函数保期望不等式 | §15.3 |
知识点总表¶
| 编号 | 知识点 | 核心要点 | 对应节 | 难度 |
|---|---|---|---|---|
| 1 | 实数完备性 | 四种等价表述及其证明循环 | §1 | ⭐ |
| 2 | 序列与级数 | 收敛判别法、\(\limsup/\liminf\)、重排定理 | §2 | ⭐ |
| 3 | 连续性 | 三种等价定义、极值定理、中间值定理 | §3 | ⭐ |
| 4 | 一致连续与 Lipschitz | 连续性强弱链、Heine-Cantor | §4 | ⭐ |
| 5 | 单变量微分 | MVT 链、Taylor 定理 | §5 | ⭐ |
| 6 | Riemann-Stieltjes 积分 | FTC、分部积分、变量替换 | §6 | ⭐⭐ |
| 7 | 一致收敛 | 三大保持定理、M-判别法 | §7 | ⭐⭐ |
| 8 | Arzelà-Ascoli | 等度连续与函数空间紧致性 | §8 | ⭐⭐⭐ |
| 9 | Stone-Weierstrass | 逼近定理与通用逼近 | §9 | ⭐⭐⭐ |
| 10 | 压缩映射 | Banach 不动点定理及其应用 | §10 | ⭐⭐ |
| 11 | 多变量微分 | 总导数、链式法则 | §11 | ⭐⭐ |
| 12 | 反/隐函数定理 | 局部可逆性与方程求解 | §12 | ⭐⭐ |
| 13 | 高阶 Taylor 与临界点 | Hessian 分类、Morse 引理 | §13 | ⭐⭐ |
| 14 | 多变量积分 | Fubini、变量替换 | §14 | ⭐⭐ |
| 15 | 凸性 | Jensen 不等式、次微分 | §15 | ⭐⭐ |
| 16 | 函数空间 \(C(X)\) | Banach 空间、可分性 | §16 | ⭐⭐⭐ |
累积项目:手写核心分析库 · 本章新增模块¶
项目概述:从零构建一个 Python 实分析验证库,每章新增一个模块。
本章新增(第 9 章):
# real_analysis/completeness.py
# 验证实数完备性的数值实验
import numpy as np
def bisection_sup(S_indicator, a, b, tol=1e-10):
"""
用二分法逼近集合 S 的上确界
S_indicator: 函数,判断 x 是否属于 S
[a, b]: 搜索区间
演示闭区间套方法(NIP)
"""
while b - a > tol:
mid = (a + b) / 2
# 检查 mid 右边是否还有 S 的元素
if any(S_indicator(np.linspace(mid, b, 1000))):
a = mid
else:
b = mid
return (a + b) / 2
def contraction_iteration(T, x0, k, n_iter=100, tol=1e-12):
"""
Banach 压缩映射迭代
T: 压缩映射
x0: 初始点
k: 压缩系数
返回:不动点近似值和误差上界序列
"""
x = x0
errors = []
d0 = abs(T(x0) - x0) # d(x0, Tx0)
for i in range(n_iter):
x_new = T(x)
error_bound = k**(i+1) / (1 - k) * d0
errors.append(error_bound)
if abs(x_new - x) < tol:
break
x = x_new
return x, errors
# 验证:cos(x) 的不动点
fixed_pt, errs = contraction_iteration(np.cos, 0.0, k=0.8)
# fixed_pt ≈ 0.7390851332... (Dottie number)
前几章的模块回顾:§10 集合论模块(集合操作)→ §20 线性代数模块(矩阵运算)→ §70 拓扑模块(开集/闭集判断)→ 本章新增:完备性验证 + 压缩映射迭代。
延伸阅读¶
| 资源 | 类型 | 难度 | 说明 |
|---|---|---|---|
| Rudin, Principles of Mathematical Analysis (3rd ed, 1976) | 教材 | ⭐⭐ | 实分析的标准参考,以简洁严格著称 |
| Pugh, Real Mathematical Analysis (2nd ed, 2015) | 教材 | ⭐⭐ | 直觉与图示丰富,适合与 Rudin 互补 |
| Abbott, Understanding Analysis (2nd ed, 2015) | 教材 | ⭐ | 入门首选,注重"为什么",讨论题引入 |
| Zorich, Mathematical Analysis I/II (2nd ed, 2016) | 教材 | ⭐⭐⭐ | 俄派风格,全面且有丰富例题与应用 |
| Spivak, Calculus on Manifolds (1965) | 教材 | ⭐⭐⭐ | 多变量微积分的"正确做法",为流形铺路 |
| Tao, Analysis I/II (3rd ed, 2016) | 教材 | ⭐⭐ | 现代风格,从自然数构造出发,逻辑极清晰 |
| Propp, "Real Analysis in Reverse" (2013) | 论文 | ⭐⭐⭐ | 72 种完备性等价表述的系统性综述 |
本章与后续章节的关系¶
| 后续章节 | 与本章的关系 | 本章哪个知识点为其铺垫 |
|---|---|---|
| §100 测度论 | R-S 积分的 Lebesgue 推广 | §6 R-S 积分、§14 Fubini |
| §110 泛函分析 | \(C(X)\) 是首个 Banach 空间 | §16 函数空间、§8 Arzelà-Ascoli、§9 Stone-Weierstrass |
| §120 常微分方程 | Picard-Lindelöf 的完整证明 | §10 压缩映射、§4 Lipschitz 条件 |
| Layer-1 微分流形 | 子流形与坐标卡 | §12 反/隐函数定理 |
| Layer-2 优化 | 凸优化基础 | §15 凸性与 Jensen |
故障排查手册¶
| 症状 | 可能原因 | 排查步骤 | 相关章节 |
|---|---|---|---|
| 证明"极限存在"时卡住 | 没有选对完备性工具 | 1. 明确是序列/集合/区间的问题 2. 依次尝试 MCT/BW/NIP/LUB 3. 检查有界性条件是否满足 | §1 |
| 级数收敛判别失败 | 比值法/根值法临界 \(r=1\) | 1. 尝试 Cauchy 凝聚 2. 直接比较法 3. Dirichlet/Abel 判别 4. 检查交错级数 | §2 |
| 连续性证明中 \(\delta\) 选不出 | 没有利用紧致性或一致连续 | 1. 检查定义域是否紧 2. 如紧,用 Heine-Cantor 3. 如不紧,考虑是否真的一致连续 | §3-§4 |
| 多变量函数可微性证明有误 | 混淆偏导数存在与可微 | 1. 检查是否满足"偏导数连续"条件 2. 构造反例测试 3. 用 Fréchet 定义直接验证 | §11 |
| 反函数定理应用后得到矛盾 | 在奇异点使用了定理 | 1. 检查 \(Df(a)\) 是否可逆 2. 计算 Jacobian 的秩 3. 如在奇异点,改用伪逆或正则化 | §12 |
| 函数序列极限不连续 | 只有逐点收敛,不是一致收敛 | 1. 计算 $\sup | f_n - f |
研究实践建议¶
给初学者¶
- 先读 Abbott:这是最温和的入门书,每章用讨论题引入,帮助建立"为什么需要严格化"的直觉
- 精做 Rudin 习题:Rudin 的正文简洁到近乎神谕,但习题是金矿——很多重要结果藏在习题中
- 画图! 实分析虽然严格,但核心概念都有几何直觉。每遇到新定理,先画图理解再看证明
- 背证明框架:许多证明共享"取 \(\varepsilon > 0\),选 \(N/\delta\),估计"的模式。掌握这个框架比记忆具体证明更重要
给有经验者¶
- 关注定理的"反面":每个定理去掉一个条件后是否还成立?反例是什么?这些反例往往比定理本身更有洞察力。以下是本章最重要的反例清单:
| 定理 | 去掉的条件 | 反例 |
|---|---|---|
| 极值定理 | 紧致性 | \(1/x\) 在 \((0,1)\) 无最大值 |
| Heine-Cantor | 紧致性 | \(1/x\) 在 \((0,1)\) 不一致连续 |
| MVT | 向量值函数 | \((\cos t, \sin t)\) 在 \([0, 2\pi]\) |
| 一致收敛保连续 | 一致性 | \(x^n\) 在 \([0,1]\) 逐点极限不连续 |
| Banach 不动点 | 完备性 | \(T(x)=x/2\) 在 \((0,1) \cap \mathbb{Q}\) |
| 反函数定理 | \(Df(a)\) 可逆 | 奇异位形处 IK 不唯一 |
- 追踪主线:完备性 \(\to\) 压缩映射 \(\to\) 反函数定理 \(\to\) 流形理论——这条主线是数学分析的脊梁
- 建立与应用的联系:每学一个定理,问"这在机器人/控制/ML 中哪里用到?"——本章的工程桥接给出了起点
- 准备两条独立的 IFT 证明路径:压缩映射路径(本章)和 Newton 迭代路径(更接近数值分析),两者互相验证
- 从范畴论视角审视:连续映射保紧、保连通——这些是函子保持的性质。这种"结构保持"的思维方式在抽象代数(§80)和代数拓扑中会系统展开
版本信息速查¶
| 工具/教材 | 版本 | 说明 |
|---|---|---|
| Rudin, Principles of Mathematical Analysis | 第 3 版 (1976) | 标准参考 |
| Pugh, Real Mathematical Analysis | 第 2 版 (2015) | 图示直觉补充 |
| Abbott, Understanding Analysis | 第 2 版 (2015) | 入门推荐 |
| Zorich, Mathematical Analysis | 第 2 版 (2016) | 俄派全面性 |
| Spivak, Calculus on Manifolds | 第 1 版 (1965) | 多变量经典 |
| Tao, Analysis I/II | 第 3 版 (2016) | 现代构造 |
| Dieudonné, Foundations of Modern Analysis | 第 1 版 (1960) | Banach 空间风味 IFT |
| Python/NumPy | 1.24+ | 数值验证用 |
| Bartle, The Elements of Real Analysis | 第 2 版 (1976) | 偏重序列和级数 |
结语¶
实分析不仅是数学的基础设施,更是一种思维方式——用 \(\varepsilon\)-\(\delta\) 的精确性驾驭无穷过程。本章覆盖的 17 节内容构成了一条从实数完备性到函数空间的完整链条。每一步都建立在前一步之上:完备性催生极限理论,极限理论催生连续性和微积分,微积分催生函数空间,函数空间催生反/隐函数定理——最终为微分流形和泛函分析铺平道路。
在机器人学的语境中,本章的每一个主定理都有直接的工程意义:完备性保证优化问题有解,Lipschitz 条件保证控制系统的行为可预测,压缩映射保证迭代算法收敛,反函数定理保证逆运动学局部存在。没有 B1,Layer-1 的微分流形只是符号游戏;有了 B1,流形、李群、最优控制、概率测度才能以机器人学家需要的严格程度展开。
附录 A:主定理完整证明清单¶
以下 15 个定理要求能够在不看书的情况下独立完整证明:
| 编号 | 定理 | 所在节 | 核心证明工具 | 难度 |
|---|---|---|---|---|
| T1 | Bolzano-Weierstrass | §1.4 | 闭区间套 / LUB | ⭐ |
| T2 | Heine-Borel(\(\mathbb{R}^n\) 版) | §1.4 / §70 | 总有限覆盖 + B-W | ⭐ |
| T3 | Intermediate Value Theorem | §3.3 | 连通性 + LUB | ⭐ |
| T4 | Extreme Value Theorem | §3.2 | 紧像 + B-W | ⭐ |
| T5 | MVT 链(Rolle / Lagrange / Cauchy) | §5.2 | EVT + Fermat 引理 | ⭐ |
| T6 | Taylor 定理(三种余项) | §5.4 | Rolle 归纳 / Cauchy MVT / FTC | ⭐⭐ |
| T7 | R-S 可积性判据 | §6.2 | Darboux 上下和 | ⭐⭐ |
| T8 | Fundamental Theorem of Calculus | §6.4 | 连续性 + MVT | ⭐ |
| T9 | 一致收敛保持定理(三个) | §7.3 | \(\varepsilon/3\) 论证 + MVT | ⭐⭐ |
| T10 | Arzelà-Ascoli | §8.3 | 可分性 + Cantor 对角线 | ⭐⭐⭐ |
| T11 | Stone-Weierstrass(代数版) | §9.2 | lattice 技术 + 绝对值逼近 | ⭐⭐⭐ |
| T12 | Banach 压缩映射原理 | §10.2 | 等比估计 + 完备性 | ⭐⭐ |
| T13 | Inverse Function Theorem | §12.2 | T12 + Neumann 级数 | ⭐⭐⭐ |
| T14 | Implicit Function Theorem | §12.3 | 由 T13 导出 | ⭐⭐ |
| T15 | \(\mathbb{R}^n\) 变量替换公式 | §14.4 | T13 + 单位分拆 | ⭐⭐⭐ |
附录 B:教材对照表¶
| 节 | 主题 | Rudin | Pugh | Zorich | Spivak | Tao | Abbott |
|---|---|---|---|---|---|---|---|
| §1 | \(\mathbb{R}\) 完备性 | Ch 1 | 1.1-1.3 | I.2 | -- | I.5 | Ch 1-2 |
| §2 | 序列与级数 | Ch 3 | 1.4, 2.5 | I.3, III | -- | I.6-7 | Ch 2 |
| §3 | 连续性 | Ch 4 | 2.1-2.4 | II.9-10 | -- | II.13 | Ch 4 |
| §4 | 一致连续 | 4.18-4.22 | 2.3 | II.10 | -- | -- | 4.4 |
| §5 | 单变量微分 | Ch 5 | 3.1-3.3 | I.5 | -- | I.10 | Ch 5 |
| §6 | R-S 积分 | Ch 6 | 3.4 | I.6 | -- | I.11 | Ch 7 |
| §7 | 一致收敛 | Ch 7 | 4.1-4.4 | II.16 | -- | II.14 | Ch 6 |
| §8 | Arzelà-Ascoli | 7.22-7.25 | 4.5 | II.17 | -- | -- | -- |
| §9 | Stone-Weierstrass | 7.26-7.33 | 4.6 | -- | -- | -- | -- |
| §10 | 压缩映射 | Ex 9.30 | 4.3 | II.9.7 | 2.5 | -- | -- |
| §11 | 多变量微分 | Ch 9 | 5.1-5.2 | II.8 | Ch 2 | II.17 | -- |
| §12 | 反/隐函数定理 | 9.17-9.29 | 5.3 | II.8.6 | 2.11-2.13 | II.17 | -- |
| §13 | 高阶 Taylor | 9.38-9.42 | 5.4 | II.8.4 | Ch 2 末 | -- | -- |
| §14 | 多变量积分 | 10.1-10.9 | 5.5 | II.11 | Ch 3 | II.18 | -- |
| §15 | 凸性 | Ex 5.14 | 3.3 | V.6 | -- | -- | -- |
使用策略:以 Rudin 为主线(严格、简洁);每节对照 Pugh 的图示获得几何直觉;多变量部分用 Spivak 补 Rudin 的简略证明;Zorich 作为长线参考(含丰富例题与应用)。Abbott 适合作为 §1-§7 的入门第一遍阅读。
附录 C:习题策略与验收标准¶
习题配置建议¶
- A 组(30%):直接验证定义、简单计算、基本推论
- B 组(50%):标准证明题,覆盖定理变体
- C 组(20%):综合 / 反例构造 / 开放性
验收标准(自检)¶
- 能在不看书情况下独立完整证明附录 A 中 15 个主定理的至少 12 个
- 能对 §12 IFT 给出至少两条不同证明路径(压缩映射 vs Newton 迭代)
- 能在 10 分钟内解释"Lipschitz 条件如何保证 ODE 解的唯一性"
- 能识别并反驳 6 个常见错误命题(如"偏导存在 \(\Rightarrow\) 可微"、"\(a_n \to 0 \Rightarrow \sum a_n\) 收敛")
- 能将完备性的四种等价表述应用于不同类型的证明
- 能解释 Arzelà-Ascoli 和 Stone-Weierstrass 定理的证明策略及其在机器人/ML 中的应用
- 能用 Hessian 矩阵对多变量函数的临界点进行分类(极小/极大/鞍点)
- 能用变量替换公式计算多变量积分,并解释 \(|\det D\phi|\) 的几何意义