实分析（Real Analysis）¶

所属层级：Layer-0 · Batch B · Task 1 面向对象：机器人学博士生 Layer-0 数学基础 深度要求：极端严格，不留空白——每个定理完整证明，每步推导交代动机先修：集合论与 $\mathbb{R}$ 的 Dedekind 构造（§10）· 向量空间基础（§20）· 点集拓扑（§70，可并行）后续：测度论与 Lebesgue 积分（§100）· 泛函分析（§110）· 常微分方程（§120）· Layer-1 微分流形与优化

前置自测¶

📋 答不出 $\geq 2$ 题 $\to$ 先回 §10/§20/§70 复习

实数的完备性：什么是有序域的最小上界性质（Least Upper Bound Property）？为什么 $\mathbb{Q}$ 不满足这个性质？请举出一个具体的反例。
序列与极限：用 $\varepsilon$-$N$ 语言精确叙述"序列 $\{a_n\}$ 收敛到 $L$"的定义。Cauchy 列和收敛列的关系是什么？
度量空间基础：什么是度量空间中的开集？紧集的定义是什么？Heine-Borel 定理在 $\mathbb{R}^n$ 中怎么表述？
线性映射：什么是从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的线性映射？它的矩阵表示和映射本身是什么关系？
连续性直觉：给出一个在 $[0,1]$ 上连续但不一致连续的函数的例子——等等，这可能吗？如果不可能，说明原因。

本章目标¶

学完本章后，你应该能够：

**完整复述**实数完备性的四种等价表述，并证明它们之间的等价关系
独立证明 Bolzano-Weierstrass 定理、中值定理链（Rolle $\to$ Lagrange $\to$ Cauchy）、微积分基本定理
**严格区分**逐点收敛与一致收敛，并掌握一致收敛保持连续/积分/微分的三大定理
完整证明 Banach 压缩映射原理及其在 ODE 存在唯一性中的应用框架
**完整证明**反函数定理与隐函数定理，理解其与压缩映射原理的关系
理解 Arzelà-Ascoli 定理和 Stone-Weierstrass 定理的证明思路及其在函数逼近中的意义
**建立**实分析与机器人学的桥梁：正/逆运动学的局部可逆性、Lipschitz 连续性在控制论中的角色、函数逼近与神经网络

本章知识导航¶

实分析是数学分析的严格化——它将微积分从"直觉计算工具"提升为"有坚实地基的逻辑大厦"。本章的知识结构可以分为三条主线：

主线一：完备性与极限理论（§1-§2）从实数的完备性出发，建立序列、级数的收敛理论。这是所有后续内容的地基。

主线二：连续性与微积分（§3-§6）在完备性的基础上，严格定义连续性、微分、积分，证明微积分基本定理。这是对本科微积分的"重新审视"。

主线三：函数空间与高维推广（§7-§12）从函数序列的收敛出发，建立函数空间的理论，然后推广到多变量微积分和反/隐函数定理。这是通向泛函分析和微分流形的桥梁。

§1 实数完备性 ──→ §2 序列与级数 ──→ §3 连续性 ──→ §4 一致连续与Lipschitz
       │                │                │                │
       │                │                ▼                ▼
       │                │           §5 单变量微分 ──→ §6 Riemann-Stieltjes积分
       │                │                                │
       │                ▼                                ▼
       │         §7 函数序列一致收敛 ──→ §8 Arzelà-Ascoli
       │                │                │
       │                ▼                ▼
       │         §9 Stone-Weierstrass    §10 压缩映射原理
       │                                     │
       ▼                                     ▼
  §15 凸性与Jensen     §11 多变量微分 ──→ §12 反/隐函数定理
                              │
                              ▼
                    §13 高阶Taylor ──→ §14 多变量积分

推荐阅读路径：§1-§6 为主干，必须按顺序精读；§7-§10 可在 §6 之后平行阅读；§11-§14 依赖 §5-§6 和 §10；§15 相对独立，可随时插入。

前置知识桥接¶

回顾 §10 集合论：在那里我们通过 Dedekind 分割从有理数 $\mathbb{Q}$ 构造了实数 $\mathbb{R}$，并证明 $\mathbb{R}$ 是完备有序域。本章**从这个结果出发**，将完备性化为分析学的核心工具——不再关心"$\mathbb{R}$ 是如何构造的"，而是关心"完备性能帮我们证明什么"。

回顾 §20 向量空间：线性映射 $L: \mathbb{R}^n \to \mathbb{R}^m$ 的概念将在 §11 多变量微分中扮演核心角色——总导数（Fréchet 导数）本质上就是"最佳线性逼近"。

回顾 §70 点集拓扑：度量空间、开集、紧集、连通集的抽象定义已在 §70 中建立。本章**不重复这些抽象内容**，而是把它们"落地"到 $\mathbb{R}$ 和 $\mathbb{R}^n$ 上做具体分析。

如果跳过本章会怎样¶

微分流形无法入门：流形上的坐标卡变换依赖反函数定理（§12），子流形的定义依赖隐函数定理——不学本章，Layer-1 的微分几何完全无法展开。
控制理论的收敛性分析无从谈起：机器人控制中的 Picard-Lindelöf 定理（ODE 解的存在唯一性）直接依赖压缩映射原理（§10）；Lipschitz 条件（§4）是控制系统稳定性分析的基本工具。

预计阅读时间¶

阅读方式	时间	适合谁
精读（含推导和练习）	40-50 小时	需要深入理解理论基础的读者
速读（跳过部分推导细节）	15-20 小时	有本科分析基础、需要复习的读者
速查（只看定理和速查表）	2-3 小时	遇到具体问题时回来查阅

§1 实数系的完备性再审视 ⭐¶

上节解决了什么：§10 集合论中我们从零构造了 $\mathbb{R}$。本节解决什么：把完备性从"构造副产品"提升为"分析核心工具"，建立四种等价表述之间的完整证明链。

1.1 动机：为什么完备性是实分析的基石¶

在本科微积分中，我们自由地使用极限、连续、微分、积分，很少追问：为什么这些操作是合法的？ 答案几乎总是回到同一个地方——实数的完备性。

考虑一个看似简单的问题：方程 $x^2 = 2$ 在 $\mathbb{Q}$ 中没有解。更准确地说，我们可以构造一个有理数序列 $\{a_n\}$——比如用 Newton 迭代 $a_{n+1} = \frac{1}{2}(a_n + \frac{2}{a_n})$，从 $a_0 = 1$ 出发——它在直觉上"趋近于 $\sqrt{2}$"，但在 $\mathbb{Q}$ 中**没有极限**。这意味着 $\mathbb{Q}$ 作为分析学的舞台是有缺陷的：序列可以"越来越聚拢"（Cauchy 列），却找不到聚拢的目标。

类比：想象一条数轴上布满了"洞"——$\mathbb{Q}$ 就是这样的数轴。有理数之间有无理数大小的"空隙"。完备性就是"填满所有空隙"——$\mathbb{R}$ 是没有洞的数轴。这个类比在"序列极限存在"的层面是准确的，但要注意：$\mathbb{Q}$ 在 $\mathbb{R}$ 中是稠密的（任何两个实数之间都有有理数），所以"洞"不是肉眼可见的间隙，而是"极限过程中的缺失"。

1.2 最小上界性质（LUB） ⭐¶

定义（最小上界性质，Least Upper Bound Property）：有序域 $F$ 满足最小上界性质，是指 $F$ 中每个非空有上界的子集都有上确界（最小上界）。

用符号表示：若 $S \subseteq F$ 非空且 $\exists M \in F, \forall x \in S, x \leq M$，则 $\exists \sup S \in F$ 使得

\[\forall x \in S,\; x \leq \sup S \quad \text{且} \quad \forall \varepsilon > 0,\; \exists x_0 \in S,\; x_0 > \sup S - \varepsilon\]

第二个条件是"最小性"——$\sup S$ 是所有上界中最小的那个。

为什么 $\mathbb{Q}$ 不满足 LUB：取 $S = \{q \in \mathbb{Q} : q^2 < 2\}$。这个集合非空（$1 \in S$），有上界（$2$ 是上界），但在 $\mathbb{Q}$ 中**没有上确界**。如果上确界 $\alpha$ 存在于 $\mathbb{Q}$ 中，则必有 $\alpha^2 = 2$（否则可以构造更好的上界或找到更大的元素），但 $\sqrt{2} \notin \mathbb{Q}$——矛盾。这就是 $\mathbb{Q}$ 的"洞"的精确数学表述。

本质洞察：LUB 性质的本质不是"某个集合有上确界"这件具体的事，而是"极限过程不会把我们带出实数系"这个保证。实分析中几乎所有存在性定理（极限存在、最大值存在、不动点存在……）最终都回溯到 LUB。

1.3 Archimedean 性质与 $\mathbb{Q}$ 的稠密性 ⭐¶

定理（Archimedean 性质）：对任意 $x, y \in \mathbb{R}$，$x > 0$，存在正整数 $n$ 使得 $nx > y$。

证明：用反证法。假设对所有正整数 $n$ 都有 $nx \leq y$。则集合 $A = \{nx : n \in \mathbb{N}\}$ 有上界 $y$。由 LUB，$\alpha = \sup A$ 存在。由于 $\alpha$ 是上界，$(n+1)x \leq \alpha$，即 $nx \leq \alpha - x$。这说明 $\alpha - x$ 也是 $A$ 的上界——但 $\alpha - x < \alpha$，与 $\alpha$ 是最小上界矛盾。$\square$

这个证明展示了 LUB 的典型用法：假设结论不成立 $\to$ 构造有界集合 $\to$ 取上确界 $\to$ 利用"最小性"得到矛盾。这是实分析中最常见的证明模式之一。

定理（$\mathbb{Q}$ 的稠密性）：对任意实数 $a < b$，存在有理数 $q$ 使得 $a < q < b$。

证明：由 Archimedean 性质，取正整数 $n$ 使得 $n(b - a) > 1$。再取整数 $m = \lfloor na \rfloor + 1$（即大于 $na$ 的最小整数）。则 $m > na$ 即 $\frac{m}{n} > a$。又 $m \leq na + 1 < na + n(b-a) = nb$，即 $\frac{m}{n} < b$。因此 $q = \frac{m}{n}$ 满足 $a < q < b$。$\square$

类似地，可以证明无理数在 $\mathbb{R}$ 中也是稠密的——在任意两个实数之间也存在无理数。

1.4 完备性的四种等价刻画 ⭐⭐¶

实数完备性有多种等价表述。理解它们之间的等价关系，不仅帮助我们灵活选择证明工具，更揭示了完备性这个概念的多面性。

四种表述：

表述	内容	直觉
(LUB) 最小上界性质	非空有上界的集合有上确界	"极限过程不出界"
(MCT) 单调有界收敛	单调有界序列必收敛	"单调递增且有天花板，必定停下"
(NIP) 闭区间套	$[a_n, b_n]$ 递缩且长度 $\to 0$，则交集恰含一点	"越来越精确的逼近锁定一个点"
(BW) Bolzano-Weierstrass	有界序列有收敛子列	"有界序列不可能'永远散开'"

等价性证明循环：我们证明 LUB $\Rightarrow$ MCT $\Rightarrow$ NIP $\Rightarrow$ BW $\Rightarrow$ LUB。

LUB $\Rightarrow$ MCT：设 $\{a_n\}$ 单调递增且有上界 $M$。集合 $S = \{a_n : n \in \mathbb{N}\}$ 非空有上界，由 LUB 取 $\alpha = \sup S$。对任意 $\varepsilon > 0$，由上确界的定义，存在 $a_N > \alpha - \varepsilon$。由单调性，$n \geq N$ 时 $\alpha - \varepsilon < a_N \leq a_n \leq \alpha$，即 $|a_n - \alpha| < \varepsilon$。这证明了 $a_n \to \alpha$。$\square$

阶段小结：到这里我们从"集合的上确界存在"推出了"单调有界序列收敛"。关键步骤是将序列的值域视为集合，然后用上确界作为极限候选。

MCT $\Rightarrow$ NIP：设 $[a_n, b_n]$ 为递缩闭区间套，即 $a_n \leq a_{n+1} \leq b_{n+1} \leq b_n$，且 $b_n - a_n \to 0$。则 $\{a_n\}$ 单调递增有上界 $b_1$，由 MCT 收敛到 $\alpha$。类似地 $\{b_n\}$ 单调递减有下界 $a_1$，收敛到 $\beta$。由 $b_n - a_n \to 0$ 得 $\alpha = \beta$。这个公共极限 $\alpha$ 满足 $\alpha \in [a_n, b_n]$ 对所有 $n$ 成立。若 $x \in \bigcap [a_n, b_n]$，则 $a_n \leq x \leq b_n$ 对所有 $n$ 成立，取极限得 $x = \alpha$。因此交集恰含一点 $\{\alpha\}$。$\square$

NIP $\Rightarrow$ BW：设 $\{x_n\}$ 有界，$x_n \in [a, b]$。将 $[a, b]$ 二等分为 $[a, \frac{a+b}{2}]$ 和 $[\frac{a+b}{2}, b]$，至少有一半包含 $\{x_n\}$ 的无穷多项，选这一半记为 $[a_1, b_1]$。重复此过程，得到闭区间套 $[a_k, b_k]$，长度 $b_k - a_k = \frac{b-a}{2^k} \to 0$，且每个区间包含 $\{x_n\}$ 的无穷多项。在每个 $[a_k, b_k]$ 中选一项 $x_{n_k}$（使 $n_k$ 严格递增），则 $|x_{n_k} - \alpha| \leq b_k - a_k \to 0$，其中 $\alpha$ 是区间套的交点。$\square$

BW $\Rightarrow$ LUB：设 $S$ 非空有上界。取 $b_0$ 为 $S$ 的一个上界，$a_0 \in S$。考虑中点 $c = \frac{a_0 + b_0}{2}$：若 $c$ 是 $S$ 的上界，令 $b_1 = c, a_1 = a_0$；否则存在 $s \in S, s > c$，令 $a_1 = s, b_1 = b_0$。如此构造的 $\{a_n\}$ 和 $\{b_n\}$：$a_n \in S$ 或 $a_n$ 是 $S$ 中某元素（因此 $a_n$ 不是 $S$ 的上界的证据），$b_n$ 是 $S$ 的上界，且 $b_n - a_n \to 0$。由 BW（或由 MCT，但我们要独立于 LUB 证明），$\{a_n\}$ 有收敛子列趋向 $\alpha$。可以验证 $\alpha = \sup S$：$\alpha$ 是上界（因为 $b_n \to \alpha$ 且 $b_n$ 都是上界），且 $\alpha$ 是最小上界（因为 $a_n \to \alpha$ 且任何小于 $\alpha$ 的数不是上界）。$\square$

本质洞察：四种等价表述看似不同，实则抓住了同一个本质——$\mathbb{R}$ 没有"洞"。LUB 从集合论角度说"没有洞"，MCT 从序列角度说"单调逼近必命中目标"，NIP 从区间角度说"缩小范围必锁定一点"，BW 从子列角度说"有界序列必能聚拢"。选哪个作为公理起点是品味问题，但四者等价是 $\mathbb{R}$ 的深层结构决定的。

1.5 Cauchy 完备性 ⭐⭐¶

定义：度量空间 $(X, d)$ 是 **Cauchy 完备**的，如果其中每个 Cauchy 列都收敛。

定理：$\mathbb{R}$（带标准距离 $|x-y|$）是 Cauchy 完备的。

证明：设 $\{a_n\}$ 是 $\mathbb{R}$ 中的 Cauchy 列。Cauchy 列有界（因为 $\exists N, n,m \geq N \Rightarrow |a_n - a_m| < 1$，故 $|a_n| \leq \max\{|a_1|, \ldots, |a_N|, |a_N| + 1\}$）。由 BW，$\{a_n\}$ 有收敛子列 $a_{n_k} \to L$。对任意 $\varepsilon > 0$，取 $N_1$ 使 $n,m \geq N_1 \Rightarrow |a_n - a_m| < \varepsilon/2$，取 $K$ 使 $k \geq K \Rightarrow |a_{n_k} - L| < \varepsilon/2$。对 $n \geq N_1$ 且 $n_k \geq N_1$：

\[|a_n - L| \leq |a_n - a_{n_k}| + |a_{n_k} - L| < \frac{\varepsilon}{2} + \frac{\varepsilon}{2} = \varepsilon\]

因此 $a_n \to L$。$\square$

重要备注：Cauchy 完备性加上 Archimedean 性质等价于 LUB 性质。单有 Cauchy 完备性不够——例如非 Archimedean 的 $p$-adic 数域 $\mathbb{Q}_p$ 是 Cauchy 完备的，但不满足 LUB（它没有全序）。

1.6 扩展实数系 $\overline{\mathbb{R}}$ ⭐¶

为了方便处理无界集合的上确界和 $\limsup$ / $\liminf$，引入 $\overline{\mathbb{R}} = \mathbb{R} \cup \{-\infty, +\infty\}$。

拓扑结构：$\overline{\mathbb{R}}$ 配备**序拓扑**——基本开集为 $(a, b)$、$[-\infty, b)$、$(a, +\infty]$。在这个拓扑下 $\overline{\mathbb{R}}$ 是紧空间（同胚于闭区间 $[-1, 1]$，通过映射 $x \mapsto \frac{2}{\pi}\arctan x$）。

运算约定：对任意 $a \in \mathbb{R}$，$a + (+\infty) = +\infty$，$a + (-\infty) = -\infty$。对 $a > 0$，$a \cdot (+\infty) = +\infty$。注意 $\infty - \infty$ 和 $0 \cdot \infty$ 未定义——这些不定式在极限计算中需要具体分析。

在 $\overline{\mathbb{R}}$ 中的 sup/inf：一个核心优势是，在 $\overline{\mathbb{R}}$ 中**任何非空集合都有上确界和下确界**。对无上界的集合 $S$，$\sup S = +\infty$；对空集以外的无下界集合，$\inf S = -\infty$。这消除了"上确界是否存在"的讨论，简化了后续 $\limsup / \liminf$ 的定义。

工程桥接：在数值优化中，将不可行解的代价设为 $+\infty$ 是标准做法。这不是随意的约定，而是扩展实数系中 $\sup$ 和 $\inf$ 的自然延伸——使得"所有非空集合都有上确界和下确界"成为普遍成立的命题。在控制论的李雅普诺夫函数分析中，函数值域在 $\overline{\mathbb{R}}$ 中取值允许处理"系统在有限时间逃逸到无穷"的情形。

⚠️ 常见陷阱¶

💡 概念误区 1：认为"完备性就是 Cauchy 完备性"

新手想法：$\mathbb{R}$ 的完备性就是"Cauchy 列都收敛"。

实际上：Cauchy 完备性是度量空间的性质，而 LUB 性质是有序域的性质。在 $\mathbb{R}$ 中它们等价（加上 Archimedean 性质），但在一般度量空间中 LUB 没有意义（因为没有序结构）。说"完备性"时要明确是哪种完备性。

🧠 思维陷阱 1：认为"四种等价表述选哪个都一样，不需要都学"

新手想法：既然四种等价，学一种就够了。

实际上：不同证明场景适合不同工具。证明序列收敛通常用 MCT；证明存在性（如中间值定理的证明）用 NIP 或 LUB 最直接；证明紧致性相关结论用 BW。掌握所有四种表述及其证明技巧是实分析的基本功。

💡 概念误区 2：混淆"有界"与"有上确界"

新手想法：集合有界就有上确界，这不是显然的吗？

实际上：在 $\mathbb{Q}$ 中，集合 $\{q \in \mathbb{Q} : q^2 < 2\}$ 有界但在 $\mathbb{Q}$ 中没有上确界。"有界集合有上确界"恰恰是 $\mathbb{R}$ 的特殊性质，不是所有有序域共享的。

练习¶

（证明题）证明：$\mathbb{R}$ 中无理数集在 $\mathbb{R}$ 中稠密，即对任意 $a < b$，存在无理数 $\xi$ 使得 $a < \xi < b$。（提示：利用 $\mathbb{Q}$ 的稠密性和 $\sqrt{2}$ 的无理性。）
（推导题）用 LUB 性质证明自然对数的底 $e = \sum_{n=0}^{\infty} \frac{1}{n!}$ 存在（即该级数收敛）。要求写出完整的每一步。
（开放思考题）Cauchy 完备性 + Archimedean 性质 $\Leftrightarrow$ LUB。如果去掉 Archimedean 条件，会有什么反例？试构造一个非 Archimedean 的 Cauchy 完备有序域（提示：考虑形式 Laurent 级数域）。

§2 $\mathbb{R}$ 中序列与级数 ⭐¶

§1 建立了完备性工具箱。本节将其应用于序列和级数的系统研究——这是分析学中最基本的极限操作。

2.1 收敛、Cauchy 列、子列 ⭐¶

定义（序列收敛）：序列 $\{a_n\}$ 收敛到 $L$，记 $\lim_{n\to\infty} a_n = L$ 或 $a_n \to L$，是指：

\[\forall \varepsilon > 0,\; \exists N \in \mathbb{N},\; \forall n \geq N,\; |a_n - L| < \varepsilon\]

读到这里你可能会问：为什么用 $\varepsilon > 0$ 而不是 $\varepsilon > 0$ 足够小？因为如果条件对所有 $\varepsilon > 0$ 成立，自然对小的 $\varepsilon$ 也成立。$\varepsilon$-$N$ 定义的力量在于它**精确刻画了"无穷逼近"**——序列尾部的所有项都落在目标 $L$ 的 $\varepsilon$-邻域内。

极限的唯一性：若 $a_n \to L_1$ 且 $a_n \to L_2$，则 $L_1 = L_2$。证明：$|L_1 - L_2| \leq |L_1 - a_n| + |a_n - L_2| < \varepsilon + \varepsilon = 2\varepsilon$ 对任意 $\varepsilon > 0$，因此 $L_1 = L_2$。

定义（Cauchy 列）：序列 $\{a_n\}$ 是 Cauchy 列，是指：

\[\forall \varepsilon > 0,\; \exists N \in \mathbb{N},\; \forall n, m \geq N,\; |a_n - a_m| < \varepsilon\]

Cauchy 列的优势在于：判断是否为 Cauchy 列**不需要知道极限是什么**——这在极限未知时特别有用。例如，要判断 $\sum \frac{1}{n!}$ 是否收敛，我们不需要知道极限是 $e$；只需证明部分和构成 Cauchy 列（$|S_n - S_m| = |\sum_{k=m+1}^{n} \frac{1}{k!}| \leq \frac{2}{m!} \to 0$）。

收敛 $\Rightarrow$ Cauchy：由三角不等式 $|a_n - a_m| \leq |a_n - L| + |L - a_m|$。

Cauchy $\Rightarrow$ 收敛（在 $\mathbb{R}$ 中）：这就是 §1.5 中证明的 $\mathbb{R}$ 的 Cauchy 完备性。注意在 $\mathbb{Q}$ 中 Cauchy $\not\Rightarrow$ 收敛。

子列：序列 $\{a_{n_k}\}$ 是 $\{a_n\}$ 的子列，其中 $n_1 < n_2 < n_3 < \cdots$（下标严格递增）。

基本性质： - 如果 $a_n \to L$，则 $a_n$ 的任何子列也趋向 $L$（由 $\varepsilon$-$N$ 定义直接验证，利用 $n_k \geq k$） - 反之不然——子列可以收敛但原序列不收敛（如 $a_n = (-1)^n$，子列 $a_{2k} \to 1$ 但 $\{a_n\}$ 发散） - 判敛应用：如果两个不同子列有不同极限，则原序列发散。这提供了一种**证明发散**的有效方法

2.2 $\limsup$ 与 $\liminf$ ⭐⭐¶

对于不收敛的有界序列，$\limsup$ 和 $\liminf$ 提供了有力的分析工具。

定义：

\[\limsup_{n\to\infty} a_n = \lim_{n\to\infty} \sup_{k \geq n} a_k, \qquad \liminf_{n\to\infty} a_n = \lim_{n\to\infty} \inf_{k \geq n} a_k\]

为什么这些极限存在？因为 $b_n = \sup_{k \geq n} a_k$ 是单调递减的（$\sup$ 取在越来越小的集合上），且 $\{a_n\}$ 有界意味着 $b_n$ 有下界——由 MCT，$\{b_n\}$ 收敛。

关键性质：$\limsup a_n$ 恰好是 $\{a_n\}$ 的所有收敛子列极限中的**最大者**；$\liminf a_n$ 恰好是**最小者**。

类比：$\limsup$ 和 $\liminf$ 就像序列的"天花板"和"地板"——序列可以在它们之间振荡，但不会长期超出。$\limsup = \liminf$ 当且仅当序列收敛。这个类比在"振荡序列"的图景下是准确的，但注意对于单调序列，天花板和地板重合（就是极限本身）。

定理（$\limsup$ 的刻画）：$L = \limsup a_n$ 当且仅当以下两个条件同时成立： 1. 对任意 $\varepsilon > 0$，$a_n > L + \varepsilon$ 仅对有限个 $n$ 成立 2. 对任意 $\varepsilon > 0$，$a_n > L - \varepsilon$ 对无穷多个 $n$ 成立

证明：(1) 若 $a_n > L + \varepsilon$ 对无穷多 $n$，则 $\sup_{k\geq n} a_k \geq L + \varepsilon$ 对所有 $n$，矛盾于 $b_n \to L$。(2) 若存在 $\varepsilon > 0$ 使 $a_n > L - \varepsilon$ 仅对有限个 $n$，则存在 $N$ 使 $n \geq N \Rightarrow a_n \leq L - \varepsilon$，故 $b_n = \sup_{k \geq n} a_k \leq L - \varepsilon$ 对 $n \geq N$，矛盾于 $b_n \to L$。$\square$

2.3 级数：收敛判别法 ⭐¶

级数 $\sum_{n=1}^{\infty} a_n$ 收敛是指其部分和序列 $S_N = \sum_{n=1}^{N} a_n$ 收敛。级数理论是序列理论的直接推广——将"求和"视为序列（部分和）的极限。

必要条件（级数发散判别法）：若 $\sum a_n$ 收敛，则 $a_n \to 0$。反之不成立（调和级数）。因此 $a_n \not\to 0 \Rightarrow \sum a_n$ 发散——这是最快的发散排除法。

比较判别法：若 $0 \leq a_n \leq b_n$，$\sum b_n$ 收敛，则 $\sum a_n$ 收敛。（由部分和单调递增有上界，用 MCT。）

极限比较判别法：若 $a_n, b_n > 0$ 且 $\lim \frac{a_n}{b_n} = L$（$0 < L < \infty$），则 $\sum a_n$ 和 $\sum b_n$ 同敛散。（因为 $\frac{L}{2} b_n \leq a_n \leq 2L b_n$ 对充分大的 $n$。）

比值判别法（D'Alembert）：若 $\limsup \frac{|a_{n+1}|}{|a_n|} = r$，则 $r < 1$ 时绝对收敛，$r > 1$ 时发散。

根值判别法（Cauchy）：若 $\limsup \sqrt[n]{|a_n|} = r$，则 $r < 1$ 时绝对收敛，$r > 1$ 时发散。

根值判别法严于比值判别法：这个说法的严格含义是——对于任何正项序列：

\[\liminf \frac{a_{n+1}}{a_n} \leq \liminf \sqrt[n]{a_n} \leq \limsup \sqrt[n]{a_n} \leq \limsup \frac{a_{n+1}}{a_n}\]

因此根值判别法能判定的级数，比值判别法也能判定，但反过来不一定。反例：取 $a_n = 2^{-n}$ 当 $n$ 为奇数，$a_n = 3^{-n}$ 当 $n$ 为偶数。$\limsup \sqrt[n]{a_n} = \frac{1}{2} < 1$（根值法判定收敛），但 $\limsup \frac{a_{n+1}}{a_n} = +\infty$（比值法失效）。

Cauchy 凝聚判别法：正项递减序列 $\sum a_n$ 与 $\sum 2^k a_{2^k}$ 同敛散。

证明思路：将 $\sum a_n$ 按 $2^k$ 的块分组：$a_1 + (a_2 + a_3) + (a_4 + a_5 + a_6 + a_7) + \cdots$。由 $a_n$ 递减，每块的和 $\leq 2^k a_{2^k}$（用最大项估计）且 $\geq 2^{k-1} a_{2^k}$（用最小项估计）。因此 $\sum a_n$ 和 $\sum 2^k a_{2^k}$ 同敛散。$\square$

经典应用：$\sum \frac{1}{n^p}$ 收敛当且仅当 $p > 1$。凝聚后得到 $\sum 2^k \cdot \frac{1}{(2^k)^p} = \sum (2^{1-p})^k$——这是公比为 $2^{1-p}$ 的等比级数，收敛当且仅当 $2^{1-p} < 1$，即 $p > 1$。

Dirichlet 判别法：若 $\{b_n\}$ 单调趋于 $0$，$\sum a_n$ 的部分和有界，则 $\sum a_n b_n$ 收敛。

证明工具——Abel 求和法（分部求和，离散版分部积分）：设 $A_n = \sum_{k=1}^{n} a_k$。则

\[\sum_{k=m}^{n} a_k b_k = A_n b_n - A_{m-1} b_m + \sum_{k=m}^{n-1} A_k(b_k - b_{k+1})\]

由 $A_n$ 有界、$b_n$ 单调趋于 $0$，前两项趋于 $0$。第三项由 $b_k - b_{k+1} \geq 0$（单调递减）和 $|A_k|$ 有界，形成绝对收敛级数。$\square$

Abel 判别法：若 $\{b_n\}$ 单调有界，$\sum a_n$ 收敛，则 $\sum a_n b_n$ 收敛。（将 $b_n$ 分解为常数 + 趋于 $0$ 的单调序列，利用 Dirichlet 判别法。）

收敛判别法分类总结：

判别法	适用条件	强度	典型应用
比较法	正项级数	基础	与已知级数比较
极限比较法	正项级数	基础	与 $p$-级数比较
比值法	一般级数	中等	含阶乘或指数
根值法	一般级数	强于比值	含 $a_n^n$ 结构
凝聚法	正项递减	专用	$p$-级数
Dirichlet/Abel	部分和有界 + 单调	专用	交错级数、三角级数

2.4 绝对收敛 vs 条件收敛 ⭐⭐¶

定义：$\sum a_n$ **绝对收敛**是指 $\sum |a_n|$ 收敛；**条件收敛**是指 $\sum a_n$ 收敛但 $\sum |a_n|$ 发散。

绝对收敛 $\Rightarrow$ 收敛：由 $|S_N - S_M| = |\sum_{n=M+1}^{N} a_n| \leq \sum_{n=M+1}^{N} |a_n|$，$\sum |a_n|$ 收敛意味着部分和是 Cauchy 列。

Cauchy 乘积（Mertens 定理）：若 $\sum a_n = A$（绝对收敛），$\sum b_n = B$（收敛），则 Cauchy 乘积 $\sum c_n$ 收敛到 $AB$，其中 $c_n = \sum_{k=0}^{n} a_k b_{n-k}$。

2.5 Riemann 重排定理 ⭐⭐⭐¶

定理（Riemann 重排定理）：设 $\sum a_n$ 条件收敛。对任意 $L \in \overline{\mathbb{R}}$，存在重排 $\sigma: \mathbb{N} \to \mathbb{N}$（双射）使得 $\sum a_{\sigma(n)} = L$。

证明（完整）：条件收敛意味着正项部分 $\sum a_n^+$ 和负项部分 $\sum a_n^-$ 均发散（其中 $a_n^+ = \max(a_n, 0)$，$a_n^- = \max(-a_n, 0)$），但 $a_n \to 0$。

构造达到目标 $L \in \mathbb{R}$ 的重排：先取正项 $a_{n_1}^+, a_{n_2}^+, \ldots$ 直到部分和首次超过 $L$；再取负项 $a_{m_1}^-, a_{m_2}^-, \ldots$ 直到部分和首次低于 $L$；交替进行。由于 $a_n \to 0$，每次"越线"的幅度趋于 $0$，因此部分和趋于 $L$。

为什么这个过程必定覆盖所有项？因为每次取正项或负项时，都是从**剩余**的正项或负项中按**原顺序**依次取的。由于正项和负项各有无穷多个且各自发散到 $+\infty$，每次切换都必定能越过目标——因此不会卡在只取正项（或只取负项）的状态。$\square$

反事实推理：如果 $\sum a_n$ 绝对收敛，重排定理还成立吗？不成立。绝对收敛级数的任何重排都收敛到相同的和——这是绝对收敛的一个核心优势。条件收敛的"脆弱性"正体现在重排可改变和值。

工程桥接：在强化学习中，折扣回报 $\sum_{k=0}^{\infty} \gamma^k r_k$（$0 < \gamma < 1$）的绝对收敛性保证了策略评估（Policy Evaluation）的良定义——无论以什么顺序累加奖励，结果都一样。如果不满足绝对收敛，回报的定义就会依赖于"时间步的排列"，这在数学上是不可接受的。

⚠️ 常见陷阱¶

💡 概念误区：认为"$a_n \to 0$ 就意味着 $\sum a_n$ 收敛"

这是分析学中最经典的误区。调和级数 $\sum \frac{1}{n}$ 的项趋于 $0$ 但级数发散。$a_n \to 0$ 是收敛的**必要**条件，不是**充分**条件。

🧠 思维陷阱：认为"根值法和比值法能判定所有级数"

实际上两种方法在临界情况 $r = 1$ 时都失效。例如 $\sum \frac{1}{n^p}$（$p$ 级数）的比值和根值均为 $1$，但 $p > 1$ 收敛，$p \leq 1$ 发散。此时需要 Cauchy 凝聚判别法或直接比较。

💡 概念误区：混淆"绝对收敛"和"收敛"

绝对收敛是严格强于收敛的概念。$\sum \frac{(-1)^n}{n}$ 收敛（Leibniz 判别法）但不绝对收敛（$\sum \frac{1}{n}$ 发散）。许多定理（如 Mertens 定理、重排不变性）需要绝对收敛而非仅仅收敛。

练习¶

（推导题）证明不等式链：$\liminf \frac{a_{n+1}}{a_n} \leq \liminf \sqrt[n]{a_n} \leq \limsup \sqrt[n]{a_n} \leq \limsup \frac{a_{n+1}}{a_n}$（对正项序列）。
（证明题）证明 Riemann 重排定理中，对 $L = +\infty$ 的情况：存在重排使部分和趋于 $+\infty$。
（开放思考题）交错级数 $\sum \frac{(-1)^n}{n}$ 条件收敛。如果我们将其重排为"取两个正项，再取一个负项"的模式，重排后的级数收敛到什么？计算并解释。

§3 度量空间上的连续性 ⭐¶

§2 建立了序列和级数的理论。本节将极限的概念推广到函数——连续性是函数的"极限保持性质"。

3.1 连续性的三种等价定义 ⭐¶

定义设置：设 $(X, d_X)$ 和 $(Y, d_Y)$ 是度量空间，$f: X \to Y$，$p \in X$。

$\varepsilon$-$\delta$ 定义：$f$ 在 $p$ 连续，是指：

\[\forall \varepsilon > 0,\; \exists \delta > 0,\; d_X(x, p) < \delta \Rightarrow d_Y(f(x), f(p)) < \varepsilon\]

序列定义：$f$ 在 $p$ 连续 $\Leftrightarrow$ 对任何序列 $x_n \to p$，都有 $f(x_n) \to f(p)$。

拓扑定义：$f$ 在 $X$ 上连续 $\Leftrightarrow$ 对 $Y$ 中任何开集 $V$，原像 $f^{-1}(V)$ 是 $X$ 中的开集。

三者等价的证明：

$\varepsilon$-$\delta$ $\Rightarrow$ 序列：设 $x_n \to p$。对任意 $\varepsilon > 0$，取 $\delta$ 使 $d_X(x, p) < \delta \Rightarrow d_Y(f(x), f(p)) < \varepsilon$。又取 $N$ 使 $n \geq N \Rightarrow d_X(x_n, p) < \delta$。则 $n \geq N \Rightarrow d_Y(f(x_n), f(p)) < \varepsilon$。

序列 $\Rightarrow$ $\varepsilon$-$\delta$（反证法）：若 $\varepsilon$-$\delta$ 定义不成立，则存在 $\varepsilon_0 > 0$ 使对任意 $\delta = \frac{1}{n}$，存在 $x_n$ 满足 $d_X(x_n, p) < \frac{1}{n}$ 但 $d_Y(f(x_n), f(p)) \geq \varepsilon_0$。则 $x_n \to p$ 但 $f(x_n) \not\to f(p)$，矛盾。

$\varepsilon$-$\delta$ $\Leftrightarrow$ 拓扑：$f$ 全局连续当且仅当对每点 $p$ 连续。$f^{-1}(V)$ 是开集等价于：对每个 $p \in f^{-1}(V)$，存在 $\delta$ 使 $B(p, \delta) \subseteq f^{-1}(V)$。这恰好是 $\varepsilon$-$\delta$ 连续（取 $\varepsilon$ 使 $B(f(p), \varepsilon) \subseteq V$）。$\square$

不是三种不同的概念，而是同一个概念的三副面孔。$\varepsilon$-$\delta$ 适合做估计，序列定义适合具体计算，拓扑定义适合抽象推理。选择哪个取决于证明的需要。

3.2 紧集上的连续映射 ⭐⭐¶

定理（连续映射保紧）：若 $K \subseteq X$ 紧，$f: X \to Y$ 连续，则 $f(K)$ 紧。

证明：设 $\{V_\alpha\}$ 是 $f(K)$ 的开覆盖。则 $\{f^{-1}(V_\alpha)\}$ 是 $K$ 的开覆盖（因为 $f$ 连续，原像为开）。$K$ 紧，取有限子覆盖 $f^{-1}(V_{\alpha_1}), \ldots, f^{-1}(V_{\alpha_n})$。则 $V_{\alpha_1}, \ldots, V_{\alpha_n}$ 覆盖 $f(K)$。$\square$

推论（极值定理，Extreme Value Theorem）：若 $K \subseteq \mathbb{R}^n$ 紧，$f: K \to \mathbb{R}$ 连续，则 $f$ 在 $K$ 上取到最大值和最小值。

证明：$f(K) \subseteq \mathbb{R}$ 紧，在 $\mathbb{R}$ 中紧 $\Leftrightarrow$ 有界闭（Heine-Borel），因此 $f(K)$ 有界闭。有界意味着 $\sup f(K)$ 和 $\inf f(K)$ 存在（由 LUB）。闭意味着 $\sup f(K) \in f(K)$（否则 $\sup$ 是聚点但不属于 $f(K)$，与闭集矛盾）。$\square$

反事实推理：如果 $K$ 不紧（比如开区间 $(0, 1)$），极值定理还成立吗？不成立。$f(x) = \frac{1}{x}$ 在 $(0, 1)$ 上连续但无最大值。紧致性是极值定理不可省略的条件。

3.3 连通集上的连续映射 ⭐⭐¶

定理（中间值定理，Intermediate Value Theorem）：若 $f: [a, b] \to \mathbb{R}$ 连续，$f(a) < c < f(b)$（或 $f(b) < c < f(a)$），则存在 $\xi \in (a, b)$ 使 $f(\xi) = c$。

证明（利用 LUB）：设 $f(a) < c < f(b)$。令 $S = \{x \in [a, b] : f(x) < c\}$。$S$ 非空（$a \in S$），有上界 $b$，取 $\xi = \sup S$。

若 $f(\xi) < c$：由连续性，$f$ 在 $\xi$ 附近仍 $< c$，因此 $\xi$ 右边还有 $S$ 的元素（除非 $\xi = b$，但 $f(b) > c$），与 $\xi = \sup S$ 矛盾。
若 $f(\xi) > c$：由连续性，$f$ 在 $\xi$ 的某左邻域内 $> c$，因此 $\xi$ 的某左邻域不含 $S$ 的元素，$\xi$ 不是 $\sup S$，矛盾。
因此 $f(\xi) = c$。$\square$

更一般的版本：连续映射保连通（$f$ 连续，$E$ 连通 $\Rightarrow$ $f(E)$ 连通）。在 $\mathbb{R}$ 中，连通集恰好是区间，因此连续实值函数的像集是区间——这就是中间值性质。

3.4 单调函数的不连续点集 ⭐⭐¶

定理：单调函数 $f: (a, b) \to \mathbb{R}$ 的不连续点集至多可数。

证明思路：设 $f$ 单调递增。在不连续点 $x$ 处，左极限 $f(x^-) < f(x^+)$ 右极限（跳跃间断点）。将每个不连续点 $x$ 对应到开区间 $(f(x^-), f(x^+))$。由 $f$ 单调，不同不连续点对应的开区间**互不相交**。每个非空开区间包含一个有理数（$\mathbb{Q}$ 稠密），因此不连续点集到 $\mathbb{Q}$ 有单射，从而至多可数。$\square$

这个定理说明单调函数"本质上"是连续的——不连续点很稀少（至多可数），而 $(a, b)$ 中的点是不可数的。

⚠️ 常见陷阱¶

💡 概念误区：认为"连续函数的像集一定是开集"

反例：$f(x) = x^2$ 将开集 $(-1, 1)$ 映到 $[0, 1)$——像集不是开集。连续映射保开集的说法是错误的。连续映射保紧、保连通，但一般**不保开**。

🧠 思维陷阱：认为"中间值定理的逆成立"

即：如果 $f$ 满足中间值性质（取到端点之间的所有值），那么 $f$ 连续。这是错误的。Darboux 定理指出导函数 $f'$ 总满足中间值性质，但导函数不一定连续。

💡 概念误区：认为"连续映射保持序列的所有性质"

连续映射保持收敛性（$x_n \to p \Rightarrow f(x_n) \to f(p)$），但不保持 Cauchy 性（除非 $f$ 是一致连续的）。$f(x) = 1/x$ 将 $(0, 1)$ 中的 Cauchy 列 $1/n$ 映为非 Cauchy 列 $n$。

练习¶

（证明题）设 $f: [a, b] \to [a, b]$ 连续。证明 $f$ 有不动点，即存在 $x_0 \in [a, b]$ 使 $f(x_0) = x_0$。（提示：考虑 $g(x) = f(x) - x$，用中间值定理。）
（推导题）给出一个从 $\mathbb{R}$ 到 $\mathbb{R}$ 的函数，它处处不连续但满足中间值性质。（提示：考虑 Conway 基函数或适当构造。）
（开放思考题）极值定理要求 $K$ 紧且 $f$ 连续。能否将"连续"弱化为"上半连续"？如果可以，叙述并证明相应的结论。

§4 一致连续与半连续 ⭐¶

§3 的连续性是"逐点"的——$\delta$ 可以依赖于点 $p$。本节研究更强的连续性条件：$\delta$ 不依赖于 $p$（一致连续），以及更弱的条件（半连续）。

4.1 一致连续 ⭐¶

定义：$f: (X, d_X) \to (Y, d_Y)$ 一致连续，是指：

\[\forall \varepsilon > 0,\; \exists \delta > 0,\; \forall x, y \in X,\; d_X(x, y) < \delta \Rightarrow d_Y(f(x), f(y)) < \varepsilon\]

与逐点连续的关键区别：一致连续中 $\delta$ 只依赖于 $\varepsilon$，不依赖于点 $x$。

经典反例：$f(x) = \frac{1}{x}$ 在 $(0, 1)$ 上连续但不一致连续。因为当 $x$ 越靠近 $0$，函数变化越剧烈——对于固定的 $\varepsilon$，所需的 $\delta$ 必须随 $x \to 0$ 而趋于 $0$。

定理（Heine-Cantor）：紧集上的连续函数一致连续。

证明：设 $K$ 紧，$f: K \to Y$ 连续。反证：假设 $f$ 不一致连续，则存在 $\varepsilon_0 > 0$ 和序列 $x_n, y_n \in K$，$d_X(x_n, y_n) < \frac{1}{n}$ 但 $d_Y(f(x_n), f(y_n)) \geq \varepsilon_0$。$K$ 紧，$\{x_n\}$ 有收敛子列 $x_{n_k} \to p$。由 $d_X(x_{n_k}, y_{n_k}) < \frac{1}{n_k} \to 0$，$y_{n_k} \to p$。由 $f$ 在 $p$ 连续，$f(x_{n_k}) \to f(p)$ 且 $f(y_{n_k}) \to f(p)$，因此 $d_Y(f(x_{n_k}), f(y_{n_k})) \to 0$，矛盾于 $\geq \varepsilon_0$。$\square$

这就是为什么前置自测第 5 题的答案是"不可能"——$[0,1]$ 上连续函数必然一致连续，因为 $[0,1]$ 是紧集。

4.2 Lipschitz 连续与 Hölder 连续 ⭐⭐¶

定义（Lipschitz 连续）：$f: X \to Y$ 是 $L$-Lipschitz 的，如果存在常数 $L \geq 0$ 使得：

\[d_Y(f(x), f(y)) \leq L \cdot d_X(x, y), \quad \forall x, y \in X\]

最小的这样的 $L$ 称为 Lipschitz 常数。

定义（Hölder 连续）：$f: X \to Y$ 是 $\alpha$-Hölder 连续的（$0 < \alpha \leq 1$），如果存在 $C \geq 0$ 使得：

\[d_Y(f(x), f(y)) \leq C \cdot d_X(x, y)^\alpha, \quad \forall x, y \in X\]

$\alpha = 1$ 即 Lipschitz 连续。

连续性强弱链：

\[\text{Lipschitz} \subsetneq \text{Hölder} \subsetneq \text{一致连续} \subsetneq \text{连续}\]

每个包含关系都是严格的，需要反例分离各层：

关系	反例
Hölder $\not\Rightarrow$ Lipschitz	$f(x) = \sqrt{x}$（$\frac{1}{2}$-Hölder），$\frac{f(x)-f(0)}{x-0} = \frac{1}{\sqrt{x}} \to \infty$
一致连续 $\not\Rightarrow$ Hölder	需要更精细的构造（如某些 Cantor 函数）
连续 $\not\Rightarrow$ 一致连续	$f(x) = \sin(\frac{1}{x})$ 在 $(0, 1)$ 上

工程桥接：Lipschitz 条件在机器人学中无处不在。控制系统 $\dot{x} = f(x, u)$ 中，如果 $f$ 关于 $x$ 是 Lipschitz 的，则 Picard-Lindelöf 定理保证初值问题有唯一解——这是控制器设计的数学前提。如果 $f$ 不满足 Lipschitz 条件（比如 $\dot{x} = x^{2/3}$），解可能不唯一，控制器的行为将不可预测。在机器学习中，Lipschitz 约束也被用于稳定生成对抗网络（GAN）的训练——通过谱归一化（spectral normalization）强制判别器的 Lipschitz 常数不超过 $1$。

4.3 下半连续与上半连续 ⭐⭐⭐¶

动机：许多优化问题中的目标函数不是连续的，但仍然希望极值存在。半连续是比连续更弱的条件，在优化理论中扮演关键角色。

定义：$f: X \to \overline{\mathbb{R}}$ 在 $p$ 下半连续（lower semicontinuous, lsc），是指：

\[\forall \varepsilon > 0,\; \exists \delta > 0,\; d(x, p) < \delta \Rightarrow f(x) > f(p) - \varepsilon\]

等价刻画：对任何 $\alpha \in \mathbb{R}$，下水平集 $\{x : f(x) \leq \alpha\}$ 是闭集。

直觉：下半连续函数"不会突然跌落"——函数值可以"跳上去"但不能"跳下来"。

定理：若 $K$ 紧，$f: K \to \mathbb{R}$ 下半连续，则 $f$ 在 $K$ 上取到下确界。

证明：令 $m = \inf_{K} f$。对每个 $n$，下水平集 $F_n = \{x \in K : f(x) \leq m + \frac{1}{n}\}$ 非空（由下确界定义）且闭（下半连续的等价刻画）。$K$ 紧且 $F_n$ 闭，故 $F_n$ 紧。$\{F_n\}$ 递减，有限交非空（每个 $F_n$ 非空且紧），由紧集的有限交性质，$\bigcap F_n \neq \emptyset$。取 $x_0 \in \bigcap F_n$，则 $f(x_0) \leq m + \frac{1}{n}$ 对所有 $n$，故 $f(x_0) = m$。$\square$

工程桥接：在最优控制中，代价泛函（Cost Functional）$J: \mathcal{U} \to \mathbb{R}$ 往往只是下半连续的（而非连续的）。上述定理保证了在紧的容许控制集上，最优控制存在——这是 Tonelli 定理的预演，完整版在测度论（§100）之后展开。

⚠️ 常见陷阱¶

💡 概念误区：混淆一致连续和 Lipschitz 连续

新手经常认为两者等价。$f(x) = \sqrt{x}$ 在 $[0, 1]$ 上一致连续（Heine-Cantor），但不是 Lipschitz 的（$f'(x) = \frac{1}{2\sqrt{x}} \to \infty$）。Lipschitz 条件比一致连续**严格更强**。

🧠 思维陷阱：认为"只要函数有界且连续，就一致连续"

反例：$f(x) = \sin(x^2)$ 在 $\mathbb{R}$ 上连续且有界（$|f| \leq 1$），但不一致连续——当 $x$ 很大时，函数振荡得越来越快。有界性和一致连续性是独立的性质。

💡 概念误区：认为"下半连续就是'几乎连续'"

下半连续允许函数在某些点"向上跳"（想象一个阶梯函数只有上跳没有下跳）。它比连续弱得多。但在优化中，下半连续加上紧性就足以保证极小值存在——这是一个出人意料的强结论。

练习¶

（证明题）证明：$f: \mathbb{R} \to \mathbb{R}$ Lipschitz $\Rightarrow$ $f$ 将 Cauchy 列映为 Cauchy 列。一致连续函数是否也有此性质？
（推导题）设 $f: [0, \infty) \to \mathbb{R}$ 一致连续，证明存在常数 $a, b \geq 0$ 使 $|f(x)| \leq a + bx$ 对所有 $x \geq 0$。
（开放思考题）是否存在函数 $f: \mathbb{R} \to \mathbb{R}$，同时是下半连续和上半连续的，但在某些点不连续？为什么？

§5 单变量微分学 ⭐¶

有了连续性的严格基础，现在转向微分——连续函数的"局部线性逼近"。

5.1 导数定义与基本性质 ⭐¶

动机：微分的核心思想是**局部线性逼近**——在一个点附近，用"直线"（最简单的函数）近似一个"曲线"（一般的函数）。导数 $f'(x_0)$ 就是这条最佳逼近直线的斜率。

定义：$f: (a, b) \to \mathbb{R}$ 在 $x_0$ 可导，是指极限

\[f'(x_0) = \lim_{h \to 0} \frac{f(x_0 + h) - f(x_0)}{h}\]

存在（作为有限实数）。$f'(x_0)$ 称为 $f$ 在 $x_0$ 的**导数**。

等价表述：$f$ 在 $x_0$ 可导当且仅当存在实数 $A$ 使得

\[f(x_0 + h) = f(x_0) + Ah + o(h) \quad (h \to 0)\]

其中 $o(h)$ 表示 $\frac{|o(h)|}{|h|} \to 0$。此 $A$ 就是 $f'(x_0)$。这个表述更清楚地展示了导数的本质——$f$ 在 $x_0$ 附近被仿射函数 $f(x_0) + A(x - x_0)$ 逼近，误差比 $|h|$ 更小。

可导 $\Rightarrow$ 连续：若 $f$ 在 $x_0$ 可导，则 $f(x_0 + h) - f(x_0) = h \cdot \frac{f(x_0+h)-f(x_0)}{h} \to 0 \cdot f'(x_0) = 0$。

反之不然：$f(x) = |x|$ 在 $x = 0$ 连续但不可导——左右极限不等：$\lim_{h \to 0^+} \frac{|h|}{h} = 1$，$\lim_{h \to 0^-} \frac{|h|}{h} = -1$。几何上，$|x|$ 在原点有"尖角"——不存在唯一的切线。

更极端的例子——Weierstrass 函数是**处处连续但无处可导**的。其构造在 §7 一致收敛中给出。这个反例在 1872 年由 Weierstrass 构造，颠覆了当时数学家"连续函数处处可导（除个别点外）"的普遍信念。

基本求导法则：设 $f, g$ 在 $x_0$ 可导。 - 线性性：$(af + bg)' = af' + bg'$ - 乘积法则（Leibniz）：$(fg)' = f'g + fg'$ - 商法则：$(\frac{f}{g})' = \frac{f'g - fg'}{g^2}$（$g(x_0) \neq 0$） - 链式法则：$(g \circ f)'(x_0) = g'(f(x_0)) \cdot f'(x_0)$

乘积法则的证明：$\frac{f(x+h)g(x+h) - f(x)g(x)}{h} = f(x+h) \cdot \frac{g(x+h)-g(x)}{h} + g(x) \cdot \frac{f(x+h)-f(x)}{h}$。由 $f$ 可导 $\Rightarrow$ $f$ 连续 $\Rightarrow$ $f(x+h) \to f(x)$，取极限即得。

**链式法则的证明**需要小心处理 $f(x_0 + h) - f(x_0) = 0$ 的情况（此时不能直接写 $\frac{g(f(x+h))-g(f(x))}{f(x+h)-f(x)} \cdot \frac{f(x+h)-f(x)}{h}$）。标准做法是引入辅助函数：定义

\[\psi(k) = \begin{cases} \frac{g(f(x_0) + k) - g(f(x_0))}{k} & k \neq 0 \\ g'(f(x_0)) & k = 0 \end{cases}\]

则 $\psi$ 在 $0$ 连续，且 $g(f(x_0+h)) - g(f(x_0)) = \psi(f(x_0+h)-f(x_0)) \cdot (f(x_0+h)-f(x_0))$。除以 $h$ 取极限即得链式法则。

Darboux 定理（导函数的中间值性质）：即使 $f'$ 不连续，$f'$ 仍然满足中间值性质——若 $f'(a) < c < f'(b)$，则存在 $\xi \in (a, b)$ 使 $f'(\xi) = c$。证明利用极值定理应用于 $g(x) = f(x) - cx$。这说明导函数虽然可以不连续，但不能有"跳跃间断点"。

5.2 中值定理链 ⭐⭐¶

这是实分析中最重要的定理链之一：Rolle $\to$ Lagrange $\to$ Cauchy。每一步都建立在前一步之上。

定理（Rolle 定理）：若 $f: [a, b] \to \mathbb{R}$ 连续，在 $(a, b)$ 可导，且 $f(a) = f(b)$，则存在 $c \in (a, b)$ 使 $f'(c) = 0$。

证明：由极值定理（§3.2），$f$ 在 $[a, b]$ 上取到最大值 $M$ 和最小值 $m$。若 $M = m$，则 $f$ 为常数，$f' \equiv 0$。若 $M \neq m$，由 $f(a) = f(b)$，$M$ 和 $m$ 中至少有一个在 $(a, b)$ 的内点 $c$ 取到。在极值点处，$f'(c)$ 存在且为 $0$（Fermat 引理：内部极值点处导数为零——因为左右单侧导数异号）。$\square$

定理（Lagrange 中值定理）：若 $f: [a, b] \to \mathbb{R}$ 连续，在 $(a, b)$ 可导，则存在 $c \in (a, b)$ 使得：

\[f'(c) = \frac{f(b) - f(a)}{b - a}\]

证明：构造辅助函数 $g(x) = f(x) - \frac{f(b) - f(a)}{b - a}(x - a)$。验证 $g(a) = f(a), g(b) = f(a)$（即 $g(a) = g(b)$），由 Rolle 定理存在 $c$ 使 $g'(c) = 0$，即 $f'(c) = \frac{f(b)-f(a)}{b-a}$。$\square$

类比：中值定理说"平均速度等于某时刻的瞬时速度"。如果你从 A 城开车到 B 城，平均速度是 80 km/h，那么旅途中**至少有一个时刻**你的瞬时速度恰好是 80 km/h。这个类比在一维情况下是精确的，但注意在多维情况（$f: \mathbb{R}^n \to \mathbb{R}^n$）中，中值定理**不成立**——这是一个重要的区别。

定理（Cauchy 中值定理）：若 $f, g: [a, b] \to \mathbb{R}$ 连续，在 $(a, b)$ 可导，$g'(x) \neq 0$ 对所有 $x \in (a, b)$，则存在 $c \in (a, b)$ 使得：

\[\frac{f'(c)}{g'(c)} = \frac{f(b) - f(a)}{g(b) - g(a)}\]

证明：令 $h(x) = f(x) - \frac{f(b)-f(a)}{g(b)-g(a)} \cdot g(x)$，验证 $h(a) = h(b)$，用 Rolle 定理。（注意 $g(b) \neq g(a)$，否则由 Rolle 定理 $g'$ 有零点，矛盾。）$\square$

5.3 L'Hôpital 法则 ⭐⭐¶

动机：当直接代入导致 $\frac{0}{0}$ 或 $\frac{\infty}{\infty}$ 时，极限的计算需要更精细的工具。L'Hôpital 法则将函数极限的问题转化为导数极限的问题。

定理（L'Hôpital，$0/0$ 型）：设 $f, g$ 在 $(a, b)$ 可导，$g'(x) \neq 0$，$\lim_{x \to a^+} f(x) = \lim_{x \to a^+} g(x) = 0$。若 $\lim_{x \to a^+} \frac{f'(x)}{g'(x)} = L$（$L$ 可为 $\pm\infty$），则 $\lim_{x \to a^+} \frac{f(x)}{g(x)} = L$。

证明（利用 Cauchy MVT）：定义 $f(a) = g(a) = 0$（使 $f, g$ 在 $[a, x]$ 连续）。对 $x \in (a, b)$，由 Cauchy MVT 存在 $c_x \in (a, x)$ 使 $\frac{f(x)}{g(x)} = \frac{f(x)-f(a)}{g(x)-g(a)} = \frac{f'(c_x)}{g'(c_x)}$。当 $x \to a^+$ 时 $c_x \to a^+$（因为 $c_x \in (a, x)$），故 $\frac{f(x)}{g(x)} \to L$。$\square$

$\infty/\infty$ 型：类似但证明更复杂——需要利用 Cauchy MVT 和极限的定义更精细地控制。设 $f(x), g(x) \to +\infty$，$\frac{f'(x)}{g'(x)} \to L$。对任意 $\varepsilon > 0$，取 $c$ 使 $x > c$ 时 $|f'(x)/g'(x) - L| < \varepsilon$。对 $x > y > c$，由 Cauchy MVT，$\frac{f(x)-f(y)}{g(x)-g(y)} = \frac{f'(\xi)}{g'(\xi)}$（$\xi \in (y, x)$），故此比值在 $(L-\varepsilon, L+\varepsilon)$ 内。令 $x \to \infty$（$y$ 固定），$\frac{f(x)}{g(x)} \cdot \frac{1 - f(y)/f(x)}{1 - g(y)/g(x)} \in (L-\varepsilon, L+\varepsilon)$，由 $f, g \to \infty$ 得 $\frac{f(x)}{g(x)} \to L$。

常见误用：对 $\frac{f'(x)}{g'(x)}$ 极限不存在的情况，L'Hôpital 法则**无结论**（不是说原极限不存在）。例如 $\frac{x + \sin x}{x}$ 的极限存在（$= 1$），但 $\frac{1 + \cos x}{1}$ 极限不存在。这说明 L'Hôpital 法则的**逆命题不成立**。

反事实推理：如果没有 $g'(x) \neq 0$ 的条件会怎样？此条件保证 $g(x)$ 在 $(a, b)$ 上严格单调（因此 $g(x) \neq g(y)$ 对 $x \neq y$），使 Cauchy MVT 可以应用。去掉此条件，$g$ 可能在 $a$ 附近振荡，$\frac{f}{g}$ 的极限行为可以是任意的。

5.4 Taylor 定理与余项 ⭐⭐¶

定理（Taylor 定理，Lagrange 余项）：设 $f \in C^{n+1}([a, b])$（即 $f$ 有 $n+1$ 阶连续导数），$x_0 \in [a, b]$。则对 $x \in [a, b]$：

\[f(x) = \sum_{k=0}^{n} \frac{f^{(k)}(x_0)}{k!}(x - x_0)^k + R_n(x)\]

其中 Lagrange 余项为

\[R_n(x) = \frac{f^{(n+1)}(\xi)}{(n+1)!}(x - x_0)^{n+1}\]

$\xi$ 在 $x_0$ 与 $x$ 之间。

证明（用 Rolle 定理的归纳应用）：定义

\[F(t) = f(x) - \sum_{k=0}^{n} \frac{f^{(k)}(t)}{k!}(x - t)^k - C(x - t)^{n+1}\]

选 $C$ 使 $F(x_0) = 0$（即 $C = R_n(x)/(x-x_0)^{n+1}$）。直接代入 $t = x$ 可验证 $F(x) = 0$（级数在 $t=x$ 时除 $k=0$ 项外全为零）。由 Rolle 定理，存在 $\xi$ 使 $F'(\xi) = 0$。计算 $F'(t)$（展开后大量抵消），得到所求余项公式。$\square$

**Cauchy 余项**和**积分余项**提供了不同形式的误差估计。积分余项为：

\[R_n(x) = \frac{1}{n!} \int_{x_0}^{x} f^{(n+1)}(t)(x - t)^n \, dt\]

它的优势在于可以直接估计余项大小，且不涉及"某个未知点 $\xi$"。

工程桥接：非线性动力系统 $\dot{x} = f(x, u)$ 在平衡点 $(x^*, u^*)$ 处的 Taylor 展开 $\dot{x} \approx A(x - x^*) + B(u - u^*)$（其中 $A = \frac{\partial f}{\partial x}$，$B = \frac{\partial f}{\partial u}$）就是 Jacobian 线性化。Taylor 余项的大小决定了线性化的适用范围——这是 LQR 控制器设计的数学基础。

⚠️ 常见陷阱¶

💡 概念误区：认为"$f^{(n)}(x_0) = 0$ 对所有 $n$ 意味着 $f \equiv 0$"

反例：$f(x) = e^{-1/x^2}$（$x \neq 0$），$f(0) = 0$。这个函数 $f^{(n)}(0) = 0$ 对所有 $n$，但 $f$ 不恒为零。它在 $0$ 处的 Taylor 级数恒为 $0$，但函数本身不是零——Taylor 级数不收敛到函数值。这种函数叫做"在 $0$ 处不解析（non-analytic）"。

🧠 思维陷阱：认为"中值定理可以推广到向量值函数"

$f: [a,b] \to \mathbb{R}^n$（$n \geq 2$）不满足 Lagrange 中值定理。反例：$f(t) = (\cos t, \sin t)$，$f(0) = f(2\pi) = (1, 0)$，但不存在 $c$ 使 $f'(c) = 0$（因为 $|f'(t)| = 1 \neq 0$）。多维替代品是 MVT 不等式 $\|f(b)-f(a)\| \leq \sup \|f'(c)\| \cdot (b-a)$。

练习¶

（推导题）从 Cauchy 中值定理推导 $\infty/\infty$ 型 L'Hôpital 法则。
（证明题）证明 Taylor 定理的积分余项形式：$R_n(x) = \frac{1}{n!}\int_{x_0}^{x} f^{(n+1)}(t)(x-t)^n dt$。（提示：对 $n$ 归纳，使用分部积分。）
（开放思考题）Lagrange 余项中的 $\xi$ 依赖于 $x$ 和 $n$。随着 $n \to \infty$，$\xi$ 是否有确定的极限行为？试对 $f(x) = e^x$ 做具体分析。

§6 Riemann-Stieltjes 积分 ⭐⭐¶

本节选择 Riemann-Stieltjes 积分而非纯 Riemann 积分，是因为 R-S 积分直接为测度论（§100）铺路，并服务于概率论中对分布函数的积分。

6.1 动机：为什么不只学 Riemann 积分¶

Riemann 积分 $\int_a^b f(x) \, dx$ 以"均匀切分"的长度 $\Delta x_i$ 为权重。但在许多应用中，权重不是均匀的：

概率论：期望 $E[g(X)] = \int g(x) \, dF(x)$，其中 $F$ 是累积分布函数——可以是离散的、连续的或混合的
物理学：质量分布可能集中在某些点上（点质量），力矩计算需要对质量分布积分
信号处理：离散采样信号和连续信号的统一描述

Riemann-Stieltjes 积分 $\int_a^b f \, d\alpha$ 允许积分子 $\alpha$ 是任意单调递增函数，统一处理上述所有情况。当 $\alpha(x) = x$ 时退化为 Riemann 积分。当 $\alpha$ 是阶梯函数时，积分退化为离散求和。

"不是 Riemann 积分的推广，而是求和与积分的统一"——这是 R-S 积分最正确的理解。在测度论（§100）中，这种统一将被进一步推广为对一般测度的积分。

历史注记：Stieltjes 在 1894 年引入这种积分来处理矩问题（moment problem）。Riemann 积分（1854）在 Stieltjes 积分中是特殊情况。Lebesgue 积分（1902）又是 Stieltjes 积分在一般测度上的推广。

6.2 定义与可积性 ⭐⭐¶

定义：设 $f: [a, b] \to \mathbb{R}$ 有界，$\alpha: [a, b] \to \mathbb{R}$ 单调递增。分划 $P = \{a = x_0 < x_1 < \cdots < x_n = b\}$。定义

\[U(P, f, \alpha) = \sum_{i=1}^{n} M_i \cdot \Delta\alpha_i, \qquad L(P, f, \alpha) = \sum_{i=1}^{n} m_i \cdot \Delta\alpha_i\]

其中 $M_i = \sup_{[x_{i-1}, x_i]} f$，$m_i = \inf_{[x_{i-1}, x_i]} f$，$\Delta\alpha_i = \alpha(x_i) - \alpha(x_{i-1})$。

$f$ 关于 $\alpha$ 在 $[a, b]$ 上 Riemann-Stieltjes 可积，是指

\[\sup_P L(P, f, \alpha) = \inf_P U(P, f, \alpha)\]

此公共值记为 $\int_a^b f \, d\alpha$。

Cauchy 可积性判据：$f \in \mathscr{R}(\alpha)$（$f$ 关于 $\alpha$ 可积）当且仅当

\[\forall \varepsilon > 0,\; \exists P,\; U(P, f, \alpha) - L(P, f, \alpha) < \varepsilon\]

定理：$f$ 在 $[a, b]$ 上连续，$\alpha$ 单调递增 $\Rightarrow$ $f \in \mathscr{R}(\alpha)$。

证明：$[a, b]$ 紧，$f$ 连续 $\Rightarrow$ $f$ 一致连续（Heine-Cantor）。对 $\varepsilon > 0$，取 $\delta$ 使 $|x - y| < \delta \Rightarrow |f(x) - f(y)| < \frac{\varepsilon}{\alpha(b) - \alpha(a) + 1}$。取分划 $P$ 使 $\Delta x_i < \delta$。则 $M_i - m_i < \frac{\varepsilon}{\alpha(b)-\alpha(a)+1}$，故

\[U(P,f,\alpha) - L(P,f,\alpha) = \sum (M_i - m_i)\Delta\alpha_i < \frac{\varepsilon}{\alpha(b)-\alpha(a)+1} \cdot (\alpha(b)-\alpha(a)) < \varepsilon\]

$\square$

6.3 积分的基本性质 ⭐¶

线性：$\int (af + bg) \, d\alpha = a\int f \, d\alpha + b\int g \, d\alpha$。

区间可加：$\int_a^c f \, d\alpha = \int_a^b f \, d\alpha + \int_b^c f \, d\alpha$（$a < b < c$）。

换积分子：若 $\alpha$ 可微且 $\alpha'$ 连续，则 $\int_a^b f \, d\alpha = \int_a^b f(x) \alpha'(x) \, dx$。这将 R-S 积分化为普通 Riemann 积分。

估值定理：若 $m \leq f(x) \leq M$，则 $m(\alpha(b)-\alpha(a)) \leq \int_a^b f \, d\alpha \leq M(\alpha(b)-\alpha(a))$。

6.4 微积分基本定理 ⭐⭐¶

定理（FTC Part I）：设 $f \in \mathscr{R}(\alpha)$（$\alpha(x) = x$，即 Riemann 积分），定义 $F(x) = \int_a^x f(t) \, dt$。若 $f$ 在 $x_0$ 连续，则 $F$ 在 $x_0$ 可导且 $F'(x_0) = f(x_0)$。

证明：对 $h > 0$，

\[\frac{F(x_0 + h) - F(x_0)}{h} = \frac{1}{h}\int_{x_0}^{x_0+h} f(t) \, dt\]

由 $f$ 在 $x_0$ 连续：$\forall \varepsilon > 0, \exists \delta > 0, |t - x_0| < \delta \Rightarrow |f(t) - f(x_0)| < \varepsilon$。当 $0 < h < \delta$：

\[\left|\frac{F(x_0+h)-F(x_0)}{h} - f(x_0)\right| = \left|\frac{1}{h}\int_{x_0}^{x_0+h}(f(t)-f(x_0)) \, dt\right| \leq \frac{1}{h} \cdot h \cdot \varepsilon = \varepsilon\]

$\square$

定理（FTC Part II）：设 $f = g'$ 在 $[a, b]$ 上连续。则 $\int_a^b f(x) \, dx = g(b) - g(a)$。

证明：由 FTC I，$F(x) = \int_a^x f(t) \, dt$ 满足 $F' = f = g'$。因此 $(F - g)' = 0$ 在 $(a, b)$ 上成立。由中值定理，$F - g$ 为常数 $c$。$F(a) = 0$，故 $c = -g(a)$，$F(b) = g(b) + c = g(b) - g(a)$。$\square$

本质洞察：FTC 是微分和积分这两个看似不相关的操作之间的深层联系——微分和积分互为逆运算。这不是"显然的"，它依赖于实数的完备性（确保 $F(x) = \int_a^x f$ 是良定义的）和中值定理（确保 $F' = f$）。从信息论的角度看，FTC 说"函数的全局行为（积分）可以从局部行为（导数）完全恢复"。

6.5 积分中值定理 ⭐⭐¶

第一中值定理：若 $f$ 在 $[a, b]$ 上连续，$\alpha$ 单调递增，则存在 $\xi \in [a, b]$ 使得

\[\int_a^b f \, d\alpha = f(\xi) \cdot [\alpha(b) - \alpha(a)]\]

证明：由 §3.2 极值定理，$f$ 取到最小值 $m$ 和最大值 $M$。由估值定理，$m[\alpha(b)-\alpha(a)] \leq \int f \, d\alpha \leq M[\alpha(b)-\alpha(a)]$。若 $\alpha(b) = \alpha(a)$，等式平凡成立。否则 $m \leq \frac{\int f \, d\alpha}{\alpha(b)-\alpha(a)} \leq M$，由中间值定理（§3.3），存在 $\xi$ 使 $f(\xi)$ 等于该中间值。$\square$

第二中值定理（需要 Abel 求和法）：若 $f$ 在 $[a, b]$ 上单调，$g$ 连续，则存在 $\xi \in [a, b]$ 使得

\[\int_a^b f(x) g(x) \, dx = f(a) \int_a^\xi g(x) \, dx + f(b) \int_\xi^b g(x) \, dx\]

6.6 分部积分与变量替换 ⭐¶

分部积分：$\int_a^b f \, dg = f(b)g(b) - f(a)g(a) - \int_a^b g \, df$（在 R-S 积分框架下，双方只要一边存在，另一边也存在）。

这个公式的证明基于 Darboux 和的恒等式，并利用加细分划的极限过程。

变量替换：若 $\phi: [\alpha, \beta] \to [a, b]$ 严格递增且可微，$f \in \mathscr{R}[a, b]$，则

\[\int_a^b f(x) \, dx = \int_\alpha^\beta f(\phi(t)) \phi'(t) \, dt\]

证明思路：设 $F(x) = \int_a^x f(u) \, du$。由 FTC，$F' = f$（在 $f$ 连续点处）。令 $G(t) = F(\phi(t))$，由链式法则 $G'(t) = f(\phi(t)) \phi'(t)$。再由 FTC Part II，$\int_\alpha^\beta G'(t) \, dt = G(\beta) - G(\alpha) = F(b) - F(a) = \int_a^b f(x) \, dx$。$\square$

⚠️ 常见陷阱¶

💡 概念误区：认为"R-S 积分只是 Riemann 积分的微小推广"

R-S 积分的核心优势是：统一处理离散和连续的"权重"。当 $\alpha$ 是阶梯函数（在 $c_k$ 处跳跃 $w_k$），$\int f \, d\alpha = \sum f(c_k) w_k$——这就是离散求和。R-S 积分将求和与积分统一为同一个框架。

🧠 思维陷阱：认为"FTC 对所有可积函数成立"

FTC Part I 要求 $f$ 在 $x_0$ 连续——如果 $f$ 在 $x_0$ 不连续，$F$ 在 $x_0$ 可能不可导。FTC Part II 要求 $f = g'$ 连续——如果 $g'$ 存在但不连续，需要更精细的分析（Lebesgue 积分的 FTC，见 §100）。

练习¶

（推导题）设 $\alpha$ 是阶梯函数，在 $c_1, c_2, \ldots, c_m$ 处分别有跳跃量 $w_1, \ldots, w_m$。证明 $\int_a^b f \, d\alpha = \sum_{k=1}^{m} f(c_k) w_k$（假设 $f$ 在跳跃点连续）。
（证明题）推导 R-S 积分的分部积分公式。
（开放思考题）对于 R-S 积分 $\int_0^1 f \, d\alpha$，当 $\alpha$ 是 Cantor 函数（"魔鬼阶梯"）时，积分有什么特殊行为？

§7 函数序列与级数 · 一致收敛 ⭐⭐¶

§2 研究了数列，§5-§6 研究了单个函数。本节将两者结合——研究函数序列的收敛性。一致收敛是将逐点分析提升为全局分析的关键概念。

7.1 逐点收敛 vs 一致收敛 ⭐¶

定义（逐点收敛）：函数序列 $\{f_n\}$ **逐点收敛**到 $f$，是指对每个 $x$，$f_n(x) \to f(x)$：

\[\forall x,\; \forall \varepsilon > 0,\; \exists N(x, \varepsilon),\; n \geq N \Rightarrow |f_n(x) - f(x)| < \varepsilon\]

注意 $N$ 可以依赖于 $x$。

定义（一致收敛）：$\{f_n\}$ **一致收敛**到 $f$（记 $f_n \rightrightarrows f$），是指：

\[\forall \varepsilon > 0,\; \exists N(\varepsilon),\; \forall x,\; n \geq N \Rightarrow |f_n(x) - f(x)| < \varepsilon\]

$N$ 不依赖于 $x$。等价刻画：$\|f_n - f\|_\infty = \sup_x |f_n(x) - f(x)| \to 0$。

经典反例：$f_n(x) = x^n$ 在 $[0, 1]$ 上。逐点极限为 $f(x) = 0$（$x < 1$），$f(1) = 1$。每个 $f_n$ 连续，但极限 $f$ 不连续——这说明逐点收敛**不保持连续性**。$\|f_n - f\|_\infty = \sup_{[0,1]} |x^n - f(x)| = 1$（在 $x$ 接近 $1$ 处），因此收敛不一致。

类比：逐点收敛就像"每个学生各自通过考试"（每人有自己的准备时间），一致收敛就像"全班同时通过考试"（有统一的截止时间）。前者允许个别学生准备很久，后者要求所有人在同一时间点之后都合格。这个类比在"$N$ 是否依赖于 $x$"的层面是精确的。

7.2 一致收敛的 Cauchy 准则 ⭐⭐¶

定理：$\{f_n\}$ 在 $E$ 上一致收敛 $\Leftrightarrow$ $\{f_n\}$ 在 $E$ 上一致 Cauchy：

\[\forall \varepsilon > 0,\; \exists N,\; \forall n, m \geq N,\; \sup_{x \in E} |f_n(x) - f_m(x)| < \varepsilon\]

证明：$\Rightarrow$：由一致收敛，$\sup |f_n - f| \to 0$，故 $\sup |f_n - f_m| \leq \sup |f_n - f| + \sup |f_m - f| \to 0$。

$\Leftarrow$：对每个 $x$，$\{f_n(x)\}$ 是 $\mathbb{R}$ 中 Cauchy 列，由 $\mathbb{R}$ 完备收敛到某个 $f(x)$。在 $|f_n(x) - f_m(x)| < \varepsilon$（对所有 $x$，$n, m \geq N$）中令 $m \to \infty$，得 $|f_n(x) - f(x)| \leq \varepsilon$（对所有 $x$，$n \geq N$），即一致收敛。$\square$

这个结果为 §16 中 $C(X)$ 的完备性奠定基础。

7.3 一致收敛保持的性质 ⭐⭐¶

这三个定理是一致收敛理论的核心：

定理 1（保持连续性）：$f_n$ 连续，$f_n \rightrightarrows f$ $\Rightarrow$ $f$ 连续。

证明（$\varepsilon/3$ 论证）：对 $\varepsilon > 0$，取 $N$ 使 $\sup |f_N - f| < \varepsilon/3$。$f_N$ 在 $p$ 连续，取 $\delta$ 使 $d(x, p) < \delta \Rightarrow |f_N(x) - f_N(p)| < \varepsilon/3$。则

\[|f(x) - f(p)| \leq |f(x) - f_N(x)| + |f_N(x) - f_N(p)| + |f_N(p) - f(p)| < 3 \cdot \frac{\varepsilon}{3} = \varepsilon\]

$\square$

定理 2（保持积分）：$f_n \in \mathscr{R}(\alpha)$，$f_n \rightrightarrows f$ $\Rightarrow$ $f \in \mathscr{R}(\alpha)$ 且

\[\int_a^b f \, d\alpha = \lim_{n \to \infty} \int_a^b f_n \, d\alpha\]

即"极限与积分可交换"。

定理 3（保持微分，带额外条件）：设 $f_n$ 在 $(a, b)$ 上可导，$f_n'$ 一致收敛到某函数 $g$，且存在 $x_0 \in (a, b)$ 使 $\{f_n(x_0)\}$ 收敛。则 $f_n$ 一致收敛到某 $f$，$f$ 可导且 $f' = g$。

注意条件的微妙之处：不是 $f_n$ 一致收敛就够，需要的是 $f_n'$ 一致收敛。

反事实推理：如果只要求 $f_n \rightrightarrows f$ 而不要求 $f_n' \rightrightarrows g$，能否交换极限和导数？不能。反例：$f_n(x) = \frac{\sin(nx)}{\sqrt{n}}$ 一致收敛到 $0$，但 $f_n'(x) = \sqrt{n}\cos(nx)$ 在几乎所有点发散。

7.4 Weierstrass M-判别法 ⭐¶

定理：设 $\{f_n\}$ 是定义在 $E$ 上的函数序列，$|f_n(x)| \leq M_n$ 对所有 $x \in E$。若 $\sum M_n$ 收敛，则 $\sum f_n$ 在 $E$ 上一致收敛（且绝对收敛）。

证明：$|\sum_{k=m}^{n} f_k(x)| \leq \sum_{k=m}^{n} M_k$。$\sum M_n$ 收敛意味着右侧趋于 $0$（Cauchy），因此 $\sum f_n$ 的部分和一致 Cauchy，由 §7.2 一致收敛。$\square$

应用：Weierstrass 处处连续无处可导函数

\[W(x) = \sum_{n=0}^{\infty} a^n \cos(b^n \pi x), \quad 0 < a < 1, \; b \text{ 为奇正整数}, \; ab > 1 + \frac{3\pi}{2}\]

由 $|a^n \cos(b^n \pi x)| \leq a^n$ 且 $\sum a^n < \infty$，Weierstrass M-判别法保证 $W$ 一致收敛，因此连续。但不可导的证明要精细得多——核心思想是高频项 $\cos(b^n \pi x)$ 的振荡掩盖了低频项的贡献。

本质洞察：Weierstrass 函数打破了"连续函数应该'几乎处处'可导"的直觉。事实上，在某种测度论意义下，"大部分"连续函数都是处处不可导的——可导函数反而是例外。这个惊人的事实在 §100 测度论之后才能严格表述。

7.5 幂级数 ⭐¶

定理（Cauchy-Hadamard）：幂级数 $\sum a_n x^n$ 的收敛半径为

\[R = \frac{1}{\limsup_{n\to\infty} |a_n|^{1/n}}\]

（约定 $1/0 = +\infty$，$1/\infty = 0$。）

在 $|x| < R$ 内绝对收敛，$|x| > R$ 发散。在 $[-r, r]$（$0 < r < R$）上一致收敛。

Abel 定理：若 $\sum a_n$ 收敛，则 $\lim_{x \to 1^-} \sum a_n x^n = \sum a_n$。这保证了幂级数在收敛区间端点的"连续延拓"——即便端点处的收敛可能只是条件收敛。

证明思路：设 $f(x) = \sum a_n x^n$（$|x| < 1$）。令 $s = \sum a_n$。需证 $f(x) \to s$（$x \to 1^-$）。利用 Abel 求和法：$f(x) = (1-x) \sum_{n=0}^{\infty} S_n x^n$（其中 $S_n = \sum_{k=0}^{n} a_k$）。由 $S_n \to s$，$(1-x) \sum S_n x^n \to s$（Cesàro 求和的连续版本）。$\square$

经典应用：$\sum_{n=1}^{\infty} \frac{(-1)^{n+1}}{n} = \ln 2$。这个等式的严格证明需要 Abel 定理——因为该级数只是条件收敛。在 $|x| < 1$ 内 $\sum \frac{(-1)^{n+1}}{n} x^n = \ln(1+x)$（逐项积分 $\sum (-x)^n = \frac{1}{1+x}$），由 Abel 定理令 $x \to 1^-$ 得到等式。

逐项微分与积分：在收敛半径内，幂级数可逐项微分和积分，且微分/积分后的级数收敛半径不变。

具体而言：若 $f(x) = \sum a_n x^n$（$|x| < R$），则 - $f'(x) = \sum n a_n x^{n-1}$（$|x| < R$），收敛半径仍为 $R$ - $\int_0^x f(t) \, dt = \sum \frac{a_n}{n+1} x^{n+1}$（$|x| < R$），收敛半径仍为 $R$

这使得幂级数成为计算导数和积分的强大工具——将无穷求和与微积分操作"交换"。

7.6 实解析函数 vs $C^\infty$ ⭐⭐¶

一个 $C^\infty$（光滑）函数是否一定等于它的 Taylor 级数？不一定。 这是实分析中最出人意料的现象之一。

反例：$f(x) = e^{-1/x^2}$（$x \neq 0$），$f(0) = 0$。可以证明 $f^{(n)}(0) = 0$ 对所有 $n$——每次求导后，$e^{-1/x^2}$ 衰减得比任何 $x^k$ 都快。因此 $f$ 在 $0$ 处的 Taylor 级数是 $0 + 0 + 0 + \cdots = 0$，但 $f$ 本身对 $x \neq 0$ 不为零。

为什么会这样？ Taylor 级数收敛到 $f$ 需要余项 $R_n(x) \to 0$（当 $n \to \infty$），而这个条件可能在某些点不满足。对 $e^{-1/x^2}$，虽然每个 Taylor 系数都是 $0$，函数的"信息"全部隐藏在余项中。

定义：函数 $f$ 在 $x_0$ 处**实解析（real analytic）**，如果在 $x_0$ 的某邻域内 $f$ 等于它的 Taylor 级数，即存在 $r > 0$ 使得

\[f(x) = \sum_{n=0}^{\infty} \frac{f^{(n)}(x_0)}{n!}(x - x_0)^n, \quad |x - x_0| < r\]

连续性强弱链的延伸：

\[\text{实解析} \subsetneq C^\infty \subsetneq \cdots \subsetneq C^2 \subsetneq C^1 \subsetneq C^0 = \text{连续}\]

每个包含关系都是严格的。$e^{-1/x^2}$ 分离了实解析和 $C^\infty$。

实解析和 $C^\infty$ 的区分在 §9 Stone-Weierstrass 中变得重要——Stone-Weierstrass 定理说多项式可以一致逼近连续函数，但不等于它。在微分流形理论中，$C^\infty$ 流形和实解析流形是不同的范畴。

有趣的事实：在复分析中，$C^1$（复可微）就意味着解析——不需要额外假设。这是实分析和复分析最深刻的区别之一。$e^{-1/z^2}$ 在 $z = 0$ 有本性奇点，不是全纯的——复变量的情况完全不同。

⚠️ 常见陷阱¶

💡 概念误区：混淆"逐点收敛"和"一致收敛"

两者的区别看似只是量词顺序的差别（$\forall x, \exists N$ vs $\exists N, \forall x$），但后果天壤之别。逐点收敛不保持连续性、不保持积分——在分析学中几乎"无用"。一致收敛才是有力的工具。

🧠 思维陷阱：认为"幂级数在收敛圆上的行为统一"

幂级数在收敛半径 $R$ 处的行为可以是：收敛、条件收敛、发散。例如 $\sum x^n/n$ 在 $x = -1$ 收敛（交错级数），在 $x = 1$ 发散（调和级数）。收敛圆上的行为需要逐个判断。

练习¶

（证明题）证明一致收敛保持连续性的定理（定理 1），用序列定义替代 $\varepsilon$-$\delta$ 语言重新写出证明。
（推导题）计算 $\sum_{n=1}^{\infty} \frac{x^n}{n}$ 的收敛半径和在端点的收敛性。在 $(-1, 1)$ 内，对该级数逐项微分得到什么？
（开放思考题）Weierstrass M-判别法的条件能否弱化？即是否存在 $\sum f_n$ 一致收敛但不满足 M-判别法条件的例子？

§8 等度连续与 Arzelà-Ascoli 定理 ⭐⭐⭐¶

§7 研究了函数序列的收敛。本节回答一个更深的问题：什么条件下函数序列有收敛子列？这是函数空间中的"紧致性"。

8.1 动机：函数空间中的 Bolzano-Weierstrass¶

回顾 §1 的 BW 定理：$\mathbb{R}^n$ 中有界序列有收敛子列。能否将此推广到函数空间 $C([0, 1])$？

直接推广是**不成立的**——在无穷维空间中，有界不蕴含紧。这是有限维和无穷维空间最深刻的区别之一。

反例 1：$f_n(x) = \sin(nx)$ 在 $C([0, 1])$ 中有界（$\|f_n\|_\infty = 1$），但没有一致收敛的子列。证明：对 $n \neq m$，取 $x_0$ 使 $\sin(nx_0) = 1$ 且 $\sin(mx_0) = -1$（通过适当选取）——这给出 $\|f_n - f_m\|_\infty \geq 2$。实际上只需证明不存在 Cauchy 子列就够了。

反例 2：$f_n(x) = x^n$ 在 $C([0, 1])$ 中有界（$\|f_n\|_\infty = 1$），其逐点极限是不连续函数——因此没有任何子列在 $C([0, 1])$ 中收敛（一致收敛保持连续性）。

为什么有界不够？ 在 $\mathbb{R}^n$ 中，BW 定理的证明依赖于"逐坐标取子列"——有限维意味着有限步完成。在无穷维空间中，函数有"无穷多个自由度"——单纯的有界性无法控制所有自由度。

需要额外条件——**等度连续性**就是缺失的那块拼图。它控制的恰恰是"不同点处的函数值不能变化太快"——限制了函数的"自由度"。

8.2 等度连续性 ⭐⭐¶

定义：函数族 $\mathcal{F} \subseteq C(X, Y)$ 在 $p \in X$ 等度连续，是指：

\[\forall \varepsilon > 0,\; \exists \delta > 0,\; \forall f \in \mathcal{F},\; d_X(x, p) < \delta \Rightarrow d_Y(f(x), f(p)) < \varepsilon\]

关键：$\delta$ 不依赖于 $f$——整个函数族共享同一个 $\delta$。

类比：如果每个函数的连续性像"每个人各自的步速"，那么等度连续就是"全队的最低步速保证"——整个团队都能以统一的精度响应输入变化。这个类比在"$\delta$ 的统一性"层面准确，但注意等度连续不要求函数值相近（那是逐点有界）。

8.3 Arzelà-Ascoli 定理 ⭐⭐⭐¶

定理（Arzelà-Ascoli）：设 $(X, d)$ 是紧致度量空间，$\mathcal{F} \subseteq C(X, \mathbb{R})$。则 $\mathcal{F}$ 在 $(C(X), \|\cdot\|_\infty)$ 中**相对紧**（即 $\overline{\mathcal{F}}$ 紧，等价于每个序列有一致收敛的子列）当且仅当： 1. 逐点有界：对每个 $x \in X$，$\{f(x) : f \in \mathcal{F}\}$ 有界 2. 等度连续

证明（充分性，即条件 $\Rightarrow$ 相对紧）：

Step 1：$X$ 紧致度量空间有**可数稠密子集** $\{x_k\}_{k=1}^{\infty}$（可分性）。

Step 2（Cantor 对角线法）：设 $\{f_n\}$ 是 $\mathcal{F}$ 中的序列。在 $x_1$ 处，$\{f_n(x_1)\}$ 有界，由 BW 取收敛子列 $\{f_{n_k^{(1)}}\}$ 使 $f_{n_k^{(1)}}(x_1)$ 收敛。在 $x_2$ 处，从 $\{f_{n_k^{(1)}}\}$ 中再取子列使其在 $x_2$ 也收敛。如此继续。取"对角线"子列 $g_k = f_{n_k^{(k)}}$——它在每个 $x_j$ 上都收敛。

Step 3（等度连续 + 稠密性 $\Rightarrow$ 一致收敛）：对 $\varepsilon > 0$，由等度连续取 $\delta$ 使 $d(x, y) < \delta \Rightarrow |f(x) - f(y)| < \varepsilon/3$ 对所有 $f \in \mathcal{F}$。$X$ 紧，取有限个 $\delta$-球覆盖 $X$，球心在 $\{x_k\}$ 中选取，设为 $x_{k_1}, \ldots, x_{k_m}$。$\{g_n\}$ 在这有限个点上收敛，取 $N$ 使 $n, p \geq N \Rightarrow |g_n(x_{k_j}) - g_p(x_{k_j})| < \varepsilon/3$ 对所有 $j$。对任意 $x \in X$，取 $x_{k_j}$ 使 $d(x, x_{k_j}) < \delta$：

\[|g_n(x) - g_p(x)| \leq |g_n(x) - g_n(x_{k_j})| + |g_n(x_{k_j}) - g_p(x_{k_j})| + |g_p(x_{k_j}) - g_p(x)| < 3 \cdot \frac{\varepsilon}{3} = \varepsilon\]

因此 $\{g_n\}$ 一致 Cauchy，由 §7.2 一致收敛。$\square$

阶段小结：Arzelà-Ascoli 定理是无穷维空间中 BW 定理的正确推广。有界性需要替换为"逐点有界 + 等度连续"——前者控制"函数值不会跑太远"，后者控制"函数不会振荡太快"。

工程桥接：在最优控制中，一族满足 Lipschitz 界的容许控制所对应的状态轨迹——由 Arzelà-Ascoli 定理——在 $C([0,T], \mathbb{R}^n)$ 中预紧。这保证了最优轨迹的存在（取子列极限），是 Pontryagin 最大值原理的前置工具。

⚠️ 常见陷阱¶

💡 概念误区：认为"逐点有界就够了"

逐点有界但不等度连续的函数族可以没有收敛子列——前面的 $\sin(nx)$ 例子就是如此。等度连续是不可省略的条件。

🧠 思维陷阱：混淆"等度连续"和"一致连续"

一致连续是单个函数的性质（$\delta$ 不依赖于 $x$），等度连续是函数族的性质（$\delta$ 不依赖于 $f$）。一个函数一致连续不意味着包含它的函数族等度连续。

练习¶

（证明题）证明 Arzelà-Ascoli 定理的必要性：如果 $\mathcal{F}$ 相对紧，则 $\mathcal{F}$ 逐点有界且等度连续。
（推导题）设 $K$ 是紧度量空间上的连续核函数，定义积分算子 $Tf(x) = \int K(x, y) f(y) \, dy$。用 Arzelà-Ascoli 定理证明 $T$ 将有界集映到相对紧集。

§9 Stone-Weierstrass 定理 ⭐⭐⭐¶

§8 回答了"何时有收敛子列"，本节回答"何种函数能被逼近"——逼近理论的核心。

9.1 动机与 Weierstrass 逼近定理 ⭐⭐¶

经典问题：连续函数能被更"简单"的函数一致逼近吗？

这个问题不仅有理论价值，也有深刻的实际意义。在工程中，我们经常需要用有限参数的函数族（多项式、三角函数、神经网络）来逼近复杂的连续函数。Weierstrass 定理保证这种逼近是可行的。

定理（Weierstrass，1885）：$[a, b]$ 上的连续函数可被多项式一致逼近。即对任意 $f \in C([a, b])$ 和 $\varepsilon > 0$，存在多项式 $p$ 使 $\|f - p\|_\infty < \varepsilon$。

历史背景：Weierstrass 在 1885 年发表了这个定理，当时证明使用了卷积方法。后来 Bernstein 在 1912 年给出了一个概率论风格的构造性证明。

构造性证明（Bernstein 多项式）：定义

\[B_n(f, x) = \sum_{k=0}^{n} f\left(\frac{k}{n}\right) \binom{n}{k} x^k (1-x)^{n-k}\]

可以证明 $B_n(f, x) \rightrightarrows f(x)$ 在 $[0, 1]$ 上。证明的关键步骤：

$\sum_{k=0}^{n} \binom{n}{k} x^k(1-x)^{n-k} = 1$（二项式定理）
$\sum_{k=0}^{n} (k/n - x)^2 \binom{n}{k} x^k(1-x)^{n-k} = \frac{x(1-x)}{n} \leq \frac{1}{4n}$（二项分布方差）
对 $\varepsilon > 0$，由 $f$ 一致连续取 $\delta$。将求和分为 $|k/n - x| < \delta$ 和 $|k/n - x| \geq \delta$ 两部分——前者由 $f$ 的一致连续性控制，后者由方差趋于 $0$ 控制。

类比：Bernstein 多项式可以理解为"概率采样"——在 $[0, 1]$ 上做 $n$ 次独立的 Bernoulli 试验（成功概率 $x$），成功 $k$ 次的概率就是 $\binom{n}{k}x^k(1-x)^{n-k}$。$B_n(f, x)$ 就是 $f(k/n)$ 关于这个概率的期望。大数定律保证 $k/n \to x$，因此 $B_n(f, x) \to f(x)$。这个类比在概率视角下是精确的，但注意一致收敛的证明需要更定量的估计（不仅仅是"大数定律"的逐点版本）。

9.2 Stone-Weierstrass 定理 ⭐⭐⭐¶

Stone（1937）认识到 Weierstrass 定理的本质不在于多项式的特殊性，而在于多项式构成的**代数**的性质。

定义：$A \subseteq C(X, \mathbb{R})$ 是**子代数**，如果对加法、标量乘法和函数乘法封闭。$A$ 分离点，如果对任意 $x \neq y$，存在 $f \in A$ 使 $f(x) \neq f(y)$。

定理（Stone-Weierstrass，实代数版本）：$X$ 紧 Hausdorff 空间，$A \subseteq C(X, \mathbb{R})$ 是子代数。若 $A$ 含常数函数且分离 $X$ 的点，则 $A$ 在 $C(X, \mathbb{R})$ 中稠密（关于 $\|\cdot\|_\infty$）。

证明要点：

引理 1：$|t|$ 在 $[-M, M]$ 可被多项式一致逼近。（利用 $\sqrt{t^2} = |t|$，从 $\sqrt{1-u}$ 的 Taylor 级数在 $[0, 1]$ 上一致收敛出发。）

引理 2：$A$ 的一致闭包 $\overline{A}$ 对 $\max$ 和 $\min$ 封闭。（因为 $\max(f, g) = \frac{f+g+|f-g|}{2}$，$|f-g|$ 可被 $A$ 中多项式逼近。）

引理 3：分离点 + 含常数 $\Rightarrow$ 对任意 $x \neq y$ 和 $\alpha, \beta \in \mathbb{R}$，存在 $f \in \overline{A}$ 使 $f(x) = \alpha, f(y) = \beta$。（由分离性和仿射变换。）

主证明：对 $g \in C(X)$ 和 $\varepsilon > 0$。对每对点 $s, t \in X$，由引理 3 取 $f_{s,t} \in \overline{A}$ 使 $f_{s,t}(s) = g(s)$ 且 $f_{s,t}(t) = g(t)$。固定 $s$，用 $\min$ 操作将不同 $t$ 对应的函数"压低"到 $g + \varepsilon$ 以下；然后用 $\max$ 操作将不同 $s$ 对应的函数"抬高"到 $g - \varepsilon$ 以上。紧致性保证有限步完成。最终得到 $\|h - g\|_\infty < \varepsilon$，$h \in \overline{A}$。$\square$

本质洞察：Stone-Weierstrass 定理的深层含义是——在紧空间上，能分离点的代数已经"足够丰富"以逼近任意连续函数。这不需要代数的元素是多项式——它们可以是三角函数、指数函数、甚至神经网络的激活函数。

工程桥接：神经网络的通用逼近定理（Cybenko 1989, Hornik 1991）可以视为 Stone-Weierstrass 的现代版本——单隐层 ReLU 网络在紧集上一致逼近连续函数。多项式样条（B-spline, Bézier）在机器人轨迹参数化中的使用，其理论根源也在于 Weierstrass 逼近。

⚠️ 常见陷阱¶

💡 概念误区：认为"Stone-Weierstrass 对复值函数也成立"

复代数版本需要额外的"共轭闭"条件（即 $f \in A \Rightarrow \bar{f} \in A$）。没有此条件的反例：全纯多项式代数在圆盘边界的连续函数空间中不稠密（因为全纯函数在边界的值满足 Cauchy 积分公式的约束）。

🧠 思维陷阱：认为"逼近意味着相等"

多项式可以一致逼近连续函数，但（一般地）不等于它。$e^x$ 不是多项式，但可被多项式任意精确地逼近。逼近是"无穷精度的近似"，不是"严格相等"。

练习¶

（证明题）用 Stone-Weierstrass 定理证明：$[0, 2\pi]$ 上的连续周期函数可被三角多项式一致逼近。
（开放思考题）Stone-Weierstrass 定理要求 $X$ 紧。在非紧空间上能得到什么样的逼近结果？

§10 压缩映射原理 ⭐⭐¶

§8 和 §9 讨论了函数空间的紧致性和逼近。本节引入一个完全不同但极其强大的工具——压缩映射原理——它在存在唯一性证明中扮演核心角色。

10.1 动机：从迭代到不动点¶

**不动点问题**是数学中最基本的问题框架之一——找 $x$ 使 $T(x) = x$。许多看似不同的问题都可以归结为不动点问题：

方程求根：$f(x) = 0$ 可改写为 $x = x - \alpha f(x) = T(x)$（适当选择 $\alpha$）
ODE 初值问题：$\dot{x} = f(t, x), x(0) = x_0$ 等价于积分方程 $x(t) = x_0 + \int_0^t f(s, x(s)) ds = T[x](t)$
最优控制：Bellman 方程 $V = \mathcal{T}V$ 的解是值函数——动态规划的核心
博弈论：Nash 均衡是最佳响应映射的不动点
经济学：一般均衡是超额需求映射的零点（等价于不动点问题）

如果 $T$ 是"压缩的"——每次迭代让点更近——那么迭代序列 $x, T(x), T^2(x), \ldots$ 将收敛到唯一的不动点。这个思想如此强大，以至于 Banach（1922）的压缩映射原理被认为是 20 世纪函数分析中影响最深远的单一定理之一。

10.2 Banach 压缩映射原理 ⭐⭐¶

定理（Banach 不动点定理，1922）：设 $(X, d)$ 是完备度量空间，$T: X \to X$ 是压缩映射，即存在 $0 \leq k < 1$ 使得

\[d(T(x), T(y)) \leq k \cdot d(x, y), \quad \forall x, y \in X\]

则 $T$ 有唯一不动点 $x^*$，且对任意初始点 $x_0 \in X$，迭代序列 $x_n = T(x_{n-1})$ 满足 $x_n \to x^*$，收敛速率为

\[d(x_n, x^*) \leq \frac{k^n}{1 - k} d(x_0, T(x_0))\]

证明（完整）：

存在性：构造 $x_n = T(x_{n-1})$。估计相邻项的距离：

\[d(x_{n+1}, x_n) = d(T(x_n), T(x_{n-1})) \leq k \cdot d(x_n, x_{n-1}) \leq \cdots \leq k^n \cdot d(x_1, x_0)\]

对 $n > m$：

\[d(x_n, x_m) \leq \sum_{j=m}^{n-1} d(x_{j+1}, x_j) \leq d(x_1, x_0) \sum_{j=m}^{n-1} k^j \leq \frac{k^m}{1-k} d(x_1, x_0) \to 0\]

因此 $\{x_n\}$ 是 Cauchy 列。$X$ 完备，$x_n \to x^*$。

$x^*$ 是不动点：$d(T(x^*), x^*) \leq d(T(x^*), T(x_n)) + d(x_{n+1}, x^*) \leq k \cdot d(x^*, x_n) + d(x_{n+1}, x^*) \to 0$。

唯一性：若 $y^*$ 也是不动点，$d(x^*, y^*) = d(T(x^*), T(y^*)) \leq k \cdot d(x^*, y^*)$。由 $k < 1$，必须 $d(x^*, y^*) = 0$，即 $x^* = y^*$。

收敛速率：在 $d(x_n, x_m) \leq \frac{k^m}{1-k} d(x_1, x_0)$ 中令 $n \to \infty$ 得 $d(x_m, x^*) \leq \frac{k^m}{1-k} d(x_1, x_0)$。$\square$

本质洞察：压缩映射原理的力量在于它同时给出三样东西：存在性（不动点存在）、唯一性（不动点唯一）、收敛速率（迭代多快到达）。大部分存在性定理只给前两者。收敛速率 $k^n$（指数衰减）使得该定理在数值计算中极其实用。

10.3 参数化版本 ⭐⭐⭐¶

定理：设 $T(x, \lambda)$ 对参数 $\lambda$ 连续，且对每个 $\lambda$，$x \mapsto T(x, \lambda)$ 是压缩映射（压缩系数 $k$ 统一）。则不动点 $x^*(\lambda)$ 对 $\lambda$ 连续。

证明思路：$d(x^*(\lambda_1), x^*(\lambda_2)) = d(T(x^*(\lambda_1), \lambda_1), T(x^*(\lambda_2), \lambda_2))$。加减 $T(x^*(\lambda_1), \lambda_2)$，利用压缩性和 $T$ 对 $\lambda$ 的连续性得到

\[d(x^*(\lambda_1), x^*(\lambda_2)) \leq \frac{1}{1-k} d(T(x^*(\lambda_1), \lambda_1), T(x^*(\lambda_1), \lambda_2))\]

右侧由 $T$ 对 $\lambda$ 的连续性趋于 $0$。$\square$

这个参数化版本是 §12 反函数定理证明的关键准备。

10.4 应用预览：ODE 存在唯一性 ⭐⭐¶

Picard-Lindelöf 定理框架：考虑初值问题

\[\dot{x} = f(t, x), \quad x(t_0) = x_0\]

其中 $f$ 关于 $x$ 满足 Lipschitz 条件 $|f(t, x) - f(t, y)| \leq L|x - y|$。

关键思想：将 ODE 转化为积分方程。$x(t)$ 是解当且仅当

\[x(t) = x_0 + \int_{t_0}^{t} f(s, x(s)) \, ds\]

定义 Picard 算子 $T[\phi](t) = x_0 + \int_{t_0}^{t} f(s, \phi(s)) \, ds$，作用在 $C([t_0 - \delta, t_0 + \delta], \mathbb{R}^n)$ 上（配 sup 范数）。ODE 的解就是 $T$ 的不动点。

$T$ 的压缩性：

\[\|T[\phi] - T[\psi]\|_\infty = \sup_t \left|\int_{t_0}^{t} [f(s, \phi(s)) - f(s, \psi(s))] \, ds\right| \leq L\delta \cdot \|\phi - \psi\|_\infty\]

当 $\delta < 1/L$ 时，$L\delta < 1$，$T$ 是压缩映射。由 Banach 定理，$T$ 有唯一不动点——即 ODE 在 $[t_0 - \delta, t_0 + \delta]$ 上有唯一解。

**Picard 迭代**就是压缩映射的迭代：$\phi_0(t) = x_0$，$\phi_{n+1} = T[\phi_n]$。显式写出前几步：

\[\phi_1(t) = x_0 + \int_{t_0}^{t} f(s, x_0) \, ds\]

\[\phi_2(t) = x_0 + \int_{t_0}^{t} f(s, \phi_1(s)) \, ds\]

这些 Picard 迭代在数值方法中直接可用，收敛速率由压缩常数 $L\delta$ 控制。

完整证明（包括最大存在区间的讨论）推迟到 §120（常微分方程），此处给出框架让读者看到压缩映射原理的威力。

10.5 Newton 迭代的局部收敛性 ⭐⭐⭐¶

另一个重要应用是 Newton 迭代法的局部收敛性分析。

考虑求解 $F(x) = 0$（$F: \mathbb{R}^n \to \mathbb{R}^n$，$C^2$），Newton 迭代为

\[x_{n+1} = x_n - [DF(x_n)]^{-1} F(x_n)\]

定义 $T(x) = x - [DF(x)]^{-1}F(x)$，则 Newton 迭代就是 $x_{n+1} = T(x_n)$。

关键计算：$DT(x) = I - [DF(x)]^{-1}DF(x) - D([DF(x)]^{-1}F(x)) = -[DF(x)]^{-1}D^2F(x)[\cdot, [DF(x)]^{-1}F(x)]$。在解 $x^*$（即 $F(x^*) = 0$）处，$DT(x^*) = 0$——这意味着 $T$ 在 $x^*$ 附近的压缩常数趋于 $0$，收敛速度是**二次的**（超线性），比一般压缩映射（线性收敛）快得多。

工程桥接：ICP 算法（Iterative Closest Point）用于点云配准——每步寻找最近点对并求最优刚体变换，本质上是压缩映射的迭代。Gauss-Newton 法在局部极小附近也具有压缩性质，这解释了它的快速收敛。SLAM 中 factor graph 优化的收敛性分析同样依赖压缩映射框架。

⚠️ 常见陷阱¶

💡 概念误区：认为"$d(T(x), T(y)) < d(x, y)$（严格不等式）就够了"

这个条件叫"非扩张映射"，不保证不动点存在。反例：$T(x) = x + \frac{1}{x}$ 在 $(1, \infty)$ 上，虽然每步"拉近"了（$|T(x) - T(y)| < |x-y|$ 对足够大的 $x, y$），但没有不动点。关键是需要**严格小于 $1$ 的统一压缩常数 $k$**。

🧠 思维陷阱：认为"完备性条件可以去掉"

反例：$T(x) = x/2$ 在不完备空间 $(0, 1) \cap \mathbb{Q}$ 上是压缩映射，不动点 $0$ 不在空间中。完备性保证 Cauchy 列有极限，是不可省略的。

练习¶

（证明题）证明参数化压缩映射定理：若 $T$ 对 $\lambda$ 还可微，则 $x^*(\lambda)$ 对 $\lambda$ 也可微。给出 $\frac{dx^*}{d\lambda}$ 的公式。
（推导题）用压缩映射原理证明：方程 $x = \cos x$ 在 $\mathbb{R}$ 上有唯一解。估计从 $x_0 = 0$ 出发迭代 10 次的误差上界。

§11 多变量微分学 · 总导数 ⭐⭐¶

§5 讨论了单变量微分。本节跨入多变量——核心概念是总导数（Fréchet 导数），它是"最佳线性逼近"。

11.1 动机：偏导数不等于可微 ⭐¶

在多变量微积分中，一个最危险的误解是"偏导数存在 $\Rightarrow$ 可微"。

反例：$f(x, y) = \frac{xy^2}{x^2 + y^4}$（$(x, y) \neq (0, 0)$），$f(0, 0) = 0$。

所有方向导数在 $(0, 0)$ 存在：沿方向 $(a, b)$，$\lim_{t \to 0} \frac{f(ta, tb)}{t} = \lim \frac{tab^2t^2}{t^2a^2 + t^4b^4} = \frac{ab^2}{a^2} = \frac{b^2}{a}$（$a \neq 0$）。但 $f$ 在 $(0, 0)$ 甚至不连续——沿抛物线 $x = y^2$ 趋近原点时 $f = \frac{1}{2}$，沿 $x$ 轴趋近时 $f = 0$。

因此，偏导数存在（甚至所有方向导数存在）不保证可微。需要更强的条件。

11.2 Fréchet 可微（总导数） ⭐⭐¶

定义：$f: U \subseteq \mathbb{R}^n \to \mathbb{R}^m$（$U$ 开），$f$ 在 $a \in U$ 可微（Fréchet 可微），是指存在线性映射 $L: \mathbb{R}^n \to \mathbb{R}^m$ 使得

\[\lim_{h \to 0} \frac{\|f(a + h) - f(a) - L(h)\|}{\|h\|} = 0\]

此 $L$ 唯一，记为 $Df(a)$，称为 $f$ 在 $a$ 的**总导数**或 Fréchet 导数。$L$ 的矩阵表示就是 Jacobian 矩阵：

\[J_f(a) = \begin{pmatrix} \frac{\partial f_1}{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_n} \end{pmatrix}_{(a)}\]

类比：总导数 $Df(a)$ 就是函数在 $a$ 处的"最佳线性逼近"——$f(a + h) \approx f(a) + Df(a) \cdot h$。一维时 $Df(a) = f'(a)$，"线性映射"退化为"乘以一个数"。多维时，线性映射由矩阵表示。这个类比在"一阶近似"的层面是精确的。

11.3 可微的充分条件 ⭐⭐¶

定理：若 $f$ 的所有偏导数在 $a$ 的某邻域存在，且在 $a$ 连续，则 $f$ 在 $a$ 可微。

证明（以 $n = 2, m = 1$ 为例，一般情况类似）：设 $h = (h_1, h_2)$。

\[f(a + h) - f(a) = [f(a_1 + h_1, a_2 + h_2) - f(a_1, a_2 + h_2)] + [f(a_1, a_2 + h_2) - f(a_1, a_2)]\]

对第一项用中值定理（关于 $x_1$）：$= \frac{\partial f}{\partial x_1}(\xi_1, a_2 + h_2) \cdot h_1$，其中 $\xi_1$ 在 $a_1$ 和 $a_1 + h_1$ 之间。

对第二项用中值定理（关于 $x_2$）：$= \frac{\partial f}{\partial x_2}(a_1, \xi_2) \cdot h_2$。

由偏导数在 $a$ 连续，$\frac{\partial f}{\partial x_1}(\xi_1, a_2 + h_2) = \frac{\partial f}{\partial x_1}(a) + o(1)$，类似地第二项。因此

\[f(a+h) - f(a) = \frac{\partial f}{\partial x_1}(a) h_1 + \frac{\partial f}{\partial x_2}(a) h_2 + o(\|h\|)\]

这正是可微的定义（$L(h) = \nabla f(a) \cdot h$）。$\square$

11.4 链式法则 ⭐⭐¶

定理：若 $f$ 在 $a$ 可微，$g$ 在 $f(a)$ 可微，则 $g \circ f$ 在 $a$ 可微且

\[D(g \circ f)(a) = Dg(f(a)) \cdot Df(a)\]

这里 $\cdot$ 是线性映射的复合（矩阵乘法）。

证明：设 $Df(a) = A$，$Dg(f(a)) = B$。对 $\varepsilon > 0$，取 $\delta_1$ 使 $\|g(f(a)+k) - g(f(a)) - Bk\| \leq \varepsilon\|k\|$（$\|k\| < \delta_1$），取 $\delta_2$ 使 $\|f(a+h) - f(a) - Ah\| \leq \varepsilon\|h\|$（$\|h\| < \delta_2$）。设 $k = f(a+h) - f(a)$，则 $\|k\| \leq (\|A\| + \varepsilon)\|h\|$（$\|h\|$ 足够小）。

\[g(f(a+h)) - g(f(a)) - BA \cdot h = [g(f(a)+k) - g(f(a)) - Bk] + B[k - Ah]\]

第一项 $\leq \varepsilon\|k\| \leq \varepsilon(\|A\|+\varepsilon)\|h\|$。第二项 $\leq \|B\| \cdot \varepsilon\|h\|$。总共 $= O(\varepsilon)\|h\|$。$\square$

11.5 Jacobian 矩阵与梯度 ⭐¶

对实值函数 $f: \mathbb{R}^n \to \mathbb{R}$，$Df(a)$ 是 $1 \times n$ 行向量，即梯度的转置 $\nabla f(a)^T$。方向导数为 $D_v f(a) = \nabla f(a) \cdot v = \|\nabla f(a)\| \cos\theta$，其中 $\theta$ 是 $\nabla f(a)$ 与 $v$ 的夹角。

几何意义：$\nabla f(a)$ 指向 $f$ 增长最快的方向（$\cos\theta = 1$），$\|\nabla f(a)\|$ 是最大增长率，$\nabla f(a)$ 垂直于等值面 $\{x : f(x) = f(a)\}$。这是梯度下降法 $x_{n+1} = x_n - \alpha \nabla f(x_n)$ 的数学基础。

对一般映射 $f: \mathbb{R}^n \to \mathbb{R}^m$，只有 $n = m$ 时 Jacobian 矩阵是方阵，才有行列式 $\det J_f(a)$。其几何意义是体积变化率——在 §14 变量替换和 §12 反函数定理中扮演核心角色。

工程桥接：机器人正运动学 $\text{FK}: \mathbb{R}^n \to SE(3)$ 将关节角映射到末端执行器位姿。其 Jacobian（几何 Jacobian 或分析 Jacobian）是机器人学中最核心的计算对象。奇异位形（$\text{rank}(J) < \max$）对应 Jacobian 降秩的点——在那里反函数定理（§12）失效，逆运动学不再有唯一解。

⚠️ 常见陷阱¶

💡 概念误区：认为"偏导数存在就可微"

这是多变量微积分中最危险的误区。§11.1 的反例已经展示：所有偏导数甚至所有方向导数存在，函数仍然可以不连续——遑论可微。正确的充分条件是"偏导数存在且**连续**"（$C^1$ 条件）。

🧠 思维陷阱：认为"Jacobian 矩阵就是导数"

更准确地说，导数 $Df(a)$ 是**线性映射**，Jacobian 矩阵是这个线性映射在标准基下的**矩阵表示**。换基后矩阵会变，但线性映射不变。这个区分在微分流形上变得重要——流形上没有标准基。

练习¶

（证明题）构造一个 $f: \mathbb{R}^2 \to \mathbb{R}$，使得 $f$ 在原点的所有方向导数存在，但 $f$ 在原点不可微。
（推导题）用 Fréchet 导数的定义直接证明：$f(x) = \|x\|^2$（$x \in \mathbb{R}^n$）在每点可微，计算 $Df(a)$。

§12 反函数定理与隐函数定理 ⭐⭐¶

本节是 B1 的最高潮。两个定理是微分流形（Layer-1）的基石——没有它们，"子流形"和"坐标卡"的概念无法建立。

12.1 预备：算子范数与 $GL(\mathbb{R}^n)$ 是开集 ⭐⭐¶

算子范数：对线性映射 $L: \mathbb{R}^n \to \mathbb{R}^m$，定义

\[\|L\| = \sup_{\|x\| = 1} \|Lx\| = \sup_{x \neq 0} \frac{\|Lx\|}{\|x\|}\]

算子范数满足**次可乘性**：$\|AB\| \leq \|A\| \cdot \|B\|$。这是一个重要的不等式，使得 $\text{Mat}(n)$ 成为 Banach 代数。

Neumann 级数：若 $\|C\| < 1$，则 $I - C$ 可逆且

\[(I - C)^{-1} = \sum_{k=0}^{\infty} C^k\]

证明：$\sum \|C^k\| \leq \sum \|C\|^k = \frac{1}{1-\|C\|} < \infty$（几何级数）。设 $S_N = \sum_{k=0}^{N} C^k$，则 $(I-C)S_N = I - C^{N+1}$，$\|C^{N+1}\| \leq \|C\|^{N+1} \to 0$。取极限得 $(I-C) \cdot \sum C^k = I$。$\square$

这个结果是矩阵分析中的基本工具。它的名字来源于与实数几何级数 $\frac{1}{1-x} = \sum x^k$ 的类比——将实数换成算子，绝对值换成范数。

定义：$GL(\mathbb{R}^n)$ 是 $n \times n$ 可逆矩阵的集合（一般线性群）。

引理：$GL(\mathbb{R}^n)$ 在 $\text{Mat}(n) \cong \mathbb{R}^{n^2}$ 中是开集。

证明：设 $A \in GL(\mathbb{R}^n)$，$\|B - A\| < \frac{1}{\|A^{-1}\|}$。则 $\|A^{-1}(B - A)\| \leq \|A^{-1}\| \cdot \|B - A\| < 1$，因此 $A^{-1}B = I - (-(A^{-1}(B-A))) = I - C$（$\|C\| < 1$）可逆（由 Neumann 级数），从而 $B = A \cdot (A^{-1}B)$ 可逆。$\square$

推论 1：映射 $\text{Inv}: A \mapsto A^{-1}$ 在 $GL(\mathbb{R}^n)$ 上连续。实际上 $\text{Inv}$ 是 $C^\infty$ 的，因为 $A^{-1} = \frac{1}{\det A} \text{adj}(A)$，而行列式和伴随矩阵都是矩阵元素的多项式。

推论 2：$\|A^{-1} - B^{-1}\| = \|A^{-1}(B-A)B^{-1}\| \leq \|A^{-1}\| \cdot \|A - B\| \cdot \|B^{-1}\|$。这给出了矩阵逆的**Lipschitz 估计**，在反函数定理的证明中会用到。

12.2 反函数定理 ⭐⭐¶

定理（反函数定理，Inverse Function Theorem）：设 $f \in C^1(U, \mathbb{R}^n)$（$U \subseteq \mathbb{R}^n$ 开），$a \in U$，$Df(a)$ 可逆。则存在 $a$ 的开邻域 $V$ 和 $f(a)$ 的开邻域 $W$，使得 $f: V \to W$ 是 $C^1$ 微分同胚。且

\[D(f^{-1})(f(x)) = [Df(x)]^{-1}\]

证明（完整，按 Rudin 9.24 路径，四步）：

Step 1（归约）：不失一般性，设 $a = 0, f(0) = 0, Df(0) = I$。（否则用 $g(x) = [Df(a)]^{-1}(f(a + x) - f(a))$ 替换。）

Step 2（构造压缩映射）：对 $y \in \mathbb{R}^n$，定义 $\varphi_y(x) = x + y - f(x)$。则 $D\varphi_y(x) = I - Df(x)$。

由 $Df(0) = I$ 和 $Df$ 连续，取 $r > 0$ 使在 $\overline{B}(0, r)$ 上 $\|I - Df(x)\| \leq \frac{1}{2}$。

由中值定理不等式：$\|\varphi_y(x_1) - \varphi_y(x_2)\| \leq \frac{1}{2}\|x_1 - x_2\|$。

$\varphi_y$ 将 $\overline{B}(0, r)$ 映入自身（当 $\|y\|$ 足够小时）：$\|\varphi_y(x)\| \leq \|\varphi_y(x) - \varphi_y(0)\| + \|\varphi_y(0)\| \leq \frac{1}{2}\|x\| + \|y\| \leq \frac{r}{2} + \|y\|$，取 $\|y\| \leq \frac{r}{2}$。

Step 3（存在唯一性）：由 §10 Banach 压缩映射原理，$\varphi_y$ 在 $\overline{B}(0, r)$ 上有唯一不动点 $x$。不动点方程 $x = x + y - f(x)$ 即 $f(x) = y$。因此 $x = f^{-1}(y)$ 存在且唯一。

Step 4（$f^{-1}$ 的 $C^1$ 性）：

首先 $f^{-1}$ 是 Lipschitz 的：$\|f^{-1}(y_1) - f^{-1}(y_2)\| \leq 2\|y_1 - y_2\|$（由压缩估计推导）。

然后 $f^{-1}$ 可微：设 $k = f^{-1}(y + l) - f^{-1}(y)$，则 $l = f(x + k) - f(x) = Df(x) \cdot k + o(\|k\|)$。由 $\|k\| \leq 2\|l\|$，$k = [Df(x)]^{-1} l + o(\|l\|)$，即 $Df^{-1}(y) = [Df(x)]^{-1}$。

最后 $f^{-1} \in C^1$：$Df^{-1} = (\text{Inv}) \circ Df \circ f^{-1}$，其中 $\text{Inv}: A \mapsto A^{-1}$ 连续（§12.1），$Df$ 连续（$f \in C^1$），$f^{-1}$ 连续（Lipschitz），复合连续。$\square$

阶段小结：反函数定理的证明汇聚了前面几乎所有工具——$Df$ 连续（§11）、压缩映射原理（§10）、Neumann 级数（§12.1）、中值定理不等式。它是实分析的**集大成之作**。

12.3 隐函数定理 ⭐⭐¶

定理（隐函数定理，Implicit Function Theorem）：设 $F: \mathbb{R}^n \times \mathbb{R}^m \to \mathbb{R}^m$ 是 $C^1$ 映射，$F(a, b) = 0$，$\frac{\partial F}{\partial y}(a, b)$ 可逆。则存在 $a$ 的邻域 $U$ 和 $b$ 的邻域 $V$，以及唯一的 $C^1$ 函数 $g: U \to V$ 使得 $F(x, g(x)) = 0$ 对所有 $x \in U$。且

\[Dg(x) = -\left[\frac{\partial F}{\partial y}\right]^{-1} \cdot \frac{\partial F}{\partial x}\]

证明（从反函数定理导出）：定义 $\Phi(x, y) = (x, F(x, y))$。则

\[D\Phi(a, b) = \begin{pmatrix} I_n & 0 \\ \frac{\partial F}{\partial x} & \frac{\partial F}{\partial y} \end{pmatrix}\]

$\frac{\partial F}{\partial y}(a, b)$ 可逆 $\Rightarrow$ $D\Phi(a, b)$ 可逆。由反函数定理，$\Phi$ 在 $(a, b)$ 附近有 $C^1$ 逆。设 $\Phi^{-1}(x, z) = (\alpha(x, z), \beta(x, z))$。由 $\Phi(\alpha, \beta) = (x, z)$ 的第一分量 $\alpha = x$。取 $z = 0$：$\Phi(x, \beta(x, 0)) = (x, F(x, \beta(x, 0))) = (x, 0)$，故 $F(x, \beta(x, 0)) = 0$。令 $g(x) = \beta(x, 0)$ 即可。

导数公式由对 $F(x, g(x)) = 0$ 两边关于 $x$ 求导（链式法则）得到。$\square$

本质洞察：隐函数定理的深层含义是——方程 $F(x, y) = 0$ 定义的集合在非退化点附近是一个光滑子流形，而且可以局部参数化为函数 $y = g(x)$ 的图像。这是微分流形理论的起点——流形不是嵌入空间中的全局函数图，而是到处"局部像函数图"。

工程桥接：逆运动学的局部存在性——在非奇异位形 $q_0$ 处，正运动学 FK 的 Jacobian 满秩，反函数定理保证逆运动学 $\text{IK} = \text{FK}^{-1}$ 在 $p_0 = \text{FK}(q_0)$ 的邻域内 $C^1$ 存在且唯一。在奇异位形处 Jacobian 降秩，反函数定理失效——此时逆运动学不再有唯一解，需要伪逆或其他正则化方法。

**隐函数定理**保证约束流形 $\{q : h(q) = 0\}$（如机器人关节约束）在非退化点附近是光滑子流形——这是 Layer-1 微分流形入口的关键。

⚠️ 常见陷阱¶

💡 概念误区：认为"反函数定理给出全局逆"

反函数定理只保证**局部**可逆——在 $a$ 的某邻域内。$f(x) = e^{ix}$（$\mathbb{R} \to \mathbb{S}^1$）在每点局部可逆，但全局不可逆（不是单射）。全局可逆需要额外条件（如 Hadamard 全局反函数定理）。

🧠 思维陷阱：认为"隐函数定理的条件 $\frac{\partial F}{\partial y}$ 可逆是技术性的"

这个条件有清晰的几何含义：它意味着在 $(a, b)$ 处，方程 $F = 0$ 定义的集合在 $y$ 方向上"不平行"——可以把 $y$ 表达为 $x$ 的函数。如果 $\frac{\partial F}{\partial y}$ 不可逆（退化点），集合可能有"折叠"或"分叉"——如 $y^2 = x$ 在原点处。

练习¶

（证明题）用反函数定理证明：$f(x) = x + \varepsilon \sin x$（$|\varepsilon| < 1$）在 $\mathbb{R}$ 上是 $C^1$ 微分同胚。
（推导题）设 $F(x, y) = x^2 + y^2 - 1$。在 $(x_0, y_0) = (\frac{1}{2}, \frac{\sqrt{3}}{2})$ 处应用隐函数定理，求出 $g'(x_0)$（其中 $y = g(x)$ 是局部定义的隐函数）。
（跨章综合题）结合 §10 压缩映射原理和 §12 反函数定理：设 $f \in C^1(\mathbb{R}^n, \mathbb{R}^n)$，$\|Df(x) - I\| \leq k < 1$ 对所有 $x$。证明 $f$ 是全局 $C^1$ 微分同胚（提示：先用压缩映射证明满射，再用局部反函数定理证明局部单射，最后组合）。

§13 高阶导数、Taylor 展开与临界点分类 ⭐⭐¶

§11-§12 建立了一阶微分的完整理论。本节向高阶推进，为优化理论奠基。

13.1 高阶 Fréchet 导数 ⭐⭐¶

$f$ 的一阶导数 $Df$ 是从 $U$ 到 $L(\mathbb{R}^n, \mathbb{R}^m)$ 的映射。如果 $Df$ 本身可微，其导数 $D^2f(a) \in L(\mathbb{R}^n, L(\mathbb{R}^n, \mathbb{R}^m))$——这是一个**双线性映射**。

Schwarz 定理（混合偏导数交换）：若 $f \in C^2$，则 $\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i}$。

证明（利用中值定理）：考虑 $\Delta = f(a+h+k) - f(a+h) - f(a+k) + f(a)$（$h = (h_1, 0, \ldots, 0)$，$k = (0, k_2, 0, \ldots, 0)$）。对 $x_1$ 方向用 MVT 两次，再对 $x_2$ 方向用 MVT，可以将 $\Delta$ 表示为混合偏导数的值乘以 $h_1 k_2$。由两种顺序得到的表达式都等于 $\Delta$，取极限后偏导数相等。$\square$

13.2 多变量 Taylor 定理 ⭐⭐¶

定理：$f \in C^{k+1}(U, \mathbb{R})$，$a \in U$。对 $a + h \in U$：

\[f(a + h) = \sum_{|\alpha| \leq k} \frac{D^\alpha f(a)}{\alpha!} h^\alpha + R_k(h)\]

其中 $\alpha = (\alpha_1, \ldots, \alpha_n)$ 是多重指标，$|\alpha| = \alpha_1 + \cdots + \alpha_n$，$\alpha! = \alpha_1! \cdots \alpha_n!$，$h^\alpha = h_1^{\alpha_1} \cdots h_n^{\alpha_n}$。

余项 $R_k(h) = O(\|h\|^{k+1})$。

证明（归约到单变量）：令 $g(t) = f(a + th)$，$g$ 是 $[0, 1]$ 上的单变量函数。对 $g$ 用单变量 Taylor 定理（§5.4），展开后用链式法则将 $g^{(j)}(0)$ 化为 $f$ 的多重偏导数。$\square$

13.3 临界点二阶分类 ⭐⭐¶

定义：$a$ 是 $f: U \subseteq \mathbb{R}^n \to \mathbb{R}$ 的**临界点**，如果 $Df(a) = 0$（即 $\nabla f(a) = 0$）。

Hessian 矩阵：$H(a) = D^2 f(a) = \left(\frac{\partial^2 f}{\partial x_i \partial x_j}(a)\right)_{n \times n}$。

二阶充分条件： - $H(a)$ 正定 $\Rightarrow$ $a$ 是严格局部极小 - $H(a)$ 负定 $\Rightarrow$ $a$ 是严格局部极大 - $H(a)$ 不定（有正有负特征值） $\Rightarrow$ $a$ 是鞍点 - $H(a)$ 半定 $\Rightarrow$ 不确定，需要高阶分析

证明（正定情况）：由 Taylor 展开，$f(a + h) - f(a) = \frac{1}{2} h^T H(a) h + o(\|h\|^2)$。$H(a)$ 正定意味着 $h^T H(a) h \geq \lambda_{\min} \|h\|^2$（$\lambda_{\min} > 0$ 是 $H$ 的最小特征值）。对足够小的 $\|h\|$，高阶项 $|o(\|h\|^2)| < \frac{\lambda_{\min}}{2}\|h\|^2$，因此 $f(a+h) - f(a) > 0$。$\square$

工程桥接：非线性优化（如轨迹优化）中，判断临界点是极小还是鞍点正是用 Hessian 的正定性。在高维优化中（如神经网络训练），大部分临界点是鞍点而非极小——这是深度学习优化中的著名现象。

13.4 Morse 引理（预告 Layer-1） ⭐⭐⭐¶

定理（Morse 引理）：设 $f \in C^3$，$a$ 是 $f$ 的非退化临界点（即 $\nabla f(a) = 0$ 且 $H(a)$ 可逆）。则在 $a$ 的某邻域内存在 $C^1$ 坐标变换 $u = u(x)$，使得

\[f(x) = f(a) + \sum_{i=1}^{n} \pm u_i^2\]

其中 $+$ 和 $-$ 的个数由 $H(a)$ 的惯性指数（Inertia Index）决定——即 $H(a)$ 的正特征值个数 $p$ 和负特征值个数 $q$（$p + q = n$，因为非退化意味着没有零特征值）。

意义：Morse 引理说明在非退化临界点附近，函数的形状完全由 Hessian 的符号结构决定——高阶项可以通过坐标变换"消除"。这意味着非退化临界点只有有限种"类型"：

维度 $n$	类型 $(p, q)$	几何形状
1	$(1, 0)$ 或 $(0, 1)$	极小或极大
2	$(2, 0)$	极小（碗底）
2	$(1, 1)$	鞍点（马鞍）
2	$(0, 2)$	极大（碗顶翻转）

一维版本的证明思路：$f(x) = f(0) + \frac{1}{2}f''(0)x^2 + O(x^3) = f(0) + \frac{1}{2}f''(0)x^2(1 + O(x))$。定义 $u(x) = x\sqrt{|1 + O(x)|} \cdot \text{sgn}(\sqrt{f''(0)/2})$，则 $f(x) = f(0) \pm u^2$。关键是要验证 $u(x)$ 是 $C^1$ 微分同胚，这利用了 $f''(0) \neq 0$。

在优化中的应用：Morse 引理保证了非退化极小点是"稳定的"——小扰动不会改变它的局部拓扑结构。退化临界点（$H(a)$ 奇异）可能在小扰动下"分裂"为多个非退化临界点——这就是**分岔理论**的起点。

完整证明在 Layer-1 微分流形中给出，它依赖于隐函数定理和 Sylvester 惯性定理。

⚠️ 常见陷阱¶

💡 概念误区：认为"Hessian 半正定就是极小"

$f(x, y) = x^4 - y^4$ 在原点 $\nabla f = 0$，Hessian 为零矩阵（半正定也半负定），但原点是鞍点。半定情况需要更高阶分析。

🧠 思维陷阱：在一维中 $f''(a) = 0$ 时直接判定"不确定"

一维中 $f''(a) = 0$ 确实不确定（如 $x^3$ 在 $0$ 处），但 $f(x) = x^4$ 在 $0$ 处 $f''(0) = 0$ 而 $0$ 是极小。需要更高阶导数。

练习¶

（推导题）对 $f(x, y) = x^3 - 3xy + y^3$，找出所有临界点并用 Hessian 分类。
（证明题）证明 Morse 引理的一维版本：若 $f \in C^3$，$f'(0) = 0$，$f''(0) \neq 0$，则在 $0$ 附近存在 $C^1$ 坐标变换 $u = u(x)$ 使 $f(x) = f(0) \pm u^2$。

§14 $\mathbb{R}^n$ 中的 Riemann 积分与变量替换 ⭐⭐¶

§6 建立了单变量积分，本节推广到多变量。变量替换公式是其核心，也是流形上积分的原型。

14.1 矩形上的 Riemann 积分 ⭐¶

将 §6 的 Darboux 定义推广到 $\mathbb{R}^n$。对矩形 $R = [a_1, b_1] \times \cdots \times [a_n, b_n]$，分划 $P$ 将每个坐标方向独立切分，得到小矩形 $R_j$。定义

\[U(P, f) = \sum_j M_j |R_j|, \qquad L(P, f) = \sum_j m_j |R_j|\]

其中 $M_j = \sup_{R_j} f$，$m_j = \inf_{R_j} f$，$|R_j|$ 是小矩形的 $n$ 维体积。$f$ 在 $R$ 上可积当且仅当 $\sup_P L(P, f) = \inf_P U(P, f)$。

可积性判据：与一维类似，$f$ 在 $R$ 上可积等价于 $\forall \varepsilon > 0, \exists P, U(P,f) - L(P,f) < \varepsilon$。连续函数在紧矩形上 Riemann 可积（证明与一维相同，利用一致连续性）。

14.2 Jordan 可测集与零测集 ⭐⭐¶

定义（Jordan 零测集）：$E \subseteq \mathbb{R}^n$ 是 Jordan 零测的，如果对任意 $\varepsilon > 0$，$E$ 可以被有限个矩形覆盖，且这些矩形的总体积 $< \varepsilon$。

定义（Jordan 可测集）：有界集 $E$ 的 Jordan 外测度 $\overline{J}(E) = \inf\{\sum |R_j| : E \subseteq \bigcup R_j, \text{有限个矩形}\}$，Jordan 内测度 $\underline{J}(E) = \sup\{\sum |R_j| : \bigcup R_j \subseteq E, \text{有限个矩形}\}$。$E$ Jordan 可测当且仅当 $\overline{J}(E) = \underline{J}(E)$，此公共值为 Jordan 测度 $J(E)$。

一般区域 $E$ 上的积分定义为 $\int_E f = \int_R f \cdot \chi_E$，其中 $\chi_E$ 是 $E$ 的特征函数，$R \supseteq E$ 是包含矩形（需要 $f \cdot \chi_E$ 可积）。

可积性与边界的关系：$E$ Jordan 可测 $\Leftrightarrow$ $\partial E$（边界）是 Jordan 零测的。这解释了为什么光滑曲线围成的区域是 Jordan 可测的（边界是 $C^1$ 曲线，有"零面积"）。

关键区分：Jordan 零测集 $\subseteq$ Lebesgue 零测集，但反向不成立。Jordan 可测集比 Lebesgue 可测集范围窄得多——例如 $\mathbb{Q} \cap [0,1]$ 是 Lebesgue 零测的，但不是 Jordan 可测的（因为 $\mathbb{Q} \cap [0,1]$ 的边界是 $[0,1]$ 本身，不是零测的）。完整的 Lebesgue 理论在 §100 中展开。

Lebesgue 可积判据（叙述，证明推迟到 §100）：有界函数 $f$ 在 Jordan 可测集 $E$ 上 Riemann 可积 $\Leftrightarrow$ $f$ 的不连续点集是 Lebesgue 零测的。这是 Riemann 积分理论的顶峰结论，解释了"哪些函数可积"——答案是"不连续点很少（零测）的有界函数"。

14.3 Fubini 定理 ⭐⭐¶

定理（Fubini，Riemann 版本）：$f$ 在矩形 $R = A \times B$ 上 Riemann 可积。则

\[\int_R f = \int_A \left(\int_B f(x, y) \, dy\right) dx = \int_B \left(\int_A f(x, y) \, dx\right) dy\]

前提是内层积分作为外层积分变量的函数是可积的。

注意：Riemann 版本的 Fubini 定理比 Lebesgue 版本限制更强——后者在 §100 中给出。Lebesgue 版本（Tonelli-Fubini）对非负可测函数总是成立的，不需要额外的可积性假设。

14.4 变量替换公式 ⭐⭐¶

定理：$\phi: U \to V$ 是 $\mathbb{R}^n$ 开集间的 $C^1$ 微分同胚，$f$ 在 $V$ 上可积。则

\[\int_V f(y) \, dy = \int_U f(\phi(x)) \cdot |\det D\phi(x)| \, dx\]

证明思路（Spivak 路径，四步）：

Step 1（一维情形）：这就是 §6.6 的变量替换公式——最基础的情况。

Step 2（基本变换）：对三类基本变换直接验证： - 线性映射 $\phi(x) = Ax$：$\int_V f = \int_U (f \circ \phi) |\det A| \, dx$（线性代数中行列式的体积解释） - 坐标置换 $\phi(x_1, \ldots, x_n) = (x_{\sigma(1)}, \ldots, x_{\sigma(n)})$：$|\det D\phi| = 1$（置换矩阵的行列式为 $\pm 1$） - 剪切变换 $\phi(x) = (x_1 + g(x_2, \ldots, x_n), x_2, \ldots, x_n)$：$\det D\phi = 1$

Step 3（局部分解）：由反函数定理（§12），在每个点附近 $\phi$ 可以局部分解为上述基本变换的复合。关键技术：利用 $D\phi(a)$ 可以通过行变换分解为初等矩阵的乘积。

Step 4（全局拼接）：用**单位分拆**（partition of unity）——对 $U$ 的每个点取局部适用的分解，用光滑的"权重函数"将局部结果粘合为全局结果。单位分拆的存在依赖于 §70 中度量空间的仿紧性。

$|\det D\phi|$ 的几何意义是**体积的伸缩因子**——$\phi$ 将无穷小体积元 $dx$ 变为 $|\det D\phi| \, dx$。如果 $\det D\phi > 0$，$\phi$ 保持定向；如果 $\det D\phi < 0$，$\phi$ 翻转定向。绝对值确保体积始终为正。

工程桥接：概率密度变换 $p_Y(y) = p_X(\phi^{-1}(y)) \cdot |\det D\phi^{-1}(y)|$ 是粒子滤波、normalizing flows 以及 $SE(3)$ 上不变测度的基础。机器人的位形空间体积积分在坐标变换下正是由 $|\det D\phi|$ 修正。

⚠️ 常见陷阱¶

💡 概念误区：忘记绝对值 $|\det D\phi|$

$\det D\phi$ 可以为负（当 $\phi$ 改变定向时），但体积始终为正。遗漏绝对值会导致积分变号的错误。

🧠 思维陷阱：认为"Fubini 定理总是成立"

Riemann 版本的 Fubini 定理需要 $f$ 在矩形上可积。有反例显示：如果 $f$ 只在一般区域（非矩形）上可积，累次积分可能不等。Lebesgue 版本在 §100 中消除了这个限制（对非负可测函数）。

练习¶

（推导题）用变量替换公式和极坐标变换，计算 $\int\int_{x^2+y^2 \leq R^2} e^{-(x^2+y^2)} \, dx \, dy$。
（证明题）证明 $n$ 维球体积公式 $V_n(R) = \frac{\pi^{n/2}}{\Gamma(n/2 + 1)} R^n$ 中变量替换的关键步骤。

§15 凸性与 Jensen 不等式 ⭐⭐¶

本节为 Layer-2 优化理论预备。凸性是优化理论的基石——凸问题的局部最优 $=$ 全局最优。

15.1 凸集与凸函数 ⭐¶

动机：为什么凸性在优化中如此重要？因为凸函数的每个局部极小都是全局极小——这意味着只要找到一个"看起来最好"的点，它就是真正的最好。非凸优化中可能有大量局部极小（如神经网络训练），每个都可能是"陷阱"。

定义：$C \subseteq \mathbb{R}^n$ 是**凸集**，如果 $\forall x, y \in C, \forall t \in [0, 1], tx + (1-t)y \in C$。

几何直觉：集合中任意两点之间的"线段"完全包含在集合内——没有"凹陷"的部分。

凸集的基本性质： - 任意多个凸集的交仍是凸集 - 凸集的仿射像和原像是凸集 - 开球和闭球都是凸集

定义：$f: C \to \mathbb{R}$（$C$ 凸）是**凸函数**，如果

\[f(tx + (1-t)y) \leq tf(x) + (1-t)f(y), \quad \forall x, y \in C, \; t \in [0, 1]\]

严格凸：上式中 $<$ 对 $x \neq y$ 和 $0 < t < 1$ 成立。严格凸函数至多有一个极小点。

等价刻画：$f$ 凸 $\Leftrightarrow$ $\text{epi}(f) = \{(x, \alpha) : f(x) \leq \alpha\}$（上方图）是凸集。

几何直觉："弦在曲线上方"——连接函数图上两点的线段不低于函数本身。

常见凸函数示例：$|x|$，$x^2$，$e^x$，$-\log x$（$x > 0$），范数 $\|x\|$（任何范数）。凹函数是凸函数取负：$\log x$，$\sqrt{x}$。

15.2 凸函数的正则性 ⭐⭐¶

定理：凸函数在开凸集的内部**自动连续**。

证明（一维情形）：设 $f: (a, b) \to \mathbb{R}$ 凸，$c \in (a, b)$。取 $[p, q] \subset (a, b)$，$c \in (p, q)$。凸性蕴含：$f$ 在 $[p, q]$ 上有界（由端点值和凸性）。对 $x$ 接近 $c$，$|f(x) - f(c)|$ 被 $f$ 在 $c$ 附近的斜率控制：

\[\frac{f(c) - f(p)}{c - p} \leq \frac{f(x) - f(c)}{x - c} \leq \frac{f(q) - f(c)}{q - c}\]

（这是凸性的"斜率单调性"）。因此 $f(x) - f(c) \to 0$ 当 $x \to c$。$\square$

这个结果说明凸函数"自带连续性"——不需要额外假设。但注意凸函数在**边界**上可以不连续。例如 $f(x) = 0$（$0 < x < 1$），$f(0) = f(1) = 1$ 在 $[0, 1]$ 上凸但在端点不连续。

一阶条件（可微情况）：$f$ 凸 $\Leftrightarrow$ $f(y) \geq f(x) + \nabla f(x)^T(y - x)$ 对所有 $x, y$。

证明：$\Rightarrow$：由凸性，$f(x + t(y-x)) \leq f(x) + t(f(y) - f(x))$。即 $\frac{f(x + t(y-x)) - f(x)}{t} \leq f(y) - f(x)$。令 $t \to 0^+$，左侧趋向 $\nabla f(x)^T(y-x)$（方向导数）。故 $\nabla f(x)^T(y-x) \leq f(y) - f(x)$。

$\Leftarrow$：设 $z = tx + (1-t)y$。由条件：$f(x) \geq f(z) + \nabla f(z)^T(x-z)$ 和 $f(y) \geq f(z) + \nabla f(z)^T(y-z)$。将第一个乘以 $t$，第二个乘以 $(1-t)$ 相加：$tf(x) + (1-t)f(y) \geq f(z) + \nabla f(z)^T(t(x-z) + (1-t)(y-z)) = f(z)$。$\square$

几何意义：函数不低于任何**切线（超平面）**——这就是"支撑超平面性质"。

$C^2$ 凸性判据：$f \in C^2$ 凸 $\Leftrightarrow$ Hessian $H(x) \succeq 0$（半正定）对所有 $x$。

证明：$\Rightarrow$：对任意 $v$，$g(t) = f(x + tv)$ 是凸的一维函数。$g''(0) = v^T H(x) v \geq 0$（凸函数二阶导非负）。

$\Leftarrow$：由 Taylor 展开，$f(y) = f(x) + \nabla f(x)^T(y-x) + \frac{1}{2}(y-x)^T H(\xi)(y-x) \geq f(x) + \nabla f(x)^T(y-x)$（因为 $H(\xi) \succeq 0$），即一阶条件成立。$\square$

凸函数的极值性质：如果 $f$ 凸且 $x^*$ 是局部极小，则 $x^*$ 是全局极小。证明：设 $y$ 是另一点，$f(y) < f(x^*)$。由凸性，线段 $x^* + t(y - x^*)$ 上 $f$ 值 $\leq (1-t)f(x^*) + tf(y) < f(x^*)$（$t > 0$），矛盾于 $x^*$ 是局部极小。$\square$

这就是凸优化的核心定理——不需要担心"是否找到了全局最优"。只要找到一个满足 $\nabla f(x) = 0$ 的点，它就是全局最优。

15.3 Jensen 不等式 ⭐⭐¶

定理（Jensen 不等式，有限和形式）：$f$ 凸，$\lambda_i \geq 0$，$\sum \lambda_i = 1$。则

\[f\left(\sum_{i=1}^{n} \lambda_i x_i\right) \leq \sum_{i=1}^{n} \lambda_i f(x_i)\]

证明（对 $n$ 归纳）：$n = 2$ 是凸函数定义。设 $n - 1$ 时成立。$\sum_{i=1}^{n} \lambda_i x_i = \lambda_n x_n + (1 - \lambda_n) \sum_{i=1}^{n-1} \frac{\lambda_i}{1-\lambda_n} x_i$。由凸性和归纳假设：

\[f\left(\sum \lambda_i x_i\right) \leq \lambda_n f(x_n) + (1-\lambda_n) f\left(\sum_{i=1}^{n-1} \frac{\lambda_i}{1-\lambda_n} x_i\right) \leq \lambda_n f(x_n) + \sum_{i=1}^{n-1} \lambda_i f(x_i) = \sum \lambda_i f(x_i)\]

$\square$

积分形式（需要测度论的严格版本，见 §100）：对概率测度 $\mu$，

\[f\left(\int x \, d\mu(x)\right) \leq \int f(x) \, d\mu(x)\]

15.4 次微分预告 ⭐⭐⭐¶

定义：$f$ 在 $x$ 处的**次微分**（subdifferential）为

\[\partial f(x) = \{g : f(y) \geq f(x) + g^T(y - x), \quad \forall y\}\]

$\partial f(x)$ 中的元素称为**次梯度**。

定理：凸函数在开凸集的内点处次微分非空。（证明利用支撑超平面定理。完整理论在 Layer-2 凸优化中展开。）

次微分是凸优化中处理不可微凸函数的核心工具——例如 $f(x) = |x|$ 在 $x = 0$ 处不可微，但 $\partial f(0) = [-1, 1]$。

工程桥接：MPC（模型预测控制）的凸二次目标 + 凸约束形成凸 QP 问题——此时全局最优 $=$ 局部最优（由凸性保证）。Jensen 不等式在机器学习的变分推断（ELBO 推导）和信息论（熵的凹性）中无处不在。

⚠️ 常见陷阱¶

💡 概念误区：认为"连续 $\Rightarrow$ 凸和凹之一"

大部分连续函数既不凸也不凹。凸性是非常特殊的性质——它要求函数的"弯曲方向"全局一致。

🧠 思维陷阱：混淆"凸函数"和"凸集"

"$f$ 是凸函数"和"$f$ 的图像是凸集"是**不同的概念**。凸函数的图像不是凸集；凸函数的上方图（epigraph）才是凸集。

练习¶

（证明题）证明：$f: \mathbb{R}^n \to \mathbb{R}$ 凸，$S = \{x : f(x) \leq c\}$（下水平集）是凸集。反过来，下水平集都是凸集是否意味着 $f$ 凸？给出证明或反例。
（推导题）用 Jensen 不等式证明 AM-GM 不等式：$\frac{x_1 + \cdots + x_n}{n} \geq (x_1 \cdots x_n)^{1/n}$（$x_i > 0$）。

§16 函数空间 $C(X)$ 初步 ⭐⭐⭐¶

本节是泛函分析（§110）的入口——将前面所有工具在"函数空间"这个统一框架中汇聚。

16.1 $C(X)$ 与 sup 范数 ⭐⭐¶

定义：$X$ 紧度量空间。$C(X, \mathbb{R}^n)$ 表示从 $X$ 到 $\mathbb{R}^n$ 的连续函数全体。配以 sup 范数：

\[\|f\|_\infty = \sup_{x \in X} \|f(x)\|\]

验证范数公理：

$\|f\|_\infty \geq 0$，等号当且仅当 $f \equiv 0$（极值定理保证 sup 可达到）
$\|\alpha f\|_\infty = |\alpha| \cdot \|f\|_\infty$
$\|f + g\|_\infty \leq \|f\|_\infty + \|g\|_\infty$

定理：$(C(X), \|\cdot\|_\infty)$ 是 Banach 空间（完备赋范空间）。

证明：设 $\{f_n\}$ 是 $C(X)$ 中的 Cauchy 列（关于 $\|\cdot\|_\infty$）。则 $\{f_n\}$ 一致 Cauchy（定义相同）。由 §7.2，$f_n$ 一致收敛到某 $f$。由 §7.3 定理 1，$f$ 连续，即 $f \in C(X)$。因此 Cauchy 列在 $C(X)$ 中收敛——完备性成立。$\square$

阶段小结：$C(X)$ 的完备性证明汇聚了三个结果：§7.2（一致 Cauchy $\Rightarrow$ 一致收敛，利用 $\mathbb{R}$ 的完备性），§7.3（一致收敛保持连续性），以及 sup 范数与一致收敛的等价。这展示了本章各部分如何像积木一样搭建起来。

16.2 子集的拓扑性质 ⭐⭐⭐¶

本章前面的两大定理在 $C(X)$ 中有优美的表述：

紧性（Arzelà-Ascoli，§8）：$\mathcal{F} \subseteq C(X)$ 相对紧 $\Leftrightarrow$ 逐点有界 + 等度连续
稠密性（Stone-Weierstrass，§9）：含常数、分离点的子代数在 $C(X)$ 中稠密

由 Stone-Weierstrass，$C([a, b])$ 是**可分**的：取多项式的有理系数子集——它是可数的且稠密（有理系数多项式一致逼近连续函数，再用 $\mathbb{Q}$ 逼近系数）。

可分性在泛函分析中意义重大——它保证了可数正交基的存在（在 Hilbert 空间中），是 Fourier 分析的前提。

$C(X)$ 的结构总结：

性质	结论	证明来源
完备性	$(C(X), \\|\cdot\\|_\infty)$ 是 Banach 空间	§7.2 + §7.3
可分性	$C([a,b])$ 可分	Stone-Weierstrass + $\mathbb{Q}$ 稠密
紧子集刻画	逐点有界 + 等度连续	Arzelà-Ascoli §8
稠密子集刻画	含常数分离点的子代数	Stone-Weierstrass §9

这四个性质——完备性、可分性、紧子集刻画、稠密子集刻画——构成了泛函分析对 Banach 空间研究的四大支柱。$C(X)$ 是所有支柱都有具体答案的"模范空间"。

16.3 通向泛函分析 ⭐⭐⭐¶

$C(X)$ 是第一个非平凡的 Banach 空间实例。在 §110 泛函分析中，我们将：

研究一般 Banach 空间和 Hilbert 空间
将 Arzelà-Ascoli 定理推广为紧算子的谱理论
将 Stone-Weierstrass 定理推广为 $C^*$-代数的 Gelfand 表示

当前只需知道：$C(X)$ 的完备性、可分性、以及其紧子集和稠密子代数的刻画，构成了泛函分析的出发点。

⚠️ 常见陷阱¶

💡 概念误区：认为"$C(X)$ 中的闭有界集就是紧的"

这在有限维空间（$\mathbb{R}^n$，Heine-Borel 定理）中成立，但在无穷维空间中**不成立**。$C([0,1])$ 中的闭单位球 $\{f : \|f\|_\infty \leq 1\}$ 不紧——需要额外的等度连续性条件（Arzelà-Ascoli）。这是有限维与无穷维空间的本质区别。

🧠 思维陷阱：认为"完备性在所有范数下都成立"

$C([0,1])$ 在 sup 范数下完备，但在 $L^1$ 范数 $\|f\|_1 = \int |f|$ 下**不完备**（$L^1$ 完备化得到的是 Lebesgue 可积函数空间，不仅仅是连续函数）。完备性依赖于所选的范数。

练习¶

（证明题）证明 $C([0, 1])$ 是可分的。（提示：有理系数多项式。）
（开放思考题）$C([0, 1])$ 中的闭单位球不紧。这对机器学习中函数空间上的优化有什么影响？

§17 与后续章节的接口¶

本节总结 B1 的成果如何输入到 B2/B3/B4/Layer-1。读完本节，你应该知道本章的每一个工具在后续理论中的确切用途。

17.1 $\to$ §100 测度论¶

核心接口：本章的 Riemann 积分理论在 §100 中被全面升级为 Lebesgue 积分。

§6 Riemann 积分的 Lebesgue 可积判据（$f$ Riemann 可积 $\Leftrightarrow$ 不连续点集 Lebesgue 零测）是 §100 的核心动机——Lebesgue 理论给出"哪些函数可积"的最终回答
§14 Fubini 定理的 Lebesgue 版本（Tonelli-Fubini）更强大——对非负可测函数**总是成立**，不需要额外的可积性假设。这消除了 Riemann 版本中的技术限制
§14 变量替换的 Lebesgue 版本需要绝对连续测度的概念——Radon-Nikodym 定理
§6 的 R-S 积分框架自然延伸为一般测度上的积分——$\int f \, d\mu$

为什么需要升级：Riemann 积分在三个方面有根本局限：(1) 可积函数类太窄（Dirichlet 函数不可积）；(2) 极限和积分的交换条件太强（需要一致收敛）；(3) 完备性不好（Riemann 可积函数在 $L^1$ 范数下不完备）。Lebesgue 理论彻底解决了这三个问题。

17.2 $\to$ §110 泛函分析¶

核心接口：本章的函数空间理论在 §110 中被系统化。

§16 $C(X)$ 是首个 Banach 空间实例——§110 将研究一般 Banach 空间的理论（Hahn-Banach、开映射、闭图像定理）
§8 Arzelà-Ascoli 定理在 §110 中推广为紧算子的谱理论——紧算子是"类有限维"的算子，Arzelà-Ascoli 告诉我们何时积分算子是紧的
§9 Stone-Weierstrass 推广为 $C^*$-代数的 Gelfand 表示——揭示了交换 Banach 代数与紧空间之间的深刻对偶
§10 压缩映射原理在 Banach 空间框架下自然工作——它不需要有限维

17.3 $\to$ §120 常微分方程¶

核心接口：本章提供了 ODE 理论的几乎所有分析工具。

§10 压缩映射 + §6 积分算子 $\Rightarrow$ Picard-Lindelöf 局部存在唯一性（§10.4 已给出框架）
§8 Arzelà-Ascoli $\Rightarrow$ Peano 存在性定理（无 Lipschitz 条件时解存在但可能不唯一——用 Arzelà-Ascoli 从近似解序列中提取收敛子列）
§11-§13 多变量微分 $\Rightarrow$ 解对初值和参数的光滑依赖性（$C^k$ 动力系统的解是初值的 $C^k$ 函数）

17.4 $\to$ Layer-1 微分流形¶

核心接口：本章的反/隐函数定理是微分流形的基石。

§12 反函数定理保证坐标卡的变换映射是微分同胚——这是流形定义的核心
§12 隐函数定理是"子流形判据"——方程 $F(x) = 0$ 在非退化点附近定义光滑子流形
§12 + 秩定理（预告）给出了浸入和淹没的局部标准形
§13 Hessian 分类是 Morse 理论入口——Morse 函数的临界点决定了流形的拓扑
§14 变量替换是流形上积分与体积形式的原型——微分形式 $\omega$ 的积分定义需要变量替换公式

本章常见误解汇总¶

误解	正确理解
完备性就是 Cauchy 完备性	$\mathbb{R}$ 的完备性有四种等价表述，Cauchy 完备性只是其一（且需要 Archimedean 性质）
$a_n \to 0$ 意味着 $\sum a_n$ 收敛	$a_n \to 0$ 是必要条件，不是充分条件（调和级数反例）
偏导数存在 $\Rightarrow$ 可微	偏导数存在甚至方向导数存在都不保证可微；需偏导数连续
中值定理对向量值函数成立	不成立，只有 MVT 不等式
逐点收敛保持连续性	不保持；需一致收敛
$C(X)$ 中闭有界集是紧的	无穷维空间中不成立；需 Arzelà-Ascoli 条件
反函数定理给出全局逆	只给出局部逆
Hessian 半正定就是极小点	半定情况不确定，需高阶分析

本章小结¶

符号表¶

符号	含义	首次出现
$\sup S$	集合 $S$ 的上确界	§1.2
$\limsup a_n$	序列的上极限	§2.2
$f \rightrightarrows g$	$f_n$ 一致收敛到 $g$	§7.1
$\\|\cdot\\|_\infty$	sup 范数	§7.1
$Df(a)$	$f$ 在 $a$ 的 Fréchet 导数（总导数）	§11.2
$J_f(a)$	$f$ 在 $a$ 的 Jacobian 矩阵	§11.2
$H(a)$	Hessian 矩阵 $D^2 f(a)$	§13.3
$\mathscr{R}(\alpha)$	关于 $\alpha$ 的 R-S 可积函数类	§6.2
$GL(\mathbb{R}^n)$	$n \times n$ 可逆矩阵全体	§12.1
$C(X)$	$X$ 上连续函数空间（配 sup 范数）	§16.1
$\partial f(x)$	$f$ 在 $x$ 的次微分	§15.4

定理速查表¶

定理/公式	一句话说明	对应节
完备性四等价	LUB $\Leftrightarrow$ MCT $\Leftrightarrow$ NIP $\Leftrightarrow$ BW	§1.4
Heine-Cantor	紧集上连续 $\Rightarrow$ 一致连续	§4.1
MVT 链	Rolle $\to$ Lagrange $\to$ Cauchy 中值定理	§5.2
FTC	微分和积分互为逆运算	§6.4
一致收敛三大定理	保持连续/积分/（条件下）微分	§7.3
Weierstrass M-判别法	$\sum M_n < \infty \Rightarrow \sum f_n$ 一致收敛	§7.4
Arzelà-Ascoli	逐点有界 + 等度连续 $\Leftrightarrow$ 相对紧	§8.3
Stone-Weierstrass	含常数分离点的子代数在 $C(X)$ 中稠密	§9.2
Banach 压缩映射	完备空间上压缩映射有唯一不动点	§10.2
反函数定理	$Df(a)$ 可逆 $\Rightarrow$ $f$ 局部 $C^1$ 同胚	§12.2
隐函数定理	$\partial_y F$ 可逆 $\Rightarrow$ $F=0$ 局部可表为 $y = g(x)$	§12.3
变量替换	$\int_V f = \int_U (f \circ \phi)	\det D\phi
Jensen 不等式	凸函数保期望不等式	§15.3

知识点总表¶

编号	知识点	核心要点	对应节	难度
1	实数完备性	四种等价表述及其证明循环	§1	⭐
2	序列与级数	收敛判别法、$\limsup/\liminf$、重排定理	§2	⭐
3	连续性	三种等价定义、极值定理、中间值定理	§3	⭐
4	一致连续与 Lipschitz	连续性强弱链、Heine-Cantor	§4	⭐
5	单变量微分	MVT 链、Taylor 定理	§5	⭐
6	Riemann-Stieltjes 积分	FTC、分部积分、变量替换	§6	⭐⭐
7	一致收敛	三大保持定理、M-判别法	§7	⭐⭐
8	Arzelà-Ascoli	等度连续与函数空间紧致性	§8	⭐⭐⭐
9	Stone-Weierstrass	逼近定理与通用逼近	§9	⭐⭐⭐
10	压缩映射	Banach 不动点定理及其应用	§10	⭐⭐
11	多变量微分	总导数、链式法则	§11	⭐⭐
12	反/隐函数定理	局部可逆性与方程求解	§12	⭐⭐
13	高阶 Taylor 与临界点	Hessian 分类、Morse 引理	§13	⭐⭐
14	多变量积分	Fubini、变量替换	§14	⭐⭐
15	凸性	Jensen 不等式、次微分	§15	⭐⭐
16	函数空间 $C(X)$	Banach 空间、可分性	§16	⭐⭐⭐

累积项目：手写核心分析库 · 本章新增模块¶

项目概述：从零构建一个 Python 实分析验证库，每章新增一个模块。

本章新增（第 9 章）：

# real_analysis/completeness.py
# 验证实数完备性的数值实验

import numpy as np

def bisection_sup(S_indicator, a, b, tol=1e-10):
    """
    用二分法逼近集合 S 的上确界
    S_indicator: 函数，判断 x 是否属于 S
    [a, b]: 搜索区间
    演示闭区间套方法（NIP）
    """
    while b - a > tol:
        mid = (a + b) / 2
        # 检查 mid 右边是否还有 S 的元素
        if any(S_indicator(np.linspace(mid, b, 1000))):
            a = mid
        else:
            b = mid
    return (a + b) / 2

def contraction_iteration(T, x0, k, n_iter=100, tol=1e-12):
    """
    Banach 压缩映射迭代
    T: 压缩映射
    x0: 初始点
    k: 压缩系数
    返回：不动点近似值和误差上界序列
    """
    x = x0
    errors = []
    d0 = abs(T(x0) - x0)  # d(x0, Tx0)
    for i in range(n_iter):
        x_new = T(x)
        error_bound = k**(i+1) / (1 - k) * d0
        errors.append(error_bound)
        if abs(x_new - x) < tol:
            break
        x = x_new
    return x, errors

# 验证：cos(x) 的不动点
fixed_pt, errs = contraction_iteration(np.cos, 0.0, k=0.8)
# fixed_pt ≈ 0.7390851332... (Dottie number)

前几章的模块回顾：§10 集合论模块（集合操作）→ §20 线性代数模块（矩阵运算）→ §70 拓扑模块（开集/闭集判断）→ 本章新增：完备性验证 + 压缩映射迭代。

延伸阅读¶

资源	类型	难度	说明
Rudin, Principles of Mathematical Analysis (3rd ed, 1976)	教材	⭐⭐	实分析的标准参考，以简洁严格著称
Pugh, Real Mathematical Analysis (2nd ed, 2015)	教材	⭐⭐	直觉与图示丰富，适合与 Rudin 互补
Abbott, Understanding Analysis (2nd ed, 2015)	教材	⭐	入门首选，注重"为什么"，讨论题引入
Zorich, Mathematical Analysis I/II (2nd ed, 2016)	教材	⭐⭐⭐	俄派风格，全面且有丰富例题与应用
Spivak, Calculus on Manifolds (1965)	教材	⭐⭐⭐	多变量微积分的"正确做法"，为流形铺路
Tao, Analysis I/II (3rd ed, 2016)	教材	⭐⭐	现代风格，从自然数构造出发，逻辑极清晰
Propp, "Real Analysis in Reverse" (2013)	论文	⭐⭐⭐	72 种完备性等价表述的系统性综述

本章与后续章节的关系¶

后续章节	与本章的关系	本章哪个知识点为其铺垫
§100 测度论	R-S 积分的 Lebesgue 推广	§6 R-S 积分、§14 Fubini
§110 泛函分析	$C(X)$ 是首个 Banach 空间	§16 函数空间、§8 Arzelà-Ascoli、§9 Stone-Weierstrass
§120 常微分方程	Picard-Lindelöf 的完整证明	§10 压缩映射、§4 Lipschitz 条件
Layer-1 微分流形	子流形与坐标卡	§12 反/隐函数定理
Layer-2 优化	凸优化基础	§15 凸性与 Jensen

故障排查手册¶

症状	可能原因	排查步骤	相关章节
证明"极限存在"时卡住	没有选对完备性工具	1. 明确是序列/集合/区间的问题 2. 依次尝试 MCT/BW/NIP/LUB 3. 检查有界性条件是否满足	§1
级数收敛判别失败	比值法/根值法临界 $r=1$	1. 尝试 Cauchy 凝聚 2. 直接比较法 3. Dirichlet/Abel 判别 4. 检查交错级数	§2
连续性证明中 $\delta$ 选不出	没有利用紧致性或一致连续	1. 检查定义域是否紧 2. 如紧，用 Heine-Cantor 3. 如不紧，考虑是否真的一致连续	§3-§4
多变量函数可微性证明有误	混淆偏导数存在与可微	1. 检查是否满足"偏导数连续"条件 2. 构造反例测试 3. 用 Fréchet 定义直接验证	§11
反函数定理应用后得到矛盾	在奇异点使用了定理	1. 检查 $Df(a)$ 是否可逆 2. 计算 Jacobian 的秩 3. 如在奇异点，改用伪逆或正则化	§12
函数序列极限不连续	只有逐点收敛，不是一致收敛	1. 计算 $\sup	f_n - f

研究实践建议¶

给初学者¶

先读 Abbott：这是最温和的入门书，每章用讨论题引入，帮助建立"为什么需要严格化"的直觉
精做 Rudin 习题：Rudin 的正文简洁到近乎神谕，但习题是金矿——很多重要结果藏在习题中
画图！ 实分析虽然严格，但核心概念都有几何直觉。每遇到新定理，先画图理解再看证明
背证明框架：许多证明共享"取 $\varepsilon > 0$，选 $N/\delta$，估计"的模式。掌握这个框架比记忆具体证明更重要

给有经验者¶

关注定理的"反面"：每个定理去掉一个条件后是否还成立？反例是什么？这些反例往往比定理本身更有洞察力。以下是本章最重要的反例清单：

定理	去掉的条件	反例
极值定理	紧致性	$1/x$ 在 $(0,1)$ 无最大值
Heine-Cantor	紧致性	$1/x$ 在 $(0,1)$ 不一致连续
MVT	向量值函数	$(\cos t, \sin t)$ 在 $[0, 2\pi]$
一致收敛保连续	一致性	$x^n$ 在 $[0,1]$ 逐点极限不连续
Banach 不动点	完备性	$T(x)=x/2$ 在 $(0,1) \cap \mathbb{Q}$
反函数定理	$Df(a)$ 可逆	奇异位形处 IK 不唯一

追踪主线：完备性 $\to$ 压缩映射 $\to$ 反函数定理 $\to$ 流形理论——这条主线是数学分析的脊梁
建立与应用的联系：每学一个定理，问"这在机器人/控制/ML 中哪里用到？"——本章的工程桥接给出了起点
准备两条独立的 IFT 证明路径：压缩映射路径（本章）和 Newton 迭代路径（更接近数值分析），两者互相验证
从范畴论视角审视：连续映射保紧、保连通——这些是函子保持的性质。这种"结构保持"的思维方式在抽象代数（§80）和代数拓扑中会系统展开

版本信息速查¶

工具/教材	版本	说明
Rudin, Principles of Mathematical Analysis	第 3 版 (1976)	标准参考
Pugh, Real Mathematical Analysis	第 2 版 (2015)	图示直觉补充
Abbott, Understanding Analysis	第 2 版 (2015)	入门推荐
Zorich, Mathematical Analysis	第 2 版 (2016)	俄派全面性
Spivak, Calculus on Manifolds	第 1 版 (1965)	多变量经典
Tao, Analysis I/II	第 3 版 (2016)	现代构造
Dieudonné, Foundations of Modern Analysis	第 1 版 (1960)	Banach 空间风味 IFT
Python/NumPy	1.24+	数值验证用
Bartle, The Elements of Real Analysis	第 2 版 (1976)	偏重序列和级数

结语¶

实分析不仅是数学的基础设施，更是一种思维方式——用 $\varepsilon$-$\delta$ 的精确性驾驭无穷过程。本章覆盖的 17 节内容构成了一条从实数完备性到函数空间的完整链条。每一步都建立在前一步之上：完备性催生极限理论，极限理论催生连续性和微积分，微积分催生函数空间，函数空间催生反/隐函数定理——最终为微分流形和泛函分析铺平道路。

在机器人学的语境中，本章的每一个主定理都有直接的工程意义：完备性保证优化问题有解，Lipschitz 条件保证控制系统的行为可预测，压缩映射保证迭代算法收敛，反函数定理保证逆运动学局部存在。没有 B1，Layer-1 的微分流形只是符号游戏；有了 B1，流形、李群、最优控制、概率测度才能以机器人学家需要的严格程度展开。

附录 A：主定理完整证明清单¶

以下 15 个定理要求能够在不看书的情况下独立完整证明：

编号	定理	所在节	核心证明工具	难度
T1	Bolzano-Weierstrass	§1.4	闭区间套 / LUB	⭐
T2	Heine-Borel（$\mathbb{R}^n$ 版）	§1.4 / §70	总有限覆盖 + B-W	⭐
T3	Intermediate Value Theorem	§3.3	连通性 + LUB	⭐
T4	Extreme Value Theorem	§3.2	紧像 + B-W	⭐
T5	MVT 链（Rolle / Lagrange / Cauchy）	§5.2	EVT + Fermat 引理	⭐
T6	Taylor 定理（三种余项）	§5.4	Rolle 归纳 / Cauchy MVT / FTC	⭐⭐
T7	R-S 可积性判据	§6.2	Darboux 上下和	⭐⭐
T8	Fundamental Theorem of Calculus	§6.4	连续性 + MVT	⭐
T9	一致收敛保持定理（三个）	§7.3	$\varepsilon/3$ 论证 + MVT	⭐⭐
T10	Arzelà-Ascoli	§8.3	可分性 + Cantor 对角线	⭐⭐⭐
T11	Stone-Weierstrass（代数版）	§9.2	lattice 技术 + 绝对值逼近	⭐⭐⭐
T12	Banach 压缩映射原理	§10.2	等比估计 + 完备性	⭐⭐
T13	Inverse Function Theorem	§12.2	T12 + Neumann 级数	⭐⭐⭐
T14	Implicit Function Theorem	§12.3	由 T13 导出	⭐⭐
T15	$\mathbb{R}^n$ 变量替换公式	§14.4	T13 + 单位分拆	⭐⭐⭐

附录 B：教材对照表¶

节	主题	Rudin	Pugh	Zorich	Spivak	Tao	Abbott
§1	$\mathbb{R}$ 完备性	Ch 1	1.1-1.3	I.2	--	I.5	Ch 1-2
§2	序列与级数	Ch 3	1.4, 2.5	I.3, III	--	I.6-7	Ch 2
§3	连续性	Ch 4	2.1-2.4	II.9-10	--	II.13	Ch 4
§4	一致连续	4.18-4.22	2.3	II.10	--	--	4.4
§5	单变量微分	Ch 5	3.1-3.3	I.5	--	I.10	Ch 5
§6	R-S 积分	Ch 6	3.4	I.6	--	I.11	Ch 7
§7	一致收敛	Ch 7	4.1-4.4	II.16	--	II.14	Ch 6
§8	Arzelà-Ascoli	7.22-7.25	4.5	II.17	--	--	--
§9	Stone-Weierstrass	7.26-7.33	4.6	--	--	--	--
§10	压缩映射	Ex 9.30	4.3	II.9.7	2.5	--	--
§11	多变量微分	Ch 9	5.1-5.2	II.8	Ch 2	II.17	--
§12	反/隐函数定理	9.17-9.29	5.3	II.8.6	2.11-2.13	II.17	--
§13	高阶 Taylor	9.38-9.42	5.4	II.8.4	Ch 2 末	--	--
§14	多变量积分	10.1-10.9	5.5	II.11	Ch 3	II.18	--
§15	凸性	Ex 5.14	3.3	V.6	--	--	--

使用策略：以 Rudin 为主线（严格、简洁）；每节对照 Pugh 的图示获得几何直觉；多变量部分用 Spivak 补 Rudin 的简略证明；Zorich 作为长线参考（含丰富例题与应用）。Abbott 适合作为 §1-§7 的入门第一遍阅读。

附录 C：习题策略与验收标准¶

习题配置建议¶

A 组（30%）：直接验证定义、简单计算、基本推论
B 组（50%）：标准证明题，覆盖定理变体
C 组（20%）：综合 / 反例构造 / 开放性

验收标准（自检）¶

能在不看书情况下独立完整证明附录 A 中 15 个主定理的至少 12 个
能对 §12 IFT 给出至少两条不同证明路径（压缩映射 vs Newton 迭代）
能在 10 分钟内解释"Lipschitz 条件如何保证 ODE 解的唯一性"
能识别并反驳 6 个常见错误命题（如"偏导存在 $\Rightarrow$ 可微"、"$a_n \to 0 \Rightarrow \sum a_n$ 收敛"）
能将完备性的四种等价表述应用于不同类型的证明
能解释 Arzelà-Ascoli 和 Stone-Weierstrass 定理的证明策略及其在机器人/ML 中的应用
能用 Hessian 矩阵对多变量函数的临界点进行分类（极小/极大/鞍点）
能用变量替换公式计算多变量积分，并解释 $|\det D\phi|$ 的几何意义

关系	反例
Hölder \(\not\Rightarrow\) Lipschitz	\(f(x) = \sqrt{x}\)（\(\frac{1}{2}\)-Hölder），\(\frac{f(x)-f(0)}{x-0} = \frac{1}{\sqrt{x}} \to \infty\)
一致连续 \(\not\Rightarrow\) Hölder	需要更精细的构造（如某些 Cantor 函数）
连续 \(\not\Rightarrow\) 一致连续	\(f(x) = \sin(\frac{1}{x})\) 在 \((0, 1)\) 上

维度 \(n\)	类型 \((p, q)\)	几何形状
1	\((1, 0)\) 或 \((0, 1)\)	极小或极大
2	\((2, 0)\)	极小（碗底）
2	\((1, 1)\)	鞍点（马鞍）
2	\((0, 2)\)	极大（碗顶翻转）

符号	含义	首次出现
\(\sup S\)	集合 \(S\) 的上确界	§1.2
\(\limsup a_n\)	序列的上极限	§2.2
\(f \rightrightarrows g\)	\(f_n\) 一致收敛到 \(g\)	§7.1
\(\\|\cdot\\|_\infty\)	sup 范数	§7.1
\(Df(a)\)	\(f\) 在 \(a\) 的 Fréchet 导数（总导数）	§11.2
\(J_f(a)\)	\(f\) 在 \(a\) 的 Jacobian 矩阵	§11.2
\(H(a)\)	Hessian 矩阵 \(D^2 f(a)\)	§13.3
\(\mathscr{R}(\alpha)\)	关于 \(\alpha\) 的 R-S 可积函数类	§6.2
\(GL(\mathbb{R}^n)\)	\(n \times n\) 可逆矩阵全体	§12.1
\(C(X)\)	\(X\) 上连续函数空间（配 sup 范数）	§16.1
\(\partial f(x)\)	\(f\) 在 \(x\) 的次微分	§15.4

性质	结论	证明来源
完备性	\((C(X), \\|\cdot\\|_\infty)\) 是 Banach 空间	§7.2 + §7.3
可分性	\(C([a,b])\) 可分	Stone-Weierstrass + \(\mathbb{Q}\) 稠密
紧子集刻画	逐点有界 + 等度连续	Arzelà-Ascoli §8
稠密子集刻画	含常数分离点的子代数	Stone-Weierstrass §9

误解	正确理解
完备性就是 Cauchy 完备性	\(\mathbb{R}\) 的完备性有四种等价表述，Cauchy 完备性只是其一（且需要 Archimedean 性质）
\(a_n \to 0\) 意味着 \(\sum a_n\) 收敛	\(a_n \to 0\) 是必要条件，不是充分条件（调和级数反例）
偏导数存在 \(\Rightarrow\) 可微	偏导数存在甚至方向导数存在都不保证可微；需偏导数连续
中值定理对向量值函数成立	不成立，只有 MVT 不等式
逐点收敛保持连续性	不保持；需一致收敛
\(C(X)\) 中闭有界集是紧的	无穷维空间中不成立；需 Arzelà-Ascoli 条件
反函数定理给出全局逆	只给出局部逆
Hessian 半正定就是极小点	半定情况不确定，需高阶分析

定理/公式	一句话说明	对应节
完备性四等价	LUB \(\Leftrightarrow\) MCT \(\Leftrightarrow\) NIP \(\Leftrightarrow\) BW	§1.4
Heine-Cantor	紧集上连续 \(\Rightarrow\) 一致连续	§4.1
MVT 链	Rolle \(\to\) Lagrange \(\to\) Cauchy 中值定理	§5.2
FTC	微分和积分互为逆运算	§6.4
一致收敛三大定理	保持连续/积分/（条件下）微分	§7.3
Weierstrass M-判别法	\(\sum M_n < \infty \Rightarrow \sum f_n\) 一致收敛	§7.4
Arzelà-Ascoli	逐点有界 + 等度连续 \(\Leftrightarrow\) 相对紧	§8.3
Stone-Weierstrass	含常数分离点的子代数在 \(C(X)\) 中稠密	§9.2
Banach 压缩映射	完备空间上压缩映射有唯一不动点	§10.2
反函数定理	\(Df(a)\) 可逆 \(\Rightarrow\) \(f\) 局部 \(C^1\) 同胚	§12.2
隐函数定理	\(\partial_y F\) 可逆 \(\Rightarrow\) \(F=0\) 局部可表为 \(y = g(x)\)	§12.3
变量替换	$\int_V f = \int_U (f \circ \phi)	\det D\phi
Jensen 不等式	凸函数保期望不等式	§15.3

定理	去掉的条件	反例
极值定理	紧致性	\(1/x\) 在 \((0,1)\) 无最大值
Heine-Cantor	紧致性	\(1/x\) 在 \((0,1)\) 不一致连续
MVT	向量值函数	\((\cos t, \sin t)\) 在 \([0, 2\pi]\)
一致收敛保连续	一致性	\(x^n\) 在 \([0,1]\) 逐点极限不连续
Banach 不动点	完备性	\(T(x)=x/2\) 在 \((0,1) \cap \mathbb{Q}\)
反函数定理	\(Df(a)\) 可逆	奇异位形处 IK 不唯一

节	主题	Rudin	Pugh	Zorich	Spivak	Tao	Abbott
§1	\(\mathbb{R}\) 完备性	Ch 1	1.1-1.3	I.2	--	I.5	Ch 1-2
§2	序列与级数	Ch 3	1.4, 2.5	I.3, III	--	I.6-7	Ch 2
§3	连续性	Ch 4	2.1-2.4	II.9-10	--	II.13	Ch 4
§4	一致连续	4.18-4.22	2.3	II.10	--	--	4.4
§5	单变量微分	Ch 5	3.1-3.3	I.5	--	I.10	Ch 5
§6	R-S 积分	Ch 6	3.4	I.6	--	I.11	Ch 7
§7	一致收敛	Ch 7	4.1-4.4	II.16	--	II.14	Ch 6
§8	Arzelà-Ascoli	7.22-7.25	4.5	II.17	--	--	--
§9	Stone-Weierstrass	7.26-7.33	4.6	--	--	--	--
§10	压缩映射	Ex 9.30	4.3	II.9.7	2.5	--	--
§11	多变量微分	Ch 9	5.1-5.2	II.8	Ch 2	II.17	--
§12	反/隐函数定理	9.17-9.29	5.3	II.8.6	2.11-2.13	II.17	--
§13	高阶 Taylor	9.38-9.42	5.4	II.8.4	Ch 2 末	--	--
§14	多变量积分	10.1-10.9	5.5	II.11	Ch 3	II.18	--
§15	凸性	Ex 5.14	3.3	V.6	--	--	--

实分析（Real Analysis）¶

前置自测¶

本章目标¶

本章知识导航¶

前置知识桥接¶

如果跳过本章会怎样¶

预计阅读时间¶

§1 实数系的完备性再审视 ⭐¶

1.1 动机：为什么完备性是实分析的基石¶

1.2 最小上界性质（LUB） ⭐¶

1.3 Archimedean 性质与 \(\mathbb{Q}\) 的稠密性 ⭐¶

1.4 完备性的四种等价刻画 ⭐⭐¶

1.5 Cauchy 完备性 ⭐⭐¶

1.6 扩展实数系 \(\overline{\mathbb{R}}\) ⭐¶

⚠️ 常见陷阱¶

练习¶

§2 \(\mathbb{R}\) 中序列与级数 ⭐¶

2.1 收敛、Cauchy 列、子列 ⭐¶

2.2 \(\limsup\) 与 \(\liminf\) ⭐⭐¶

2.3 级数：收敛判别法 ⭐¶

2.4 绝对收敛 vs 条件收敛 ⭐⭐¶

2.5 Riemann 重排定理 ⭐⭐⭐¶

⚠️ 常见陷阱¶

练习¶

§3 度量空间上的连续性 ⭐¶

3.1 连续性的三种等价定义 ⭐¶

3.2 紧集上的连续映射 ⭐⭐¶

3.3 连通集上的连续映射 ⭐⭐¶

3.4 单调函数的不连续点集 ⭐⭐¶

⚠️ 常见陷阱¶

练习¶

§4 一致连续与半连续 ⭐¶

4.1 一致连续 ⭐¶

4.2 Lipschitz 连续与 Hölder 连续 ⭐⭐¶

4.3 下半连续与上半连续 ⭐⭐⭐¶

⚠️ 常见陷阱¶

练习¶

§5 单变量微分学 ⭐¶

5.1 导数定义与基本性质 ⭐¶

5.2 中值定理链 ⭐⭐¶

5.3 L'Hôpital 法则 ⭐⭐¶

5.4 Taylor 定理与余项 ⭐⭐¶

⚠️ 常见陷阱¶

练习¶

§6 Riemann-Stieltjes 积分 ⭐⭐¶

6.1 动机：为什么不只学 Riemann 积分¶

6.2 定义与可积性 ⭐⭐¶

6.3 积分的基本性质 ⭐¶

6.4 微积分基本定理 ⭐⭐¶

6.5 积分中值定理 ⭐⭐¶

6.6 分部积分与变量替换 ⭐¶

⚠️ 常见陷阱¶

练习¶

§7 函数序列与级数 · 一致收敛 ⭐⭐¶

7.1 逐点收敛 vs 一致收敛 ⭐¶

7.2 一致收敛的 Cauchy 准则 ⭐⭐¶

7.3 一致收敛保持的性质 ⭐⭐¶

7.4 Weierstrass M-判别法 ⭐¶

7.5 幂级数 ⭐¶

7.6 实解析函数 vs \(C^\infty\) ⭐⭐¶

⚠️ 常见陷阱¶

练习¶

§8 等度连续与 Arzelà-Ascoli 定理 ⭐⭐⭐¶

8.1 动机：函数空间中的 Bolzano-Weierstrass¶

8.2 等度连续性 ⭐⭐¶

8.3 Arzelà-Ascoli 定理 ⭐⭐⭐¶

⚠️ 常见陷阱¶

练习¶

§9 Stone-Weierstrass 定理 ⭐⭐⭐¶

9.1 动机与 Weierstrass 逼近定理 ⭐⭐¶

9.2 Stone-Weierstrass 定理 ⭐⭐⭐¶

⚠️ 常见陷阱¶

练习¶

§10 压缩映射原理 ⭐⭐¶

10.1 动机：从迭代到不动点¶

10.2 Banach 压缩映射原理 ⭐⭐¶

10.3 参数化版本 ⭐⭐⭐¶

10.4 应用预览：ODE 存在唯一性 ⭐⭐¶

10.5 Newton 迭代的局部收敛性 ⭐⭐⭐¶

⚠️ 常见陷阱¶