跳转至

实分析(Real Analysis)

所属层级:Layer-0 · Batch B · Task 1 面向对象:机器人学博士生 Layer-0 数学基础 深度要求:极端严格,不留空白——每个定理完整证明,每步推导交代动机 先修:集合论与 \(\mathbb{R}\) 的 Dedekind 构造(§10)· 向量空间基础(§20)· 点集拓扑(§70,可并行) 后续:测度论与 Lebesgue 积分(§100)· 泛函分析(§110)· 常微分方程(§120)· Layer-1 微分流形与优化


前置自测

📋 答不出 \(\geq 2\)\(\to\) 先回 §10/§20/§70 复习

  1. 实数的完备性:什么是有序域的最小上界性质(Least Upper Bound Property)?为什么 \(\mathbb{Q}\) 不满足这个性质?请举出一个具体的反例。
  2. 序列与极限:用 \(\varepsilon\)-\(N\) 语言精确叙述"序列 \(\{a_n\}\) 收敛到 \(L\)"的定义。Cauchy 列和收敛列的关系是什么?
  3. 度量空间基础:什么是度量空间中的开集?紧集的定义是什么?Heine-Borel 定理在 \(\mathbb{R}^n\) 中怎么表述?
  4. 线性映射:什么是从 \(\mathbb{R}^n\)\(\mathbb{R}^m\) 的线性映射?它的矩阵表示和映射本身是什么关系?
  5. 连续性直觉:给出一个在 \([0,1]\) 上连续但不一致连续的函数的例子——等等,这可能吗?如果不可能,说明原因。

本章目标

学完本章后,你应该能够:

  1. **完整复述**实数完备性的四种等价表述,并证明它们之间的等价关系
  2. 独立证明 Bolzano-Weierstrass 定理、中值定理链(Rolle \(\to\) Lagrange \(\to\) Cauchy)、微积分基本定理
  3. **严格区分**逐点收敛与一致收敛,并掌握一致收敛保持连续/积分/微分的三大定理
  4. 完整证明 Banach 压缩映射原理及其在 ODE 存在唯一性中的应用框架
  5. **完整证明**反函数定理与隐函数定理,理解其与压缩映射原理的关系
  6. 理解 Arzelà-Ascoli 定理和 Stone-Weierstrass 定理的证明思路及其在函数逼近中的意义
  7. **建立**实分析与机器人学的桥梁:正/逆运动学的局部可逆性、Lipschitz 连续性在控制论中的角色、函数逼近与神经网络

本章知识导航

实分析是数学分析的严格化——它将微积分从"直觉计算工具"提升为"有坚实地基的逻辑大厦"。本章的知识结构可以分为三条主线:

主线一:完备性与极限理论(§1-§2) 从实数的完备性出发,建立序列、级数的收敛理论。这是所有后续内容的地基。

主线二:连续性与微积分(§3-§6) 在完备性的基础上,严格定义连续性、微分、积分,证明微积分基本定理。这是对本科微积分的"重新审视"。

主线三:函数空间与高维推广(§7-§12) 从函数序列的收敛出发,建立函数空间的理论,然后推广到多变量微积分和反/隐函数定理。这是通向泛函分析和微分流形的桥梁。

§1 实数完备性 ──→ §2 序列与级数 ──→ §3 连续性 ──→ §4 一致连续与Lipschitz
       │                │                │                │
       │                │                ▼                ▼
       │                │           §5 单变量微分 ──→ §6 Riemann-Stieltjes积分
       │                │                                │
       │                ▼                                ▼
       │         §7 函数序列一致收敛 ──→ §8 Arzelà-Ascoli
       │                │                │
       │                ▼                ▼
       │         §9 Stone-Weierstrass    §10 压缩映射原理
       │                                     │
       ▼                                     ▼
  §15 凸性与Jensen     §11 多变量微分 ──→ §12 反/隐函数定理
                    §13 高阶Taylor ──→ §14 多变量积分

推荐阅读路径:§1-§6 为主干,必须按顺序精读;§7-§10 可在 §6 之后平行阅读;§11-§14 依赖 §5-§6 和 §10;§15 相对独立,可随时插入。

前置知识桥接

回顾 §10 集合论:在那里我们通过 Dedekind 分割从有理数 \(\mathbb{Q}\) 构造了实数 \(\mathbb{R}\),并证明 \(\mathbb{R}\) 是完备有序域。本章**从这个结果出发**,将完备性化为分析学的核心工具——不再关心"\(\mathbb{R}\) 是如何构造的",而是关心"完备性能帮我们证明什么"。

回顾 §20 向量空间:线性映射 \(L: \mathbb{R}^n \to \mathbb{R}^m\) 的概念将在 §11 多变量微分中扮演核心角色——总导数(Fréchet 导数)本质上就是"最佳线性逼近"。

回顾 §70 点集拓扑:度量空间、开集、紧集、连通集的抽象定义已在 §70 中建立。本章**不重复这些抽象内容**,而是把它们"落地"到 \(\mathbb{R}\)\(\mathbb{R}^n\) 上做具体分析。

如果跳过本章会怎样

  1. 微分流形无法入门:流形上的坐标卡变换依赖反函数定理(§12),子流形的定义依赖隐函数定理——不学本章,Layer-1 的微分几何完全无法展开。
  2. 控制理论的收敛性分析无从谈起:机器人控制中的 Picard-Lindelöf 定理(ODE 解的存在唯一性)直接依赖压缩映射原理(§10);Lipschitz 条件(§4)是控制系统稳定性分析的基本工具。

预计阅读时间

阅读方式 时间 适合谁
精读(含推导和练习) 40-50 小时 需要深入理解理论基础的读者
速读(跳过部分推导细节) 15-20 小时 有本科分析基础、需要复习的读者
速查(只看定理和速查表) 2-3 小时 遇到具体问题时回来查阅

§1 实数系的完备性再审视 ⭐

上节解决了什么:§10 集合论中我们从零构造了 \(\mathbb{R}\)本节解决什么:把完备性从"构造副产品"提升为"分析核心工具",建立四种等价表述之间的完整证明链。

1.1 动机:为什么完备性是实分析的基石

在本科微积分中,我们自由地使用极限、连续、微分、积分,很少追问:为什么这些操作是合法的? 答案几乎总是回到同一个地方——实数的完备性

考虑一个看似简单的问题:方程 \(x^2 = 2\)\(\mathbb{Q}\) 中没有解。更准确地说,我们可以构造一个有理数序列 \(\{a_n\}\)——比如用 Newton 迭代 \(a_{n+1} = \frac{1}{2}(a_n + \frac{2}{a_n})\),从 \(a_0 = 1\) 出发——它在直觉上"趋近于 \(\sqrt{2}\)",但在 \(\mathbb{Q}\) 中**没有极限**。这意味着 \(\mathbb{Q}\) 作为分析学的舞台是有缺陷的:序列可以"越来越聚拢"(Cauchy 列),却找不到聚拢的目标。

类比:想象一条数轴上布满了"洞"——\(\mathbb{Q}\) 就是这样的数轴。有理数之间有无理数大小的"空隙"。完备性就是"填满所有空隙"——\(\mathbb{R}\) 是没有洞的数轴。这个类比在"序列极限存在"的层面是准确的,但要注意:\(\mathbb{Q}\)\(\mathbb{R}\) 中是稠密的(任何两个实数之间都有有理数),所以"洞"不是肉眼可见的间隙,而是"极限过程中的缺失"。

1.2 最小上界性质(LUB) ⭐

定义(最小上界性质,Least Upper Bound Property):有序域 \(F\) 满足最小上界性质,是指 \(F\) 中每个非空有上界的子集都有上确界(最小上界)。

用符号表示:若 \(S \subseteq F\) 非空且 \(\exists M \in F, \forall x \in S, x \leq M\),则 \(\exists \sup S \in F\) 使得

\[\forall x \in S,\; x \leq \sup S \quad \text{且} \quad \forall \varepsilon > 0,\; \exists x_0 \in S,\; x_0 > \sup S - \varepsilon\]

第二个条件是"最小性"——\(\sup S\) 是所有上界中最小的那个。

为什么 \(\mathbb{Q}\) 不满足 LUB:取 \(S = \{q \in \mathbb{Q} : q^2 < 2\}\)。这个集合非空(\(1 \in S\)),有上界(\(2\) 是上界),但在 \(\mathbb{Q}\) 中**没有上确界**。如果上确界 \(\alpha\) 存在于 \(\mathbb{Q}\) 中,则必有 \(\alpha^2 = 2\)(否则可以构造更好的上界或找到更大的元素),但 \(\sqrt{2} \notin \mathbb{Q}\)——矛盾。这就是 \(\mathbb{Q}\) 的"洞"的精确数学表述。

本质洞察:LUB 性质的本质不是"某个集合有上确界"这件具体的事,而是"极限过程不会把我们带出实数系"这个保证。实分析中几乎所有存在性定理(极限存在、最大值存在、不动点存在……)最终都回溯到 LUB。

1.3 Archimedean 性质与 \(\mathbb{Q}\) 的稠密性 ⭐

定理(Archimedean 性质):对任意 \(x, y \in \mathbb{R}\)\(x > 0\),存在正整数 \(n\) 使得 \(nx > y\)

证明:用反证法。假设对所有正整数 \(n\) 都有 \(nx \leq y\)。则集合 \(A = \{nx : n \in \mathbb{N}\}\) 有上界 \(y\)。由 LUB,\(\alpha = \sup A\) 存在。由于 \(\alpha\) 是上界,\((n+1)x \leq \alpha\),即 \(nx \leq \alpha - x\)。这说明 \(\alpha - x\) 也是 \(A\) 的上界——但 \(\alpha - x < \alpha\),与 \(\alpha\) 是最小上界矛盾。\(\square\)

这个证明展示了 LUB 的典型用法:假设结论不成立 \(\to\) 构造有界集合 \(\to\) 取上确界 \(\to\) 利用"最小性"得到矛盾。这是实分析中最常见的证明模式之一。

定理\(\mathbb{Q}\) 的稠密性):对任意实数 \(a < b\),存在有理数 \(q\) 使得 \(a < q < b\)

证明:由 Archimedean 性质,取正整数 \(n\) 使得 \(n(b - a) > 1\)。再取整数 \(m = \lfloor na \rfloor + 1\)(即大于 \(na\) 的最小整数)。则 \(m > na\)\(\frac{m}{n} > a\)。又 \(m \leq na + 1 < na + n(b-a) = nb\),即 \(\frac{m}{n} < b\)。因此 \(q = \frac{m}{n}\) 满足 \(a < q < b\)\(\square\)

类似地,可以证明无理数在 \(\mathbb{R}\) 中也是稠密的——在任意两个实数之间也存在无理数。

1.4 完备性的四种等价刻画 ⭐⭐

实数完备性有多种等价表述。理解它们之间的等价关系,不仅帮助我们灵活选择证明工具,更揭示了完备性这个概念的多面性。

四种表述

表述 内容 直觉
(LUB) 最小上界性质 非空有上界的集合有上确界 "极限过程不出界"
(MCT) 单调有界收敛 单调有界序列必收敛 "单调递增且有天花板,必定停下"
(NIP) 闭区间套 \([a_n, b_n]\) 递缩且长度 \(\to 0\),则交集恰含一点 "越来越精确的逼近锁定一个点"
(BW) Bolzano-Weierstrass 有界序列有收敛子列 "有界序列不可能'永远散开'"

等价性证明循环:我们证明 LUB \(\Rightarrow\) MCT \(\Rightarrow\) NIP \(\Rightarrow\) BW \(\Rightarrow\) LUB。

LUB \(\Rightarrow\) MCT:设 \(\{a_n\}\) 单调递增且有上界 \(M\)。集合 \(S = \{a_n : n \in \mathbb{N}\}\) 非空有上界,由 LUB 取 \(\alpha = \sup S\)。对任意 \(\varepsilon > 0\),由上确界的定义,存在 \(a_N > \alpha - \varepsilon\)。由单调性,\(n \geq N\)\(\alpha - \varepsilon < a_N \leq a_n \leq \alpha\),即 \(|a_n - \alpha| < \varepsilon\)。这证明了 \(a_n \to \alpha\)\(\square\)

阶段小结:到这里我们从"集合的上确界存在"推出了"单调有界序列收敛"。关键步骤是将序列的值域视为集合,然后用上确界作为极限候选。

MCT \(\Rightarrow\) NIP:设 \([a_n, b_n]\) 为递缩闭区间套,即 \(a_n \leq a_{n+1} \leq b_{n+1} \leq b_n\),且 \(b_n - a_n \to 0\)。则 \(\{a_n\}\) 单调递增有上界 \(b_1\),由 MCT 收敛到 \(\alpha\)。类似地 \(\{b_n\}\) 单调递减有下界 \(a_1\),收敛到 \(\beta\)。由 \(b_n - a_n \to 0\)\(\alpha = \beta\)。这个公共极限 \(\alpha\) 满足 \(\alpha \in [a_n, b_n]\) 对所有 \(n\) 成立。若 \(x \in \bigcap [a_n, b_n]\),则 \(a_n \leq x \leq b_n\) 对所有 \(n\) 成立,取极限得 \(x = \alpha\)。因此交集恰含一点 \(\{\alpha\}\)\(\square\)

NIP \(\Rightarrow\) BW:设 \(\{x_n\}\) 有界,\(x_n \in [a, b]\)。将 \([a, b]\) 二等分为 \([a, \frac{a+b}{2}]\)\([\frac{a+b}{2}, b]\),至少有一半包含 \(\{x_n\}\) 的无穷多项,选这一半记为 \([a_1, b_1]\)。重复此过程,得到闭区间套 \([a_k, b_k]\),长度 \(b_k - a_k = \frac{b-a}{2^k} \to 0\),且每个区间包含 \(\{x_n\}\) 的无穷多项。在每个 \([a_k, b_k]\) 中选一项 \(x_{n_k}\)(使 \(n_k\) 严格递增),则 \(|x_{n_k} - \alpha| \leq b_k - a_k \to 0\),其中 \(\alpha\) 是区间套的交点。\(\square\)

BW \(\Rightarrow\) LUB:设 \(S\) 非空有上界。取 \(b_0\)\(S\) 的一个上界,\(a_0 \in S\)。考虑中点 \(c = \frac{a_0 + b_0}{2}\):若 \(c\)\(S\) 的上界,令 \(b_1 = c, a_1 = a_0\);否则存在 \(s \in S, s > c\),令 \(a_1 = s, b_1 = b_0\)。如此构造的 \(\{a_n\}\)\(\{b_n\}\)\(a_n \in S\)\(a_n\)\(S\) 中某元素(因此 \(a_n\) 不是 \(S\) 的上界的证据),\(b_n\)\(S\) 的上界,且 \(b_n - a_n \to 0\)。由 BW(或由 MCT,但我们要独立于 LUB 证明),\(\{a_n\}\) 有收敛子列趋向 \(\alpha\)。可以验证 \(\alpha = \sup S\)\(\alpha\) 是上界(因为 \(b_n \to \alpha\)\(b_n\) 都是上界),且 \(\alpha\) 是最小上界(因为 \(a_n \to \alpha\) 且任何小于 \(\alpha\) 的数不是上界)。\(\square\)

本质洞察:四种等价表述看似不同,实则抓住了同一个本质——\(\mathbb{R}\) 没有"洞"。LUB 从集合论角度说"没有洞",MCT 从序列角度说"单调逼近必命中目标",NIP 从区间角度说"缩小范围必锁定一点",BW 从子列角度说"有界序列必能聚拢"。选哪个作为公理起点是品味问题,但四者等价是 \(\mathbb{R}\) 的深层结构决定的。

1.5 Cauchy 完备性 ⭐⭐

定义:度量空间 \((X, d)\) 是 **Cauchy 完备**的,如果其中每个 Cauchy 列都收敛。

定理\(\mathbb{R}\)(带标准距离 \(|x-y|\))是 Cauchy 完备的。

证明:设 \(\{a_n\}\)\(\mathbb{R}\) 中的 Cauchy 列。Cauchy 列有界(因为 \(\exists N, n,m \geq N \Rightarrow |a_n - a_m| < 1\),故 \(|a_n| \leq \max\{|a_1|, \ldots, |a_N|, |a_N| + 1\}\))。由 BW,\(\{a_n\}\) 有收敛子列 \(a_{n_k} \to L\)。对任意 \(\varepsilon > 0\),取 \(N_1\) 使 \(n,m \geq N_1 \Rightarrow |a_n - a_m| < \varepsilon/2\),取 \(K\) 使 \(k \geq K \Rightarrow |a_{n_k} - L| < \varepsilon/2\)。对 \(n \geq N_1\)\(n_k \geq N_1\)

\[|a_n - L| \leq |a_n - a_{n_k}| + |a_{n_k} - L| < \frac{\varepsilon}{2} + \frac{\varepsilon}{2} = \varepsilon\]

因此 \(a_n \to L\)\(\square\)

重要备注:Cauchy 完备性加上 Archimedean 性质等价于 LUB 性质。单有 Cauchy 完备性不够——例如非 Archimedean 的 \(p\)-adic 数域 \(\mathbb{Q}_p\) 是 Cauchy 完备的,但不满足 LUB(它没有全序)。

1.6 扩展实数系 \(\overline{\mathbb{R}}\)

为了方便处理无界集合的上确界和 \(\limsup\) / \(\liminf\),引入 \(\overline{\mathbb{R}} = \mathbb{R} \cup \{-\infty, +\infty\}\)

拓扑结构\(\overline{\mathbb{R}}\) 配备**序拓扑**——基本开集为 \((a, b)\)\([-\infty, b)\)\((a, +\infty]\)。在这个拓扑下 \(\overline{\mathbb{R}}\) 是紧空间(同胚于闭区间 \([-1, 1]\),通过映射 \(x \mapsto \frac{2}{\pi}\arctan x\))。

运算约定:对任意 \(a \in \mathbb{R}\)\(a + (+\infty) = +\infty\)\(a + (-\infty) = -\infty\)。对 \(a > 0\)\(a \cdot (+\infty) = +\infty\)。注意 \(\infty - \infty\)\(0 \cdot \infty\) 未定义——这些不定式在极限计算中需要具体分析。

\(\overline{\mathbb{R}}\) 中的 sup/inf:一个核心优势是,在 \(\overline{\mathbb{R}}\) 中**任何非空集合都有上确界和下确界**。对无上界的集合 \(S\)\(\sup S = +\infty\);对空集以外的无下界集合,\(\inf S = -\infty\)。这消除了"上确界是否存在"的讨论,简化了后续 \(\limsup / \liminf\) 的定义。

工程桥接:在数值优化中,将不可行解的代价设为 \(+\infty\) 是标准做法。这不是随意的约定,而是扩展实数系中 \(\sup\)\(\inf\) 的自然延伸——使得"所有非空集合都有上确界和下确界"成为普遍成立的命题。在控制论的李雅普诺夫函数分析中,函数值域在 \(\overline{\mathbb{R}}\) 中取值允许处理"系统在有限时间逃逸到无穷"的情形。

⚠️ 常见陷阱

💡 概念误区 1:认为"完备性就是 Cauchy 完备性"

新手想法:\(\mathbb{R}\) 的完备性就是"Cauchy 列都收敛"。

实际上:Cauchy 完备性是度量空间的性质,而 LUB 性质是有序域的性质。在 \(\mathbb{R}\) 中它们等价(加上 Archimedean 性质),但在一般度量空间中 LUB 没有意义(因为没有序结构)。说"完备性"时要明确是哪种完备性。

🧠 思维陷阱 1:认为"四种等价表述选哪个都一样,不需要都学"

新手想法:既然四种等价,学一种就够了。

实际上:不同证明场景适合不同工具。证明序列收敛通常用 MCT;证明存在性(如中间值定理的证明)用 NIP 或 LUB 最直接;证明紧致性相关结论用 BW。掌握所有四种表述及其证明技巧是实分析的基本功。

💡 概念误区 2:混淆"有界"与"有上确界"

新手想法:集合有界就有上确界,这不是显然的吗?

实际上:在 \(\mathbb{Q}\) 中,集合 \(\{q \in \mathbb{Q} : q^2 < 2\}\) 有界但在 \(\mathbb{Q}\) 中没有上确界。"有界集合有上确界"恰恰是 \(\mathbb{R}\) 的特殊性质,不是所有有序域共享的。

练习

  1. (证明题)证明:\(\mathbb{R}\) 中无理数集在 \(\mathbb{R}\) 中稠密,即对任意 \(a < b\),存在无理数 \(\xi\) 使得 \(a < \xi < b\)。(提示:利用 \(\mathbb{Q}\) 的稠密性和 \(\sqrt{2}\) 的无理性。)
  2. (推导题)用 LUB 性质证明自然对数的底 \(e = \sum_{n=0}^{\infty} \frac{1}{n!}\) 存在(即该级数收敛)。要求写出完整的每一步。
  3. (开放思考题)Cauchy 完备性 + Archimedean 性质 \(\Leftrightarrow\) LUB。如果去掉 Archimedean 条件,会有什么反例?试构造一个非 Archimedean 的 Cauchy 完备有序域(提示:考虑形式 Laurent 级数域)。

§2 \(\mathbb{R}\) 中序列与级数 ⭐

§1 建立了完备性工具箱。本节将其应用于序列和级数的系统研究——这是分析学中最基本的极限操作。

2.1 收敛、Cauchy 列、子列 ⭐

定义(序列收敛):序列 \(\{a_n\}\) 收敛到 \(L\),记 \(\lim_{n\to\infty} a_n = L\)\(a_n \to L\),是指:

\[\forall \varepsilon > 0,\; \exists N \in \mathbb{N},\; \forall n \geq N,\; |a_n - L| < \varepsilon\]

读到这里你可能会问:为什么用 \(\varepsilon > 0\) 而不是 \(\varepsilon > 0\) 足够小?因为如果条件对所有 \(\varepsilon > 0\) 成立,自然对小的 \(\varepsilon\) 也成立。\(\varepsilon\)-\(N\) 定义的力量在于它**精确刻画了"无穷逼近"**——序列尾部的所有项都落在目标 \(L\)\(\varepsilon\)-邻域内。

极限的唯一性:若 \(a_n \to L_1\)\(a_n \to L_2\),则 \(L_1 = L_2\)。证明:\(|L_1 - L_2| \leq |L_1 - a_n| + |a_n - L_2| < \varepsilon + \varepsilon = 2\varepsilon\) 对任意 \(\varepsilon > 0\),因此 \(L_1 = L_2\)

定义(Cauchy 列):序列 \(\{a_n\}\) 是 Cauchy 列,是指:

\[\forall \varepsilon > 0,\; \exists N \in \mathbb{N},\; \forall n, m \geq N,\; |a_n - a_m| < \varepsilon\]

Cauchy 列的优势在于:判断是否为 Cauchy 列**不需要知道极限是什么**——这在极限未知时特别有用。例如,要判断 \(\sum \frac{1}{n!}\) 是否收敛,我们不需要知道极限是 \(e\);只需证明部分和构成 Cauchy 列(\(|S_n - S_m| = |\sum_{k=m+1}^{n} \frac{1}{k!}| \leq \frac{2}{m!} \to 0\))。

收敛 \(\Rightarrow\) Cauchy:由三角不等式 \(|a_n - a_m| \leq |a_n - L| + |L - a_m|\)

Cauchy \(\Rightarrow\) 收敛(在 \(\mathbb{R}\) 中):这就是 §1.5 中证明的 \(\mathbb{R}\) 的 Cauchy 完备性。注意在 \(\mathbb{Q}\) 中 Cauchy \(\not\Rightarrow\) 收敛。

子列:序列 \(\{a_{n_k}\}\)\(\{a_n\}\) 的子列,其中 \(n_1 < n_2 < n_3 < \cdots\)(下标严格递增)。

基本性质: - 如果 \(a_n \to L\),则 \(a_n\) 的任何子列也趋向 \(L\)(由 \(\varepsilon\)-\(N\) 定义直接验证,利用 \(n_k \geq k\)) - 反之不然——子列可以收敛但原序列不收敛(如 \(a_n = (-1)^n\),子列 \(a_{2k} \to 1\)\(\{a_n\}\) 发散) - 判敛应用:如果两个不同子列有不同极限,则原序列发散。这提供了一种**证明发散**的有效方法

2.2 \(\limsup\)\(\liminf\) ⭐⭐

对于不收敛的有界序列,\(\limsup\)\(\liminf\) 提供了有力的分析工具。

定义

\[\limsup_{n\to\infty} a_n = \lim_{n\to\infty} \sup_{k \geq n} a_k, \qquad \liminf_{n\to\infty} a_n = \lim_{n\to\infty} \inf_{k \geq n} a_k\]

为什么这些极限存在?因为 \(b_n = \sup_{k \geq n} a_k\) 是单调递减的(\(\sup\) 取在越来越小的集合上),且 \(\{a_n\}\) 有界意味着 \(b_n\) 有下界——由 MCT,\(\{b_n\}\) 收敛。

关键性质\(\limsup a_n\) 恰好是 \(\{a_n\}\) 的所有收敛子列极限中的**最大者**;\(\liminf a_n\) 恰好是**最小者**。

类比\(\limsup\)\(\liminf\) 就像序列的"天花板"和"地板"——序列可以在它们之间振荡,但不会长期超出。\(\limsup = \liminf\) 当且仅当序列收敛。这个类比在"振荡序列"的图景下是准确的,但注意对于单调序列,天花板和地板重合(就是极限本身)。

定理\(\limsup\) 的刻画):\(L = \limsup a_n\) 当且仅当以下两个条件同时成立: 1. 对任意 \(\varepsilon > 0\)\(a_n > L + \varepsilon\) 仅对有限个 \(n\) 成立 2. 对任意 \(\varepsilon > 0\)\(a_n > L - \varepsilon\) 对无穷多个 \(n\) 成立

证明:(1) 若 \(a_n > L + \varepsilon\) 对无穷多 \(n\),则 \(\sup_{k\geq n} a_k \geq L + \varepsilon\) 对所有 \(n\),矛盾于 \(b_n \to L\)。(2) 若存在 \(\varepsilon > 0\) 使 \(a_n > L - \varepsilon\) 仅对有限个 \(n\),则存在 \(N\) 使 \(n \geq N \Rightarrow a_n \leq L - \varepsilon\),故 \(b_n = \sup_{k \geq n} a_k \leq L - \varepsilon\)\(n \geq N\),矛盾于 \(b_n \to L\)\(\square\)

2.3 级数:收敛判别法 ⭐

级数 \(\sum_{n=1}^{\infty} a_n\) 收敛是指其部分和序列 \(S_N = \sum_{n=1}^{N} a_n\) 收敛。级数理论是序列理论的直接推广——将"求和"视为序列(部分和)的极限。

必要条件(级数发散判别法):若 \(\sum a_n\) 收敛,则 \(a_n \to 0\)。反之不成立(调和级数)。因此 \(a_n \not\to 0 \Rightarrow \sum a_n\) 发散——这是最快的发散排除法。

比较判别法:若 \(0 \leq a_n \leq b_n\)\(\sum b_n\) 收敛,则 \(\sum a_n\) 收敛。(由部分和单调递增有上界,用 MCT。)

极限比较判别法:若 \(a_n, b_n > 0\)\(\lim \frac{a_n}{b_n} = L\)\(0 < L < \infty\)),则 \(\sum a_n\)\(\sum b_n\) 同敛散。(因为 \(\frac{L}{2} b_n \leq a_n \leq 2L b_n\) 对充分大的 \(n\)。)

比值判别法(D'Alembert):若 \(\limsup \frac{|a_{n+1}|}{|a_n|} = r\),则 \(r < 1\) 时绝对收敛,\(r > 1\) 时发散。

根值判别法(Cauchy):若 \(\limsup \sqrt[n]{|a_n|} = r\),则 \(r < 1\) 时绝对收敛,\(r > 1\) 时发散。

根值判别法严于比值判别法:这个说法的严格含义是——对于任何正项序列:

\[\liminf \frac{a_{n+1}}{a_n} \leq \liminf \sqrt[n]{a_n} \leq \limsup \sqrt[n]{a_n} \leq \limsup \frac{a_{n+1}}{a_n}\]

因此根值判别法能判定的级数,比值判别法也能判定,但反过来不一定。反例:取 \(a_n = 2^{-n}\)\(n\) 为奇数,\(a_n = 3^{-n}\)\(n\) 为偶数。\(\limsup \sqrt[n]{a_n} = \frac{1}{2} < 1\)(根值法判定收敛),但 \(\limsup \frac{a_{n+1}}{a_n} = +\infty\)(比值法失效)。

Cauchy 凝聚判别法:正项递减序列 \(\sum a_n\)\(\sum 2^k a_{2^k}\) 同敛散。

证明思路:将 \(\sum a_n\)\(2^k\) 的块分组:\(a_1 + (a_2 + a_3) + (a_4 + a_5 + a_6 + a_7) + \cdots\)。由 \(a_n\) 递减,每块的和 \(\leq 2^k a_{2^k}\)(用最大项估计)且 \(\geq 2^{k-1} a_{2^k}\)(用最小项估计)。因此 \(\sum a_n\)\(\sum 2^k a_{2^k}\) 同敛散。\(\square\)

经典应用\(\sum \frac{1}{n^p}\) 收敛当且仅当 \(p > 1\)。凝聚后得到 \(\sum 2^k \cdot \frac{1}{(2^k)^p} = \sum (2^{1-p})^k\)——这是公比为 \(2^{1-p}\) 的等比级数,收敛当且仅当 \(2^{1-p} < 1\),即 \(p > 1\)

Dirichlet 判别法:若 \(\{b_n\}\) 单调趋于 \(0\)\(\sum a_n\) 的部分和有界,则 \(\sum a_n b_n\) 收敛。

证明工具——Abel 求和法(分部求和,离散版分部积分):设 \(A_n = \sum_{k=1}^{n} a_k\)。则

\[\sum_{k=m}^{n} a_k b_k = A_n b_n - A_{m-1} b_m + \sum_{k=m}^{n-1} A_k(b_k - b_{k+1})\]

\(A_n\) 有界、\(b_n\) 单调趋于 \(0\),前两项趋于 \(0\)。第三项由 \(b_k - b_{k+1} \geq 0\)(单调递减)和 \(|A_k|\) 有界,形成绝对收敛级数。\(\square\)

Abel 判别法:若 \(\{b_n\}\) 单调有界,\(\sum a_n\) 收敛,则 \(\sum a_n b_n\) 收敛。(将 \(b_n\) 分解为常数 + 趋于 \(0\) 的单调序列,利用 Dirichlet 判别法。)

收敛判别法分类总结

判别法 适用条件 强度 典型应用
比较法 正项级数 基础 与已知级数比较
极限比较法 正项级数 基础 \(p\)-级数比较
比值法 一般级数 中等 含阶乘或指数
根值法 一般级数 强于比值 \(a_n^n\) 结构
凝聚法 正项递减 专用 \(p\)-级数
Dirichlet/Abel 部分和有界 + 单调 专用 交错级数、三角级数

2.4 绝对收敛 vs 条件收敛 ⭐⭐

定义\(\sum a_n\) **绝对收敛**是指 \(\sum |a_n|\) 收敛;**条件收敛**是指 \(\sum a_n\) 收敛但 \(\sum |a_n|\) 发散。

绝对收敛 \(\Rightarrow\) 收敛:由 \(|S_N - S_M| = |\sum_{n=M+1}^{N} a_n| \leq \sum_{n=M+1}^{N} |a_n|\)\(\sum |a_n|\) 收敛意味着部分和是 Cauchy 列。

Cauchy 乘积(Mertens 定理):若 \(\sum a_n = A\)(绝对收敛),\(\sum b_n = B\)(收敛),则 Cauchy 乘积 \(\sum c_n\) 收敛到 \(AB\),其中 \(c_n = \sum_{k=0}^{n} a_k b_{n-k}\)

2.5 Riemann 重排定理 ⭐⭐⭐

定理(Riemann 重排定理):设 \(\sum a_n\) 条件收敛。对任意 \(L \in \overline{\mathbb{R}}\),存在重排 \(\sigma: \mathbb{N} \to \mathbb{N}\)(双射)使得 \(\sum a_{\sigma(n)} = L\)

证明(完整):条件收敛意味着正项部分 \(\sum a_n^+\) 和负项部分 \(\sum a_n^-\) 均发散(其中 \(a_n^+ = \max(a_n, 0)\)\(a_n^- = \max(-a_n, 0)\)),但 \(a_n \to 0\)

构造达到目标 \(L \in \mathbb{R}\) 的重排:先取正项 \(a_{n_1}^+, a_{n_2}^+, \ldots\) 直到部分和首次超过 \(L\);再取负项 \(a_{m_1}^-, a_{m_2}^-, \ldots\) 直到部分和首次低于 \(L\);交替进行。由于 \(a_n \to 0\),每次"越线"的幅度趋于 \(0\),因此部分和趋于 \(L\)

为什么这个过程必定覆盖所有项?因为每次取正项或负项时,都是从**剩余**的正项或负项中按**原顺序**依次取的。由于正项和负项各有无穷多个且各自发散到 \(+\infty\),每次切换都必定能越过目标——因此不会卡在只取正项(或只取负项)的状态。\(\square\)

反事实推理:如果 \(\sum a_n\) 绝对收敛,重排定理还成立吗?不成立。绝对收敛级数的任何重排都收敛到相同的和——这是绝对收敛的一个核心优势。条件收敛的"脆弱性"正体现在重排可改变和值。

工程桥接:在强化学习中,折扣回报 \(\sum_{k=0}^{\infty} \gamma^k r_k\)\(0 < \gamma < 1\))的绝对收敛性保证了策略评估(Policy Evaluation)的良定义——无论以什么顺序累加奖励,结果都一样。如果不满足绝对收敛,回报的定义就会依赖于"时间步的排列",这在数学上是不可接受的。

⚠️ 常见陷阱

💡 概念误区:认为"\(a_n \to 0\) 就意味着 \(\sum a_n\) 收敛"

这是分析学中最经典的误区。调和级数 \(\sum \frac{1}{n}\) 的项趋于 \(0\) 但级数发散。\(a_n \to 0\) 是收敛的**必要**条件,不是**充分**条件。

🧠 思维陷阱:认为"根值法和比值法能判定所有级数"

实际上两种方法在临界情况 \(r = 1\) 时都失效。例如 \(\sum \frac{1}{n^p}\)\(p\) 级数)的比值和根值均为 \(1\),但 \(p > 1\) 收敛,\(p \leq 1\) 发散。此时需要 Cauchy 凝聚判别法或直接比较。

💡 概念误区:混淆"绝对收敛"和"收敛"

绝对收敛是严格强于收敛的概念。\(\sum \frac{(-1)^n}{n}\) 收敛(Leibniz 判别法)但不绝对收敛(\(\sum \frac{1}{n}\) 发散)。许多定理(如 Mertens 定理、重排不变性)需要绝对收敛而非仅仅收敛。

练习

  1. (推导题)证明不等式链:\(\liminf \frac{a_{n+1}}{a_n} \leq \liminf \sqrt[n]{a_n} \leq \limsup \sqrt[n]{a_n} \leq \limsup \frac{a_{n+1}}{a_n}\)(对正项序列)。
  2. (证明题)证明 Riemann 重排定理中,对 \(L = +\infty\) 的情况:存在重排使部分和趋于 \(+\infty\)
  3. (开放思考题)交错级数 \(\sum \frac{(-1)^n}{n}\) 条件收敛。如果我们将其重排为"取两个正项,再取一个负项"的模式,重排后的级数收敛到什么?计算并解释。

§3 度量空间上的连续性 ⭐

§2 建立了序列和级数的理论。本节将极限的概念推广到函数——连续性是函数的"极限保持性质"。

3.1 连续性的三种等价定义 ⭐

定义设置:设 \((X, d_X)\)\((Y, d_Y)\) 是度量空间,\(f: X \to Y\)\(p \in X\)

\(\varepsilon\)-\(\delta\) 定义\(f\)\(p\) 连续,是指:

\[\forall \varepsilon > 0,\; \exists \delta > 0,\; d_X(x, p) < \delta \Rightarrow d_Y(f(x), f(p)) < \varepsilon\]

序列定义\(f\)\(p\) 连续 \(\Leftrightarrow\) 对任何序列 \(x_n \to p\),都有 \(f(x_n) \to f(p)\)

拓扑定义\(f\)\(X\) 上连续 \(\Leftrightarrow\)\(Y\) 中任何开集 \(V\),原像 \(f^{-1}(V)\)\(X\) 中的开集。

三者等价的证明

\(\varepsilon\)-\(\delta\) \(\Rightarrow\) 序列:设 \(x_n \to p\)。对任意 \(\varepsilon > 0\),取 \(\delta\) 使 \(d_X(x, p) < \delta \Rightarrow d_Y(f(x), f(p)) < \varepsilon\)。又取 \(N\) 使 \(n \geq N \Rightarrow d_X(x_n, p) < \delta\)。则 \(n \geq N \Rightarrow d_Y(f(x_n), f(p)) < \varepsilon\)

序列 \(\Rightarrow\) \(\varepsilon\)-\(\delta\)(反证法):若 \(\varepsilon\)-\(\delta\) 定义不成立,则存在 \(\varepsilon_0 > 0\) 使对任意 \(\delta = \frac{1}{n}\),存在 \(x_n\) 满足 \(d_X(x_n, p) < \frac{1}{n}\)\(d_Y(f(x_n), f(p)) \geq \varepsilon_0\)。则 \(x_n \to p\)\(f(x_n) \not\to f(p)\),矛盾。

\(\varepsilon\)-\(\delta\) \(\Leftrightarrow\) 拓扑:\(f\) 全局连续当且仅当对每点 \(p\) 连续。\(f^{-1}(V)\) 是开集等价于:对每个 \(p \in f^{-1}(V)\),存在 \(\delta\) 使 \(B(p, \delta) \subseteq f^{-1}(V)\)。这恰好是 \(\varepsilon\)-\(\delta\) 连续(取 \(\varepsilon\) 使 \(B(f(p), \varepsilon) \subseteq V\))。\(\square\)

不是三种不同的概念,而是同一个概念的三副面孔\(\varepsilon\)-\(\delta\) 适合做估计,序列定义适合具体计算,拓扑定义适合抽象推理。选择哪个取决于证明的需要。

3.2 紧集上的连续映射 ⭐⭐

定理(连续映射保紧):若 \(K \subseteq X\) 紧,\(f: X \to Y\) 连续,则 \(f(K)\) 紧。

证明:设 \(\{V_\alpha\}\)\(f(K)\) 的开覆盖。则 \(\{f^{-1}(V_\alpha)\}\)\(K\) 的开覆盖(因为 \(f\) 连续,原像为开)。\(K\) 紧,取有限子覆盖 \(f^{-1}(V_{\alpha_1}), \ldots, f^{-1}(V_{\alpha_n})\)。则 \(V_{\alpha_1}, \ldots, V_{\alpha_n}\) 覆盖 \(f(K)\)\(\square\)

推论(极值定理,Extreme Value Theorem):若 \(K \subseteq \mathbb{R}^n\) 紧,\(f: K \to \mathbb{R}\) 连续,则 \(f\)\(K\) 上取到最大值和最小值。

证明\(f(K) \subseteq \mathbb{R}\) 紧,在 \(\mathbb{R}\) 中紧 \(\Leftrightarrow\) 有界闭(Heine-Borel),因此 \(f(K)\) 有界闭。有界意味着 \(\sup f(K)\)\(\inf f(K)\) 存在(由 LUB)。闭意味着 \(\sup f(K) \in f(K)\)(否则 \(\sup\) 是聚点但不属于 \(f(K)\),与闭集矛盾)。\(\square\)

反事实推理:如果 \(K\) 不紧(比如开区间 \((0, 1)\)),极值定理还成立吗?不成立\(f(x) = \frac{1}{x}\)\((0, 1)\) 上连续但无最大值。紧致性是极值定理不可省略的条件。

3.3 连通集上的连续映射 ⭐⭐

定理(中间值定理,Intermediate Value Theorem):若 \(f: [a, b] \to \mathbb{R}\) 连续,\(f(a) < c < f(b)\)(或 \(f(b) < c < f(a)\)),则存在 \(\xi \in (a, b)\) 使 \(f(\xi) = c\)

证明(利用 LUB):设 \(f(a) < c < f(b)\)。令 \(S = \{x \in [a, b] : f(x) < c\}\)\(S\) 非空(\(a \in S\)),有上界 \(b\),取 \(\xi = \sup S\)

  • \(f(\xi) < c\):由连续性,\(f\)\(\xi\) 附近仍 \(< c\),因此 \(\xi\) 右边还有 \(S\) 的元素(除非 \(\xi = b\),但 \(f(b) > c\)),与 \(\xi = \sup S\) 矛盾。
  • \(f(\xi) > c\):由连续性,\(f\)\(\xi\) 的某左邻域内 \(> c\),因此 \(\xi\) 的某左邻域不含 \(S\) 的元素,\(\xi\) 不是 \(\sup S\),矛盾。
  • 因此 \(f(\xi) = c\)\(\square\)

更一般的版本:连续映射保连通(\(f\) 连续,\(E\) 连通 \(\Rightarrow\) \(f(E)\) 连通)。在 \(\mathbb{R}\) 中,连通集恰好是区间,因此连续实值函数的像集是区间——这就是中间值性质。

3.4 单调函数的不连续点集 ⭐⭐

定理:单调函数 \(f: (a, b) \to \mathbb{R}\) 的不连续点集至多可数。

证明思路:设 \(f\) 单调递增。在不连续点 \(x\) 处,左极限 \(f(x^-) < f(x^+)\) 右极限(跳跃间断点)。将每个不连续点 \(x\) 对应到开区间 \((f(x^-), f(x^+))\)。由 \(f\) 单调,不同不连续点对应的开区间**互不相交**。每个非空开区间包含一个有理数(\(\mathbb{Q}\) 稠密),因此不连续点集到 \(\mathbb{Q}\) 有单射,从而至多可数。\(\square\)

这个定理说明单调函数"本质上"是连续的——不连续点很稀少(至多可数),而 \((a, b)\) 中的点是不可数的。

⚠️ 常见陷阱

💡 概念误区:认为"连续函数的像集一定是开集"

反例:\(f(x) = x^2\) 将开集 \((-1, 1)\) 映到 \([0, 1)\)——像集不是开集。连续映射保开集的说法是错误的。连续映射保紧、保连通,但一般**不保开**。

🧠 思维陷阱:认为"中间值定理的逆成立"

即:如果 \(f\) 满足中间值性质(取到端点之间的所有值),那么 \(f\) 连续。这是错误的。Darboux 定理指出导函数 \(f'\) 总满足中间值性质,但导函数不一定连续。

💡 概念误区:认为"连续映射保持序列的所有性质"

连续映射保持收敛性(\(x_n \to p \Rightarrow f(x_n) \to f(p)\)),但不保持 Cauchy 性(除非 \(f\) 是一致连续的)。\(f(x) = 1/x\)\((0, 1)\) 中的 Cauchy 列 \(1/n\) 映为非 Cauchy 列 \(n\)

练习

  1. (证明题)设 \(f: [a, b] \to [a, b]\) 连续。证明 \(f\) 有不动点,即存在 \(x_0 \in [a, b]\) 使 \(f(x_0) = x_0\)。(提示:考虑 \(g(x) = f(x) - x\),用中间值定理。)
  2. (推导题)给出一个从 \(\mathbb{R}\)\(\mathbb{R}\) 的函数,它处处不连续但满足中间值性质。(提示:考虑 Conway 基函数或适当构造。)
  3. (开放思考题)极值定理要求 \(K\) 紧且 \(f\) 连续。能否将"连续"弱化为"上半连续"?如果可以,叙述并证明相应的结论。

§4 一致连续与半连续 ⭐

§3 的连续性是"逐点"的——\(\delta\) 可以依赖于点 \(p\)。本节研究更强的连续性条件:\(\delta\) 不依赖于 \(p\)(一致连续),以及更弱的条件(半连续)。

4.1 一致连续 ⭐

定义\(f: (X, d_X) \to (Y, d_Y)\) 一致连续,是指:

\[\forall \varepsilon > 0,\; \exists \delta > 0,\; \forall x, y \in X,\; d_X(x, y) < \delta \Rightarrow d_Y(f(x), f(y)) < \varepsilon\]

与逐点连续的关键区别:一致连续中 \(\delta\) 只依赖于 \(\varepsilon\),不依赖于点 \(x\)

经典反例\(f(x) = \frac{1}{x}\)\((0, 1)\) 上连续但不一致连续。因为当 \(x\) 越靠近 \(0\),函数变化越剧烈——对于固定的 \(\varepsilon\),所需的 \(\delta\) 必须随 \(x \to 0\) 而趋于 \(0\)

定理(Heine-Cantor):紧集上的连续函数一致连续。

证明:设 \(K\) 紧,\(f: K \to Y\) 连续。反证:假设 \(f\) 不一致连续,则存在 \(\varepsilon_0 > 0\) 和序列 \(x_n, y_n \in K\)\(d_X(x_n, y_n) < \frac{1}{n}\)\(d_Y(f(x_n), f(y_n)) \geq \varepsilon_0\)\(K\) 紧,\(\{x_n\}\) 有收敛子列 \(x_{n_k} \to p\)。由 \(d_X(x_{n_k}, y_{n_k}) < \frac{1}{n_k} \to 0\)\(y_{n_k} \to p\)。由 \(f\)\(p\) 连续,\(f(x_{n_k}) \to f(p)\)\(f(y_{n_k}) \to f(p)\),因此 \(d_Y(f(x_{n_k}), f(y_{n_k})) \to 0\),矛盾于 \(\geq \varepsilon_0\)\(\square\)

这就是为什么前置自测第 5 题的答案是"不可能"——\([0,1]\) 上连续函数必然一致连续,因为 \([0,1]\) 是紧集。

4.2 Lipschitz 连续与 Hölder 连续 ⭐⭐

定义(Lipschitz 连续):\(f: X \to Y\)\(L\)-Lipschitz 的,如果存在常数 \(L \geq 0\) 使得:

\[d_Y(f(x), f(y)) \leq L \cdot d_X(x, y), \quad \forall x, y \in X\]

最小的这样的 \(L\) 称为 Lipschitz 常数

定义(Hölder 连续):\(f: X \to Y\)\(\alpha\)-Hölder 连续的(\(0 < \alpha \leq 1\)),如果存在 \(C \geq 0\) 使得:

\[d_Y(f(x), f(y)) \leq C \cdot d_X(x, y)^\alpha, \quad \forall x, y \in X\]

\(\alpha = 1\) 即 Lipschitz 连续。

连续性强弱链

\[\text{Lipschitz} \subsetneq \text{Hölder} \subsetneq \text{一致连续} \subsetneq \text{连续}\]

每个包含关系都是严格的,需要反例分离各层:

关系 反例
Hölder \(\not\Rightarrow\) Lipschitz \(f(x) = \sqrt{x}\)\(\frac{1}{2}\)-Hölder),\(\frac{f(x)-f(0)}{x-0} = \frac{1}{\sqrt{x}} \to \infty\)
一致连续 \(\not\Rightarrow\) Hölder 需要更精细的构造(如某些 Cantor 函数)
连续 \(\not\Rightarrow\) 一致连续 \(f(x) = \sin(\frac{1}{x})\)\((0, 1)\)

工程桥接:Lipschitz 条件在机器人学中无处不在。控制系统 \(\dot{x} = f(x, u)\) 中,如果 \(f\) 关于 \(x\) 是 Lipschitz 的,则 Picard-Lindelöf 定理保证初值问题有唯一解——这是控制器设计的数学前提。如果 \(f\) 不满足 Lipschitz 条件(比如 \(\dot{x} = x^{2/3}\)),解可能不唯一,控制器的行为将不可预测。在机器学习中,Lipschitz 约束也被用于稳定生成对抗网络(GAN)的训练——通过谱归一化(spectral normalization)强制判别器的 Lipschitz 常数不超过 \(1\)

4.3 下半连续与上半连续 ⭐⭐⭐

动机:许多优化问题中的目标函数不是连续的,但仍然希望极值存在。半连续是比连续更弱的条件,在优化理论中扮演关键角色。

定义\(f: X \to \overline{\mathbb{R}}\)\(p\) 下半连续(lower semicontinuous, lsc),是指:

\[\forall \varepsilon > 0,\; \exists \delta > 0,\; d(x, p) < \delta \Rightarrow f(x) > f(p) - \varepsilon\]

等价刻画:对任何 \(\alpha \in \mathbb{R}\)下水平集 \(\{x : f(x) \leq \alpha\}\) 是闭集。

直觉:下半连续函数"不会突然跌落"——函数值可以"跳上去"但不能"跳下来"。

定理:若 \(K\) 紧,\(f: K \to \mathbb{R}\) 下半连续,则 \(f\)\(K\) 上取到下确界。

证明:令 \(m = \inf_{K} f\)。对每个 \(n\),下水平集 \(F_n = \{x \in K : f(x) \leq m + \frac{1}{n}\}\) 非空(由下确界定义)且闭(下半连续的等价刻画)。\(K\) 紧且 \(F_n\) 闭,故 \(F_n\) 紧。\(\{F_n\}\) 递减,有限交非空(每个 \(F_n\) 非空且紧),由紧集的有限交性质,\(\bigcap F_n \neq \emptyset\)。取 \(x_0 \in \bigcap F_n\),则 \(f(x_0) \leq m + \frac{1}{n}\) 对所有 \(n\),故 \(f(x_0) = m\)\(\square\)

工程桥接:在最优控制中,代价泛函(Cost Functional)\(J: \mathcal{U} \to \mathbb{R}\) 往往只是下半连续的(而非连续的)。上述定理保证了在紧的容许控制集上,最优控制存在——这是 Tonelli 定理的预演,完整版在测度论(§100)之后展开。

⚠️ 常见陷阱

💡 概念误区:混淆一致连续和 Lipschitz 连续

新手经常认为两者等价。\(f(x) = \sqrt{x}\)\([0, 1]\) 上一致连续(Heine-Cantor),但不是 Lipschitz 的(\(f'(x) = \frac{1}{2\sqrt{x}} \to \infty\))。Lipschitz 条件比一致连续**严格更强**。

🧠 思维陷阱:认为"只要函数有界且连续,就一致连续"

反例:\(f(x) = \sin(x^2)\)\(\mathbb{R}\) 上连续且有界(\(|f| \leq 1\)),但不一致连续——当 \(x\) 很大时,函数振荡得越来越快。有界性和一致连续性是独立的性质。

💡 概念误区:认为"下半连续就是'几乎连续'"

下半连续允许函数在某些点"向上跳"(想象一个阶梯函数只有上跳没有下跳)。它比连续弱得多。但在优化中,下半连续加上紧性就足以保证极小值存在——这是一个出人意料的强结论。

练习

  1. (证明题)证明:\(f: \mathbb{R} \to \mathbb{R}\) Lipschitz \(\Rightarrow\) \(f\) 将 Cauchy 列映为 Cauchy 列。一致连续函数是否也有此性质?
  2. (推导题)设 \(f: [0, \infty) \to \mathbb{R}\) 一致连续,证明存在常数 \(a, b \geq 0\) 使 \(|f(x)| \leq a + bx\) 对所有 \(x \geq 0\)
  3. (开放思考题)是否存在函数 \(f: \mathbb{R} \to \mathbb{R}\),同时是下半连续和上半连续的,但在某些点不连续?为什么?

§5 单变量微分学 ⭐

有了连续性的严格基础,现在转向微分——连续函数的"局部线性逼近"。

5.1 导数定义与基本性质 ⭐

动机:微分的核心思想是**局部线性逼近**——在一个点附近,用"直线"(最简单的函数)近似一个"曲线"(一般的函数)。导数 \(f'(x_0)\) 就是这条最佳逼近直线的斜率。

定义\(f: (a, b) \to \mathbb{R}\)\(x_0\) 可导,是指极限

\[f'(x_0) = \lim_{h \to 0} \frac{f(x_0 + h) - f(x_0)}{h}\]

存在(作为有限实数)。\(f'(x_0)\) 称为 \(f\)\(x_0\) 的**导数**。

等价表述:\(f\)\(x_0\) 可导当且仅当存在实数 \(A\) 使得

\[f(x_0 + h) = f(x_0) + Ah + o(h) \quad (h \to 0)\]

其中 \(o(h)\) 表示 \(\frac{|o(h)|}{|h|} \to 0\)。此 \(A\) 就是 \(f'(x_0)\)。这个表述更清楚地展示了导数的本质——\(f\)\(x_0\) 附近被仿射函数 \(f(x_0) + A(x - x_0)\) 逼近,误差比 \(|h|\) 更小。

可导 \(\Rightarrow\) 连续:若 \(f\)\(x_0\) 可导,则 \(f(x_0 + h) - f(x_0) = h \cdot \frac{f(x_0+h)-f(x_0)}{h} \to 0 \cdot f'(x_0) = 0\)

反之不然\(f(x) = |x|\)\(x = 0\) 连续但不可导——左右极限不等:\(\lim_{h \to 0^+} \frac{|h|}{h} = 1\)\(\lim_{h \to 0^-} \frac{|h|}{h} = -1\)。几何上,\(|x|\) 在原点有"尖角"——不存在唯一的切线。

更极端的例子——Weierstrass 函数是**处处连续但无处可导**的。其构造在 §7 一致收敛中给出。这个反例在 1872 年由 Weierstrass 构造,颠覆了当时数学家"连续函数处处可导(除个别点外)"的普遍信念。

基本求导法则:设 \(f, g\)\(x_0\) 可导。 - 线性性\((af + bg)' = af' + bg'\) - 乘积法则(Leibniz)\((fg)' = f'g + fg'\) - 商法则\((\frac{f}{g})' = \frac{f'g - fg'}{g^2}\)\(g(x_0) \neq 0\)) - 链式法则\((g \circ f)'(x_0) = g'(f(x_0)) \cdot f'(x_0)\)

乘积法则的证明\(\frac{f(x+h)g(x+h) - f(x)g(x)}{h} = f(x+h) \cdot \frac{g(x+h)-g(x)}{h} + g(x) \cdot \frac{f(x+h)-f(x)}{h}\)。由 \(f\) 可导 \(\Rightarrow\) \(f\) 连续 \(\Rightarrow\) \(f(x+h) \to f(x)\),取极限即得。

**链式法则的证明**需要小心处理 \(f(x_0 + h) - f(x_0) = 0\) 的情况(此时不能直接写 \(\frac{g(f(x+h))-g(f(x))}{f(x+h)-f(x)} \cdot \frac{f(x+h)-f(x)}{h}\))。标准做法是引入辅助函数:定义

\[\psi(k) = \begin{cases} \frac{g(f(x_0) + k) - g(f(x_0))}{k} & k \neq 0 \\ g'(f(x_0)) & k = 0 \end{cases}\]

\(\psi\)\(0\) 连续,且 \(g(f(x_0+h)) - g(f(x_0)) = \psi(f(x_0+h)-f(x_0)) \cdot (f(x_0+h)-f(x_0))\)。除以 \(h\) 取极限即得链式法则。

Darboux 定理(导函数的中间值性质):即使 \(f'\) 不连续,\(f'\) 仍然满足中间值性质——若 \(f'(a) < c < f'(b)\),则存在 \(\xi \in (a, b)\) 使 \(f'(\xi) = c\)。证明利用极值定理应用于 \(g(x) = f(x) - cx\)。这说明导函数虽然可以不连续,但不能有"跳跃间断点"。

5.2 中值定理链 ⭐⭐

这是实分析中最重要的定理链之一:Rolle \(\to\) Lagrange \(\to\) Cauchy。每一步都建立在前一步之上。

定理(Rolle 定理):若 \(f: [a, b] \to \mathbb{R}\) 连续,在 \((a, b)\) 可导,且 \(f(a) = f(b)\),则存在 \(c \in (a, b)\) 使 \(f'(c) = 0\)

证明:由极值定理(§3.2),\(f\)\([a, b]\) 上取到最大值 \(M\) 和最小值 \(m\)。若 \(M = m\),则 \(f\) 为常数,\(f' \equiv 0\)。若 \(M \neq m\),由 \(f(a) = f(b)\)\(M\)\(m\) 中至少有一个在 \((a, b)\) 的内点 \(c\) 取到。在极值点处,\(f'(c)\) 存在且为 \(0\)(Fermat 引理:内部极值点处导数为零——因为左右单侧导数异号)。\(\square\)

定理(Lagrange 中值定理):若 \(f: [a, b] \to \mathbb{R}\) 连续,在 \((a, b)\) 可导,则存在 \(c \in (a, b)\) 使得:

\[f'(c) = \frac{f(b) - f(a)}{b - a}\]

证明:构造辅助函数 \(g(x) = f(x) - \frac{f(b) - f(a)}{b - a}(x - a)\)。验证 \(g(a) = f(a), g(b) = f(a)\)(即 \(g(a) = g(b)\)),由 Rolle 定理存在 \(c\) 使 \(g'(c) = 0\),即 \(f'(c) = \frac{f(b)-f(a)}{b-a}\)\(\square\)

类比:中值定理说"平均速度等于某时刻的瞬时速度"。如果你从 A 城开车到 B 城,平均速度是 80 km/h,那么旅途中**至少有一个时刻**你的瞬时速度恰好是 80 km/h。这个类比在一维情况下是精确的,但注意在多维情况(\(f: \mathbb{R}^n \to \mathbb{R}^n\))中,中值定理**不成立**——这是一个重要的区别。

定理(Cauchy 中值定理):若 \(f, g: [a, b] \to \mathbb{R}\) 连续,在 \((a, b)\) 可导,\(g'(x) \neq 0\) 对所有 \(x \in (a, b)\),则存在 \(c \in (a, b)\) 使得:

\[\frac{f'(c)}{g'(c)} = \frac{f(b) - f(a)}{g(b) - g(a)}\]

证明:令 \(h(x) = f(x) - \frac{f(b)-f(a)}{g(b)-g(a)} \cdot g(x)\),验证 \(h(a) = h(b)\),用 Rolle 定理。(注意 \(g(b) \neq g(a)\),否则由 Rolle 定理 \(g'\) 有零点,矛盾。)\(\square\)

5.3 L'Hôpital 法则 ⭐⭐

动机:当直接代入导致 \(\frac{0}{0}\)\(\frac{\infty}{\infty}\) 时,极限的计算需要更精细的工具。L'Hôpital 法则将函数极限的问题转化为导数极限的问题。

定理(L'Hôpital,\(0/0\) 型):设 \(f, g\)\((a, b)\) 可导,\(g'(x) \neq 0\)\(\lim_{x \to a^+} f(x) = \lim_{x \to a^+} g(x) = 0\)。若 \(\lim_{x \to a^+} \frac{f'(x)}{g'(x)} = L\)\(L\) 可为 \(\pm\infty\)),则 \(\lim_{x \to a^+} \frac{f(x)}{g(x)} = L\)

证明(利用 Cauchy MVT):定义 \(f(a) = g(a) = 0\)(使 \(f, g\)\([a, x]\) 连续)。对 \(x \in (a, b)\),由 Cauchy MVT 存在 \(c_x \in (a, x)\) 使 \(\frac{f(x)}{g(x)} = \frac{f(x)-f(a)}{g(x)-g(a)} = \frac{f'(c_x)}{g'(c_x)}\)。当 \(x \to a^+\)\(c_x \to a^+\)(因为 \(c_x \in (a, x)\)),故 \(\frac{f(x)}{g(x)} \to L\)\(\square\)

\(\infty/\infty\):类似但证明更复杂——需要利用 Cauchy MVT 和极限的定义更精细地控制。设 \(f(x), g(x) \to +\infty\)\(\frac{f'(x)}{g'(x)} \to L\)。对任意 \(\varepsilon > 0\),取 \(c\) 使 \(x > c\)\(|f'(x)/g'(x) - L| < \varepsilon\)。对 \(x > y > c\),由 Cauchy MVT,\(\frac{f(x)-f(y)}{g(x)-g(y)} = \frac{f'(\xi)}{g'(\xi)}\)\(\xi \in (y, x)\)),故此比值在 \((L-\varepsilon, L+\varepsilon)\) 内。令 \(x \to \infty\)\(y\) 固定),\(\frac{f(x)}{g(x)} \cdot \frac{1 - f(y)/f(x)}{1 - g(y)/g(x)} \in (L-\varepsilon, L+\varepsilon)\),由 \(f, g \to \infty\)\(\frac{f(x)}{g(x)} \to L\)

常见误用:对 \(\frac{f'(x)}{g'(x)}\) 极限不存在的情况,L'Hôpital 法则**无结论**(不是说原极限不存在)。例如 \(\frac{x + \sin x}{x}\) 的极限存在(\(= 1\)),但 \(\frac{1 + \cos x}{1}\) 极限不存在。这说明 L'Hôpital 法则的**逆命题不成立**。

反事实推理:如果没有 \(g'(x) \neq 0\) 的条件会怎样?此条件保证 \(g(x)\)\((a, b)\) 上严格单调(因此 \(g(x) \neq g(y)\)\(x \neq y\)),使 Cauchy MVT 可以应用。去掉此条件,\(g\) 可能在 \(a\) 附近振荡,\(\frac{f}{g}\) 的极限行为可以是任意的。

5.4 Taylor 定理与余项 ⭐⭐

定理(Taylor 定理,Lagrange 余项):设 \(f \in C^{n+1}([a, b])\)(即 \(f\)\(n+1\) 阶连续导数),\(x_0 \in [a, b]\)。则对 \(x \in [a, b]\)

\[f(x) = \sum_{k=0}^{n} \frac{f^{(k)}(x_0)}{k!}(x - x_0)^k + R_n(x)\]

其中 Lagrange 余项为

\[R_n(x) = \frac{f^{(n+1)}(\xi)}{(n+1)!}(x - x_0)^{n+1}\]

\(\xi\)\(x_0\)\(x\) 之间。

证明(用 Rolle 定理的归纳应用):定义

\[F(t) = f(x) - \sum_{k=0}^{n} \frac{f^{(k)}(t)}{k!}(x - t)^k - C(x - t)^{n+1}\]

\(C\) 使 \(F(x_0) = 0\)(即 \(C = R_n(x)/(x-x_0)^{n+1}\))。直接代入 \(t = x\) 可验证 \(F(x) = 0\)(级数在 \(t=x\) 时除 \(k=0\) 项外全为零)。由 Rolle 定理,存在 \(\xi\) 使 \(F'(\xi) = 0\)。计算 \(F'(t)\)(展开后大量抵消),得到所求余项公式。\(\square\)

**Cauchy 余项**和**积分余项**提供了不同形式的误差估计。积分余项为:

\[R_n(x) = \frac{1}{n!} \int_{x_0}^{x} f^{(n+1)}(t)(x - t)^n \, dt\]

它的优势在于可以直接估计余项大小,且不涉及"某个未知点 \(\xi\)"。

工程桥接:非线性动力系统 \(\dot{x} = f(x, u)\) 在平衡点 \((x^*, u^*)\) 处的 Taylor 展开 \(\dot{x} \approx A(x - x^*) + B(u - u^*)\)(其中 \(A = \frac{\partial f}{\partial x}\)\(B = \frac{\partial f}{\partial u}\))就是 Jacobian 线性化。Taylor 余项的大小决定了线性化的适用范围——这是 LQR 控制器设计的数学基础。

⚠️ 常见陷阱

💡 概念误区:认为"\(f^{(n)}(x_0) = 0\) 对所有 \(n\) 意味着 \(f \equiv 0\)"

反例:\(f(x) = e^{-1/x^2}\)\(x \neq 0\)),\(f(0) = 0\)。这个函数 \(f^{(n)}(0) = 0\) 对所有 \(n\),但 \(f\) 不恒为零。它在 \(0\) 处的 Taylor 级数恒为 \(0\),但函数本身不是零——Taylor 级数不收敛到函数值。这种函数叫做"在 \(0\) 处不解析(non-analytic)"。

🧠 思维陷阱:认为"中值定理可以推广到向量值函数"

\(f: [a,b] \to \mathbb{R}^n\)\(n \geq 2\)不满足 Lagrange 中值定理。反例:\(f(t) = (\cos t, \sin t)\)\(f(0) = f(2\pi) = (1, 0)\),但不存在 \(c\) 使 \(f'(c) = 0\)(因为 \(|f'(t)| = 1 \neq 0\))。多维替代品是 MVT 不等式 \(\|f(b)-f(a)\| \leq \sup \|f'(c)\| \cdot (b-a)\)

练习

  1. (推导题)从 Cauchy 中值定理推导 \(\infty/\infty\) 型 L'Hôpital 法则。
  2. (证明题)证明 Taylor 定理的积分余项形式:\(R_n(x) = \frac{1}{n!}\int_{x_0}^{x} f^{(n+1)}(t)(x-t)^n dt\)。(提示:对 \(n\) 归纳,使用分部积分。)
  3. (开放思考题)Lagrange 余项中的 \(\xi\) 依赖于 \(x\)\(n\)。随着 \(n \to \infty\)\(\xi\) 是否有确定的极限行为?试对 \(f(x) = e^x\) 做具体分析。

§6 Riemann-Stieltjes 积分 ⭐⭐

本节选择 Riemann-Stieltjes 积分而非纯 Riemann 积分,是因为 R-S 积分直接为测度论(§100)铺路,并服务于概率论中对分布函数的积分。

6.1 动机:为什么不只学 Riemann 积分

Riemann 积分 \(\int_a^b f(x) \, dx\) 以"均匀切分"的长度 \(\Delta x_i\) 为权重。但在许多应用中,权重不是均匀的:

  • 概率论:期望 \(E[g(X)] = \int g(x) \, dF(x)\),其中 \(F\) 是累积分布函数——可以是离散的、连续的或混合的
  • 物理学:质量分布可能集中在某些点上(点质量),力矩计算需要对质量分布积分
  • 信号处理:离散采样信号和连续信号的统一描述

Riemann-Stieltjes 积分 \(\int_a^b f \, d\alpha\) 允许积分子 \(\alpha\) 是任意单调递增函数,统一处理上述所有情况。当 \(\alpha(x) = x\) 时退化为 Riemann 积分。当 \(\alpha\) 是阶梯函数时,积分退化为离散求和。

"不是 Riemann 积分的推广,而是求和与积分的统一"——这是 R-S 积分最正确的理解。在测度论(§100)中,这种统一将被进一步推广为对一般测度的积分。

历史注记:Stieltjes 在 1894 年引入这种积分来处理矩问题(moment problem)。Riemann 积分(1854)在 Stieltjes 积分中是特殊情况。Lebesgue 积分(1902)又是 Stieltjes 积分在一般测度上的推广。

6.2 定义与可积性 ⭐⭐

定义:设 \(f: [a, b] \to \mathbb{R}\) 有界,\(\alpha: [a, b] \to \mathbb{R}\) 单调递增。分划 \(P = \{a = x_0 < x_1 < \cdots < x_n = b\}\)。定义

\[U(P, f, \alpha) = \sum_{i=1}^{n} M_i \cdot \Delta\alpha_i, \qquad L(P, f, \alpha) = \sum_{i=1}^{n} m_i \cdot \Delta\alpha_i\]

其中 \(M_i = \sup_{[x_{i-1}, x_i]} f\)\(m_i = \inf_{[x_{i-1}, x_i]} f\)\(\Delta\alpha_i = \alpha(x_i) - \alpha(x_{i-1})\)

\(f\) 关于 \(\alpha\)\([a, b]\)Riemann-Stieltjes 可积,是指

\[\sup_P L(P, f, \alpha) = \inf_P U(P, f, \alpha)\]

此公共值记为 \(\int_a^b f \, d\alpha\)

Cauchy 可积性判据\(f \in \mathscr{R}(\alpha)\)\(f\) 关于 \(\alpha\) 可积)当且仅当

\[\forall \varepsilon > 0,\; \exists P,\; U(P, f, \alpha) - L(P, f, \alpha) < \varepsilon\]

定理\(f\)\([a, b]\) 上连续,\(\alpha\) 单调递增 \(\Rightarrow\) \(f \in \mathscr{R}(\alpha)\)

证明\([a, b]\) 紧,\(f\) 连续 \(\Rightarrow\) \(f\) 一致连续(Heine-Cantor)。对 \(\varepsilon > 0\),取 \(\delta\) 使 \(|x - y| < \delta \Rightarrow |f(x) - f(y)| < \frac{\varepsilon}{\alpha(b) - \alpha(a) + 1}\)。取分划 \(P\) 使 \(\Delta x_i < \delta\)。则 \(M_i - m_i < \frac{\varepsilon}{\alpha(b)-\alpha(a)+1}\),故

\[U(P,f,\alpha) - L(P,f,\alpha) = \sum (M_i - m_i)\Delta\alpha_i < \frac{\varepsilon}{\alpha(b)-\alpha(a)+1} \cdot (\alpha(b)-\alpha(a)) < \varepsilon\]

\(\square\)

6.3 积分的基本性质 ⭐

线性\(\int (af + bg) \, d\alpha = a\int f \, d\alpha + b\int g \, d\alpha\)

区间可加\(\int_a^c f \, d\alpha = \int_a^b f \, d\alpha + \int_b^c f \, d\alpha\)\(a < b < c\))。

换积分子:若 \(\alpha\) 可微且 \(\alpha'\) 连续,则 \(\int_a^b f \, d\alpha = \int_a^b f(x) \alpha'(x) \, dx\)。这将 R-S 积分化为普通 Riemann 积分。

估值定理:若 \(m \leq f(x) \leq M\),则 \(m(\alpha(b)-\alpha(a)) \leq \int_a^b f \, d\alpha \leq M(\alpha(b)-\alpha(a))\)

6.4 微积分基本定理 ⭐⭐

定理(FTC Part I):设 \(f \in \mathscr{R}(\alpha)\)\(\alpha(x) = x\),即 Riemann 积分),定义 \(F(x) = \int_a^x f(t) \, dt\)。若 \(f\)\(x_0\) 连续,则 \(F\)\(x_0\) 可导且 \(F'(x_0) = f(x_0)\)

证明:对 \(h > 0\)

\[\frac{F(x_0 + h) - F(x_0)}{h} = \frac{1}{h}\int_{x_0}^{x_0+h} f(t) \, dt\]

\(f\)\(x_0\) 连续:\(\forall \varepsilon > 0, \exists \delta > 0, |t - x_0| < \delta \Rightarrow |f(t) - f(x_0)| < \varepsilon\)。当 \(0 < h < \delta\)

\[\left|\frac{F(x_0+h)-F(x_0)}{h} - f(x_0)\right| = \left|\frac{1}{h}\int_{x_0}^{x_0+h}(f(t)-f(x_0)) \, dt\right| \leq \frac{1}{h} \cdot h \cdot \varepsilon = \varepsilon\]

\(\square\)

定理(FTC Part II):设 \(f = g'\)\([a, b]\) 上连续。则 \(\int_a^b f(x) \, dx = g(b) - g(a)\)

证明:由 FTC I,\(F(x) = \int_a^x f(t) \, dt\) 满足 \(F' = f = g'\)。因此 \((F - g)' = 0\)\((a, b)\) 上成立。由中值定理,\(F - g\) 为常数 \(c\)\(F(a) = 0\),故 \(c = -g(a)\)\(F(b) = g(b) + c = g(b) - g(a)\)\(\square\)

本质洞察:FTC 是微分和积分这两个看似不相关的操作之间的深层联系——微分和积分互为逆运算。这不是"显然的",它依赖于实数的完备性(确保 \(F(x) = \int_a^x f\) 是良定义的)和中值定理(确保 \(F' = f\))。从信息论的角度看,FTC 说"函数的全局行为(积分)可以从局部行为(导数)完全恢复"。

6.5 积分中值定理 ⭐⭐

第一中值定理:若 \(f\)\([a, b]\) 上连续,\(\alpha\) 单调递增,则存在 \(\xi \in [a, b]\) 使得

\[\int_a^b f \, d\alpha = f(\xi) \cdot [\alpha(b) - \alpha(a)]\]

证明:由 §3.2 极值定理,\(f\) 取到最小值 \(m\) 和最大值 \(M\)。由估值定理,\(m[\alpha(b)-\alpha(a)] \leq \int f \, d\alpha \leq M[\alpha(b)-\alpha(a)]\)。若 \(\alpha(b) = \alpha(a)\),等式平凡成立。否则 \(m \leq \frac{\int f \, d\alpha}{\alpha(b)-\alpha(a)} \leq M\),由中间值定理(§3.3),存在 \(\xi\) 使 \(f(\xi)\) 等于该中间值。\(\square\)

第二中值定理(需要 Abel 求和法):若 \(f\)\([a, b]\) 上单调,\(g\) 连续,则存在 \(\xi \in [a, b]\) 使得

\[\int_a^b f(x) g(x) \, dx = f(a) \int_a^\xi g(x) \, dx + f(b) \int_\xi^b g(x) \, dx\]

6.6 分部积分与变量替换 ⭐

分部积分\(\int_a^b f \, dg = f(b)g(b) - f(a)g(a) - \int_a^b g \, df\)(在 R-S 积分框架下,双方只要一边存在,另一边也存在)。

这个公式的证明基于 Darboux 和的恒等式,并利用加细分划的极限过程。

变量替换:若 \(\phi: [\alpha, \beta] \to [a, b]\) 严格递增且可微,\(f \in \mathscr{R}[a, b]\),则

\[\int_a^b f(x) \, dx = \int_\alpha^\beta f(\phi(t)) \phi'(t) \, dt\]

证明思路:设 \(F(x) = \int_a^x f(u) \, du\)。由 FTC,\(F' = f\)(在 \(f\) 连续点处)。令 \(G(t) = F(\phi(t))\),由链式法则 \(G'(t) = f(\phi(t)) \phi'(t)\)。再由 FTC Part II,\(\int_\alpha^\beta G'(t) \, dt = G(\beta) - G(\alpha) = F(b) - F(a) = \int_a^b f(x) \, dx\)\(\square\)

⚠️ 常见陷阱

💡 概念误区:认为"R-S 积分只是 Riemann 积分的微小推广"

R-S 积分的核心优势是:统一处理离散和连续的"权重"。当 \(\alpha\) 是阶梯函数(在 \(c_k\) 处跳跃 \(w_k\)),\(\int f \, d\alpha = \sum f(c_k) w_k\)——这就是离散求和。R-S 积分将求和与积分统一为同一个框架。

🧠 思维陷阱:认为"FTC 对所有可积函数成立"

FTC Part I 要求 \(f\)\(x_0\) 连续——如果 \(f\)\(x_0\) 不连续,\(F\)\(x_0\) 可能不可导。FTC Part II 要求 \(f = g'\) 连续——如果 \(g'\) 存在但不连续,需要更精细的分析(Lebesgue 积分的 FTC,见 §100)。

练习

  1. (推导题)设 \(\alpha\) 是阶梯函数,在 \(c_1, c_2, \ldots, c_m\) 处分别有跳跃量 \(w_1, \ldots, w_m\)。证明 \(\int_a^b f \, d\alpha = \sum_{k=1}^{m} f(c_k) w_k\)(假设 \(f\) 在跳跃点连续)。
  2. (证明题)推导 R-S 积分的分部积分公式。
  3. (开放思考题)对于 R-S 积分 \(\int_0^1 f \, d\alpha\),当 \(\alpha\) 是 Cantor 函数("魔鬼阶梯")时,积分有什么特殊行为?

§7 函数序列与级数 · 一致收敛 ⭐⭐

§2 研究了数列,§5-§6 研究了单个函数。本节将两者结合——研究函数序列的收敛性。一致收敛是将逐点分析提升为全局分析的关键概念。

7.1 逐点收敛 vs 一致收敛 ⭐

定义(逐点收敛):函数序列 \(\{f_n\}\) **逐点收敛**到 \(f\),是指对每个 \(x\)\(f_n(x) \to f(x)\)

\[\forall x,\; \forall \varepsilon > 0,\; \exists N(x, \varepsilon),\; n \geq N \Rightarrow |f_n(x) - f(x)| < \varepsilon\]

注意 \(N\) 可以依赖于 \(x\)

定义(一致收敛):\(\{f_n\}\) **一致收敛**到 \(f\)(记 \(f_n \rightrightarrows f\)),是指:

\[\forall \varepsilon > 0,\; \exists N(\varepsilon),\; \forall x,\; n \geq N \Rightarrow |f_n(x) - f(x)| < \varepsilon\]

\(N\) 不依赖于 \(x\)。等价刻画:\(\|f_n - f\|_\infty = \sup_x |f_n(x) - f(x)| \to 0\)

经典反例\(f_n(x) = x^n\)\([0, 1]\) 上。逐点极限为 \(f(x) = 0\)\(x < 1\)),\(f(1) = 1\)。每个 \(f_n\) 连续,但极限 \(f\) 不连续——这说明逐点收敛**不保持连续性**。\(\|f_n - f\|_\infty = \sup_{[0,1]} |x^n - f(x)| = 1\)(在 \(x\) 接近 \(1\) 处),因此收敛不一致。

类比:逐点收敛就像"每个学生各自通过考试"(每人有自己的准备时间),一致收敛就像"全班同时通过考试"(有统一的截止时间)。前者允许个别学生准备很久,后者要求所有人在同一时间点之后都合格。这个类比在"\(N\) 是否依赖于 \(x\)"的层面是精确的。

7.2 一致收敛的 Cauchy 准则 ⭐⭐

定理\(\{f_n\}\)\(E\) 上一致收敛 \(\Leftrightarrow\) \(\{f_n\}\)\(E\) 上一致 Cauchy:

\[\forall \varepsilon > 0,\; \exists N,\; \forall n, m \geq N,\; \sup_{x \in E} |f_n(x) - f_m(x)| < \varepsilon\]

证明\(\Rightarrow\):由一致收敛,\(\sup |f_n - f| \to 0\),故 \(\sup |f_n - f_m| \leq \sup |f_n - f| + \sup |f_m - f| \to 0\)

\(\Leftarrow\):对每个 \(x\)\(\{f_n(x)\}\)\(\mathbb{R}\) 中 Cauchy 列,由 \(\mathbb{R}\) 完备收敛到某个 \(f(x)\)。在 \(|f_n(x) - f_m(x)| < \varepsilon\)(对所有 \(x\)\(n, m \geq N\))中令 \(m \to \infty\),得 \(|f_n(x) - f(x)| \leq \varepsilon\)(对所有 \(x\)\(n \geq N\)),即一致收敛。\(\square\)

这个结果为 §16 中 \(C(X)\) 的完备性奠定基础。

7.3 一致收敛保持的性质 ⭐⭐

这三个定理是一致收敛理论的核心:

定理 1(保持连续性):\(f_n\) 连续,\(f_n \rightrightarrows f\) \(\Rightarrow\) \(f\) 连续。

证明\(\varepsilon/3\) 论证):对 \(\varepsilon > 0\),取 \(N\) 使 \(\sup |f_N - f| < \varepsilon/3\)\(f_N\)\(p\) 连续,取 \(\delta\) 使 \(d(x, p) < \delta \Rightarrow |f_N(x) - f_N(p)| < \varepsilon/3\)。则

\[|f(x) - f(p)| \leq |f(x) - f_N(x)| + |f_N(x) - f_N(p)| + |f_N(p) - f(p)| < 3 \cdot \frac{\varepsilon}{3} = \varepsilon\]

\(\square\)

定理 2(保持积分):\(f_n \in \mathscr{R}(\alpha)\)\(f_n \rightrightarrows f\) \(\Rightarrow\) \(f \in \mathscr{R}(\alpha)\)

\[\int_a^b f \, d\alpha = \lim_{n \to \infty} \int_a^b f_n \, d\alpha\]

即"极限与积分可交换"。

证明:由 \(\sup |f_n - f| \to 0\)\(|f(x) - f_n(x)| < \varepsilon\) 对所有 \(x\)\(n\) 足够大)。\(f\) 有界(\(f_n\) 有界 + 一致接近),且 \(f\) 的振幅控制在 \(f_n\) 的振幅加 \(2\varepsilon\) 以内——由此推出 \(f\) 可积。积分的估计:\(|\int f \, d\alpha - \int f_n \, d\alpha| \leq \int |f - f_n| \, d\alpha \leq \varepsilon \cdot (\alpha(b) - \alpha(a)) \to 0\)\(\square\)

定理 3(保持微分,带额外条件):设 \(f_n\)\((a, b)\) 上可导,\(f_n'\) 一致收敛到某函数 \(g\),且存在 \(x_0 \in (a, b)\) 使 \(\{f_n(x_0)\}\) 收敛。则 \(f_n\) 一致收敛到某 \(f\)\(f\) 可导且 \(f' = g\)

注意条件的微妙之处:不是 \(f_n\) 一致收敛就够,需要的是 \(f_n'\) 一致收敛

反事实推理:如果只要求 \(f_n \rightrightarrows f\) 而不要求 \(f_n' \rightrightarrows g\),能否交换极限和导数?不能。反例:\(f_n(x) = \frac{\sin(nx)}{\sqrt{n}}\) 一致收敛到 \(0\),但 \(f_n'(x) = \sqrt{n}\cos(nx)\) 在几乎所有点发散。

7.4 Weierstrass M-判别法 ⭐

定理:设 \(\{f_n\}\) 是定义在 \(E\) 上的函数序列,\(|f_n(x)| \leq M_n\) 对所有 \(x \in E\)。若 \(\sum M_n\) 收敛,则 \(\sum f_n\)\(E\) 上一致收敛(且绝对收敛)。

证明\(|\sum_{k=m}^{n} f_k(x)| \leq \sum_{k=m}^{n} M_k\)\(\sum M_n\) 收敛意味着右侧趋于 \(0\)(Cauchy),因此 \(\sum f_n\) 的部分和一致 Cauchy,由 §7.2 一致收敛。\(\square\)

应用:Weierstrass 处处连续无处可导函数

\[W(x) = \sum_{n=0}^{\infty} a^n \cos(b^n \pi x), \quad 0 < a < 1, \; b \text{ 为奇正整数}, \; ab > 1 + \frac{3\pi}{2}\]

\(|a^n \cos(b^n \pi x)| \leq a^n\)\(\sum a^n < \infty\),Weierstrass M-判别法保证 \(W\) 一致收敛,因此连续。但不可导的证明要精细得多——核心思想是高频项 \(\cos(b^n \pi x)\) 的振荡掩盖了低频项的贡献。

本质洞察:Weierstrass 函数打破了"连续函数应该'几乎处处'可导"的直觉。事实上,在某种测度论意义下,"大部分"连续函数都是处处不可导的——可导函数反而是例外。这个惊人的事实在 §100 测度论之后才能严格表述。

7.5 幂级数 ⭐

定理(Cauchy-Hadamard):幂级数 \(\sum a_n x^n\) 的收敛半径为

\[R = \frac{1}{\limsup_{n\to\infty} |a_n|^{1/n}}\]

(约定 \(1/0 = +\infty\)\(1/\infty = 0\)。)

\(|x| < R\) 内绝对收敛,\(|x| > R\) 发散。在 \([-r, r]\)\(0 < r < R\))上一致收敛。

Abel 定理:若 \(\sum a_n\) 收敛,则 \(\lim_{x \to 1^-} \sum a_n x^n = \sum a_n\)。这保证了幂级数在收敛区间端点的"连续延拓"——即便端点处的收敛可能只是条件收敛。

证明思路:设 \(f(x) = \sum a_n x^n\)\(|x| < 1\))。令 \(s = \sum a_n\)。需证 \(f(x) \to s\)\(x \to 1^-\))。利用 Abel 求和法:\(f(x) = (1-x) \sum_{n=0}^{\infty} S_n x^n\)(其中 \(S_n = \sum_{k=0}^{n} a_k\))。由 \(S_n \to s\)\((1-x) \sum S_n x^n \to s\)(Cesàro 求和的连续版本)。\(\square\)

经典应用\(\sum_{n=1}^{\infty} \frac{(-1)^{n+1}}{n} = \ln 2\)。这个等式的严格证明需要 Abel 定理——因为该级数只是条件收敛。在 \(|x| < 1\)\(\sum \frac{(-1)^{n+1}}{n} x^n = \ln(1+x)\)(逐项积分 \(\sum (-x)^n = \frac{1}{1+x}\)),由 Abel 定理令 \(x \to 1^-\) 得到等式。

逐项微分与积分:在收敛半径内,幂级数可逐项微分和积分,且微分/积分后的级数收敛半径不变。

具体而言:若 \(f(x) = \sum a_n x^n\)\(|x| < R\)),则 - \(f'(x) = \sum n a_n x^{n-1}\)\(|x| < R\)),收敛半径仍为 \(R\) - \(\int_0^x f(t) \, dt = \sum \frac{a_n}{n+1} x^{n+1}\)\(|x| < R\)),收敛半径仍为 \(R\)

这使得幂级数成为计算导数和积分的强大工具——将无穷求和与微积分操作"交换"。

7.6 实解析函数 vs \(C^\infty\) ⭐⭐

一个 \(C^\infty\)(光滑)函数是否一定等于它的 Taylor 级数?不一定。 这是实分析中最出人意料的现象之一。

反例\(f(x) = e^{-1/x^2}\)\(x \neq 0\)),\(f(0) = 0\)。可以证明 \(f^{(n)}(0) = 0\) 对所有 \(n\)——每次求导后,\(e^{-1/x^2}\) 衰减得比任何 \(x^k\) 都快。因此 \(f\)\(0\) 处的 Taylor 级数是 \(0 + 0 + 0 + \cdots = 0\),但 \(f\) 本身对 \(x \neq 0\) 不为零。

为什么会这样? Taylor 级数收敛到 \(f\) 需要余项 \(R_n(x) \to 0\)(当 \(n \to \infty\)),而这个条件可能在某些点不满足。对 \(e^{-1/x^2}\),虽然每个 Taylor 系数都是 \(0\),函数的"信息"全部隐藏在余项中。

定义:函数 \(f\)\(x_0\) 处**实解析(real analytic)**,如果在 \(x_0\) 的某邻域内 \(f\) 等于它的 Taylor 级数,即存在 \(r > 0\) 使得

\[f(x) = \sum_{n=0}^{\infty} \frac{f^{(n)}(x_0)}{n!}(x - x_0)^n, \quad |x - x_0| < r\]

连续性强弱链的延伸

\[\text{实解析} \subsetneq C^\infty \subsetneq \cdots \subsetneq C^2 \subsetneq C^1 \subsetneq C^0 = \text{连续}\]

每个包含关系都是严格的。\(e^{-1/x^2}\) 分离了实解析和 \(C^\infty\)

实解析和 \(C^\infty\) 的区分在 §9 Stone-Weierstrass 中变得重要——Stone-Weierstrass 定理说多项式可以一致逼近连续函数,但不等于它。在微分流形理论中,\(C^\infty\) 流形和实解析流形是不同的范畴。

有趣的事实:在复分析中,\(C^1\)(复可微)就意味着解析——不需要额外假设。这是实分析和复分析最深刻的区别之一。\(e^{-1/z^2}\)\(z = 0\) 有本性奇点,不是全纯的——复变量的情况完全不同。

⚠️ 常见陷阱

💡 概念误区:混淆"逐点收敛"和"一致收敛"

两者的区别看似只是量词顺序的差别(\(\forall x, \exists N\) vs \(\exists N, \forall x\)),但后果天壤之别。逐点收敛不保持连续性、不保持积分——在分析学中几乎"无用"。一致收敛才是有力的工具。

🧠 思维陷阱:认为"幂级数在收敛圆上的行为统一"

幂级数在收敛半径 \(R\) 处的行为可以是:收敛、条件收敛、发散。例如 \(\sum x^n/n\)\(x = -1\) 收敛(交错级数),在 \(x = 1\) 发散(调和级数)。收敛圆上的行为需要逐个判断。

练习

  1. (证明题)证明一致收敛保持连续性的定理(定理 1),用序列定义替代 \(\varepsilon\)-\(\delta\) 语言重新写出证明。
  2. (推导题)计算 \(\sum_{n=1}^{\infty} \frac{x^n}{n}\) 的收敛半径和在端点的收敛性。在 \((-1, 1)\) 内,对该级数逐项微分得到什么?
  3. (开放思考题)Weierstrass M-判别法的条件能否弱化?即是否存在 \(\sum f_n\) 一致收敛但不满足 M-判别法条件的例子?

§8 等度连续与 Arzelà-Ascoli 定理 ⭐⭐⭐

§7 研究了函数序列的收敛。本节回答一个更深的问题:什么条件下函数序列有收敛子列?这是函数空间中的"紧致性"。

8.1 动机:函数空间中的 Bolzano-Weierstrass

回顾 §1 的 BW 定理:\(\mathbb{R}^n\) 中有界序列有收敛子列。能否将此推广到函数空间 \(C([0, 1])\)

直接推广是**不成立的**——在无穷维空间中,有界不蕴含紧。这是有限维和无穷维空间最深刻的区别之一。

反例 1\(f_n(x) = \sin(nx)\)\(C([0, 1])\) 中有界(\(\|f_n\|_\infty = 1\)),但没有一致收敛的子列。证明:对 \(n \neq m\),取 \(x_0\) 使 \(\sin(nx_0) = 1\)\(\sin(mx_0) = -1\)(通过适当选取)——这给出 \(\|f_n - f_m\|_\infty \geq 2\)。实际上只需证明不存在 Cauchy 子列就够了。

反例 2\(f_n(x) = x^n\)\(C([0, 1])\) 中有界(\(\|f_n\|_\infty = 1\)),其逐点极限是不连续函数——因此没有任何子列在 \(C([0, 1])\) 中收敛(一致收敛保持连续性)。

为什么有界不够?\(\mathbb{R}^n\) 中,BW 定理的证明依赖于"逐坐标取子列"——有限维意味着有限步完成。在无穷维空间中,函数有"无穷多个自由度"——单纯的有界性无法控制所有自由度。

需要额外条件——**等度连续性**就是缺失的那块拼图。它控制的恰恰是"不同点处的函数值不能变化太快"——限制了函数的"自由度"。

8.2 等度连续性 ⭐⭐

定义:函数族 \(\mathcal{F} \subseteq C(X, Y)\)\(p \in X\) 等度连续,是指:

\[\forall \varepsilon > 0,\; \exists \delta > 0,\; \forall f \in \mathcal{F},\; d_X(x, p) < \delta \Rightarrow d_Y(f(x), f(p)) < \varepsilon\]

关键:\(\delta\) 不依赖于 \(f\)——整个函数族共享同一个 \(\delta\)

类比:如果每个函数的连续性像"每个人各自的步速",那么等度连续就是"全队的最低步速保证"——整个团队都能以统一的精度响应输入变化。这个类比在"\(\delta\) 的统一性"层面准确,但注意等度连续不要求函数值相近(那是逐点有界)。

8.3 Arzelà-Ascoli 定理 ⭐⭐⭐

定理(Arzelà-Ascoli):设 \((X, d)\) 是紧致度量空间,\(\mathcal{F} \subseteq C(X, \mathbb{R})\)。则 \(\mathcal{F}\)\((C(X), \|\cdot\|_\infty)\) 中**相对紧**(即 \(\overline{\mathcal{F}}\) 紧,等价于每个序列有一致收敛的子列)当且仅当: 1. 逐点有界:对每个 \(x \in X\)\(\{f(x) : f \in \mathcal{F}\}\) 有界 2. 等度连续

证明(充分性,即条件 \(\Rightarrow\) 相对紧):

Step 1\(X\) 紧致度量空间有**可数稠密子集** \(\{x_k\}_{k=1}^{\infty}\)(可分性)。

Step 2(Cantor 对角线法):设 \(\{f_n\}\)\(\mathcal{F}\) 中的序列。在 \(x_1\) 处,\(\{f_n(x_1)\}\) 有界,由 BW 取收敛子列 \(\{f_{n_k^{(1)}}\}\) 使 \(f_{n_k^{(1)}}(x_1)\) 收敛。在 \(x_2\) 处,从 \(\{f_{n_k^{(1)}}\}\) 中再取子列使其在 \(x_2\) 也收敛。如此继续。取"对角线"子列 \(g_k = f_{n_k^{(k)}}\)——它在每个 \(x_j\) 上都收敛。

Step 3(等度连续 + 稠密性 \(\Rightarrow\) 一致收敛):对 \(\varepsilon > 0\),由等度连续取 \(\delta\) 使 \(d(x, y) < \delta \Rightarrow |f(x) - f(y)| < \varepsilon/3\) 对所有 \(f \in \mathcal{F}\)\(X\) 紧,取有限个 \(\delta\)-球覆盖 \(X\),球心在 \(\{x_k\}\) 中选取,设为 \(x_{k_1}, \ldots, x_{k_m}\)\(\{g_n\}\) 在这有限个点上收敛,取 \(N\) 使 \(n, p \geq N \Rightarrow |g_n(x_{k_j}) - g_p(x_{k_j})| < \varepsilon/3\) 对所有 \(j\)。对任意 \(x \in X\),取 \(x_{k_j}\) 使 \(d(x, x_{k_j}) < \delta\)

\[|g_n(x) - g_p(x)| \leq |g_n(x) - g_n(x_{k_j})| + |g_n(x_{k_j}) - g_p(x_{k_j})| + |g_p(x_{k_j}) - g_p(x)| < 3 \cdot \frac{\varepsilon}{3} = \varepsilon\]

因此 \(\{g_n\}\) 一致 Cauchy,由 §7.2 一致收敛。\(\square\)

阶段小结:Arzelà-Ascoli 定理是无穷维空间中 BW 定理的正确推广。有界性需要替换为"逐点有界 + 等度连续"——前者控制"函数值不会跑太远",后者控制"函数不会振荡太快"。

工程桥接:在最优控制中,一族满足 Lipschitz 界的容许控制所对应的状态轨迹——由 Arzelà-Ascoli 定理——在 \(C([0,T], \mathbb{R}^n)\) 中预紧。这保证了最优轨迹的存在(取子列极限),是 Pontryagin 最大值原理的前置工具。

⚠️ 常见陷阱

💡 概念误区:认为"逐点有界就够了"

逐点有界但不等度连续的函数族可以没有收敛子列——前面的 \(\sin(nx)\) 例子就是如此。等度连续是不可省略的条件。

🧠 思维陷阱:混淆"等度连续"和"一致连续"

一致连续是单个函数的性质(\(\delta\) 不依赖于 \(x\)),等度连续是函数族的性质(\(\delta\) 不依赖于 \(f\))。一个函数一致连续不意味着包含它的函数族等度连续。

练习

  1. (证明题)证明 Arzelà-Ascoli 定理的必要性:如果 \(\mathcal{F}\) 相对紧,则 \(\mathcal{F}\) 逐点有界且等度连续。
  2. (推导题)设 \(K\) 是紧度量空间上的连续核函数,定义积分算子 \(Tf(x) = \int K(x, y) f(y) \, dy\)。用 Arzelà-Ascoli 定理证明 \(T\) 将有界集映到相对紧集。

§9 Stone-Weierstrass 定理 ⭐⭐⭐

§8 回答了"何时有收敛子列",本节回答"何种函数能被逼近"——逼近理论的核心。

9.1 动机与 Weierstrass 逼近定理 ⭐⭐

经典问题:连续函数能被更"简单"的函数一致逼近吗?

这个问题不仅有理论价值,也有深刻的实际意义。在工程中,我们经常需要用有限参数的函数族(多项式、三角函数、神经网络)来逼近复杂的连续函数。Weierstrass 定理保证这种逼近是可行的。

定理(Weierstrass,1885):\([a, b]\) 上的连续函数可被多项式一致逼近。即对任意 \(f \in C([a, b])\)\(\varepsilon > 0\),存在多项式 \(p\) 使 \(\|f - p\|_\infty < \varepsilon\)

历史背景:Weierstrass 在 1885 年发表了这个定理,当时证明使用了卷积方法。后来 Bernstein 在 1912 年给出了一个概率论风格的构造性证明。

构造性证明(Bernstein 多项式):定义

\[B_n(f, x) = \sum_{k=0}^{n} f\left(\frac{k}{n}\right) \binom{n}{k} x^k (1-x)^{n-k}\]

可以证明 \(B_n(f, x) \rightrightarrows f(x)\)\([0, 1]\) 上。证明的关键步骤:

  1. \(\sum_{k=0}^{n} \binom{n}{k} x^k(1-x)^{n-k} = 1\)(二项式定理)
  2. \(\sum_{k=0}^{n} (k/n - x)^2 \binom{n}{k} x^k(1-x)^{n-k} = \frac{x(1-x)}{n} \leq \frac{1}{4n}\)(二项分布方差)
  3. \(\varepsilon > 0\),由 \(f\) 一致连续取 \(\delta\)。将求和分为 \(|k/n - x| < \delta\)\(|k/n - x| \geq \delta\) 两部分——前者由 \(f\) 的一致连续性控制,后者由方差趋于 \(0\) 控制。

类比:Bernstein 多项式可以理解为"概率采样"——在 \([0, 1]\) 上做 \(n\) 次独立的 Bernoulli 试验(成功概率 \(x\)),成功 \(k\) 次的概率就是 \(\binom{n}{k}x^k(1-x)^{n-k}\)\(B_n(f, x)\) 就是 \(f(k/n)\) 关于这个概率的期望。大数定律保证 \(k/n \to x\),因此 \(B_n(f, x) \to f(x)\)。这个类比在概率视角下是精确的,但注意一致收敛的证明需要更定量的估计(不仅仅是"大数定律"的逐点版本)。

9.2 Stone-Weierstrass 定理 ⭐⭐⭐

Stone(1937)认识到 Weierstrass 定理的本质不在于多项式的特殊性,而在于多项式构成的**代数**的性质。

定义\(A \subseteq C(X, \mathbb{R})\) 是**子代数**,如果对加法、标量乘法和函数乘法封闭。\(A\) 分离点,如果对任意 \(x \neq y\),存在 \(f \in A\) 使 \(f(x) \neq f(y)\)

定理(Stone-Weierstrass,实代数版本):\(X\) 紧 Hausdorff 空间,\(A \subseteq C(X, \mathbb{R})\) 是子代数。若 \(A\) 含常数函数且分离 \(X\) 的点,则 \(A\)\(C(X, \mathbb{R})\) 中稠密(关于 \(\|\cdot\|_\infty\))。

证明要点

引理 1\(|t|\)\([-M, M]\) 可被多项式一致逼近。(利用 \(\sqrt{t^2} = |t|\),从 \(\sqrt{1-u}\) 的 Taylor 级数在 \([0, 1]\) 上一致收敛出发。)

引理 2\(A\) 的一致闭包 \(\overline{A}\)\(\max\)\(\min\) 封闭。(因为 \(\max(f, g) = \frac{f+g+|f-g|}{2}\)\(|f-g|\) 可被 \(A\) 中多项式逼近。)

引理 3:分离点 + 含常数 \(\Rightarrow\) 对任意 \(x \neq y\)\(\alpha, \beta \in \mathbb{R}\),存在 \(f \in \overline{A}\) 使 \(f(x) = \alpha, f(y) = \beta\)。(由分离性和仿射变换。)

主证明:对 \(g \in C(X)\)\(\varepsilon > 0\)。对每对点 \(s, t \in X\),由引理 3 取 \(f_{s,t} \in \overline{A}\) 使 \(f_{s,t}(s) = g(s)\)\(f_{s,t}(t) = g(t)\)。固定 \(s\),用 \(\min\) 操作将不同 \(t\) 对应的函数"压低"到 \(g + \varepsilon\) 以下;然后用 \(\max\) 操作将不同 \(s\) 对应的函数"抬高"到 \(g - \varepsilon\) 以上。紧致性保证有限步完成。最终得到 \(\|h - g\|_\infty < \varepsilon\)\(h \in \overline{A}\)\(\square\)

本质洞察:Stone-Weierstrass 定理的深层含义是——在紧空间上,能分离点的代数已经"足够丰富"以逼近任意连续函数。这不需要代数的元素是多项式——它们可以是三角函数、指数函数、甚至神经网络的激活函数。

工程桥接:神经网络的通用逼近定理(Cybenko 1989, Hornik 1991)可以视为 Stone-Weierstrass 的现代版本——单隐层 ReLU 网络在紧集上一致逼近连续函数。多项式样条(B-spline, Bézier)在机器人轨迹参数化中的使用,其理论根源也在于 Weierstrass 逼近。

⚠️ 常见陷阱

💡 概念误区:认为"Stone-Weierstrass 对复值函数也成立"

复代数版本需要额外的"共轭闭"条件(即 \(f \in A \Rightarrow \bar{f} \in A\))。没有此条件的反例:全纯多项式代数在圆盘边界的连续函数空间中不稠密(因为全纯函数在边界的值满足 Cauchy 积分公式的约束)。

🧠 思维陷阱:认为"逼近意味着相等"

多项式可以一致逼近连续函数,但(一般地)不等于它。\(e^x\) 不是多项式,但可被多项式任意精确地逼近。逼近是"无穷精度的近似",不是"严格相等"。

练习

  1. (证明题)用 Stone-Weierstrass 定理证明:\([0, 2\pi]\) 上的连续周期函数可被三角多项式一致逼近。
  2. (开放思考题)Stone-Weierstrass 定理要求 \(X\) 紧。在非紧空间上能得到什么样的逼近结果?

§10 压缩映射原理 ⭐⭐

§8 和 §9 讨论了函数空间的紧致性和逼近。本节引入一个完全不同但极其强大的工具——压缩映射原理——它在存在唯一性证明中扮演核心角色。

10.1 动机:从迭代到不动点

**不动点问题**是数学中最基本的问题框架之一——找 \(x\) 使 \(T(x) = x\)。许多看似不同的问题都可以归结为不动点问题:

  • 方程求根\(f(x) = 0\) 可改写为 \(x = x - \alpha f(x) = T(x)\)(适当选择 \(\alpha\)
  • ODE 初值问题\(\dot{x} = f(t, x), x(0) = x_0\) 等价于积分方程 \(x(t) = x_0 + \int_0^t f(s, x(s)) ds = T[x](t)\)
  • 最优控制:Bellman 方程 \(V = \mathcal{T}V\) 的解是值函数——动态规划的核心
  • 博弈论:Nash 均衡是最佳响应映射的不动点
  • 经济学:一般均衡是超额需求映射的零点(等价于不动点问题)

如果 \(T\) 是"压缩的"——每次迭代让点更近——那么迭代序列 \(x, T(x), T^2(x), \ldots\) 将收敛到唯一的不动点。这个思想如此强大,以至于 Banach(1922)的压缩映射原理被认为是 20 世纪函数分析中影响最深远的单一定理之一。

10.2 Banach 压缩映射原理 ⭐⭐

定理(Banach 不动点定理,1922):设 \((X, d)\) 是完备度量空间,\(T: X \to X\) 是压缩映射,即存在 \(0 \leq k < 1\) 使得

\[d(T(x), T(y)) \leq k \cdot d(x, y), \quad \forall x, y \in X\]

\(T\) 有唯一不动点 \(x^*\),且对任意初始点 \(x_0 \in X\),迭代序列 \(x_n = T(x_{n-1})\) 满足 \(x_n \to x^*\),收敛速率为

\[d(x_n, x^*) \leq \frac{k^n}{1 - k} d(x_0, T(x_0))\]

证明(完整):

存在性:构造 \(x_n = T(x_{n-1})\)。估计相邻项的距离:

\[d(x_{n+1}, x_n) = d(T(x_n), T(x_{n-1})) \leq k \cdot d(x_n, x_{n-1}) \leq \cdots \leq k^n \cdot d(x_1, x_0)\]

\(n > m\)

\[d(x_n, x_m) \leq \sum_{j=m}^{n-1} d(x_{j+1}, x_j) \leq d(x_1, x_0) \sum_{j=m}^{n-1} k^j \leq \frac{k^m}{1-k} d(x_1, x_0) \to 0\]

因此 \(\{x_n\}\) 是 Cauchy 列。\(X\) 完备,\(x_n \to x^*\)

\(x^*\) 是不动点\(d(T(x^*), x^*) \leq d(T(x^*), T(x_n)) + d(x_{n+1}, x^*) \leq k \cdot d(x^*, x_n) + d(x_{n+1}, x^*) \to 0\)

唯一性:若 \(y^*\) 也是不动点,\(d(x^*, y^*) = d(T(x^*), T(y^*)) \leq k \cdot d(x^*, y^*)\)。由 \(k < 1\),必须 \(d(x^*, y^*) = 0\),即 \(x^* = y^*\)

收敛速率:在 \(d(x_n, x_m) \leq \frac{k^m}{1-k} d(x_1, x_0)\) 中令 \(n \to \infty\)\(d(x_m, x^*) \leq \frac{k^m}{1-k} d(x_1, x_0)\)\(\square\)

本质洞察:压缩映射原理的力量在于它同时给出三样东西:存在性(不动点存在)、唯一性(不动点唯一)、收敛速率(迭代多快到达)。大部分存在性定理只给前两者。收敛速率 \(k^n\)(指数衰减)使得该定理在数值计算中极其实用。

10.3 参数化版本 ⭐⭐⭐

定理:设 \(T(x, \lambda)\) 对参数 \(\lambda\) 连续,且对每个 \(\lambda\)\(x \mapsto T(x, \lambda)\) 是压缩映射(压缩系数 \(k\) 统一)。则不动点 \(x^*(\lambda)\)\(\lambda\) 连续。

证明思路\(d(x^*(\lambda_1), x^*(\lambda_2)) = d(T(x^*(\lambda_1), \lambda_1), T(x^*(\lambda_2), \lambda_2))\)。加减 \(T(x^*(\lambda_1), \lambda_2)\),利用压缩性和 \(T\)\(\lambda\) 的连续性得到

\[d(x^*(\lambda_1), x^*(\lambda_2)) \leq \frac{1}{1-k} d(T(x^*(\lambda_1), \lambda_1), T(x^*(\lambda_1), \lambda_2))\]

右侧由 \(T\)\(\lambda\) 的连续性趋于 \(0\)\(\square\)

这个参数化版本是 §12 反函数定理证明的关键准备。

10.4 应用预览:ODE 存在唯一性 ⭐⭐

Picard-Lindelöf 定理框架:考虑初值问题

\[\dot{x} = f(t, x), \quad x(t_0) = x_0\]

其中 \(f\) 关于 \(x\) 满足 Lipschitz 条件 \(|f(t, x) - f(t, y)| \leq L|x - y|\)

关键思想:将 ODE 转化为积分方程。\(x(t)\) 是解当且仅当

\[x(t) = x_0 + \int_{t_0}^{t} f(s, x(s)) \, ds\]

定义 Picard 算子 \(T[\phi](t) = x_0 + \int_{t_0}^{t} f(s, \phi(s)) \, ds\),作用在 \(C([t_0 - \delta, t_0 + \delta], \mathbb{R}^n)\) 上(配 sup 范数)。ODE 的解就是 \(T\) 的不动点。

\(T\) 的压缩性

\[\|T[\phi] - T[\psi]\|_\infty = \sup_t \left|\int_{t_0}^{t} [f(s, \phi(s)) - f(s, \psi(s))] \, ds\right| \leq L\delta \cdot \|\phi - \psi\|_\infty\]

\(\delta < 1/L\) 时,\(L\delta < 1\)\(T\) 是压缩映射。由 Banach 定理,\(T\) 有唯一不动点——即 ODE 在 \([t_0 - \delta, t_0 + \delta]\) 上有唯一解。

**Picard 迭代**就是压缩映射的迭代:\(\phi_0(t) = x_0\)\(\phi_{n+1} = T[\phi_n]\)。显式写出前几步:

\[\phi_1(t) = x_0 + \int_{t_0}^{t} f(s, x_0) \, ds\]
\[\phi_2(t) = x_0 + \int_{t_0}^{t} f(s, \phi_1(s)) \, ds\]

这些 Picard 迭代在数值方法中直接可用,收敛速率由压缩常数 \(L\delta\) 控制。

完整证明(包括最大存在区间的讨论)推迟到 §120(常微分方程),此处给出框架让读者看到压缩映射原理的威力。

10.5 Newton 迭代的局部收敛性 ⭐⭐⭐

另一个重要应用是 Newton 迭代法的局部收敛性分析。

考虑求解 \(F(x) = 0\)\(F: \mathbb{R}^n \to \mathbb{R}^n\)\(C^2\)),Newton 迭代为

\[x_{n+1} = x_n - [DF(x_n)]^{-1} F(x_n)\]

定义 \(T(x) = x - [DF(x)]^{-1}F(x)\),则 Newton 迭代就是 \(x_{n+1} = T(x_n)\)

关键计算\(DT(x) = I - [DF(x)]^{-1}DF(x) - D([DF(x)]^{-1}F(x)) = -[DF(x)]^{-1}D^2F(x)[\cdot, [DF(x)]^{-1}F(x)]\)。在解 \(x^*\)(即 \(F(x^*) = 0\))处,\(DT(x^*) = 0\)——这意味着 \(T\)\(x^*\) 附近的压缩常数趋于 \(0\),收敛速度是**二次的**(超线性),比一般压缩映射(线性收敛)快得多。

工程桥接:ICP 算法(Iterative Closest Point)用于点云配准——每步寻找最近点对并求最优刚体变换,本质上是压缩映射的迭代。Gauss-Newton 法在局部极小附近也具有压缩性质,这解释了它的快速收敛。SLAM 中 factor graph 优化的收敛性分析同样依赖压缩映射框架。

⚠️ 常见陷阱

💡 概念误区:认为"\(d(T(x), T(y)) < d(x, y)\)(严格不等式)就够了"

这个条件叫"非扩张映射",不保证不动点存在。反例:\(T(x) = x + \frac{1}{x}\)\((1, \infty)\) 上,虽然每步"拉近"了(\(|T(x) - T(y)| < |x-y|\) 对足够大的 \(x, y\)),但没有不动点。关键是需要**严格小于 \(1\) 的统一压缩常数 \(k\)**。

🧠 思维陷阱:认为"完备性条件可以去掉"

反例:\(T(x) = x/2\) 在不完备空间 \((0, 1) \cap \mathbb{Q}\) 上是压缩映射,不动点 \(0\) 不在空间中。完备性保证 Cauchy 列有极限,是不可省略的。

练习

  1. (证明题)证明参数化压缩映射定理:若 \(T\)\(\lambda\) 还可微,则 \(x^*(\lambda)\)\(\lambda\) 也可微。给出 \(\frac{dx^*}{d\lambda}\) 的公式。
  2. (推导题)用压缩映射原理证明:方程 \(x = \cos x\)\(\mathbb{R}\) 上有唯一解。估计从 \(x_0 = 0\) 出发迭代 10 次的误差上界。

§11 多变量微分学 · 总导数 ⭐⭐

§5 讨论了单变量微分。本节跨入多变量——核心概念是总导数(Fréchet 导数),它是"最佳线性逼近"。

11.1 动机:偏导数不等于可微 ⭐

在多变量微积分中,一个最危险的误解是"偏导数存在 \(\Rightarrow\) 可微"。

反例\(f(x, y) = \frac{xy^2}{x^2 + y^4}\)\((x, y) \neq (0, 0)\)),\(f(0, 0) = 0\)

所有方向导数在 \((0, 0)\) 存在:沿方向 \((a, b)\)\(\lim_{t \to 0} \frac{f(ta, tb)}{t} = \lim \frac{tab^2t^2}{t^2a^2 + t^4b^4} = \frac{ab^2}{a^2} = \frac{b^2}{a}\)\(a \neq 0\))。但 \(f\)\((0, 0)\) 甚至不连续——沿抛物线 \(x = y^2\) 趋近原点时 \(f = \frac{1}{2}\),沿 \(x\) 轴趋近时 \(f = 0\)

因此,偏导数存在(甚至所有方向导数存在)不保证可微。需要更强的条件。

11.2 Fréchet 可微(总导数) ⭐⭐

定义\(f: U \subseteq \mathbb{R}^n \to \mathbb{R}^m\)\(U\) 开),\(f\)\(a \in U\) 可微(Fréchet 可微),是指存在线性映射 \(L: \mathbb{R}^n \to \mathbb{R}^m\) 使得

\[\lim_{h \to 0} \frac{\|f(a + h) - f(a) - L(h)\|}{\|h\|} = 0\]

\(L\) 唯一,记为 \(Df(a)\),称为 \(f\)\(a\) 的**总导数**或 Fréchet 导数\(L\) 的矩阵表示就是 Jacobian 矩阵

\[J_f(a) = \begin{pmatrix} \frac{\partial f_1}{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_n} \end{pmatrix}_{(a)}\]

类比:总导数 \(Df(a)\) 就是函数在 \(a\) 处的"最佳线性逼近"——\(f(a + h) \approx f(a) + Df(a) \cdot h\)。一维时 \(Df(a) = f'(a)\),"线性映射"退化为"乘以一个数"。多维时,线性映射由矩阵表示。这个类比在"一阶近似"的层面是精确的。

11.3 可微的充分条件 ⭐⭐

定理:若 \(f\) 的所有偏导数在 \(a\) 的某邻域存在,且在 \(a\) 连续,则 \(f\)\(a\) 可微。

证明(以 \(n = 2, m = 1\) 为例,一般情况类似):设 \(h = (h_1, h_2)\)

\[f(a + h) - f(a) = [f(a_1 + h_1, a_2 + h_2) - f(a_1, a_2 + h_2)] + [f(a_1, a_2 + h_2) - f(a_1, a_2)]\]

对第一项用中值定理(关于 \(x_1\)):\(= \frac{\partial f}{\partial x_1}(\xi_1, a_2 + h_2) \cdot h_1\),其中 \(\xi_1\)\(a_1\)\(a_1 + h_1\) 之间。

对第二项用中值定理(关于 \(x_2\)):\(= \frac{\partial f}{\partial x_2}(a_1, \xi_2) \cdot h_2\)

由偏导数在 \(a\) 连续,\(\frac{\partial f}{\partial x_1}(\xi_1, a_2 + h_2) = \frac{\partial f}{\partial x_1}(a) + o(1)\),类似地第二项。因此

\[f(a+h) - f(a) = \frac{\partial f}{\partial x_1}(a) h_1 + \frac{\partial f}{\partial x_2}(a) h_2 + o(\|h\|)\]

这正是可微的定义(\(L(h) = \nabla f(a) \cdot h\))。\(\square\)

11.4 链式法则 ⭐⭐

定理:若 \(f\)\(a\) 可微,\(g\)\(f(a)\) 可微,则 \(g \circ f\)\(a\) 可微且

\[D(g \circ f)(a) = Dg(f(a)) \cdot Df(a)\]

这里 \(\cdot\) 是线性映射的复合(矩阵乘法)。

证明:设 \(Df(a) = A\)\(Dg(f(a)) = B\)。对 \(\varepsilon > 0\),取 \(\delta_1\) 使 \(\|g(f(a)+k) - g(f(a)) - Bk\| \leq \varepsilon\|k\|\)\(\|k\| < \delta_1\)),取 \(\delta_2\) 使 \(\|f(a+h) - f(a) - Ah\| \leq \varepsilon\|h\|\)\(\|h\| < \delta_2\))。设 \(k = f(a+h) - f(a)\),则 \(\|k\| \leq (\|A\| + \varepsilon)\|h\|\)\(\|h\|\) 足够小)。

\[g(f(a+h)) - g(f(a)) - BA \cdot h = [g(f(a)+k) - g(f(a)) - Bk] + B[k - Ah]\]

第一项 \(\leq \varepsilon\|k\| \leq \varepsilon(\|A\|+\varepsilon)\|h\|\)。第二项 \(\leq \|B\| \cdot \varepsilon\|h\|\)。总共 \(= O(\varepsilon)\|h\|\)\(\square\)

11.5 Jacobian 矩阵与梯度 ⭐

对实值函数 \(f: \mathbb{R}^n \to \mathbb{R}\)\(Df(a)\)\(1 \times n\) 行向量,即梯度的转置 \(\nabla f(a)^T\)。方向导数为 \(D_v f(a) = \nabla f(a) \cdot v = \|\nabla f(a)\| \cos\theta\),其中 \(\theta\)\(\nabla f(a)\)\(v\) 的夹角。

几何意义\(\nabla f(a)\) 指向 \(f\) 增长最快的方向(\(\cos\theta = 1\)),\(\|\nabla f(a)\|\) 是最大增长率,\(\nabla f(a)\) 垂直于等值面 \(\{x : f(x) = f(a)\}\)。这是梯度下降法 \(x_{n+1} = x_n - \alpha \nabla f(x_n)\) 的数学基础。

对一般映射 \(f: \mathbb{R}^n \to \mathbb{R}^m\),只有 \(n = m\) 时 Jacobian 矩阵是方阵,才有行列式 \(\det J_f(a)\)。其几何意义是体积变化率——在 §14 变量替换和 §12 反函数定理中扮演核心角色。

工程桥接:机器人正运动学 \(\text{FK}: \mathbb{R}^n \to SE(3)\) 将关节角映射到末端执行器位姿。其 Jacobian(几何 Jacobian 或分析 Jacobian)是机器人学中最核心的计算对象。奇异位形(\(\text{rank}(J) < \max\))对应 Jacobian 降秩的点——在那里反函数定理(§12)失效,逆运动学不再有唯一解。

⚠️ 常见陷阱

💡 概念误区:认为"偏导数存在就可微"

这是多变量微积分中最危险的误区。§11.1 的反例已经展示:所有偏导数甚至所有方向导数存在,函数仍然可以不连续——遑论可微。正确的充分条件是"偏导数存在且**连续**"(\(C^1\) 条件)。

🧠 思维陷阱:认为"Jacobian 矩阵就是导数"

更准确地说,导数 \(Df(a)\) 是**线性映射**,Jacobian 矩阵是这个线性映射在标准基下的**矩阵表示**。换基后矩阵会变,但线性映射不变。这个区分在微分流形上变得重要——流形上没有标准基。

练习

  1. (证明题)构造一个 \(f: \mathbb{R}^2 \to \mathbb{R}\),使得 \(f\) 在原点的所有方向导数存在,但 \(f\) 在原点不可微。
  2. (推导题)用 Fréchet 导数的定义直接证明:\(f(x) = \|x\|^2\)\(x \in \mathbb{R}^n\))在每点可微,计算 \(Df(a)\)

§12 反函数定理与隐函数定理 ⭐⭐

本节是 B1 的最高潮。两个定理是微分流形(Layer-1)的基石——没有它们,"子流形"和"坐标卡"的概念无法建立。

12.1 预备:算子范数与 \(GL(\mathbb{R}^n)\) 是开集 ⭐⭐

算子范数:对线性映射 \(L: \mathbb{R}^n \to \mathbb{R}^m\),定义

\[\|L\| = \sup_{\|x\| = 1} \|Lx\| = \sup_{x \neq 0} \frac{\|Lx\|}{\|x\|}\]

算子范数满足**次可乘性**:\(\|AB\| \leq \|A\| \cdot \|B\|\)。这是一个重要的不等式,使得 \(\text{Mat}(n)\) 成为 Banach 代数。

Neumann 级数:若 \(\|C\| < 1\),则 \(I - C\) 可逆且

\[(I - C)^{-1} = \sum_{k=0}^{\infty} C^k\]

证明\(\sum \|C^k\| \leq \sum \|C\|^k = \frac{1}{1-\|C\|} < \infty\)(几何级数)。设 \(S_N = \sum_{k=0}^{N} C^k\),则 \((I-C)S_N = I - C^{N+1}\)\(\|C^{N+1}\| \leq \|C\|^{N+1} \to 0\)。取极限得 \((I-C) \cdot \sum C^k = I\)\(\square\)

这个结果是矩阵分析中的基本工具。它的名字来源于与实数几何级数 \(\frac{1}{1-x} = \sum x^k\) 的类比——将实数换成算子,绝对值换成范数。

定义\(GL(\mathbb{R}^n)\)\(n \times n\) 可逆矩阵的集合(一般线性群)。

引理\(GL(\mathbb{R}^n)\)\(\text{Mat}(n) \cong \mathbb{R}^{n^2}\) 中是开集。

证明:设 \(A \in GL(\mathbb{R}^n)\)\(\|B - A\| < \frac{1}{\|A^{-1}\|}\)。则 \(\|A^{-1}(B - A)\| \leq \|A^{-1}\| \cdot \|B - A\| < 1\),因此 \(A^{-1}B = I - (-(A^{-1}(B-A))) = I - C\)\(\|C\| < 1\))可逆(由 Neumann 级数),从而 \(B = A \cdot (A^{-1}B)\) 可逆。\(\square\)

推论 1:映射 \(\text{Inv}: A \mapsto A^{-1}\)\(GL(\mathbb{R}^n)\) 上连续。实际上 \(\text{Inv}\)\(C^\infty\) 的,因为 \(A^{-1} = \frac{1}{\det A} \text{adj}(A)\),而行列式和伴随矩阵都是矩阵元素的多项式。

推论 2\(\|A^{-1} - B^{-1}\| = \|A^{-1}(B-A)B^{-1}\| \leq \|A^{-1}\| \cdot \|A - B\| \cdot \|B^{-1}\|\)。这给出了矩阵逆的**Lipschitz 估计**,在反函数定理的证明中会用到。

12.2 反函数定理 ⭐⭐

定理(反函数定理,Inverse Function Theorem):设 \(f \in C^1(U, \mathbb{R}^n)\)\(U \subseteq \mathbb{R}^n\) 开),\(a \in U\)\(Df(a)\) 可逆。则存在 \(a\) 的开邻域 \(V\)\(f(a)\) 的开邻域 \(W\),使得 \(f: V \to W\)\(C^1\) 微分同胚。且

\[D(f^{-1})(f(x)) = [Df(x)]^{-1}\]

证明(完整,按 Rudin 9.24 路径,四步):

Step 1(归约):不失一般性,设 \(a = 0, f(0) = 0, Df(0) = I\)。(否则用 \(g(x) = [Df(a)]^{-1}(f(a + x) - f(a))\) 替换。)

Step 2(构造压缩映射):对 \(y \in \mathbb{R}^n\),定义 \(\varphi_y(x) = x + y - f(x)\)。则 \(D\varphi_y(x) = I - Df(x)\)

\(Df(0) = I\)\(Df\) 连续,取 \(r > 0\) 使在 \(\overline{B}(0, r)\)\(\|I - Df(x)\| \leq \frac{1}{2}\)

由中值定理不等式:\(\|\varphi_y(x_1) - \varphi_y(x_2)\| \leq \frac{1}{2}\|x_1 - x_2\|\)

\(\varphi_y\)\(\overline{B}(0, r)\) 映入自身(当 \(\|y\|\) 足够小时):\(\|\varphi_y(x)\| \leq \|\varphi_y(x) - \varphi_y(0)\| + \|\varphi_y(0)\| \leq \frac{1}{2}\|x\| + \|y\| \leq \frac{r}{2} + \|y\|\),取 \(\|y\| \leq \frac{r}{2}\)

Step 3(存在唯一性):由 §10 Banach 压缩映射原理,\(\varphi_y\)\(\overline{B}(0, r)\) 上有唯一不动点 \(x\)。不动点方程 \(x = x + y - f(x)\)\(f(x) = y\)。因此 \(x = f^{-1}(y)\) 存在且唯一。

Step 4(\(f^{-1}\)\(C^1\) 性)

首先 \(f^{-1}\) 是 Lipschitz 的:\(\|f^{-1}(y_1) - f^{-1}(y_2)\| \leq 2\|y_1 - y_2\|\)(由压缩估计推导)。

然后 \(f^{-1}\) 可微:设 \(k = f^{-1}(y + l) - f^{-1}(y)\),则 \(l = f(x + k) - f(x) = Df(x) \cdot k + o(\|k\|)\)。由 \(\|k\| \leq 2\|l\|\)\(k = [Df(x)]^{-1} l + o(\|l\|)\),即 \(Df^{-1}(y) = [Df(x)]^{-1}\)

最后 \(f^{-1} \in C^1\)\(Df^{-1} = (\text{Inv}) \circ Df \circ f^{-1}\),其中 \(\text{Inv}: A \mapsto A^{-1}\) 连续(§12.1),\(Df\) 连续(\(f \in C^1\)),\(f^{-1}\) 连续(Lipschitz),复合连续。\(\square\)

阶段小结:反函数定理的证明汇聚了前面几乎所有工具——\(Df\) 连续(§11)、压缩映射原理(§10)、Neumann 级数(§12.1)、中值定理不等式。它是实分析的**集大成之作**。

12.3 隐函数定理 ⭐⭐

定理(隐函数定理,Implicit Function Theorem):设 \(F: \mathbb{R}^n \times \mathbb{R}^m \to \mathbb{R}^m\)\(C^1\) 映射,\(F(a, b) = 0\)\(\frac{\partial F}{\partial y}(a, b)\) 可逆。则存在 \(a\) 的邻域 \(U\)\(b\) 的邻域 \(V\),以及唯一的 \(C^1\) 函数 \(g: U \to V\) 使得 \(F(x, g(x)) = 0\) 对所有 \(x \in U\)。且

\[Dg(x) = -\left[\frac{\partial F}{\partial y}\right]^{-1} \cdot \frac{\partial F}{\partial x}\]

证明(从反函数定理导出):定义 \(\Phi(x, y) = (x, F(x, y))\)。则

\[D\Phi(a, b) = \begin{pmatrix} I_n & 0 \\ \frac{\partial F}{\partial x} & \frac{\partial F}{\partial y} \end{pmatrix}\]

\(\frac{\partial F}{\partial y}(a, b)\) 可逆 \(\Rightarrow\) \(D\Phi(a, b)\) 可逆。由反函数定理,\(\Phi\)\((a, b)\) 附近有 \(C^1\) 逆。设 \(\Phi^{-1}(x, z) = (\alpha(x, z), \beta(x, z))\)。由 \(\Phi(\alpha, \beta) = (x, z)\) 的第一分量 \(\alpha = x\)。取 \(z = 0\)\(\Phi(x, \beta(x, 0)) = (x, F(x, \beta(x, 0))) = (x, 0)\),故 \(F(x, \beta(x, 0)) = 0\)。令 \(g(x) = \beta(x, 0)\) 即可。

导数公式由对 \(F(x, g(x)) = 0\) 两边关于 \(x\) 求导(链式法则)得到。\(\square\)

本质洞察:隐函数定理的深层含义是——方程 \(F(x, y) = 0\) 定义的集合在非退化点附近是一个光滑子流形,而且可以局部参数化为函数 \(y = g(x)\) 的图像。这是微分流形理论的起点——流形不是嵌入空间中的全局函数图,而是到处"局部像函数图"。

工程桥接逆运动学的局部存在性——在非奇异位形 \(q_0\) 处,正运动学 FK 的 Jacobian 满秩,反函数定理保证逆运动学 \(\text{IK} = \text{FK}^{-1}\)\(p_0 = \text{FK}(q_0)\) 的邻域内 \(C^1\) 存在且唯一。在奇异位形处 Jacobian 降秩,反函数定理失效——此时逆运动学不再有唯一解,需要伪逆或其他正则化方法。

**隐函数定理**保证约束流形 \(\{q : h(q) = 0\}\)(如机器人关节约束)在非退化点附近是光滑子流形——这是 Layer-1 微分流形入口的关键。

⚠️ 常见陷阱

💡 概念误区:认为"反函数定理给出全局逆"

反函数定理只保证**局部**可逆——在 \(a\) 的某邻域内。\(f(x) = e^{ix}\)\(\mathbb{R} \to \mathbb{S}^1\))在每点局部可逆,但全局不可逆(不是单射)。全局可逆需要额外条件(如 Hadamard 全局反函数定理)。

🧠 思维陷阱:认为"隐函数定理的条件 \(\frac{\partial F}{\partial y}\) 可逆是技术性的"

这个条件有清晰的几何含义:它意味着在 \((a, b)\) 处,方程 \(F = 0\) 定义的集合在 \(y\) 方向上"不平行"——可以把 \(y\) 表达为 \(x\) 的函数。如果 \(\frac{\partial F}{\partial y}\) 不可逆(退化点),集合可能有"折叠"或"分叉"——如 \(y^2 = x\) 在原点处。

练习

  1. (证明题)用反函数定理证明:\(f(x) = x + \varepsilon \sin x\)\(|\varepsilon| < 1\))在 \(\mathbb{R}\) 上是 \(C^1\) 微分同胚。
  2. (推导题)设 \(F(x, y) = x^2 + y^2 - 1\)。在 \((x_0, y_0) = (\frac{1}{2}, \frac{\sqrt{3}}{2})\) 处应用隐函数定理,求出 \(g'(x_0)\)(其中 \(y = g(x)\) 是局部定义的隐函数)。
  3. (跨章综合题)结合 §10 压缩映射原理和 §12 反函数定理:设 \(f \in C^1(\mathbb{R}^n, \mathbb{R}^n)\)\(\|Df(x) - I\| \leq k < 1\) 对所有 \(x\)。证明 \(f\) 是全局 \(C^1\) 微分同胚(提示:先用压缩映射证明满射,再用局部反函数定理证明局部单射,最后组合)。

§13 高阶导数、Taylor 展开与临界点分类 ⭐⭐

§11-§12 建立了一阶微分的完整理论。本节向高阶推进,为优化理论奠基。

13.1 高阶 Fréchet 导数 ⭐⭐

\(f\) 的一阶导数 \(Df\) 是从 \(U\)\(L(\mathbb{R}^n, \mathbb{R}^m)\) 的映射。如果 \(Df\) 本身可微,其导数 \(D^2f(a) \in L(\mathbb{R}^n, L(\mathbb{R}^n, \mathbb{R}^m))\)——这是一个**双线性映射**。

Schwarz 定理(混合偏导数交换):若 \(f \in C^2\),则 \(\frac{\partial^2 f}{\partial x_i \partial x_j} = \frac{\partial^2 f}{\partial x_j \partial x_i}\)

证明(利用中值定理):考虑 \(\Delta = f(a+h+k) - f(a+h) - f(a+k) + f(a)\)\(h = (h_1, 0, \ldots, 0)\)\(k = (0, k_2, 0, \ldots, 0)\))。对 \(x_1\) 方向用 MVT 两次,再对 \(x_2\) 方向用 MVT,可以将 \(\Delta\) 表示为混合偏导数的值乘以 \(h_1 k_2\)。由两种顺序得到的表达式都等于 \(\Delta\),取极限后偏导数相等。\(\square\)

13.2 多变量 Taylor 定理 ⭐⭐

定理\(f \in C^{k+1}(U, \mathbb{R})\)\(a \in U\)。对 \(a + h \in U\)

\[f(a + h) = \sum_{|\alpha| \leq k} \frac{D^\alpha f(a)}{\alpha!} h^\alpha + R_k(h)\]

其中 \(\alpha = (\alpha_1, \ldots, \alpha_n)\) 是多重指标,\(|\alpha| = \alpha_1 + \cdots + \alpha_n\)\(\alpha! = \alpha_1! \cdots \alpha_n!\)\(h^\alpha = h_1^{\alpha_1} \cdots h_n^{\alpha_n}\)

余项 \(R_k(h) = O(\|h\|^{k+1})\)

证明(归约到单变量):令 \(g(t) = f(a + th)\)\(g\)\([0, 1]\) 上的单变量函数。对 \(g\) 用单变量 Taylor 定理(§5.4),展开后用链式法则将 \(g^{(j)}(0)\) 化为 \(f\) 的多重偏导数。\(\square\)

13.3 临界点二阶分类 ⭐⭐

定义\(a\)\(f: U \subseteq \mathbb{R}^n \to \mathbb{R}\) 的**临界点**,如果 \(Df(a) = 0\)(即 \(\nabla f(a) = 0\))。

Hessian 矩阵\(H(a) = D^2 f(a) = \left(\frac{\partial^2 f}{\partial x_i \partial x_j}(a)\right)_{n \times n}\)

二阶充分条件: - \(H(a)\) 正定 \(\Rightarrow\) \(a\) 是严格局部极小 - \(H(a)\) 负定 \(\Rightarrow\) \(a\) 是严格局部极大 - \(H(a)\) 不定(有正有负特征值) \(\Rightarrow\) \(a\) 是鞍点 - \(H(a)\) 半定 \(\Rightarrow\) 不确定,需要高阶分析

证明(正定情况):由 Taylor 展开,\(f(a + h) - f(a) = \frac{1}{2} h^T H(a) h + o(\|h\|^2)\)\(H(a)\) 正定意味着 \(h^T H(a) h \geq \lambda_{\min} \|h\|^2\)\(\lambda_{\min} > 0\)\(H\) 的最小特征值)。对足够小的 \(\|h\|\),高阶项 \(|o(\|h\|^2)| < \frac{\lambda_{\min}}{2}\|h\|^2\),因此 \(f(a+h) - f(a) > 0\)\(\square\)

工程桥接:非线性优化(如轨迹优化)中,判断临界点是极小还是鞍点正是用 Hessian 的正定性。在高维优化中(如神经网络训练),大部分临界点是鞍点而非极小——这是深度学习优化中的著名现象。

13.4 Morse 引理(预告 Layer-1) ⭐⭐⭐

定理(Morse 引理):设 \(f \in C^3\)\(a\)\(f\) 的非退化临界点(即 \(\nabla f(a) = 0\)\(H(a)\) 可逆)。则在 \(a\) 的某邻域内存在 \(C^1\) 坐标变换 \(u = u(x)\),使得

\[f(x) = f(a) + \sum_{i=1}^{n} \pm u_i^2\]

其中 \(+\)\(-\) 的个数由 \(H(a)\) 的惯性指数(Inertia Index)决定——即 \(H(a)\) 的正特征值个数 \(p\) 和负特征值个数 \(q\)\(p + q = n\),因为非退化意味着没有零特征值)。

意义:Morse 引理说明在非退化临界点附近,函数的形状完全由 Hessian 的符号结构决定——高阶项可以通过坐标变换"消除"。这意味着非退化临界点只有有限种"类型":

维度 \(n\) 类型 \((p, q)\) 几何形状
1 \((1, 0)\)\((0, 1)\) 极小或极大
2 \((2, 0)\) 极小(碗底)
2 \((1, 1)\) 鞍点(马鞍)
2 \((0, 2)\) 极大(碗顶翻转)

一维版本的证明思路\(f(x) = f(0) + \frac{1}{2}f''(0)x^2 + O(x^3) = f(0) + \frac{1}{2}f''(0)x^2(1 + O(x))\)。定义 \(u(x) = x\sqrt{|1 + O(x)|} \cdot \text{sgn}(\sqrt{f''(0)/2})\),则 \(f(x) = f(0) \pm u^2\)。关键是要验证 \(u(x)\)\(C^1\) 微分同胚,这利用了 \(f''(0) \neq 0\)

在优化中的应用:Morse 引理保证了非退化极小点是"稳定的"——小扰动不会改变它的局部拓扑结构。退化临界点(\(H(a)\) 奇异)可能在小扰动下"分裂"为多个非退化临界点——这就是**分岔理论**的起点。

完整证明在 Layer-1 微分流形中给出,它依赖于隐函数定理和 Sylvester 惯性定理。

⚠️ 常见陷阱

💡 概念误区:认为"Hessian 半正定就是极小"

\(f(x, y) = x^4 - y^4\) 在原点 \(\nabla f = 0\),Hessian 为零矩阵(半正定也半负定),但原点是鞍点。半定情况需要更高阶分析。

🧠 思维陷阱:在一维中 \(f''(a) = 0\) 时直接判定"不确定"

一维中 \(f''(a) = 0\) 确实不确定(如 \(x^3\)\(0\) 处),但 \(f(x) = x^4\)\(0\)\(f''(0) = 0\)\(0\) 是极小。需要更高阶导数。

练习

  1. (推导题)对 \(f(x, y) = x^3 - 3xy + y^3\),找出所有临界点并用 Hessian 分类。
  2. (证明题)证明 Morse 引理的一维版本:若 \(f \in C^3\)\(f'(0) = 0\)\(f''(0) \neq 0\),则在 \(0\) 附近存在 \(C^1\) 坐标变换 \(u = u(x)\) 使 \(f(x) = f(0) \pm u^2\)

§14 \(\mathbb{R}^n\) 中的 Riemann 积分与变量替换 ⭐⭐

§6 建立了单变量积分,本节推广到多变量。变量替换公式是其核心,也是流形上积分的原型。

14.1 矩形上的 Riemann 积分 ⭐

将 §6 的 Darboux 定义推广到 \(\mathbb{R}^n\)。对矩形 \(R = [a_1, b_1] \times \cdots \times [a_n, b_n]\),分划 \(P\) 将每个坐标方向独立切分,得到小矩形 \(R_j\)。定义

\[U(P, f) = \sum_j M_j |R_j|, \qquad L(P, f) = \sum_j m_j |R_j|\]

其中 \(M_j = \sup_{R_j} f\)\(m_j = \inf_{R_j} f\)\(|R_j|\) 是小矩形的 \(n\) 维体积。\(f\)\(R\) 上可积当且仅当 \(\sup_P L(P, f) = \inf_P U(P, f)\)

可积性判据:与一维类似,\(f\)\(R\) 上可积等价于 \(\forall \varepsilon > 0, \exists P, U(P,f) - L(P,f) < \varepsilon\)。连续函数在紧矩形上 Riemann 可积(证明与一维相同,利用一致连续性)。

14.2 Jordan 可测集与零测集 ⭐⭐

定义(Jordan 零测集):\(E \subseteq \mathbb{R}^n\) 是 Jordan 零测的,如果对任意 \(\varepsilon > 0\)\(E\) 可以被有限个矩形覆盖,且这些矩形的总体积 \(< \varepsilon\)

定义(Jordan 可测集):有界集 \(E\)Jordan 外测度 \(\overline{J}(E) = \inf\{\sum |R_j| : E \subseteq \bigcup R_j, \text{有限个矩形}\}\)Jordan 内测度 \(\underline{J}(E) = \sup\{\sum |R_j| : \bigcup R_j \subseteq E, \text{有限个矩形}\}\)\(E\) Jordan 可测当且仅当 \(\overline{J}(E) = \underline{J}(E)\),此公共值为 Jordan 测度 \(J(E)\)

一般区域 \(E\) 上的积分定义为 \(\int_E f = \int_R f \cdot \chi_E\),其中 \(\chi_E\)\(E\) 的特征函数,\(R \supseteq E\) 是包含矩形(需要 \(f \cdot \chi_E\) 可积)。

可积性与边界的关系\(E\) Jordan 可测 \(\Leftrightarrow\) \(\partial E\)(边界)是 Jordan 零测的。这解释了为什么光滑曲线围成的区域是 Jordan 可测的(边界是 \(C^1\) 曲线,有"零面积")。

关键区分:Jordan 零测集 \(\subseteq\) Lebesgue 零测集,但反向不成立。Jordan 可测集比 Lebesgue 可测集范围窄得多——例如 \(\mathbb{Q} \cap [0,1]\) 是 Lebesgue 零测的,但不是 Jordan 可测的(因为 \(\mathbb{Q} \cap [0,1]\) 的边界是 \([0,1]\) 本身,不是零测的)。完整的 Lebesgue 理论在 §100 中展开。

Lebesgue 可积判据(叙述,证明推迟到 §100):有界函数 \(f\) 在 Jordan 可测集 \(E\) 上 Riemann 可积 \(\Leftrightarrow\) \(f\) 的不连续点集是 Lebesgue 零测的。这是 Riemann 积分理论的顶峰结论,解释了"哪些函数可积"——答案是"不连续点很少(零测)的有界函数"。

14.3 Fubini 定理 ⭐⭐

定理(Fubini,Riemann 版本):\(f\) 在矩形 \(R = A \times B\) 上 Riemann 可积。则

\[\int_R f = \int_A \left(\int_B f(x, y) \, dy\right) dx = \int_B \left(\int_A f(x, y) \, dx\right) dy\]

前提是内层积分作为外层积分变量的函数是可积的。

注意:Riemann 版本的 Fubini 定理比 Lebesgue 版本限制更强——后者在 §100 中给出。Lebesgue 版本(Tonelli-Fubini)对非负可测函数总是成立的,不需要额外的可积性假设。

14.4 变量替换公式 ⭐⭐

定理\(\phi: U \to V\)\(\mathbb{R}^n\) 开集间的 \(C^1\) 微分同胚,\(f\)\(V\) 上可积。则

\[\int_V f(y) \, dy = \int_U f(\phi(x)) \cdot |\det D\phi(x)| \, dx\]

证明思路(Spivak 路径,四步):

Step 1(一维情形):这就是 §6.6 的变量替换公式——最基础的情况。

Step 2(基本变换):对三类基本变换直接验证: - 线性映射 \(\phi(x) = Ax\)\(\int_V f = \int_U (f \circ \phi) |\det A| \, dx\)(线性代数中行列式的体积解释) - 坐标置换 \(\phi(x_1, \ldots, x_n) = (x_{\sigma(1)}, \ldots, x_{\sigma(n)})\)\(|\det D\phi| = 1\)(置换矩阵的行列式为 \(\pm 1\)) - 剪切变换 \(\phi(x) = (x_1 + g(x_2, \ldots, x_n), x_2, \ldots, x_n)\)\(\det D\phi = 1\)

Step 3(局部分解):由反函数定理(§12),在每个点附近 \(\phi\) 可以局部分解为上述基本变换的复合。关键技术:利用 \(D\phi(a)\) 可以通过行变换分解为初等矩阵的乘积。

Step 4(全局拼接):用**单位分拆**(partition of unity)——对 \(U\) 的每个点取局部适用的分解,用光滑的"权重函数"将局部结果粘合为全局结果。单位分拆的存在依赖于 §70 中度量空间的仿紧性。

\(|\det D\phi|\) 的几何意义是**体积的伸缩因子**——\(\phi\) 将无穷小体积元 \(dx\) 变为 \(|\det D\phi| \, dx\)。如果 \(\det D\phi > 0\)\(\phi\) 保持定向;如果 \(\det D\phi < 0\)\(\phi\) 翻转定向。绝对值确保体积始终为正。

工程桥接:概率密度变换 \(p_Y(y) = p_X(\phi^{-1}(y)) \cdot |\det D\phi^{-1}(y)|\) 是粒子滤波、normalizing flows 以及 \(SE(3)\) 上不变测度的基础。机器人的位形空间体积积分在坐标变换下正是由 \(|\det D\phi|\) 修正。

⚠️ 常见陷阱

💡 概念误区:忘记绝对值 \(|\det D\phi|\)

\(\det D\phi\) 可以为负(当 \(\phi\) 改变定向时),但体积始终为正。遗漏绝对值会导致积分变号的错误。

🧠 思维陷阱:认为"Fubini 定理总是成立"

Riemann 版本的 Fubini 定理需要 \(f\) 在矩形上可积。有反例显示:如果 \(f\) 只在一般区域(非矩形)上可积,累次积分可能不等。Lebesgue 版本在 §100 中消除了这个限制(对非负可测函数)。

练习

  1. (推导题)用变量替换公式和极坐标变换,计算 \(\int\int_{x^2+y^2 \leq R^2} e^{-(x^2+y^2)} \, dx \, dy\)
  2. (证明题)证明 \(n\) 维球体积公式 \(V_n(R) = \frac{\pi^{n/2}}{\Gamma(n/2 + 1)} R^n\) 中变量替换的关键步骤。

§15 凸性与 Jensen 不等式 ⭐⭐

本节为 Layer-2 优化理论预备。凸性是优化理论的基石——凸问题的局部最优 \(=\) 全局最优。

15.1 凸集与凸函数 ⭐

动机:为什么凸性在优化中如此重要?因为凸函数的每个局部极小都是全局极小——这意味着只要找到一个"看起来最好"的点,它就是真正的最好。非凸优化中可能有大量局部极小(如神经网络训练),每个都可能是"陷阱"。

定义\(C \subseteq \mathbb{R}^n\) 是**凸集**,如果 \(\forall x, y \in C, \forall t \in [0, 1], tx + (1-t)y \in C\)

几何直觉:集合中任意两点之间的"线段"完全包含在集合内——没有"凹陷"的部分。

凸集的基本性质: - 任意多个凸集的交仍是凸集 - 凸集的仿射像和原像是凸集 - 开球和闭球都是凸集

定义\(f: C \to \mathbb{R}\)\(C\) 凸)是**凸函数**,如果

\[f(tx + (1-t)y) \leq tf(x) + (1-t)f(y), \quad \forall x, y \in C, \; t \in [0, 1]\]

严格凸:上式中 \(<\)\(x \neq y\)\(0 < t < 1\) 成立。严格凸函数至多有一个极小点。

等价刻画\(f\)\(\Leftrightarrow\) \(\text{epi}(f) = \{(x, \alpha) : f(x) \leq \alpha\}\)(上方图)是凸集。

几何直觉:"弦在曲线上方"——连接函数图上两点的线段不低于函数本身。

常见凸函数示例\(|x|\)\(x^2\)\(e^x\)\(-\log x\)\(x > 0\)),范数 \(\|x\|\)(任何范数)。凹函数是凸函数取负:\(\log x\)\(\sqrt{x}\)

15.2 凸函数的正则性 ⭐⭐

定理:凸函数在开凸集的内部**自动连续**。

证明(一维情形):设 \(f: (a, b) \to \mathbb{R}\) 凸,\(c \in (a, b)\)。取 \([p, q] \subset (a, b)\)\(c \in (p, q)\)。凸性蕴含:\(f\)\([p, q]\) 上有界(由端点值和凸性)。对 \(x\) 接近 \(c\)\(|f(x) - f(c)|\)\(f\)\(c\) 附近的斜率控制:

\[\frac{f(c) - f(p)}{c - p} \leq \frac{f(x) - f(c)}{x - c} \leq \frac{f(q) - f(c)}{q - c}\]

(这是凸性的"斜率单调性")。因此 \(f(x) - f(c) \to 0\)\(x \to c\)\(\square\)

这个结果说明凸函数"自带连续性"——不需要额外假设。但注意凸函数在**边界**上可以不连续。例如 \(f(x) = 0\)\(0 < x < 1\)),\(f(0) = f(1) = 1\)\([0, 1]\) 上凸但在端点不连续。

一阶条件(可微情况):\(f\)\(\Leftrightarrow\) \(f(y) \geq f(x) + \nabla f(x)^T(y - x)\) 对所有 \(x, y\)

证明\(\Rightarrow\):由凸性,\(f(x + t(y-x)) \leq f(x) + t(f(y) - f(x))\)。即 \(\frac{f(x + t(y-x)) - f(x)}{t} \leq f(y) - f(x)\)。令 \(t \to 0^+\),左侧趋向 \(\nabla f(x)^T(y-x)\)(方向导数)。故 \(\nabla f(x)^T(y-x) \leq f(y) - f(x)\)

\(\Leftarrow\):设 \(z = tx + (1-t)y\)。由条件:\(f(x) \geq f(z) + \nabla f(z)^T(x-z)\)\(f(y) \geq f(z) + \nabla f(z)^T(y-z)\)。将第一个乘以 \(t\),第二个乘以 \((1-t)\) 相加:\(tf(x) + (1-t)f(y) \geq f(z) + \nabla f(z)^T(t(x-z) + (1-t)(y-z)) = f(z)\)\(\square\)

几何意义:函数不低于任何**切线(超平面)**——这就是"支撑超平面性质"。

\(C^2\) 凸性判据\(f \in C^2\)\(\Leftrightarrow\) Hessian \(H(x) \succeq 0\)(半正定)对所有 \(x\)

证明\(\Rightarrow\):对任意 \(v\)\(g(t) = f(x + tv)\) 是凸的一维函数。\(g''(0) = v^T H(x) v \geq 0\)(凸函数二阶导非负)。

\(\Leftarrow\):由 Taylor 展开,\(f(y) = f(x) + \nabla f(x)^T(y-x) + \frac{1}{2}(y-x)^T H(\xi)(y-x) \geq f(x) + \nabla f(x)^T(y-x)\)(因为 \(H(\xi) \succeq 0\)),即一阶条件成立。\(\square\)

凸函数的极值性质:如果 \(f\) 凸且 \(x^*\) 是局部极小,则 \(x^*\) 是全局极小。证明:设 \(y\) 是另一点,\(f(y) < f(x^*)\)。由凸性,线段 \(x^* + t(y - x^*)\)\(f\)\(\leq (1-t)f(x^*) + tf(y) < f(x^*)\)\(t > 0\)),矛盾于 \(x^*\) 是局部极小。\(\square\)

这就是凸优化的核心定理——不需要担心"是否找到了全局最优"。只要找到一个满足 \(\nabla f(x) = 0\) 的点,它就是全局最优。

15.3 Jensen 不等式 ⭐⭐

定理(Jensen 不等式,有限和形式):\(f\) 凸,\(\lambda_i \geq 0\)\(\sum \lambda_i = 1\)。则

\[f\left(\sum_{i=1}^{n} \lambda_i x_i\right) \leq \sum_{i=1}^{n} \lambda_i f(x_i)\]

证明(对 \(n\) 归纳):\(n = 2\) 是凸函数定义。设 \(n - 1\) 时成立。\(\sum_{i=1}^{n} \lambda_i x_i = \lambda_n x_n + (1 - \lambda_n) \sum_{i=1}^{n-1} \frac{\lambda_i}{1-\lambda_n} x_i\)。由凸性和归纳假设:

\[f\left(\sum \lambda_i x_i\right) \leq \lambda_n f(x_n) + (1-\lambda_n) f\left(\sum_{i=1}^{n-1} \frac{\lambda_i}{1-\lambda_n} x_i\right) \leq \lambda_n f(x_n) + \sum_{i=1}^{n-1} \lambda_i f(x_i) = \sum \lambda_i f(x_i)\]

\(\square\)

积分形式(需要测度论的严格版本,见 §100):对概率测度 \(\mu\)

\[f\left(\int x \, d\mu(x)\right) \leq \int f(x) \, d\mu(x)\]

15.4 次微分预告 ⭐⭐⭐

定义\(f\)\(x\) 处的**次微分**(subdifferential)为

\[\partial f(x) = \{g : f(y) \geq f(x) + g^T(y - x), \quad \forall y\}\]

\(\partial f(x)\) 中的元素称为**次梯度**。

定理:凸函数在开凸集的内点处次微分非空。(证明利用支撑超平面定理。完整理论在 Layer-2 凸优化中展开。)

次微分是凸优化中处理不可微凸函数的核心工具——例如 \(f(x) = |x|\)\(x = 0\) 处不可微,但 \(\partial f(0) = [-1, 1]\)

工程桥接:MPC(模型预测控制)的凸二次目标 + 凸约束形成凸 QP 问题——此时全局最优 \(=\) 局部最优(由凸性保证)。Jensen 不等式在机器学习的变分推断(ELBO 推导)和信息论(熵的凹性)中无处不在。

⚠️ 常见陷阱

💡 概念误区:认为"连续 \(\Rightarrow\) 凸和凹之一"

大部分连续函数既不凸也不凹。凸性是非常特殊的性质——它要求函数的"弯曲方向"全局一致。

🧠 思维陷阱:混淆"凸函数"和"凸集"

"\(f\) 是凸函数"和"\(f\) 的图像是凸集"是**不同的概念**。凸函数的图像不是凸集;凸函数的上方图(epigraph)才是凸集。

练习

  1. (证明题)证明:\(f: \mathbb{R}^n \to \mathbb{R}\) 凸,\(S = \{x : f(x) \leq c\}\)(下水平集)是凸集。反过来,下水平集都是凸集是否意味着 \(f\) 凸?给出证明或反例。
  2. (推导题)用 Jensen 不等式证明 AM-GM 不等式:\(\frac{x_1 + \cdots + x_n}{n} \geq (x_1 \cdots x_n)^{1/n}\)\(x_i > 0\))。

§16 函数空间 \(C(X)\) 初步 ⭐⭐⭐

本节是泛函分析(§110)的入口——将前面所有工具在"函数空间"这个统一框架中汇聚。

16.1 \(C(X)\) 与 sup 范数 ⭐⭐

定义\(X\) 紧度量空间。\(C(X, \mathbb{R}^n)\) 表示从 \(X\)\(\mathbb{R}^n\) 的连续函数全体。配以 sup 范数

\[\|f\|_\infty = \sup_{x \in X} \|f(x)\|\]

验证范数公理

  1. \(\|f\|_\infty \geq 0\),等号当且仅当 \(f \equiv 0\)(极值定理保证 sup 可达到)
  2. \(\|\alpha f\|_\infty = |\alpha| \cdot \|f\|_\infty\)
  3. \(\|f + g\|_\infty \leq \|f\|_\infty + \|g\|_\infty\)

定理\((C(X), \|\cdot\|_\infty)\)Banach 空间(完备赋范空间)。

证明:设 \(\{f_n\}\)\(C(X)\) 中的 Cauchy 列(关于 \(\|\cdot\|_\infty\))。则 \(\{f_n\}\) 一致 Cauchy(定义相同)。由 §7.2,\(f_n\) 一致收敛到某 \(f\)。由 §7.3 定理 1,\(f\) 连续,即 \(f \in C(X)\)。因此 Cauchy 列在 \(C(X)\) 中收敛——完备性成立。\(\square\)

阶段小结\(C(X)\) 的完备性证明汇聚了三个结果:§7.2(一致 Cauchy \(\Rightarrow\) 一致收敛,利用 \(\mathbb{R}\) 的完备性),§7.3(一致收敛保持连续性),以及 sup 范数与一致收敛的等价。这展示了本章各部分如何像积木一样搭建起来。

16.2 子集的拓扑性质 ⭐⭐⭐

本章前面的两大定理在 \(C(X)\) 中有优美的表述:

  • 紧性(Arzelà-Ascoli,§8):\(\mathcal{F} \subseteq C(X)\) 相对紧 \(\Leftrightarrow\) 逐点有界 + 等度连续
  • 稠密性(Stone-Weierstrass,§9):含常数、分离点的子代数在 \(C(X)\) 中稠密

由 Stone-Weierstrass,\(C([a, b])\) 是**可分**的:取多项式的有理系数子集——它是可数的且稠密(有理系数多项式一致逼近连续函数,再用 \(\mathbb{Q}\) 逼近系数)。

可分性在泛函分析中意义重大——它保证了可数正交基的存在(在 Hilbert 空间中),是 Fourier 分析的前提。

\(C(X)\) 的结构总结

性质 结论 证明来源
完备性 \((C(X), \|\cdot\|_\infty)\) 是 Banach 空间 §7.2 + §7.3
可分性 \(C([a,b])\) 可分 Stone-Weierstrass + \(\mathbb{Q}\) 稠密
紧子集刻画 逐点有界 + 等度连续 Arzelà-Ascoli §8
稠密子集刻画 含常数分离点的子代数 Stone-Weierstrass §9

这四个性质——完备性、可分性、紧子集刻画、稠密子集刻画——构成了泛函分析对 Banach 空间研究的四大支柱。\(C(X)\) 是所有支柱都有具体答案的"模范空间"。

16.3 通向泛函分析 ⭐⭐⭐

\(C(X)\) 是第一个非平凡的 Banach 空间实例。在 §110 泛函分析中,我们将:

  • 研究一般 Banach 空间和 Hilbert 空间
  • 将 Arzelà-Ascoli 定理推广为紧算子的谱理论
  • 将 Stone-Weierstrass 定理推广为 \(C^*\)-代数的 Gelfand 表示

当前只需知道:\(C(X)\) 的完备性、可分性、以及其紧子集和稠密子代数的刻画,构成了泛函分析的出发点。

⚠️ 常见陷阱

💡 概念误区:认为"\(C(X)\) 中的闭有界集就是紧的"

这在有限维空间(\(\mathbb{R}^n\),Heine-Borel 定理)中成立,但在无穷维空间中**不成立**。\(C([0,1])\) 中的闭单位球 \(\{f : \|f\|_\infty \leq 1\}\) 不紧——需要额外的等度连续性条件(Arzelà-Ascoli)。这是有限维与无穷维空间的本质区别。

🧠 思维陷阱:认为"完备性在所有范数下都成立"

\(C([0,1])\) 在 sup 范数下完备,但在 \(L^1\) 范数 \(\|f\|_1 = \int |f|\) 下**不完备**(\(L^1\) 完备化得到的是 Lebesgue 可积函数空间,不仅仅是连续函数)。完备性依赖于所选的范数。

练习

  1. (证明题)证明 \(C([0, 1])\) 是可分的。(提示:有理系数多项式。)
  2. (开放思考题)\(C([0, 1])\) 中的闭单位球不紧。这对机器学习中函数空间上的优化有什么影响?

§17 与后续章节的接口

本节总结 B1 的成果如何输入到 B2/B3/B4/Layer-1。读完本节,你应该知道本章的每一个工具在后续理论中的确切用途。

17.1 \(\to\) §100 测度论

核心接口:本章的 Riemann 积分理论在 §100 中被全面升级为 Lebesgue 积分。

  • §6 Riemann 积分的 Lebesgue 可积判据(\(f\) Riemann 可积 \(\Leftrightarrow\) 不连续点集 Lebesgue 零测)是 §100 的核心动机——Lebesgue 理论给出"哪些函数可积"的最终回答
  • §14 Fubini 定理的 Lebesgue 版本(Tonelli-Fubini)更强大——对非负可测函数**总是成立**,不需要额外的可积性假设。这消除了 Riemann 版本中的技术限制
  • §14 变量替换的 Lebesgue 版本需要绝对连续测度的概念——Radon-Nikodym 定理
  • §6 的 R-S 积分框架自然延伸为一般测度上的积分——\(\int f \, d\mu\)

为什么需要升级:Riemann 积分在三个方面有根本局限:(1) 可积函数类太窄(Dirichlet 函数不可积);(2) 极限和积分的交换条件太强(需要一致收敛);(3) 完备性不好(Riemann 可积函数在 \(L^1\) 范数下不完备)。Lebesgue 理论彻底解决了这三个问题。

17.2 \(\to\) §110 泛函分析

核心接口:本章的函数空间理论在 §110 中被系统化。

  • §16 \(C(X)\) 是首个 Banach 空间实例——§110 将研究一般 Banach 空间的理论(Hahn-Banach、开映射、闭图像定理)
  • §8 Arzelà-Ascoli 定理在 §110 中推广为紧算子的谱理论——紧算子是"类有限维"的算子,Arzelà-Ascoli 告诉我们何时积分算子是紧的
  • §9 Stone-Weierstrass 推广为 \(C^*\)-代数的 Gelfand 表示——揭示了交换 Banach 代数与紧空间之间的深刻对偶
  • §10 压缩映射原理在 Banach 空间框架下自然工作——它不需要有限维

17.3 \(\to\) §120 常微分方程

核心接口:本章提供了 ODE 理论的几乎所有分析工具。

  • §10 压缩映射 + §6 积分算子 \(\Rightarrow\) Picard-Lindelöf 局部存在唯一性(§10.4 已给出框架)
  • §8 Arzelà-Ascoli \(\Rightarrow\) Peano 存在性定理(无 Lipschitz 条件时解存在但可能不唯一——用 Arzelà-Ascoli 从近似解序列中提取收敛子列)
  • §11-§13 多变量微分 \(\Rightarrow\) 解对初值和参数的光滑依赖性(\(C^k\) 动力系统的解是初值的 \(C^k\) 函数)

17.4 \(\to\) Layer-1 微分流形

核心接口:本章的反/隐函数定理是微分流形的基石。

  • §12 反函数定理保证坐标卡的变换映射是微分同胚——这是流形定义的核心
  • §12 隐函数定理是"子流形判据"——方程 \(F(x) = 0\) 在非退化点附近定义光滑子流形
  • §12 + 秩定理(预告)给出了浸入和淹没的局部标准形
  • §13 Hessian 分类是 Morse 理论入口——Morse 函数的临界点决定了流形的拓扑
  • §14 变量替换是流形上积分与体积形式的原型——微分形式 \(\omega\) 的积分定义需要变量替换公式

本章常见误解汇总

误解 正确理解
完备性就是 Cauchy 完备性 \(\mathbb{R}\) 的完备性有四种等价表述,Cauchy 完备性只是其一(且需要 Archimedean 性质)
\(a_n \to 0\) 意味着 \(\sum a_n\) 收敛 \(a_n \to 0\) 是必要条件,不是充分条件(调和级数反例)
偏导数存在 \(\Rightarrow\) 可微 偏导数存在甚至方向导数存在都不保证可微;需偏导数**连续**
中值定理对向量值函数成立 不成立,只有 MVT 不等式
逐点收敛保持连续性 不保持;需**一致收敛**
\(C(X)\) 中闭有界集是紧的 无穷维空间中不成立;需 Arzelà-Ascoli 条件
反函数定理给出全局逆 只给出**局部**逆
Hessian 半正定就是极小点 半定情况不确定,需高阶分析

本章小结

符号表

符号 含义 首次出现
\(\sup S\) 集合 \(S\) 的上确界 §1.2
\(\limsup a_n\) 序列的上极限 §2.2
\(f \rightrightarrows g\) \(f_n\) 一致收敛到 \(g\) §7.1
\(\|\cdot\|_\infty\) sup 范数 §7.1
\(Df(a)\) \(f\)\(a\) 的 Fréchet 导数(总导数) §11.2
\(J_f(a)\) \(f\)\(a\) 的 Jacobian 矩阵 §11.2
\(H(a)\) Hessian 矩阵 \(D^2 f(a)\) §13.3
\(\mathscr{R}(\alpha)\) 关于 \(\alpha\) 的 R-S 可积函数类 §6.2
\(GL(\mathbb{R}^n)\) \(n \times n\) 可逆矩阵全体 §12.1
\(C(X)\) \(X\) 上连续函数空间(配 sup 范数) §16.1
\(\partial f(x)\) \(f\)\(x\) 的次微分 §15.4

定理速查表

定理/公式 一句话说明 对应节
完备性四等价 LUB \(\Leftrightarrow\) MCT \(\Leftrightarrow\) NIP \(\Leftrightarrow\) BW §1.4
Heine-Cantor 紧集上连续 \(\Rightarrow\) 一致连续 §4.1
MVT 链 Rolle \(\to\) Lagrange \(\to\) Cauchy 中值定理 §5.2
FTC 微分和积分互为逆运算 §6.4
一致收敛三大定理 保持连续/积分/(条件下)微分 §7.3
Weierstrass M-判别法 \(\sum M_n < \infty \Rightarrow \sum f_n\) 一致收敛 §7.4
Arzelà-Ascoli 逐点有界 + 等度连续 \(\Leftrightarrow\) 相对紧 §8.3
Stone-Weierstrass 含常数分离点的子代数在 \(C(X)\) 中稠密 §9.2
Banach 压缩映射 完备空间上压缩映射有唯一不动点 §10.2
反函数定理 \(Df(a)\) 可逆 \(\Rightarrow\) \(f\) 局部 \(C^1\) 同胚 §12.2
隐函数定理 \(\partial_y F\) 可逆 \(\Rightarrow\) \(F=0\) 局部可表为 \(y = g(x)\) §12.3
变量替换 $\int_V f = \int_U (f \circ \phi) \det D\phi
Jensen 不等式 凸函数保期望不等式 §15.3

知识点总表

编号 知识点 核心要点 对应节 难度
1 实数完备性 四种等价表述及其证明循环 §1
2 序列与级数 收敛判别法、\(\limsup/\liminf\)、重排定理 §2
3 连续性 三种等价定义、极值定理、中间值定理 §3
4 一致连续与 Lipschitz 连续性强弱链、Heine-Cantor §4
5 单变量微分 MVT 链、Taylor 定理 §5
6 Riemann-Stieltjes 积分 FTC、分部积分、变量替换 §6 ⭐⭐
7 一致收敛 三大保持定理、M-判别法 §7 ⭐⭐
8 Arzelà-Ascoli 等度连续与函数空间紧致性 §8 ⭐⭐⭐
9 Stone-Weierstrass 逼近定理与通用逼近 §9 ⭐⭐⭐
10 压缩映射 Banach 不动点定理及其应用 §10 ⭐⭐
11 多变量微分 总导数、链式法则 §11 ⭐⭐
12 反/隐函数定理 局部可逆性与方程求解 §12 ⭐⭐
13 高阶 Taylor 与临界点 Hessian 分类、Morse 引理 §13 ⭐⭐
14 多变量积分 Fubini、变量替换 §14 ⭐⭐
15 凸性 Jensen 不等式、次微分 §15 ⭐⭐
16 函数空间 \(C(X)\) Banach 空间、可分性 §16 ⭐⭐⭐

累积项目:手写核心分析库 · 本章新增模块

项目概述:从零构建一个 Python 实分析验证库,每章新增一个模块。

本章新增(第 9 章):

# real_analysis/completeness.py
# 验证实数完备性的数值实验

import numpy as np

def bisection_sup(S_indicator, a, b, tol=1e-10):
    """
    用二分法逼近集合 S 的上确界
    S_indicator: 函数,判断 x 是否属于 S
    [a, b]: 搜索区间
    演示闭区间套方法(NIP)
    """
    while b - a > tol:
        mid = (a + b) / 2
        # 检查 mid 右边是否还有 S 的元素
        if any(S_indicator(np.linspace(mid, b, 1000))):
            a = mid
        else:
            b = mid
    return (a + b) / 2

def contraction_iteration(T, x0, k, n_iter=100, tol=1e-12):
    """
    Banach 压缩映射迭代
    T: 压缩映射
    x0: 初始点
    k: 压缩系数
    返回:不动点近似值和误差上界序列
    """
    x = x0
    errors = []
    d0 = abs(T(x0) - x0)  # d(x0, Tx0)
    for i in range(n_iter):
        x_new = T(x)
        error_bound = k**(i+1) / (1 - k) * d0
        errors.append(error_bound)
        if abs(x_new - x) < tol:
            break
        x = x_new
    return x, errors

# 验证:cos(x) 的不动点
fixed_pt, errs = contraction_iteration(np.cos, 0.0, k=0.8)
# fixed_pt ≈ 0.7390851332... (Dottie number)

前几章的模块回顾:§10 集合论模块(集合操作)→ §20 线性代数模块(矩阵运算)→ §70 拓扑模块(开集/闭集判断)→ 本章新增:完备性验证 + 压缩映射迭代。


延伸阅读

资源 类型 难度 说明
Rudin, Principles of Mathematical Analysis (3rd ed, 1976) 教材 ⭐⭐ 实分析的标准参考,以简洁严格著称
Pugh, Real Mathematical Analysis (2nd ed, 2015) 教材 ⭐⭐ 直觉与图示丰富,适合与 Rudin 互补
Abbott, Understanding Analysis (2nd ed, 2015) 教材 入门首选,注重"为什么",讨论题引入
Zorich, Mathematical Analysis I/II (2nd ed, 2016) 教材 ⭐⭐⭐ 俄派风格,全面且有丰富例题与应用
Spivak, Calculus on Manifolds (1965) 教材 ⭐⭐⭐ 多变量微积分的"正确做法",为流形铺路
Tao, Analysis I/II (3rd ed, 2016) 教材 ⭐⭐ 现代风格,从自然数构造出发,逻辑极清晰
Propp, "Real Analysis in Reverse" (2013) 论文 ⭐⭐⭐ 72 种完备性等价表述的系统性综述

本章与后续章节的关系

后续章节 与本章的关系 本章哪个知识点为其铺垫
§100 测度论 R-S 积分的 Lebesgue 推广 §6 R-S 积分、§14 Fubini
§110 泛函分析 \(C(X)\) 是首个 Banach 空间 §16 函数空间、§8 Arzelà-Ascoli、§9 Stone-Weierstrass
§120 常微分方程 Picard-Lindelöf 的完整证明 §10 压缩映射、§4 Lipschitz 条件
Layer-1 微分流形 子流形与坐标卡 §12 反/隐函数定理
Layer-2 优化 凸优化基础 §15 凸性与 Jensen

故障排查手册

症状 可能原因 排查步骤 相关章节
证明"极限存在"时卡住 没有选对完备性工具 1. 明确是序列/集合/区间的问题 2. 依次尝试 MCT/BW/NIP/LUB 3. 检查有界性条件是否满足 §1
级数收敛判别失败 比值法/根值法临界 \(r=1\) 1. 尝试 Cauchy 凝聚 2. 直接比较法 3. Dirichlet/Abel 判别 4. 检查交错级数 §2
连续性证明中 \(\delta\) 选不出 没有利用紧致性或一致连续 1. 检查定义域是否紧 2. 如紧,用 Heine-Cantor 3. 如不紧,考虑是否真的一致连续 §3-§4
多变量函数可微性证明有误 混淆偏导数存在与可微 1. 检查是否满足"偏导数连续"条件 2. 构造反例测试 3. 用 Fréchet 定义直接验证 §11
反函数定理应用后得到矛盾 在奇异点使用了定理 1. 检查 \(Df(a)\) 是否可逆 2. 计算 Jacobian 的秩 3. 如在奇异点,改用伪逆或正则化 §12
函数序列极限不连续 只有逐点收敛,不是一致收敛 1. 计算 $\sup f_n - f

研究实践建议

给初学者

  1. 先读 Abbott:这是最温和的入门书,每章用讨论题引入,帮助建立"为什么需要严格化"的直觉
  2. 精做 Rudin 习题:Rudin 的正文简洁到近乎神谕,但习题是金矿——很多重要结果藏在习题中
  3. 画图! 实分析虽然严格,但核心概念都有几何直觉。每遇到新定理,先画图理解再看证明
  4. 背证明框架:许多证明共享"取 \(\varepsilon > 0\),选 \(N/\delta\),估计"的模式。掌握这个框架比记忆具体证明更重要

给有经验者

  1. 关注定理的"反面":每个定理去掉一个条件后是否还成立?反例是什么?这些反例往往比定理本身更有洞察力。以下是本章最重要的反例清单:
定理 去掉的条件 反例
极值定理 紧致性 \(1/x\)\((0,1)\) 无最大值
Heine-Cantor 紧致性 \(1/x\)\((0,1)\) 不一致连续
MVT 向量值函数 \((\cos t, \sin t)\)\([0, 2\pi]\)
一致收敛保连续 一致性 \(x^n\)\([0,1]\) 逐点极限不连续
Banach 不动点 完备性 \(T(x)=x/2\)\((0,1) \cap \mathbb{Q}\)
反函数定理 \(Df(a)\) 可逆 奇异位形处 IK 不唯一
  1. 追踪主线:完备性 \(\to\) 压缩映射 \(\to\) 反函数定理 \(\to\) 流形理论——这条主线是数学分析的脊梁
  2. 建立与应用的联系:每学一个定理,问"这在机器人/控制/ML 中哪里用到?"——本章的工程桥接给出了起点
  3. 准备两条独立的 IFT 证明路径:压缩映射路径(本章)和 Newton 迭代路径(更接近数值分析),两者互相验证
  4. 从范畴论视角审视:连续映射保紧、保连通——这些是函子保持的性质。这种"结构保持"的思维方式在抽象代数(§80)和代数拓扑中会系统展开

版本信息速查

工具/教材 版本 说明
Rudin, Principles of Mathematical Analysis 第 3 版 (1976) 标准参考
Pugh, Real Mathematical Analysis 第 2 版 (2015) 图示直觉补充
Abbott, Understanding Analysis 第 2 版 (2015) 入门推荐
Zorich, Mathematical Analysis 第 2 版 (2016) 俄派全面性
Spivak, Calculus on Manifolds 第 1 版 (1965) 多变量经典
Tao, Analysis I/II 第 3 版 (2016) 现代构造
Dieudonné, Foundations of Modern Analysis 第 1 版 (1960) Banach 空间风味 IFT
Python/NumPy 1.24+ 数值验证用
Bartle, The Elements of Real Analysis 第 2 版 (1976) 偏重序列和级数

结语

实分析不仅是数学的基础设施,更是一种思维方式——\(\varepsilon\)-\(\delta\) 的精确性驾驭无穷过程。本章覆盖的 17 节内容构成了一条从实数完备性到函数空间的完整链条。每一步都建立在前一步之上:完备性催生极限理论,极限理论催生连续性和微积分,微积分催生函数空间,函数空间催生反/隐函数定理——最终为微分流形和泛函分析铺平道路。

在机器人学的语境中,本章的每一个主定理都有直接的工程意义:完备性保证优化问题有解,Lipschitz 条件保证控制系统的行为可预测,压缩映射保证迭代算法收敛,反函数定理保证逆运动学局部存在。没有 B1,Layer-1 的微分流形只是符号游戏;有了 B1,流形、李群、最优控制、概率测度才能以机器人学家需要的严格程度展开。


附录 A:主定理完整证明清单

以下 15 个定理要求能够在不看书的情况下独立完整证明:

编号 定理 所在节 核心证明工具 难度
T1 Bolzano-Weierstrass §1.4 闭区间套 / LUB
T2 Heine-Borel(\(\mathbb{R}^n\) 版) §1.4 / §70 总有限覆盖 + B-W
T3 Intermediate Value Theorem §3.3 连通性 + LUB
T4 Extreme Value Theorem §3.2 紧像 + B-W
T5 MVT 链(Rolle / Lagrange / Cauchy) §5.2 EVT + Fermat 引理
T6 Taylor 定理(三种余项) §5.4 Rolle 归纳 / Cauchy MVT / FTC ⭐⭐
T7 R-S 可积性判据 §6.2 Darboux 上下和 ⭐⭐
T8 Fundamental Theorem of Calculus §6.4 连续性 + MVT
T9 一致收敛保持定理(三个) §7.3 \(\varepsilon/3\) 论证 + MVT ⭐⭐
T10 Arzelà-Ascoli §8.3 可分性 + Cantor 对角线 ⭐⭐⭐
T11 Stone-Weierstrass(代数版) §9.2 lattice 技术 + 绝对值逼近 ⭐⭐⭐
T12 Banach 压缩映射原理 §10.2 等比估计 + 完备性 ⭐⭐
T13 Inverse Function Theorem §12.2 T12 + Neumann 级数 ⭐⭐⭐
T14 Implicit Function Theorem §12.3 由 T13 导出 ⭐⭐
T15 \(\mathbb{R}^n\) 变量替换公式 §14.4 T13 + 单位分拆 ⭐⭐⭐

附录 B:教材对照表

主题 Rudin Pugh Zorich Spivak Tao Abbott
§1 \(\mathbb{R}\) 完备性 Ch 1 1.1-1.3 I.2 -- I.5 Ch 1-2
§2 序列与级数 Ch 3 1.4, 2.5 I.3, III -- I.6-7 Ch 2
§3 连续性 Ch 4 2.1-2.4 II.9-10 -- II.13 Ch 4
§4 一致连续 4.18-4.22 2.3 II.10 -- -- 4.4
§5 单变量微分 Ch 5 3.1-3.3 I.5 -- I.10 Ch 5
§6 R-S 积分 Ch 6 3.4 I.6 -- I.11 Ch 7
§7 一致收敛 Ch 7 4.1-4.4 II.16 -- II.14 Ch 6
§8 Arzelà-Ascoli 7.22-7.25 4.5 II.17 -- -- --
§9 Stone-Weierstrass 7.26-7.33 4.6 -- -- -- --
§10 压缩映射 Ex 9.30 4.3 II.9.7 2.5 -- --
§11 多变量微分 Ch 9 5.1-5.2 II.8 Ch 2 II.17 --
§12 反/隐函数定理 9.17-9.29 5.3 II.8.6 2.11-2.13 II.17 --
§13 高阶 Taylor 9.38-9.42 5.4 II.8.4 Ch 2 末 -- --
§14 多变量积分 10.1-10.9 5.5 II.11 Ch 3 II.18 --
§15 凸性 Ex 5.14 3.3 V.6 -- -- --

使用策略:以 Rudin 为主线(严格、简洁);每节对照 Pugh 的图示获得几何直觉;多变量部分用 Spivak 补 Rudin 的简略证明;Zorich 作为长线参考(含丰富例题与应用)。Abbott 适合作为 §1-§7 的入门第一遍阅读。


附录 C:习题策略与验收标准

习题配置建议

  • A 组(30%):直接验证定义、简单计算、基本推论
  • B 组(50%):标准证明题,覆盖定理变体
  • C 组(20%):综合 / 反例构造 / 开放性

验收标准(自检)

  1. 能在不看书情况下独立完整证明附录 A 中 15 个主定理的至少 12 个
  2. 能对 §12 IFT 给出至少两条不同证明路径(压缩映射 vs Newton 迭代)
  3. 能在 10 分钟内解释"Lipschitz 条件如何保证 ODE 解的唯一性"
  4. 能识别并反驳 6 个常见错误命题(如"偏导存在 \(\Rightarrow\) 可微"、"\(a_n \to 0 \Rightarrow \sum a_n\) 收敛")
  5. 能将完备性的四种等价表述应用于不同类型的证明
  6. 能解释 Arzelà-Ascoli 和 Stone-Weierstrass 定理的证明策略及其在机器人/ML 中的应用
  7. 能用 Hessian 矩阵对多变量函数的临界点进行分类(极小/极大/鞍点)
  8. 能用变量替换公式计算多变量积分,并解释 \(|\det D\phi|\) 的几何意义