测度论与 Lebesgue 积分——机器人概率方法的严格底座¶
性质:理论教学 | 难度跨度:⭐⭐ ~ ⭐⭐⭐⭐ | 预计精读:14-20 小时
一句话定位:机器人学的概率语言(卡尔曼/粒子滤波、随机过程、信息论、强化学习的期望)在 2020 年代已被测度论彻底重写。本章从"Riemann 积分为什么不够用"出发,完整讲透 \(\sigma\)-代数、测度、Lebesgue 积分、三大收敛定理、Fubini、Radon–Nikodym、\(L^p\) 空间与 Haar 测度——并在每一步把抽象定理钉死到一个具体的机器人算法上:密度只是 R–N 导数、贝叶斯更新只是测度变换、Kalman 只是 \(L^2\) 投影、粒子滤波收敛只是 DCT、\(\mathrm{SO}(3)\) 上的姿态先验只是 Haar 测度。
本章在路线图中的位置:本章是博士前数学第零层实分析支柱的第二块基石(B1 实分析基础 → B2 测度论与 Lebesgue 积分 → B3 泛函分析),也是向第一层概率论与流形积分(李群/黎曼几何)过渡的必经通道。建议在掌握 B1 的 \(\varepsilon\)-\(\delta\) 分析、一致收敛、紧性、Baire 纲定理之后进入本章。
前置自测¶
开始前先回答下面 5 个问题。答不出 2 题以上,建议先回前置章节补齐——本章的每一步推导都建立在这些基础之上,欠了账会在第三节(测度构造)卡住。
-
什么是 Riemann 积分的上下 Darboux 和? 一个有界函数 \(f:[a,b]\to\mathbb{R}\) Riemann 可积的定义(用上下积分相等表述)是什么?\(\mathrm{Dirichlet}\) 函数 \(\mathbf{1}_{\mathbb{Q}}\) 为什么不 Riemann 可积? (答不出 → 回 B1 实分析基础,Riemann 积分一节)
-
逐点收敛与一致收敛的区别是什么? 给出一个函数列 \(f_n\to f\) 逐点但不一致收敛的例子。一致收敛对"极限与积分交换"\(\lim_n\int f_n=\int\lim_n f_n\) 起什么作用? (答不出 → 回 B1 一致收敛一节)
-
可数集与不可数集的区别? \(\mathbb{Q}\) 是可数的吗?\([0,1]\) 是不可数的吗?Cantor 三分集的基数是多少? (答不出 → 回 B1 基数与可数性一节)
-
什么是上确界 \(\sup\) 与下确界 \(\inf\)? \(\limsup_n a_n\) 与 \(\liminf_n a_n\) 的定义是什么?对集合列 \(\limsup_n A_n=\bigcap_k\bigcup_{n\ge k}A_n\) 的含义("无穷多个 \(A_n\) 都发生")你能解释吗? (答不出 → 回 B1 数列极限与上下极限一节)
-
向量空间的内积与范数是什么? 完备性(Cauchy 列收敛)的定义?为什么 \(\mathbb{Q}\) 在通常距离下不完备而 \(\mathbb{R}\) 完备? (答不出 → 回 B1 度量空间与完备性一节)
参考答案要点(先自己答,再对照):
-
上 Darboux 和 \(U(f,P)=\sum_i (\sup_{[x_i,x_{i+1}]}f)\,\Delta x_i\),下和 \(L(f,P)=\sum_i(\inf_{[x_i,x_{i+1}]}f)\,\Delta x_i\)。Riemann 可积 \(\iff\inf_P U(f,P)=\sup_P L(f,P)\)。\(\mathbf{1}_{\mathbb{Q}}\) 在任意子区间上 \(\sup=1,\inf=0\),故上积分恒为 \(1\)、下积分恒为 \(0\),二者不等。
-
逐点收敛:每个固定 \(x\) 处 \(f_n(x)\to f(x)\);一致收敛:\(\sup_x|f_n(x)-f(x)|\to 0\)。例:\(f_n(x)=x^n\) 于 \([0,1]\) 逐点收敛到不连续的极限但不一致收敛。一致收敛允许交换极限与积分(在紧区间上),但这是非常强的假设——本章将给出弱得多的条件(DCT)。
-
\(\mathbb{Q}\) 可数(可与 \(\mathbb{N}\) 一一对应),\([0,1]\) 不可数(Cantor 对角线),Cantor 集基数为 \(\mathfrak{c}=2^{\aleph_0}\)(不可数)但"长度"为零——这个反差正是测度论要刻画的。
-
\(\sup A\) 是最小上界,\(\inf A\) 是最大下界。\(\limsup_n a_n=\inf_k\sup_{n\ge k}a_n\),\(\liminf_n a_n=\sup_k\inf_{n\ge k}a_n\)。\(\limsup_n A_n\) 是"属于无穷多个 \(A_n\)"的点集,这是 Borel–Cantelli 引理的舞台。
-
内积 \(\langle x,y\rangle\) 诱导范数 \(\|x\|=\sqrt{\langle x,x\rangle}\)。完备:每个 Cauchy 列都收敛到空间内的点。\(\mathbb{Q}\) 不完备(如 \(\to\sqrt2\) 的有理 Cauchy 列极限不在 \(\mathbb{Q}\));\(\mathbb{R}\) 是 \(\mathbb{Q}\) 的完备化。本章将证明 \(L^p\) 空间完备,而 Riemann 可积函数空间不完备——这是 Lebesgue 积分不可替代的根本原因。
本章目标¶
学完本章后,你应该能够:
- 诊断 Riemann 积分的三类病理(极限不可交换、空间不完备、病态定义域),并解释 Lebesgue"按值域分层"为何从根本上修复它们;
- **从公理出发**构造测度:理解 \(\sigma\)-代数为什么需要可数并、用 Carathéodory 外测度条件筛出可测集、用 Hahn–Kolmogorov 扩张定理证明 Lebesgue 测度与一切乘积测度的存在唯一性;
- **手推**三大收敛定理(MCT/Fatou/DCT),说清每个条件(非负性、控制函数、有限测度)失效时的反例,并把 DCT 钉到粒子滤波收敛证明上;
- 推导 Fubini–Tonelli 定理并说明它如何支撑 SLAM 边际化、FastSLAM 的 Rao–Blackwell 化与因子图 sum-product;
- 证明 Radon–Nikodym 定理(von Neumann 的 \(L^2\) 投影证法),理解"概率密度 \(=\dfrac{dP}{d\lambda}\)"的本质,并把 R–N 导数读成贝叶斯更新、重要性采样权、Girsanov 测度变换、KL 散度;
- 建立 \(L^p\) 空间的完备性(Riesz–Fischer),把 Kalman 滤波重新理解为 \(L^2(\Omega,\mathcal{F},\mathbb{P})\) 中向观测子空间的正交投影;
- 理解 Riesz–Markov 表示定理如何"凭空造出" \(\mathrm{SO}(3)\)、\(\mathrm{SE}(3)\) 上的 Haar 测度,从而让整个李群机器人学(姿态先验、群卷积、\(\mathrm{SE}(3)\) 上的 Gauss 分布)成立。
本章知识导航¶
本章的知识结构是一棵以"如何在任意复杂的状态空间上严格地谈论概率与期望"为根的树。树干是"测度 → 积分 → 收敛 → 变换"四个递进环节,树枝是每个环节支撑的机器人算法。
Riemann 为什么不够用? (§1 动机)
│
▼
┌──────────── 测度怎么严格定义? ────────────┐
│ │
σ-代数 (§2) ──→ 测度公理 (§3) ──→ 外测度+Carathéodory 扩张 (§4)
│ │
▼ ▼
Lebesgue 测度构造 (§5) ←──────────── 可测函数 (§6)
│ │
▼ ▼
Lebesgue 积分三阶段构造 (§7) ──→ 三大收敛定理 MCT/Fatou/DCT (§8)
│ │ │
▼ │ ▼
Riemann vs Lebesgue 对比 (§9) │ 粒子滤波收敛
│ ▼
▼ Fubini–Tonelli (§10) ──→ SLAM 边际化 / FastSLAM
符号测度 Hahn–Jordan (§11) │
│ ▼
▼ Radon–Nikodym + Lebesgue 分解 (§12)
┌─────────────────────────────┤
│ ├─→ 贝叶斯更新 / 重要性采样 / Girsanov / KL
▼ ▼
L^p 空间 + Riesz–Fischer (§13) ──→ Kalman = L^2 投影
│ │
▼ ▼
收敛模式相互关系 (§14) 微分与 FTC (§15)
│ │
▼ ▼
随机逼近 a.s. 收敛 LiDAR/视觉局部平均 = 极大函数
│
▼
Riesz–Markov 表示定理 + Haar 测度 (§16) ──→ SO(3)/SE(3) 姿态估计 / 群卷积 CNN
│
▼
与后续任务的接口 (§17)
| 小节 | 主题 | 难度 | 一句话 |
|---|---|---|---|
| §1 | 从 Riemann 到 Lebesgue 的动机 | ⭐⭐ | 按值域分层而非定义域分层 |
| §2 | \(\sigma\)-代数与可测空间 | ⭐⭐ | 可数并让"极限事件"可度量 |
| §3 | 测度的定义与基本性质 | ⭐⭐ | 概率 = 归一化测度 |
| §4 | 外测度与 Carathéodory 扩张 | ⭐⭐⭐ | 一切测度存在性的唯一引擎 |
| §5 | Lebesgue 测度的构造与性质 | ⭐⭐⭐ | 密度 = \(dP/d\lambda\) 的参照物 |
| §6 | 可测函数 | ⭐⭐ | 随机变量 = 可测函数 |
| §7 | Lebesgue 积分的构造 | ⭐⭐⭐ | 期望 = \(\int X\,dP\) |
| §8 | 三大收敛定理 | ⭐⭐⭐ | DCT = 粒子滤波收敛核心 |
| §9 | Riemann 与 Lebesgue 的比较 | ⭐⭐ | 何时一致、何时分离 |
| §10 | 积测度与 Fubini–Tonelli | ⭐⭐⭐ | SLAM 边际化的合法性 |
| §11 | 符号测度与 Hahn–Jordan 分解 | ⭐⭐⭐ | R–N 的技术前提 |
| §12 | Radon–Nikodym 与 Lebesgue 分解 | ⭐⭐⭐⭐ | 贝叶斯/重要性采样/Girsanov/KL |
| §13 | \(L^p\) 空间 | ⭐⭐⭐ | Kalman = \(L^2\) 正交投影 |
| §14 | 收敛模式与相互关系 | ⭐⭐ | a.s. vs 依概率收敛 |
| §15 | 微分与 FTC | ⭐⭐⭐⭐ | 极大函数 = 局部平均 |
| §16 | Radon 测度与 Riesz 表示定理 | ⭐⭐⭐⭐ | Haar 测度存在性 |
| §17 | 与后续任务的接口总结 | ⭐⭐ | 测度论 → 概率/泛函/李群 |
两条阅读线:
- 核心线(建立概率论严格底座,必读):§1→§2→§3→§4→§5→§6→§7→§8→§10→§12→§13。读完即可严格理解贝叶斯滤波、粒子滤波、Kalman。
- 进阶线(通向李群机器人学与随机过程):在核心线基础上加 §11→§15→§16。\(\mathrm{SE}(3)\) 上的概率、Girsanov 路径积分控制、信息几何都依赖这条线。
无论哪条线,§1(动机)、§4(Carathéodory)、§8(收敛定理)、§12(R–N)都是承重墙——它们是后续所有内容的地基。
前置知识桥接¶
回顾 B1(实分析基础):B1 建立了 \(\varepsilon\)-\(\delta\) 语言、数列与函数极限、一致收敛、紧性(Heine–Borel)、可数性。本章在三个点上直接复用:(i) 可数性——\(\sigma\)-代数的"可数并封闭"与测度的"可数可加"都把 B1 的可数集理论推到极限事件上;(ii) 上下极限——\(\limsup_n A_n\) 是 Borel–Cantelli 引理的舞台,直接搬用 B1 的 \(\limsup_n a_n=\inf_k\sup_{n\ge k}a_n\);(iii) 完备性——B1 用 Cauchy 列把 \(\mathbb{Q}\) 完备化成 \(\mathbb{R}\),本章用同样的思想把简单函数完备化成 \(L^p\),并证明 Riemann 可积函数在 \(\|\cdot\|_p\) 下**不**完备,这正是非建 Lebesgue 积分不可的根本理由。
回顾 B1(Riemann 积分):Riemann 积分用"垂直切片"——把定义域 \([a,b]\) 分割成小区间,在每个小区间上用 \(\sup/\inf\) 估计函数值再求和。本章 §1 将指出:这种做法对"定义域上多么病态的函数"(如处处不连续的 Dirichlet 函数)极其脆弱。Lebesgue 的革命是改用"水平切片"——按**值域**分层,先收集 \(\{f\in[k/n,(k+1)/n)\}\) 这个集合,再问它的"测度"是多少。这个转向把全部难度从"函数有多怪"转移到"集合怎么量长度",后者正是 §2–§5 要解决的。
前向预告:本章的产出——测度、积分、R–N 导数、\(L^2\) 投影、Haar 测度——将在 C1 概率论中变身为概率论的语言字典(随机变量 \(\equiv\) 可测函数、期望 \(\equiv\) 积分、条件期望 \(\equiv\) \(\sigma\)-子代数上的 R–N 导数)。现在只需要记住一句话:本章不是数学素养装饰,而是未来五年所有概率、滤波、控制、学习论文的前置库函数——读不懂 Crisan–Doucet 的粒子滤波收敛证明、推不出 Munos–Szepesvári 的拟合价值迭代误差界、想不清 Chirikjian 的 \(\mathrm{SE}(3)\) 上 Gauss 分布,根子都在这里没学扎实。
如果跳过本章会怎样¶
跳过本章,你会在三个具体的地方卡住。
场景一:"密度算出来是负的 / 积不出 1"。 你在 \(\mathrm{SO}(3)\) 上做姿态滤波,想给"无偏好的先验"写一个概率密度 \(p(R)\)。你套用欧氏空间的均匀分布直觉,结果发现:\(\mathrm{SO}(3)\) 不是 \(\mathbb{R}^n\),没有 Lebesgue 测度,"均匀"这个词根本没有定义。没有本章 §16 的 Haar 测度,你不知道"各向同性姿态先验"在数学上指的是相对归一化 Haar 测度 \(dR\)(\(\operatorname{Vol}(\mathrm{SO}(3))=8\pi^2\),在标准双不变度量下)的均匀分布,只能凭感觉乱写一个,导致滤波系统性偏置。
场景二:"粒子滤波到底收不收敛、收多快?"。 你实现了一个粒子滤波器,在仿真里看起来 work,但审稿人问"你的经验测度 \(\mu_t^N=\tfrac1N\sum_i\delta_{x_t^{(i)}}\) 弱收敛到真后验 \(\pi_t\) 吗?收敛速率是多少?"你答不上来——因为收敛性证明的核心是控制收敛定理(DCT,本章 §8):用有界似然 \(|\varphi|\le\|\varphi\|_\infty\) 作控制函数,把"极限与积分交换"这一步合法化。没有 §8,你无法证明 \(\mathbb{E}|\mu_t^N(\varphi)-\pi_t(\varphi)|^2\le C_t\|\varphi\|_\infty^2/N\) 这个 \(O(1/N)\) 速率,也就无法定量评估算法。
场景三:"贝叶斯更新公式为什么是这个形状?"。 你写下贝叶斯更新 \(p(x\mid z)\propto p(z\mid x)\,p(x)\),但当状态是"离散数据关联 + 连续位姿"的混合时,分母 \(\int p(z\mid x')\,dP(x')\) 既不是求和也不是欧氏积分。没有本章 §12 的 Radon–Nikodym 定理,你不知道贝叶斯更新的严格形式是 \(\dfrac{dP(\cdot\mid z)}{dP}(x)=\dfrac{p(z\mid x)}{\int p(z\mid x')\,dP(x')}\)——一个 R–N 导数的递推,对混合状态、退化分布、流形状态一律成立。停留在"密度比"的直觉会在这些非平凡情形下出错。
预计阅读时间¶
| 模式 | 时长 | 适合 |
|---|---|---|
| 精读 | 14-20 小时 | 第一次系统学测度论:逐节读动机→反面→历史→推导,亲手补全每个证明骨架的细节,做完每节练习。建议分 6-8 次,对照 Folland Ch 1–3, 6, 7。 |
| 速读 | 4-6 小时 | 有实分析基础、想建立全局图景:读每节"动机"与"理论"的主线、框住的关键定理、每节的"机器人应用",跳过证明的技术细节。 |
| 速查 | 40-80 分钟 | 已学过、回来查特定定理:直接定位到对应小节,看 boxed 定理 + 符号表 + 定理速查表 + 关键定理清单。 |
数学史脉络¶
在钻进公理前,先把这条研究线的来龙去脉理清——知道每个工具"从哪来、解决了前人什么痛点",比孤立地背定义有用得多。
| 年份 | 人物/成果 | 解决的痛点 |
|---|---|---|
| 1854 | Riemann 积分 | 把积分严格化为 Darboux 和的极限,但对病态函数和极限交换脆弱 |
| 1898 | Borel 测度 | 用可数可加性给开集赋"长度",开启测度论 |
| 1902 | Lebesgue 博士论文 | "按值域分层"积分;MCT/DCT;修复 Riemann 的极限交换缺陷 |
| 1907 | Fubini / Tonelli | 重积分化为累次积分的严格条件 |
| 1913–1930 | Radon / Nikodym | 抽象测度的导数 \(d\nu/d\mu\),统一密度与变量替换 |
| 1914 | Carathéodory | 外测度 + \(\mu^*\)-可测性,测度构造的通用引擎 |
| 1933 | Kolmogorov | 概率论公理化 = 归一化测度论;扩张定理造无限维过程测度 |
| 1933 | Haar | 拓扑群上的不变测度,李群积分的基础 |
| 1940 | Weil | 用 Riesz 表示证 Haar 测度存在性 |
| 1960 | Kalman | 离散时间最优滤波 = \(L^2\) 投影(Wiener 滤波的推广) |
| 2002–2004 | Crisan–Doucet / Del Moral | 粒子滤波收敛性 = DCT + Feynman–Kac |
看这条线,有一条清晰的主线:从"具体的长度/面积"走向"抽象的测度",再走向"概率与随机过程",最后落到机器人滤波与李群。每一步都在扩大"可以严格谈论积分/期望的对象"的范围。本章覆盖 1854→1940 的数学主干,并在每节末把它接到 1960→2024 的机器人应用上。
本章符号约定¶
| 符号 | 含义 | 首见 |
|---|---|---|
| \(X,\Omega\) | 全集 / 样本空间 | §2 |
| \(\mathcal{M},\mathcal{F}\) | \(\sigma\)-代数 / 事件域 | §2 |
| \(2^X\) | \(X\) 的幂集(全体子集) | §2 |
| \(\sigma(\mathcal{E})\) | 由 \(\mathcal{E}\) 生成的最小 \(\sigma\)-代数 | §2 |
| \(\mathcal{B}(X)\) | Borel \(\sigma\)-代数 | §2 |
| \(\mu,\nu\) | (正/符号)测度 | §3 |
| \(P,\mathbb{P}\) | 概率测度 | §3 |
| \(\lambda,m\) | Lebesgue 测度 | §5 |
| \(\mu^*\) | 外测度 | §4 |
| \(\mathbf{1}_A\) | 集合 \(A\) 的指示函数 | §6 |
| \(\int f\,d\mu\) | \(f\) 关于 \(\mu\) 的 Lebesgue 积分 | §7 |
| \(\mathbb{E}[X]\) | 期望 \(=\int_\Omega X\,d\mathbb{P}\) | §7 |
| a.e. / a.s. | 几乎处处 / 几乎必然 | §7 |
| \(f^+,f^-\) | 正部 \(\max(f,0)\) / 负部 \(\max(-f,0)\) | §7 |
| \(L^p(\mu)\) | \(p\) 次可积函数空间 | §13 |
| \(\|f\|_p\) | \(L^p\) 范数 $(\int | f |
| \(\nu\ll\mu\) | \(\nu\) 关于 \(\mu\) 绝对连续 | §12 |
| \(\nu\perp\mu\) | \(\nu\) 与 \(\mu\) 互奇异 | §12 |
| \(\dfrac{d\nu}{d\mu}\) | Radon–Nikodym 导数 | §12 |
| \(\mu\times\nu\) | 积测度 | §10 |
| $ | \nu | $ |
| \(\mathrm{SO}(3),\mathrm{SE}(3)\) | 旋转群 / 刚体运动群 | §16 |
| \(\mu_H,dR,dg\) | Haar 测度 | §16 |
| \(C_c(X),C_0(X)\) | 紧支撑 / 趋零连续函数空间 | §16 |
§1 从 Riemann 到 Lebesgue 的动机 ⭐⭐¶
动机:一个积分到底在求什么?¶
设想你手里有一个观测似然函数 \(p(z\mid x)\),机器人在位姿 \(x\) 处、观测到 \(z\) 的概率密度。你要算归一化常数 \(\int p(z\mid x)\,dx\),或者算期望 \(\int x\,p(x)\,dx\)。这些"积分"在本科微积分里都是 Riemann 积分——把 \(x\) 轴切成小格子,每格用一个矩形面积近似,格子越细越准。
这套"垂直切片"的做法在 \(p\) 光滑时工作得很好。但机器人现实里的似然函数远非光滑:
- 在**障碍边界**,似然会跳变(机器人要么在墙里、要么在墙外,没有中间态);
- 在**遮挡阴影**,似然出现间断(传感器看不到的区域);
- 在**数据关联**问题里,似然是离散标签与连续位姿的混合,根本不是 \(\mathbb{R}\) 上的普通函数。
问题来了:Riemann 积分对这些病态函数还有定义吗? 答案常常是"没有"。而 Lebesgue 积分对它们一律有定义。要理解这个差距从何而来,必须先精确诊断 Riemann 的病灶。
反面:Riemann 积分坏在哪——三个经典反例¶
Riemann 失败不是偶然,而是结构性的。下面三个反例像三张 X 光片,逐层暴露病变。
反例 1(Dirichlet 函数:处处不连续 → 不可积)。 定义
在 \([0,1]\) 上任取一个分割 \(P\),每个子区间里既有有理数又有无理数(\(\mathbb{Q}\) 和 \(\mathbb{Q}^c\) 都稠密),所以每个子区间上 \(\sup f=1\)、\(\inf f=0\)。于是上 Darboux 和恒为 \(U(f,P)=1\),下 Darboux 和恒为 \(L(f,P)=0\),无论分割多细都不缩小这个 \(1-0=1\) 的鸿沟。因此上积分 \(\overline{\int}f=1\ne 0=\underline{\int}f=\) 下积分,\(\mathbf{1}_{\mathbb{Q}}\) 不 Riemann 可积。
但凭直觉,有理数在 \([0,1]\) 里"少得可怜"——它们可数,可以被一列总长任意小的开区间盖住。这个"少"如果能严格量化为"测度为零",那么"\(f\) 几乎处处等于 \(0\)"就该有积分 \(0\)。Lebesgue 积分正是这么做的:\(\int_{[0,1]}\mathbf{1}_{\mathbb{Q}}\,d\lambda=1\cdot\lambda(\mathbb{Q}\cap[0,1])=1\cdot 0=0\)。
反例 2(Cantor 函数:连续单调,导数几乎处处为零,却"爬升"了 1)。 Cantor 函数(魔鬼楼梯)\(c:[0,1]\to[0,1]\) 连续、单调递增、\(c(0)=0\)、\(c(1)=1\),但它在 Cantor 集的补集(一个全长为 \(1\) 的开集)上是分段常值的,因此 \(c'(x)=0\) 对**几乎处处**的 \(x\) 成立。于是
微积分基本定理 \(\int_a^b f'=f(b)-f(a)\) 在这里**失效**!这说明"连续 + 几乎处处可导"不足以保证 FTC——必须有更强的条件(§15 的绝对连续)。这个反例在本章会反复出现,是理解微分与积分关系的试金石。
反例 3(脆弱性:肥胖 Cantor 集)。 普通 Cantor 集 \(C\) 的特征函数 \(\mathbf{1}_C\) 是 Riemann 可积的(\(C\) 测度为零,不连续点集为零测)。但只要把构造稍作改动——每步挖掉的中间区间长度按 \(4^{-n}\)(而非 \(3^{-n}\))递减,得到的"Smith–Volterra–Cantor 集"\(C_+\) 测度为 \(1/2\),其特征函数 \(\mathbf{1}_{C_+}\) 的不连续点集测度为 \(1/2>0\),不再 Riemann 可积。一个测度为零的微小调整就摧毁了可积性——Riemann 理论对集合的几何过于敏感,没有鲁棒性。
本质洞察:Riemann 可积的精确刻画(Lebesgue 判据)是——有界函数 \(f:[a,b]\to\mathbb{R}\) Riemann 可积当且仅当它的**不连续点集是 Lebesgue 零测集**。注意这句话本身就动用了"Lebesgue 测度"这个概念。换言之,"什么使 Riemann 失败"这个问题,只能用 Lebesgue 的语言回答。Riemann 积分携带着它自己无法表述的局限——这是非升级到测度论不可的第一个信号。
反面(续):极限与积分不能交换——最致命的缺陷¶
对机器人学最致命的不是个别病态函数,而是**极限与积分无法交换**。蒙特卡洛方法、随机逼近、滤波收敛,本质都是"用一列近似 \(f_n\) 逼近目标 \(f\),然后希望 \(\int f_n\to\int f\)"。Riemann 框架下,这个希望常常落空。
把 \(\mathbb{Q}\cap[0,1]\) 枚举为 \(\{q_1,q_2,\dots\}\),定义
每个 \(f_n\) 只在有限个点上非零,因此处处 Riemann 可积且 \(\int_0^1 f_n=0\)。而 \(f_n\) 单调递增逐点收敛到 \(\mathbf{1}_{\mathbb{Q}}\)。极限函数 \(\mathbf{1}_{\mathbb{Q}}\) 竟然**不 Riemann 可积**——序列每一项都规规矩矩,极限却跳出了 Riemann 可积函数的世界。
这正是 Lebesgue 在 1902 年博士论文里要修的洞。Riemann 可积函数空间在"取逐点极限"下不封闭,更要命的是在 \(\|\cdot\|_1\) 范数下**不完备**(§9、§13 会精确化)。一个不完备的空间,就像只有有理数的数轴——序列收敛的极限可能掉出空间外,分析根本没法做。
历史:Lebesgue 的"水平切片"革命¶
Lebesgue 1902 年的洞察可以用一句话概括:别按定义域切,按值域切。
Riemann 问的是"在 \(x\in[x_i,x_{i+1}]\) 这一小段里,\(f\) 大约是多少?"——当 \(f\) 在这段里剧烈震荡(如 Dirichlet 函数)时,这个问题没有好答案。Lebesgue 反过来问:"\(f\) 的取值落在 \([y_k,y_{k+1})\) 这一层的那些 \(x\),它们的'总量'是多少?"——然后用 \(y_k\) 乘以这个总量再求和:
本质洞察:这个转向把全部难度从"函数有多怪"**转移**到"集合 \(\{f\in[y_k,y_{k+1})\}\) 怎么量它的大小"。无论 \(f\) 在定义域上多么病态地震荡,只要每一层 \(\{y_k\le f<y_{k+1}\}\) 是"可测的"(能赋予一个长度),积分就有定义。Dirichlet 函数的层只有两个——\(\{f=1\}=\mathbb{Q}\cap[0,1]\)(测度 \(0\))和 \(\{f=0\}=\mathbb{Q}^c\cap[0,1]\)(测度 \(1\))——积分立刻是 \(1\cdot 0+0\cdot 1=0\)。代价是:必须先把"集合的测度"这件事严格化。这就是 §2–§5 的全部任务。
用一个生活类比:清点一堆面值混乱的硬币。Riemann 的做法是"从左到右一枚一枚加"(按位置/定义域);Lebesgue 的做法是"先按面值分堆——1 元的一堆、5 角的一堆——数每堆几枚再乘面值"(按值/值域)。当硬币散乱(函数病态)时,后者显然更稳健。这个类比像的地方:都是为了求总额;不像的地方:硬币是有限可数的,而 Lebesgue 要处理连续值域上不可数无穷的"层",所以需要测度论这套远超"数个数"的机械装置——这正是为什么后面要花五节建测度。
理论:Lebesgue 纲领的三块拼图¶
Lebesgue 积分的严格构造需要三块拼图,本章依次完成:
| 拼图 | 要回答的问题 | 本章位置 |
|---|---|---|
| 可测集 | 哪些集合 \(\{f\in[y_k,y_{k+1})\}\) 能赋测度?测度满足什么公理? | §2(\(\sigma\)-代数)、§3(测度)、§4(Carathéodory)、§5(Lebesgue 测度) |
| 可测函数 | 哪些函数 \(f\) 保证每一层都可测? | §6 |
| 积分本身 | 怎么从"层的测度"严格定义 \(\int f\,d\mu\),并证明它有好的极限性质? | §7(构造)、§8(收敛定理) |
完成这三块后,Lebesgue 积分将拥有 Riemann 永远给不了的三个礼物:(i) 极限与积分在弱条件下可交换(MCT/DCT,§8);(ii) \(L^p\) 空间完备(Riesz–Fischer,§13);(iii) 重积分与累次积分自由交换(Fubini,§10)。这三个礼物,分别是粒子滤波收敛、Kalman 滤波存在性、SLAM 边际化的数学命根子。
机器人应用:为什么连续状态空间非 Lebesgue 不可¶
把上面的诊断落到具体场景。机器人在连续状态空间(位姿、速度)上的观测似然 \(p(z\mid x)\) 几乎必然带跳跃:
- 激光雷达:射线被障碍截断处,似然从"命中"陡降到"未命中",是阶跃间断;
- 视觉特征:遮挡边界两侧,特征可见性突变;
- 接触传感:碰/不碰是二值的。
在 Riemann 框架下,\(\int p(z\mid x)\,dP(x)\)(贝叶斯归一化常数)可能因为这些间断而**没有定义**。但在 Lebesgue 框架下,只要 \(p(z\mid\cdot)\) 是可测函数(§6 会证明:分段连续、阶跃、乃至几乎处处定义的函数都可测),积分就稳稳存在。这是粒子滤波、贝叶斯滤波能在真实复杂机器人场景里工作的根本数学保证——它们隐式地全都在做 Lebesgue 积分,而非 Riemann 积分。
本质洞察:本科阶段你以为"积分就是求曲线下面积",这是 Riemann 视角。读完本章你会换一个本体论:积分是测度对函数的作用 \(\langle\mu,f\rangle=\int f\,d\mu\)。面积只是 \(\mu=\) Lebesgue 测度时的特例;当 \(\mu=P\) 是概率测度,\(\int f\,dP\) 就是期望;当 \(\mu=\mu_H\) 是 \(\mathrm{SO}(3)\) 上的 Haar 测度,\(\int f\,d\mu_H\) 就是姿态空间上的平均。同一个积分符号,承载了从面积到期望到群平均的统一。
⚠️ 常见陷阱¶
陷阱 1.1(概念误区):把"Lebesgue 可积"当成"Riemann 可积的超集,所以更弱" - 错误描述:认为既然 Lebesgue 能积更多函数,它就是"更宽松"的积分,Riemann 能做的它都能做且做得更好,二者是包含关系。 - 现象/后果:以为 \(\int_0^\infty\frac{\sin x}{x}\,dx\) 这种条件收敛的反常积分也是 Lebesgue 积分,进而误用 Fubini/DCT 导致错误结论。 - 根本原因:Lebesgue 积分要求**绝对可积**(\(\int|f|<\infty\))。而 \(\int_0^\infty\frac{|\sin x|}{x}\,dx=\infty\),所以 \(\frac{\sin x}{x}\) 作为广义 Riemann 积分存在(\(=\pi/2\))但**不是 Lebesgue 可积**。在无界区间上的条件收敛积分,是 Riemann(广义)能做而 Lebesgue 不能做的——二者并非简单的包含关系(§9 详述)。 - 正确做法:记住 Lebesgue 的判据是 \(|f|\) 可积。条件收敛的震荡积分需用 Henstock–Kurzweil 积分或在复分析里作反常积分处理,不能套 Lebesgue 的定理。
陷阱 1.2(思维陷阱):以为"零测集 = 可数集" - 错误描述:看到 \(\mathbb{Q}\) 可数且测度为零,就归纳出"零测集就是可数集,不可数集测度必为正"。 - 现象/后果:在分析中错误地认为"几乎处处"等价于"除可数个点外",从而漏掉重要的不可数零测集(如 Cantor 集上的现象)。 - 根本原因:可数 \(\Rightarrow\) 零测(可数个点可被总长 \(\sum\varepsilon/2^n=\varepsilon\) 的区间盖住),但**反之不成立**。Cantor 集不可数(基数 \(\mathfrak{c}\))却测度为零。 - 正确做法:零测和可数是两个独立概念。零测的本质是"可被任意小总长的开集覆盖",与基数无关。Cantor 函数的整个"爬升"都发生在这个不可数零测集上——这正是反例 2 的微妙之处。
陷阱 1.3(概念误区):把"逐点收敛 \(f_n\to f\)"当成"\(\int f_n\to\int f\)"的充分条件 - 错误描述:在蒙特卡洛或随机逼近里,看到估计量 \(f_n\) 逐点收敛到目标 \(f\),就直接断言积分(期望)也收敛。 - 现象/后果:在没有控制函数的情形下,积分可能根本不收敛——"质量逃逸到无穷远"(§8 的行进帽子反例 \(f_n=\mathbf{1}_{[n,n+1]}\),\(\int f_n=1\) 但 \(f_n\to 0\))。 - 根本原因:逐点收敛太弱,不控制函数的"垂直/水平方向的逃逸"。Riemann 框架下连这种交换的定理都没有;Lebesgue 框架下也需要额外条件(单调或控制)。 - 正确做法:交换极限与积分必须援引 MCT(单调)、Fatou(单边不等式)或 DCT(有 \(L^1\) 控制),见 §8。这是本章最常被用到的纪律。
练习¶
-
(推导题,草稿纸完成) 证明:可数集是 Lebesgue 零测集。具体地,设 \(A=\{a_1,a_2,\dots\}\) 可数,对任意 \(\varepsilon>0\) 构造一列开区间 \(\{I_n\}\) 使 \(A\subseteq\bigcup_n I_n\) 且 \(\sum_n|I_n|<\varepsilon\)。再说明为什么这个论证对不可数集(如 \([0,1]\))失效。
-
(开放思考题) 反例 3 中的"肥胖 Cantor 集"\(C_+\) 测度为 \(1/2\)。请构造一族 Cantor 型集 \(\{C_\alpha\}\),使 \(C_\alpha\) 的测度恰为给定的 \(\alpha\in[0,1)\)。提示:控制每步挖去的区间总长。这族集合说明了什么——"无处稠密的闭集"可以有任意接近 \(1\) 的测度,从而其特征函数 Riemann 不可积。
-
(证明题) 直接用 Darboux 和证明反例 1 中的 \(f_n=\mathbf{1}_{\{q_1,\dots,q_n\}}\) 在 \([0,1]\) 上 Riemann 可积且积分为 \(0\)。然后解释:为什么"每项可积且积分为 \(0\)"无法推出"逐点极限 \(\mathbf{1}_{\mathbb{Q}}\) 可积"。这个练习要让你亲手触碰 Riemann 框架的不封闭性。
§2 \(\sigma\)-代数与可测空间 ⭐⭐¶
动机:不是所有集合都能量长度¶
§1 告诉我们:Lebesgue 积分把难度转移到"集合 \(\{f\in[y_k,y_{k+1})\}\) 怎么量大小"。最自然的愿望是——给**每个**子集 \(A\subseteq\mathbb{R}\) 都赋一个"长度" \(\mu(A)\in[0,\infty]\),满足平移不变、可数可加、单位区间长度为 \(1\)。
反面:这个愿望做不到。§5 会用选择公理构造出 Vitali 集——一个无论如何都无法赋予合理"长度"的集合(赋任何值都导致矛盾)。结论是残酷的:在 \(\mathbb{R}\) 上,不存在一个对全体子集 \(2^{\mathbb{R}}\) 都定义、且满足平移不变 + 可数可加 + 归一化的测度。
既然不能给所有集合量长度,就只能退而求其次:圈定一族"好集合"——它对我们关心的运算(取补、可数并、可数交)封闭,且足够大(包含开集、闭集、以及由它们经可数次运算生成的一切)。这族"好集合"就是 \(\sigma\)-代数,是测度论的第一块地基。
历史:从代数到 \(\sigma\)-代数¶
19 世纪末 Borel 研究"能赋长度的集合"时,发现只要从开区间出发、允许**可数次**并/交/补,就能生成一个对分析足够用的集族(今称 Borel 集)。Borel 1898、Lebesgue 1902 把"可数"这个量级钉死下来——不是有限(太弱,盖不住极限事件),也不是任意无穷(太强,导出 Vitali 矛盾),恰好是**可数无穷**。这个"刚刚好"的选择是测度论全部威力的来源。
理论:\(\sigma\)-代数的定义¶
定义 2.1(\(\sigma\)-代数):设 \(X\) 是一个集合。集族 \(\mathcal{M}\subseteq 2^X\) 称为 \(X\) 上的一个 \(\sigma\)-代数,若它满足: 1. 含全集:\(X\in\mathcal{M}\); 2. 补封闭:\(A\in\mathcal{M}\Rightarrow A^c=X\setminus A\in\mathcal{M}\); 3. 可数并封闭:\(A_1,A_2,\dots\in\mathcal{M}\Rightarrow\bigcup_{n=1}^\infty A_n\in\mathcal{M}\)。
此时称 \((X,\mathcal{M})\) 为**可测空间**,\(\mathcal{M}\) 中的成员称为**可测集**。
由 De Morgan 律,可数并封闭 + 补封闭立刻给出**可数交封闭** \(\bigcap_n A_n=\big(\bigcup_n A_n^c\big)^c\in\mathcal{M}\);又 \(\varnothing=X^c\in\mathcal{M}\),差集 \(A\setminus B=A\cap B^c\in\mathcal{M}\)。所以 \(\sigma\)-代数对一切"可数次集合运算"封闭。
为什么是"可数"并,而不是"有限"并? 这是整个测度论最关键的设计抉择,值得停下来想透。
本质洞察:可数并(而非有限并)是让"极限事件"可度量的关键。考虑事件列 \(A_n=\{\)第 \(n\) 次观测出现异常\(\}\)。"异常发生了无穷多次"这个事件是 \(\limsup_n A_n=\bigcap_k\bigcup_{n\ge k}A_n\)——它由可数次并与交构成。若 \(\mathcal{M}\) 只对有限并封闭,这个极限事件就可能不在 \(\mathcal{M}\) 里,我们就无法谈论它的概率。Borel–Cantelli 引理(§3)"坏事件几乎必然只发生有限次"——随机逼近、SGD 几乎必然收敛的命根子——的整个陈述都活在可数并封闭这条公理上。只对有限并封闭的集族叫"代数"(algebra),它撑不起极限分析;升级到可数(\(\sigma\) 即"可数"的记号),才得到 \(\sigma\)-代数。
对比性思维(不是 X 而是 Y):\(\sigma\)-代数**不是**"把所有子集都收进来"(那会导出 Vitali 矛盾),而是"恰好收进对可数运算封闭的那些子集"。它是在"什么都能量(不可能)"和"只能量区间(太少)"之间的那个**恰到好处**的折中。
理论:三个基本例子¶
| 例子 | 描述 | 大小 | 用途 |
|---|---|---|---|
| 平凡 \(\sigma\)-代数 | \(\{\varnothing, X\}\) | 最小 | "什么都区分不了"的信息基线 |
| 幂集 | \(2^X\) | 最大 | 离散空间(如有限状态机)默认 \(\sigma\)-代数 |
| Borel \(\sigma\)-代数 | \(\mathcal{B}(X)=\sigma(\text{开集})\) | 适中 | \(\mathbb{R}^n\)、流形上分析的标准框架 |
在离散/可数的 \(X\)(如机器人的有限地图栅格、HMM 的离散状态)上,通常直接取 \(\mathcal{M}=2^X\),每个子集都可测,无需精细构造。麻烦只出在**连续**空间(\(\mathbb{R}^n\)、\(\mathrm{SO}(3)\)),那里 \(2^X\) 太大(含不可测集),必须退到 Borel \(\sigma\)-代数。
理论:生成 \(\sigma\)-代数与 Borel 集¶
给定任意集族 \(\mathcal{E}\subseteq 2^X\)(不一定是 \(\sigma\)-代数),我们想找"包含 \(\mathcal{E}\) 的最小 \(\sigma\)-代数"。
定义 2.2(生成 \(\sigma\)-代数): $\(\sigma(\mathcal{E}):=\bigcap\{\mathcal{M}:\mathcal{M}\text{ 是 }X\text{ 上的 }\sigma\text{-代数},\ \mathcal{E}\subseteq\mathcal{M}\}.\)$
为什么这个交集是良定义的 \(\sigma\)-代数? 首先 \(2^X\) 本身就是一个含 \(\mathcal{E}\) 的 \(\sigma\)-代数,所以参与求交的集族非空。其次,任意多个 \(\sigma\)-代数的交仍是 \(\sigma\)-代数(逐条验证:每个都含 \(X\),故交含 \(X\);每个补封闭,故交补封闭;每个可数并封闭,故交可数并封闭)。因此 \(\sigma(\mathcal{E})\) 是一个 \(\sigma\)-代数,且它被任何含 \(\mathcal{E}\) 的 \(\sigma\)-代数包含——这就是"最小"的精确含义。
定义 2.3(Borel \(\sigma\)-代数):拓扑空间 \(X\) 上, $\(\mathcal{B}(X):=\sigma(\tau_X),\quad \tau_X=X\text{ 的全体开集}.\)$ \(\mathcal{B}(\mathbb{R})\) 是包含一切开区间(等价地一切开集、闭集、半开区间、单点集)的最小 \(\sigma\)-代数。
\(\mathcal{B}(\mathbb{R})\) 包含了分析中能写出来的几乎一切集合:开集、闭集、\(G_\delta\)(可数个开集的交)、\(F_\sigma\)(可数个闭集的并)、单点、区间、Cantor 集……以及它们的可数次组合。它是"一切连续函数、一切开/闭集都可测"的最小共同框架——这正是我们想要的"好集合"全体。
本质洞察:我们几乎**永远无法显式枚举** \(\sigma(\mathcal{E})\) 的所有成员——从开区间出发做可数次运算,会得到 \(F_\sigma,G_\delta,F_{\sigma\delta},G_{\delta\sigma},\dots\) 这个无穷上升的层级(Borel 阶层),其复杂度超出任何显式描述。这带来一个方法论困境:要证"\(\sigma(\mathcal{E})\) 中所有集合都有性质 \(P\)",不能逐个检查。解决之道是下面的 \(\pi\)-\(\lambda\) 定理与单调类定理——它们把"对所有 Borel 集成立"归约为"对生成元(区间)成立 + 某个封闭性",是测度论里最常用的"归纳法"。
理论:\(\pi\)-\(\lambda\) 定理(Dynkin 系统定理)——唯一性证明的瑞士军刀¶
由于无法枚举 \(\sigma(\mathcal{E})\),证明两个测度相等(或某性质对所有可测集成立)需要一个间接工具。
定义 2.4:设 \(X\) 是集合。 - \(\pi\)-系 \(\mathcal{P}\):对**有限交**封闭的集族(\(A,B\in\mathcal{P}\Rightarrow A\cap B\in\mathcal{P}\))。 - \(\lambda\)-系(Dynkin 系)\(\mathcal{L}\):满足 (i) \(X\in\mathcal{L}\);(ii) \(A,B\in\mathcal{L},A\subseteq B\Rightarrow B\setminus A\in\mathcal{L}\)(差封闭);(iii) \(A_n\in\mathcal{L},A_n\uparrow A\Rightarrow A\in\mathcal{L}\)(可数递增并封闭)。
定理 2.5(\(\pi\)-\(\lambda\) 定理 / Dynkin):若 \(\pi\)-系 \(\mathcal{P}\) 包含于 \(\lambda\)-系 \(\mathcal{L}\),则 \(\sigma(\mathcal{P})\subseteq\mathcal{L}\)。
这个定理怎么用?应用模板。 要证两个测度 \(\mu,\nu\) 在 \(\sigma(\mathcal{P})\) 上相等: 1. 验证它们在 \(\pi\)-系 \(\mathcal{P}\)(如所有半开区间)上相等——这通常是直接计算; 2. 验证 \(\mathcal{L}:=\{A:\mu(A)=\nu(A)\}\) 是一个 \(\lambda\)-系(含 \(X\)、差封闭、递增并封闭——用测度的可加性与连续性逐条验证); 3. 由 \(\mathcal{P}\subseteq\mathcal{L}\) 与定理得 \(\sigma(\mathcal{P})\subseteq\mathcal{L}\),即 \(\mu=\nu\) 在整个 \(\sigma(\mathcal{P})\) 上成立。
这个模板在 §4(扩张唯一性)、§10(积测度唯一性)反复出现。它的妙处是:绕开了"描述 \(\sigma(\mathcal{P})\) 的全部成员"这个不可能任务,只需在简单的生成元上验证 + 一个软的封闭性论证。
\(\pi\)-系与 \(\lambda\)-系的分工(对比性思维):单独一个 \(\lambda\)-系不一定是 \(\sigma\)-代数(它对**不交**并封闭,但不一定对任意有限交封闭)。定理的关键洞察是:\(\lambda\)-系 + 对有限交封闭(\(\pi\) 性质)\(\Rightarrow\) \(\sigma\)-代数。\(\pi\)-系提供"交",\(\lambda\)-系提供"补/差与极限",两者合起来才凑齐 \(\sigma\)-代数的全部封闭性。
机器人应用:信息 \(\sigma\)-代数与因果性¶
\(\sigma\)-代数在机器人滤波里有一个极精确的物理含义:它编码"在某时刻我们掌握了哪些信息"。
定义(信息 \(\sigma\)-代数 / filtration):在时刻 \(t\),机器人累积了观测 \(z_{1:t}\) 和控制 \(u_{1:t}\)。定义 $\(\mathcal{F}_t:=\sigma(z_{1:t},u_{1:t}),\)$ 即由这些随机变量生成的最小 \(\sigma\)-代数。它精确地"包含"了 \(t\) 时刻可由数据区分的一切事件。
随着时间推进,信息只增不减:\(\mathcal{F}_1\subseteq\mathcal{F}_2\subseteq\cdots\),这条上升链称为**过滤**(filtration),是鞅论与随机最优控制的载体。
因果性的严格定义:一个估计器 \(\hat x_t\)(如滤波输出)称为**因果的**(causal / adapted),当且仅当它是 \(\mathcal{F}_t\)-可测的——直白说,它只依赖到 \(t\) 为止真正观测到的信息,不偷看未来。这不是哲学约束,而是 \(\sigma\)-代数可测性的硬性数学条件。滤波被严格定义为条件期望
而这个定义的合法性(条件期望的存在唯一性)依赖 \(\mathcal{F}_t\) 是 \(\sigma\)-代数而不仅是代数——否则 §12 的 Radon–Nikodym 构造不成立。
本质洞察:你以前把"卡尔曼滤波用 \(z_{1:t}\) 估计 \(x_t\)"当成一句白话。测度论把它锻造成一个精确陈述:滤波 = 把随机变量 \(X_t\) 向 \(\sigma\)-子代数 \(\mathcal{F}_t\) 做条件期望。\(\sigma\)-代数越大(信息越多),条件期望越精细(估计越准)。"信息"在这里不是比喻,而是字面意义上的 \(\sigma\)-代数大小。这个视角在 §13 会进一步精确为"\(L^2\) 中向 \(\mathcal{F}_t\)-可测子空间的正交投影"。
⚠️ 常见陷阱¶
陷阱 2.1(概念误区):把"代数"当成"\(\sigma\)-代数" - 错误描述:认为对有限并/交封闭的集族(代数)就足以做测度论,"可数"那个 \(\sigma\) 只是技术细节。 - 现象/后果:在代数上定义的"测度"(预测度)无法谈论极限事件 \(\limsup A_n\),Borel–Cantelli、单调收敛全部失效;试图证"坏事件有限次发生"时发现该事件根本不在集族里。 - 根本原因:有限并封闭 \(\ne\) 可数并封闭。例:\(\mathbb{R}\) 上"有限个区间的有限并"构成代数,但 \(\bigcup_n[n,n+\tfrac12]\)(可数并)不在其中。 - 正确做法:分析必须用 \(\sigma\)-代数。代数只是构造 \(\sigma\)-代数的起点(§4 从代数上的预测度出发,经 Carathéodory 扩张到 \(\sigma\)-代数)。"\(\sigma\)"二字承载着全部极限分析的能力,绝非可有可无。
陷阱 2.2(思维陷阱):试图"显式写出"\(\sigma(\mathcal{E})\) 的所有元素 - 错误描述:证明某性质对所有 Borel 集成立时,企图枚举 \(\mathcal{B}(\mathbb{R})\) 的成员("开集、闭集、它们的并……")逐个验证。 - 现象/后果:陷入 \(F_\sigma,G_\delta,F_{\sigma\delta},\dots\) 的无穷 Borel 阶层,永远写不完,证明卡死。 - 根本原因:\(\sigma(\mathcal{E})\) 通常没有显式描述——它是通过"最小性"间接定义的,其复杂度超出任何有限刻画。 - 正确做法:用 \(\pi\)-\(\lambda\) 定理或单调类定理。把"对所有 Borel 集成立"归约为"对生成元(区间)成立" + "满足性质的集合构成 \(\lambda\)-系/单调类"。这是测度论证明的标准范式,务必形成肌肉记忆。
陷阱 2.3(概念误区):认为"\(\mathcal{F}_t\)-可测"是个抽象空话,与工程无关 - 错误描述:觉得"因果性 = \(\mathcal{F}_t\)-可测"只是数学家的形式主义,工程上滤波器自然不会用未来数据。 - 现象/后果:在平滑(smoothing)与滤波(filtering)混淆时栽跟头——平滑器 \(\mathbb{E}[X_t\mid\mathcal{F}_T]\)(\(T>t\))用了未来信息,是 \(\mathcal{F}_T\)-可测而非 \(\mathcal{F}_t\)-可测;把平滑结果当滤波结果会造成"未卜先知"的虚假性能。 - 根本原因:滤波、预测、平滑的区别精确地体现在"条件 \(\sigma\)-代数是 \(\mathcal{F}_t\)、\(\mathcal{F}_{t-1}\) 还是 \(\mathcal{F}_T\)"。 - 正确做法:始终明确你的估计量关于哪个 \(\sigma\)-代数可测。在线滤波必须 \(\mathcal{F}_t\)-可测;离线平滑可用 \(\mathcal{F}_T\)。这个区分在 SLAM 后端(批量平滑)vs 前端(在线滤波)里是实打实的工程分界。
练习¶
-
(证明题,草稿纸完成) 证明:任意多个 \(\sigma\)-代数的交仍是 \(\sigma\)-代数;并举例说明两个 \(\sigma\)-代数的**并**一般**不是** \(\sigma\)-代数(提示:在 \(X=\{1,2,3\}\) 上找两个 \(\sigma\)-代数,它们的并对某个并运算不封闭)。这解释了为什么 \(\sigma(\mathcal{E})\) 用"交"而非"并"来定义。
-
(推导题) 证明 \(\mathcal{B}(\mathbb{R})\) 由以下任意一族生成,从而它们生成同一个 \(\sigma\)-代数:(a) 全体开区间 \((a,b)\);(b) 全体半开区间 \((a,b]\);(c) 全体形如 \((-\infty,a]\) 的射线。提示:说明每族成员都能用另一族的成员经可数次运算得到。这个练习让你体会"生成元的选择不唯一,但生成的 \(\sigma\)-代数唯一"。
-
(开放思考题) 设 \(X=\mathbb{R}\),\(f:\mathbb{R}\to\mathbb{R}\) 是一个给定函数。证明 \(\mathcal{F}:=\{f^{-1}(B):B\in\mathcal{B}(\mathbb{R})\}\) 是 \(\mathbb{R}\) 上的一个 \(\sigma\)-代数(称为 \(f\) 生成的 \(\sigma\)-代数 \(\sigma(f)\))。直观解释:\(\sigma(f)\) 恰好是"通过观测 \(f\) 的值能区分的事件"。把这个结论与信息 \(\sigma\)-代数 \(\mathcal{F}_t=\sigma(z_{1:t},u_{1:t})\) 联系起来——为什么"观测越多,\(\sigma\)-代数越大"?
§3 测度的定义与基本性质 ⭐⭐¶
动机:把"长度/概率/质量"公理化¶
§2 圈定了"好集合"(\(\sigma\)-代数)。现在要在这些集合上真正赋一个"大小"——长度、面积、概率、质量。这个"大小"该满足什么规则?我们不想凭空规定一堆性质,而想找到**最少**的几条公理,让其余一切性质自动推出。
直觉上,"大小"至少要满足:空集大小为 \(0\);不重叠的部分加起来等于整体(可加性)。Lebesgue 的关键决断是——可加性必须做到**可数**那么强,而不止有限。这一条之差,决定了能否谈论极限。
历史:Borel 的可数可加性与 Kolmogorov 的概率公理¶
Borel 1898 年首次要求测度对可数个不交集可加。1933 年 Kolmogorov 在《概率论基础》里做了一件影响深远的事:他指出**概率不过是总质量为 \(1\) 的测度**,从而把整个概率论还原为测度论的一个分支。这个还原是现代概率论的奠基——从此"事件""随机变量""期望""独立""条件期望"全都有了测度论的精确定义,概率论摆脱了"频率""等可能"这类模糊基础。本章的每一条测度性质,下一句话就能翻译成一条概率性质。
理论:测度的定义¶
定义 3.1(测度):设 \((X,\mathcal{M})\) 是可测空间。函数 \(\mu:\mathcal{M}\to[0,\infty]\) 称为 \((X,\mathcal{M})\) 上的一个**测度**,若: 1. \(\mu(\varnothing)=0\); 2. 可数可加性(\(\sigma\)-可加):对**两两不交**的可测集列 \(\{A_j\}_{j\ge1}\subseteq\mathcal{M}\), $\(\mu\Big(\bigcup_{j=1}^\infty A_j\Big)=\sum_{j=1}^\infty\mu(A_j).\)$ 此时 \((X,\mathcal{M},\mu)\) 称为**测度空间**。
注意值域是 \([0,\infty]\),允许取 \(+\infty\)(如 \(\mathbb{R}\) 整条直线的 Lebesgue 测度)。几个重要的子类:
| 类型 | 条件 | 例子 |
|---|---|---|
| 有限测度 | \(\mu(X)<\infty\) | 任何概率测度;区间 \([0,1]\) 上的 Lebesgue 测度 |
| 概率测度 | \(\mu(X)=1\) | 所有 \(P,\mathbb{P}\) |
| \(\sigma\)-有限测度 | \(X=\bigcup_n X_n\),\(\mu(X_n)<\infty\) | \(\mathbb{R}^n\) 上的 Lebesgue 测度(\(\mathbb{R}^n=\bigcup_n[-n,n]^n\)) |
| 计数测度 | \(\mu(A)=\#A\)(元素个数) | 离散求和的测度化 |
\(\sigma\)-有限性是后续许多大定理(Fubini §10、Radon–Nikodym §12)的关键前提,务必留意。它的直觉是:空间虽可能无限大,但能切成可数个有限块。
本质洞察:可数可加性是测度论与概率论一切"极限威力"的唯一来源。它看似只比有限可加性多一个"可数",但正是这一步让"由下连续性"\(A_n\uparrow A\Rightarrow\mu(A_n)\uparrow\mu(A)\) 成立——也就是说,测度与递增极限可交换。所有"观测越多、估计越稳""样本越多、经验分布越接近真分布"的极限陈述,根子都在可数可加性。放弃它(只保留有限可加),就回到了无法做极限分析的"代数 + 预测度"世界。
理论:从公理推出的基本性质¶
下面五条性质**全部**从两条公理推出,不需要任何额外假设。这展示了公理化的威力:少数公理 + 严格推理 = 丰富结论。
命题 3.2:设 \((X,\mathcal{M},\mu)\) 为测度空间,\(A,B,A_n\in\mathcal{M}\)。则: 1. 有限可加性:\(A\cap B=\varnothing\Rightarrow\mu(A\cup B)=\mu(A)+\mu(B)\); 2. 单调性:\(A\subseteq B\Rightarrow\mu(A)\le\mu(B)\); 3. 可数次可加性:\(\mu\big(\bigcup_n A_n\big)\le\sum_n\mu(A_n)\)(不要求不交); 4. 由下连续性:\(A_n\uparrow A\)(即 \(A_n\subseteq A_{n+1}\),\(\bigcup A_n=A\))\(\Rightarrow\mu(A_n)\uparrow\mu(A)\); 5. 由上连续性:\(A_n\downarrow A\) 且 \(\mu(A_1)<\infty\Rightarrow\mu(A_n)\downarrow\mu(A)\)。
逐条证明(每步说清用了什么):
(1) 有限可加性:在可数可加性中取 \(A_1=A,A_2=B,A_3=A_4=\cdots=\varnothing\)。因 \(\mu(\varnothing)=0\),可数和退化为 \(\mu(A)+\mu(B)\)。
(2) 单调性:\(A\subseteq B\) 时 \(B=A\cup(B\setminus A)\) 是不交并,由 (1) 得 \(\mu(B)=\mu(A)+\mu(B\setminus A)\ge\mu(A)\)(因 \(\mu(B\setminus A)\ge 0\))。
阶段小结:到这里我们用"不交并 + 非负"两步就从可数可加性挤出了单调性。下面三条(次可加、上下连续)是真正用到"可数"威力的地方。
(3) 可数次可加性:把可能重叠的 \(\{A_n\}\) "不交化"——令 \(B_1=A_1\),\(B_n=A_n\setminus\bigcup_{j<n}A_j\)。则 \(\{B_n\}\) 两两不交,\(\bigcup_n B_n=\bigcup_n A_n\),且 \(B_n\subseteq A_n\)。由可数可加性与单调性: $$ \mu\Big(\bigcup_n A_n\Big)=\mu\Big(\bigcup_n B_n\Big)=\sum_n\mu(B_n)\le\sum_n\mu(A_n). $$ 这个"不交化"技巧(把任意并改写成不交并)在测度论里无处不在,务必掌握。
(4) 由下连续性:设 \(A_n\uparrow A\)。令 \(B_1=A_1\),\(B_n=A_n\setminus A_{n-1}\)(\(n\ge2\))。则 \(\{B_n\}\) 不交,\(A_n=\bigcup_{j\le n}B_j\),\(A=\bigcup_j B_j\)。由可数可加性: $$ \mu(A)=\sum_{j=1}^\infty\mu(B_j)=\lim_{n\to\infty}\sum_{j=1}^n\mu(B_j)=\lim_{n\to\infty}\mu(A_n). $$ 中间一步用了"无穷级数 = 部分和的极限",末步用了有限可加性。这条性质是测度论里"连续性"的核心——它让"取极限"和"算测度"可交换。
(5) 由上连续性:设 \(A_n\downarrow A\) 且 \(\mu(A_1)<\infty\)。令 \(C_n=A_1\setminus A_n\),则 \(C_n\uparrow A_1\setminus A\)。由 (4):\(\mu(C_n)\uparrow\mu(A_1\setminus A)\),即 \(\mu(A_1)-\mu(A_n)\uparrow\mu(A_1)-\mu(A)\)。因 \(\mu(A_1)<\infty\) 可两边消去,得 \(\mu(A_n)\downarrow\mu(A)\)。
为什么 (5) 必须要求 \(\mu(A_1)<\infty\)?(反事实推理) 如果去掉这个有限性条件,结论就崩。取 \(A_n=[n,\infty)\subseteq\mathbb{R}\),则 \(A_n\downarrow\varnothing\),理应 \(\mu(A_n)\to\mu(\varnothing)=0\)。但每个 \(\mu([n,\infty))=\infty\),极限是 \(\infty\ne 0\)!毛病出在上一步"两边消去 \(\mu(A_1)=\infty\)"是非法的(\(\infty-\infty\) 无意义)。
本质洞察:由下连续(递增)永远成立,由上连续(递减)需要有限性。这个不对称很重要:质量可以无限制地"长出来",但"缩回去"时若涉及无穷大就会出问题。在概率测度里 \(\mu(X)=1<\infty\),所以上下连续都成立——这是概率论里能自由取递减极限的原因。在 Lebesgue 测度等无限测度里,必须时刻警惕这个有限性条件。
理论:Borel–Cantelli 引理——"坏事件几乎必然有限次"¶
这是测度论里第一个直接服务于机器人算法收敛性的结论。
引理 3.3(Borel–Cantelli,第一部分):设 \(\{A_n\}\subseteq\mathcal{M}\)。若 \(\sum_{n=1}^\infty\mu(A_n)<\infty\),则 $\(\mu\Big(\limsup_n A_n\Big)=\mu\Big(\bigcap_{k=1}^\infty\bigcup_{n\ge k}A_n\Big)=0.\)$ 这里 \(\limsup_n A_n=\{x:x\in A_n\text{ 对无穷多个 }n\}\) 是"\(A_n\) 发生无穷多次"的事件。
证明(骨架展开为完整论证):记 \(B_k=\bigcup_{n\ge k}A_n\)。则 \(\limsup_n A_n=\bigcap_k B_k\),且 \(B_k\downarrow\bigcap_k B_k\)(递减,因为 \(k\) 增大时并的范围缩小)。由可数次可加性, $$ \mu(B_k)=\mu\Big(\bigcup_{n\ge k}A_n\Big)\le\sum_{n\ge k}\mu(A_n). $$ 由假设 \(\sum_n\mu(A_n)<\infty\),其尾部 \(\sum_{n\ge k}\mu(A_n)\to 0\)(收敛级数的尾和趋零)。故 \(\mu(B_k)\to 0\)。又因 \(\mu(\limsup A_n)\le\mu(B_k)\) 对每个 \(k\) 成立(单调性),令 \(k\to\infty\) 得 \(\mu(\limsup A_n)=0\)。\(\quad\blacksquare\)
注意这里**没用到**由上连续性(避开了它的有限性条件)——直接用单调性 + 尾和趋零,更干净。
理论:测度的完备化¶
Borel 测度有一个小瑕疵:零测集的子集可能不可测。这在分析中常带来不便("几乎处处"的论证希望零测集的任何子集都能被忽略)。完备化修补这个瑕疵。
定义 3.4(完备测度):测度空间 \((X,\mathcal{M},\mu)\) 称为**完备的**,若每个零测集的子集都可测:\(N\in\mathcal{M},\mu(N)=0,E\subseteq N\Rightarrow E\in\mathcal{M}\)(从而 \(\mu(E)=0\))。
命题 3.5(完备化):给定 \((X,\mathcal{M},\mu)\),令 $\(\bar{\mathcal{M}}=\{A\cup E:A\in\mathcal{M},\ E\subseteq N\text{ 某个 }N\in\mathcal{M}\text{ 满足 }\mu(N)=0\},\quad \bar\mu(A\cup E)=\mu(A).\)$ 则 \((X,\bar{\mathcal{M}},\bar\mu)\) 是包含 \((X,\mathcal{M},\mu)\) 的最小完备测度空间,\(\bar\mu\) 良定义(不依赖 \(A\cup E\) 的分解方式)。
Lebesgue 测度就是 Borel 测度的完备化——这是 Lebesgue 可测集比 Borel 集多出来的那一部分的来源(§5 详述)。
机器人应用:概率公理就是测度公理的特化¶
把命题 3.2 逐条翻译成概率语言,你会发现概率论的"公理"其实一条都不新——全是测度公理的特化。
| 测度性质 | 概率版本 | 机器人含义 |
|---|---|---|
| \(\mu(\varnothing)=0\) | \(P(\varnothing)=0\) | 不可能事件概率为 \(0\) |
| 有限可加(不交) | \(P(A\cup B)=P(A)+P(B)\) | 互斥事件概率相加 |
| 单调性 | \(A\subseteq B\Rightarrow P(A)\le P(B)\) | 更宽泛的事件更可能 |
| 由下连续 | \(A_n\uparrow A\Rightarrow P(A_n)\uparrow P(A)\) | 观测越多,事件概率估计越稳定收敛 |
| 可数次可加 | \(P(\bigcup A_n)\le\sum P(A_n)\) | union bound:失败概率被各分量之和控制 |
| Borel–Cantelli | \(\sum P(A_n)<\infty\Rightarrow P(A_n\text{ i.o.})=0\) | 坏事件几乎必然只发生有限次 |
最后两条对机器人学习尤其关键。Union bound(可数次可加)是 PAC 学习、采样运动规划失败概率分析的主力工具——把"任一约束被违反"的概率上界为各约束违反概率之和。Borel–Cantelli 是随机逼近、SGD"几乎必然收敛"证明的命门:若能证明"第 \(n\) 步偏差超过 \(\varepsilon\)"的概率之和有限(\(\sum_n P(|\theta_n-\theta^*|>\varepsilon)<\infty\)),则几乎必然只有有限步偏差大,从而轨迹收敛。这正是 §14 会展开的 a.s. 收敛分析的起点。
本质洞察:概率论里的"几乎必然"(almost surely, a.s.)和测度论里的"几乎处处"(almost everywhere, a.e.)是**同一个概念**——除一个零(概率/测度)集外成立。机器人部署最关心 a.s. 收敛而非仅依概率收敛,因为单次部署即决定系统成败(§14 详述)。而 a.s. 收敛的标准证明路径就是 Borel–Cantelli——这条看似纯数学的引理,是评估"我的算法在真实硬件上是否可靠收敛"的直接工具。
⚠️ 常见陷阱¶
陷阱 3.1(概念误区):把"由上连续性"无条件使用,忘记有限性前提 - 错误描述:看到 \(A_n\downarrow A\) 就直接写 \(\mu(A_n)\to\mu(A)\),不检查 \(\mu(A_1)<\infty\)。 - 现象/后果:在无限测度(Lebesgue 测度、\(\sigma\)-有限但局部无限的测度)上得出荒谬结论,如算出 \(\mu(\varnothing)=\infty\)。 - 根本原因:由上连续性的证明要"消去 \(\mu(A_1)\)",若 \(\mu(A_1)=\infty\) 则 \(\infty-\infty\) 无意义。反例 \(A_n=[n,\infty)\):\(A_n\downarrow\varnothing\) 但 \(\mu(A_n)\equiv\infty\)。 - 正确做法:用由上连续性前先确认有某个 \(A_{n_0}\) 满足 \(\mu(A_{n_0})<\infty\)。在概率测度里此条自动满足(\(P(X)=1\)),但在 Lebesgue 测度里必须显式验证。
陷阱 3.2(思维陷阱):以为"可数可加"和"有限可加"在实践中没区别 - 错误描述:觉得现实中只处理有限多个事件,可数与有限可加性的差异是纯理论的。 - 现象/后果:在涉及极限的场景(经验分布收敛、无穷时间轴随机过程、级数形式的概率)里,用有限可加性会得到错误或无定义的结果。存在"有限可加但非可数可加"的病态测度(如基于自由超滤子的测度),它们违反直觉。 - 根本原因:可数可加性恰好是连接"测度"与"极限"的桥梁(命题 3.2 的 (4) 由下连续性)。没有它,\(\lim\) 和 \(\mu\) 不能交换。 - 正确做法:始终用可数可加性。它是 Kolmogorov 公理化的核心选择,也是测度论一切收敛定理的地基。
陷阱 3.3(概念误区):混淆"\(\sigma\)-有限"与"有限" - 错误描述:把 \(\sigma\)-有限测度当成有限测度使用,套用只对有限测度成立的结论。 - 现象/后果:Lebesgue 测度是 \(\sigma\)-有限但**非**有限(\(\lambda(\mathbb{R})=\infty\));若误当有限测度,会错误套用"全空间测度有限"才成立的论证。 - 根本原因:\(\sigma\)-有限只保证"能切成可数个有限块",整体可以是无穷。 - 正确做法:分清三档——有限 \(\subsetneq\) \(\sigma\)-有限 \(\subsetneq\) 一般测度。Fubini(§10)、Radon–Nikodym(§12)要求 \(\sigma\)-有限(不要求有限),这恰好覆盖 Lebesgue 测度这个最重要的非有限例子。
练习¶
-
(证明题,草稿纸完成) 证明命题 3.2 中的可数次可加性 (3) 时,"不交化" \(B_n=A_n\setminus\bigcup_{j<n}A_j\) 的构造保证了 \(\{B_n\}\) 两两不交且 \(\bigcup B_n=\bigcup A_n\)。请写出 \(\bigcup_{j\le n}B_j=\bigcup_{j\le n}A_j\) 的归纳证明。这个技巧贯穿全章,必须烂熟。
-
(开放思考题) Borel–Cantelli 引理有一个"逆命题"(第二部分):若 \(\{A_n\}\) **独立**且 \(\sum_n\mu(A_n)=\infty\),则 \(\mu(\limsup A_n)=1\)(坏事件几乎必然发生无穷多次)。请思考:为什么第二部分需要"独立性"假设而第一部分不需要?给出一个 \(\sum\mu(A_n)=\infty\) 但 \(\mu(\limsup A_n)=0\) 的反例(提示:取 \(A_n\) 高度相关,如 \(A_n=[0,1/n]\))。
-
(跨节综合题) 结合 §2 的信息 \(\sigma\)-代数与本节的 Borel–Cantelli:设机器人每步定位误差超过阈值的事件为 \(A_n\),且通过某收敛性分析得到 \(P(A_n)\le C/n^2\)。用 Borel–Cantelli 证明"定位误差超阈值"几乎必然只发生有限次,从而轨迹的尾部几乎必然全部在阈值内。再讨论:若只有 \(P(A_n)\le C/n\)(调和级数发散),这个结论还能下吗?这说明收敛速率的"快慢"如何决定 a.s. 结论的成立。
§4 外测度与 Carathéodory 扩张定理 ⭐⭐⭐¶
动机:测度从哪里来?¶
到此我们知道了测度是什么(§3 的公理),但还不知道**怎么造一个**。具体地:我们只知道"区间 \((a,b]\) 的长度是 \(b-a\)"这一个朴素事实,怎么从它出发,造出一个对**所有** Borel 集(乃至更多集合)都定义、且满足可数可加性的 Lebesgue 测度?
直接在每个 Borel 集上指定一个值是不可行的——Borel 集太复杂(§2 的阶层),无法逐个赋值并验证可数可加。需要一台**自动机**:输入"在简单集合(区间)上的长度",输出"在一大类集合上的完备测度"。这台自动机就是 Carathéodory 1914 年发明的外测度构造,它是测度论里**唯一**的通用存在性引擎——Lebesgue 测度、乘积测度、Hausdorff 测度、Haar 测度(§16)全靠它。
反面:天真的"内外逼近"为什么不够¶
一个自然的想法(Lebesgue 原始做法)是:对 \(E\subseteq[0,1]\),定义外测度 \(\mu^*(E)=\inf\{\)覆盖 \(E\) 的区间列总长\(\}\)、内测度 \(\mu_*(E)=1-\mu^*([0,1]\setminus E)\),当 \(\mu^*=\mu_*\) 时称 \(E\) 可测。这在有界情形可行,但有两个麻烦:(i) 内测度依赖全空间有限(无界时定义不清);(ii) "可测性"的验证繁琐。
Carathéodory 的天才在于:只用外测度,不用内测度,用一个纯粹的"分裂条件"来定义可测性。这个条件初看古怪,却让整套理论变得极其干净——可测集自动构成 \(\sigma\)-代数,外测度限制上去自动可数可加且完备。
理论:外测度¶
定义 4.1(外测度):\(X\) 上的**外测度**是函数 \(\mu^*:2^X\to[0,\infty]\),满足: 1. \(\mu^*(\varnothing)=0\); 2. 单调性:\(A\subseteq B\Rightarrow\mu^*(A)\le\mu^*(B)\); 3. 可数次可加性:\(\mu^*\big(\bigcup_n A_n\big)\le\sum_n\mu^*(A_n)\)。
注意外测度对**全体子集**\(2^X\) 都有定义(不像测度只在 \(\sigma\)-代数上),代价是它一般**不可加**(只可次可加)。外测度是"粗糙的、人人有份的大小估计";真正的测度要从中筛选出"行为良好"的集合。
理论:Carathéodory 可测性条件¶
定义 4.2(Carathéodory 可测):集合 \(A\subseteq X\) 称为 \(\mu^*\)-可测的,若它能把任意"测试集"\(E\) 干净地切成两半: $\(\mu^*(E)=\mu^*(E\cap A)+\mu^*(E\cap A^c)\qquad\forall E\subseteq X.\)$
由次可加性,"\(\le\)"方向 \(\mu^*(E)\le\mu^*(E\cap A)+\mu^*(E\cap A^c)\) 自动成立。所以可测性的实质内容是反方向的"\(\ge\)"——\(A\) 必须把任何集合的外测度**精确**地分配到 \(A\) 内外两部分,不产生"边界损耗"。
怎么直觉理解这个条件? 把外测度想成"用区间覆盖时的最省总长"。\(A\) 可测意味着:用 \(A\) 当一把"刀"去切任何集合 \(E\),切完之后两块的最省覆盖长之和等于原来整块的——这把刀"不毁坏"任何东西。不可测集(如 Vitali 集)则像一把"会把东西揉碎"的刀,切完之后两块的覆盖长之和**严格大于**原来,产生损耗。
本质洞察:Carathéodory 条件的精妙在于它**自指地**用外测度本身来定义可测性,无需借助内测度或全空间有限。这个看似突兀的"对任意测试集都干净分裂"的要求,恰好是让可测集构成 \(\sigma\)-代数所需的全部——不多不少。数学史上这是"找到正确定义"的典范:一旦定义对了,所有定理的证明都变得自然。
理论:Carathéodory 定理¶
定理 4.3(Carathéodory):设 \(\mu^*\) 是 \(X\) 上的外测度,\(\mathcal{M}^*\) 是全体 \(\mu^*\)-可测集。则 \(\mathcal{M}^*\) 是一个 \(\sigma\)-代数,且 \(\mu:=\mu^*|_{\mathcal{M}^*}\) 是 \(\mathcal{M}^*\) 上的**完备测度**。
完整证明(分四步,每步写清逻辑):
第一步:\(\mathcal{M}^*\) 含 \(\varnothing,X\) 且补封闭。 取 \(A=X\):\(\mu^*(E)=\mu^*(E\cap X)+\mu^*(E\cap\varnothing)=\mu^*(E)+0\),成立,故 \(X\in\mathcal{M}^*\)。定义 4.2 关于 \(A\) 与 \(A^c\) 完全对称,故 \(A\in\mathcal{M}^*\Rightarrow A^c\in\mathcal{M}^*\)。\(\varnothing=X^c\in\mathcal{M}^*\)。
第二步:\(\mathcal{M}^*\) 对有限并封闭(是代数)。 设 \(A,B\in\mathcal{M}^*\),要证 \(A\cup B\in\mathcal{M}^*\)。对任意测试集 \(E\),先用 \(A\) 分裂,再用 \(B\) 分裂 \(A^c\) 部分: $$ \mu^(E)=\mu^(E\cap A)+\mu^(E\cap A^c\cap B)+\mu^(E\cap A^c\cap B^c). $$ 注意 \(E\cap(A\cup B)=(E\cap A)\cup(E\cap A^c\cap B)\),由次可加性其外测度 \(\le\mu^*(E\cap A)+\mu^*(E\cap A^c\cap B)\)。又 \(A^c\cap B^c=(A\cup B)^c\)。代入得 $$ \mu^(E)\ge\mu^(E\cap(A\cup B))+\mu^*(E\cap(A\cup B)^c), $$ 即 \(A\cup B\) 满足可测性(反向不等式由次可加性自动成立)。
阶段小结:到这里我们证明了 \(\mathcal{M}^*\) 是代数(对有限并、补封闭)。下面两步是把"有限"升级到"可数"——这是 \(\sigma\)-代数的灵魂,也是证明的技术核心。
第三步:可数并封闭 + 可数可加性。 设 \(\{A_j\}\subseteq\mathcal{M}^*\) 两两不交(一般情形可用第二步先不交化)。令 \(B_n=\bigcup_{j\le n}A_j\)。先用归纳法证明一个关键的"分配公式":对任意测试集 \(E\), $$ \mu^(E\cap B_n)=\sum_{j=1}^n\mu^(E\cap A_j).\tag{\(\ast\)} $$ 归纳基础 \(n=1\) 显然。归纳步:用 \(A_n\) 的可测性切分测试集 \(E\cap B_n\)。由于 \(A_j\) 不交,\(B_n\cap A_n=A_n\)、\(B_n\cap A_n^c=B_{n-1}\),故 $$ \mu^(E\cap B_n)=\mu^(E\cap B_n\cap A_n)+\mu^(E\cap B_n\cap A_n^c)=\mu^(E\cap A_n)+\mu^*(E\cap B_{n-1}), $$ 对后项用归纳假设即得 (\(\ast\))。
现在证 \(A:=\bigcup_j A_j\in\mathcal{M}^*\)。因 \(B_n\) 可测(第二步)且 \(B_n\subseteq A\Rightarrow A^c\subseteq B_n^c\),故 $$ \mu^(E)=\mu^(E\cap B_n)+\mu^(E\cap B_n^c)\ge\sum_{j=1}^n\mu^(E\cap A_j)+\mu^(E\cap A^c). $$ 对 \(n\to\infty\)(左边与 \(n\) 无关):\(\mu^*(E)\ge\sum_{j=1}^\infty\mu^*(E\cap A_j)+\mu^*(E\cap A^c)\ge\mu^*(E\cap A)+\mu^*(E\cap A^c)\),末步用了次可加性 \(\sum_j\mu^*(E\cap A_j)\ge\mu^*(\bigcup_j(E\cap A_j))=\mu^*(E\cap A)\)。这证明了 \(A\in\mathcal{M}^*\)。又取 \(E=A\) 在上式:\(\mu^*(A)\ge\sum_j\mu^*(A_j)\ge\mu^*(A)\),故**等号成立*,即可数可加性 \(\mu^*(\bigcup A_j)=\sum_j\mu^*(A_j)\) 得证。
第四步:完备性。 设 \(\mu^*(N)=0\),\(E\subseteq N\)(这里 \(E\) 是任意子集,未必可测)。要证 \(N\in\mathcal{M}^*\)。对任意测试集 \(T\),由单调性 \(\mu^*(T\cap N)\le\mu^*(N)=0\),故 $$ \mu^(T\cap N)+\mu^(T\cap N^c)=0+\mu^(T\cap N^c)\le\mu^(T), $$ 反向不等式由次可加性成立,故 \(N\in\mathcal{M}^*\)。因此一切外测度为零的集合都可测——这正是完备性。\(\quad\blacksquare\)
理论:Hahn–Kolmogorov 扩张定理¶
Carathéodory 定理还差最后一块:怎么从"区间长度"这种**只在代数上定义的预测度**生成外测度?
定义 4.4(预测度):设 \(\mathcal{A}\) 是 \(X\) 上的一个**代数**(含 \(X\)、对补和有限并封闭)。函数 \(\mu_0:\mathcal{A}\to[0,\infty]\) 称为**预测度**,若 \(\mu_0(\varnothing)=0\) 且对**落在 \(\mathcal{A}\) 内**的不交可数并 \(\bigcup_n A_n\in\mathcal{A}\) 满足 \(\mu_0(\bigcup_n A_n)=\sum_n\mu_0(A_n)\)。
定理 4.5(Hahn–Kolmogorov 扩张定理):代数 \(\mathcal{A}\) 上的预测度 \(\mu_0\),通过 $\(\mu^*(E)=\inf\Big\{\sum_{j=1}^\infty\mu_0(A_j):A_j\in\mathcal{A},\ E\subseteq\bigcup_j A_j\Big\}\)$ 诱导一个外测度。Carathéodory 定理给出 \(\sigma\)-代数 \(\mathcal{M}^*\supseteq\sigma(\mathcal{A})\) 与测度 \(\mu=\mu^*|_{\mathcal{M}^*}\),且 \(\mu|_{\mathcal{A}}=\mu_0\)(扩张确实延拓了原预测度)。 进一步,若 \(\mu_0\) 是 \(\sigma\)-有限的,则扩张到 \(\sigma(\mathcal{A})\) 上唯一。
唯一性的证明正是 §2 的 \(\pi\)-\(\lambda\) 定理的应用:\(\mathcal{A}\) 是 \(\pi\)-系(对交封闭),"两个扩张相等的集合"构成 \(\lambda\)-系,含 \(\mathcal{A}\) 故含 \(\sigma(\mathcal{A})\)。这就是为什么 \(\sigma\)-有限性在这里出现——它保证了能用 \(\pi\)-\(\lambda\) 把唯一性从代数推到整个 \(\sigma\)-代数。
反面:没有 \(\sigma\)-有限性,唯一性会失效¶
反例 4.6(唯一性失效):取 \(X=\mathbb{Q}\cap[0,1]\),\(\mathcal{A}=\) 由形如 \((a,b]\cap X\) 的半开区间生成的代数。定义预测度 \(\mu_0(\varnothing)=0\),\(\mu_0(\text{任何非空成员})=\infty\)。这是一个合法的(非 \(\sigma\)-有限的)预测度。它可以扩张为**多个不同**的测度——例如计数测度 \(\nu_1(A)=\#A\)(在无限集上为 \(\infty\))与 \(\nu_2(A)=2\cdot\#A\) 等,它们在 \(\mathcal{A}\) 上都等于 \(\mu_0\)(非空即 \(\infty\))却在含单点的 Borel 集上不同。
本质洞察:\(\sigma\)-有限性是"扩张唯一"的**精确**门槛。它的作用是:把空间切成可数个有限块后,每块上的测度被预测度唯一钉死,再用可数可加性拼回整体。这解释了为什么本章所有大定理(Carathéodory 唯一性、Fubini、Radon–Nikodym)都把 \(\sigma\)-有限当标配——它恰好覆盖了 Lebesgue 测度这个最重要的"无限但 \(\sigma\)-有限"的例子,又排除了上述病态。
机器人应用:一切概率模型存在性的根基¶
Carathéodory 扩张是机器人学里几乎所有概率对象"存在且良定义"的唯一构造机制。
- Lebesgue 测度(§5):从区间长度扩张而来,是连续状态空间一切密度的参照物。
- 乘积测度 / 联合分布(§10):SLAM 的联合后验 \(p(x_{0:T},m\mid z_{1:T})\) 活在乘积空间 \(\prod_t\mathrm{SE}(3)\times\mathcal{M}\) 上,这个空间上的测度由 Carathéodory 在可测矩形代数上扩张得到。
- Kolmogorov 扩张定理:构造**无限时间轴**随机过程(机器人轨迹 \(\{X_t\}_{t\ge0}\))的测度——它是 Carathéodory 扩张在无限乘积空间上的直接推广。没有它,"机器人轨迹的概率分布"这句话本身都没有数学意义。
- 马尔可夫转移核:状态转移 \(p(x_{t+1}\mid x_t)\) 诱导的链在路径空间 \(\prod_t\mathcal{X}\) 上的测度,同样靠扩张定理保证存在。
本质洞察:你写下"机器人轨迹服从某个概率分布"时,背后是一个无限维空间上的测度。这个测度**不是凭空存在的**——它的存在性是 Carathéodory/Kolmogorov 扩张定理的定理性结论。这就像编程时调用一个库函数:你平时不关心它的实现,但它若不存在(无 \(\sigma\)-有限性、无扩张定理),你的整个概率建模就是空中楼阁。本节就是这个"库函数"的源码。
⚠️ 常见陷阱¶
陷阱 4.1(概念误区):以为外测度就是测度(忘记它不可加) - 错误描述:把外测度 \(\mu^*\) 当成测度直接用可数可加性。 - 现象/后果:对不可测集 \(A,B\) 误用 \(\mu^*(A\cup B)=\mu^*(A)+\mu^*(B)\),得到错误数值——外测度对不可测集只保证 \(\le\)(次可加),等号可能不成立。 - 根本原因:外测度对全体子集定义但只可次可加;只有限制到 \(\mu^*\)-可测集 \(\mathcal{M}^*\) 上才升级为可数可加的测度。 - 正确做法:可加性只对可测集用。处理一般子集时,外测度只能给上界估计。Carathéodory 条件正是筛选"可加性成立"的集合的标准。
陷阱 4.2(思维陷阱):跳过 \(\sigma\)-有限性直接套用扩张唯一性 - 错误描述:构造测度时默认"在区间上定好了,扩张就唯一",不检查 \(\sigma\)-有限。 - 现象/后果:在非 \(\sigma\)-有限的预测度上(反例 4.6)得到多个扩张却以为唯一,后续推理基于错误的"唯一性"。 - 根本原因:唯一性证明依赖 \(\pi\)-\(\lambda\) 定理,而后者要"切成可数个有限块"才能从生成元推广到 \(\sigma\)-代数。 - 正确做法:用扩张唯一性前确认 \(\sigma\)-有限。Lebesgue 测度、概率测度、乘积测度都满足,所以实践中通常没问题——但理论推导里必须显式验证,尤其涉及计数测度这种局部无限的对象时。
陷阱 4.3(概念误区):认为 \(\mathcal{M}^*\) 就等于 \(\sigma(\mathcal{A})\) - 错误描述:以为 Carathéodory 造出的可测集 \(\sigma\)-代数恰好是生成的 Borel \(\sigma\)-代数 \(\sigma(\mathcal{A})\)。 - 现象/后果:混淆 Borel 可测与 Lebesgue 可测,在需要完备性的论证里误用 Borel 框架(Borel 不完备)。 - 根本原因:\(\mathcal{M}^*\supseteq\sigma(\mathcal{A})\) 但通常**严格更大**——\(\mathcal{M}^*\) 是完备的(含零测集的一切子集),而 \(\sigma(\mathcal{A})\) 一般不完备。对 Lebesgue 测度,\(\mathcal{M}^*=\mathcal{L}\supsetneq\mathcal{B}(\mathbb{R})\)(§5)。 - 正确做法:明确区分 \(\mathcal{L}\)(Lebesgue 可测,完备,Carathéodory 输出)与 \(\mathcal{B}\)(Borel,\(\sigma(\text{开集})\),不完备)。需要"零测集子集可忽略"时用 \(\mathcal{L}\);只需 Borel 结构时用 \(\mathcal{B}\)。
练习¶
-
(证明题,草稿纸完成) 验证定理 4.5 中由预测度诱导的 \(\mu^*(E)=\inf\{\sum_j\mu_0(A_j):E\subseteq\bigcup A_j\}\) 确实是外测度(逐条验证定义 4.1 的三公理)。重点说明可数次可加性的证明用到了"\(\varepsilon/2^n\) 技巧"——对每个 \(A_n\) 取一个总长 \(\le\mu^*(A_n)+\varepsilon/2^n\) 的覆盖。
-
(开放思考题) Carathéodory 条件 \(\mu^*(E)=\mu^*(E\cap A)+\mu^*(E\cap A^c)\) 中,为什么要对**所有**测试集 \(E\) 验证,而不只对 \(E=X\)?给出一个直观解释:只验证 \(E=X\)(即 \(\mu^*(X)=\mu^*(A)+\mu^*(A^c)\))为什么不足以保证可数可加性?(提示:可数可加性的证明第三步用的是 \(E\cap B_n\) 这种"局部测试集"。)
-
(跨节综合题) 结合 §3 完备化与本节 Carathéodory:证明 Carathéodory 输出的测度空间 \((X,\mathcal{M}^*,\mu^*|_{\mathcal{M}^*})\) 已经是完备的(定理 4.3 第四步),因此对它再做 §3 的完备化不会增加任何集合。这说明"Carathéodory 扩张自动完备"——这是它优于"先 Borel 后完备化"两步法的地方之一。
§5 Lebesgue 测度的构造与性质 ⭐⭐⭐¶
动机:给"概率密度"找一个参照物¶
§4 造好了通用引擎,现在用它打造主角——Lebesgue 测度 \(\lambda\)(也常记 \(m\))。为什么非要它不可?因为机器人学里无处不在的"概率密度" \(p(x)\),本身**没有独立的意义**,它是一个比值:
密度是概率测度 \(P\) 相对 Lebesgue 测度 \(\lambda\) 的"密度"——分母里那个 \(\lambda\) 就是参照物。没有 \(\lambda\),"密度"二字无从谈起。Gauss 分布的那个熟悉的 \(\frac{1}{\sqrt{2\pi}}e^{-x^2/2}\),分母分子全是相对 \(\lambda\) 而言的。所以要严格谈密度、谈似然、谈期望,必须先把 \(\lambda\) 造出来并摸清它的脾气。
历史:从 Jordan 容度到 Lebesgue 测度¶
Jordan(1890 年代)用"内外有限覆盖"定义了容度(Jordan content),但它对 \(\mathbb{Q}\cap[0,1]\) 这种集合失效(内容度 \(0\)、外容度 \(1\),不可测)。Borel(1898)改用**可数**覆盖给开集赋测度。Lebesgue(1902)把 Borel 的思想 + Carathéodory(1914)的可测性条件结合,得到今天的 Lebesgue 测度——它对 \(\mathbb{Q}\cap[0,1]\) 给出测度 \(0\),修复了 Jordan 的缺陷,且对一大类集合(远超 Borel)都有定义。
理论:Lebesgue 测度的构造¶
构造完全是 §4 引擎的一次具体调用:
- 起点(区间长度):在半开区间 \((a,b]\subseteq\mathbb{R}\) 上定义 \(\ell((a,b])=b-a\)。
- 代数上的预测度:有限个不交半开区间的并构成代数 \(\mathcal{A}_0\),定义 \(m_0(\bigsqcup_i(a_i,b_i])=\sum_i(b_i-a_i)\)。可验证 \(m_0\) 是预测度(可数可加性需要一点 Heine–Borel 紧性论证)。
- 诱导外测度(Hahn–Kolmogorov,定理 4.5): $$ \lambda^*(E)=\inf\Big{\sum_j(b_j-a_j):E\subseteq\bigcup_j(a_j,b_j]\Big}. $$
- Carathéodory 筛选(定理 4.3):得到 Lebesgue 可测集 \(\sigma\)-代数 \(\mathcal{L}\supseteq\mathcal{B}(\mathbb{R})\) 与 Lebesgue 测度 \(\lambda=\lambda^*|_{\mathcal{L}}\)。\(\sigma\)-有限(\(\mathbb{R}=\bigcup_n(-n,n]\),每块测度 \(2n<\infty\))故扩张唯一。
\(n\) 维情形 \(\lambda_n\) 完全类似,从矩形体积 \(\prod_i(b_i-a_i)\) 出发。
理论:Lebesgue 测度的六大性质¶
这些性质是后续一切的工具箱。逐条给出并解释含义。
性质 5.1(正则性):每个 \(E\in\mathcal{L}\) 满足 $\(\lambda(E)=\inf\{\lambda(U):U\supseteq E,\ U\text{ 开}\}=\sup\{\lambda(K):K\subseteq E,\ K\text{ 紧}\}.\)$ (外正则 + 内正则)
含义:任何可测集都能被开集从外、紧集从内任意精确地逼近。这是 Lusin 定理(§6)、连续函数稠密性(§13)的几何基础——"可测"在测度意义下离"开/闭/紧"只差 \(\varepsilon\)。
性质 5.2(平移不变与唯一性):\(\lambda(E+x)=\lambda(E)\) 对一切 \(x\in\mathbb{R}^n\)。且 \(\lambda\) 是 \(\mathbb{R}^n\) 上唯一满足"Borel 测度 + 平移不变 + \(\lambda([0,1]^n)=1\)"的测度。
含义:长度/体积不随平移改变——这是欧氏空间的"均匀性"。唯一性是深刻的:它说"平移不变"几乎唯一地确定了 Lebesgue 测度。这正是 §16 Haar 测度唯一性的原型——在一般群上,把"平移不变"换成"群作用不变",同样得到(至多差常数倍的)唯一不变测度。
性质 5.3(线性变换):对 \(A\in\mathrm{GL}(n,\mathbb{R})\)(可逆线性映射),\(\lambda(AE)=|\det A|\,\lambda(E)\)。
含义:线性变换按 \(|\det A|\) 缩放体积——这正是多元积分换元公式里 Jacobian 行列式的来源。这个公式在李群上推广为 Haar 测度的**模函数**(modular function,§16):非幺模群上左右 Haar 测度差一个 \(\Delta(g)\) 因子。
性质 5.4(Vitali 不可测集,需选择公理):存在 \(V\subseteq[0,1]\) 使 \(V\notin\mathcal{L}\)。
构造与矛盾:在 \([0,1]\) 上定义等价关系 \(x\sim y\iff x-y\in\mathbb{Q}\)。由选择公理,从每个等价类选一个代表,构成集合 \(V\)。考虑平移族 \(\{V+q:q\in\mathbb{Q}\cap[-1,1]\}\):它们两两不交(不同代表差非有理),且 \([0,1]\subseteq\bigcup_q(V+q)\subseteq[-1,2]\)。若 \(V\) 可测,由平移不变 \(\lambda(V+q)=\lambda(V)=:c\),可数可加给出 $$ 1\le\sum_{q}\lambda(V+q)=\sum_q c\le 3. $$ 但 \(\sum_q c\)(可数个相同的 \(c\) 相加)只能是 \(0\)(若 \(c=0\))或 \(\infty\)(若 \(c>0\)),都与 \([1,3]\) 矛盾。故 \(V\) 不可测。\(\quad\blacksquare\)
本质洞察:Vitali 集是 §2 那句"不能给所有子集量长度"的兑现。它告诉我们:不可测集**真实存在**(在选择公理下),\(\sigma\)-代数的"圈定好集合"不是吹毛求疵而是必需。它也解释了为什么概率论必须从 \(\sigma\)-代数 \(\mathcal{F}\) 出发——不是所有"事件"都能赋概率,只有 \(\mathcal{F}\) 中的才行。机器人采样运动规划里"用均匀分布采样"隐含了"采样空间是可测的",Vitali 集提醒我们这个前提并非自动。
性质 5.5(Cantor 集与 Cantor 函数):Cantor 三分集 \(C\subseteq[0,1]\) 是不可数(基数 \(\mathfrak{c}\))的紧完集,但 \(\lambda(C)=0\)(每步去掉 \(1/3\),剩余 \((2/3)^n\to0\))。Cantor–Lebesgue 函数 \(c:[0,1]\to[0,1]\) 连续、单调递增、\(c'=0\) 几乎处处,却 \(c(1)-c(0)=1\)。
含义:这是 §1 反例 2 的精确版,也是 §15 微积分基本定理失效的核心反例。"连续 + 几乎处处导数为零"竟能"爬升" \(1\)——全部爬升发生在不可数零测集 \(C\) 上。
性质 5.6(Borel \(\subsetneq\) Lebesgue):\(|\mathcal{B}(\mathbb{R})|=\mathfrak{c}\)(连续统),而 \(|\mathcal{L}|=2^{\mathfrak{c}}\)。
为什么? Cantor 集 \(C\) 测度为零,由完备性它的**每个**子集都 Lebesgue 可测,于是 \(|\mathcal{L}|\ge|2^C|=2^{\mathfrak{c}}\)。而 Borel 集只有 \(\mathfrak{c}\) 个(可由超限归纳数清)。所以存在 Lebesgue 可测但非 Borel 的集合。含义:Lebesgue 比 Borel 严格大,多出来的全是"零测集的子集"——这正是完备化(§3)的产物。
机器人应用:密度的本体、退化 Gauss 的危机¶
把 Lebesgue 测度接到机器人概率上,最直接的是**概率密度的数学本体**。
本质洞察:你在本科学到的"概率密度函数 \(p(x)\)",其严格定义是 R–N 导数 \(p=\dfrac{dP}{d\lambda}\)——概率测度 \(P\) 相对 Lebesgue 测度 \(\lambda\) 的导数。这意味着密度**依赖于参照测度的选择**。在 \(\mathbb{R}^n\) 上参照 \(\lambda\),得到熟悉的密度;在 \(\mathrm{SO}(3)\) 上没有 \(\lambda\),必须参照 Haar 测度(§16),密度形式完全不同。"密度"不是分布的内禀属性,而是"分布相对某把尺子的读数"。换尺子,读数变。
具体地,Gauss 分布 \(\mathcal{N}(\mu,\Sigma)\)(\(\Sigma\succ 0\) 正定)相对 \(\lambda\) 绝对连续,其密度即熟知的
退化 Gauss 的危机(反事实推理):一旦协方差 \(\Sigma\) 奇异(\(\det\Sigma=0\)),上式的 \(\Sigma^{-1}\) 和 \((\det\Sigma)^{-1/2}\) 都炸了——密度不再存在。这在机器人里非常常见:
- 位姿经过**等式约束**(如机器人沿轨道运动,某些自由度被锁死),后验分布坍缩到低维子流形,在 \(\mathbb{R}^n\) 中测度为零;
- 完美观测(无噪声)使某方向的不确定性归零;
- 退化的运动(如平面机器人的 \(z\) 方向)。
此时分布相对 \(\lambda\) 不绝对连续(它把质量放在了 \(\lambda\)-零测的子空间上),R–N 导数不存在,**必须回到测度层面**用 \(P\) 本身(而非密度 \(p\))来处理。EKF/UKF 里协方差矩阵接近奇异时的数值崩溃,根子就在这里——它们隐式假设了密度存在。
本质洞察:Lebesgue 测度的"平移不变 + 唯一性"(性质 5.2)是欧氏空间概率论得以建立的隐形支柱。我们说"均匀分布"、说"无信息先验",默认的参照就是平移不变的 \(\lambda\)。一旦离开欧氏空间(到 \(\mathrm{SO}(3)\)、到约束流形),这个支柱消失,"均匀""无信息"必须重新定义(用 Haar 测度或黎曼体积形式)。这就是为什么李群上的滤波(§16)远比欧氏空间复杂——连"均匀"这个最朴素的词都要重新发明。
⚠️ 常见陷阱¶
陷阱 5.1(概念误区):把"密度 \(p(x)\)"当成分布的内禀属性 - 错误描述:认为每个概率分布都"有一个密度",密度是分布固有的东西。 - 现象/后果:在退化分布(奇异 \(\Sigma\))、流形分布(\(\mathrm{SO}(3)\))、离散-连续混合分布上强行写密度,导致除零、积分发散或概念混乱。 - 根本原因:密度 \(=dP/d\lambda\) 仅在 \(P\ll\lambda\)(绝对连续)时存在,且依赖参照测度 \(\lambda\) 的选择。退化分布 \(P\not\ll\lambda\),密度不存在。 - 正确做法:把测度 \(P\) 当本体,密度只是"\(P\) 相对某参照测度的 R–N 导数"。处理退化/流形/混合分布时回到测度层面,或换合适的参照测度(Haar、计数、黎曼体积)。
陷阱 5.2(思维陷阱):以为"测度为零 = 不可能发生" - 错误描述:把 \(\lambda(A)=0\)(或 \(P(A)=0\))等同于"\(A\) 永不发生"。 - 现象/后果:忽略零测集上的事件,但在连续分布里**每个单点**测度都为零(\(P(X=x)=0\)),按此逻辑"任何具体取值都不可能",荒谬。 - 根本原因:连续分布下单点概率为零是常态;"几乎必然不发生"(概率零)与"逻辑上不可能"(空集)是不同的。 - 正确做法:区分"概率为零"(a.s. 不发生,但可能发生,如连续随机变量取某个具体值)与"空集"(逻辑不可能)。这在 §14 讨论 a.s. 收敛时是关键区分。
陷阱 5.3(概念误区):混淆 Borel 可测与 Lebesgue 可测 - 错误描述:以为 Borel 集和 Lebesgue 可测集是一回事。 - 现象/后果:在需要"零测集子集可忽略"的论证里用 Borel 框架,发现 Borel 不完备(零测 Borel 集的子集未必 Borel),证明卡住。 - 根本原因:\(\mathcal{B}\subsetneq\mathcal{L}\),\(|\mathcal{B}|=\mathfrak{c}<2^{\mathfrak{c}}=|\mathcal{L}|\);Lebesgue 是 Borel 的完备化。 - 正确做法:需完备性时用 \(\mathcal{L}\);分析连续函数的 Borel 结构时用 \(\mathcal{B}\)。概率论里通常用 Borel \(\sigma\)-代数 \(\mathcal{B}(\mathbb{R}^n)\) 起步,必要时完备化。
练习¶
-
(推导题,草稿纸完成) 计算 Cantor 三分集 \(C\) 的 Lebesgue 测度:第 \(n\) 步去掉 \(2^{n-1}\) 个长度 \(3^{-n}\) 的开区间,写出去掉的总长 \(\sum_{n=1}^\infty 2^{n-1}3^{-n}\) 并求和,验证 \(\lambda(C)=1-1=0\)。再用三进制展开证明 \(C\) 不可数(与 \(\{0,1\}^{\mathbb{N}}\) 一一对应)。这个反差(不可数却零测)请用一句话总结其对"测度 vs 基数"的启示。
-
(开放思考题) 性质 5.4 的 Vitali 构造用了选择公理。已知"所有集合都 Lebesgue 可测"与 ZF + 依赖选择公理(DC)相容(Solovay 模型)。请讨论:这对机器人算法有实际影响吗?为什么工程上我们从不真正"遇到"不可测集?(提示:所有可显式构造、可计算、可采样的集合都是 Borel 的;不可测集只能借助选择公理"存在性地"得到。)
-
(跨节综合题) 结合 §1 反例 2、§5 性质 5.5 与即将学的 §15:Cantor 函数 \(c\) 连续、单调、\(c'=0\) a.e. 但 \(c(1)-c(0)=1\)。请预判:微积分基本定理 \(\int_a^b f'=f(b)-f(a)\) 对 \(c\) 失效,缺的是什么条件?(提前思考 §15 的"绝对连续"。)并解释为什么"分段常数控制 + 分形轨迹"的机器人路径需要警惕这类反例——即使每段导数为零,总位移也可能非零。
§6 可测函数 ⭐⭐¶
动机:哪些函数能积分?¶
§5 造好了 Lebesgue 测度(能量集合)。§1 的"水平切片"积分要对函数 \(f\) 收集每一层 \(\{y_k\le f<y_{k+1}\}\) 的测度。但这要求**每一层都是可测集**——否则连"层的测度"都谈不上,更别说求和。能保证这一点的函数,叫**可测函数**。它是 Lebesgue 积分的合法输入,也是概率论里"随机变量"的真身。
反面:不可测函数会让积分崩溃¶
如果 \(f\) 不可测,存在某个 \(a\) 使 \(\{f>a\}\) 是不可测集(如 Vitali 集),那么"\(f\) 大于 \(a\) 的那部分占多大"这个问题就没有答案,水平切片积分无法进行。幸运的是,下面会看到:可测函数的类极其宽阔(连续、分段连续、阶跃、乃至它们的逐点极限全都可测),不可测函数要靠选择公理才能"造"出来——工程中遇不到。
历史与直觉¶
可测函数的定义模仿连续函数("开集的原像是开集"):把"开集"换成"可测集"。这个类比的深刻之处在于——连续性要求原像**恰好**是开集(太强),可测性只要求原像**落在 \(\sigma\)-代数里**(弱得多),所以可测函数远比连续函数多,却保留了"积分良定义"所需的一切。
理论:可测函数的定义¶
定义 6.1(可测函数):设 \((X,\mathcal{M})\)、\((Y,\mathcal{N})\) 是可测空间。映射 \(f:X\to Y\) 称为 \((\mathcal{M},\mathcal{N})\)-可测,若 $\(f^{-1}(B)\in\mathcal{M}\quad\forall B\in\mathcal{N}.\)$ 当 \(Y=\mathbb{R}\)(取 Borel \(\sigma\)-代数 \(\mathcal{B}(\mathbb{R})\))时,等价的实用判据是: $\(\{f>a\}=f^{-1}((a,\infty))\in\mathcal{M}\quad\forall a\in\mathbb{R}.\)$
为什么"\(\{f>a\}\) 可测"就够了? 因为形如 \((a,\infty)\) 的射线生成整个 \(\mathcal{B}(\mathbb{R})\)(§2 练习 2)。原像运算 \(f^{-1}\) 与并、交、补可交换(\(f^{-1}(\bigcup B_i)=\bigcup f^{-1}(B_i)\) 等),所以只要射线的原像都可测,由 \(\sigma\)-代数封闭性,一切 Borel 集的原像都可测。这把"验证无穷多个 Borel 集"归约为"验证一族生成元"——又一次 \(\pi\)-\(\lambda\) 式的思想。
理论:可测函数的封闭性(极其丰富)¶
可测函数对几乎所有常见运算封闭,这是它好用的根本原因。
命题 6.2:设 \(f,g:X\to\mathbb{R}\) 可测,\(\{f_n\}\) 可测函数列。则下列均可测: 1. \(f+g\)、\(f-g\)、\(fg\)、\(f/g\)(\(g\ne0\) 处)、\(cf\); 2. \(\max(f,g)\)、\(\min(f,g)\)、\(|f|\)、\(f^+=\max(f,0)\)、\(f^-=\max(-f,0)\); 3. \(\sup_n f_n\)、\(\inf_n f_n\)、\(\limsup_n f_n\)、\(\liminf_n f_n\); 4. 逐点极限 \(\lim_n f_n\)(在其存在处); 5. 连续函数 \(\varphi\) 与可测函数 \(f\) 的复合 \(\varphi\circ f\)。
关键证明(第 3 条,极限运算可测):\(\sup_n f_n\) 可测的证明是模板—— $$ {\sup_n f_n>a}=\bigcup_n{f_n>a}. $$ 右边是可数个可测集的并,故可测。直觉:上确界超过 \(a\),当且仅当**某个** \(f_n\) 超过 \(a\)。类似地 \(\{\inf_n f_n\ge a\}=\bigcap_n\{f_n\ge a\}\)。由 \(\limsup_n f_n=\inf_k\sup_{n\ge k}f_n\),逐次套用得 \(\limsup\)、\(\liminf\) 可测;二者相等处即逐点极限,故第 4 条成立。
本质洞察:第 3、4 条是可测函数**真正超越连续函数**的地方。连续函数的逐点极限**不一定连续**(如 \(x^n\to\) 阶跃),但可测函数的逐点极限**一定可测**。换言之,可测函数类对"取极限"封闭——这正是 §1 抱怨 Riemann 可积函数类不封闭的解药。蒙特卡洛估计量 \(\hat f_N\)、滤波迭代 \(\hat x_t\) 都是极限对象,它们的可测性(从而"能谈期望")由这条封闭性免费保证。
理论:简单函数逼近定理——积分的脚手架¶
Lebesgue 积分将分三阶段定义(§7),最底层是"简单函数"(取有限个值的可测函数)。下面的定理保证任何非负可测函数都能被简单函数从下逼近,这是整个积分理论的脚手架。
定义 6.3(简单函数):形如 \(\varphi=\sum_{i=1}^n c_i\mathbf{1}_{A_i}\)(\(c_i\in\mathbb{R}\),\(A_i\in\mathcal{M}\))的可测函数,即只取有限个值。
定理 6.4(简单函数逼近):对任意非负可测 \(f:X\to[0,\infty]\),存在简单函数列 \(0\le\varphi_1\le\varphi_2\le\cdots\) 使 \(\varphi_n\nearrow f\) 逐点收敛。
构造(显式给出,这是要记住的):把值域 \([0,\infty]\) 在 \([0,n)\) 部分按 \(2^{-n}\) 等分,超过 \(n\) 的截断到 \(n\): $$ \varphi_n(x)=\begin{cases}\dfrac{k}{2^n}, & \dfrac{k}{2^n}\le f(x)<\dfrac{k+1}{2^n}, k=0,1,\dots,n2^n-1,\[2mm] n, & f(x)\ge n.\end{cases} $$ 每个 \(\varphi_n\) 显然是简单函数(\(\{k/2^n\le f<(k+1)/2^n\}\) 可测,因 \(f\) 可测)。递增性:从 \(n\) 到 \(n+1\) 时值域分割加细一倍(每格再二分),且截断阈值从 \(n\) 升到 \(n+1\),故 \(\varphi_{n+1}\ge\varphi_n\)。收敛性:在 \(f(x)<\infty\) 处,一旦 \(n>f(x)\),有 \(|f(x)-\varphi_n(x)|<2^{-n}\to0\);在 \(f(x)=\infty\) 处 \(\varphi_n(x)=n\to\infty=f(x)\)。\(\quad\blacksquare\)
本质洞察:这个"按值域 \(2^{-n}\) 分层"的构造,正是 §1 Lebesgue"水平切片"思想的算法化身。它把"对一般 \(f\) 积分"归约为"对简单函数积分(= 测度的加权和)+ 取递增极限"。整个 §7 积分构造、§8 单调收敛定理,都是这台脚手架的直接产物。记住这个构造,等于记住了 Lebesgue 积分的施工蓝图。
理论:Littlewood 三原则与 Egorov、Lusin 定理¶
Littlewood 用三句话概括了可测对象的"近乎良好":
Littlewood 三原则:(i) 每个可测集**几乎是**开集(与开集差一个小测度);(ii) 每个可测函数**几乎是**连续函数;(iii) 每个逐点收敛的可测函数列**几乎是**一致收敛的。
这三句直觉被三个定理精确化。
定理 6.5(Egorov):设 \(\mu(X)<\infty\),\(f_n\to f\) a.e.。则对任意 \(\varepsilon>0\),存在可测集 \(E_\varepsilon\) 使 \(\mu(E_\varepsilon^c)<\varepsilon\) 且 \(f_n\to f\) 在 \(E_\varepsilon\) 上**一致收敛**。
证明(骨架展开):对每个 \(k\),令 \(E_{n,k}=\bigcup_{m\ge n}\{|f_m-f|>1/k\}\)。由 \(f_n\to f\) a.e. 知对固定 \(k\),\(\mu(E_{n,k})\downarrow 0\)(当 \(n\to\infty\);这里用了 \(\mu(X)<\infty\) 的由上连续性)。选 \(n_k\) 使 \(\mu(E_{n_k,k})<\varepsilon/2^k\),令 \(E_\varepsilon=\big(\bigcup_k E_{n_k,k}\big)^c\)。则 \(\mu(E_\varepsilon^c)\le\sum_k\varepsilon/2^k=\varepsilon\),且在 \(E_\varepsilon\) 上对每个 \(k\) 当 \(m\ge n_k\) 时 \(|f_m-f|\le1/k\),即一致收敛。\(\quad\blacksquare\)
有限测度不可省(反事实):取 \(\mathbb{R}\) 上 \(f_n=\mathbf{1}_{[n,n+1]}\to0\) a.e.,但在任何余集为有限测度的集合上都不一致收敛("帽子"跑到无穷远,总能逃出任何有限测度集)。
定理 6.6(Lusin):设 \(f:\mathbb{R}\to\mathbb{R}\) Lebesgue 可测、a.e. 有限。则对任意 \(\varepsilon>0\),存在闭集 \(F\) 使 \(\lambda(F^c)<\varepsilon\) 且 \(f|_F\) 连续。
Lusin 把"可测函数几乎连续"钉死:除去一个任意小测度的集合,可测函数就是连续函数。
机器人应用:似然函数虽不连续却可测,且"几乎连续"¶
把可测函数理论接到机器人感知上。
SLAM 的观测似然 \(p(z\mid x)\) 典型是**分段光滑**的——在遮挡边界、障碍边界处有跳跃间断。它**不连续**,所以本科的"连续函数才能积分"直觉在这里没法用。但由命题 6.2(连续函数复合、分段定义、极限都可测),分段连续函数一定**可测**,于是 \(\int p(z\mid x)\,dP(x)\)(贝叶斯归一化)有定义——这是 §1 机器人应用的精确化。
更进一步,Lusin 定理(6.6)保证:除去一个任意小测度的"坏集"(那些跳跃边界),\(p(z\mid\cdot)\) 可视为连续。这正是机器人里各种**局部线性化**方法的理论许可证:
- EKF 在工作点对动力学/观测做 Taylor 线性化——合法的前提是函数"几乎处处光滑"(Lusin 保证坏集小);
- UKF 的 sigma 点抽样近似——假设函数在 sigma 点邻域行为良好;
- 粒子滤波重采样——在似然"几乎连续"处用样本逼近。
本质洞察:随机变量的严格定义就是"可测函数 \(X:\Omega\to\mathbb{R}\)"。本科里"随机变量是取值随机的量"是直觉;测度论把它锻造成"从样本空间到实数的可测映射"。可测性恰好保证了"\(\{X\le a\}\) 是事件(有概率)"——这是累积分布函数 \(F_X(a)=P(X\le a)\) 良定义的前提。机器人状态 \(x_t\)、观测 \(z_t\) 全是可测函数;它们的可测性是一切"谈论它们的分布、期望、协方差"的隐形门票。
⚠️ 常见陷阱¶
陷阱 6.1(概念误区):以为"可测函数"是个苛刻的限制 - 错误描述:担心自己的似然函数/代价函数"不可测",从而无法积分。 - 现象/后果:在工程中为"保证可测性"做无谓的光滑化,或误以为间断函数不能积分。 - 根本原因:可测函数类极其宽阔——连续、分段连续、单调、阶跃、半连续、它们的逐点极限和上下确界全可测(命题 6.2)。不可测函数需选择公理构造,工程中遇不到。 - 正确做法:放心地对任何"能写出来/能计算"的函数积分——它们必然可测。可测性几乎从不是实际障碍;真正需检查的是**可积性**(\(\int|f|<\infty\),§7)。
陷阱 6.2(思维陷阱):把 Egorov 的"一致收敛"误读为"全空间一致收敛" - 错误描述:用 Egorov 时以为得到了全空间上的一致收敛。 - 现象/后果:在剩下的 \(\varepsilon\) 测度坏集上误用一致收敛的结论(如逐项积分),导致错误。 - 根本原因:Egorov 只保证在 \(E_\varepsilon\)(余集测度 \(<\varepsilon\))上一致,坏集 \(E_\varepsilon^c\) 上可能任意糟糕;且需 \(\mu(X)<\infty\)。 - 正确做法:明确 Egorov 给的是"几乎一致收敛"——可把坏集做得任意小但通常无法消除。配合 \(\mu(\text{坏集})\to0\) 与控制函数(DCT,§8)才能处理坏集上的积分。
陷阱 6.3(概念误区):混淆"可测"与"连续" - 错误描述:把可测函数当连续函数处理(如假设它有处处定义的值、无跳跃)。 - 现象/后果:在间断的似然函数上套用连续性结论(如介值定理、处处可导),得到错误推断。 - 根本原因:可测远弱于连续。可测函数可处处不连续(如 \(\mathbf{1}_{\mathbb{Q}}\))、可只 a.e. 定义。 - 正确做法:可测函数只保证"层可测",不保证连续性。需要连续性时用 Lusin(除小集外连续)作桥梁,明确"在哪里、除掉多大的集合后"可用连续性。
练习¶
-
(证明题,草稿纸完成) 证明命题 6.2 第 1 条中 \(f+g\) 可测:提示先证 \(\{f+g>a\}=\bigcup_{q\in\mathbb{Q}}\big(\{f>q\}\cap\{g>a-q\}\big)\)(用有理数 \(q\) 的稠密性"插入"),再用可数并封闭。这个"插入有理数"的技巧是处理两个可测函数运算的标准手法。
-
(推导题) 对 \(f(x)=x^2\)(\(x\in[0,2]\)),按定理 6.4 的构造显式写出 \(\varphi_2\)(即 \(n=2\),值域 \([0,2)\) 按 \(1/4\) 分层、\(\ge2\) 截断)。画出 \(\varphi_2\) 的图像,验证 \(0\le\varphi_2\le f\) 且 \(|f-\varphi_2|\le1/4\)(在 \(f<2\) 处)。体会"水平切片"如何用阶梯逼近曲线。
-
(跨节综合题) 结合 §2 的信息 \(\sigma\)-代数与本节可测函数:解释为什么"因果估计器 \(\hat x_t\) 是 \(\mathcal{F}_t\)-可测函数"恰好刻画了"\(\hat x_t\) 只用了 \(z_{1:t},u_{1:t}\) 的信息"。提示:用本节练习 §2.3 的结论 \(\sigma(z_{1:t})\) 是"通过观测能区分的事件",再说明 \(\mathcal{F}_t\)-可测 \(\iff\) \(\hat x_t\) 是 \(z_{1:t},u_{1:t}\) 的(可测)函数。这把"因果性"从直觉变成了可测性的精确陈述。
§7 Lebesgue 积分的构造 ⭐⭐⭐¶
动机:把"层的测度加权和"变成严格定义¶
§6 的脚手架(简单函数逼近)就位,现在正式建造积分。Lebesgue 积分用"三阶段"逐步定义:简单函数 → 非负可测函数 → 一般可测函数。这个顺序不是任意的——它精确对应"先定义最简单对象的积分,再用极限和正负分解推广",每一步都建立在前一步之上。建好后,期望 \(\mathbb{E}[X]=\int X\,dP\) 就有了无歧义的含义。
反面:为什么不能"一步到位"定义¶
你可能想:直接写 \(\int f\,d\mu=\sum_k y_k\,\mu(\{y_k\le f<y_{k+1}\})\) 不就完了?问题是:(i) 对取连续值的 \(f\),这是个无穷和,收敛性需要论证;(ii) \(f\) 可能取负值或 \(\pm\infty\),求和无定义;(iii) 要证明积分的线性、单调、极限性质,散装定义难以下手。三阶段构造把这些困难拆解开——简单函数上一切性质显然,再逐级"继承"上去,是最干净的路径。
理论:三阶段构造¶
阶段一:非负简单函数。
定义 7.1:设 \(\varphi=\sum_{i=1}^n c_i\mathbf{1}_{A_i}\) 是非负简单函数的**标准型**(\(c_i\ge0\) 互异,\(A_i\) 两两不交且并为 \(X\))。定义 $\(\int_X\varphi\,d\mu:=\sum_{i=1}^n c_i\,\mu(A_i),\qquad\text{约定 }0\cdot\infty:=0.\)$
约定 \(0\cdot\infty=0\) 很重要:在 \(f=0\) 的地方即使测度无穷,贡献也是 \(0\)("零高度的无穷宽矩形"面积为零)。可验证此定义与标准型的具体写法无关。
阶段二:非负可测函数。
定义 7.2:对非负可测 \(f:X\to[0,\infty]\),定义 $\(\int_X f\,d\mu:=\sup\Big\{\int_X\varphi\,d\mu:\varphi\text{ 简单},\ 0\le\varphi\le f\Big\}.\)$
用"所有从下方逼近 \(f\) 的简单函数积分的上确界"。由定理 6.4 知这样的 \(\varphi\) 存在且能逼近 \(f\),故上确界有意义(可能为 \(+\infty\))。
阶段三:一般可测函数。
定义 7.3:对可测 \(f:X\to[-\infty,\infty]\),分解 \(f=f^+-f^-\)(\(f^+=\max(f,0)\),\(f^-=\max(-f,0)\),二者非负可测)。若 \(\int f^+\) 与 \(\int f^-\) 不同时为 \(\infty\),定义 $\(\int_X f\,d\mu:=\int_X f^+\,d\mu-\int_X f^-\,d\mu.\)$ 若 \(\int|f|\,d\mu=\int f^++\int f^-<\infty\),称 \(f\) 可积,记 \(f\in L^1(\mu)\)。
正负部分开积分再相减,避开了 \(\infty-\infty\)。可积的实质是 \(|f|\) 的积分有限。
理论:积分的基本性质¶
命题 7.4:设 \(f,g\) 可积或非负可测,\(c\in\mathbb{R}\)。则: 1. 线性:\(\int(af+bg)=a\int f+b\int g\); 2. 单调性:\(f\le g\Rightarrow\int f\le\int g\); 3. 三角不等式:\(\big|\int f\big|\le\int|f|\); 4. 零测集不影响:\(f=g\) a.e. \(\Rightarrow\int f=\int g\);零测集上的积分为 \(0\)。
关于线性的微妙处:单调性、非负简单函数的可加性都直接。但**非负可测函数的可加性** \(\int(f+g)=\int f+\int g\) 需要单独证明——它不像简单函数那样平凡,标准做法是用单调收敛定理(§8):取 \(\varphi_n\nearrow f\)、\(\psi_n\nearrow g\),则 \(\varphi_n+\psi_n\nearrow f+g\),对三者用 MCT 并利用简单函数可加性取极限。这是 MCT 的第一个"内部"应用——它甚至是积分线性性的证明工具。
本质洞察:性质 4(零测集不影响积分)是 Lebesgue 积分的"宽容"本质。它意味着积分**只看 \(f\) 的"几乎处处"行为**,无视零测集上的任意病变。这就是为什么 \(\int_{[0,1]}\mathbf{1}_{\mathbb{Q}}=0\)——\(\mathbf{1}_{\mathbb{Q}}\) 与零函数仅在零测集 \(\mathbb{Q}\) 上不同。在概率论里,这翻译成"a.s. 相等的随机变量有相同期望",让我们能自由修改随机变量在零概率集上的值而不影响任何积分量。Riemann 积分没有这种宽容(它被定义域上的病变绊住),这是两者的本质分野。
理论:Layer-cake 表示——把积分翻译成"超水平集测度的积分"¶
下面这个公式把 §1 的"水平切片"思想表达成精确的恒等式,且在概率论里极为有用。
定理 7.5(Layer-cake / Cavalieri 公式):对非负可测 \(f\ge0\), $\(\int_X f\,d\mu=\int_0^\infty\mu(\{f>t\})\,dt=\int_0^\infty\mu(\{f\ge t\})\,dt.\)$
证明(用 Fubini,§10 会严格化):考虑乘积空间 \(X\times[0,\infty)\) 上的集合 \(\Gamma=\{(x,t):0\le t<f(x)\}\)("\(f\) 的下方图")。对指示函数 \(\mathbf{1}_\Gamma\) 用 Tonelli 定理累次积分:先对 \(t\) 积分得 \(\int_0^\infty\mathbf{1}_{t<f(x)}\,dt=f(x)\),故 \(\iint\mathbf{1}_\Gamma=\int_X f\,d\mu\);先对 \(x\) 积分得 \(\int_X\mathbf{1}_{t<f(x)}\,d\mu=\mu(\{f>t\})\),故 \(\iint\mathbf{1}_\Gamma=\int_0^\infty\mu(\{f>t\})\,dt\)。两者相等。\(\quad\blacksquare\)
直接推论——Markov(Chebyshev)不等式:对非负可测 \(f\) 与 \(t>0\),由 \(f\ge t\mathbf{1}_{\{f\ge t\}}\) 与单调性, $$ \mu({f\ge t})\le\frac1t\int_{{f\ge t}}f\,d\mu\le\frac1t\int_X f\,d\mu. $$ 概率版 \(P(|X|\ge t)\le\mathbb{E}|X|/t\) 是粒子滤波、随机逼近一切**集中不等式**的起点。
机器人应用:期望就是 Lebesgue 积分¶
把积分接到概率上,最核心的等式是:
期望 = Lebesgue 积分:随机变量 \(X:(\Omega,\mathcal{F},\mathbb{P})\to\mathbb{R}\)(可测函数,§6)的**期望**就是它关于概率测度 \(\mathbb{P}\) 的 Lebesgue 积分: $\(\mathbb{E}[X]=\int_\Omega X\,d\mathbb{P}.\)$ 当 \(X\) 有密度 \(p_X=dP_X/d\lambda\)(§12)时,由变量替换退化为本科熟悉的 \(\mathbb{E}[X]=\int_{\mathbb{R}}x\,p_X(x)\,dx\)。
本质洞察:本科里"离散用求和 \(\sum x_i p_i\)、连续用积分 \(\int x\,p(x)\,dx\)"是两套割裂的公式。测度论用**一个** \(\int_\Omega X\,d\mathbb{P}\) 统一了它们——离散时 \(\mathbb{P}\) 是计数测度的加权,积分退化为求和;连续时 \(\mathbb{P}\ll\lambda\),积分用密度展开;混合时(离散数据关联 + 连续位姿,机器人最常见)也无需特殊处理,同一个积分照常工作。这种统一不是形式美化,而是实用必需:SLAM 的混合状态、强化学习的连续-离散混合动作,都靠这个统一的期望定义才能严格处理。
Markov 不等式 \(P(|X|\ge t)\le\mathbb{E}|X|/t\) 在机器人里是**安全性证书**的基础:要证"碰撞概率 \(<\delta\)",常先 bound 某个非负代价的期望,再用 Markov 把它转成尾概率界。粒子滤波的 \(L^2\) 收敛率证明(§8、§14)里,每一步把"误差大"的概率转成"误差平方的期望"也用 Markov(其 \(p=2\) 版本即 Chebyshev)。
⚠️ 常见陷阱¶
陷阱 7.1(概念误区):把"可测"等同于"可积" - 错误描述:以为函数只要可测就能积分出有限值。 - 现象/后果:对 \(\int_{\mathbb{R}}\frac{1}{|x|}\,dx\) 或重尾分布的期望直接计算,得到 \(\infty\) 却当成有限值用,后续推理崩溃。 - 根本原因:可测保证积分**有定义**(可能为 \(\pm\infty\));可积要求 \(\int|f|<\infty\)。Cauchy 分布可测但期望不存在(\(\int|x|p(x)\,dx=\infty\))。 - 正确做法:用 \(\mathbb{E}[X]\)、\(\int f\) 前先验证可积性 \(\int|f|<\infty\)。机器人里重尾似然(鲁棒核函数)常导致期望/方差不存在,必须显式检查,否则收敛定理(要 \(L^1\))失效。
陷阱 7.2(概念误区):忘记 \(0\cdot\infty=0\) 的约定导致计算混乱 - 错误描述:在 \(f=0\) 但测度无穷(或 \(f=\infty\) 但测度零)处不知如何取值。 - 现象/后果:计算 \(\int_{\mathbb{R}}0\,d\lambda\) 或在零测集上 \(f=\infty\) 时得到 \(\infty\cdot0\) 形式而卡住。 - 根本原因:Lebesgue 积分约定 \(0\cdot\infty=0\)——零高度的无穷宽、或无穷高的零宽,面积都是零。 - 正确做法:牢记此约定。它保证"\(f=0\) a.e. \(\Rightarrow\int f=0\)"(即使空间无限)、"\(f\) 在零测集上 \(=\infty\) 不影响积分",是积分宽容性的技术保障。
陷阱 7.3(思维陷阱):以为 Lebesgue 积分总能像 Riemann 那样"算出来" - 错误描述:期待 Lebesgue 积分有比 Riemann 更强的"计算"能力。 - 现象/后果:试图用三阶段定义"算"具体积分值,发现远比 Riemann 的 Newton–Leibniz 公式繁琐。 - 根本原因:Lebesgue 积分的威力在**理论性质**(极限交换、完备性、Fubini),而非具体计算。对 Riemann 可积函数,两者数值相等(§9),实际计算仍用微积分基本定理。 - 正确做法:定义用于理论推导(证收敛、证存在);具体数值计算在 \(f\) 足够好(Riemann 可积)时用经典微积分。两者分工明确,不必用定义"硬算"。
练习¶
-
(证明题,草稿纸完成) 用定义 7.1 证明非负简单函数积分与标准型写法无关:设 \(\varphi=\sum_i c_i\mathbf{1}_{A_i}=\sum_j d_j\mathbf{1}_{B_j}\) 是两种表示(\(A_i\) 不交、\(B_j\) 不交),证明 \(\sum_i c_i\mu(A_i)=\sum_j d_j\mu(B_j)\)。提示:用公共加细 \(A_i\cap B_j\)。
-
(推导题) 用 Layer-cake 公式(定理 7.5)证明:对非负随机变量 \(X\ge0\),\(\mathbb{E}[X]=\int_0^\infty P(X>t)\,dt\)。再推广到 \(\mathbb{E}[X^p]=\int_0^\infty p\,t^{p-1}P(X>t)\,dt\)(\(p>0\))。这个公式在证明 \(L^p\) 范数的尾界、推导矩与尾概率关系时极有用。
-
(开放思考题) Cauchy 分布密度 \(p(x)=\frac{1}{\pi(1+x^2)}\)。验证它是合法密度(\(\int p=1\))但期望 \(\mathbb{E}|X|=\int|x|p(x)\,dx=\infty\) 不存在。讨论:若机器人用 Cauchy 型重尾似然(为抗野值),粒子滤波的"加权平均"\(\hat x=\sum w_i x_i\) 会出什么问题?这与 §8 收敛定理要求 \(L^1\) 控制有何关系?
§8 三大收敛定理 ⭐⭐⭐¶
动机:极限与积分何时可交换——蒙特卡洛的命根子¶
这是本章的承重墙。机器人学里几乎所有"用近似序列逼近目标"的算法——蒙特卡洛积分、粒子滤波、随机逼近、随机梯度——本质都在做一件事:\(f_n\to f\),希望 \(\int f_n\to\int f\)。§1 已经看到 Riemann 框架下这个交换会失败。Lebesgue 框架提供三把钥匙——MCT、Fatou、DCT——在不同条件下保证交换合法。没有它们,你无法证明任何蒙特卡洛算法收敛,也无法给出收敛速率。
反面:极限与积分不能随便交换——两个反例先看¶
在给定理之前,先看清"不能随便交换"的两种失败方式,它们也是后面反例的主角。
失败一(高瘦帽子,质量向上逃逸):\(f_n=n\,\mathbf{1}_{(0,1/n]}\)。逐点 \(f_n(x)\to0\)(任何固定 \(x>0\),当 \(n>1/x\) 时 \(f_n(x)=0\))。但 \(\int f_n=n\cdot\frac1n=1\not\to0=\int\lim f_n\)。质量"挤"到越来越高越来越窄的尖峰里逃逸。
失败二(行进帽子,质量向右逃逸):\(f_n=\mathbf{1}_{[n,n+1]}\)。逐点 \(f_n(x)\to0\),但 \(\int f_n=1\not\to0\)。质量"走"到越来越远处逃逸。
两种逃逸都让 \(\int\lim<\lim\int\)。三大定理的条件正是为了堵住这两种逃逸。
历史¶
单调收敛定理常归于 Beppo Levi(1906),控制收敛定理是 Lebesgue(1910)的标志性成果,Fatou 引理来自 Fatou(1906)研究 Fourier 级数时。三者构成 Lebesgue 积分相对 Riemann 的决定性优势——Riemann 框架下没有任何与之对应的定理。
理论:单调收敛定理(MCT)¶
定理 8.1(单调收敛定理 / Beppo Levi):设 \(f_n\ge0\) 可测,\(f_n\nearrow f\) a.e.(单调递增逐点收敛)。则 $\(\int f_n\,d\mu\nearrow\int f\,d\mu.\)$
证明(完整,含著名的 \(\alpha\)-技巧):
上界:由单调性 \(f_n\le f\) 得 \(\int f_n\le\int f\),故 \(\lim_n\int f_n\le\int f\)(极限存在因 \(\int f_n\) 递增)。
下界(关键):要证 \(\lim_n\int f_n\ge\int f\),即对任意简单函数 \(0\le\varphi\le f\) 证 \(\lim_n\int f_n\ge\int\varphi\)(再对 \(\varphi\) 取上确界即得 \(\ge\int f\))。固定 \(\alpha\in(0,1)\),令 $$ E_n={x:f_n(x)\ge\alpha\varphi(x)}. $$ 由 \(f_n\nearrow f\ge\varphi>\alpha\varphi\)(在 \(\varphi>0\) 处),每个 \(x\) 终将进入 \(E_n\),故 \(E_n\uparrow X\)。于是 $$ \int f_n\ge\int_{E_n}f_n\ge\alpha\int_{E_n}\varphi. $$ 对 \(\varphi=\sum_i c_i\mathbf{1}_{A_i}\),\(\int_{E_n}\varphi=\sum_i c_i\mu(A_i\cap E_n)\)。由测度的**由下连续性**(§3,这里是关键),\(\mu(A_i\cap E_n)\uparrow\mu(A_i)\),故 \(\int_{E_n}\varphi\to\int\varphi\)。取 \(n\to\infty\) 得 \(\lim_n\int f_n\ge\alpha\int\varphi\)。再令 \(\alpha\uparrow1\) 得 \(\lim_n\int f_n\ge\int\varphi\)。\(\quad\blacksquare\)
本质洞察:MCT 的证明把"积分与极限交换"归约到了"测度与递增集合极限交换"(由下连续性,§3 命题 3.2.4)。这揭示了一条因果链:可数可加性 ⟹ 测度由下连续 ⟹ MCT ⟹(下面)Fatou ⟹ DCT。整座收敛定理大厦的地基,是 §3 那一条可数可加性公理。\(\alpha\)-技巧(先放松到 \(\alpha\varphi\) 再令 \(\alpha\to1\))是测度论里反复出现的"留出余量"手法,值得专门记住。
非负性不可省(反事实):\(f_n=-\frac1n\mathbf{1}_{[0,n]}\nearrow0\),但 \(\int f_n=-1\not\to0\)。负值允许质量从下方逃逸,MCT 失效。
理论:Fatou 引理¶
定理 8.2(Fatou 引理):设 \(f_n\ge0\) 可测。则 $\(\int\liminf_n f_n\,d\mu\le\liminf_n\int f_n\,d\mu.\)$
证明(由 MCT 推出):令 \(g_k=\inf_{n\ge k}f_n\)。则 \(g_k\nearrow\liminf_n f_n\)(这是 \(\liminf\) 的定义),且 \(g_k\) 非负可测、\(g_k\le f_n\) 对一切 \(n\ge k\)。由后者 \(\int g_k\le\inf_{n\ge k}\int f_n\)。对 \(g_k\nearrow\liminf f_n\) 用 MCT: $$ \int\liminf_n f_n=\lim_k\int g_k\le\lim_k\inf_{n\ge k}\int f_n=\liminf_n\int f_n.\quad\blacksquare $$
为什么是不等式而非等式(这是 Fatou 的精髓):两个失败反例都给出**严格**不等。行进帽子 \(f_n=\mathbf{1}_{[n,n+1]}\):\(\liminf f_n=0\) 故左边 \(=0\),而 \(\liminf\int f_n=1\),故 \(0<1\) 严格。Fatou 只保证"极限的积分不超过积分的下极限"——它单边地控制"质量逃逸":逃逸只会让 \(\int f_n\) 偏大,不会偏小。
本质洞察:Fatou 是三定理里**假设最弱**(只要非负)的,代价是结论最弱(只有单边不等式)。但正因假设弱,它成了证明其他两个定理(尤其 DCT)的杠杆——MCT 给 Fatou,Fatou 给 DCT。在概率论里 Fatou 直接给出"下半连续性",是证明各种期望不等式(如 \(\mathbb{E}[\liminf X_n]\le\liminf\mathbb{E}[X_n]\))的万能工具。
理论:控制收敛定理(DCT)——粒子滤波收敛的核心¶
定理 8.3(控制收敛定理 / Lebesgue):设 \(f_n\to f\) a.e.,且存在**控制函数** \(g\in L^1(\mu)\) 使 \(|f_n|\le g\) 对一切 \(n\)。则 \(f\in L^1\),且 $\(\int f_n\,d\mu\to\int f\,d\mu,\qquad\text{更强地}\quad\int|f_n-f|\,d\mu\to0.\)$
证明(由 Fatou 两次推出,优雅):由 \(|f_n|\le g\) 取极限得 \(|f|\le g\),故 \(f\in L^1\)。
考虑两个非负函数列:\(g+f_n\ge0\) 与 \(g-f_n\ge0\)(因 \(|f_n|\le g\))。
对 \(g+f_n\) 用 Fatou:\(\int(g+f)\le\liminf\int(g+f_n)=\int g+\liminf\int f_n\),消去 \(\int g<\infty\) 得 \(\int f\le\liminf\int f_n\)。
对 \(g-f_n\) 用 Fatou:\(\int(g-f)\le\liminf\int(g-f_n)=\int g-\limsup\int f_n\),消去 \(\int g\) 得 \(\limsup\int f_n\le\int f\)。
合并:\(\limsup\int f_n\le\int f\le\liminf\int f_n\),故 \(\lim\int f_n=\int f\)。\(L^1\) 收敛同理对 \(2g-|f_n-f|\ge0\) 用 Fatou。\(\quad\blacksquare\)
本质洞察:DCT 的核心是控制函数 \(g\)——它像一个"质量天花板",把整个序列 \(\{f_n\}\) 罩在一个可积函数下面,堵死了质量向上(高瘦帽子)和向远处(行进帽子)的逃逸。有了这个天花板,逐点收敛就足以保证积分收敛。DCT 是机器人蒙特卡洛方法里用得最多的定理:只要被积函数被一个固定的可积函数控制,"用样本平均逼近期望"的极限交换就合法。
控制函数必要性的反例(两个逃逸都缺天花板): - 行进帽子 \(f_n=\mathbf{1}_{[n,n+1]}\to0\),最小的控制函数需 \(g\ge1\) 于 \([0,\infty)\),但 \(\int g=\infty\notin L^1\)——无可积天花板,DCT 不适用,\(\int f_n=1\not\to0\)。 - 高瘦帽子 \(f_n=n\mathbf{1}_{(0,1/n]}\to0\),最小控制函数 \(g(x)\ge\sup_n f_n(x)=1/x\)(在 \(x\in(0,1]\)),但 \(\int_0^1\frac1x\,dx=\infty\notin L^1\)——同样无天花板。
理论:两个有用的推广¶
Scheffé 引理:\(f_n,f\ge0\),\(f_n\to f\) a.e.,\(\int f_n\to\int f<\infty\) \(\Rightarrow\) \(\int|f_n-f|\to0\)(\(L^1\) 收敛)。
Scheffé 妙在**不需要外部控制函数**——只要积分值收敛 + 非负,就免费得到 \(L^1\) 收敛。它在概率论里专门处理"密度逐点收敛 + 总质量都为 1"的情形(如经验密度收敛到真密度)。
Pratt 引理(广义 DCT):\(|f_n|\le g_n\),\(g_n\to g\) a.e.,\(\int g_n\to\int g<\infty\) \(\Rightarrow\) \(\int f_n\to\int f\)。
Pratt 把 DCT 的"固定控制函数 \(g\)"放松成"收敛的控制函数列 \(g_n\)",覆盖更多情形(如控制函数本身随 \(n\) 变化但收敛)。
机器人应用:DCT 是粒子滤波收敛性证明的核心¶
这是本章最重要的应用之一,值得完整展开。
粒子滤波的收敛问题:粒子滤波用 \(N\) 个加权样本的**经验测度** \(\mu_t^N=\frac1N\sum_{i=1}^N\delta_{x_t^{(i)}}\) 近似真后验 \(\pi_t\)。要证明的核心命题是:对任意有界可测的检验函数 \(\varphi\)(如要估计的某个状态分量),
DCT 在哪一步起作用? 收敛性证明(Crisan–Doucet 2002;Del Moral 2004)的归纳结构里,每一步贝叶斯更新都涉及一个**似然归一化**: $$ \pi_t(\varphi)=\frac{\int\varphi(x)\,p(z_t\mid x)\,\hat\pi_{t}(dx)}{\int p(z_t\mid x)\,\hat\pi_t(dx)}. $$ 要把"经验测度的归一化"\(\mu_t^N\) 与"真测度的归一化"\(\pi_t\) 的差控制住,需要把极限 \(N\to\infty\) 移进积分号。这正是 DCT 的工作:被积函数 \(\varphi\cdot p(z_t\mid\cdot)\) 被**有界**的 \(\|\varphi\|_\infty\cdot p(z_t\mid\cdot)\) 控制(似然有界 + 检验函数有界),DCT 保证极限与积分交换合法。
定量收敛率:在 Feynman–Kac 框架下可证 \(L^2\) 收敛率 $$ \mathbb{E}\big|\mu_t^N(\varphi)-\pi_t(\varphi)\big|^2\le\frac{C_t\,|\varphi|_\infty^2}{N}, $$ 即均方误差 \(O(1/N)\)、标准差 \(O(1/\sqrt N)\)(与维度无关,这是粒子滤波相对网格法的优势)。这个界的逐步证明里,每一个似然归一化步骤都调用 DCT 来交换期望与极限;常数 \(C_t\) 随时间 \(t\) 增长,反映粒子退化(degeneracy)——这也是重采样必要性的理论根源。
本质洞察:你以前可能把"粒子滤波收敛"当成一句口号或仿真观察。测度论把它变成定理:经验测度弱收敛到真后验,速率 \(O(1/\sqrt N)\),证明的发动机是 DCT。审稿人问"你的滤波器为什么收敛、收多快",答案就是这条 DCT 论证 + Feynman–Kac 误差递推。控制函数(有界似然)的存在性是整个论证的前提——这也解释了为什么**重尾似然**(无界)会破坏标准收敛性证明(陷阱 7.3、练习 7.3),需要额外的截断或矩条件。
DCT 还支撑另外两类机器人算法: - 随机梯度下降的 a.s. 收敛:"残差趋零"这一步常用 Scheffé 引理处理 \(L^1\) 损失的收敛; - 价值函数迭代:拟合价值迭代(Munos–Szepesvári 2008)的误差传播分析中,Bellman 算子的极限行为靠 DCT 交换"迭代极限"与"期望"。
⚠️ 常见陷阱¶
陷阱 8.1(思维陷阱):用 DCT 时不验证控制函数存在 - 错误描述:看到 \(f_n\to f\) 逐点就直接写 \(\int f_n\to\int f\),跳过"找 \(g\in L^1\) 使 \(|f_n|\le g\)"。 - 现象/后果:在质量逃逸的情形(行进帽子、高瘦帽子)得到错误结论 \(\int f_n\to0\) 而实际 \(\int f_n=1\)。 - 根本原因:逐点收敛**不蕴含**积分收敛;必须有可积控制函数堵住逃逸。 - 正确做法:用 DCT 三步走——(i) 确认 \(f_n\to f\) a.e.;(ii) 显式给出 \(g\in L^1\) 使 \(|f_n|\le g\);(iii) 才能下结论。找不到 \(g\) 时改用 MCT(若单调)、Fatou(只要单边界)、Vitali(一致可积,§14)或 Scheffé。
陷阱 8.2(概念误区):把 Fatou 的不等式方向记反或当成等式 - 错误描述:写成 \(\int\liminf f_n\ge\liminf\int f_n\)(方向反)或 \(=\)(当等式)。 - 现象/后果:导出错误的上界/下界,证明失效。 - 根本原因:Fatou 是 \(\int\liminf\le\liminf\int\)——"先取下极限再积分"\(\le\)"先积分再取下极限"。行进帽子给严格不等 \(0<1\)。 - 正确做法:用质量逃逸记忆方向:逃逸使 \(\int f_n\) 偏大,所以 \(\liminf\int f_n\)(右边)\(\ge\int\liminf f_n\)(左边,已"丢掉"逃逸的质量)。需要反方向时用"反 Fatou"\(\int\limsup f_n\ge\limsup\int f_n\)(需上方控制函数)。
陷阱 8.3(思维陷阱):以为非负性/单调性在 MCT 里可有可无 - 错误描述:对非单调或可变号的序列套用 MCT。 - 现象/后果:\(f_n=-\frac1n\mathbf{1}_{[0,n]}\nearrow0\) 但 \(\int f_n=-1\not\to0\);对变号序列得错误极限。 - 根本原因:MCT 严格要求 \(f_n\ge0\) 且单调递增。负值或非单调破坏了"由下连续性"论证。 - 正确做法:MCT 用于非负递增。变号或非单调时分解正负部、或改用 DCT(有控制函数)/ Fatou。注意 MCT 有递减版本但需 \(f_1\in L^1\)(类比 §3 上连续性的有限性条件)。
陷阱 8.4(概念误区):混淆"\(L^1\) 收敛"与"逐点收敛" - 错误描述:以为 \(\int|f_n-f|\to0\)(\(L^1\))与 \(f_n\to f\) a.e.(逐点)等价。 - 现象/后果:打字机序列 \(L^1\) 收敛到 \(0\) 但处处不收敛(§14);误判收敛模式导致错误推理。 - 根本原因:两种收敛互不蕴含。DCT 同时给出二者(在其假设下),但一般情形下它们分离(§14 详述)。 - 正确做法:明确你需要哪种收敛。粒子滤波的 \(L^2\) 收敛率是范数收敛;a.s. 收敛是逐点收敛(§14)。它们对工程的含义不同——范数收敛是"平均意义",a.s. 是"每条轨迹"。
练习¶
-
(证明题,草稿纸完成) 用 MCT 证明积分对非负可测函数的**可数可加性**(Beppo Levi 级数形式):若 \(f_n\ge0\) 可测,则 \(\int\sum_{n=1}^\infty f_n=\sum_{n=1}^\infty\int f_n\)。提示:对部分和 \(S_N=\sum_{n\le N}f_n\nearrow\sum_n f_n\) 用 MCT。这个形式在级数与积分交换里极常用。
-
(推导题) 用 DCT 计算 \(\lim_{n\to\infty}\int_0^1\frac{n\sqrt x}{1+n^2x^2}\,dx\)。先求逐点极限(\(=0\) a.e.),再找控制函数(提示:用 AM-GM \(\frac{n\sqrt x}{1+n^2x^2}\le\frac{n\sqrt x}{2n\sqrt x\cdot\sqrt x}=\frac{1}{2\sqrt x}\in L^1(0,1)\)),最后下结论。亲手走一遍 DCT 三步。
-
(跨节综合题) 结合 §7 Markov 不等式与本节 DCT,给出粒子滤波 \(L^2\) 收敛率 \(\mathbb{E}|\mu_t^N(\varphi)-\pi_t(\varphi)|^2\le C_t\|\varphi\|_\infty^2/N\) 的一个"用途":用 Chebyshev(Markov 的 \(p=2\) 版)把它转成尾概率界 \(P(|\mu_t^N(\varphi)-\pi_t(\varphi)|>\varepsilon)\le C_t\|\varphi\|_\infty^2/(N\varepsilon^2)\),再讨论:这个界能否(配合 Borel–Cantelli,§3)推出 a.s. 收敛?需要对 \(N\) 求和收敛,缺了什么条件?(这串起 §3、§7、§8 三节,预告 §14。)
§9 Riemann 积分与 Lebesgue 积分的比较 ⭐⭐¶
动机:两套积分到底什么关系?¶
学完 Lebesgue 积分,自然要问:它和本科的 Riemann 积分什么关系?是替代、扩展,还是平行?这关系到实践——你算具体积分时该用哪套?本节给出精确答案。本节也是全章节奏里的一个"轻松段"(R3):在 §7-§8 的密集推导后,停下来梳理两套积分的关系,巩固直觉。
理论:一致性——经典计算无须重做¶
定理 9.1(一致性):若 \(f:[a,b]\to\mathbb{R}\) Riemann 可积,则 \(f\) 也 Lebesgue 可积,且两个积分值**相等**: $\((\mathrm{R})\!\int_a^b f\,dx=(\mathrm{L})\!\int_{[a,b]}f\,d\lambda.\)$
这条定理是定心丸:你本科学的所有积分技巧(换元、分部、Newton–Leibniz)在 Lebesgue 框架下**照常有效**,数值不变。Lebesgue 不是推翻 Riemann,而是在 Riemann 适用的地方完全兼容、在 Riemann 失效的地方接管。
理论:Riemann 可积的 Lebesgue 判据¶
定理 9.2(Lebesgue 判据):有界 \(f:[a,b]\to\mathbb{R}\) Riemann 可积 \(\iff\) 其不连续点集是 Lebesgue 零测集。
这条已在 §1 出现,现在可以理解它的位置:它用 Lebesgue 测度精确刻画了"Riemann 能积什么"。直觉:Riemann 用上下 Darboux 和夹逼,夹缝的大小由"函数振荡的地方有多大"决定;振荡集(不连续点)零测时夹缝闭合。
理论:Lebesgue 的四大优势¶
| 优势 | 内容 | Riemann 为何做不到 |
|---|---|---|
| 极限交换 | MCT/Fatou/DCT(§8) | Riemann 框架下无对应定理,逐点极限可能跳出可积类 |
| 空间完备 | \(L^p\) 是 Banach 空间(§13) | Riemann 可积函数在 \(\|\cdot\|_p\) 下不完备,Cauchy 列极限可能非 Riemann 可积 |
| 乘积与 Fubini | 重积分=累次积分的简洁条件(§10) | Riemann 的多重积分对函数光滑性要求高,理论繁琐 |
| 无界自然处理 | 无界区间/函数无须"广义"权宜 | Riemann 需广义积分(极限定义),理论割裂 |
其中**完备性**是对机器人学最致命的一条。Kalman 滤波的存在性(§13)依赖 \(L^2\) 完备;若用 Riemann 可积函数空间,那个"最优估计的投影"可能根本不存在(极限掉出空间外)。这是非 Lebesgue 不可的最深理由。
本质洞察:Riemann 与 Lebesgue 的关系,恰如 \(\mathbb{Q}\) 与 \(\mathbb{R}\) 的关系(§1 前置桥接)。\(\mathbb{Q}\) 上能做的算术 \(\mathbb{R}\) 都能做且结果一致(类比一致性定理),但 \(\mathbb{Q}\) 不完备(Cauchy 列极限可能是无理数),分析无法在 \(\mathbb{Q}\) 上展开。Lebesgue 之于 Riemann 就是这个"完备化"——它把不完备的 Riemann 可积函数空间补全成完备的 \(L^p\),让极限分析得以进行。这个类比像的地方:都是"补全缺失的极限点";不像的地方:\(\mathbb{R}\) 补的是数,\(L^p\) 补的是函数,且 \(L^p\) 还需模掉"a.e. 相等"才成真范数(§13)。
反面:Lebesgue 也有"做不到"的——条件收敛积分¶
Lebesgue 并非全面占优。有一类积分 Riemann(广义)能做而 Lebesgue 不能:
反例 9.3(条件收敛):\(\int_0^\infty\frac{\sin x}{x}\,dx\) 作为广义 Riemann 积分存在,值为 \(\pi/2\)。但它**不是 Lebesgue 可积**,因为 $\(\int_0^\infty\Big|\frac{\sin x}{x}\Big|\,dx=\infty.\)$
原因:Lebesgue 可积要求 \(|f|\) 可积(绝对可积),而 \(\frac{\sin x}{x}\) 是**条件收敛**——正负部分相互抵消才收敛,绝对值积分发散。这类"震荡抵消"型积分超出 Lebesgue 的处理范围,需 Henstock–Kurzweil 积分或在复分析中作反常积分(留数)处理。
本质洞察:Lebesgue 与 Riemann(广义)不是简单的包含关系——它们在"无界区间的条件收敛积分"上分道扬镳。Lebesgue 要绝对可积(为了 Fubini、DCT 等定理成立,必须排除依赖求和顺序的条件收敛);广义 Riemann 允许条件收敛(但因此失去那些定理)。这是一个深刻的权衡:绝对可积性是换取强大极限定理的"入场费"。机器人里用到 \(\frac{\sin x}{x}\) 型积分(如 sinc 滤波器、理想低通)时要警惕——不能对它们套 Fubini/DCT。
⚠️ 常见陷阱¶
陷阱 9.1(概念误区):以为 Lebesgue 可积 \(\supseteq\) Riemann(广义)可积 - 错误描述:认为 Lebesgue 积分总能积"更多"函数,广义 Riemann 是其子集。 - 现象/后果:对 \(\int_0^\infty\frac{\sin x}{x}\,dx\) 套用 Lebesgue 定理(Fubini、DCT),得到错误结果。 - 根本原因:Lebesgue 要绝对可积;条件收敛的广义 Riemann 积分(如 \(\sin x/x\))不是 Lebesgue 可积。二者不可比。 - 正确做法:对绝对可积函数用 Lebesgue 的全套定理;对条件收敛积分(绝对值发散)只能用广义 Riemann 极限定义或复分析,不能用 Fubini/DCT。
陷阱 9.2(思维陷阱):因为"结果相等"就忽视 Lebesgue 的理论必要性 - 错误描述:既然两者数值相等(一致性定理),就觉得 Lebesgue 是多余的形式主义。 - 现象/后果:在需要极限交换、空间完备、Fubini 的地方(粒子滤波收敛、Kalman 存在性、SLAM 边际化)找不到合法工具。 - 根本原因:两者数值相等仅在 Riemann 可积时;Lebesgue 的价值在 Riemann 失效或无定理可用**的场景。 - **正确做法:具体数值计算用经典微积分(Riemann 可积时);理论论证(收敛、存在、交换)用 Lebesgue。分工而非替代。
练习¶
-
(证明题,草稿纸完成) 用 §8 的反例 \(f_n=\mathbf{1}_{\{q_1,\dots,q_n\}}\uparrow\mathbf{1}_{\mathbb{Q}}\) 说明:Riemann 可积函数空间在逐点极限下不封闭。再说明它在 \(\|\cdot\|_1\) 下也不完备(构造一个 Riemann 可积函数的 \(L^1\)-Cauchy 列,其极限非 Riemann 可积)。这是定理 9.1 优势表中"完备性"一栏的直接验证。
-
(开放思考题) 反例 9.3 中 \(\sin x/x\) 条件收敛。请用"正负部分别积分"的视角解释:\(\int_0^\infty(\sin x/x)^+\,dx=\int_0^\infty(\sin x/x)^-\,dx=\infty\),两者相减是 \(\infty-\infty\)(无定义),但按 \(x\) 从小到大的顺序求和(广义 Riemann)却收敛到 \(\pi/2\)。这说明条件收敛积分的值**依赖求和顺序**——为什么这与 Fubini(§10 要交换积分顺序)天然冲突?
§10 积测度与 Fubini–Tonelli 定理 ⭐⭐⭐¶
动机:多重积分能拆成累次积分吗?¶
机器人学里大量的积分是**多变量**的:SLAM 的联合后验在"位姿 × 地图"空间上,要对地图变量积分掉(边际化);因子图的消息传递要对邻居变量求和-积分。这些都隐含一个操作:把高维积分 \(\iint f(x,y)\,d(x,y)\) 拆成累次积分 \(\int\big(\int f\,dy\big)dx\),先积一个变量再积另一个。这个拆分什么时候合法?积分顺序能换吗?Fubini–Tonelli 定理给出精确答案——答错会导致 SLAM 边际化出系统性错误。
反面:积分顺序不能随便换¶
先看一个警告性的反例,它说明"想当然地交换积分顺序"会出错。
反例 10.1(累次积分不相等):在 \((0,1]^2\) 上取 \(f(x,y)=\dfrac{x^2-y^2}{(x^2+y^2)^2}\)。则 $\(\int_0^1\Big(\int_0^1 f\,dy\Big)dx=\frac\pi4,\qquad\int_0^1\Big(\int_0^1 f\,dx\Big)dy=-\frac\pi4.\)$ 两个累次积分一正一负,不相等!
毛病在哪?计算可知 \(\iint|f|\,dx\,dy=\infty\)——\(f\) 不绝对可积。Fubini 定理的前提(绝对可积)失效,所以交换顺序非法。这个反例是悬在所有"想换积分顺序"的人头上的剑:不检查绝对可积性就交换,结果可能符号都反了。
历史¶
Fubini(1907)证明了绝对可积情形的累次积分定理;Tonelli(1909)补上了非负但未必可积情形的版本(只需可测 + 非负,不需先验可积)。两者合称 Fubini–Tonelli,是多重积分理论的支柱。
理论:积 \(\sigma\)-代数与积测度¶
定义 10.2(积 \(\sigma\)-代数与积测度):给定 \((X,\mathcal{A},\mu)\)、\((Y,\mathcal{B},\nu)\)。 - 积 \(\sigma\)-代数 \(\mathcal{A}\otimes\mathcal{B}:=\sigma(\{A\times B:A\in\mathcal{A},B\in\mathcal{B}\})\),由"可测矩形"生成。 - 积测度 \(\mu\times\nu\):在可测矩形上定义 \((\mu\times\nu)(A\times B)=\mu(A)\,\nu(B)\),经 Carathéodory 扩张(§4)到 \(\mathcal{A}\otimes\mathcal{B}\)。\(\sigma\)-有限下此扩张唯一(\(\pi\)-\(\lambda\) 定理)。
这里又一次用到 §4 的扩张引擎和 §2 的 \(\pi\)-\(\lambda\) 唯一性——积测度的存在唯一性不是天经地义,而是这两台机器的产物。\(\sigma\)-有限是关键前提。
理论:单调类定理(积分版的归纳工具)¶
证明 Fubini 需要一个"对所有可测集成立"的归纳工具,类似 \(\pi\)-\(\lambda\)。
定理 10.3(单调类定理):若 \(\mathcal{A}_0\) 是代数,\(\mathcal{M}(\mathcal{A}_0)\) 是包含 \(\mathcal{A}_0\) 的最小**单调类**(对递增并、递减交封闭),则 \(\mathcal{M}(\mathcal{A}_0)=\sigma(\mathcal{A}_0)\)。
它的用法和 \(\pi\)-\(\lambda\) 一样:要证某性质对 \(\sigma(\mathcal{A}_0)\) 成立,先证它对代数 \(\mathcal{A}_0\) 成立,再证"满足该性质的集合构成单调类"。下面 Tonelli 证明的第一步正是如此。
理论:Tonelli 定理(非负情形)¶
定理 10.4(Tonelli):设 \(\mu,\nu\) 为 \(\sigma\)-有限测度,\(f:X\times Y\to[0,\infty]\) 为 \(\mathcal{A}\otimes\mathcal{B}\)-可测。则切片函数 \(x\mapsto\int_Y f(x,y)\,d\nu(y)\) 是 \(\mathcal{A}\)-可测的(\(y\) 切片对称),且三个积分相等: $\(\int_{X\times Y}f\,d(\mu\times\nu)=\int_X\Big(\int_Y f(x,y)\,d\nu(y)\Big)d\mu(x)=\int_Y\Big(\int_X f(x,y)\,d\mu(x)\Big)d\nu(y).\)$
证明(三步,逐级推广): 1. 指示函数 \(f=\mathbf{1}_E\):令 \(\mathcal{M}=\{E\in\mathcal{A}\otimes\mathcal{B}:\) 两个累次积分都等于 \((\mu\times\nu)(E)\}\)。可验证 \(\mathcal{M}\) 含一切可测矩形(\(\mathbf{1}_{A\times B}\) 的累次积分显然 \(=\mu(A)\nu(B)\)),且是单调类(用 MCT 处理递增并、有限性处理递减交)。由单调类定理 \(\mathcal{M}=\mathcal{A}\otimes\mathcal{B}\),即对一切可测 \(E\) 成立。 2. 非负简单函数:由第 1 步 + 积分线性性(有限和)立得。 3. 非负可测 \(f\):取简单函数 \(\varphi_n\nearrow f\)(定理 6.4),对内外积分各用一次 MCT、对重积分用一次 MCT,三次极限交换后得证。\(\quad\blacksquare\)
Tonelli 的关键便利:它**只需非负 + 可测**,不需预先知道 \(f\) 可积。所以实践中先用 Tonelli 对 \(|f|\) 算累次积分,若有限就知道 \(f\) 绝对可积,再用 Fubini——这是处理多重积分的标准两步。
理论:Fubini 定理(绝对可积情形)¶
定理 10.5(Fubini):设 \(\mu,\nu\) \(\sigma\)-有限,\(f\in L^1(\mu\times\nu)\)(即 \(\iint|f|<\infty\))。则 a.e. \(x\) 处切片 \(f(x,\cdot)\in L^1(\nu)\),累次积分存在且等于重积分(三式相等,与 Tonelli 同形)。
证明:先对 \(|f|\ge0\) 用 Tonelli,由 \(f\in L^1\) 得累次积分有限,故 a.e. 切片可积。再对 \(f^+,f^-\)(都 \(\le|f|\) 故可积)分别用 Tonelli,相减即得。\(\quad\blacksquare\)
本质洞察:Fubini 与 Tonelli 是一枚硬币的两面——Tonelli 管非负(不问可积,可能得 \(\infty\)),Fubini 管绝对可积(先验证 \(\int|f|<\infty\))。实践黄金法则:永远先用 Tonelli 对 \(|f|\) 验证绝对可积性,确认有限后才用 Fubini 交换顺序。反例 10.1 正是跳过这一步的恶果。这个"先 Tonelli 验绝对可积、再 Fubini 换序"的纪律,是处理一切多重积分(SLAM 边际化、卷积、期望的累次计算)的安全带。
理论:两个不可省条件的反例¶
反例 10.6(缺绝对可积):反例 10.1 的 \(f=\frac{x^2-y^2}{(x^2+y^2)^2}\),\(\iint|f|=\infty\),两累次积分 \(\pm\pi/4\) 不等。
反例 10.7(缺 \(\sigma\)-有限):\(X=Y=[0,1]\),\(\mu=\) Lebesgue,\(\nu=\) 计数测度(非 \(\sigma\)-有限)。取 \(f=\mathbf{1}_\Delta\)(对角线 \(\Delta=\{(x,x)\}\) 的指示)。则 \(\int_X\int_Y f\,d\nu\,d\mu=\int_X 1\,d\mu=1\)(每条竖线交对角线一点,计数测度为 1),而 \(\int_Y\int_X f\,d\mu\,d\nu=\int_Y 0\,d\nu=0\)(每条横线交对角线一点,Lebesgue 测度为 0)。两累次积分 \(1\ne0\)——\(\sigma\)-有限性不可省。
机器人应用:SLAM 边际化、Rao–Blackwell 化、因子图¶
Fubini 是 SLAM 后端一系列核心操作的合法性来源。
(1) 地图边际化:完整 SLAM 后验 \(p(x_{0:T},m\mid z_{1:T})\) 同时含轨迹 \(x_{0:T}\) 与地图 \(m\)。要得到纯轨迹后验,需把地图积分掉: $$ p(x_{0:T}\mid z_{1:T})=\int p(x_{0:T},m\mid z_{1:T})\,dm. $$ 这是 Fubini——在乘积空间"轨迹 × 地图"上对地图变量做边缘化。合法性要求被积的联合后验绝对可积(归一化的概率密度自动满足)。
(2) FastSLAM 的 Rao–Blackwell 化:FastSLAM 的核心分解 $$ p(x_{0:t},m\mid z_{1:t})=p(x_{0:t}\mid z_{1:t})\cdot p(m\mid x_{0:t},z_{1:t}) $$ 把"轨迹 × 地图"的联合分解为"轨迹边际 × 给定轨迹的地图条件"。给定轨迹后地图各路标条件独立,可解析(EKF)处理,于是只需对低维轨迹用粒子滤波——把高维粒子代价压到低维。这个分解和后续的期望计算(Rao–Blackwell 化降方差)依赖 Fubini 交换"对轨迹积分"与"对地图积分"的顺序。
(3) 因子图 sum-product:因子图上的消息传递,每一步"对一个变量求和/积分掉"再传给邻居,本质是 Fubini 的反复应用——把全局边际拆成局部积分的累次执行。
本质洞察:SLAM 后端的"边际化""消元""消息传递"听起来是工程操作,其数学本体都是 Fubini 定理——把高维联合积分拆成可计算的低维累次积分。Fubini 保证了"先消地图还是先消某段位姿"在绝对可积时结果一致,这是各种消元顺序(如 Cholesky 分解的变量排序、因子图的 elimination ordering)能自由选择的理论根据。警示:若用了未归一化的位势或重尾似然(不绝对可积),交换积分顺序可能像反例 10.1 那样给出错误结果——这在实现自定义因子时是真实的陷阱。
⚠️ 常见陷阱¶
陷阱 10.1(思维陷阱):不验证绝对可积就交换积分顺序 - 错误描述:直接写 \(\int\int f\,dy\,dx=\int\int f\,dx\,dy\),不检查 \(\iint|f|<\infty\)。 - 现象/后果:反例 10.1 给出 \(\pi/4\ne-\pi/4\)——结果连符号都错。在 SLAM 边际化中可能得到错误后验。 - 根本原因:Fubini 要求绝对可积;条件收敛或非可积时累次积分依赖顺序。 - 正确做法:永远"先 Tonelli 验 \(\iint|f|<\infty\)、再 Fubini 换序"。对概率密度(归一化、非负)通常自动满足,但自定义未归一化位势/重尾似然必须显式检查。
陷阱 10.2(概念误区):忽视 \(\sigma\)-有限性前提 - 错误描述:对含计数测度等非 \(\sigma\)-有限测度的乘积套用 Fubini。 - 现象/后果:反例 10.7 的对角线给出 \(1\ne0\)——累次积分不等。 - 根本原因:积测度的唯一性与 Fubini 都要 \(\sigma\)-有限(保证 Carathéodory 扩张唯一、单调类论证成立)。 - 正确做法:确认两个测度都 \(\sigma\)-有限。Lebesgue \(\times\) Lebesgue、概率 \(\times\) 概率都满足;涉及计数测度(离散无限)时小心。机器人混合状态(离散标签 × 连续位姿)里,离散部分若有限则计数测度有限、安全。
陷阱 10.3(概念误区):把"切片可测"当成理所当然 - 错误描述:默认 \(f\) 在乘积空间可测就保证每个切片 \(f(x,\cdot)\) 可测、切片积分作为 \(x\) 的函数可测。 - 现象/后果:在非 \(\sigma\)-有限或非乘积可测的构造里,切片可测性可能失效,累次积分无定义。 - 根本原因:切片可测性是 Tonelli/Fubini 的结论(需 \(\sigma\)-有限 + 乘积可测),不是无条件成立的。 - 正确做法:确认 \(f\) 是积 \(\sigma\)-代数 \(\mathcal{A}\otimes\mathcal{B}\)-可测(而非仅各分量可测),并在 \(\sigma\)-有限下应用定理,切片可测性随之保证。
练习¶
-
(证明题,草稿纸完成) 用 Tonelli 证明 §7 的 Layer-cake 公式 \(\int f\,d\mu=\int_0^\infty\mu(\{f>t\})\,dt\)(非负 \(f\))。提示:在 \(X\times[0,\infty)\) 上对 \(\mathbf{1}_{\{(x,t):t<f(x)\}}\) 用 Tonelli,两个累次积分分别给出公式两边。这是 §7 留下的"待 §10 严格化"的债。
-
(推导题) 验证反例 10.1:对 \(f=\frac{x^2-y^2}{(x^2+y^2)^2}\),先验证 \(\frac{\partial}{\partial y}\big(\frac{-y}{x^2+y^2}\big)=f\),由此算内层 \(\int_0^1 f\,dy=\frac{1}{1+x^2}\),再算 \(\int_0^1\frac{dx}{1+x^2}=\frac\pi4\)。对称地算另一顺序得 \(-\frac\pi4\)。最后说明 \(\iint|f|=\infty\)(提示:极坐标下 \(|f|\sim1/r^2\),在原点附近不可积)。
-
(跨节综合题) 结合 §6 可测函数、§7 期望与本节 Fubini:证明独立随机变量的期望乘积公式 \(\mathbb{E}[XY]=\mathbb{E}[X]\mathbb{E}[Y]\)(当 \(X,Y\) 独立且都可积)。提示:独立 \(\iff\) 联合分布 \(P_{(X,Y)}=P_X\times P_Y\) 是积测度;对 \(\int xy\,d(P_X\times P_Y)\) 用 Fubini 拆成 \(\big(\int x\,dP_X\big)\big(\int y\,dP_Y\big)\)。这把"独立"的测度论定义(积测度)与"期望可乘"的实用结论连起来。
§11 符号测度与 Hahn–Jordan 分解 ⭐⭐⭐¶
动机:为 Radon–Nikodym 铺路¶
到目前为止测度都非负。但下一节(§12)要证的 Radon–Nikodym 定理——机器人概率方法的最核心定理——其证明需要处理形如 \(\nu-t\mu\) 的"测度之差",这可能取负值。能取负值的"测度"叫**符号测度**。本节建立符号测度的分解理论(Hahn–Jordan),它是 §12 的技术前提。这是一节承上启下的"工具节",篇幅相对紧凑。
历史与直觉¶
符号测度的直觉是"带正负的质量分布"——比如电荷分布(有正负电荷)、奖励塑形里的正负奖励、或两个概率测度之差 \(P-Q\)。Hahn(1921)和 Jordan 证明了任何符号测度都能干净地分成"纯正部分"和"纯负部分",就像把电荷分布分成正电荷区和负电荷区。
理论:符号测度与正负集¶
定义 11.1(符号测度):\(\nu:\mathcal{M}\to[-\infty,\infty]\) 称为**符号测度**,若 \(\nu(\varnothing)=0\)、\(\nu\) 至多取 \(+\infty\) 与 \(-\infty\) 之一(避免 \(\infty-\infty\))、且对不交可数并满足可数可加(级数绝对收敛或确定发散到一侧)。
定义 11.2(正集/负集):可测集 \(P\) 称为 \(\nu\)-正集,若 \(\nu(E)\ge0\) 对一切可测 \(E\subseteq P\);\(\nu\)-**负集**对称定义。
注意正集不是"\(\nu(P)\ge0\)"那么简单——它要求 \(P\) 的**每个**可测子集都非负。这排除了"整体为正但内部有负区域"的情形。
理论:Hahn 分解与 Jordan 分解¶
定理 11.3(Hahn 分解):对每个符号测度 \(\nu\),存在可测划分 \(X=P\sqcup N\),\(P\) 为正集、\(N\) 为负集。此分解在 \(\nu\)-零测集意义下唯一。
证明骨架:设 \(\nu\) 不取 \(-\infty\)(另一情形对称)。令 \(m=\inf\{\nu(E):E\text{ 可测}\}\ge-\infty\),取 \(E_n\) 使 \(\nu(E_n)\to m\)。从每个 \(E_n\) 中"剔除其正子集"得到"尽可能负"的集合,用一个极值论证(对 \(E_n\) 的某种组合取极限)构造负集 \(N\) 使 \(\nu(N)=m\),则 \(P=N^c\) 必为正集(否则 \(P\) 含负子集会使 \(\nu\) 取到比 \(m\) 更小的值,矛盾)。\(\quad\blacksquare\)
定理 11.4(Jordan 分解):符号测度 \(\nu\) 唯一分解为两个互奇异的正测度之差: $\(\nu=\nu^+-\nu^-,\qquad \nu^+(E)=\nu(E\cap P),\ \nu^-(E)=-\nu(E\cap N),\qquad\nu^+\perp\nu^-.\)$ 全变差测度 \(|\nu|:=\nu^++\nu^-\);全变差范数 \(\|\nu\|:=|\nu|(X)\)。
\(\nu^+\) 是"正部"(把质量集中在正集 \(P\) 上),\(\nu^-\) 是"负部"。它们互奇异(\(\nu^+\) 活在 \(P\)、\(\nu^-\) 活在 \(N\),互不重叠)。全变差 \(|\nu|\) 把正负质量都算成正的总量。
划分刻画:\(|\nu|(E)=\sup\{\sum_i|\nu(E_i)|:\{E_i\}\text{ 是 }E\text{ 的可测有限划分}\}\)。
这个刻画与泛函分析中向量测度的全变差定义一致,也是符号测度空间 \(M(X)\) 成为 Banach 空间(范数 \(\|\cdot\|\))的基础。
本质洞察:Jordan 分解是把"带正负的测度"还原成"两个正测度"的标准手术。它让符号测度的积分 \(\int f\,d\nu=\int f\,d\nu^+-\int f\,d\nu^-\) 有定义(化归到正测度上的积分),也让 §12 的 Radon–Nikodym 能用正测度的工具处理 \(\nu-t\mu\) 这种符号测度。可以说,Hahn–Jordan 是连接"符号测度"与"正测度理论"的桥——没有它,§12 寸步难行。
机器人应用:奖励塑形与 R–N 前提¶
奖励塑形(reward shaping):强化学习里为加速学习常用势函数塑形 \(r'(s,a,s')=r(s,a,s')+\gamma\Phi(s')-\Phi(s)\)。塑形项 \(\gamma\Phi(s')-\Phi(s)\) 可正可负,把它看成状态空间上的符号测度,Hahn 分解能界定"塑形的正部/负部"分别集中在哪些状态——这对分析塑形是否保持最优策略不变(potential-based shaping 的理论)有帮助。
但符号测度对本章更重要的角色是**技术前提**:§12 的 Radon–Nikodym 定理(经典证法)要对符号测度 \(\nu-t\mu\) 做 Hahn 分解,找出其正集来构造导数。没有本节,§12 的经典证明无法进行。
本质洞察:两个概率测度之差 \(P-Q\) 是符号测度,其全变差 \(\|P-Q\|_{\mathrm{TV}}=\frac12|P-Q|(X)\) 就是机器人/RL 里常用的**全变差距离**(total variation distance)——衡量两个策略、两个分布的差异。TRPO/PPO 的信赖域、分布漂移的度量都用到它。所以本节不只是 §12 的铺垫,全变差本身就是策略优化里的实用工具。
⚠️ 常见陷阱¶
陷阱 11.1(概念误区):把"\(\nu(P)\ge0\)"当成"\(P\) 是正集" - 错误描述:以为整体测度非负的集合就是正集。 - 现象/后果:在 Hahn 分解里错误地取正集,导致分解错误。 - 根本原因:正集要求**每个**可测子集都非负,比"整体非负"强得多。整体正的集合内部可能有负区域。 - 正确做法:正集 \(P\) 的定义是 \(\forall E\subseteq P,\nu(E)\ge0\)。验证正集需排除内部负子集。Hahn 分解的 \(P,N\) 满足这个强条件。
陷阱 11.2(思维陷阱):混淆 \(\nu(E)\)、\(|\nu|(E)\)、\(\|\nu\|\) - 错误描述:把符号测度的值 \(\nu(E)\)(可正可负)、全变差测度 \(|\nu|(E)\)(非负)、全变差范数 \(\|\nu\|=|\nu|(X)\)(一个数)混用。 - 现象/后果:在估计或不等式里用错量,如把 \(|\nu(E)|\) 当 \(|\nu|(E)\)(前者 \(\le\) 后者,可严格小)。 - 根本原因:\(|\nu(E)|=|\nu^+(E)-\nu^-(E)|\le\nu^+(E)+\nu^-(E)=|\nu|(E)\),正负可能相互抵消。 - 正确做法:分清三者。\(\nu(E)\) 是净值,\(|\nu|(E)\) 是总量(正负都算正),\(\|\nu\|\) 是全空间总量(一个标量,符号测度空间的范数)。全变差距离用 \(|\nu|\) 而非 \(|\nu(\cdot)|\)。
练习¶
-
(证明题,草稿纸完成) 证明 Jordan 分解的唯一性:若 \(\nu=\mu_1-\mu_2=\nu^+-\nu^-\) 是两个"互奇异正测度之差"的分解,则 \(\mu_1=\nu^+\)、\(\mu_2=\nu^-\)。提示:用互奇异性 \(\nu^+\perp\nu^-\) 找出各自的支撑集,比较在支撑集上的取值。
-
(推导题) 设 \(X=[-1,1]\),\(\nu(E)=\int_E x\,d\lambda(x)\)(以 \(x\) 为"密度"的符号测度)。求它的 Hahn 分解 \(P,N\)、Jordan 分解 \(\nu^+,\nu^-\)、全变差 \(|\nu|\) 和范数 \(\|\nu\|\)。(答案提示:\(P=[0,1]\),\(N=[-1,0]\),\(\|\nu\|=\int_{-1}^1|x|\,dx=1\)。)
-
(开放思考题) 全变差距离 \(\|P-Q\|_{\mathrm{TV}}=\sup_{E}|P(E)-Q(E)|\)(等价于 \(\frac12|P-Q|(X)\))。请证明这个 \(\sup\) 在 \(E=\{\) \(P\) 密度 \(\ge Q\) 密度 \(\}\)(即 Hahn 分解的正集)处取到。讨论:为什么 RL 里用全变差或 KL 散度(§12)而非欧氏距离来度量策略差异?(提示:策略是分布,分布间的"距离"必须对测度敏感而非对参数敏感。)
§12 Radon–Nikodym 定理与 Lebesgue 分解 ⭐⭐⭐⭐¶
动机:贝叶斯更新、重要性采样、Girsanov、KL——都是同一个导数¶
这是本章机器人密度最高的一节,也是承重墙中的承重墙。前面 §5 说"概率密度 \(=\dfrac{dP}{d\lambda}\)",但当时只是预告。本节正式定义并证明 Radon–Nikodym 导数 \(\dfrac{d\nu}{d\mu}\) 的存在唯一性——它是"一个测度相对另一个测度的密度"。一旦掌握,你会震惊地发现机器人概率方法里四件看似无关的事其实是**同一个 R–N 导数**:
- 贝叶斯更新:后验相对先验的密度 \(\dfrac{dP(\cdot\mid z)}{dP}\);
- 重要性采样权:目标相对提议分布的密度 \(\dfrac{d\pi}{dq}\);
- Girsanov 测度变换:受控相对被动 Wiener 测度的密度 \(\dfrac{d\mathbb{Q}}{d\mathbb{P}}\)(路径积分控制);
- KL 散度/Fisher 信息:\(D(P\|Q)=\int\log\dfrac{dP}{dQ}\,dP\)(TRPO/PPO 信赖域)。
把这四件事统一成 R–N 导数,是测度论给机器人学最深刻的礼物之一。
反面:没有 R–N 会怎样¶
如果没有 R–N 定理,"密度"就只是欧氏空间上的特殊技巧,无法推广。混合状态(离散标签 + 连续位姿)下贝叶斯更新的分母 \(\int p(z\mid x')\,dP(x')\) 既非求和也非欧氏积分,你不知道更新公式的合法形式;流形状态(\(\mathrm{SO}(3)\))下根本没有 Lebesgue 测度做密度的分母;测度变换(Girsanov)无从定义。R–N 定理把"密度"从欧氏空间的具体技巧提升为任意两个测度间的抽象关系,覆盖所有这些情形。
理论:绝对连续与互奇异¶
定义 12.1:设 \(\mu,\nu\) 为同一可测空间上的测度。 - 绝对连续 \(\nu\ll\mu\):\(\mu(E)=0\Rightarrow\nu(E)=0\)(\(\mu\) 忽略的集合 \(\nu\) 也忽略)。 - 互奇异 \(\nu\perp\mu\):存在划分 \(X=A\sqcup B\) 使 \(\nu(A)=0\)、\(\mu(B)=0\)(两测度"住在不同地方")。
绝对连续与互奇异是两个极端:前者"\(\nu\) 完全被 \(\mu\) 主导",后者"\(\nu\) 与 \(\mu\) 毫无重叠"。Gauss 分布相对 Lebesgue 绝对连续;退化 Gauss(坍缩到子空间)相对 Lebesgue 互奇异(住在零测子空间上)。
理论:Radon–Nikodym 定理¶
定理 12.2(Radon–Nikodym):设 \(\mu,\nu\) 为 \(\sigma\)-有限测度,\(\nu\ll\mu\)。则存在非负可测函数 \(f:X\to[0,\infty)\),\(\mu\)-a.e. 唯一,使 $\(\nu(E)=\int_E f\,d\mu\qquad\forall E\in\mathcal{M}.\)$ 记 \(f=\dfrac{d\nu}{d\mu}\),称 Radon–Nikodym 导数。
这个 \(f\) 就是"\(\nu\) 相对 \(\mu\) 的密度"——它告诉你在每一点 \(\nu\) 比 \(\mu\) "浓"多少倍。
理论:von Neumann 的 \(L^2\) 投影证法(优雅、短)¶
R–N 有多种证法,von Neumann 用 Hilbert 空间投影的证法最优雅,且揭示了 R–N 与 \(L^2\)(§13)的深刻联系。这个证法预示了"Kalman = \(L^2\) 投影"的主题。
证明(六步):
-
归约到有限测度:\(\sigma\)-有限下把空间切成可数个有限块分别处理再拼接,故不妨设 \(\mu,\nu\) 有限。
-
构造辅助测度与有界泛函:令 \(\varphi=\mu+\nu\)(有限测度)。在 Hilbert 空间 \(L^2(\varphi)\) 上定义线性泛函 \(\Lambda g=\int g\,d\nu\)。由 Cauchy–Schwarz,\(|\Lambda g|=|\int g\,d\nu|\le\big(\int|g|^2\,d\nu\big)^{1/2}\nu(X)^{1/2}\le\nu(X)^{1/2}\|g\|_{L^2(\varphi)}\)(因 \(\nu\le\varphi\)),故 \(\Lambda\) 有界。
-
Riesz 表示:由 Hilbert 空间的 Riesz 表示定理(§13),存在 \(h\in L^2(\varphi)\) 使 \(\Lambda g=\langle g,h\rangle_\varphi=\int gh\,d\varphi\)。即对一切 \(g\in L^2(\varphi)\): $$ \int g\,d\nu=\int gh\,d\varphi=\int gh\,d\mu+\int gh\,d\nu \Longrightarrow \int g(1-h)\,d\nu=\int gh\,d\mu. $$
-
定位 \(h\) 的范围:取 \(g=\mathbf{1}_E\) 代入分析可证 \(0\le h\le1\) \(\varphi\)-a.e.(否则在 \(h<0\) 或 \(h>1\) 的集合上取 \(g\) 会矛盾)。令 \(A=\{h<1\}\)、\(B=\{h=1\}\)。
-
奇异部分(在 \(B\) 上):取 \(g=\mathbf{1}_B\),左边 \(\int_B(1-h)\,d\nu=0\),右边 \(\int_B h\,d\mu=\mu(B)\),故 \(\mu(B)=0\)。这部分 \(\nu_s:=\nu|_B\) 集中在 \(\mu\)-零测集 \(B\) 上,故 \(\nu_s\perp\mu\)。
-
绝对连续部分(在 \(A\) 上):迭代代入 \(g=\mathbf{1}_E(1+h+h^2+\cdots+h^n)\)(利用 \(0\le h<1\) 于 \(A\)),等比求和取极限(MCT),得 $$ \nu_{ac}(E)=\int_E\frac{h}{1-h}\mathbf{1}_A\,d\mu,\qquad\text{即}\quad f=\frac{h}{1-h}\mathbf{1}_A. $$ 由 \(\nu\ll\mu\) 知 \(\nu_s=0\),故 \(\nu=\nu_{ac}\),\(f\) 即所求。\(\quad\blacksquare\)
本质洞察:von Neumann 证法的精髓是——把"测度的导数"问题转化为"Hilbert 空间里的投影"问题。R–N 导数的存在性,本质上是 \(L^2\) 完备性(Riesz 表示,§13)的推论。这条暗线 [R–N ⟸ Riesz 表示 ⟸ \(L^2\) 完备] 在 §13 会反向呼应——那里 \((L^p)^*\cong L^q\) 的证明又**用 R–N**。两个定理互为表里,共同支撑起 Kalman 滤波(\(L^2\) 投影)与贝叶斯更新(R–N 导数)这对机器人滤波的孪生支柱。
理论:Lebesgue 分解定理与链式法则¶
定理 12.3(Lebesgue 分解):\(\mu,\nu\) \(\sigma\)-有限 \(\Rightarrow\) 唯一分解 \(\nu=\nu_{ac}+\nu_s\),其中 \(\nu_{ac}\ll\mu\)、\(\nu_s\perp\mu\)。
von Neumann 证法第 5、6 步其实**同时**给出了 R–N 与 Lebesgue 分解——\(A\) 上的部分是绝对连续分量,\(B\) 上的是奇异分量。
链式法则:\(\lambda\ll\nu\ll\mu\Rightarrow\dfrac{d\lambda}{d\mu}=\dfrac{d\lambda}{d\nu}\cdot\dfrac{d\nu}{d\mu}\) \(\mu\)-a.e.
链式法则让 R–N 导数像普通导数一样"链式相乘"——这是重要性采样、序贯贝叶斯更新里"权重相乘"的根据。
\(\sigma\)-有限不可省(反例):\(X=[0,1]\),\(\mu=\) Lebesgue、\(\nu=\) 计数测度(非 \(\sigma\)-有限)。虽 \(\mu\ll\nu\)(计数测度只在空集为零),但**不存在** \(f\) 使 \(\mu(E)=\sum_{x\in E}f(x)\)——单点测度 \(\mu(\{x\})=0\) 要求 \(f(x)=0\) 处处,但那给出 \(\mu\equiv0\),矛盾。\(\sigma\)-有限性不可省。
机器人应用:四合一的 R–N 导数¶
现在兑现开头的承诺——把四件机器人大事统一成 R–N 导数。
(1) 贝叶斯更新 = 后验对先验的 R–N 导数。 给定观测 \(z\),后验测度 \(P(\cdot\mid z)\) 相对先验 \(P\) 的 R–N 导数是 $$ \frac{dP(\cdot\mid z)}{dP}(x)=\frac{p(z\mid x)}{\int p(z\mid x')\,dP(x')}. $$ 这就是贝叶斯定理的测度论形式——不依赖密度是否存在,对混合状态、流形状态一律成立。分子是似然,分母是归一化常数(证据)。SLAM 后验的递推 \(\dfrac{d\pi_t}{d\pi_{t-1}}\propto p(z_t\mid x_t)\) 是 R–N 导数的逐步累乘(用链式法则)。
(2) 重要性采样权 = 目标对提议的 R–N 导数。 无法直接从目标分布 \(\pi\) 采样时,从提议分布 \(q\) 采样并加权,权重就是 R–N 导数的样本值: $$ w^{(i)}\propto\frac{d\pi}{dq}(x^{(i)}),\qquad x^{(i)}\sim q. $$ 自归一化重要性采样 \(\hat{\mathbb{E}}_\pi[\varphi]=\dfrac{\sum_i w^{(i)}\varphi(x^{(i)})}{\sum_i w^{(i)}}\) 的无偏性/一致性证明,依赖 R–N 导数的乘法与链式性质。要求 \(\pi\ll q\)——提议分布的支撑必须覆盖目标(否则某些区域权重无定义),这是重要性采样"提议分布要够宽"的理论根据。
(3) Girsanov 定理 = 测度变换的 R–N 导数(路径积分控制)。 在受控扩散 \(dX_t=u_t\,dt+dW_t\) 中,受控过程的 Wiener 测度 \(\mathbb{Q}\) 相对被动过程(\(u\equiv0\))的 Wiener 测度 \(\mathbb{P}\) 的 R–N 导数是指数鞅: $$ \frac{d\mathbb{Q}}{d\mathbb{P}}=\exp\Big(\int_0^T u_s^\top\,dW_s-\tfrac12\int_0^T|u_s|^2\,ds\Big). $$ 这是**路径积分控制**(\(\text{PI}^2\)、MPPI)的数学核心——它把"控制的影响"编码成路径空间上的测度变换,从而能用蒙特卡洛在被动动力学下采样、用 R–N 导数加权来评估受控代价。MPPI 在四足、无人机上的成功,底层就是这个 Girsanov R–N 导数(搜索确认:Girsanov 通过 R–N 导数把含漂移的布朗运动变成标准布朗运动,控制问题里把控制吸收进测度变换)。
(4) KL 散度 = R–N 导数的对数期望(信息几何/信赖域)。 两个测度的 Kullback–Leibler 散度 $$ D(P|Q)=\int\log\frac{dP}{dQ}\,dP=\mathbb{E}_P\Big[\log\frac{dP}{dQ}\Big] $$ 只有当 \(P\ll Q\) 时才有限(否则 \(\frac{dP}{dQ}\) 在某处无定义,\(D=\infty\))。它定义了概率分布流形上的"信息距离",是 TRPO/PPO 信赖域约束 \(D(\pi_{\text{new}}\|\pi_{\text{old}})\le\delta\) 的核心——限制策略更新步长以保证单调改进。Fisher 信息矩阵是 KL 散度的二阶 Taylor 系数,定义了信息几何的黎曼度量(自然梯度)。
本质洞察:贝叶斯更新、重要性采样、Girsanov、KL 散度——四件机器人概率方法的核心操作,数学本体都是**一个测度相对另一个测度的 Radon–Nikodym 导数**。这不是巧合或类比,而是字面的同一。一旦你把它们看成同一个 \(\dfrac{d\nu}{d\mu}\),许多看似独立的技巧(贝叶斯递推的权重累乘、重要性采样的链式权重、Girsanov 的指数权重)就统一成 R–N 导数的链式法则与乘法性质。绝对连续性 \(\nu\ll\mu\) 是所有这些操作的共同前提——它在贝叶斯里是"似然非病态"、在重要性采样里是"提议覆盖目标"、在 KL 里是"两分布支撑兼容"。理解了这一点,你就掌握了机器人概率方法的统一语言。
⚠️ 常见陷阱¶
陷阱 12.1(概念误区):忽视绝对连续性 \(\nu\ll\mu\) 前提 - 错误描述:不检查 \(\nu\ll\mu\) 就谈 R–N 导数 \(\frac{d\nu}{d\mu}\)。 - 现象/后果:在退化分布(\(P\) 坍缩到 \(\lambda\)-零测子空间)、不兼容支撑(重要性采样提议 \(q\) 不覆盖目标 \(\pi\))下,R–N 导数不存在,强行计算得发散或无定义;KL 散度 \(=\infty\)。 - 根本原因:R–N 导数仅在 \(\nu\ll\mu\) 时存在。退化 Gauss \(\perp\lambda\)(互奇异)而非 \(\ll\lambda\),故无密度。 - 正确做法:用 R–N 前验证绝对连续。重要性采样确保 \(\mathrm{supp}(\pi)\subseteq\mathrm{supp}(q)\);处理退化分布时回到测度层面(Lebesgue 分解分出奇异部分)或换参照测度。
陷阱 12.2(思维陷阱):把 R–N 导数当成普通函数随意运算 - 错误描述:忘记 R–N 导数只是 \(\mu\)-a.e. 唯一,在零测集上随意取值或比较。 - 现象/后果:在零测集上的不同取值导致"两个 R–N 导数不等"的假象;逐点比较两个导数时出错。 - 根本原因:\(\frac{d\nu}{d\mu}\) 只确定到 \(\mu\)-a.e.——在 \(\mu\)-零测集上可任意改值不影响积分。 - 正确做法:R–N 导数的等式、不等式都在 a.e. 意义下理解。链式法则、乘法性质都是 a.e. 成立。涉及具体点值时(如某状态的密度)要意识到这只是一个 a.e. 代表元。
陷阱 12.3(概念误区):混淆"绝对连续"与"连续" - 错误描述:把测度的绝对连续 \(\nu\ll\mu\) 与函数的连续性混为一谈。 - 现象/后果:误以为绝对连续测度的密度必连续(实际可只可测、可有跳跃)。 - 根本原因:\(\nu\ll\mu\) 是测度间的关系(\(\mu\) 零测 \(\Rightarrow\nu\) 零测),与密度函数 \(\frac{d\nu}{d\mu}\) 的连续性无关——密度可以是任意非负可测函数(含阶跃)。 - 正确做法:分清两个"绝对连续"——测度的绝对连续(本节 \(\nu\ll\mu\))与函数的绝对连续(§15 的 AC 函数)。它们有联系(§15 末:\(f\) AC \(\iff\mu_f\ll\lambda\))但不是同一概念。
练习¶
-
(证明题,草稿纸完成) 证明 R–N 导数的链式法则 \(\frac{d\lambda}{d\mu}=\frac{d\lambda}{d\nu}\cdot\frac{d\nu}{d\mu}\) a.e.(\(\lambda\ll\nu\ll\mu\))。提示:对任意 \(E\),\(\lambda(E)=\int_E\frac{d\lambda}{d\nu}\,d\nu=\int_E\frac{d\lambda}{d\nu}\frac{d\nu}{d\mu}\,d\mu\)(第二步用"\(\int g\,d\nu=\int g\frac{d\nu}{d\mu}\,d\mu\)",需先对简单函数证再 MCT),与 \(\lambda(E)=\int_E\frac{d\lambda}{d\mu}\,d\mu\) 比较,由唯一性得证。
-
(推导题) 写出两个一维 Gauss \(\mathcal{N}(\mu_1,\sigma^2)\) 与 \(\mathcal{N}(\mu_2,\sigma^2)\) 之间的 R–N 导数 \(\frac{dP_1}{dP_2}(x)\)(同方差),并由此推导它们的 KL 散度 \(D(P_1\|P_2)=\frac{(\mu_1-\mu_2)^2}{2\sigma^2}\)。讨论:为什么方差不同(\(\sigma_1\ne\sigma_2\))时 KL 散度多出一个对数项?这与 §5 退化 Gauss(\(\sigma\to0\))时 KL 发散有何联系?
-
(跨节综合题) 结合 §10 Fubini、§11 全变差与本节 R–N:证明当 \(P\ll Q\) 时全变差距离 \(\|P-Q\|_{\mathrm{TV}}=\frac12\int\big|\frac{dP}{dQ}-1\big|\,dQ\)。提示:用 Hahn 分解(§11)找出 \(\frac{dP}{dQ}\ge1\) 与 \(<1\) 的区域,在各区域上积分。再讨论:全变差距离与 KL 散度的关系(Pinsker 不等式 \(\|P-Q\|_{\mathrm{TV}}\le\sqrt{D(P\|Q)/2}\))在 RL 信赖域里如何把 KL 约束转成全变差保证。
§13 \(L^p\) 空间 ⭐⭐⭐¶
动机:Kalman 滤波到底是什么的"最优"?¶
你知道 Kalman 滤波给出"最优估计",但**在什么意义下最优、为什么那个最优一定存在?** 答案是:Kalman 是 \(L^2\) 空间(平方可积随机变量的 Hilbert 空间)中向"观测张成的子空间"的**正交投影**,而这个投影的存在性依赖 \(L^2\) 的**完备性**。本节建立 \(L^p\) 空间及其完备性(Riesz–Fischer),把 Kalman 重新理解为投影——这是测度论送给状态估计的最深洞察。
反面:在不完备空间里,最优估计可能不存在¶
设想在 Riemann 可积函数空间(不完备,§9)里找"最优估计"。最优估计是某个逼近序列的极限,但不完备意味着极限可能**掉出空间外**——最优估计不存在!正交投影定理严格要求子空间完备(闭)。所以 Kalman 的"最优估计存在"绝非理所当然,它是 \(L^2\) 完备性的定理性结论。没有 Lebesgue 积分(Riemann 下空间不完备),Kalman 滤波在数学上无法成立。
理论:\(L^p\) 空间的定义¶
定义 13.1:对 \(1\le p<\infty\), $\(L^p(X,\mu)=\Big\{f\text{ 可测}:\|f\|_p:=\Big(\int|f|^p\,d\mu\Big)^{1/p}<\infty\Big\}\Big/\sim,\)$ 其中 \(\sim\) 是"a.e. 相等"等价关系。\(L^\infty=\{f:\|f\|_\infty:=\operatorname{ess\,sup}|f|<\infty\}\)(本性上确界)。
为什么要模掉"a.e. 相等"? 因为 \(\|f\|_p=0\) 只能推出 \(f=0\) a.e.(在零测集上可非零),不是 \(f\equiv0\)。不模掉的话 \(\|\cdot\|_p\) 只是半范数(\(\|f\|=0\not\Rightarrow f=0\))。模掉后成真范数——这又是 §7"积分无视零测集"的体现。
理论:三大不等式¶
引理 13.2(Young 不等式):\(a,b\ge0\),\(\frac1p+\frac1q=1\)(\(1<p<\infty\),称 \(p,q\) 共轭)\(\Rightarrow ab\le\frac{a^p}{p}+\frac{b^q}{q}\)。
证明:对 \(\log\) 用凹性(\(\log\) 是凹函数,\(\log(\frac{a^p}{p}+\frac{b^q}{q})\ge\frac1p\log a^p+\frac1q\log b^q=\log ab\))。
定理 13.3(Hölder 不等式):\(\int|fg|\,d\mu\le\|f\|_p\|g\|_q\)(\(\frac1p+\frac1q=1\))。
证明:归一化 \(\tilde f=f/\|f\|_p\)、\(\tilde g=g/\|g\|_q\),对 \(|\tilde f\tilde g|\) 逐点用 Young 再积分:\(\int|\tilde f\tilde g|\le\int(\frac{|\tilde f|^p}{p}+\frac{|\tilde g|^q}{q})=\frac1p+\frac1q=1\)。\(p=q=2\) 时退化为 Cauchy–Schwarz。
定理 13.4(Minkowski 不等式):\(\|f+g\|_p\le\|f\|_p+\|g\|_p\)(三角不等式)。
证明:\(|f+g|^p\le|f+g|^{p-1}(|f|+|g|)\),两项分别用 Hölder(指数 \(q=p/(p-1)\))。这条让 \(\|\cdot\|_p\) 满足三角不等式,从而是范数。
理论:Riesz–Fischer 完备性定理¶
定理 13.5(Riesz–Fischer):\(1\le p\le\infty\) 时 \(L^p(X,\mu)\) 是 Banach 空间(完备赋范空间)。\(p=2\) 时 \(L^2\) 是 Hilbert 空间(内积 \(\langle f,g\rangle=\int f\bar g\,d\mu\))。
证明骨架(\(1\le p<\infty\),五步): 1. 取 Cauchy 列 \(\{f_n\}\),抽**速收子列** \(\{f_{n_k}\}\) 使 \(\|f_{n_{k+1}}-f_{n_k}\|_p<2^{-k}\)。 2. 令 \(g_K=\sum_{k=1}^K|f_{n_{k+1}}-f_{n_k}|\),由 Minkowski \(\|g_K\|_p\le\sum_k 2^{-k}\le1\)。令 \(g=\sup_K g_K\),由 MCT \(\int g^p\le1\),故 \(g\in L^p\) 且 \(g<\infty\) a.e. 3. 在 \(\{g<\infty\}\) 上级数 \(\sum_k(f_{n_{k+1}}-f_{n_k})\) 绝对收敛,定义 \(f:=f_{n_1}+\sum_k(f_{n_{k+1}}-f_{n_k})=\lim_k f_{n_k}\) a.e. 4. \(|f-f_{n_k}|^p\le(|f|+g)^p\in L^1\),由 DCT \(\|f_{n_k}-f\|_p\to0\)。 5. Cauchy 列 + 子列收敛 \(\Rightarrow\) 整列收敛 \(\|f_n-f\|_p\to0\)。\(\quad\blacksquare\)
本质洞察:Riesz–Fischer 完备性的证明里,MCT 和 DCT(§8)各用一次——这印证了"\(L^p\) 完备性是收敛定理的产物"。而完备性反过来是 Kalman 投影、最小二乘存在性的前提。这条因果链 [可数可加 ⟹ MCT/DCT ⟹ \(L^p\) 完备 ⟹ 投影存在 ⟹ Kalman] 把本章从第一条公理一路贯通到状态估计。Riemann 积分给不了第二环(无收敛定理),所以这条链在 Riemann 框架下断裂——这是 Kalman 滤波非要 Lebesgue 不可的终极理由。
理论:对偶性与稠密性¶
定理 13.6(\(L^p\) 对偶):\(\sigma\)-有限 + \(1\le p<\infty\) \(\Rightarrow(L^p)^*\cong L^q\)(\(\frac1p+\frac1q=1\)),同构 \(g\mapsto\Lambda_g(f)=\int fg\,d\mu\)。
证明用 R–N(§12):有界线性泛函 \(\Lambda\) 定义集函数 \(\nu_\Lambda(E)=\Lambda(\mathbf{1}_E)\),可证 \(\nu_\Lambda\ll\mu\),R–N 给出密度 \(g=\frac{d\nu_\Lambda}{d\mu}\),即 \(\Lambda\) 的表示。这正是 §12 暗线的呼应——\(L^p\) 对偶用 R–N,而 R–N 用 \(L^2\) Riesz 表示,两定理互为表里。
稠密性:简单函数在 \(L^p\) 中稠密(\(p<\infty\));\(\mathbb{R}^n\) 上 \(C_c^\infty\)(紧支撑光滑函数)在 \(L^p\) 中稠密(\(p<\infty\))。
稠密性让"先在好函数(简单/光滑)上证,再逼近到一般 \(L^p\)"成为标准手法(§15 Lebesgue 微分定理就这么用)。
机器人应用:Kalman 滤波 = \(L^2\) 正交投影¶
这是本节的高潮。把 Kalman 滤波放进 \(L^2\) 框架,一切豁然开朗。
令 \(L^2(\Omega,\mathcal{F},\mathbb{P})\) 为平方可积随机变量的 Hilbert 空间,内积 \(\langle X,Y\rangle=\mathbb{E}[XY]\)(协方差结构)。给定观测,定义**观测子空间** $$ H_t=\overline{\operatorname{span}}{1,y_1,\dots,y_t}\subset L^2, $$ 即所有观测的(闭)线性组合。则**最小均方误差(MMSE)线性估计**就是正交投影 $$ \hat x_{t\mid t}=\Pi_{H_t}x_t, $$ 即在 \(H_t\) 中找离 \(x_t\) 最近(\(L^2\) 范数下)的点。
投影存在性靠完备性:正交投影定理要求 \(H_t\) 是 Hilbert 空间的闭子空间——这依赖 \(L^2\) 完备(Riesz–Fischer)。没有完备性,"最近点"可能不存在,Kalman 失去数学根基。
新息序列与 Kalman 增益:定义新息 \(\tilde y_t=y_t-\Pi_{H_{t-1}}y_t\)(观测中"新"的部分,与历史正交)。递推正交化(Gram–Schmidt)给出 Kalman 增益 \(K_t\)——它是把新息投影到状态的系数。整个 Kalman 递推就是 \(L^2\) 中的序贯正交投影。
与条件期望的关系:Gauss 假设下,正交投影**恰好等于**条件期望 \(\hat x_{t\mid t}=\mathbb{E}[x_t\mid y_{1:t}]\)(最优估计,不限线性)。非 Gauss 下二者分离——Kalman 只是最优**线性** MMSE,而条件期望是全局最优(可能非线性)。这解释了 Kalman 在非 Gauss 下的局限,也是粒子滤波(直接逼近条件期望/后验测度)的用武之地。
本质洞察:你以前把 Kalman 滤波当成一组递推公式(预测-更新、增益、协方差)。\(L^2\) 视角把它揭示为一个几何对象:在随机变量的 Hilbert 空间里,把状态向"观测张成的子空间"作正交投影。增益 \(K_t\) 不是魔法,是投影系数;新息正交化就是 Gram–Schmidt;协方差递推是投影残差的范数演化。**Kalman = 投影**这个视角不仅优美,更实用——它立刻告诉你 Kalman 的最优性边界(仅线性、Gauss 下才是全局最优)、推广方向(非线性 → EKF/UKF 近似投影、非 Gauss → 粒子滤波直接逼近后验测度),以及为什么完备性(Lebesgue 积分)是它的隐形地基。
更广地,强化学习里**价值函数** \(V\in L^2(\mu)\) 的最小二乘时序差分学习(LSTD)= 在有限维子空间上对 Bellman 算子做 Galerkin 投影;\(L^p\) 完备性保证迭代极限存在。这把 Kalman 与 LSTD 统一在"\(L^2\) 投影"的旗下。
⚠️ 常见陷阱¶
陷阱 13.1(概念误区):忘记 \(L^p\) 是等价类而非函数 - 错误描述:把 \(L^p\) 元素当具体函数,谈论其在某点的值。 - 现象/后果:在零测集上比较函数值、谈"\(f(x_0)\)",得到无意义结论(同一 \(L^p\) 元素可在 \(x_0\) 取任意值)。 - 根本原因:\(L^p\) 模掉了 a.e. 相等,元素是等价类。点值在零测集上无定义。 - 正确做法:\(L^p\) 中一切只在 a.e. 意义下成立。需要点值时(如 §15 Lebesgue 点)要专门论证存在"好代表元"。\(L^\infty\) 用本性上确界 \(\operatorname{ess\,sup}\) 而非 \(\sup\),同理。
陷阱 13.2(思维陷阱):以为 \(L^p\) 之间有包含关系(不分有限/无限测度) - 错误描述:认为总有 \(L^p\subseteq L^q\) 或反之。 - 现象/后果:在无限测度(Lebesgue on \(\mathbb{R}\))上误用 \(L^2\subseteq L^1\)(实际不成立,如 \(1/(1+|x|)\in L^2\setminus L^1\))。 - 根本原因:包含关系依赖测度有限性。\(\mu(X)<\infty\) 时 \(L^q\subseteq L^p\)(\(p\le q\),由 Hölder);无限测度时无普遍包含。 - 正确做法:分清测度有限(概率测度,\(L^q\subseteq L^p\) for \(p<q\))与无限(Lebesgue,无包含)。粒子滤波在概率测度上,故 \(L^2\subseteq L^1\),方差有限 \(\Rightarrow\) 期望有限。
陷阱 13.3(概念误区):把 Kalman 的"最优"无条件理解为全局最优 - 错误描述:认为 Kalman 在任何情形都给全局最优估计。 - 现象/后果:在强非 Gauss/非线性系统上盲信 Kalman/EKF,估计严重偏差却不知原因。 - 根本原因:Kalman 是最优**线性** MMSE(向 \(H_t\) 投影)。仅 Gauss 下它才等于条件期望(全局最优)。非 Gauss 下线性投影 \(\ne\) 条件期望。 - 正确做法:明确 Kalman 的最优性边界。强非线性/非 Gauss 时用 UKF/粒子滤波(逼近条件期望或后验测度)。"最优"二字要问"在什么类(线性 vs 全部)、什么假设(Gauss vs 一般)下"。
练习¶
-
(证明题,草稿纸完成) 用 Hölder 不等式证明:在有限测度空间 \(\mu(X)<\infty\) 上,\(p\le q\Rightarrow L^q\subseteq L^p\) 且 \(\|f\|_p\le\mu(X)^{1/p-1/q}\|f\|_q\)。提示:对 \(|f|^p\cdot1\) 用 Hölder,指数取 \(q/p\) 与其共轭。说明此结论在无限测度上失效(举 \(\mathbb{R}\) 上的反例)。
-
(推导题) 在 \(L^2(\Omega,\mathcal{F},\mathbb{P})\) 中,设标量状态 \(x\) 与观测 \(y=x+v\)(\(v\) 零均值噪声,与 \(x\) 独立,方差 \(r\),\(x\) 方差 \(\sigma^2\))。用正交投影 \(\hat x=\Pi_{\overline{\operatorname{span}}\{1,y\}}x\) 推导单步 Kalman 估计 \(\hat x=\frac{\sigma^2}{\sigma^2+r}y\)(取 \(x\) 零均值)。验证增益 \(K=\frac{\sigma^2}{\sigma^2+r}\) 与教科书 Kalman 增益一致。亲手体会"Kalman = 投影"。
-
(跨节综合题) 结合 §12 R–N、本节对偶定理与 Kalman 投影:解释为什么 Gauss 假设下"\(L^2\) 正交投影 = 条件期望"。提示:条件期望 \(\mathbb{E}[x\mid\mathcal{F}]\) 是 \(x\) 在"\(\mathcal{F}\)-可测平方可积函数"子空间上的 \(L^2\) 投影(一般成立);Gauss 下该子空间的最优元恰好落在线性子空间 \(H_t\) 内(因 Gauss 的条件期望是线性的)。这把 §2 的"滤波 = 条件期望"、§12 的"条件期望 = \(\sigma\)-子代数上 R–N 导数"、本节的"Kalman = 投影"三个视角统一起来。
§14 收敛模式与相互关系 ⭐⭐¶
动机:a.s. 收敛 vs 依概率收敛——对机器人意味着什么不同?¶
机器人算法的收敛性有好几种"味道":随机梯度下降"几乎必然收敛"和"依概率收敛",对实际部署意味着完全不同的保证。本节梳理四种收敛模式(a.e./依测度/\(L^p\)/一致)及其相互蕴含关系,并讲清为什么机器人学更看重 a.s. 收敛。这是 §8 收敛定理的姊妹篇——§8 讲"积分与极限交换",本节讲"函数列收敛的不同含义"。
理论:四种收敛模式¶
定义 14.1:设 \(f_n,f\) 可测。 1. 几乎处处收敛(a.e.,概率论里 a.s.):\(\mu(\{x:f_n(x)\not\to f(x)\})=0\)。 2. 依测度收敛(in measure,概率论里依概率):\(\forall\varepsilon>0,\ \mu(\{|f_n-f|>\varepsilon\})\to0\)。 3. \(L^p\) 收敛(范数收敛):\(\|f_n-f\|_p\to0\)。 4. 一致收敛:\(\sup_x|f_n(x)-f(x)|\to0\)。
四种由强到弱大致是:一致 > \(L^\infty\) > \(L^p\) > 依测度,而 a.e. 与依测度、\(L^p\) 之间关系微妙(下图)。
理论:蕴含关系图(\(\mu\) 有限时)¶
定理 14.2(蕴含关系,\(\mu(X)<\infty\)): $\(\text{一致}\Rightarrow L^\infty\Rightarrow L^p\Rightarrow L^1\Rightarrow\text{依测度};\qquad \text{a.e.}\overset{\text{Egorov}}{\Rightarrow}\text{依测度};\qquad L^p\Rightarrow\text{依测度}.\)$ 且 \(L^p\) 收敛或依测度收敛 \(\Rightarrow\) 存在子列 a.e. 收敛(Riesz 子列定理)。
这些蕴含里,"\(L^p\Rightarrow\) 依测度"由 Markov 不等式(§7):\(\mu(\{|f_n-f|>\varepsilon\})\le\|f_n-f\|_p^p/\varepsilon^p\to0\)。"a.e. \(\Rightarrow\) 依测度"(有限测度下)由 Egorov(§6)。
理论:反例填满每个缺口¶
蕴含关系**不可逆**,每个缺口都有标准反例。这些反例是理解收敛模式的关键,务必记住。
| 缺口 | 反例 | 现象 |
|---|---|---|
| a.e. \(\not\Rightarrow L^p\) | 高瘦帽子 \(f_n=n\mathbf{1}_{(0,1/n]}\) | \(f_n\to0\) a.e. 但 \(\|f_n\|_1=1\)(质量逃逸) |
| \(L^p\not\Rightarrow\) a.e. | 打字机序列(见下) | \(\|f_n\|_1\to0\) 但处处不收敛 |
| 依测度 \(\not\Rightarrow\) a.e. | 同打字机序列 | 依测度收敛但无处逐点收敛 |
| a.e. \(\not\Rightarrow\) 依测度(无限测度) | 行进帽子 \(f_n=\mathbf{1}_{[n,n+1]}\) on \(\mathbb{R}\) | a.e. 收敛但依测度不收敛(需有限测度) |
打字机序列(typewriter sequence):在 \([0,1]\) 上,把区间按 \(j=0,1,2,\dots\) 分成 \(2^j\) 等份,\(f_n\) 依次取每一份的指示函数(像打字机逐格移动):\(\mathbf{1}_{[0,1]},\mathbf{1}_{[0,1/2]},\mathbf{1}_{[1/2,1]},\mathbf{1}_{[0,1/4]},\dots\)。则 \(\|f_n\|_1=\) 当前份的长度 \(\to0\)(\(L^1\) 收敛到 \(0\)),但每个点 \(x\) 被无穷多个 \(f_n\) "扫到"又无穷多次"错过",故 \(f_n(x)\) 在 \(0,1\) 间反复横跳,处处不收敛。
本质洞察:打字机序列是"\(L^p\) 收敛但 a.e. 不收敛"的典范——它揭示了**范数收敛(平均意义)与逐点收敛(每点意义)的本质差异**。\(L^1\) 收敛只说"平均误差趋零",允许误差在不断移动的小区域上保持大;a.e. 收敛要"每个固定点最终都收敛"。Riesz 子列定理是二者的桥:\(L^p\) 收敛虽不给 a.e. 收敛,但能抽出 a.e. 收敛的子列。这个区分对机器人收敛性分析是实打实的——"平均性能收敛"和"每条轨迹收敛"是两码事。
理论:一致可积与 Vitali 收敛定理¶
DCT 要求"固定控制函数",有时太强。一致可积(UI)是更灵活的条件。
定义 14.3(一致可积):\(\{f_n\}\subset L^1\) 称为**一致可积**,若 \(\lim_{M\to\infty}\sup_n\int_{\{|f_n|>M\}}|f_n|\,d\mu=0\)(尾部质量一致地小)。
定理 14.4(Vitali 收敛定理):\(\mu(X)<\infty\),\(f_n\to f\) 依测度,\(\{f_n\}\) 一致可积 \(\Rightarrow f\in L^1\) 且 \(\|f_n-f\|_1\to0\)。
Vitali 比 DCT 更通用:有 \(L^1\) 控制函数 \(\Rightarrow\) UI(取 \(\int_{\{|f_n|>M\}}|f_n|\le\int_{\{g>M\}}g\to0\)),但反之不然。所以 Vitali 覆盖了一些 DCT 处理不了的情形(无单一控制函数但尾部一致小)。
机器人应用:为什么机器人学强调 a.s. 收敛¶
把收敛模式接到随机优化上。
随机梯度下降的两种收敛保证:SGD 在非凸目标上的经典结果(Robbins–Monro 1951;Tsitsiklis 1994 的异步随机逼近)给出 $$ \theta_n\xrightarrow{\text{a.s.}}\theta^*, $$ 即**几乎每一条训练轨迹都收敛**到(某个)驻点。这与"依概率收敛"(多次训练的集合中大部分收敛)有本质差异:
本质洞察:机器人学/具身智能里强调 a.s. 收敛而非仅依概率收敛,因为**单次部署即决定系统成败**。依概率收敛说"做 100 次训练,大部分会收敛"——但你部署的是**这一次**,依概率收敛不保证这一次不属于那"少部分"。a.s. 收敛说"几乎每条轨迹都收敛",是对单次运行的保证。对一个要上真实硬件、跑一次就要 work 的机器人策略,a.s. 收敛是必需的鲁棒性证书,依概率收敛不够。这也解释了为什么强化学习理论里大量精力花在证 a.s. 收敛(用 Borel–Cantelli §3、鞅收敛、ODE 方法),而非满足于依概率。
actor–critic 的双时间尺度分析(Konda–Tsitsiklis 2003)需要 UI(一致可积)来处理"参数在两个时间尺度上跳跃"时的极限一致性——快变量(critic)跟踪慢变量(actor)的极限,UI 保证这个跟踪在 \(L^1\) 意义下成立。这是 Vitali 收敛定理(比 DCT 灵活)在 RL 里的用武之地。
⚠️ 常见陷阱¶
陷阱 14.1(概念误区):混淆 a.s. 收敛与依概率收敛 - 错误描述:把"依概率收敛"当成"几乎必然收敛",或反之。 - 现象/后果:误判算法的部署保证——依概率收敛不保证单次轨迹收敛,但被当成 a.s. 用,导致对系统可靠性的高估。 - 根本原因:a.s.(逐点/逐轨迹)强于依概率(依测度)。打字机序列依概率收敛但处处不 a.s. 收敛。 - 正确做法:明确算法证的是哪种收敛。单次部署的机器人系统要 a.s. 收敛;只关心平均性能时依概率/\(L^p\) 可接受。论文里看到"converges in probability"不要默认它 a.s. 收敛。
陷阱 14.2(思维陷阱):以为 \(L^p\) 收敛蕴含 a.e. 收敛 - 错误描述:从 \(\|f_n-f\|_p\to0\) 直接断言 \(f_n\to f\) a.e. - 现象/后果:打字机序列 \(L^1\) 收敛到 \(0\) 但处处不收敛——按此误判会得出"处处收敛"的错误结论。 - 根本原因:\(L^p\) 收敛只给"平均误差趋零",允许误差在移动的小集上保持大。只能抽出 a.e. 收敛的**子列**(Riesz)。 - 正确做法:\(L^p\) 收敛 \(\Rightarrow\) 子列 a.e. 收敛(非全列)。需要全列 a.e. 收敛要额外条件(如单调、快速收敛 \(\sum\|f_n-f\|_p<\infty\))。
陷阱 14.3(概念误区):在无限测度上误用"a.e. \(\Rightarrow\) 依测度" - 错误描述:在 \(\mathbb{R}\)(无限测度)上从 a.e. 收敛推依测度收敛。 - 现象/后果:行进帽子 \(f_n=\mathbf{1}_{[n,n+1]}\) a.e. 收敛到 \(0\) 但依测度不收敛(\(\mu(\{f_n>1/2\})=1\not\to0\))。 - 根本原因:"a.e. \(\Rightarrow\) 依测度"经 Egorov,需 \(\mu(X)<\infty\)。无限测度下质量可逃逸到无穷远。 - 正确做法:此蕴含仅在有限测度(概率测度自动满足)下成立。无限测度(Lebesgue on \(\mathbb{R}\))上要小心,质量逃逸破坏依测度收敛。
练习¶
-
(证明题,草稿纸完成) 用 Markov 不等式(§7)证明"\(L^p\) 收敛 \(\Rightarrow\) 依测度收敛":\(\mu(\{|f_n-f|>\varepsilon\})\le\|f_n-f\|_p^p/\varepsilon^p\)。再说明反向不成立(用打字机序列:依测度/\(L^1\) 收敛但不 a.e.,且构造一个依测度收敛但 \(L^1\) 不收敛的例子,如高瘦帽子)。
-
(开放思考题) 详细描述打字机序列的构造,并证明:(a) \(\|f_n\|_1\to0\);(b) 对每个 \(x\in[0,1]\),\(\limsup_n f_n(x)=1\) 且 \(\liminf_n f_n(x)=0\)(故处处不收敛)。再用 Riesz 子列定理抽出一个 a.e. 收敛到 \(0\) 的子列(提示:取每个尺度 \(j\) 的第一个,使长度 \(\to0\) 足够快)。
-
(跨节综合题) 结合 §3 Borel–Cantelli、§8 DCT 与本节:证明若 \(\sum_n\|f_n-f\|_p^p<\infty\)(快速 \(L^p\) 收敛),则 \(f_n\to f\) a.e.(全列,非仅子列)。提示:用 Markov 把 \(P(|f_n-f|>\varepsilon)\) 控制为可和,再用 Borel–Cantelli 得"\(|f_n-f|>\varepsilon\) 只发生有限次" a.e.。这解释了为什么"足够快的 \(L^p\) 收敛"能升级为 a.e. 收敛——这正是粒子滤波 \(O(1/N)\) 速率配合 Borel–Cantelli 推 a.s. 收敛的机制(§8 练习 3 的续)。
§15 微分与 FTC ⭐⭐⭐⭐¶
动机:积分和微分在测度论里还是逆运算吗?¶
本科微积分基本定理(FTC)说 \(\int_a^x f'=f(x)-f(a)\)、\(\frac{d}{dx}\int_a^x f=f(x)\)——积分和微分互逆。但 §1、§5 的 Cantor 函数反例已经警告:连续 + 几乎处处可导**不足以**保证 FTC(\(c'=0\) a.e. 却 \(c(1)-c(0)=1\))。那么测度论框架下,FTC 成立的**精确条件**是什么?答案是"绝对连续"。本节建立 Lebesgue 微分定理与 FTC 的测度论版本,它是理解"密度与累积分布""导数与测度"关系的关键,也是 §12 R–N 在一维的具体化。
反面:Cantor 函数——FTC 失效的精确反例¶
重温 Cantor 函数 \(c:[0,1]\to[0,1]\):连续、单调递增、\(c'=0\) 几乎处处(在补 Cantor 集的全长为 1 的开集上分段常值),却 \(c(1)-c(0)=1\)。于是
FTC 失效!缺的是什么?\(c\) 连续、有界变差(单调即 BV),但**不绝对连续**——它把"全部增量"挤在了零测的 Cantor 集上,而 AC 函数恰好禁止这种行为。本节就是要精确刻画这个缺失的条件。
理论:Hardy–Littlewood 极大函数与覆盖引理¶
要证 Lebesgue 微分定理("平均值收敛到点值"),需要控制"极大平均"。
定义 15.1(Hardy–Littlewood 极大函数):对 \(f\in L^1_{\mathrm{loc}}(\mathbb{R}^n)\), $\(Mf(x)=\sup_{r>0}\frac{1}{|B(x,r)|}\int_{B(x,r)}|f(y)|\,dy.\)$ 即所有以 \(x\) 为心的球上 \(|f|\) 平均值的上确界。
引理 15.2(Vitali 覆盖引理,有限版):有限球族 \(\{B_1,\dots,B_N\}\subset\mathbb{R}^n\) \(\Rightarrow\) 存在不交子族 \(\{B_{i_j}\}\) 使 \(\bigcup_k B_k\subseteq\bigcup_j 3B_{i_j}\)(\(3B\) 是同心 3 倍半径球)。
证明:按半径降序贪心选取——每次选当前最大且与已选不交的球,被它"挤掉"的球都含于它的 3 倍球内。
定理 15.3(弱 (1,1) 极大不等式):\(\lambda(\{Mf>\alpha\})\le\dfrac{3^n}{\alpha}\|f\|_1\)。
证明:对紧 \(K\subseteq\{Mf>\alpha\}\),每点 \(x\) 有球 \(B(x,r_x)\) 使 \(\int_{B}|f|>\alpha|B|\);取有限覆盖、用 Vitali 抽不交族 \(\{B_{i_j}\}\),则 \(\lambda(K)\le\sum_k|B_k|\le3^n\sum_j|B_{i_j}|\le\frac{3^n}{\alpha}\sum_j\int_{B_{i_j}}|f|\le\frac{3^n}{\alpha}\|f\|_1\)(末步用不交性)。
理论:Lebesgue 微分定理¶
定理 15.4(Lebesgue 微分定理):\(f\in L^1_{\mathrm{loc}}(\mathbb{R}^n)\Rightarrow\) 几乎处处的 \(x\) 是 Lebesgue 点,即 $\(\lim_{r\to0}\frac{1}{|B(x,r)|}\int_{B(x,r)}|f(y)-f(x)|\,dy=0.\)$ 特别地 \(\lim_{r\to0}\frac{1}{|B(x,r)|}\int_{B(x,r)}f\,dy=f(x)\) a.e.
证明骨架(稠密 + 极大不等式):连续函数在 \(L^1\) 中稠密(§13)。对连续 \(g\in C_c\),由一致连续性**每个**点都是 Lebesgue 点。对一般 \(f\),写 \(f=g+(f-g)\),残差 \(f-g\) 的"坏集"\(\{M(f-g)>\alpha\}\cup\{|f-g|>\alpha\}\) 由弱 (1,1) 不等式与 Markov 控制为 \(\le C\|f-g\|_1/\alpha\)。令 \(\|f-g\|_1\to0\)(稠密性)得坏集测度趋零,故 a.e. 点是 Lebesgue 点。\(\quad\blacksquare\)
本质洞察:Lebesgue 微分定理是"\(\frac{d}{dx}\int_a^x f=f\)"的测度论升级——它说**几乎处处地,函数在小邻域的平均值收敛到点值**。这是"局部平均能恢复点值"的严格保证,机器人感知里的局部滤波、密度估计全靠它。注意它只在 Lebesgue 点(a.e.)成立——在跳跃间断点(如似然的障碍边界)失效,那里平均值收敛到左右极限的某种加权而非点值。这恰好对应 §6 的 Lusin:除小集外函数良好。
理论:绝对连续函数与 FTC¶
定义 15.5:\(f:[a,b]\to\mathbb{R}\) 称为**绝对连续**(AC),若 \(\forall\varepsilon>0\exists\delta>0\),对任意不交区间族 \(\{(a_i,b_i)\}\) 满足 \(\sum(b_i-a_i)<\delta\) 就有 \(\sum|f(b_i)-f(a_i)|<\varepsilon\)。有界变差(BV):\(V_a^b f=\sup_\pi\sum|f(x_{i+1})-f(x_i)|<\infty\)。
包含关系:AC \(\subsetneq\) BV \(\subsetneq\) 连续。Cantor 函数是 BV(单调)但非 AC——它正好卡在缝里。
定理 15.6(Lebesgue FTC):\(f:[a,b]\to\mathbb{R}\) AC \(\iff\) \(f'\) 存在 a.e.、\(f'\in L^1\)、且 $\(f(x)-f(a)=\int_a^x f'(t)\,dt\quad\forall x\in[a,b].\)$
AC 是 FTC 成立的**精确充要条件**。Cantor 函数非 AC,故 FTC 对它失效——一切自洽。
定理 15.7(R–N 与 FTC 统一):\(f\) 在 \([a,b]\) 上 AC \(\iff\) \(f\) 诱导的 Lebesgue–Stieltjes 测度 \(\mu_f\ll\lambda\) \(\iff\) \(f'=\dfrac{d\mu_f}{d\lambda}\) 是 R–N 导数。
这条把本节与 §12 焊死:一维的"导数"就是 Lebesgue–Stieltjes 测度相对 Lebesgue 测度的 R–N 导数。FTC 是 R–N 在一维、对 AC 函数的具体化。Cantor 函数诱导的测度 \(\mu_c\) 集中在零测 Cantor 集上,\(\mu_c\perp\lambda\)(互奇异)而非 \(\ll\lambda\),所以没有 R–N 导数(密度),FTC 失效。
本质洞察:把 §12(R–N)和 §15(FTC)放在一起看,会看到一个统一图景——"函数的导数"与"测度的密度"是同一回事。累积分布函数 \(F\) 的导数 \(F'\) = 概率测度相对 Lebesgue 的密度(= 概率密度 \(p\)),当且仅当 \(F\) 绝对连续(\(P\ll\lambda\))。离散分布的 \(F\) 是阶跃函数(跳跃 = 点质量,\(\perp\lambda\)),Cantor 分布的 \(F\) 是 Cantor 函数(\(\perp\lambda\) 但连续无跳跃)——这两类都没有密度。一个分布的 Lebesgue 分解 \(P=P_{ac}+P_{\text{跳跃}}+P_{\text{奇异连续}}\) 正好对应其 CDF 分解为 AC 部分 + 跳跃部分 + Cantor 型部分。这个"导数 = 密度"的统一是测度论最优美的结论之一。
机器人应用:局部平均、随机逼近 ODE 方法、分形轨迹警示¶
(1) 极大函数 = 局部平均算子。Hardy–Littlewood 极大函数 \(Mf\) 在机器人感知里直接出现:"半径 \(r\) 邻域内的平均"正是 \(M\) 算子的核心。视觉 SLAM 的**局部亮度归一化**(除以邻域平均亮度抗光照变化)、LiDAR 点云的**局部密度估计**(邻域内点数/体积)都是局部平均,Lebesgue 微分定理保证这些平均在 a.e. 点恢复真实点值(\(r\to0\) 时)。
(2) 随机逼近的 ODE 方法(Borkar 2008)。证明 SGD/Q-learning \(\theta_n\to\theta^*\) a.s. 的主流工具是"ODE 方法"——把离散随机迭代视为一个确定性 ODE \(\dot\theta=h(\theta)\) 的带噪扰动,证明迭代轨迹 a.s. 跟踪 ODE 极限。这里 Lebesgue 微分("局部平均恢复点值")保证带噪轨迹的时间平均收敛到 ODE 的瞬时行为,是连接"随机离散"与"确定连续"的桥。
(3) 分形轨迹警示(反事实)。Cantor 函数反例提醒:机器人轨迹若仅**连续而非绝对连续**,即使导数 a.e. 为零,总位移也可能非零!这在分形路径、纯分段常数控制下是真实风险——你以为"速度几乎处处为零所以没动",但轨迹可能像 Cantor 函数一样"在零测集上偷偷爬升"。要保证"零速度 a.e. \(\Rightarrow\) 不动",轨迹必须 AC。实践中光滑或分段光滑轨迹自动 AC,但理论上构造或学习出的奇异轨迹要警惕。
⚠️ 常见陷阱¶
陷阱 15.1(概念误区):以为"连续 + a.e. 可导"就满足 FTC - 错误描述:认为函数连续且几乎处处可导就有 \(\int_a^x f'=f(x)-f(a)\)。 - 现象/后果:Cantor 函数连续、\(c'=0\) a.e. 但 \(\int_0^1 c'=0\ne1=c(1)-c(0)\)——FTC 失效却被误用。 - 根本原因:FTC 需**绝对连续**(AC),比"连续 + a.e. 可导"强。Cantor 函数是 BV 非 AC。 - 正确做法:用 FTC 前确认 AC。判据:\(f\) AC \(\iff\) \(\mu_f\ll\lambda\)。Lipschitz 函数、\(C^1\) 函数都 AC;Cantor 型奇异函数不 AC。
陷阱 15.2(思维陷阱):以为 Lebesgue 微分定理处处成立 - 错误描述:认为"邻域平均 \(\to\) 点值"对所有点成立。 - 现象/后果:在跳跃间断点(似然的障碍边界)误用,那里平均收敛到左右极限的加权而非点值。 - 根本原因:Lebesgue 微分定理只在 Lebesgue 点(a.e.)成立,间断点(零测)可能不是 Lebesgue 点。 - 正确做法:局部平均恢复点值仅 a.e. 成立。处理已知间断点(边界、遮挡)时单独考虑,或用 Lusin(§6)在"除小集外"的好区域应用。
陷阱 15.3(概念误区):混淆函数的 AC 与测度的绝对连续 - 错误描述:把 §15 的"AC 函数"与 §12 的"测度绝对连续 \(\nu\ll\mu\)"当成无关或同一概念。 - 现象/后果:在判据间跳跃出错。 - 根本原因:二者通过定理 15.7 联系——\(f\) AC \(\iff\) 其诱导测度 \(\mu_f\ll\lambda\)。是"函数层面"与"测度层面"的同一现象的两面,但不是字面同一。 - 正确做法:记住桥梁定理 15.7。函数 AC(\(\varepsilon\)-\(\delta\) 区间条件)\(\iff\) 测度 \(\ll\lambda\)(零测集映零)\(\iff\) 有 R–N 导数(密度 = \(f'\))。三者等价。
练习¶
-
(证明题,草稿纸完成) 证明 Lipschitz 函数(\(|f(x)-f(y)|\le L|x-y|\))必绝对连续。再证 \(C^1\) 函数(连续可导)在紧区间上 AC。由此说明:机器人里光滑或 Lipschitz 的轨迹/代价函数自动满足 FTC,无须担心 Cantor 型病态。
-
(推导题) 用弱 (1,1) 极大不等式(定理 15.3)证明:\(Mf\) 几乎处处有限(当 \(f\in L^1\))。提示:\(\lambda(\{Mf=\infty\})\le\lambda(\{Mf>\alpha\})\le3^n\|f\|_1/\alpha\to0\)(\(\alpha\to\infty\))。讨论:为什么这保证了"局部平均算子"在 a.e. 点给出有限值——这对 LiDAR 局部密度估计的良定义意味着什么?
-
(跨节综合题) 结合 §12 Lebesgue 分解与本节定理 15.7:给定一个一维概率分布的 CDF \(F\),说明它如何分解为 \(F=F_{ac}+F_{\text{jump}}+F_{\text{Cantor}}\) 三部分,分别对应 \(P=P_{ac}+P_{\text{discrete}}+P_{\text{singular continuous}}\)。举机器人例子:连续位姿后验(\(F_{ac}\),有密度)、离散数据关联(\(F_{\text{jump}}\),点质量)。再讨论:为什么"奇异连续部分"\(F_{\text{Cantor}}\) 在工程中几乎不出现,但理论上必须考虑?
§16 局部紧 Hausdorff 空间上的 Radon 测度与 Riesz 表示定理 ⭐⭐⭐⭐¶
动机:\(\mathrm{SO}(3)\) 上怎么"积分"?没有 Lebesgue 测度怎么办?¶
机器人姿态在 \(\mathrm{SO}(3)\)(旋转群)、刚体位姿在 \(\mathrm{SE}(3)\)(刚体运动群)上。这些是**非欧的弯曲流形/群**,没有 Lebesgue 测度可用。可你又必须在上面积分——算姿态的平均、定义"无信息先验"、做群上的卷积。用什么测度? 答案是 Haar 测度,而它的存在性由本节的 Riesz–Markov 表示定理"凭空造出"。这是本章的进阶climax,也是整个李群机器人学的测度论地基。
反面:照搬欧氏直觉会彻底失败¶
你可能想:"\(\mathrm{SO}(3)\) 三维,就当 \(\mathbb{R}^3\) 用 Lebesgue 测度呗。"错。\(\mathrm{SO}(3)\) 是紧的弯曲流形(拓扑上是 \(\mathbb{RP}^3\)),没有平移结构,"均匀"在欧氏意义下无定义。用欧氏 Lebesgue 测度会破坏旋转不变性——你的"姿态平均"会依赖于坐标卡(欧拉角 vs 四元数 vs 旋转矩阵)的选取,系统性偏置。必须找一个**与群作用相容**(左不变)的测度,这就是 Haar 测度。
历史¶
Riesz(1909)证明了 \(C[a,b]\) 上正线性泛函由测度表示;Markov 与 Kakutani(1941)推广到局部紧 Hausdorff(LCH)空间。Haar(1933)证明局部紧拓扑群上存在不变测度;Weil(1940)用 Riesz 表示给出 Haar 测度存在性的优雅证明——把"造测度"归约为"造正线性泛函"。
理论:Radon 测度与 Riesz–Markov–Kakutani 定理¶
定义 16.1(Radon 测度):\(X\) 为 LCH 空间,\((X,\mathcal{B}(X),\mu)\) 满足 (i) 紧集测度有限;(ii) 外正则(任意 Borel 集);(iii) 内正则(对开集;\(\sigma\)-紧下对所有 Borel 集)。
定理 16.2(Riesz–Markov–Kakutani 表示定理):\(X\) 为 LCH,\(\Lambda:C_c(X)\to\mathbb{R}\) 为**正线性泛函**(\(f\ge0\Rightarrow\Lambda f\ge0\))。则存在**唯一** Radon 测度 \(\mu\) 使 $\(\Lambda f=\int_X f\,d\mu\qquad\forall f\in C_c(X).\)$
这个定理是测度论与拓扑/泛函分析的交汇点:它说"积分"(正线性泛函)与"测度"是一一对应的——给一个 \(\int f\,d\mu\) 这样的运算,就唯一确定一个测度。
证明骨架(六步): 1. 开集赋测:\(\mu(U)=\sup\{\Lambda f:0\le f\le1,\operatorname{supp}f\subseteq U\}\)。 2. 外测度:\(\mu^*(E)=\inf\{\mu(U):U\supseteq E\text{ 开}\}\)。 3. Carathéodory 可测性:用 Urysohn 引理(LCH 版,构造分离紧集与开集外部的连续函数 \(\varphi\))验证 \(\mu^*(E)=\mu^*(E\cap A)+\mu^*(E\cap A^c)\) 对开集 \(A\) 成立,从而 Borel 集皆可测(§4 引擎再现)。 4. 正则性:开集内正则由定义;\(\sigma\)-紧下传到所有 Borel 集。 5. 积分表示:对 \(0\le f\le1\) 做水平集分层 \(f\approx\sum_{k=1}^N\frac1N\mathbf{1}_{\{f>k/N\}}\),用 Urysohn 光滑化,由 \(\Lambda\) 线性 + 极限得 \(\Lambda f=\int f\,d\mu\)(又是 §1 水平切片思想!)。 6. 唯一性:两个表示同一 \(\Lambda\) 的测度,对紧 \(K\) 由 Urysohn 刻画 \(\mu(K)\),再由正则性传到 Borel 集。\(\quad\blacksquare\)
对偶形式:\(C_0(X)^*\cong M(X)\)(有限符号 Radon 测度空间,范数为全变差 §11)。这把 §11 的全变差范数接到了泛函分析的对偶理论上。
理论:Haar 测度的存在性¶
定理 16.3(Haar 测度):设 \(G\) 为局部紧 Hausdorff 拓扑群。则存在**左不变** Radon 测度 \(\mu_H\)(即 \(\mu_H(gE)=\mu_H(E)\) 对一切 \(g\in G\)),至多差一个正常数倍唯一。称 Haar 测度。
怎么造出来(Weil 1940 的 Riesz 路径):在 \(C_c(G)\) 上通过"比率平均"构造一个左不变的正线性泛函 \(\Lambda\)——用 Tychonoff 紧性对一族近似取极限得到不变性。然后 Riesz 表示定理(16.2)把这个泛函 \(\Lambda\) **输出**为一个左不变 Radon 测度,即 Haar 测度。
本质洞察:Haar 测度的存在性是 Riesz 表示定理"凭空造测度"能力的最壮观应用。先造一个不变的"积分"(正线性泛函),Riesz 定理自动给你一个不变的"测度"——这个"先有积分后有测度"的逆向构造,是测度论最深刻的思想之一。没有 Riesz 定理,Haar 测度只是一个"愿景"(我们希望有这么个不变测度);有了它,愿景变成定理。Lebesgue 测度的平移不变唯一性(§5 性质 5.2)正是 Haar 测度在 \(G=(\mathbb{R}^n,+)\) 上的特例——所以你早就见过 Haar 测度了,只是没叫这个名字。
机器人应用:李群机器人学的测度论地基¶
这是本节、也是全章进阶线的最终落点。\(\mathrm{SO}(3)\)、\(\mathrm{SE}(3)\) 上的一切概率与积分都建立在 Haar 测度上。
(1) 各向同性姿态先验。"无偏好"的姿态先验取归一化 Haar 测度 \(dR\) 于 \(\mathrm{SO}(3)\)。\(\mathrm{SO}(3)\) 的(未归一化)Haar 体积在标准双不变度量(由 \(\langle X,Y\rangle=-\frac12\operatorname{tr}(XY)\) 诱导)下为 \(\operatorname{Vol}(\mathrm{SO}(3))=8\pi^2\)。(注:该数值依赖度量归一化约定——不同的度量缩放会给出不同常数,如某些欧拉角参数化下为 \(16\sqrt2\pi^2\);\(8\pi^2\) 是机器人文献最常用的标准约定,对应把 \(\mathrm{SO}(3)\) 看成半径为 ... 的 \(\mathbb{RP}^3\)。)归一化后得 \(\mathrm{SO}(3)\) 上的均匀分布,这才是"各向同性""无信息姿态先验"的严格定义——它对左乘旋转不变,故不偏好任何姿态。
(2) 群卷积。滤波/控制中组合两个姿态不确定性用群卷积 $$ (p*q)(g)=\int_G p(h)\,q(h^{-1}g)\,d\mu_H(h), $$ 积分必须用 Haar 测度 \(\mu_H\) 才能保证卷积的群不变性(与欧氏卷积平移不变性类比)。这是姿态预测、不确定性传播的基本运算。
(3) \(\mathrm{SE}(3)\) 上的 Gauss 分布(Chirikjian 2009;Barfoot–Furgale 2014)。位姿不确定性的标准模型是:在李代数 \(\mathfrak{se}(3)\) 上取 Gauss \(\xi\sim\mathcal{N}(0,\Sigma)\),通过指数映射 \(T=\exp(\xi^\wedge)\cdot T_0\) 推到群上。其在群上的密度**相对 Haar 测度**有显式形式(带一个 Jacobian 修正因子)。没有 Haar 测度做参照,这个"\(\mathrm{SE}(3)\) 上的 Gauss 密度"无从定义——这是 §5"密度依赖参照测度"的终极体现:在群上参照测度从 Lebesgue 换成了 Haar。
(4) 群上的 Fourier 分析与等变网络。Peter–Weyl 定理把紧群的 \(L^2(G,\mu_H)\) 分解为不可约表示的直和,支撑**球面卷积 CNN**(Cohen–Welling 2016)、旋转等变特征、姿态图谱滤波。这些深度学习架构的数学基础是 \(L^2(G,\mu_H)\)——又一次以 Haar 测度为底座。
本质洞察:欧氏空间概率论的一切(密度、均匀分布、卷积、Gauss)在 \(\mathrm{SO}(3)/\mathrm{SE}(3)\) 上都要**以 Haar 测度替换 Lebesgue 测度**重新搭建。Riesz 表示定理保证了这个替换的合法性——它造出了 Haar 测度。所以本章从 §1"Riemann 不够用"出发,经测度构造、积分、收敛、R–N,最终在这里闭环:测度论不仅让欧氏空间的概率严格化,更让弯曲流形/群上的概率成为可能。这是李群机器人学(姿态估计、群等变学习、\(\mathrm{SE}(3)\) 控制)整个领域得以站立的地基。没有它,"在 \(\mathrm{SO}(3)\) 上做贝叶斯滤波"这句话连数学意义都没有。
⚠️ 常见陷阱¶
陷阱 16.1(概念误区):在 \(\mathrm{SO}(3)/\mathrm{SE}(3)\) 上用欧氏 Lebesgue 测度 - 错误描述:把旋转群当 \(\mathbb{R}^3\)(或四元数当 \(\mathbb{R}^4\))直接用 Lebesgue 测度积分/采样。 - 现象/后果:姿态平均、先验依赖坐标卡(欧拉角/四元数/旋转矩阵)的选取,产生系统性偏置;"均匀采样"实际不均匀(如欧拉角均匀采样在极点附近过密)。 - 根本原因:群是弯曲流形,无平移结构,欧氏 Lebesgue 测度不左不变。必须用 Haar 测度。 - 正确做法:\(\mathrm{SO}(3)/\mathrm{SE}(3)\) 上的积分、先验、采样用 Haar 测度。均匀姿态采样用归一化 Haar(如四元数在 \(S^3\) 上均匀 + 双覆盖修正),而非欧拉角均匀。
陷阱 16.2(思维陷阱):以为"密度"在群上和欧氏空间一个意思 - 错误描述:把 \(\mathrm{SE}(3)\) 上 Gauss 的密度直接写成欧氏 Gauss 公式。 - 现象/后果:忽略 Haar 测度参照与指数映射的 Jacobian 修正,得到错误的归一化与协方差传播。 - 根本原因:群上密度 \(=dP/d\mu_H\)(相对 Haar),指数映射 \(\exp:\mathfrak{se}(3)\to\mathrm{SE}(3)\) 带 Jacobian,密度形式与欧氏不同。 - 正确做法:群上密度相对 Haar 测度定义,含指数映射 Jacobian 修正(Barfoot–Furgale 的具体公式)。这是 §5"密度依赖参照测度"在群上的体现。
陷阱 16.3(概念误区):忽视左右 Haar 测度的区别(模函数) - 错误描述:默认左 Haar 测度 = 右 Haar 测度。 - 现象/后果:在非幺模群(左右 Haar 不等)上混用,群卷积/积分出错。 - 根本原因:一般 LCH 群左右 Haar 测度差一个**模函数** \(\Delta(g)\)(\(\mathrm{SO}(3)\) 紧群幺模,\(\Delta\equiv1\);但某些 \(\mathrm{SE}\) 类群或可解群非幺模)。这是 §5 性质 5.3 线性变换 \(|\det A|\) 因子的群推广。 - 正确做法:紧群(\(\mathrm{SO}(3)\)、\(\mathrm{SO}(n)\))幺模,左右 Haar 一致,无须区分。一般群明确用左还是右 Haar,非幺模时带模函数。\(\mathrm{SE}(3)\) 作为半直积通常取双不变约定下处理。
练习¶
-
(推导题,草稿纸完成) 验证 Lebesgue 测度的平移不变性(§5 性质 5.2)正是 Haar 测度定理(16.3)在 \(G=(\mathbb{R}^n,+)\) 上的特例。说明为什么这个群是幺模的(左右 Haar 一致),以及"至多差常数倍唯一"如何对应 §5 中"加上归一化 \(\lambda([0,1]^n)=1\) 后唯一"。
-
(开放思考题) Riesz 表示定理用"正线性泛函 \(\Lambda\)"造测度。请解释为什么"先造积分(泛函)再得测度"这个逆向思路对 Haar 测度特别有效——直接构造一个左不变测度难在哪里,而构造左不变泛函(用比率平均 + 紧性取极限)为什么相对容易?这体现了"积分"与"测度"哪个更"软"(易构造)?
-
(跨节综合题) 结合 §5 性质 5.2/5.3、§12 R–N 与本节:解释 \(\mathrm{SO}(3)\) 上"各向同性姿态先验"为什么是相对归一化 Haar 测度的均匀分布,而其相对某个坐标卡(如欧拉角的 Lebesgue 测度)的 R–N 导数(密度)不是常数(带 \(\sin\theta\) 等 Jacobian 因子)。这把"均匀"(相对 Haar)与"密度非常数"(相对坐标 Lebesgue)的表面矛盾用 R–N 导数和参照测度的选择统一起来——正是 §5 那个本质洞察在群上的兑现。
§17 与后续任务的接口总结 ⭐⭐¶
本章在路线图下游的四条主线¶
本节把测度论的产出接到下游,示意哪些工具将在何处再次出现。这不是简单罗列,而是给你一张"测度论投资回报表"——你在本章学的每个定理,将在哪里收获利息。
→ B3 泛函分析:\(L^p\)(§13)是 Banach 空间最核心的例子,\(L^2\) 是无限维 Hilbert 空间的范式。B3 将在此基础上展开 Banach–Alaoglu、Hahn–Banach、开映射、闭图像等支柱定理;Riesz 表示定理(§16)的对偶形式 \(C_0^*\cong M(X)\) 将作为一般 Banach 对偶理论的具体化。回报:粒子滤波弱紧性(经验测度列有收敛子列)的来源正是 Banach–Alaoglu——它不再"抽象",而是滤波收敛的工具。
→ C1 概率论:测度论直接变身概率论的语言字典:
| 测度论概念(本章) | 概率论概念(C1) |
|---|---|
| 可测函数(§6) | 随机变量 |
| 积分 \(\int X\,d\mathbb{P}\)(§7) | 期望 \(\mathbb{E}[X]\) |
| 积测度 = 边缘分解(§10) | 独立性 |
| \(\sigma\)-子代数上 R–N 导数(§12) | 条件期望 \(\mathbb{E}[X\mid\mathcal{G}]\) |
| 适应过程的条件期望塔 | 鞅 |
| Fourier 变换(测度的) | 特征函数 |
C1 的鞅收敛定理、大数定律、中心极限定理将大量调用 DCT(§8)与 Fatou(§8)。回报:你在 §8 手推的 DCT,将是证明 SLLN(强大数定律)、鞅收敛的主力。
→ Layer-1 流形积分与李群:Riesz 表示定理(§16)直通 Haar 测度;黎曼流形上的体积形式是坐标卡局部 \(\sqrt{\det g}\,dx^1\cdots dx^n\) 的积分,整体化为流形上的 Radon 测度。李群指数映射与 Baker–Campbell–Hausdorff 将与 Haar 测度交互定义 Gauss–\(\mathrm{SE}(3)\) 分布。回报:§16 的 Haar 测度是 \(\mathrm{SE}(3)\) 滤波、群等变学习的直接地基。
→ 第二层 SLAM / 状态估计 / 控制 / 学习:
| 本章工具 | 下游应用 | 关键文献 |
|---|---|---|
| DCT(§8) | 粒子滤波收敛 | Crisan–Doucet 2002;Del Moral 2004 |
| R–N 导数(§12) | 贝叶斯更新、重要性采样、Girsanov(\(\text{PI}^2\)/MPPI)、KL(TRPO/PPO) | Todorov 2009;Theodorou 2010 |
| Fubini(§10) | SLAM 边际化、Rao–Blackwell 化(FastSLAM)、因子图 sum-product | Montemerlo 2002 |
| \(L^2\) 投影(§13) | Kalman/EKF/UKF、LSTD/LSPI | Kalman 1960 |
| Haar 测度(§16) | 姿态估计、群卷积 CNN、姿态图谱 | Barfoot–Furgale 2014;Cohen–Welling 2016 |
三篇桥梁论文¶
读懂下面三篇标志着本章真正达标(不只是会背定理,而是能用它读论文):
- Crisan & Doucet, "A Survey of Convergence Results on Particle Filtering Methods for Practitioners", IEEE T-SP 2002——看 DCT(§8)在哪一步起作用。
- Barfoot & Furgale, "Associating Uncertainty with Three-Dimensional Poses for Use in Estimation Problems", IEEE T-RO 2014——看 Haar 测度(§16)与 \(\mathrm{SE}(3)\) Gauss 密度。
- Munos & Szepesvári, "Finite-Time Bounds for Fitted Value Iteration", JMLR 2008——看 \(L^p\)(§13)与 DCT 在误差界中的角色。
三次认知跃迁(结语)¶
本质洞察:本章的学习体验应该是**三次认知跃迁**。第一次在 §5——意识到"密度"只是 R–N 导数,概率分布的本体是测度(而非密度)。第二次在 §8——理解 DCT 如何让"极限与积分交换"在机器人蒙特卡洛算法中变成定量收敛率 \(O(1/\sqrt N)\)。第三次在 §16——看到 Riesz 表示定理如何凭空"造出" \(\mathrm{SO}(3)\) 上的 Haar 测度,让整个李群机器人学成立。带着这三次跃迁进入 B3 与 C1,你会发现泛函分析里 Banach–Alaoglu 不再"抽象"(它是粒子滤波弱紧性的来源),鞅收敛不再是"概率论装饰"(它是 Q-learning a.s. 收敛证明的核心)。测度论不是数学修养,是机器人学博士未来五年论文的脚手架——本章学得扎实与否,直接决定你之后能否独立评估一篇滤波/控制/学习论文的数学正确性。
建议学完每节问自己三个问题:(i) 这节的核心定理失效会导致哪个机器人算法出错?(ii) 削弱一个条件(去 \(\sigma\)-有限、去控制函数、去完备性),反例是什么?(iii) 我能在一张 A4 纸上默写主要证明骨架吗?三问皆"是",即可进入下一节。
本章常见误解汇总¶
下表汇总贯穿全章的核心误解。它们是初学测度论时最容易踩的坑,建议在复习时逐条自查。
| # | 误解 | 正确理解 | 出处 |
|---|---|---|---|
| 1 | "积分就是求曲线下面积" | 积分是测度对函数的作用 \(\int f\,d\mu\);面积只是 \(\mu=\lambda\) 的特例,期望是 \(\mu=P\),群平均是 \(\mu=\mu_H\) | §1, §7, §16 |
| 2 | "零测集 = 可数集" | 可数 \(\Rightarrow\) 零测,但反之不然;Cantor 集不可数却零测 | §1, §5 |
| 3 | "逐点收敛 \(\Rightarrow\) 积分收敛" | 必须有控制函数(DCT)、单调(MCT)或单边界(Fatou);否则质量逃逸 | §1, §8 |
| 4 | "代数与 \(\sigma\)-代数差不多" | 可数并封闭(\(\sigma\))才能谈极限事件;代数撑不起 Borel–Cantelli 与收敛定理 | §2, §3 |
| 5 | "能给所有子集量长度" | Vitali 集(选择公理)不可测;必须退到 \(\sigma\)-代数圈定好集合 | §2, §5 |
| 6 | "由上连续性无条件成立" | 递减极限需 \(\mu(A_1)<\infty\);反例 \([n,\infty)\downarrow\varnothing\) 但测度恒 \(\infty\) | §3 |
| 7 | "密度 \(p(x)\) 是分布的内禀属性" | 密度 \(=dP/d\lambda\) 仅在 \(P\ll\lambda\) 时存在,依赖参照测度;退化/流形分布无密度 | §5, §12, §16 |
| 8 | "测度为零 = 不可能发生" | 连续分布下单点概率为零是常态;概率零(a.s. 不发生)\(\ne\) 空集(逻辑不可能) | §5, §14 |
| 9 | "可测 = 可积" | 可测保证积分有定义(可能 \(\infty\));可积要 $\int | f |
| 10 | "可测函数 ≈ 连续函数" | 可测远弱于连续,可处处不连续;需连续性时用 Lusin(除小集外连续) | §6 |
| 11 | "Lebesgue \(\supseteq\) Riemann(广义)" | 条件收敛积分(\(\sin x/x\))广义 Riemann 可积但非 Lebesgue 可积;二者不可比 | §1, §9 |
| 12 | "积分顺序随便换" | Fubini 需绝对可积;先 Tonelli 验 $\iint | f |
| 13 | "Kalman 总给全局最优" | Kalman 是最优**线性** MMSE(\(L^2\) 投影);仅 Gauss 下 = 条件期望(全局最优) | §13 |
| 14 | "a.s. 收敛 = 依概率收敛" | a.s.(逐轨迹)强于依概率;单次部署的机器人系统要 a.s. | §14 |
| 15 | "连续 + a.e. 可导 \(\Rightarrow\) FTC" | 需绝对连续(AC);Cantor 函数连续、\(c'=0\) a.e. 但 \(c(1)-c(0)=1\) | §1, §15 |
| 16 | "\(\mathrm{SO}(3)\) 当 \(\mathbb{R}^3\) 用 Lebesgue" | 群无平移结构,须用 Haar 测度;否则姿态先验/采样系统性偏置 | §16 |
本章小结¶
符号表¶
本章新引入的核心数学符号及含义(首见小节):
| 符号 | 含义 | 首见 |
|---|---|---|
| \(\mathcal{M},\mathcal{F}\) | \(\sigma\)-代数 / 事件域 | §2 |
| \(\sigma(\mathcal{E})\) | 由 \(\mathcal{E}\) 生成的最小 \(\sigma\)-代数 | §2 |
| \(\mathcal{B}(X)\) | Borel \(\sigma\)-代数(开集生成) | §2 |
| \(\mathcal{P},\mathcal{L}\) | \(\pi\)-系 / \(\lambda\)-系(Dynkin 系) | §2 |
| \(\mathcal{F}_t\) | 信息 \(\sigma\)-代数 / 过滤 \(\sigma(z_{1:t},u_{1:t})\) | §2 |
| \(\mu(\varnothing)=0\) | 测度公理(空集测度零) | §3 |
| \(\limsup_n A_n\) | \(\bigcap_k\bigcup_{n\ge k}A_n\),"无穷多次发生" | §3 |
| \(\mu^*\) | 外测度(对全体子集定义,仅次可加) | §4 |
| \(\mathcal{M}^*\) | \(\mu^*\)-可测集 \(\sigma\)-代数 | §4 |
| \(\lambda,m\) | Lebesgue 测度 | §5 |
| \(\mathcal{L}\) | Lebesgue 可测集 \(\sigma\)-代数(\(\supsetneq\mathcal{B}\)) | §5 |
| \(\mathbf{1}_A\) | 集合 \(A\) 的指示函数 | §6 |
| \(f^{-1}(B)\) | 原像(可测性定义核心) | §6 |
| \(\varphi=\sum c_i\mathbf{1}_{A_i}\) | 简单函数 | §6 |
| \(\int f\,d\mu\) | Lebesgue 积分 | §7 |
| \(\mathbb{E}[X]=\int X\,d\mathbb{P}\) | 期望 | §7 |
| \(f^+,f^-\) | 正部 / 负部 | §7 |
| \(L^1(\mu)\) | 可积函数空间($\int | f |
| \(Mf\) | Hardy–Littlewood 极大函数 | §15 |
| \(\nu\ll\mu\) | 绝对连续 | §12 |
| \(\nu\perp\mu\) | 互奇异 | §12 |
| \(\dfrac{d\nu}{d\mu}\) | Radon–Nikodym 导数 | §12 |
| \(\mu\times\nu\) | 积测度 | §10 |
| $\nu^+,\nu^-, | \nu | $ |
| \(\|f\|_p,\|f\|_\infty\) | \(L^p\) 范数 / 本性上确界 | §13 |
| \(\langle X,Y\rangle=\mathbb{E}[XY]\) | \(L^2\) 内积 | §13 |
| \(\Pi_{H_t}\) | 向观测子空间 \(H_t\) 的正交投影 | §13 |
| \(D(P\|Q)\) | KL 散度 | §12 |
| \(\mu_H,dR,dg\) | Haar 测度 | §16 |
| \(C_c(X),C_0(X)\) | 紧支撑 / 趋零连续函数 | §16 |
| \(\Lambda\) | 正线性泛函(Riesz 表示) | §16 |
定理速查表¶
本章核心定理及一句话说明:
| 定理 | 一句话说明 | 对应节 |
|---|---|---|
| \(\pi\)-\(\lambda\) 定理 | 唯一性证明的瑞士军刀:\(\pi\)-系 \(\subseteq\lambda\)-系 \(\Rightarrow\sigma(\pi)\subseteq\lambda\) | §2 |
| Borel–Cantelli | \(\sum\mu(A_n)<\infty\Rightarrow\) 坏事件 a.e. 只发生有限次 | §3 |
| Carathéodory 定理 | \(\mu^*\)-可测集成 \(\sigma\)-代数,外测度限制上去成完备测度 | §4 |
| Hahn–Kolmogorov 扩张 | 代数上预测度 \(\to\) \(\sigma\)-代数上测度,\(\sigma\)-有限下唯一 | §4 |
| Lebesgue 测度构造 | 区间长度经 Carathéodory 扩张为 \(\lambda\),平移不变 + 唯一 | §5 |
| 简单函数逼近 | 非负可测 \(f\) 有简单函数列 \(\varphi_n\nearrow f\)(积分脚手架) | §6 |
| Egorov / Lusin | 可测函数"几乎"一致收敛 / "几乎"连续 | §6 |
| MCT(单调收敛) | \(f_n\ge0,f_n\nearrow f\Rightarrow\int f_n\nearrow\int f\) | §8 |
| Fatou 引理 | \(\int\liminf f_n\le\liminf\int f_n\)(最弱假设、单边界) | §8 |
| DCT(控制收敛) | \(f_n\to f\) a.e. + $ | f_n |
| Fubini–Tonelli | 重积分 = 累次积分(Tonelli 非负、Fubini 绝对可积) | §10 |
| Hahn–Jordan 分解 | 符号测度 = 两互奇异正测度之差 \(\nu^+-\nu^-\) | §11 |
| Radon–Nikodym | \(\nu\ll\mu\)(\(\sigma\)-有限)\(\Rightarrow d\nu/d\mu\) 存在 a.e. 唯一 | §12 |
| Lebesgue 分解 | \(\nu=\nu_{ac}+\nu_s\)(绝对连续 + 奇异)唯一 | §12 |
| Riesz–Fischer | \(L^p\) 完备(Banach),\(L^2\) 是 Hilbert | §13 |
| Hölder / Minkowski | $\int | fg |
| \((L^p)^*\cong L^q\) | \(L^p\) 对偶(用 R–N 证),\(\sigma\)-有限、\(p<\infty\) | §13 |
| Vitali 收敛 | 依测度 + 一致可积 \(\Rightarrow L^1\) 收敛(比 DCT 通用) | §14 |
| Hardy–Littlewood 弱(1,1) | \(\lambda(\{Mf>\alpha\})\le3^n\|f\|_1/\alpha\) | §15 |
| Lebesgue 微分 | \(f\in L^1_{\mathrm{loc}}\Rightarrow\) a.e. 点局部平均恢复点值 | §15 |
| Lebesgue FTC | \(f\) AC \(\iff f(x)-f(a)=\int_a^x f'\) | §15 |
| Riesz–Markov–Kakutani | LCH 上正线性泛函 \(\leftrightarrow\) 唯一 Radon 测度 | §16 |
| Haar 测度 | LCH 群上存在左不变测度,至多差常数倍唯一 | §16 |
知识点总表¶
| # | 知识点 | 核心要点 | 对应节 | 难度 |
|---|---|---|---|---|
| 1 | Riemann→Lebesgue 动机 | 按值域分层;Riemann 的三类病理 | §1 | ⭐⭐ |
| 2 | \(\sigma\)-代数 | 可数并封闭让极限事件可度量;\(\pi\)-\(\lambda\) | §2 | ⭐⭐ |
| 3 | 测度 | 可数可加 \(\Rightarrow\) 五大性质;Borel–Cantelli | §3 | ⭐⭐ |
| 4 | Carathéodory 扩张 | 测度存在性的唯一引擎;\(\sigma\)-有限保唯一 | §4 | ⭐⭐⭐ |
| 5 | Lebesgue 测度 | 密度的参照物;Vitali 不可测;平移不变唯一 | §5 | ⭐⭐⭐ |
| 6 | 可测函数 | 随机变量的真身;极限封闭;简单函数逼近 | §6 | ⭐⭐ |
| 7 | Lebesgue 积分 | 三阶段构造;期望 = 积分;Layer-cake | §7 | ⭐⭐⭐ |
| 8 | 三大收敛定理 | MCT/Fatou/DCT;DCT = 粒子滤波收敛核心 | §8 | ⭐⭐⭐ |
| 9 | Riemann vs Lebesgue | 一致性 + 四优势;条件收敛是缺口 | §9 | ⭐⭐ |
| 10 | Fubini–Tonelli | SLAM 边际化合法性;先 Tonelli 后 Fubini | §10 | ⭐⭐⭐ |
| 11 | 符号测度 | Hahn–Jordan 分解;全变差距离;R–N 前提 | §11 | ⭐⭐⭐ |
| 12 | Radon–Nikodym | 贝叶斯/重要性采样/Girsanov/KL 四合一 | §12 | ⭐⭐⭐⭐ |
| 13 | \(L^p\) 空间 | 完备性 = Kalman 投影前提;Hölder | §13 | ⭐⭐⭐ |
| 14 | 收敛模式 | a.s. vs 依概率;打字机序列;UI | §14 | ⭐⭐ |
| 15 | 微分与 FTC | AC = FTC 充要;极大函数 = 局部平均 | §15 | ⭐⭐⭐⭐ |
| 16 | Riesz / Haar | 凭空造测度;\(\mathrm{SO}(3)/\mathrm{SE}(3)\) 积分地基 | §16 | ⭐⭐⭐⭐ |
| 17 | 后续接口 | 测度论 → 泛函/概率/李群/滤波 | §17 | ⭐⭐ |
累积项目:本章新增模块¶
数学方向累积项目——"从公理到机器人滤波器的纸面推导链":本项目贯穿第零层数学,目标是让你**不依赖任何黑盒**地、从最基础的公理出发,亲手推导出一个完整的机器人状态估计器的数学正确性证明。每学一章,给这条推导链加一环。
本章(B2)新增三个模块:
模块 B2-1:贝叶斯滤波的测度论重写。把你熟悉的贝叶斯滤波"预测-更新"循环,逐行用本章工具重写为严格的测度递推: - 状态空间 \((\mathcal{X},\mathcal{B}(\mathcal{X}))\),后验测度 \(\pi_t\); - 预测步 = 转移核作用(Fubini §10 边际化); - 更新步 = 似然加权 + 归一化(R–N 导数 §12,\(\frac{d\pi_t}{d\hat\pi_t}\propto p(z_t\mid\cdot)\))。 产出:一页纸的"测度论贝叶斯滤波"推导,每步标注用了本章哪个定理。
模块 B2-2:粒子滤波 \(O(1/\sqrt N)\) 收敛证明骨架。用 §8 DCT + §7 Markov + §3 Borel–Cantelli,写出经验测度 \(\mu_t^N\to\pi_t\) 的收敛证明骨架(弱收敛 + \(L^2\) 速率)。产出:标注"DCT 在第几步交换极限与积分""Markov 在第几步转尾概率"的证明流程图。
模块 B2-3:Kalman = \(L^2\) 投影的几何推导。用 §13 把单步 Kalman 推导为 \(L^2\) 正交投影,画出"状态 - 观测子空间 - 投影 - 残差"的几何图,标注增益 \(K\) = 投影系数、新息 = Gram–Schmidt 正交化。产出:一张 Kalman 的几何示意图 + 投影推导。
与后续衔接:B3(泛函分析)将给模块 B2-3 补上"投影定理的完整证明"(Banach–Alaoglu、闭子空间);C1(概率论)将给模块 B2-2 补上"鞅收敛"使 a.s. 收敛证明完整;Layer-1(李群)将把模块 B2-1 推广到 \(\mathrm{SE}(3)\) 上(Haar 测度 §16)。
延伸阅读¶
主教材(按角色分类):
| 教材 | 角色 | 重点章节 | 难度 |
|---|---|---|---|
| Folland, Real Analysis 2e (Wiley 1999) | 首选主教材 | Ch 1–3, 6, 7(覆盖本章全部) | ⭐⭐⭐ |
| Tao, An Introduction to Measure Theory (AMS GSM 126, 2011) | 动机阅读首选 | §1.1–§1.3(Jordan→Lebesgue 动机驱动) | ⭐⭐ |
| Cohn, Measure Theory 2e (Birkhäuser 2013) | 概率过渡最佳 | Ch 1–5, 7, 9, 10(Ch 10 概率 + 鞅 + Brownian) | ⭐⭐⭐ |
| Rudin, Real and Complex Analysis 3e (1987) | 优雅证法精读 | Ch 1–3, 6–8(§6.10 von Neumann R–N 证) | ⭐⭐⭐⭐ |
| Stein–Shakarchi, Real Analysis (PUP 2005) | 几何直觉 | Ch 1–3, 6(\(\mathbb{R}^n\) 几何路线、连通 Fourier) | ⭐⭐⭐ |
| Royden–Fitzpatrick 4e | 渐进温和回退方案 | Ch 2–8, 17–22 | ⭐⭐ |
核心教材深度对照表:
| 教材 | 构造 Lebesgue 测度 | Radon–Nikodym 证明 | Riesz 表示 | 对机器人博士适用度 |
|---|---|---|---|---|
| Folland 2e | Carathéodory 标准路线 (§1.4–§1.5) | 经典 Hahn 分解 + 上确界 (§3.2) | Ch 7 独立章节 | ★★★★★ 首选 |
| Rudin RC 3e | 反向:经 Riesz 表示倒推 (§2.14) | von Neumann Hilbert 证 (§6.10) | §2.14 起点 | ★★★★ 参考精读 |
| Cohn 2e | 标准 Carathéodory | 经典 Hahn 分解 (§4.2) | Ch 7 详尽 | ★★★★★ 概率过渡 |
| Tao GSM 126 | Jordan→Lebesgue→Carathéodory 动机驱动 | 未完整给 | 未涵盖 | ★★★★ 动机首选 |
| Stein–Shakarchi III | \(\mathbb{R}^n\) 几何,开矩形覆盖 | von Neumann 风格 (Ch 6 §4) | Ch 6 间接 | ★★★★ 搭配使用 |
12 周学习路径建议: - Week 1–2:Tao §1.1–§1.3(Jordan/Lebesgue 动机)→ 对应本章 §1 - Week 3–4:Folland Ch 1 → §2–§5 - Week 5–6:Folland Ch 2 → §6–§10 - Week 7–8:Folland Ch 3 → §11–§12, §15 - Week 9–10:Folland Ch 6 → §13–§14 - Week 11:Folland §7.1–§7.2(§16)+ Cohn Ch 10(概率衔接) - Week 12:三篇桥梁论文(Crisan–Doucet、Barfoot–Furgale、Munos–Szepesvári)
数学史里程碑文献: 1. Lebesgue, H., Intégrale, longueur, aire, 博士论文, 1902(Lebesgue 测度与积分首次系统构造)。 2. Carathéodory, C., "Über das lineare Maß von Punktmengen", Nachr. Akad. Wiss. Göttingen, 1914(外测度与 \(\mu^*\)-可测性)。 3. Radon, J. (1913) 与 Nikodym, O. (1930)(抽象测度的导数)。 4. Riesz, F. (1909) 与 Kakutani, S., Ann. Math. 42:994–1024, 1941(LCH 版表示定理)。 5. Fubini, G. (1907) 与 Tonelli, L. (1909)(累次积分定理)。 6. Haar, A., Ann. Math. 34:147–169, 1933;Weil, A., L'intégration dans les groupes topologiques, Hermann, 1940(Haar 测度存在性的 Riesz 路径)。 7. Kolmogorov, A. N., Grundbegriffe der Wahrscheinlichkeitsrechnung, 1933(概率论公理化 = 归一化测度论)。
机器人与学习桥梁文献: 8. Kalman, R. E., "A New Approach to Linear Filtering and Prediction Problems", J. Basic Eng. 82(1):35–45, 1960。 9. Robbins, H. & Monro, S., "A Stochastic Approximation Method", Ann. Math. Stat. 22(3):400–407, 1951。 10. Crisan, D. & Doucet, A., "A Survey of Convergence Results on Particle Filtering Methods for Practitioners", IEEE T-SP 50(3):736–746, 2002。 11. Del Moral, P., Feynman–Kac Formulae, Springer, 2004。 12. Montemerlo, Thrun, Koller, Wegbreit, "FastSLAM", AAAI 2002。 13. Karaman, S. & Frazzoli, E., "Sampling-based Algorithms for Optimal Motion Planning", IJRR 30(7):846–894, 2011。 14. Theodorou, Buchli, Schaal, "A Generalized Path Integral Control Approach to RL", JMLR 11:3137–3181, 2010(\(\text{PI}^2\),用 Girsanov)。 15. Munos, R. & Szepesvári, C., "Finite-Time Bounds for Fitted Value Iteration", JMLR 9:815–857, 2008。 16. Barfoot, T. & Furgale, P., "Associating Uncertainty with 3D Poses", IEEE T-RO 30(3):679–693, 2014。 17. Chirikjian, G. S., Stochastic Models, Information Theory, and Lie Groups, Vols. 1–2, Birkhäuser, 2009 & 2012。 18. Cohen, T. & Welling, M., "Group Equivariant Convolutional Networks", ICML 2016(Peter–Weyl / Haar 在等变 CNN)。
本章与后续章节的关系¶
| 后续章节 | 与本章的关系 | 本章哪个知识点为其铺垫 |
|---|---|---|
| B3 泛函分析 | \(L^p/L^2\) 是 Banach/Hilbert 空间范式;Riesz 对偶具体化 | §13(\(L^p\) 完备)、§16(Riesz 表示对偶) |
| C1 概率论 | 测度论 = 概率论的语言字典(随机变量/期望/条件期望/鞅) | §6(可测函数)、§7(期望)、§12(条件期望 = R–N)、§8(DCT 证大数定律/鞅收敛) |
| Layer-1 流形积分/李群 | 黎曼体积形式 = 流形 Radon 测度;\(\mathrm{SE}(3)\) Gauss | §16(Haar 测度、Riesz 表示) |
| SLAM / 状态估计 | 贝叶斯滤波、粒子滤波、Kalman 的数学正确性 | §12(贝叶斯/重要性采样)、§8(粒子滤波收敛)、§13(Kalman 投影)、§10(边际化) |
| 最优控制 / 路径积分 | MPPI/\(\text{PI}^2\) 的 Girsanov 测度变换 | §12(R–N 导数、Girsanov) |
| 强化学习 | TRPO/PPO 信赖域(KL)、SGD a.s. 收敛、LSTD | §12(KL 散度)、§14(a.s. 收敛)、§13(\(L^2\) Galerkin 投影) |
🔧 故障排查手册¶
测度论本身不"运行",但用它分析/实现机器人概率算法时,下列"数学故障"会以具体的工程症状暴露。每个给出症状 → 可能原因 → 排查步骤 → 相关节。
故障 1:粒子滤波估计的方差不随 \(N\) 减小 / 不收敛¶
| 项 | 内容 |
|---|---|
| 症状 | 增加粒子数 \(N\),估计的方差不按 \(O(1/N)\) 下降,甚至发散;权重退化(少数粒子占据几乎全部权重) |
| 可能原因 | (a) 似然无界(重尾),DCT 控制函数不存在,收敛性证明前提失效;(b) 提议分布 \(q\) 不覆盖目标 \(\pi\)(\(\pi\not\ll q\)),R–N 权重病态;(c) 未做重采样,权重方差随时间累积 |
| 排查步骤 | 1. 检查似然是否有界(§8 DCT 要 $ |
| 相关节 | §8(DCT 控制函数)、§12(R–N 绝对连续)、§14(收敛模式) |
故障 2:EKF/UKF 协方差矩阵奇异 / 数值崩溃¶
| 项 | 内容 |
|---|---|
| 症状 | 协方差 \(\Sigma\) 接近奇异,\(\Sigma^{-1}\) 或 \(\det\Sigma\) 爆炸;滤波器发散或输出 NaN |
| 可能原因 | (a) 状态被等式约束/完美观测压到低维子流形,后验相对 Lebesgue 互奇异(\(P\perp\lambda\)),密度不存在;(b) 退化 Gauss 被当成有密度的 Gauss 处理 |
| 排查步骤 | 1. 判断是否有约束使某些方向不确定性归零(§5 退化 Gauss)。2. 若是,回到测度层面(§12 Lebesgue 分解分出奇异部分),或在约束子流形上重参数化。3. 数值上加 Tikhonov 正则 \(\Sigma+\epsilon I\) 作权宜。 |
| 相关节 | §5(退化 Gauss 无密度)、§12(绝对连续、Lebesgue 分解) |
故障 3:SLAM 边际化后后验"符号错误" / 概率为负¶
| 项 | 内容 |
|---|---|
| 症状 | 对地图/位姿变量边际化(积分掉)后,得到的"概率"出现负值或归一化失败;不同消元顺序给出不同结果 |
| 可能原因 | (a) 被积的联合位势未归一化或重尾,不绝对可积($\iint |
| 排查步骤 | 1. 先用 Tonelli(§10)验证 $\iint |
| 相关节 | §10(Fubini 先验绝对可积)、§11(符号测度) |
故障 4:\(\mathrm{SO}(3)/\mathrm{SE}(3)\) 上的姿态先验/采样有系统性偏置¶
| 项 | 内容 |
|---|---|
| 症状 | "均匀"姿态采样在某些方向过密(如欧拉角采样在极点聚集);姿态平均结果依赖坐标卡选取;先验偏向某些姿态 |
| 可能原因 | 在群上用了欧氏 Lebesgue 测度(或坐标卡的 Lebesgue 测度)而非 Haar 测度;忽略了指数映射的 Jacobian |
| 排查步骤 | 1. 改用 Haar 测度做先验/采样(§16):均匀姿态用四元数在 \(S^3\) 均匀 + 双覆盖修正,而非欧拉角均匀。2. 群上密度相对 Haar 定义,补指数映射 Jacobian(§16 陷阱 16.2)。3. 验证左乘旋转不变性。 |
| 相关节 | §16(Haar 测度、Riesz 表示)、§5(密度依赖参照测度) |
故障 5:交换极限与积分(期望)得到错误结果¶
| 项 | 内容 |
|---|---|
| 症状 | 在蒙特卡洛/随机逼近里写 \(\lim_n\mathbb{E}[f_n]=\mathbb{E}[\lim_n f_n]\),结果与仿真不符;"残差期望趋零"推不出来 |
| 可能原因 | 无控制函数就交换极限与积分(§8 陷阱 8.1);质量逃逸(高瘦/行进帽子);混淆 \(L^p\) 收敛与 a.e. 收敛 |
| 排查步骤 | 1. 用 DCT 前显式找 \(g\in L^1\) 使 $ |
| 相关节 | §8(三大收敛定理)、§14(收敛模式)、§7(Markov 不等式) |
故障 6:KL 散度 / 重要性采样权发散为无穷¶
| 项 | 内容 |
|---|---|
| 症状 | TRPO/PPO 的 KL 约束计算出 \(\infty\);重要性采样权 \(w=d\pi/dq\) 在某些样本上爆炸 |
| 可能原因 | \(P\not\ll Q\)(两分布支撑不兼容):KL 散度 \(\int\log\frac{dP}{dQ}\,dP\) 仅 \(P\ll Q\) 时有限;提议分布不覆盖目标 |
| 排查步骤 | 1. 检查 \(\mathrm{supp}(P)\subseteq\mathrm{supp}(Q)\)(§12 绝对连续)。2. 提议/旧策略分布要比目标/新策略"更宽"(重尾、加噪)。3. 退化情形用全变差距离(§11,恒有界)替代 KL,或用 Pinsker 不等式联系二者。 |
| 相关节 | §12(R–N、KL、绝对连续)、§11(全变差距离) |
研究实践建议¶
给初学者(第一次系统学测度论):
- 不要纠结于构造细节,先抓主线。Carathéodory 扩张(§4)、Riesz 表示(§16)的证明技术性强,第一遍可只记住"它保证了什么存在性",把精力放在"每个定理对应哪个机器人算法"。主线是:测度(量集合)→ 积分(量函数)→ 收敛定理(交换极限)→ R–N(密度/变换)→ \(L^2\)(Kalman)→ Haar(李群)。
- 每个抽象定理都找一个机器人锚点。本章每节末的"机器人应用"就是锚点。复习时反过来问:"粒子滤波收敛用哪个定理?"(DCT)"Kalman 最优性用什么?"(\(L^2\) 完备 + 投影)。锚点让抽象定理可记忆、可调用。
- 手推三大收敛定理与 R–N。§8 的 MCT/Fatou/DCT、§12 的 von Neumann R–N 证法是必须能默写的"肌肉记忆"。它们是后续概率论、滤波理论一切证明的发动机。
- 建立"反例库"。Dirichlet 函数、Cantor 函数、Vitali 集、高瘦/行进帽子、打字机序列——每个反例都精确标记了某个定理的边界。记住反例比记住定理更能防止误用。
给有经验者(已学过实分析、想直接用于研究):
- 重点吃透 §12(R–N)与 §13(\(L^2\) 投影)。这两节是机器人概率方法的核心。把贝叶斯/重要性采样/Girsanov/KL 统一成 R–N 导数(§12 本质洞察)、把 Kalman/LSTD 统一成 \(L^2\) 投影(§13 本质洞察),是能直接迁移到读论文、写证明的高杠杆理解。
- §16 Haar 测度是李群机器人学的入场券。若你做 \(\mathrm{SE}(3)\) 上的滤波、姿态估计、群等变学习,§16 + Chirikjian/Barfoot–Furgale 是必修。注意"密度依赖参照测度"(§5、§16)这个反复出现的主题——它是欧氏直觉在群上失效的根源。
- 关注 \(\sigma\)-有限性与绝对连续性这两个"前提"。本章大定理(Fubini、R–N、扩张唯一)都要 \(\sigma\)-有限;R–N、KL、重要性采样都要绝对连续。研究中 80% 的"数学故障"(见故障排查手册)都源于这两个前提被悄悄违反(退化分布、重尾、不兼容支撑)。养成"用定理前先验前提"的习惯。
- 把收敛模式(§14)的区分用于陈述你的结果。论文里"converges"要精确到 a.s./依概率/\(L^p\)——审稿人会追问。机器人系统强调 a.s.(单次部署),用 Borel–Cantelli(§3)+ 快速 \(L^p\) 收敛(§14 练习 3)证明它。
版权声明:本章为「机器人体系化教学项目」(达妙科技)的一部分,采用 CC BY 4.0 许可。