测度论与 Lebesgue 积分——机器人概率方法的严格底座¶

性质：理论教学 | 难度跨度：⭐⭐ ~ ⭐⭐⭐⭐ | 预计精读：14-20 小时

一句话定位：机器人学的概率语言（卡尔曼/粒子滤波、随机过程、信息论、强化学习的期望）在 2020 年代已被测度论彻底重写。本章从"Riemann 积分为什么不够用"出发，完整讲透 $\sigma$-代数、测度、Lebesgue 积分、三大收敛定理、Fubini、Radon–Nikodym、$L^p$ 空间与 Haar 测度——并在每一步把抽象定理钉死到一个具体的机器人算法上：密度只是 R–N 导数、贝叶斯更新只是测度变换、Kalman 只是 $L^2$ 投影、粒子滤波收敛只是 DCT、$\mathrm{SO}(3)$ 上的姿态先验只是 Haar 测度。

本章在路线图中的位置：本章是博士前数学第零层实分析支柱的第二块基石（B1 实分析基础 → B2 测度论与 Lebesgue 积分 → B3 泛函分析），也是向第一层概率论与流形积分（李群/黎曼几何）过渡的必经通道。建议在掌握 B1 的 $\varepsilon$-$\delta$ 分析、一致收敛、紧性、Baire 纲定理之后进入本章。

前置自测¶

开始前先回答下面 5 个问题。答不出 2 题以上，建议先回前置章节补齐——本章的每一步推导都建立在这些基础之上，欠了账会在第三节（测度构造）卡住。

什么是 Riemann 积分的上下 Darboux 和？ 一个有界函数 $f:[a,b]\to\mathbb{R}$ Riemann 可积的定义（用上下积分相等表述）是什么？$\mathrm{Dirichlet}$ 函数 $\mathbf{1}_{\mathbb{Q}}$ 为什么不 Riemann 可积？（答不出 → 回 B1 实分析基础，Riemann 积分一节）
逐点收敛与一致收敛的区别是什么？ 给出一个函数列 $f_n\to f$ 逐点但不一致收敛的例子。一致收敛对"极限与积分交换"$\lim_n\int f_n=\int\lim_n f_n$ 起什么作用？（答不出 → 回 B1 一致收敛一节）
可数集与不可数集的区别？ $\mathbb{Q}$ 是可数的吗？$[0,1]$ 是不可数的吗？Cantor 三分集的基数是多少？（答不出 → 回 B1 基数与可数性一节）
什么是上确界 $\sup$ 与下确界 $\inf$？ $\limsup_n a_n$ 与 $\liminf_n a_n$ 的定义是什么？对集合列 $\limsup_n A_n=\bigcap_k\bigcup_{n\ge k}A_n$ 的含义（"无穷多个 $A_n$ 都发生"）你能解释吗？（答不出 → 回 B1 数列极限与上下极限一节）
向量空间的内积与范数是什么？ 完备性（Cauchy 列收敛）的定义？为什么 $\mathbb{Q}$ 在通常距离下不完备而 $\mathbb{R}$ 完备？（答不出 → 回 B1 度量空间与完备性一节）

参考答案要点（先自己答，再对照）：

上 Darboux 和 $U(f,P)=\sum_i (\sup_{[x_i,x_{i+1}]}f)\,\Delta x_i$，下和 $L(f,P)=\sum_i(\inf_{[x_i,x_{i+1}]}f)\,\Delta x_i$。Riemann 可积 $\iff\inf_P U(f,P)=\sup_P L(f,P)$。$\mathbf{1}_{\mathbb{Q}}$ 在任意子区间上 $\sup=1,\inf=0$，故上积分恒为 $1$、下积分恒为 $0$，二者不等。
逐点收敛：每个固定 $x$ 处 $f_n(x)\to f(x)$；一致收敛：$\sup_x|f_n(x)-f(x)|\to 0$。例：$f_n(x)=x^n$ 于 $[0,1]$ 逐点收敛到不连续的极限但不一致收敛。一致收敛允许交换极限与积分（在紧区间上），但这是非常强的假设——本章将给出弱得多的条件（DCT）。
$\mathbb{Q}$ 可数（可与 $\mathbb{N}$ 一一对应），$[0,1]$ 不可数（Cantor 对角线），Cantor 集基数为 $\mathfrak{c}=2^{\aleph_0}$（不可数）但"长度"为零——这个反差正是测度论要刻画的。
$\sup A$ 是最小上界，$\inf A$ 是最大下界。$\limsup_n a_n=\inf_k\sup_{n\ge k}a_n$，$\liminf_n a_n=\sup_k\inf_{n\ge k}a_n$。$\limsup_n A_n$ 是"属于无穷多个 $A_n$"的点集，这是 Borel–Cantelli 引理的舞台。
内积 $\langle x,y\rangle$ 诱导范数 $\|x\|=\sqrt{\langle x,x\rangle}$。完备：每个 Cauchy 列都收敛到空间内的点。$\mathbb{Q}$ 不完备（如 $\to\sqrt2$ 的有理 Cauchy 列极限不在 $\mathbb{Q}$）；$\mathbb{R}$ 是 $\mathbb{Q}$ 的完备化。本章将证明 $L^p$ 空间完备，而 Riemann 可积函数空间不完备——这是 Lebesgue 积分不可替代的根本原因。

本章目标¶

学完本章后，你应该能够：

诊断 Riemann 积分的三类病理（极限不可交换、空间不完备、病态定义域），并解释 Lebesgue"按值域分层"为何从根本上修复它们；
**从公理出发**构造测度：理解 $\sigma$-代数为什么需要可数并、用 Carathéodory 外测度条件筛出可测集、用 Hahn–Kolmogorov 扩张定理证明 Lebesgue 测度与一切乘积测度的存在唯一性；
**手推**三大收敛定理（MCT/Fatou/DCT），说清每个条件（非负性、控制函数、有限测度）失效时的反例，并把 DCT 钉到粒子滤波收敛证明上；
推导 Fubini–Tonelli 定理并说明它如何支撑 SLAM 边际化、FastSLAM 的 Rao–Blackwell 化与因子图 sum-product；
证明 Radon–Nikodym 定理（von Neumann 的 $L^2$ 投影证法），理解"概率密度 $=\dfrac{dP}{d\lambda}$"的本质，并把 R–N 导数读成贝叶斯更新、重要性采样权、Girsanov 测度变换、KL 散度；
建立 $L^p$ 空间的完备性（Riesz–Fischer），把 Kalman 滤波重新理解为 $L^2(\Omega,\mathcal{F},\mathbb{P})$ 中向观测子空间的正交投影；
理解 Riesz–Markov 表示定理如何"凭空造出" $\mathrm{SO}(3)$、$\mathrm{SE}(3)$ 上的 Haar 测度，从而让整个李群机器人学（姿态先验、群卷积、$\mathrm{SE}(3)$ 上的 Gauss 分布）成立。

本章知识导航¶

本章的知识结构是一棵以"如何在任意复杂的状态空间上严格地谈论概率与期望"为根的树。树干是"测度 → 积分 → 收敛 → 变换"四个递进环节，树枝是每个环节支撑的机器人算法。

                     Riemann 为什么不够用？ (§1 动机)
                              │
                              ▼
        ┌──────────── 测度怎么严格定义？ ────────────┐
        │                                            │
   σ-代数 (§2) ──→ 测度公理 (§3) ──→ 外测度+Carathéodory 扩张 (§4)
        │                                            │
        ▼                                            ▼
   Lebesgue 测度构造 (§5) ←──────────── 可测函数 (§6)
        │                                            │
        ▼                                            ▼
   Lebesgue 积分三阶段构造 (§7) ──→ 三大收敛定理 MCT/Fatou/DCT (§8)
        │                          │                 │
        ▼                          │                 ▼
   Riemann vs Lebesgue 对比 (§9)   │           粒子滤波收敛
        │                          ▼
        ▼                  Fubini–Tonelli (§10) ──→ SLAM 边际化 / FastSLAM
   符号测度 Hahn–Jordan (§11)       │
        │                          ▼
        ▼                  Radon–Nikodym + Lebesgue 分解 (§12)
   ┌─────────────────────────────┤
   │                              ├─→ 贝叶斯更新 / 重要性采样 / Girsanov / KL
   ▼                              ▼
  L^p 空间 + Riesz–Fischer (§13) ──→ Kalman = L^2 投影
   │                              │
   ▼                              ▼
  收敛模式相互关系 (§14)     微分与 FTC (§15)
   │                              │
   ▼                              ▼
  随机逼近 a.s. 收敛       LiDAR/视觉局部平均 = 极大函数
        │
        ▼
  Riesz–Markov 表示定理 + Haar 测度 (§16) ──→ SO(3)/SE(3) 姿态估计 / 群卷积 CNN
        │
        ▼
  与后续任务的接口 (§17)

小节	主题	难度	一句话
§1	从 Riemann 到 Lebesgue 的动机	⭐⭐	按值域分层而非定义域分层
§2	$\sigma$-代数与可测空间	⭐⭐	可数并让"极限事件"可度量
§3	测度的定义与基本性质	⭐⭐	概率 = 归一化测度
§4	外测度与 Carathéodory 扩张	⭐⭐⭐	一切测度存在性的唯一引擎
§5	Lebesgue 测度的构造与性质	⭐⭐⭐	密度 = $dP/d\lambda$ 的参照物
§6	可测函数	⭐⭐	随机变量 = 可测函数
§7	Lebesgue 积分的构造	⭐⭐⭐	期望 = $\int X\,dP$
§8	三大收敛定理	⭐⭐⭐	DCT = 粒子滤波收敛核心
§9	Riemann 与 Lebesgue 的比较	⭐⭐	何时一致、何时分离
§10	积测度与 Fubini–Tonelli	⭐⭐⭐	SLAM 边际化的合法性
§11	符号测度与 Hahn–Jordan 分解	⭐⭐⭐	R–N 的技术前提
§12	Radon–Nikodym 与 Lebesgue 分解	⭐⭐⭐⭐	贝叶斯/重要性采样/Girsanov/KL
§13	$L^p$ 空间	⭐⭐⭐	Kalman = $L^2$ 正交投影
§14	收敛模式与相互关系	⭐⭐	a.s. vs 依概率收敛
§15	微分与 FTC	⭐⭐⭐⭐	极大函数 = 局部平均
§16	Radon 测度与 Riesz 表示定理	⭐⭐⭐⭐	Haar 测度存在性
§17	与后续任务的接口总结	⭐⭐	测度论 → 概率/泛函/李群

两条阅读线：

核心线（建立概率论严格底座，必读）：§1→§2→§3→§4→§5→§6→§7→§8→§10→§12→§13。读完即可严格理解贝叶斯滤波、粒子滤波、Kalman。
进阶线（通向李群机器人学与随机过程）：在核心线基础上加 §11→§15→§16。$\mathrm{SE}(3)$ 上的概率、Girsanov 路径积分控制、信息几何都依赖这条线。

无论哪条线，§1（动机）、§4（Carathéodory）、§8（收敛定理）、§12（R–N）都是承重墙——它们是后续所有内容的地基。

前置知识桥接¶

回顾 B1（实分析基础）：B1 建立了 $\varepsilon$-$\delta$ 语言、数列与函数极限、一致收敛、紧性（Heine–Borel）、可数性。本章在三个点上直接复用：(i) 可数性——$\sigma$-代数的"可数并封闭"与测度的"可数可加"都把 B1 的可数集理论推到极限事件上；(ii) 上下极限——$\limsup_n A_n$ 是 Borel–Cantelli 引理的舞台，直接搬用 B1 的 $\limsup_n a_n=\inf_k\sup_{n\ge k}a_n$；(iii) 完备性——B1 用 Cauchy 列把 $\mathbb{Q}$ 完备化成 $\mathbb{R}$，本章用同样的思想把简单函数完备化成 $L^p$，并证明 Riemann 可积函数在 $\|\cdot\|_p$ 下**不**完备，这正是非建 Lebesgue 积分不可的根本理由。

回顾 B1（Riemann 积分）：Riemann 积分用"垂直切片"——把定义域 $[a,b]$ 分割成小区间，在每个小区间上用 $\sup/\inf$ 估计函数值再求和。本章 §1 将指出：这种做法对"定义域上多么病态的函数"（如处处不连续的 Dirichlet 函数）极其脆弱。Lebesgue 的革命是改用"水平切片"——按**值域**分层，先收集 $\{f\in[k/n,(k+1)/n)\}$ 这个集合，再问它的"测度"是多少。这个转向把全部难度从"函数有多怪"转移到"集合怎么量长度"，后者正是 §2–§5 要解决的。

前向预告：本章的产出——测度、积分、R–N 导数、$L^2$ 投影、Haar 测度——将在 C1 概率论中变身为概率论的语言字典（随机变量 $\equiv$ 可测函数、期望 $\equiv$ 积分、条件期望 $\equiv$ $\sigma$-子代数上的 R–N 导数）。现在只需要记住一句话：本章不是数学素养装饰，而是未来五年所有概率、滤波、控制、学习论文的前置库函数——读不懂 Crisan–Doucet 的粒子滤波收敛证明、推不出 Munos–Szepesvári 的拟合价值迭代误差界、想不清 Chirikjian 的 $\mathrm{SE}(3)$ 上 Gauss 分布，根子都在这里没学扎实。

如果跳过本章会怎样¶

跳过本章，你会在三个具体的地方卡住。

场景一："密度算出来是负的 / 积不出 1"。 你在 $\mathrm{SO}(3)$ 上做姿态滤波，想给"无偏好的先验"写一个概率密度 $p(R)$。你套用欧氏空间的均匀分布直觉，结果发现：$\mathrm{SO}(3)$ 不是 $\mathbb{R}^n$，没有 Lebesgue 测度，"均匀"这个词根本没有定义。没有本章 §16 的 Haar 测度，你不知道"各向同性姿态先验"在数学上指的是相对归一化 Haar 测度 $dR$（$\operatorname{Vol}(\mathrm{SO}(3))=8\pi^2$，在标准双不变度量下）的均匀分布，只能凭感觉乱写一个，导致滤波系统性偏置。

场景二："粒子滤波到底收不收敛、收多快？"。 你实现了一个粒子滤波器，在仿真里看起来 work，但审稿人问"你的经验测度 $\mu_t^N=\tfrac1N\sum_i\delta_{x_t^{(i)}}$ 弱收敛到真后验 $\pi_t$ 吗？收敛速率是多少？"你答不上来——因为收敛性证明的核心是控制收敛定理（DCT，本章 §8）：用有界似然 $|\varphi|\le\|\varphi\|_\infty$ 作控制函数，把"极限与积分交换"这一步合法化。没有 §8，你无法证明 $\mathbb{E}|\mu_t^N(\varphi)-\pi_t(\varphi)|^2\le C_t\|\varphi\|_\infty^2/N$ 这个 $O(1/N)$ 速率，也就无法定量评估算法。

场景三："贝叶斯更新公式为什么是这个形状？"。 你写下贝叶斯更新 $p(x\mid z)\propto p(z\mid x)\,p(x)$，但当状态是"离散数据关联 + 连续位姿"的混合时，分母 $\int p(z\mid x')\,dP(x')$ 既不是求和也不是欧氏积分。没有本章 §12 的 Radon–Nikodym 定理，你不知道贝叶斯更新的严格形式是 $\dfrac{dP(\cdot\mid z)}{dP}(x)=\dfrac{p(z\mid x)}{\int p(z\mid x')\,dP(x')}$——一个 R–N 导数的递推，对混合状态、退化分布、流形状态一律成立。停留在"密度比"的直觉会在这些非平凡情形下出错。

预计阅读时间¶

模式	时长	适合
精读	14-20 小时	第一次系统学测度论：逐节读动机→反面→历史→推导，亲手补全每个证明骨架的细节，做完每节练习。建议分 6-8 次，对照 Folland Ch 1–3, 6, 7。
速读	4-6 小时	有实分析基础、想建立全局图景：读每节"动机"与"理论"的主线、框住的关键定理、每节的"机器人应用"，跳过证明的技术细节。
速查	40-80 分钟	已学过、回来查特定定理：直接定位到对应小节，看 boxed 定理 + 符号表 + 定理速查表 + 关键定理清单。

数学史脉络¶

在钻进公理前，先把这条研究线的来龙去脉理清——知道每个工具"从哪来、解决了前人什么痛点"，比孤立地背定义有用得多。

年份	人物/成果	解决的痛点
1854	Riemann 积分	把积分严格化为 Darboux 和的极限，但对病态函数和极限交换脆弱
1898	Borel 测度	用可数可加性给开集赋"长度"，开启测度论
1902	Lebesgue 博士论文	"按值域分层"积分；MCT/DCT；修复 Riemann 的极限交换缺陷
1907	Fubini / Tonelli	重积分化为累次积分的严格条件
1913–1930	Radon / Nikodym	抽象测度的导数 $d\nu/d\mu$，统一密度与变量替换
1914	Carathéodory	外测度 + $\mu^*$-可测性，测度构造的通用引擎
1933	Kolmogorov	概率论公理化 = 归一化测度论；扩张定理造无限维过程测度
1933	Haar	拓扑群上的不变测度，李群积分的基础
1940	Weil	用 Riesz 表示证 Haar 测度存在性
1960	Kalman	离散时间最优滤波 = $L^2$ 投影（Wiener 滤波的推广）
2002–2004	Crisan–Doucet / Del Moral	粒子滤波收敛性 = DCT + Feynman–Kac

看这条线，有一条清晰的主线：从"具体的长度/面积"走向"抽象的测度"，再走向"概率与随机过程"，最后落到机器人滤波与李群。每一步都在扩大"可以严格谈论积分/期望的对象"的范围。本章覆盖 1854→1940 的数学主干，并在每节末把它接到 1960→2024 的机器人应用上。

本章符号约定¶

符号	含义	首见
$X,\Omega$	全集 / 样本空间	§2
$\mathcal{M},\mathcal{F}$	$\sigma$-代数 / 事件域	§2
$2^X$	$X$ 的幂集（全体子集）	§2
$\sigma(\mathcal{E})$	由 $\mathcal{E}$ 生成的最小 $\sigma$-代数	§2
$\mathcal{B}(X)$	Borel $\sigma$-代数	§2
$\mu,\nu$	（正/符号）测度	§3
$P,\mathbb{P}$	概率测度	§3
$\lambda,m$	Lebesgue 测度	§5
$\mu^*$	外测度	§4
$\mathbf{1}_A$	集合 $A$ 的指示函数	§6
$\int f\,d\mu$	$f$ 关于 $\mu$ 的 Lebesgue 积分	§7
$\mathbb{E}[X]$	期望 $=\int_\Omega X\,d\mathbb{P}$	§7
a.e. / a.s.	几乎处处 / 几乎必然	§7
$f^+,f^-$	正部 $\max(f,0)$ / 负部 $\max(-f,0)$	§7
$L^p(\mu)$	$p$ 次可积函数空间	§13
$\\|f\\|_p$	$L^p$ 范数 $(\int	f
$\nu\ll\mu$	$\nu$ 关于 $\mu$ 绝对连续	§12
$\nu\perp\mu$	$\nu$ 与 $\mu$ 互奇异	§12
$\dfrac{d\nu}{d\mu}$	Radon–Nikodym 导数	§12
$\mu\times\nu$	积测度	§10
$	\nu	$
$\mathrm{SO}(3),\mathrm{SE}(3)$	旋转群 / 刚体运动群	§16
$\mu_H,dR,dg$	Haar 测度	§16
$C_c(X),C_0(X)$	紧支撑 / 趋零连续函数空间	§16

§1 从 Riemann 到 Lebesgue 的动机 ⭐⭐¶

动机：一个积分到底在求什么？¶

设想你手里有一个观测似然函数 $p(z\mid x)$，机器人在位姿 $x$ 处、观测到 $z$ 的概率密度。你要算归一化常数 $\int p(z\mid x)\,dx$，或者算期望 $\int x\,p(x)\,dx$。这些"积分"在本科微积分里都是 Riemann 积分——把 $x$ 轴切成小格子，每格用一个矩形面积近似，格子越细越准。

这套"垂直切片"的做法在 $p$ 光滑时工作得很好。但机器人现实里的似然函数远非光滑：

在**障碍边界**，似然会跳变（机器人要么在墙里、要么在墙外，没有中间态）；
在**遮挡阴影**，似然出现间断（传感器看不到的区域）；
在**数据关联**问题里，似然是离散标签与连续位姿的混合，根本不是 $\mathbb{R}$ 上的普通函数。

问题来了：Riemann 积分对这些病态函数还有定义吗？ 答案常常是"没有"。而 Lebesgue 积分对它们一律有定义。要理解这个差距从何而来，必须先精确诊断 Riemann 的病灶。

反面：Riemann 积分坏在哪——三个经典反例¶

Riemann 失败不是偶然，而是结构性的。下面三个反例像三张 X 光片，逐层暴露病变。

反例 1（Dirichlet 函数：处处不连续 → 不可积）。 定义

\[ \mathbf{1}_{\mathbb{Q}}(x)=\begin{cases}1, & x\in\mathbb{Q},\\ 0, & x\notin\mathbb{Q}.\end{cases} \]

在 $[0,1]$ 上任取一个分割 $P$，每个子区间里既有有理数又有无理数（$\mathbb{Q}$ 和 $\mathbb{Q}^c$ 都稠密），所以每个子区间上 $\sup f=1$、$\inf f=0$。于是上 Darboux 和恒为 $U(f,P)=1$，下 Darboux 和恒为 $L(f,P)=0$，无论分割多细都不缩小这个 $1-0=1$ 的鸿沟。因此上积分 $\overline{\int}f=1\ne 0=\underline{\int}f=$ 下积分，$\mathbf{1}_{\mathbb{Q}}$ 不 Riemann 可积。

但凭直觉，有理数在 $[0,1]$ 里"少得可怜"——它们可数，可以被一列总长任意小的开区间盖住。这个"少"如果能严格量化为"测度为零"，那么"$f$ 几乎处处等于 $0$"就该有积分 $0$。Lebesgue 积分正是这么做的：$\int_{[0,1]}\mathbf{1}_{\mathbb{Q}}\,d\lambda=1\cdot\lambda(\mathbb{Q}\cap[0,1])=1\cdot 0=0$。

反例 2（Cantor 函数：连续单调，导数几乎处处为零，却"爬升"了 1）。 Cantor 函数（魔鬼楼梯）$c:[0,1]\to[0,1]$ 连续、单调递增、$c(0)=0$、$c(1)=1$，但它在 Cantor 集的补集（一个全长为 $1$ 的开集）上是分段常值的，因此 $c'(x)=0$ 对**几乎处处**的 $x$ 成立。于是

\[ \int_0^1 c'(x)\,dx=\int_0^1 0\,dx=0\ne 1=c(1)-c(0). \]

微积分基本定理 $\int_a^b f'=f(b)-f(a)$ 在这里**失效**！这说明"连续 + 几乎处处可导"不足以保证 FTC——必须有更强的条件（§15 的绝对连续）。这个反例在本章会反复出现，是理解微分与积分关系的试金石。

反例 3（脆弱性：肥胖 Cantor 集）。 普通 Cantor 集 $C$ 的特征函数 $\mathbf{1}_C$ 是 Riemann 可积的（$C$ 测度为零，不连续点集为零测）。但只要把构造稍作改动——每步挖掉的中间区间长度按 $4^{-n}$（而非 $3^{-n}$）递减，得到的"Smith–Volterra–Cantor 集"$C_+$ 测度为 $1/2$，其特征函数 $\mathbf{1}_{C_+}$ 的不连续点集测度为 $1/2>0$，不再 Riemann 可积。一个测度为零的微小调整就摧毁了可积性——Riemann 理论对集合的几何过于敏感，没有鲁棒性。

本质洞察：Riemann 可积的精确刻画（Lebesgue 判据）是——有界函数 $f:[a,b]\to\mathbb{R}$ Riemann 可积当且仅当它的**不连续点集是 Lebesgue 零测集**。注意这句话本身就动用了"Lebesgue 测度"这个概念。换言之，"什么使 Riemann 失败"这个问题，只能用 Lebesgue 的语言回答。Riemann 积分携带着它自己无法表述的局限——这是非升级到测度论不可的第一个信号。

反面（续）：极限与积分不能交换——最致命的缺陷¶

对机器人学最致命的不是个别病态函数，而是**极限与积分无法交换**。蒙特卡洛方法、随机逼近、滤波收敛，本质都是"用一列近似 $f_n$ 逼近目标 $f$，然后希望 $\int f_n\to\int f$"。Riemann 框架下，这个希望常常落空。

把 $\mathbb{Q}\cap[0,1]$ 枚举为 $\{q_1,q_2,\dots\}$，定义

\[ f_n(x)=\mathbf{1}_{\{q_1,\dots,q_n\}}(x)=\begin{cases}1,& x\in\{q_1,\dots,q_n\},\\ 0,&\text{其他}.\end{cases} \]

每个 $f_n$ 只在有限个点上非零，因此处处 Riemann 可积且 $\int_0^1 f_n=0$。而 $f_n$ 单调递增逐点收敛到 $\mathbf{1}_{\mathbb{Q}}$。极限函数 $\mathbf{1}_{\mathbb{Q}}$ 竟然**不 Riemann 可积**——序列每一项都规规矩矩，极限却跳出了 Riemann 可积函数的世界。

这正是 Lebesgue 在 1902 年博士论文里要修的洞。Riemann 可积函数空间在"取逐点极限"下不封闭，更要命的是在 $\|\cdot\|_1$ 范数下**不完备**（§9、§13 会精确化）。一个不完备的空间，就像只有有理数的数轴——序列收敛的极限可能掉出空间外，分析根本没法做。

历史：Lebesgue 的"水平切片"革命¶

Lebesgue 1902 年的洞察可以用一句话概括：别按定义域切，按值域切。

Riemann 问的是"在 $x\in[x_i,x_{i+1}]$ 这一小段里，$f$ 大约是多少？"——当 $f$ 在这段里剧烈震荡（如 Dirichlet 函数）时，这个问题没有好答案。Lebesgue 反过来问："$f$ 的取值落在 $[y_k,y_{k+1})$ 这一层的那些 $x$，它们的'总量'是多少？"——然后用 $y_k$ 乘以这个总量再求和：

\[ \int f\,d\mu\approx\sum_k y_k\cdot\underbrace{\mu\big(\{x:y_k\le f(x)<y_{k+1}\}\big)}_{\text{第 }k\text{ 层的测度}}. \]

本质洞察：这个转向把全部难度从"函数有多怪"**转移**到"集合 $\{f\in[y_k,y_{k+1})\}$ 怎么量它的大小"。无论 $f$ 在定义域上多么病态地震荡，只要每一层 $\{y_k\le f<y_{k+1}\}$ 是"可测的"（能赋予一个长度），积分就有定义。Dirichlet 函数的层只有两个——$\{f=1\}=\mathbb{Q}\cap[0,1]$（测度 $0$）和 $\{f=0\}=\mathbb{Q}^c\cap[0,1]$（测度 $1$）——积分立刻是 $1\cdot 0+0\cdot 1=0$。代价是：必须先把"集合的测度"这件事严格化。这就是 §2–§5 的全部任务。

用一个生活类比：清点一堆面值混乱的硬币。Riemann 的做法是"从左到右一枚一枚加"（按位置/定义域）；Lebesgue 的做法是"先按面值分堆——1 元的一堆、5 角的一堆——数每堆几枚再乘面值"（按值/值域）。当硬币散乱（函数病态）时，后者显然更稳健。这个类比像的地方：都是为了求总额；不像的地方：硬币是有限可数的，而 Lebesgue 要处理连续值域上不可数无穷的"层"，所以需要测度论这套远超"数个数"的机械装置——这正是为什么后面要花五节建测度。

理论：Lebesgue 纲领的三块拼图¶

Lebesgue 积分的严格构造需要三块拼图，本章依次完成：

拼图	要回答的问题	本章位置
可测集	哪些集合 $\{f\in[y_k,y_{k+1})\}$ 能赋测度？测度满足什么公理？	§2（$\sigma$-代数）、§3（测度）、§4（Carathéodory）、§5（Lebesgue 测度）
可测函数	哪些函数 $f$ 保证每一层都可测？	§6
积分本身	怎么从"层的测度"严格定义 $\int f\,d\mu$，并证明它有好的极限性质？	§7（构造）、§8（收敛定理）

完成这三块后，Lebesgue 积分将拥有 Riemann 永远给不了的三个礼物：(i) 极限与积分在弱条件下可交换（MCT/DCT，§8）；(ii) $L^p$ 空间完备（Riesz–Fischer，§13）；(iii) 重积分与累次积分自由交换（Fubini，§10）。这三个礼物，分别是粒子滤波收敛、Kalman 滤波存在性、SLAM 边际化的数学命根子。

机器人应用：为什么连续状态空间非 Lebesgue 不可¶

把上面的诊断落到具体场景。机器人在连续状态空间（位姿、速度）上的观测似然 $p(z\mid x)$ 几乎必然带跳跃：

激光雷达：射线被障碍截断处，似然从"命中"陡降到"未命中"，是阶跃间断；
视觉特征：遮挡边界两侧，特征可见性突变；
接触传感：碰/不碰是二值的。

在 Riemann 框架下，$\int p(z\mid x)\,dP(x)$（贝叶斯归一化常数）可能因为这些间断而**没有定义**。但在 Lebesgue 框架下，只要 $p(z\mid\cdot)$ 是可测函数（§6 会证明：分段连续、阶跃、乃至几乎处处定义的函数都可测），积分就稳稳存在。这是粒子滤波、贝叶斯滤波能在真实复杂机器人场景里工作的根本数学保证——它们隐式地全都在做 Lebesgue 积分，而非 Riemann 积分。

本质洞察：本科阶段你以为"积分就是求曲线下面积"，这是 Riemann 视角。读完本章你会换一个本体论：积分是测度对函数的作用 $\langle\mu,f\rangle=\int f\,d\mu$。面积只是 $\mu=$ Lebesgue 测度时的特例；当 $\mu=P$ 是概率测度，$\int f\,dP$ 就是期望；当 $\mu=\mu_H$ 是 $\mathrm{SO}(3)$ 上的 Haar 测度，$\int f\,d\mu_H$ 就是姿态空间上的平均。同一个积分符号，承载了从面积到期望到群平均的统一。

⚠️ 常见陷阱¶

陷阱 1.1（概念误区）：把"Lebesgue 可积"当成"Riemann 可积的超集，所以更弱" - 错误描述：认为既然 Lebesgue 能积更多函数，它就是"更宽松"的积分，Riemann 能做的它都能做且做得更好，二者是包含关系。 - 现象/后果：以为 $\int_0^\infty\frac{\sin x}{x}\,dx$ 这种条件收敛的反常积分也是 Lebesgue 积分，进而误用 Fubini/DCT 导致错误结论。 - 根本原因：Lebesgue 积分要求**绝对可积**（$\int|f|<\infty$）。而 $\int_0^\infty\frac{|\sin x|}{x}\,dx=\infty$，所以 $\frac{\sin x}{x}$ 作为广义 Riemann 积分存在（$=\pi/2$）但**不是 Lebesgue 可积**。在无界区间上的条件收敛积分，是 Riemann（广义）能做而 Lebesgue 不能做的——二者并非简单的包含关系（§9 详述）。 - 正确做法：记住 Lebesgue 的判据是 $|f|$ 可积。条件收敛的震荡积分需用 Henstock–Kurzweil 积分或在复分析里作反常积分处理，不能套 Lebesgue 的定理。

陷阱 1.2（思维陷阱）：以为"零测集 = 可数集" - 错误描述：看到 $\mathbb{Q}$ 可数且测度为零，就归纳出"零测集就是可数集，不可数集测度必为正"。 - 现象/后果：在分析中错误地认为"几乎处处"等价于"除可数个点外"，从而漏掉重要的不可数零测集（如 Cantor 集上的现象）。 - 根本原因：可数 $\Rightarrow$ 零测（可数个点可被总长 $\sum\varepsilon/2^n=\varepsilon$ 的区间盖住），但**反之不成立**。Cantor 集不可数（基数 $\mathfrak{c}$）却测度为零。 - 正确做法：零测和可数是两个独立概念。零测的本质是"可被任意小总长的开集覆盖"，与基数无关。Cantor 函数的整个"爬升"都发生在这个不可数零测集上——这正是反例 2 的微妙之处。

陷阱 1.3（概念误区）：把"逐点收敛 $f_n\to f$"当成"$\int f_n\to\int f$"的充分条件 - 错误描述：在蒙特卡洛或随机逼近里，看到估计量 $f_n$ 逐点收敛到目标 $f$，就直接断言积分（期望）也收敛。 - 现象/后果：在没有控制函数的情形下，积分可能根本不收敛——"质量逃逸到无穷远"（§8 的行进帽子反例 $f_n=\mathbf{1}_{[n,n+1]}$，$\int f_n=1$ 但 $f_n\to 0$）。 - 根本原因：逐点收敛太弱，不控制函数的"垂直/水平方向的逃逸"。Riemann 框架下连这种交换的定理都没有；Lebesgue 框架下也需要额外条件（单调或控制）。 - 正确做法：交换极限与积分必须援引 MCT（单调）、Fatou（单边不等式）或 DCT（有 $L^1$ 控制），见 §8。这是本章最常被用到的纪律。

练习¶

（推导题，草稿纸完成） 证明：可数集是 Lebesgue 零测集。具体地，设 $A=\{a_1,a_2,\dots\}$ 可数，对任意 $\varepsilon>0$ 构造一列开区间 $\{I_n\}$ 使 $A\subseteq\bigcup_n I_n$ 且 $\sum_n|I_n|<\varepsilon$。再说明为什么这个论证对不可数集（如 $[0,1]$）失效。
（开放思考题） 反例 3 中的"肥胖 Cantor 集"$C_+$ 测度为 $1/2$。请构造一族 Cantor 型集 $\{C_\alpha\}$，使 $C_\alpha$ 的测度恰为给定的 $\alpha\in[0,1)$。提示：控制每步挖去的区间总长。这族集合说明了什么——"无处稠密的闭集"可以有任意接近 $1$ 的测度，从而其特征函数 Riemann 不可积。
（证明题） 直接用 Darboux 和证明反例 1 中的 $f_n=\mathbf{1}_{\{q_1,\dots,q_n\}}$ 在 $[0,1]$ 上 Riemann 可积且积分为 $0$。然后解释：为什么"每项可积且积分为 $0$"无法推出"逐点极限 $\mathbf{1}_{\mathbb{Q}}$ 可积"。这个练习要让你亲手触碰 Riemann 框架的不封闭性。

§2 $\sigma$-代数与可测空间 ⭐⭐¶

动机：不是所有集合都能量长度¶

§1 告诉我们：Lebesgue 积分把难度转移到"集合 $\{f\in[y_k,y_{k+1})\}$ 怎么量大小"。最自然的愿望是——给**每个**子集 $A\subseteq\mathbb{R}$ 都赋一个"长度" $\mu(A)\in[0,\infty]$，满足平移不变、可数可加、单位区间长度为 $1$。

反面：这个愿望做不到。§5 会用选择公理构造出 Vitali 集——一个无论如何都无法赋予合理"长度"的集合（赋任何值都导致矛盾）。结论是残酷的：在 $\mathbb{R}$ 上，不存在一个对全体子集 $2^{\mathbb{R}}$ 都定义、且满足平移不变 + 可数可加 + 归一化的测度。

既然不能给所有集合量长度，就只能退而求其次：圈定一族"好集合"——它对我们关心的运算（取补、可数并、可数交）封闭，且足够大（包含开集、闭集、以及由它们经可数次运算生成的一切）。这族"好集合"就是 $\sigma$-代数，是测度论的第一块地基。

历史：从代数到 $\sigma$-代数¶

19 世纪末 Borel 研究"能赋长度的集合"时，发现只要从开区间出发、允许**可数次**并/交/补，就能生成一个对分析足够用的集族（今称 Borel 集）。Borel 1898、Lebesgue 1902 把"可数"这个量级钉死下来——不是有限（太弱，盖不住极限事件），也不是任意无穷（太强，导出 Vitali 矛盾），恰好是**可数无穷**。这个"刚刚好"的选择是测度论全部威力的来源。

理论：$\sigma$-代数的定义¶

定义 2.1（$\sigma$-代数）：设 $X$ 是一个集合。集族 $\mathcal{M}\subseteq 2^X$ 称为 $X$ 上的一个 $\sigma$-代数，若它满足： 1. 含全集：$X\in\mathcal{M}$； 2. 补封闭：$A\in\mathcal{M}\Rightarrow A^c=X\setminus A\in\mathcal{M}$； 3. 可数并封闭：$A_1,A_2,\dots\in\mathcal{M}\Rightarrow\bigcup_{n=1}^\infty A_n\in\mathcal{M}$。

此时称 $(X,\mathcal{M})$ 为**可测空间**，$\mathcal{M}$ 中的成员称为**可测集**。

由 De Morgan 律，可数并封闭 + 补封闭立刻给出**可数交封闭** $\bigcap_n A_n=\big(\bigcup_n A_n^c\big)^c\in\mathcal{M}$；又 $\varnothing=X^c\in\mathcal{M}$，差集 $A\setminus B=A\cap B^c\in\mathcal{M}$。所以 $\sigma$-代数对一切"可数次集合运算"封闭。

为什么是"可数"并，而不是"有限"并？ 这是整个测度论最关键的设计抉择，值得停下来想透。

本质洞察：可数并（而非有限并）是让"极限事件"可度量的关键。考虑事件列 $A_n=\{$第 $n$ 次观测出现异常$\}$。"异常发生了无穷多次"这个事件是 $\limsup_n A_n=\bigcap_k\bigcup_{n\ge k}A_n$——它由可数次并与交构成。若 $\mathcal{M}$ 只对有限并封闭，这个极限事件就可能不在 $\mathcal{M}$ 里，我们就无法谈论它的概率。Borel–Cantelli 引理（§3）"坏事件几乎必然只发生有限次"——随机逼近、SGD 几乎必然收敛的命根子——的整个陈述都活在可数并封闭这条公理上。只对有限并封闭的集族叫"代数"（algebra），它撑不起极限分析；升级到可数（$\sigma$ 即"可数"的记号），才得到 $\sigma$-代数。

对比性思维（不是 X 而是 Y）：$\sigma$-代数**不是**"把所有子集都收进来"（那会导出 Vitali 矛盾），而是"恰好收进对可数运算封闭的那些子集"。它是在"什么都能量（不可能）"和"只能量区间（太少）"之间的那个**恰到好处**的折中。

理论：三个基本例子¶

例子	描述	大小	用途
平凡 $\sigma$-代数	$\{\varnothing, X\}$	最小	"什么都区分不了"的信息基线
幂集	$2^X$	最大	离散空间（如有限状态机）默认 $\sigma$-代数
Borel $\sigma$-代数	$\mathcal{B}(X)=\sigma(\text{开集})$	适中	$\mathbb{R}^n$、流形上分析的标准框架

在离散/可数的 $X$（如机器人的有限地图栅格、HMM 的离散状态）上，通常直接取 $\mathcal{M}=2^X$，每个子集都可测，无需精细构造。麻烦只出在**连续**空间（$\mathbb{R}^n$、$\mathrm{SO}(3)$），那里 $2^X$ 太大（含不可测集），必须退到 Borel $\sigma$-代数。

理论：生成 $\sigma$-代数与 Borel 集¶

给定任意集族 $\mathcal{E}\subseteq 2^X$（不一定是 $\sigma$-代数），我们想找"包含 $\mathcal{E}$ 的最小 $\sigma$-代数"。

定义 2.2（生成 $\sigma$-代数）： $$\sigma(\mathcal{E}):=\bigcap\{\mathcal{M}:\mathcal{M}\text{ 是 }X\text{ 上的 }\sigma\text{-代数},\ \mathcal{E}\subseteq\mathcal{M}\}.$$

为什么这个交集是良定义的 $\sigma$-代数？ 首先 $2^X$ 本身就是一个含 $\mathcal{E}$ 的 $\sigma$-代数，所以参与求交的集族非空。其次，任意多个 $\sigma$-代数的交仍是 $\sigma$-代数（逐条验证：每个都含 $X$，故交含 $X$；每个补封闭，故交补封闭；每个可数并封闭，故交可数并封闭）。因此 $\sigma(\mathcal{E})$ 是一个 $\sigma$-代数，且它被任何含 $\mathcal{E}$ 的 $\sigma$-代数包含——这就是"最小"的精确含义。

定义 2.3（Borel $\sigma$-代数）：拓扑空间 $X$ 上， $$\mathcal{B}(X):=\sigma(\tau_X),\quad \tau_X=X\text{ 的全体开集}.$$ $\mathcal{B}(\mathbb{R})$ 是包含一切开区间（等价地一切开集、闭集、半开区间、单点集）的最小 $\sigma$-代数。

$\mathcal{B}(\mathbb{R})$ 包含了分析中能写出来的几乎一切集合：开集、闭集、$G_\delta$（可数个开集的交）、$F_\sigma$（可数个闭集的并）、单点、区间、Cantor 集……以及它们的可数次组合。它是"一切连续函数、一切开/闭集都可测"的最小共同框架——这正是我们想要的"好集合"全体。

本质洞察：我们几乎**永远无法显式枚举** $\sigma(\mathcal{E})$ 的所有成员——从开区间出发做可数次运算，会得到 $F_\sigma,G_\delta,F_{\sigma\delta},G_{\delta\sigma},\dots$ 这个无穷上升的层级（Borel 阶层），其复杂度超出任何显式描述。这带来一个方法论困境：要证"$\sigma(\mathcal{E})$ 中所有集合都有性质 $P$"，不能逐个检查。解决之道是下面的 $\pi$-$\lambda$ 定理与单调类定理——它们把"对所有 Borel 集成立"归约为"对生成元（区间）成立 + 某个封闭性"，是测度论里最常用的"归纳法"。

理论：$\pi$-$\lambda$ 定理（Dynkin 系统定理）——唯一性证明的瑞士军刀¶

由于无法枚举 $\sigma(\mathcal{E})$，证明两个测度相等（或某性质对所有可测集成立）需要一个间接工具。

定义 2.4：设 $X$ 是集合。 - $\pi$-系 $\mathcal{P}$：对**有限交**封闭的集族（$A,B\in\mathcal{P}\Rightarrow A\cap B\in\mathcal{P}$）。 - $\lambda$-系（Dynkin 系）$\mathcal{L}$：满足 (i) $X\in\mathcal{L}$；(ii) $A,B\in\mathcal{L},A\subseteq B\Rightarrow B\setminus A\in\mathcal{L}$（差封闭）；(iii) $A_n\in\mathcal{L},A_n\uparrow A\Rightarrow A\in\mathcal{L}$（可数递增并封闭）。

定理 2.5（$\pi$-$\lambda$ 定理 / Dynkin）：若 $\pi$-系 $\mathcal{P}$ 包含于 $\lambda$-系 $\mathcal{L}$，则 $\sigma(\mathcal{P})\subseteq\mathcal{L}$。

这个定理怎么用？应用模板。 要证两个测度 $\mu,\nu$ 在 $\sigma(\mathcal{P})$ 上相等： 1. 验证它们在 $\pi$-系 $\mathcal{P}$（如所有半开区间）上相等——这通常是直接计算； 2. 验证 $\mathcal{L}:=\{A:\mu(A)=\nu(A)\}$ 是一个 $\lambda$-系（含 $X$、差封闭、递增并封闭——用测度的可加性与连续性逐条验证）； 3. 由 $\mathcal{P}\subseteq\mathcal{L}$ 与定理得 $\sigma(\mathcal{P})\subseteq\mathcal{L}$，即 $\mu=\nu$ 在整个 $\sigma(\mathcal{P})$ 上成立。

这个模板在 §4（扩张唯一性）、§10（积测度唯一性）反复出现。它的妙处是：绕开了"描述 $\sigma(\mathcal{P})$ 的全部成员"这个不可能任务，只需在简单的生成元上验证 + 一个软的封闭性论证。

$\pi$-系与 $\lambda$-系的分工（对比性思维）：单独一个 $\lambda$-系不一定是 $\sigma$-代数（它对**不交**并封闭，但不一定对任意有限交封闭）。定理的关键洞察是：$\lambda$-系 + 对有限交封闭（$\pi$ 性质）$\Rightarrow$ $\sigma$-代数。$\pi$-系提供"交"，$\lambda$-系提供"补/差与极限"，两者合起来才凑齐 $\sigma$-代数的全部封闭性。

机器人应用：信息 $\sigma$-代数与因果性¶

$\sigma$-代数在机器人滤波里有一个极精确的物理含义：它编码"在某时刻我们掌握了哪些信息"。

定义（信息 $\sigma$-代数 / filtration）：在时刻 $t$，机器人累积了观测 $z_{1:t}$ 和控制 $u_{1:t}$。定义 $$\mathcal{F}_t:=\sigma(z_{1:t},u_{1:t}),$$ 即由这些随机变量生成的最小 $\sigma$-代数。它精确地"包含"了 $t$ 时刻可由数据区分的一切事件。

随着时间推进，信息只增不减：$\mathcal{F}_1\subseteq\mathcal{F}_2\subseteq\cdots$，这条上升链称为**过滤**（filtration），是鞅论与随机最优控制的载体。

因果性的严格定义：一个估计器 $\hat x_t$（如滤波输出）称为**因果的**（causal / adapted），当且仅当它是 $\mathcal{F}_t$-可测的——直白说，它只依赖到 $t$ 为止真正观测到的信息，不偷看未来。这不是哲学约束，而是 $\sigma$-代数可测性的硬性数学条件。滤波被严格定义为条件期望

\[ \hat x_{t\mid t}=\mathbb{E}[X_t\mid\mathcal{F}_t], \]

而这个定义的合法性（条件期望的存在唯一性）依赖 $\mathcal{F}_t$ 是 $\sigma$-代数而不仅是代数——否则 §12 的 Radon–Nikodym 构造不成立。

本质洞察：你以前把"卡尔曼滤波用 $z_{1:t}$ 估计 $x_t$"当成一句白话。测度论把它锻造成一个精确陈述：滤波 = 把随机变量 $X_t$ 向 $\sigma$-子代数 $\mathcal{F}_t$ 做条件期望。$\sigma$-代数越大（信息越多），条件期望越精细（估计越准）。"信息"在这里不是比喻，而是字面意义上的 $\sigma$-代数大小。这个视角在 §13 会进一步精确为"$L^2$ 中向 $\mathcal{F}_t$-可测子空间的正交投影"。

⚠️ 常见陷阱¶

陷阱 2.1（概念误区）：把"代数"当成"$\sigma$-代数" - 错误描述：认为对有限并/交封闭的集族（代数）就足以做测度论，"可数"那个 $\sigma$ 只是技术细节。 - 现象/后果：在代数上定义的"测度"（预测度）无法谈论极限事件 $\limsup A_n$，Borel–Cantelli、单调收敛全部失效；试图证"坏事件有限次发生"时发现该事件根本不在集族里。 - 根本原因：有限并封闭 $\ne$ 可数并封闭。例：$\mathbb{R}$ 上"有限个区间的有限并"构成代数，但 $\bigcup_n[n,n+\tfrac12]$（可数并）不在其中。 - 正确做法：分析必须用 $\sigma$-代数。代数只是构造 $\sigma$-代数的起点（§4 从代数上的预测度出发，经 Carathéodory 扩张到 $\sigma$-代数）。"$\sigma$"二字承载着全部极限分析的能力，绝非可有可无。

陷阱 2.2（思维陷阱）：试图"显式写出"$\sigma(\mathcal{E})$ 的所有元素 - 错误描述：证明某性质对所有 Borel 集成立时，企图枚举 $\mathcal{B}(\mathbb{R})$ 的成员（"开集、闭集、它们的并……"）逐个验证。 - 现象/后果：陷入 $F_\sigma,G_\delta,F_{\sigma\delta},\dots$ 的无穷 Borel 阶层，永远写不完，证明卡死。 - 根本原因：$\sigma(\mathcal{E})$ 通常没有显式描述——它是通过"最小性"间接定义的，其复杂度超出任何有限刻画。 - 正确做法：用 $\pi$-$\lambda$ 定理或单调类定理。把"对所有 Borel 集成立"归约为"对生成元（区间）成立" + "满足性质的集合构成 $\lambda$-系/单调类"。这是测度论证明的标准范式，务必形成肌肉记忆。

陷阱 2.3（概念误区）：认为"$\mathcal{F}_t$-可测"是个抽象空话，与工程无关 - 错误描述：觉得"因果性 = $\mathcal{F}_t$-可测"只是数学家的形式主义，工程上滤波器自然不会用未来数据。 - 现象/后果：在平滑（smoothing）与滤波（filtering）混淆时栽跟头——平滑器 $\mathbb{E}[X_t\mid\mathcal{F}_T]$（$T>t$）用了未来信息，是 $\mathcal{F}_T$-可测而非 $\mathcal{F}_t$-可测；把平滑结果当滤波结果会造成"未卜先知"的虚假性能。 - 根本原因：滤波、预测、平滑的区别精确地体现在"条件 $\sigma$-代数是 $\mathcal{F}_t$、$\mathcal{F}_{t-1}$ 还是 $\mathcal{F}_T$"。 - 正确做法：始终明确你的估计量关于哪个 $\sigma$-代数可测。在线滤波必须 $\mathcal{F}_t$-可测；离线平滑可用 $\mathcal{F}_T$。这个区分在 SLAM 后端（批量平滑）vs 前端（在线滤波）里是实打实的工程分界。

练习¶

（证明题，草稿纸完成） 证明：任意多个 $\sigma$-代数的交仍是 $\sigma$-代数；并举例说明两个 $\sigma$-代数的**并**一般**不是** $\sigma$-代数（提示：在 $X=\{1,2,3\}$ 上找两个 $\sigma$-代数，它们的并对某个并运算不封闭）。这解释了为什么 $\sigma(\mathcal{E})$ 用"交"而非"并"来定义。
（推导题） 证明 $\mathcal{B}(\mathbb{R})$ 由以下任意一族生成，从而它们生成同一个 $\sigma$-代数：(a) 全体开区间 $(a,b)$；(b) 全体半开区间 $(a,b]$；(c) 全体形如 $(-\infty,a]$ 的射线。提示：说明每族成员都能用另一族的成员经可数次运算得到。这个练习让你体会"生成元的选择不唯一，但生成的 $\sigma$-代数唯一"。
（开放思考题） 设 $X=\mathbb{R}$，$f:\mathbb{R}\to\mathbb{R}$ 是一个给定函数。证明 $\mathcal{F}:=\{f^{-1}(B):B\in\mathcal{B}(\mathbb{R})\}$ 是 $\mathbb{R}$ 上的一个 $\sigma$-代数（称为 $f$ 生成的 $\sigma$-代数 $\sigma(f)$）。直观解释：$\sigma(f)$ 恰好是"通过观测 $f$ 的值能区分的事件"。把这个结论与信息 $\sigma$-代数 $\mathcal{F}_t=\sigma(z_{1:t},u_{1:t})$ 联系起来——为什么"观测越多，$\sigma$-代数越大"？

§3 测度的定义与基本性质 ⭐⭐¶

动机：把"长度/概率/质量"公理化¶

§2 圈定了"好集合"（$\sigma$-代数）。现在要在这些集合上真正赋一个"大小"——长度、面积、概率、质量。这个"大小"该满足什么规则？我们不想凭空规定一堆性质，而想找到**最少**的几条公理，让其余一切性质自动推出。

直觉上，"大小"至少要满足：空集大小为 $0$；不重叠的部分加起来等于整体（可加性）。Lebesgue 的关键决断是——可加性必须做到**可数**那么强，而不止有限。这一条之差，决定了能否谈论极限。

历史：Borel 的可数可加性与 Kolmogorov 的概率公理¶

Borel 1898 年首次要求测度对可数个不交集可加。1933 年 Kolmogorov 在《概率论基础》里做了一件影响深远的事：他指出**概率不过是总质量为 $1$ 的测度**，从而把整个概率论还原为测度论的一个分支。这个还原是现代概率论的奠基——从此"事件""随机变量""期望""独立""条件期望"全都有了测度论的精确定义，概率论摆脱了"频率""等可能"这类模糊基础。本章的每一条测度性质，下一句话就能翻译成一条概率性质。

理论：测度的定义¶

定义 3.1（测度）：设 $(X,\mathcal{M})$ 是可测空间。函数 $\mu:\mathcal{M}\to[0,\infty]$ 称为 $(X,\mathcal{M})$ 上的一个**测度**，若： 1. $\mu(\varnothing)=0$； 2. 可数可加性（$\sigma$-可加）：对**两两不交**的可测集列 $\{A_j\}_{j\ge1}\subseteq\mathcal{M}$， $$\mu\Big(\bigcup_{j=1}^\infty A_j\Big)=\sum_{j=1}^\infty\mu(A_j).$$ 此时 $(X,\mathcal{M},\mu)$ 称为**测度空间**。

注意值域是 $[0,\infty]$，允许取 $+\infty$（如 $\mathbb{R}$ 整条直线的 Lebesgue 测度）。几个重要的子类：

类型	条件	例子
有限测度	$\mu(X)<\infty$	任何概率测度；区间 $[0,1]$ 上的 Lebesgue 测度
概率测度	$\mu(X)=1$	所有 $P,\mathbb{P}$
$\sigma$-有限测度	$X=\bigcup_n X_n$，$\mu(X_n)<\infty$	$\mathbb{R}^n$ 上的 Lebesgue 测度（$\mathbb{R}^n=\bigcup_n[-n,n]^n$）
计数测度	$\mu(A)=\#A$（元素个数）	离散求和的测度化

$\sigma$-有限性是后续许多大定理（Fubini §10、Radon–Nikodym §12）的关键前提，务必留意。它的直觉是：空间虽可能无限大，但能切成可数个有限块。

本质洞察：可数可加性是测度论与概率论一切"极限威力"的唯一来源。它看似只比有限可加性多一个"可数"，但正是这一步让"由下连续性"$A_n\uparrow A\Rightarrow\mu(A_n)\uparrow\mu(A)$ 成立——也就是说，测度与递增极限可交换。所有"观测越多、估计越稳""样本越多、经验分布越接近真分布"的极限陈述，根子都在可数可加性。放弃它（只保留有限可加），就回到了无法做极限分析的"代数 + 预测度"世界。

理论：从公理推出的基本性质¶

下面五条性质**全部**从两条公理推出，不需要任何额外假设。这展示了公理化的威力：少数公理 + 严格推理 = 丰富结论。

命题 3.2：设 $(X,\mathcal{M},\mu)$ 为测度空间，$A,B,A_n\in\mathcal{M}$。则： 1. 有限可加性：$A\cap B=\varnothing\Rightarrow\mu(A\cup B)=\mu(A)+\mu(B)$； 2. 单调性：$A\subseteq B\Rightarrow\mu(A)\le\mu(B)$； 3. 可数次可加性：$\mu\big(\bigcup_n A_n\big)\le\sum_n\mu(A_n)$（不要求不交）； 4. 由下连续性：$A_n\uparrow A$（即 $A_n\subseteq A_{n+1}$，$\bigcup A_n=A$）$\Rightarrow\mu(A_n)\uparrow\mu(A)$； 5. 由上连续性：$A_n\downarrow A$ 且 $\mu(A_1)<\infty\Rightarrow\mu(A_n)\downarrow\mu(A)$。

逐条证明（每步说清用了什么）：

(1) 有限可加性：在可数可加性中取 $A_1=A,A_2=B,A_3=A_4=\cdots=\varnothing$。因 $\mu(\varnothing)=0$，可数和退化为 $\mu(A)+\mu(B)$。

(2) 单调性：$A\subseteq B$ 时 $B=A\cup(B\setminus A)$ 是不交并，由 (1) 得 $\mu(B)=\mu(A)+\mu(B\setminus A)\ge\mu(A)$（因 $\mu(B\setminus A)\ge 0$）。

阶段小结：到这里我们用"不交并 + 非负"两步就从可数可加性挤出了单调性。下面三条（次可加、上下连续）是真正用到"可数"威力的地方。

(3) 可数次可加性：把可能重叠的 $\{A_n\}$ "不交化"——令 $B_1=A_1$，$B_n=A_n\setminus\bigcup_{j<n}A_j$。则 $\{B_n\}$ 两两不交，$\bigcup_n B_n=\bigcup_n A_n$，且 $B_n\subseteq A_n$。由可数可加性与单调性： $$ \mu\Big(\bigcup_n A_n\Big)=\mu\Big(\bigcup_n B_n\Big)=\sum_n\mu(B_n)\le\sum_n\mu(A_n). $$ 这个"不交化"技巧（把任意并改写成不交并）在测度论里无处不在，务必掌握。

(4) 由下连续性：设 $A_n\uparrow A$。令 $B_1=A_1$，$B_n=A_n\setminus A_{n-1}$（$n\ge2$）。则 $\{B_n\}$ 不交，$A_n=\bigcup_{j\le n}B_j$，$A=\bigcup_j B_j$。由可数可加性： $$ \mu(A)=\sum_{j=1}^\infty\mu(B_j)=\lim_{n\to\infty}\sum_{j=1}^n\mu(B_j)=\lim_{n\to\infty}\mu(A_n). $$ 中间一步用了"无穷级数 = 部分和的极限"，末步用了有限可加性。这条性质是测度论里"连续性"的核心——它让"取极限"和"算测度"可交换。

(5) 由上连续性：设 $A_n\downarrow A$ 且 $\mu(A_1)<\infty$。令 $C_n=A_1\setminus A_n$，则 $C_n\uparrow A_1\setminus A$。由 (4)：$\mu(C_n)\uparrow\mu(A_1\setminus A)$，即 $\mu(A_1)-\mu(A_n)\uparrow\mu(A_1)-\mu(A)$。因 $\mu(A_1)<\infty$ 可两边消去，得 $\mu(A_n)\downarrow\mu(A)$。

为什么 (5) 必须要求 $\mu(A_1)<\infty$？（反事实推理） 如果去掉这个有限性条件，结论就崩。取 $A_n=[n,\infty)\subseteq\mathbb{R}$，则 $A_n\downarrow\varnothing$，理应 $\mu(A_n)\to\mu(\varnothing)=0$。但每个 $\mu([n,\infty))=\infty$，极限是 $\infty\ne 0$！毛病出在上一步"两边消去 $\mu(A_1)=\infty$"是非法的（$\infty-\infty$ 无意义）。

本质洞察：由下连续（递增）永远成立，由上连续（递减）需要有限性。这个不对称很重要：质量可以无限制地"长出来"，但"缩回去"时若涉及无穷大就会出问题。在概率测度里 $\mu(X)=1<\infty$，所以上下连续都成立——这是概率论里能自由取递减极限的原因。在 Lebesgue 测度等无限测度里，必须时刻警惕这个有限性条件。

理论：Borel–Cantelli 引理——"坏事件几乎必然有限次"¶

这是测度论里第一个直接服务于机器人算法收敛性的结论。

引理 3.3（Borel–Cantelli，第一部分）：设 $\{A_n\}\subseteq\mathcal{M}$。若 $\sum_{n=1}^\infty\mu(A_n)<\infty$，则 $$\mu\Big(\limsup_n A_n\Big)=\mu\Big(\bigcap_{k=1}^\infty\bigcup_{n\ge k}A_n\Big)=0.$$ 这里 $\limsup_n A_n=\{x:x\in A_n\text{ 对无穷多个 }n\}$ 是"$A_n$ 发生无穷多次"的事件。

证明（骨架展开为完整论证）：记 $B_k=\bigcup_{n\ge k}A_n$。则 $\limsup_n A_n=\bigcap_k B_k$，且 $B_k\downarrow\bigcap_k B_k$（递减，因为 $k$ 增大时并的范围缩小）。由可数次可加性， $$ \mu(B_k)=\mu\Big(\bigcup_{n\ge k}A_n\Big)\le\sum_{n\ge k}\mu(A_n). $$ 由假设 $\sum_n\mu(A_n)<\infty$，其尾部 $\sum_{n\ge k}\mu(A_n)\to 0$（收敛级数的尾和趋零）。故 $\mu(B_k)\to 0$。又因 $\mu(\limsup A_n)\le\mu(B_k)$ 对每个 $k$ 成立（单调性），令 $k\to\infty$ 得 $\mu(\limsup A_n)=0$。$\quad\blacksquare$

注意这里**没用到**由上连续性（避开了它的有限性条件）——直接用单调性 + 尾和趋零，更干净。

理论：测度的完备化¶

Borel 测度有一个小瑕疵：零测集的子集可能不可测。这在分析中常带来不便（"几乎处处"的论证希望零测集的任何子集都能被忽略）。完备化修补这个瑕疵。

定义 3.4（完备测度）：测度空间 $(X,\mathcal{M},\mu)$ 称为**完备的**，若每个零测集的子集都可测：$N\in\mathcal{M},\mu(N)=0,E\subseteq N\Rightarrow E\in\mathcal{M}$（从而 $\mu(E)=0$）。

命题 3.5（完备化）：给定 $(X,\mathcal{M},\mu)$，令 $$\bar{\mathcal{M}}=\{A\cup E:A\in\mathcal{M},\ E\subseteq N\text{ 某个 }N\in\mathcal{M}\text{ 满足 }\mu(N)=0\},\quad \bar\mu(A\cup E)=\mu(A).$$ 则 $(X,\bar{\mathcal{M}},\bar\mu)$ 是包含 $(X,\mathcal{M},\mu)$ 的最小完备测度空间，$\bar\mu$ 良定义（不依赖 $A\cup E$ 的分解方式）。

Lebesgue 测度就是 Borel 测度的完备化——这是 Lebesgue 可测集比 Borel 集多出来的那一部分的来源（§5 详述）。

机器人应用：概率公理就是测度公理的特化¶

把命题 3.2 逐条翻译成概率语言，你会发现概率论的"公理"其实一条都不新——全是测度公理的特化。

测度性质	概率版本	机器人含义
$\mu(\varnothing)=0$	$P(\varnothing)=0$	不可能事件概率为 $0$
有限可加（不交）	$P(A\cup B)=P(A)+P(B)$	互斥事件概率相加
单调性	$A\subseteq B\Rightarrow P(A)\le P(B)$	更宽泛的事件更可能
由下连续	$A_n\uparrow A\Rightarrow P(A_n)\uparrow P(A)$	观测越多，事件概率估计越稳定收敛
可数次可加	$P(\bigcup A_n)\le\sum P(A_n)$	union bound：失败概率被各分量之和控制
Borel–Cantelli	$\sum P(A_n)<\infty\Rightarrow P(A_n\text{ i.o.})=0$	坏事件几乎必然只发生有限次

最后两条对机器人学习尤其关键。Union bound（可数次可加）是 PAC 学习、采样运动规划失败概率分析的主力工具——把"任一约束被违反"的概率上界为各约束违反概率之和。Borel–Cantelli 是随机逼近、SGD"几乎必然收敛"证明的命门：若能证明"第 $n$ 步偏差超过 $\varepsilon$"的概率之和有限（$\sum_n P(|\theta_n-\theta^*|>\varepsilon)<\infty$），则几乎必然只有有限步偏差大，从而轨迹收敛。这正是 §14 会展开的 a.s. 收敛分析的起点。

本质洞察：概率论里的"几乎必然"（almost surely, a.s.）和测度论里的"几乎处处"（almost everywhere, a.e.）是**同一个概念**——除一个零（概率/测度）集外成立。机器人部署最关心 a.s. 收敛而非仅依概率收敛，因为单次部署即决定系统成败（§14 详述）。而 a.s. 收敛的标准证明路径就是 Borel–Cantelli——这条看似纯数学的引理，是评估"我的算法在真实硬件上是否可靠收敛"的直接工具。

⚠️ 常见陷阱¶

陷阱 3.1（概念误区）：把"由上连续性"无条件使用，忘记有限性前提 - 错误描述：看到 $A_n\downarrow A$ 就直接写 $\mu(A_n)\to\mu(A)$，不检查 $\mu(A_1)<\infty$。 - 现象/后果：在无限测度（Lebesgue 测度、$\sigma$-有限但局部无限的测度）上得出荒谬结论，如算出 $\mu(\varnothing)=\infty$。 - 根本原因：由上连续性的证明要"消去 $\mu(A_1)$"，若 $\mu(A_1)=\infty$ 则 $\infty-\infty$ 无意义。反例 $A_n=[n,\infty)$：$A_n\downarrow\varnothing$ 但 $\mu(A_n)\equiv\infty$。 - 正确做法：用由上连续性前先确认有某个 $A_{n_0}$ 满足 $\mu(A_{n_0})<\infty$。在概率测度里此条自动满足（$P(X)=1$），但在 Lebesgue 测度里必须显式验证。

陷阱 3.2（思维陷阱）：以为"可数可加"和"有限可加"在实践中没区别 - 错误描述：觉得现实中只处理有限多个事件，可数与有限可加性的差异是纯理论的。 - 现象/后果：在涉及极限的场景（经验分布收敛、无穷时间轴随机过程、级数形式的概率）里，用有限可加性会得到错误或无定义的结果。存在"有限可加但非可数可加"的病态测度（如基于自由超滤子的测度），它们违反直觉。 - 根本原因：可数可加性恰好是连接"测度"与"极限"的桥梁（命题 3.2 的 (4) 由下连续性）。没有它，$\lim$ 和 $\mu$ 不能交换。 - 正确做法：始终用可数可加性。它是 Kolmogorov 公理化的核心选择，也是测度论一切收敛定理的地基。

陷阱 3.3（概念误区）：混淆"$\sigma$-有限"与"有限" - 错误描述：把 $\sigma$-有限测度当成有限测度使用，套用只对有限测度成立的结论。 - 现象/后果：Lebesgue 测度是 $\sigma$-有限但**非**有限（$\lambda(\mathbb{R})=\infty$）；若误当有限测度，会错误套用"全空间测度有限"才成立的论证。 - 根本原因：$\sigma$-有限只保证"能切成可数个有限块"，整体可以是无穷。 - 正确做法：分清三档——有限 $\subsetneq$ $\sigma$-有限 $\subsetneq$ 一般测度。Fubini（§10）、Radon–Nikodym（§12）要求 $\sigma$-有限（不要求有限），这恰好覆盖 Lebesgue 测度这个最重要的非有限例子。

练习¶

（证明题，草稿纸完成） 证明命题 3.2 中的可数次可加性 (3) 时，"不交化" $B_n=A_n\setminus\bigcup_{j<n}A_j$ 的构造保证了 $\{B_n\}$ 两两不交且 $\bigcup B_n=\bigcup A_n$。请写出 $\bigcup_{j\le n}B_j=\bigcup_{j\le n}A_j$ 的归纳证明。这个技巧贯穿全章，必须烂熟。
（开放思考题） Borel–Cantelli 引理有一个"逆命题"（第二部分）：若 $\{A_n\}$ **独立**且 $\sum_n\mu(A_n)=\infty$，则 $\mu(\limsup A_n)=1$（坏事件几乎必然发生无穷多次）。请思考：为什么第二部分需要"独立性"假设而第一部分不需要？给出一个 $\sum\mu(A_n)=\infty$ 但 $\mu(\limsup A_n)=0$ 的反例（提示：取 $A_n$ 高度相关，如 $A_n=[0,1/n]$）。
（跨节综合题） 结合 §2 的信息 $\sigma$-代数与本节的 Borel–Cantelli：设机器人每步定位误差超过阈值的事件为 $A_n$，且通过某收敛性分析得到 $P(A_n)\le C/n^2$。用 Borel–Cantelli 证明"定位误差超阈值"几乎必然只发生有限次，从而轨迹的尾部几乎必然全部在阈值内。再讨论：若只有 $P(A_n)\le C/n$（调和级数发散），这个结论还能下吗？这说明收敛速率的"快慢"如何决定 a.s. 结论的成立。

§4 外测度与 Carathéodory 扩张定理 ⭐⭐⭐¶

动机：测度从哪里来？¶

到此我们知道了测度是什么（§3 的公理），但还不知道**怎么造一个**。具体地：我们只知道"区间 $(a,b]$ 的长度是 $b-a$"这一个朴素事实，怎么从它出发，造出一个对**所有** Borel 集（乃至更多集合）都定义、且满足可数可加性的 Lebesgue 测度？

直接在每个 Borel 集上指定一个值是不可行的——Borel 集太复杂（§2 的阶层），无法逐个赋值并验证可数可加。需要一台**自动机**：输入"在简单集合（区间）上的长度"，输出"在一大类集合上的完备测度"。这台自动机就是 Carathéodory 1914 年发明的外测度构造，它是测度论里**唯一**的通用存在性引擎——Lebesgue 测度、乘积测度、Hausdorff 测度、Haar 测度（§16）全靠它。

反面：天真的"内外逼近"为什么不够¶

一个自然的想法（Lebesgue 原始做法）是：对 $E\subseteq[0,1]$，定义外测度 $\mu^*(E)=\inf\{$覆盖 $E$ 的区间列总长$\}$、内测度 $\mu_*(E)=1-\mu^*([0,1]\setminus E)$，当 $\mu^*=\mu_*$ 时称 $E$ 可测。这在有界情形可行，但有两个麻烦：(i) 内测度依赖全空间有限（无界时定义不清）；(ii) "可测性"的验证繁琐。

Carathéodory 的天才在于：只用外测度，不用内测度，用一个纯粹的"分裂条件"来定义可测性。这个条件初看古怪，却让整套理论变得极其干净——可测集自动构成 $\sigma$-代数，外测度限制上去自动可数可加且完备。

理论：外测度¶

定义 4.1（外测度）：$X$ 上的**外测度**是函数 $\mu^*:2^X\to[0,\infty]$，满足： 1. $\mu^*(\varnothing)=0$； 2. 单调性：$A\subseteq B\Rightarrow\mu^*(A)\le\mu^*(B)$； 3. 可数次可加性：$\mu^*\big(\bigcup_n A_n\big)\le\sum_n\mu^*(A_n)$。

注意外测度对**全体子集**$2^X$ 都有定义（不像测度只在 $\sigma$-代数上），代价是它一般**不可加**（只可次可加）。外测度是"粗糙的、人人有份的大小估计"；真正的测度要从中筛选出"行为良好"的集合。

理论：Carathéodory 可测性条件¶

定义 4.2（Carathéodory 可测）：集合 $A\subseteq X$ 称为 $\mu^*$-可测的，若它能把任意"测试集"$E$ 干净地切成两半： $$\mu^*(E)=\mu^*(E\cap A)+\mu^*(E\cap A^c)\qquad\forall E\subseteq X.$$

由次可加性，"$\le$"方向 $\mu^*(E)\le\mu^*(E\cap A)+\mu^*(E\cap A^c)$ 自动成立。所以可测性的实质内容是反方向的"$\ge$"——$A$ 必须把任何集合的外测度**精确**地分配到 $A$ 内外两部分，不产生"边界损耗"。

怎么直觉理解这个条件？ 把外测度想成"用区间覆盖时的最省总长"。$A$ 可测意味着：用 $A$ 当一把"刀"去切任何集合 $E$，切完之后两块的最省覆盖长之和等于原来整块的——这把刀"不毁坏"任何东西。不可测集（如 Vitali 集）则像一把"会把东西揉碎"的刀，切完之后两块的覆盖长之和**严格大于**原来，产生损耗。

本质洞察：Carathéodory 条件的精妙在于它**自指地**用外测度本身来定义可测性，无需借助内测度或全空间有限。这个看似突兀的"对任意测试集都干净分裂"的要求，恰好是让可测集构成 $\sigma$-代数所需的全部——不多不少。数学史上这是"找到正确定义"的典范：一旦定义对了，所有定理的证明都变得自然。

理论：Carathéodory 定理¶

定理 4.3（Carathéodory）：设 $\mu^*$ 是 $X$ 上的外测度，$\mathcal{M}^*$ 是全体 $\mu^*$-可测集。则 $\mathcal{M}^*$ 是一个 $\sigma$-代数，且 $\mu:=\mu^*|_{\mathcal{M}^*}$ 是 $\mathcal{M}^*$ 上的**完备测度**。

完整证明（分四步，每步写清逻辑）：

第一步：$\mathcal{M}^*$ 含 $\varnothing,X$ 且补封闭。 取 $A=X$：$\mu^*(E)=\mu^*(E\cap X)+\mu^*(E\cap\varnothing)=\mu^*(E)+0$，成立，故 $X\in\mathcal{M}^*$。定义 4.2 关于 $A$ 与 $A^c$ 完全对称，故 $A\in\mathcal{M}^*\Rightarrow A^c\in\mathcal{M}^*$。$\varnothing=X^c\in\mathcal{M}^*$。

第二步：$\mathcal{M}^*$ 对有限并封闭（是代数）。 设 $A,B\in\mathcal{M}^*$，要证 $A\cup B\in\mathcal{M}^*$。对任意测试集 $E$，先用 $A$ 分裂，再用 $B$ 分裂 $A^c$ 部分： $$ \mu^(E)=\mu^(E\cap A)+\mu^(E\cap A^c\cap B)+\mu^(E\cap A^c\cap B^c). $$ 注意 $E\cap(A\cup B)=(E\cap A)\cup(E\cap A^c\cap B)$，由次可加性其外测度 $\le\mu^*(E\cap A)+\mu^*(E\cap A^c\cap B)$。又 $A^c\cap B^c=(A\cup B)^c$。代入得 $$ \mu^(E)\ge\mu^(E\cap(A\cup B))+\mu^*(E\cap(A\cup B)^c), $$ 即 $A\cup B$ 满足可测性（反向不等式由次可加性自动成立）。

阶段小结：到这里我们证明了 $\mathcal{M}^*$ 是代数（对有限并、补封闭）。下面两步是把"有限"升级到"可数"——这是 $\sigma$-代数的灵魂，也是证明的技术核心。

第三步：可数并封闭 + 可数可加性。 设 $\{A_j\}\subseteq\mathcal{M}^*$ 两两不交（一般情形可用第二步先不交化）。令 $B_n=\bigcup_{j\le n}A_j$。先用归纳法证明一个关键的"分配公式"：对任意测试集 $E$， $$ \mu^(E\cap B_n)=\sum_{j=1}^n\mu^(E\cap A_j).\tag{$\ast$} $$ 归纳基础 $n=1$ 显然。归纳步：用 $A_n$ 的可测性切分测试集 $E\cap B_n$。由于 $A_j$ 不交，$B_n\cap A_n=A_n$、$B_n\cap A_n^c=B_{n-1}$，故 $$ \mu^(E\cap B_n)=\mu^(E\cap B_n\cap A_n)+\mu^(E\cap B_n\cap A_n^c)=\mu^(E\cap A_n)+\mu^*(E\cap B_{n-1}), $$ 对后项用归纳假设即得 ($\ast$)。

现在证 $A:=\bigcup_j A_j\in\mathcal{M}^*$。因 $B_n$ 可测（第二步）且 $B_n\subseteq A\Rightarrow A^c\subseteq B_n^c$，故 $$ \mu^(E)=\mu^(E\cap B_n)+\mu^(E\cap B_n^c)\ge\sum_{j=1}^n\mu^(E\cap A_j)+\mu^(E\cap A^c). $$ 对 $n\to\infty$（左边与 $n$ 无关）：$\mu^*(E)\ge\sum_{j=1}^\infty\mu^*(E\cap A_j)+\mu^*(E\cap A^c)\ge\mu^*(E\cap A)+\mu^*(E\cap A^c)$，末步用了次可加性 $\sum_j\mu^*(E\cap A_j)\ge\mu^*(\bigcup_j(E\cap A_j))=\mu^*(E\cap A)$。这证明了 $A\in\mathcal{M}^*$。又取 $E=A$ 在上式：$\mu^*(A)\ge\sum_j\mu^*(A_j)\ge\mu^*(A)$，故**等号成立*，即可数可加性 $\mu^*(\bigcup A_j)=\sum_j\mu^*(A_j)$ 得证。

第四步：完备性。 设 $\mu^*(N)=0$，$E\subseteq N$（这里 $E$ 是任意子集，未必可测）。要证 $N\in\mathcal{M}^*$。对任意测试集 $T$，由单调性 $\mu^*(T\cap N)\le\mu^*(N)=0$，故 $$ \mu^(T\cap N)+\mu^(T\cap N^c)=0+\mu^(T\cap N^c)\le\mu^(T), $$ 反向不等式由次可加性成立，故 $N\in\mathcal{M}^*$。因此一切外测度为零的集合都可测——这正是完备性。$\quad\blacksquare$

理论：Hahn–Kolmogorov 扩张定理¶

Carathéodory 定理还差最后一块：怎么从"区间长度"这种**只在代数上定义的预测度**生成外测度？

定义 4.4（预测度）：设 $\mathcal{A}$ 是 $X$ 上的一个**代数**（含 $X$、对补和有限并封闭）。函数 $\mu_0:\mathcal{A}\to[0,\infty]$ 称为**预测度**，若 $\mu_0(\varnothing)=0$ 且对**落在 $\mathcal{A}$ 内**的不交可数并 $\bigcup_n A_n\in\mathcal{A}$ 满足 $\mu_0(\bigcup_n A_n)=\sum_n\mu_0(A_n)$。

定理 4.5（Hahn–Kolmogorov 扩张定理）：代数 $\mathcal{A}$ 上的预测度 $\mu_0$，通过 $$\mu^*(E)=\inf\Big\{\sum_{j=1}^\infty\mu_0(A_j):A_j\in\mathcal{A},\ E\subseteq\bigcup_j A_j\Big\}$$ 诱导一个外测度。Carathéodory 定理给出 $\sigma$-代数 $\mathcal{M}^*\supseteq\sigma(\mathcal{A})$ 与测度 $\mu=\mu^*|_{\mathcal{M}^*}$，且 $\mu|_{\mathcal{A}}=\mu_0$（扩张确实延拓了原预测度）。进一步，若 $\mu_0$ 是 $\sigma$-有限的，则扩张到 $\sigma(\mathcal{A})$ 上唯一。

唯一性的证明正是 §2 的 $\pi$-$\lambda$ 定理的应用：$\mathcal{A}$ 是 $\pi$-系（对交封闭），"两个扩张相等的集合"构成 $\lambda$-系，含 $\mathcal{A}$ 故含 $\sigma(\mathcal{A})$。这就是为什么 $\sigma$-有限性在这里出现——它保证了能用 $\pi$-$\lambda$ 把唯一性从代数推到整个 $\sigma$-代数。

反面：没有 $\sigma$-有限性，唯一性会失效¶

反例 4.6（唯一性失效）：取 $X=\mathbb{Q}\cap[0,1]$，$\mathcal{A}=$ 由形如 $(a,b]\cap X$ 的半开区间生成的代数。定义预测度 $\mu_0(\varnothing)=0$，$\mu_0(\text{任何非空成员})=\infty$。这是一个合法的（非 $\sigma$-有限的）预测度。它可以扩张为**多个不同**的测度——例如计数测度 $\nu_1(A)=\#A$（在无限集上为 $\infty$）与 $\nu_2(A)=2\cdot\#A$ 等，它们在 $\mathcal{A}$ 上都等于 $\mu_0$（非空即 $\infty$）却在含单点的 Borel 集上不同。

本质洞察：$\sigma$-有限性是"扩张唯一"的**精确**门槛。它的作用是：把空间切成可数个有限块后，每块上的测度被预测度唯一钉死，再用可数可加性拼回整体。这解释了为什么本章所有大定理（Carathéodory 唯一性、Fubini、Radon–Nikodym）都把 $\sigma$-有限当标配——它恰好覆盖了 Lebesgue 测度这个最重要的"无限但 $\sigma$-有限"的例子，又排除了上述病态。

机器人应用：一切概率模型存在性的根基¶

Carathéodory 扩张是机器人学里几乎所有概率对象"存在且良定义"的唯一构造机制。

Lebesgue 测度（§5）：从区间长度扩张而来，是连续状态空间一切密度的参照物。
乘积测度 / 联合分布（§10）：SLAM 的联合后验 $p(x_{0:T},m\mid z_{1:T})$ 活在乘积空间 $\prod_t\mathrm{SE}(3)\times\mathcal{M}$ 上，这个空间上的测度由 Carathéodory 在可测矩形代数上扩张得到。
Kolmogorov 扩张定理：构造**无限时间轴**随机过程（机器人轨迹 $\{X_t\}_{t\ge0}$）的测度——它是 Carathéodory 扩张在无限乘积空间上的直接推广。没有它，"机器人轨迹的概率分布"这句话本身都没有数学意义。
马尔可夫转移核：状态转移 $p(x_{t+1}\mid x_t)$ 诱导的链在路径空间 $\prod_t\mathcal{X}$ 上的测度，同样靠扩张定理保证存在。

本质洞察：你写下"机器人轨迹服从某个概率分布"时，背后是一个无限维空间上的测度。这个测度**不是凭空存在的**——它的存在性是 Carathéodory/Kolmogorov 扩张定理的定理性结论。这就像编程时调用一个库函数：你平时不关心它的实现，但它若不存在（无 $\sigma$-有限性、无扩张定理），你的整个概率建模就是空中楼阁。本节就是这个"库函数"的源码。

⚠️ 常见陷阱¶

陷阱 4.1（概念误区）：以为外测度就是测度（忘记它不可加） - 错误描述：把外测度 $\mu^*$ 当成测度直接用可数可加性。 - 现象/后果：对不可测集 $A,B$ 误用 $\mu^*(A\cup B)=\mu^*(A)+\mu^*(B)$，得到错误数值——外测度对不可测集只保证 $\le$（次可加），等号可能不成立。 - 根本原因：外测度对全体子集定义但只可次可加；只有限制到 $\mu^*$-可测集 $\mathcal{M}^*$ 上才升级为可数可加的测度。 - 正确做法：可加性只对可测集用。处理一般子集时，外测度只能给上界估计。Carathéodory 条件正是筛选"可加性成立"的集合的标准。

陷阱 4.2（思维陷阱）：跳过 $\sigma$-有限性直接套用扩张唯一性 - 错误描述：构造测度时默认"在区间上定好了，扩张就唯一"，不检查 $\sigma$-有限。 - 现象/后果：在非 $\sigma$-有限的预测度上（反例 4.6）得到多个扩张却以为唯一，后续推理基于错误的"唯一性"。 - 根本原因：唯一性证明依赖 $\pi$-$\lambda$ 定理，而后者要"切成可数个有限块"才能从生成元推广到 $\sigma$-代数。 - 正确做法：用扩张唯一性前确认 $\sigma$-有限。Lebesgue 测度、概率测度、乘积测度都满足，所以实践中通常没问题——但理论推导里必须显式验证，尤其涉及计数测度这种局部无限的对象时。

陷阱 4.3（概念误区）：认为 $\mathcal{M}^*$ 就等于 $\sigma(\mathcal{A})$ - 错误描述：以为 Carathéodory 造出的可测集 $\sigma$-代数恰好是生成的 Borel $\sigma$-代数 $\sigma(\mathcal{A})$。 - 现象/后果：混淆 Borel 可测与 Lebesgue 可测，在需要完备性的论证里误用 Borel 框架（Borel 不完备）。 - 根本原因：$\mathcal{M}^*\supseteq\sigma(\mathcal{A})$ 但通常**严格更大**——$\mathcal{M}^*$ 是完备的（含零测集的一切子集），而 $\sigma(\mathcal{A})$ 一般不完备。对 Lebesgue 测度，$\mathcal{M}^*=\mathcal{L}\supsetneq\mathcal{B}(\mathbb{R})$（§5）。 - 正确做法：明确区分 $\mathcal{L}$（Lebesgue 可测，完备，Carathéodory 输出）与 $\mathcal{B}$（Borel，$\sigma(\text{开集})$，不完备）。需要"零测集子集可忽略"时用 $\mathcal{L}$；只需 Borel 结构时用 $\mathcal{B}$。

练习¶

（证明题，草稿纸完成） 验证定理 4.5 中由预测度诱导的 $\mu^*(E)=\inf\{\sum_j\mu_0(A_j):E\subseteq\bigcup A_j\}$ 确实是外测度（逐条验证定义 4.1 的三公理）。重点说明可数次可加性的证明用到了"$\varepsilon/2^n$ 技巧"——对每个 $A_n$ 取一个总长 $\le\mu^*(A_n)+\varepsilon/2^n$ 的覆盖。
（开放思考题） Carathéodory 条件 $\mu^*(E)=\mu^*(E\cap A)+\mu^*(E\cap A^c)$ 中，为什么要对**所有**测试集 $E$ 验证，而不只对 $E=X$？给出一个直观解释：只验证 $E=X$（即 $\mu^*(X)=\mu^*(A)+\mu^*(A^c)$）为什么不足以保证可数可加性？（提示：可数可加性的证明第三步用的是 $E\cap B_n$ 这种"局部测试集"。）
（跨节综合题） 结合 §3 完备化与本节 Carathéodory：证明 Carathéodory 输出的测度空间 $(X,\mathcal{M}^*,\mu^*|_{\mathcal{M}^*})$ 已经是完备的（定理 4.3 第四步），因此对它再做 §3 的完备化不会增加任何集合。这说明"Carathéodory 扩张自动完备"——这是它优于"先 Borel 后完备化"两步法的地方之一。

§5 Lebesgue 测度的构造与性质 ⭐⭐⭐¶

动机：给"概率密度"找一个参照物¶

§4 造好了通用引擎，现在用它打造主角——Lebesgue 测度 $\lambda$（也常记 $m$）。为什么非要它不可？因为机器人学里无处不在的"概率密度" $p(x)$，本身**没有独立的意义**，它是一个比值：

\[ p(x)=\frac{dP}{d\lambda}(x)\qquad(\text{Radon–Nikodym 导数，§12}). \]

密度是概率测度 $P$ 相对 Lebesgue 测度 $\lambda$ 的"密度"——分母里那个 $\lambda$ 就是参照物。没有 $\lambda$，"密度"二字无从谈起。Gauss 分布的那个熟悉的 $\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$，分母分子全是相对 $\lambda$ 而言的。所以要严格谈密度、谈似然、谈期望，必须先把 $\lambda$ 造出来并摸清它的脾气。

历史：从 Jordan 容度到 Lebesgue 测度¶

Jordan（1890 年代）用"内外有限覆盖"定义了容度（Jordan content），但它对 $\mathbb{Q}\cap[0,1]$ 这种集合失效（内容度 $0$、外容度 $1$，不可测）。Borel（1898）改用**可数**覆盖给开集赋测度。Lebesgue（1902）把 Borel 的思想 + Carathéodory（1914）的可测性条件结合，得到今天的 Lebesgue 测度——它对 $\mathbb{Q}\cap[0,1]$ 给出测度 $0$，修复了 Jordan 的缺陷，且对一大类集合（远超 Borel）都有定义。

理论：Lebesgue 测度的构造¶

构造完全是 §4 引擎的一次具体调用：

起点（区间长度）：在半开区间 $(a,b]\subseteq\mathbb{R}$ 上定义 $\ell((a,b])=b-a$。
代数上的预测度：有限个不交半开区间的并构成代数 $\mathcal{A}_0$，定义 $m_0(\bigsqcup_i(a_i,b_i])=\sum_i(b_i-a_i)$。可验证 $m_0$ 是预测度（可数可加性需要一点 Heine–Borel 紧性论证）。
诱导外测度（Hahn–Kolmogorov，定理 4.5）： $$ \lambda^*(E)=\inf\Big{\sum_j(b_j-a_j):E\subseteq\bigcup_j(a_j,b_j]\Big}. $$
Carathéodory 筛选（定理 4.3）：得到 Lebesgue 可测集 $\sigma$-代数 $\mathcal{L}\supseteq\mathcal{B}(\mathbb{R})$ 与 Lebesgue 测度 $\lambda=\lambda^*|_{\mathcal{L}}$。$\sigma$-有限（$\mathbb{R}=\bigcup_n(-n,n]$，每块测度 $2n<\infty$）故扩张唯一。

$n$ 维情形 $\lambda_n$ 完全类似，从矩形体积 $\prod_i(b_i-a_i)$ 出发。

理论：Lebesgue 测度的六大性质¶

这些性质是后续一切的工具箱。逐条给出并解释含义。

性质 5.1（正则性）：每个 $E\in\mathcal{L}$ 满足 $$\lambda(E)=\inf\{\lambda(U):U\supseteq E,\ U\text{ 开}\}=\sup\{\lambda(K):K\subseteq E,\ K\text{ 紧}\}.$$ （外正则 + 内正则）

含义：任何可测集都能被开集从外、紧集从内任意精确地逼近。这是 Lusin 定理（§6）、连续函数稠密性（§13）的几何基础——"可测"在测度意义下离"开/闭/紧"只差 $\varepsilon$。

性质 5.2（平移不变与唯一性）：$\lambda(E+x)=\lambda(E)$ 对一切 $x\in\mathbb{R}^n$。且 $\lambda$ 是 $\mathbb{R}^n$ 上唯一满足"Borel 测度 + 平移不变 + $\lambda([0,1]^n)=1$"的测度。

含义：长度/体积不随平移改变——这是欧氏空间的"均匀性"。唯一性是深刻的：它说"平移不变"几乎唯一地确定了 Lebesgue 测度。这正是 §16 Haar 测度唯一性的原型——在一般群上，把"平移不变"换成"群作用不变"，同样得到（至多差常数倍的）唯一不变测度。

性质 5.3（线性变换）：对 $A\in\mathrm{GL}(n,\mathbb{R})$（可逆线性映射），$\lambda(AE)=|\det A|\,\lambda(E)$。

含义：线性变换按 $|\det A|$ 缩放体积——这正是多元积分换元公式里 Jacobian 行列式的来源。这个公式在李群上推广为 Haar 测度的**模函数**（modular function，§16）：非幺模群上左右 Haar 测度差一个 $\Delta(g)$ 因子。

性质 5.4（Vitali 不可测集，需选择公理）：存在 $V\subseteq[0,1]$ 使 $V\notin\mathcal{L}$。

构造与矛盾：在 $[0,1]$ 上定义等价关系 $x\sim y\iff x-y\in\mathbb{Q}$。由选择公理，从每个等价类选一个代表，构成集合 $V$。考虑平移族 $\{V+q:q\in\mathbb{Q}\cap[-1,1]\}$：它们两两不交（不同代表差非有理），且 $[0,1]\subseteq\bigcup_q(V+q)\subseteq[-1,2]$。若 $V$ 可测，由平移不变 $\lambda(V+q)=\lambda(V)=:c$，可数可加给出 $$ 1\le\sum_{q}\lambda(V+q)=\sum_q c\le 3. $$ 但 $\sum_q c$（可数个相同的 $c$ 相加）只能是 $0$（若 $c=0$）或 $\infty$（若 $c>0$），都与 $[1,3]$ 矛盾。故 $V$ 不可测。$\quad\blacksquare$

本质洞察：Vitali 集是 §2 那句"不能给所有子集量长度"的兑现。它告诉我们：不可测集**真实存在**（在选择公理下），$\sigma$-代数的"圈定好集合"不是吹毛求疵而是必需。它也解释了为什么概率论必须从 $\sigma$-代数 $\mathcal{F}$ 出发——不是所有"事件"都能赋概率，只有 $\mathcal{F}$ 中的才行。机器人采样运动规划里"用均匀分布采样"隐含了"采样空间是可测的"，Vitali 集提醒我们这个前提并非自动。

性质 5.5（Cantor 集与 Cantor 函数）：Cantor 三分集 $C\subseteq[0,1]$ 是不可数（基数 $\mathfrak{c}$）的紧完集，但 $\lambda(C)=0$（每步去掉 $1/3$，剩余 $(2/3)^n\to0$）。Cantor–Lebesgue 函数 $c:[0,1]\to[0,1]$ 连续、单调递增、$c'=0$ 几乎处处，却 $c(1)-c(0)=1$。

含义：这是 §1 反例 2 的精确版，也是 §15 微积分基本定理失效的核心反例。"连续 + 几乎处处导数为零"竟能"爬升" $1$——全部爬升发生在不可数零测集 $C$ 上。

性质 5.6（Borel $\subsetneq$ Lebesgue）：$|\mathcal{B}(\mathbb{R})|=\mathfrak{c}$（连续统），而 $|\mathcal{L}|=2^{\mathfrak{c}}$。

为什么？ Cantor 集 $C$ 测度为零，由完备性它的**每个**子集都 Lebesgue 可测，于是 $|\mathcal{L}|\ge|2^C|=2^{\mathfrak{c}}$。而 Borel 集只有 $\mathfrak{c}$ 个（可由超限归纳数清）。所以存在 Lebesgue 可测但非 Borel 的集合。含义：Lebesgue 比 Borel 严格大，多出来的全是"零测集的子集"——这正是完备化（§3）的产物。

机器人应用：密度的本体、退化 Gauss 的危机¶

把 Lebesgue 测度接到机器人概率上，最直接的是**概率密度的数学本体**。

本质洞察：你在本科学到的"概率密度函数 $p(x)$"，其严格定义是 R–N 导数 $p=\dfrac{dP}{d\lambda}$——概率测度 $P$ 相对 Lebesgue 测度 $\lambda$ 的导数。这意味着密度**依赖于参照测度的选择**。在 $\mathbb{R}^n$ 上参照 $\lambda$，得到熟悉的密度；在 $\mathrm{SO}(3)$ 上没有 $\lambda$，必须参照 Haar 测度（§16），密度形式完全不同。"密度"不是分布的内禀属性，而是"分布相对某把尺子的读数"。换尺子，读数变。

具体地，Gauss 分布 $\mathcal{N}(\mu,\Sigma)$（$\Sigma\succ 0$ 正定）相对 $\lambda$ 绝对连续，其密度即熟知的

\[ p(x)=(2\pi)^{-n/2}(\det\Sigma)^{-1/2}\exp\Big(-\tfrac12(x-\mu)^\top\Sigma^{-1}(x-\mu)\Big). \]

退化 Gauss 的危机（反事实推理）：一旦协方差 $\Sigma$ 奇异（$\det\Sigma=0$），上式的 $\Sigma^{-1}$ 和 $(\det\Sigma)^{-1/2}$ 都炸了——密度不再存在。这在机器人里非常常见：

位姿经过**等式约束**（如机器人沿轨道运动，某些自由度被锁死），后验分布坍缩到低维子流形，在 $\mathbb{R}^n$ 中测度为零；
完美观测（无噪声）使某方向的不确定性归零；
退化的运动（如平面机器人的 $z$ 方向）。

此时分布相对 $\lambda$ 不绝对连续（它把质量放在了 $\lambda$-零测的子空间上），R–N 导数不存在，**必须回到测度层面**用 $P$ 本身（而非密度 $p$）来处理。EKF/UKF 里协方差矩阵接近奇异时的数值崩溃，根子就在这里——它们隐式假设了密度存在。

本质洞察：Lebesgue 测度的"平移不变 + 唯一性"（性质 5.2）是欧氏空间概率论得以建立的隐形支柱。我们说"均匀分布"、说"无信息先验"，默认的参照就是平移不变的 $\lambda$。一旦离开欧氏空间（到 $\mathrm{SO}(3)$、到约束流形），这个支柱消失，"均匀""无信息"必须重新定义（用 Haar 测度或黎曼体积形式）。这就是为什么李群上的滤波（§16）远比欧氏空间复杂——连"均匀"这个最朴素的词都要重新发明。

⚠️ 常见陷阱¶

陷阱 5.1（概念误区）：把"密度 $p(x)$"当成分布的内禀属性 - 错误描述：认为每个概率分布都"有一个密度"，密度是分布固有的东西。 - 现象/后果：在退化分布（奇异 $\Sigma$）、流形分布（$\mathrm{SO}(3)$）、离散-连续混合分布上强行写密度，导致除零、积分发散或概念混乱。 - 根本原因：密度 $=dP/d\lambda$ 仅在 $P\ll\lambda$（绝对连续）时存在，且依赖参照测度 $\lambda$ 的选择。退化分布 $P\not\ll\lambda$，密度不存在。 - 正确做法：把测度 $P$ 当本体，密度只是"$P$ 相对某参照测度的 R–N 导数"。处理退化/流形/混合分布时回到测度层面，或换合适的参照测度（Haar、计数、黎曼体积）。

陷阱 5.2（思维陷阱）：以为"测度为零 = 不可能发生" - 错误描述：把 $\lambda(A)=0$（或 $P(A)=0$）等同于"$A$ 永不发生"。 - 现象/后果：忽略零测集上的事件，但在连续分布里**每个单点**测度都为零（$P(X=x)=0$），按此逻辑"任何具体取值都不可能"，荒谬。 - 根本原因：连续分布下单点概率为零是常态；"几乎必然不发生"（概率零）与"逻辑上不可能"（空集）是不同的。 - 正确做法：区分"概率为零"（a.s. 不发生，但可能发生，如连续随机变量取某个具体值）与"空集"（逻辑不可能）。这在 §14 讨论 a.s. 收敛时是关键区分。

陷阱 5.3（概念误区）：混淆 Borel 可测与 Lebesgue 可测 - 错误描述：以为 Borel 集和 Lebesgue 可测集是一回事。 - 现象/后果：在需要"零测集子集可忽略"的论证里用 Borel 框架，发现 Borel 不完备（零测 Borel 集的子集未必 Borel），证明卡住。 - 根本原因：$\mathcal{B}\subsetneq\mathcal{L}$，$|\mathcal{B}|=\mathfrak{c}<2^{\mathfrak{c}}=|\mathcal{L}|$；Lebesgue 是 Borel 的完备化。 - 正确做法：需完备性时用 $\mathcal{L}$；分析连续函数的 Borel 结构时用 $\mathcal{B}$。概率论里通常用 Borel $\sigma$-代数 $\mathcal{B}(\mathbb{R}^n)$ 起步，必要时完备化。

练习¶

（推导题，草稿纸完成） 计算 Cantor 三分集 $C$ 的 Lebesgue 测度：第 $n$ 步去掉 $2^{n-1}$ 个长度 $3^{-n}$ 的开区间，写出去掉的总长 $\sum_{n=1}^\infty 2^{n-1}3^{-n}$ 并求和，验证 $\lambda(C)=1-1=0$。再用三进制展开证明 $C$ 不可数（与 $\{0,1\}^{\mathbb{N}}$ 一一对应）。这个反差（不可数却零测）请用一句话总结其对"测度 vs 基数"的启示。
（开放思考题） 性质 5.4 的 Vitali 构造用了选择公理。已知"所有集合都 Lebesgue 可测"与 ZF + 依赖选择公理（DC）相容（Solovay 模型）。请讨论：这对机器人算法有实际影响吗？为什么工程上我们从不真正"遇到"不可测集？（提示：所有可显式构造、可计算、可采样的集合都是 Borel 的；不可测集只能借助选择公理"存在性地"得到。）
（跨节综合题） 结合 §1 反例 2、§5 性质 5.5 与即将学的 §15：Cantor 函数 $c$ 连续、单调、$c'=0$ a.e. 但 $c(1)-c(0)=1$。请预判：微积分基本定理 $\int_a^b f'=f(b)-f(a)$ 对 $c$ 失效，缺的是什么条件？（提前思考 §15 的"绝对连续"。）并解释为什么"分段常数控制 + 分形轨迹"的机器人路径需要警惕这类反例——即使每段导数为零，总位移也可能非零。

§6 可测函数 ⭐⭐¶

动机：哪些函数能积分？¶

§5 造好了 Lebesgue 测度（能量集合）。§1 的"水平切片"积分要对函数 $f$ 收集每一层 $\{y_k\le f<y_{k+1}\}$ 的测度。但这要求**每一层都是可测集**——否则连"层的测度"都谈不上，更别说求和。能保证这一点的函数，叫**可测函数**。它是 Lebesgue 积分的合法输入，也是概率论里"随机变量"的真身。

反面：不可测函数会让积分崩溃¶

如果 $f$ 不可测，存在某个 $a$ 使 $\{f>a\}$ 是不可测集（如 Vitali 集），那么"$f$ 大于 $a$ 的那部分占多大"这个问题就没有答案，水平切片积分无法进行。幸运的是，下面会看到：可测函数的类极其宽阔（连续、分段连续、阶跃、乃至它们的逐点极限全都可测），不可测函数要靠选择公理才能"造"出来——工程中遇不到。

历史与直觉¶

可测函数的定义模仿连续函数（"开集的原像是开集"）：把"开集"换成"可测集"。这个类比的深刻之处在于——连续性要求原像**恰好**是开集（太强），可测性只要求原像**落在 $\sigma$-代数里**（弱得多），所以可测函数远比连续函数多，却保留了"积分良定义"所需的一切。

理论：可测函数的定义¶

定义 6.1（可测函数）：设 $(X,\mathcal{M})$、$(Y,\mathcal{N})$ 是可测空间。映射 $f:X\to Y$ 称为 $(\mathcal{M},\mathcal{N})$-可测，若 $$f^{-1}(B)\in\mathcal{M}\quad\forall B\in\mathcal{N}.$$ 当 $Y=\mathbb{R}$（取 Borel $\sigma$-代数 $\mathcal{B}(\mathbb{R})$）时，等价的实用判据是： $$\{f>a\}=f^{-1}((a,\infty))\in\mathcal{M}\quad\forall a\in\mathbb{R}.$$

为什么"$\{f>a\}$ 可测"就够了？ 因为形如 $(a,\infty)$ 的射线生成整个 $\mathcal{B}(\mathbb{R})$（§2 练习 2）。原像运算 $f^{-1}$ 与并、交、补可交换（$f^{-1}(\bigcup B_i)=\bigcup f^{-1}(B_i)$ 等），所以只要射线的原像都可测，由 $\sigma$-代数封闭性，一切 Borel 集的原像都可测。这把"验证无穷多个 Borel 集"归约为"验证一族生成元"——又一次 $\pi$-$\lambda$ 式的思想。

理论：可测函数的封闭性（极其丰富）¶

可测函数对几乎所有常见运算封闭，这是它好用的根本原因。

命题 6.2：设 $f,g:X\to\mathbb{R}$ 可测，$\{f_n\}$ 可测函数列。则下列均可测： 1. $f+g$、$f-g$、$fg$、$f/g$（$g\ne0$ 处）、$cf$； 2. $\max(f,g)$、$\min(f,g)$、$|f|$、$f^+=\max(f,0)$、$f^-=\max(-f,0)$； 3. $\sup_n f_n$、$\inf_n f_n$、$\limsup_n f_n$、$\liminf_n f_n$； 4. 逐点极限 $\lim_n f_n$（在其存在处）； 5. 连续函数 $\varphi$ 与可测函数 $f$ 的复合 $\varphi\circ f$。

关键证明（第 3 条，极限运算可测）：$\sup_n f_n$ 可测的证明是模板—— $$ {\sup_n f_n>a}=\bigcup_n{f_n>a}. $$ 右边是可数个可测集的并，故可测。直觉：上确界超过 $a$，当且仅当**某个** $f_n$ 超过 $a$。类似地 $\{\inf_n f_n\ge a\}=\bigcap_n\{f_n\ge a\}$。由 $\limsup_n f_n=\inf_k\sup_{n\ge k}f_n$，逐次套用得 $\limsup$、$\liminf$ 可测；二者相等处即逐点极限，故第 4 条成立。

本质洞察：第 3、4 条是可测函数**真正超越连续函数**的地方。连续函数的逐点极限**不一定连续**（如 $x^n\to$ 阶跃），但可测函数的逐点极限**一定可测**。换言之，可测函数类对"取极限"封闭——这正是 §1 抱怨 Riemann 可积函数类不封闭的解药。蒙特卡洛估计量 $\hat f_N$、滤波迭代 $\hat x_t$ 都是极限对象，它们的可测性（从而"能谈期望"）由这条封闭性免费保证。

理论：简单函数逼近定理——积分的脚手架¶

Lebesgue 积分将分三阶段定义（§7），最底层是"简单函数"（取有限个值的可测函数）。下面的定理保证任何非负可测函数都能被简单函数从下逼近，这是整个积分理论的脚手架。

定义 6.3（简单函数）：形如 $\varphi=\sum_{i=1}^n c_i\mathbf{1}_{A_i}$（$c_i\in\mathbb{R}$，$A_i\in\mathcal{M}$）的可测函数，即只取有限个值。

定理 6.4（简单函数逼近）：对任意非负可测 $f:X\to[0,\infty]$，存在简单函数列 $0\le\varphi_1\le\varphi_2\le\cdots$ 使 $\varphi_n\nearrow f$ 逐点收敛。

构造（显式给出，这是要记住的）：把值域 $[0,\infty]$ 在 $[0,n)$ 部分按 $2^{-n}$ 等分，超过 $n$ 的截断到 $n$： $$ \varphi_n(x)=\begin{cases}\dfrac{k}{2^n}, & \dfrac{k}{2^n}\le f(x)<\dfrac{k+1}{2^n}, k=0,1,\dots,n2^n-1,\[2mm] n, & f(x)\ge n.\end{cases} $$ 每个 $\varphi_n$ 显然是简单函数（$\{k/2^n\le f<(k+1)/2^n\}$ 可测，因 $f$ 可测）。递增性：从 $n$ 到 $n+1$ 时值域分割加细一倍（每格再二分），且截断阈值从 $n$ 升到 $n+1$，故 $\varphi_{n+1}\ge\varphi_n$。收敛性：在 $f(x)<\infty$ 处，一旦 $n>f(x)$，有 $|f(x)-\varphi_n(x)|<2^{-n}\to0$；在 $f(x)=\infty$ 处 $\varphi_n(x)=n\to\infty=f(x)$。$\quad\blacksquare$

本质洞察：这个"按值域 $2^{-n}$ 分层"的构造，正是 §1 Lebesgue"水平切片"思想的算法化身。它把"对一般 $f$ 积分"归约为"对简单函数积分（= 测度的加权和）+ 取递增极限"。整个 §7 积分构造、§8 单调收敛定理，都是这台脚手架的直接产物。记住这个构造，等于记住了 Lebesgue 积分的施工蓝图。

理论：Littlewood 三原则与 Egorov、Lusin 定理¶

Littlewood 用三句话概括了可测对象的"近乎良好"：

Littlewood 三原则：(i) 每个可测集**几乎是**开集（与开集差一个小测度）；(ii) 每个可测函数**几乎是**连续函数；(iii) 每个逐点收敛的可测函数列**几乎是**一致收敛的。

这三句直觉被三个定理精确化。

定理 6.5（Egorov）：设 $\mu(X)<\infty$，$f_n\to f$ a.e.。则对任意 $\varepsilon>0$，存在可测集 $E_\varepsilon$ 使 $\mu(E_\varepsilon^c)<\varepsilon$ 且 $f_n\to f$ 在 $E_\varepsilon$ 上**一致收敛**。

证明（骨架展开）：对每个 $k$，令 $E_{n,k}=\bigcup_{m\ge n}\{|f_m-f|>1/k\}$。由 $f_n\to f$ a.e. 知对固定 $k$，$\mu(E_{n,k})\downarrow 0$（当 $n\to\infty$；这里用了 $\mu(X)<\infty$ 的由上连续性）。选 $n_k$ 使 $\mu(E_{n_k,k})<\varepsilon/2^k$，令 $E_\varepsilon=\big(\bigcup_k E_{n_k,k}\big)^c$。则 $\mu(E_\varepsilon^c)\le\sum_k\varepsilon/2^k=\varepsilon$，且在 $E_\varepsilon$ 上对每个 $k$ 当 $m\ge n_k$ 时 $|f_m-f|\le1/k$，即一致收敛。$\quad\blacksquare$

有限测度不可省（反事实）：取 $\mathbb{R}$ 上 $f_n=\mathbf{1}_{[n,n+1]}\to0$ a.e.，但在任何余集为有限测度的集合上都不一致收敛（"帽子"跑到无穷远，总能逃出任何有限测度集）。

定理 6.6（Lusin）：设 $f:\mathbb{R}\to\mathbb{R}$ Lebesgue 可测、a.e. 有限。则对任意 $\varepsilon>0$，存在闭集 $F$ 使 $\lambda(F^c)<\varepsilon$ 且 $f|_F$ 连续。

Lusin 把"可测函数几乎连续"钉死：除去一个任意小测度的集合，可测函数就是连续函数。

机器人应用：似然函数虽不连续却可测，且"几乎连续"¶

把可测函数理论接到机器人感知上。

SLAM 的观测似然 $p(z\mid x)$ 典型是**分段光滑**的——在遮挡边界、障碍边界处有跳跃间断。它**不连续**，所以本科的"连续函数才能积分"直觉在这里没法用。但由命题 6.2（连续函数复合、分段定义、极限都可测），分段连续函数一定**可测**，于是 $\int p(z\mid x)\,dP(x)$（贝叶斯归一化）有定义——这是 §1 机器人应用的精确化。

更进一步，Lusin 定理（6.6）保证：除去一个任意小测度的"坏集"（那些跳跃边界），$p(z\mid\cdot)$ 可视为连续。这正是机器人里各种**局部线性化**方法的理论许可证：

EKF 在工作点对动力学/观测做 Taylor 线性化——合法的前提是函数"几乎处处光滑"（Lusin 保证坏集小）；
UKF 的 sigma 点抽样近似——假设函数在 sigma 点邻域行为良好；
粒子滤波重采样——在似然"几乎连续"处用样本逼近。

本质洞察：随机变量的严格定义就是"可测函数 $X:\Omega\to\mathbb{R}$"。本科里"随机变量是取值随机的量"是直觉；测度论把它锻造成"从样本空间到实数的可测映射"。可测性恰好保证了"$\{X\le a\}$ 是事件（有概率）"——这是累积分布函数 $F_X(a)=P(X\le a)$ 良定义的前提。机器人状态 $x_t$、观测 $z_t$ 全是可测函数；它们的可测性是一切"谈论它们的分布、期望、协方差"的隐形门票。

⚠️ 常见陷阱¶

陷阱 6.1（概念误区）：以为"可测函数"是个苛刻的限制 - 错误描述：担心自己的似然函数/代价函数"不可测"，从而无法积分。 - 现象/后果：在工程中为"保证可测性"做无谓的光滑化，或误以为间断函数不能积分。 - 根本原因：可测函数类极其宽阔——连续、分段连续、单调、阶跃、半连续、它们的逐点极限和上下确界全可测（命题 6.2）。不可测函数需选择公理构造，工程中遇不到。 - 正确做法：放心地对任何"能写出来/能计算"的函数积分——它们必然可测。可测性几乎从不是实际障碍；真正需检查的是**可积性**（$\int|f|<\infty$，§7）。

陷阱 6.2（思维陷阱）：把 Egorov 的"一致收敛"误读为"全空间一致收敛" - 错误描述：用 Egorov 时以为得到了全空间上的一致收敛。 - 现象/后果：在剩下的 $\varepsilon$ 测度坏集上误用一致收敛的结论（如逐项积分），导致错误。 - 根本原因：Egorov 只保证在 $E_\varepsilon$（余集测度 $<\varepsilon$）上一致，坏集 $E_\varepsilon^c$ 上可能任意糟糕；且需 $\mu(X)<\infty$。 - 正确做法：明确 Egorov 给的是"几乎一致收敛"——可把坏集做得任意小但通常无法消除。配合 $\mu(\text{坏集})\to0$ 与控制函数（DCT，§8）才能处理坏集上的积分。

陷阱 6.3（概念误区）：混淆"可测"与"连续" - 错误描述：把可测函数当连续函数处理（如假设它有处处定义的值、无跳跃）。 - 现象/后果：在间断的似然函数上套用连续性结论（如介值定理、处处可导），得到错误推断。 - 根本原因：可测远弱于连续。可测函数可处处不连续（如 $\mathbf{1}_{\mathbb{Q}}$）、可只 a.e. 定义。 - 正确做法：可测函数只保证"层可测"，不保证连续性。需要连续性时用 Lusin（除小集外连续）作桥梁，明确"在哪里、除掉多大的集合后"可用连续性。

练习¶

（证明题，草稿纸完成） 证明命题 6.2 第 1 条中 $f+g$ 可测：提示先证 $\{f+g>a\}=\bigcup_{q\in\mathbb{Q}}\big(\{f>q\}\cap\{g>a-q\}\big)$（用有理数 $q$ 的稠密性"插入"），再用可数并封闭。这个"插入有理数"的技巧是处理两个可测函数运算的标准手法。
（推导题） 对 $f(x)=x^2$（$x\in[0,2]$），按定理 6.4 的构造显式写出 $\varphi_2$（即 $n=2$，值域 $[0,2)$ 按 $1/4$ 分层、$\ge2$ 截断）。画出 $\varphi_2$ 的图像，验证 $0\le\varphi_2\le f$ 且 $|f-\varphi_2|\le1/4$（在 $f<2$ 处）。体会"水平切片"如何用阶梯逼近曲线。
（跨节综合题） 结合 §2 的信息 $\sigma$-代数与本节可测函数：解释为什么"因果估计器 $\hat x_t$ 是 $\mathcal{F}_t$-可测函数"恰好刻画了"$\hat x_t$ 只用了 $z_{1:t},u_{1:t}$ 的信息"。提示：用本节练习 §2.3 的结论 $\sigma(z_{1:t})$ 是"通过观测能区分的事件"，再说明 $\mathcal{F}_t$-可测 $\iff$ $\hat x_t$ 是 $z_{1:t},u_{1:t}$ 的（可测）函数。这把"因果性"从直觉变成了可测性的精确陈述。

§7 Lebesgue 积分的构造 ⭐⭐⭐¶

动机：把"层的测度加权和"变成严格定义¶

§6 的脚手架（简单函数逼近）就位，现在正式建造积分。Lebesgue 积分用"三阶段"逐步定义：简单函数 → 非负可测函数 → 一般可测函数。这个顺序不是任意的——它精确对应"先定义最简单对象的积分，再用极限和正负分解推广"，每一步都建立在前一步之上。建好后，期望 $\mathbb{E}[X]=\int X\,dP$ 就有了无歧义的含义。

反面：为什么不能"一步到位"定义¶

你可能想：直接写 $\int f\,d\mu=\sum_k y_k\,\mu(\{y_k\le f<y_{k+1}\})$ 不就完了？问题是：(i) 对取连续值的 $f$，这是个无穷和，收敛性需要论证；(ii) $f$ 可能取负值或 $\pm\infty$，求和无定义；(iii) 要证明积分的线性、单调、极限性质，散装定义难以下手。三阶段构造把这些困难拆解开——简单函数上一切性质显然，再逐级"继承"上去，是最干净的路径。

理论：三阶段构造¶

阶段一：非负简单函数。

定义 7.1：设 $\varphi=\sum_{i=1}^n c_i\mathbf{1}_{A_i}$ 是非负简单函数的**标准型**（$c_i\ge0$ 互异，$A_i$ 两两不交且并为 $X$）。定义 $$\int_X\varphi\,d\mu:=\sum_{i=1}^n c_i\,\mu(A_i),\qquad\text{约定 }0\cdot\infty:=0.$$

约定 $0\cdot\infty=0$ 很重要：在 $f=0$ 的地方即使测度无穷，贡献也是 $0$（"零高度的无穷宽矩形"面积为零）。可验证此定义与标准型的具体写法无关。

阶段二：非负可测函数。

定义 7.2：对非负可测 $f:X\to[0,\infty]$，定义 $$\int_X f\,d\mu:=\sup\Big\{\int_X\varphi\,d\mu:\varphi\text{ 简单},\ 0\le\varphi\le f\Big\}.$$

用"所有从下方逼近 $f$ 的简单函数积分的上确界"。由定理 6.4 知这样的 $\varphi$ 存在且能逼近 $f$，故上确界有意义（可能为 $+\infty$）。

阶段三：一般可测函数。

定义 7.3：对可测 $f:X\to[-\infty,\infty]$，分解 $f=f^+-f^-$（$f^+=\max(f,0)$，$f^-=\max(-f,0)$，二者非负可测）。若 $\int f^+$ 与 $\int f^-$ 不同时为 $\infty$，定义 $$\int_X f\,d\mu:=\int_X f^+\,d\mu-\int_X f^-\,d\mu.$$ 若 $\int|f|\,d\mu=\int f^++\int f^-<\infty$，称 $f$ 可积，记 $f\in L^1(\mu)$。

正负部分开积分再相减，避开了 $\infty-\infty$。可积的实质是 $|f|$ 的积分有限。

理论：积分的基本性质¶

命题 7.4：设 $f,g$ 可积或非负可测，$c\in\mathbb{R}$。则： 1. 线性：$\int(af+bg)=a\int f+b\int g$； 2. 单调性：$f\le g\Rightarrow\int f\le\int g$； 3. 三角不等式：$\big|\int f\big|\le\int|f|$； 4. 零测集不影响：$f=g$ a.e. $\Rightarrow\int f=\int g$；零测集上的积分为 $0$。

关于线性的微妙处：单调性、非负简单函数的可加性都直接。但**非负可测函数的可加性** $\int(f+g)=\int f+\int g$ 需要单独证明——它不像简单函数那样平凡，标准做法是用单调收敛定理（§8）：取 $\varphi_n\nearrow f$、$\psi_n\nearrow g$，则 $\varphi_n+\psi_n\nearrow f+g$，对三者用 MCT 并利用简单函数可加性取极限。这是 MCT 的第一个"内部"应用——它甚至是积分线性性的证明工具。

本质洞察：性质 4（零测集不影响积分）是 Lebesgue 积分的"宽容"本质。它意味着积分**只看 $f$ 的"几乎处处"行为**，无视零测集上的任意病变。这就是为什么 $\int_{[0,1]}\mathbf{1}_{\mathbb{Q}}=0$——$\mathbf{1}_{\mathbb{Q}}$ 与零函数仅在零测集 $\mathbb{Q}$ 上不同。在概率论里，这翻译成"a.s. 相等的随机变量有相同期望"，让我们能自由修改随机变量在零概率集上的值而不影响任何积分量。Riemann 积分没有这种宽容（它被定义域上的病变绊住），这是两者的本质分野。

理论：Layer-cake 表示——把积分翻译成"超水平集测度的积分"¶

下面这个公式把 §1 的"水平切片"思想表达成精确的恒等式，且在概率论里极为有用。

定理 7.5（Layer-cake / Cavalieri 公式）：对非负可测 $f\ge0$， $$\int_X f\,d\mu=\int_0^\infty\mu(\{f>t\})\,dt=\int_0^\infty\mu(\{f\ge t\})\,dt.$$

证明（用 Fubini，§10 会严格化）：考虑乘积空间 $X\times[0,\infty)$ 上的集合 $\Gamma=\{(x,t):0\le t<f(x)\}$（"$f$ 的下方图"）。对指示函数 $\mathbf{1}_\Gamma$ 用 Tonelli 定理累次积分：先对 $t$ 积分得 $\int_0^\infty\mathbf{1}_{t<f(x)}\,dt=f(x)$，故 $\iint\mathbf{1}_\Gamma=\int_X f\,d\mu$；先对 $x$ 积分得 $\int_X\mathbf{1}_{t<f(x)}\,d\mu=\mu(\{f>t\})$，故 $\iint\mathbf{1}_\Gamma=\int_0^\infty\mu(\{f>t\})\,dt$。两者相等。$\quad\blacksquare$

直接推论——Markov（Chebyshev）不等式：对非负可测 $f$ 与 $t>0$，由 $f\ge t\mathbf{1}_{\{f\ge t\}}$ 与单调性， $$ \mu({f\ge t})\le\frac1t\int_{{f\ge t}}f\,d\mu\le\frac1t\int_X f\,d\mu. $$ 概率版 $P(|X|\ge t)\le\mathbb{E}|X|/t$ 是粒子滤波、随机逼近一切**集中不等式**的起点。

机器人应用：期望就是 Lebesgue 积分¶

把积分接到概率上，最核心的等式是：

期望 = Lebesgue 积分：随机变量 $X:(\Omega,\mathcal{F},\mathbb{P})\to\mathbb{R}$（可测函数，§6）的**期望**就是它关于概率测度 $\mathbb{P}$ 的 Lebesgue 积分： $$\mathbb{E}[X]=\int_\Omega X\,d\mathbb{P}.$$ 当 $X$ 有密度 $p_X=dP_X/d\lambda$（§12）时，由变量替换退化为本科熟悉的 $\mathbb{E}[X]=\int_{\mathbb{R}}x\,p_X(x)\,dx$。

本质洞察：本科里"离散用求和 $\sum x_i p_i$、连续用积分 $\int x\,p(x)\,dx$"是两套割裂的公式。测度论用**一个** $\int_\Omega X\,d\mathbb{P}$ 统一了它们——离散时 $\mathbb{P}$ 是计数测度的加权，积分退化为求和；连续时 $\mathbb{P}\ll\lambda$，积分用密度展开；混合时（离散数据关联 + 连续位姿，机器人最常见）也无需特殊处理，同一个积分照常工作。这种统一不是形式美化，而是实用必需：SLAM 的混合状态、强化学习的连续-离散混合动作，都靠这个统一的期望定义才能严格处理。

Markov 不等式 $P(|X|\ge t)\le\mathbb{E}|X|/t$ 在机器人里是**安全性证书**的基础：要证"碰撞概率 $<\delta$"，常先 bound 某个非负代价的期望，再用 Markov 把它转成尾概率界。粒子滤波的 $L^2$ 收敛率证明（§8、§14）里，每一步把"误差大"的概率转成"误差平方的期望"也用 Markov（其 $p=2$ 版本即 Chebyshev）。

⚠️ 常见陷阱¶

陷阱 7.1（概念误区）：把"可测"等同于"可积" - 错误描述：以为函数只要可测就能积分出有限值。 - 现象/后果：对 $\int_{\mathbb{R}}\frac{1}{|x|}\,dx$ 或重尾分布的期望直接计算，得到 $\infty$ 却当成有限值用，后续推理崩溃。 - 根本原因：可测保证积分**有定义**（可能为 $\pm\infty$）；可积要求 $\int|f|<\infty$。Cauchy 分布可测但期望不存在（$\int|x|p(x)\,dx=\infty$）。 - 正确做法：用 $\mathbb{E}[X]$、$\int f$ 前先验证可积性 $\int|f|<\infty$。机器人里重尾似然（鲁棒核函数）常导致期望/方差不存在，必须显式检查，否则收敛定理（要 $L^1$）失效。

陷阱 7.2（概念误区）：忘记 $0\cdot\infty=0$ 的约定导致计算混乱 - 错误描述：在 $f=0$ 但测度无穷（或 $f=\infty$ 但测度零）处不知如何取值。 - 现象/后果：计算 $\int_{\mathbb{R}}0\,d\lambda$ 或在零测集上 $f=\infty$ 时得到 $\infty\cdot0$ 形式而卡住。 - 根本原因：Lebesgue 积分约定 $0\cdot\infty=0$——零高度的无穷宽、或无穷高的零宽，面积都是零。 - 正确做法：牢记此约定。它保证"$f=0$ a.e. $\Rightarrow\int f=0$"（即使空间无限）、"$f$ 在零测集上 $=\infty$ 不影响积分"，是积分宽容性的技术保障。

陷阱 7.3（思维陷阱）：以为 Lebesgue 积分总能像 Riemann 那样"算出来" - 错误描述：期待 Lebesgue 积分有比 Riemann 更强的"计算"能力。 - 现象/后果：试图用三阶段定义"算"具体积分值，发现远比 Riemann 的 Newton–Leibniz 公式繁琐。 - 根本原因：Lebesgue 积分的威力在**理论性质**（极限交换、完备性、Fubini），而非具体计算。对 Riemann 可积函数，两者数值相等（§9），实际计算仍用微积分基本定理。 - 正确做法：定义用于理论推导（证收敛、证存在）；具体数值计算在 $f$ 足够好（Riemann 可积）时用经典微积分。两者分工明确，不必用定义"硬算"。

练习¶

（证明题，草稿纸完成） 用定义 7.1 证明非负简单函数积分与标准型写法无关：设 $\varphi=\sum_i c_i\mathbf{1}_{A_i}=\sum_j d_j\mathbf{1}_{B_j}$ 是两种表示（$A_i$ 不交、$B_j$ 不交），证明 $\sum_i c_i\mu(A_i)=\sum_j d_j\mu(B_j)$。提示：用公共加细 $A_i\cap B_j$。
（推导题） 用 Layer-cake 公式（定理 7.5）证明：对非负随机变量 $X\ge0$，$\mathbb{E}[X]=\int_0^\infty P(X>t)\,dt$。再推广到 $\mathbb{E}[X^p]=\int_0^\infty p\,t^{p-1}P(X>t)\,dt$（$p>0$）。这个公式在证明 $L^p$ 范数的尾界、推导矩与尾概率关系时极有用。
（开放思考题） Cauchy 分布密度 $p(x)=\frac{1}{\pi(1+x^2)}$。验证它是合法密度（$\int p=1$）但期望 $\mathbb{E}|X|=\int|x|p(x)\,dx=\infty$ 不存在。讨论：若机器人用 Cauchy 型重尾似然（为抗野值），粒子滤波的"加权平均"$\hat x=\sum w_i x_i$ 会出什么问题？这与 §8 收敛定理要求 $L^1$ 控制有何关系？

§8 三大收敛定理 ⭐⭐⭐¶

动机：极限与积分何时可交换——蒙特卡洛的命根子¶

这是本章的承重墙。机器人学里几乎所有"用近似序列逼近目标"的算法——蒙特卡洛积分、粒子滤波、随机逼近、随机梯度——本质都在做一件事：$f_n\to f$，希望 $\int f_n\to\int f$。§1 已经看到 Riemann 框架下这个交换会失败。Lebesgue 框架提供三把钥匙——MCT、Fatou、DCT——在不同条件下保证交换合法。没有它们，你无法证明任何蒙特卡洛算法收敛，也无法给出收敛速率。

反面：极限与积分不能随便交换——两个反例先看¶

在给定理之前，先看清"不能随便交换"的两种失败方式，它们也是后面反例的主角。

失败一（高瘦帽子，质量向上逃逸）：$f_n=n\,\mathbf{1}_{(0,1/n]}$。逐点 $f_n(x)\to0$（任何固定 $x>0$，当 $n>1/x$ 时 $f_n(x)=0$）。但 $\int f_n=n\cdot\frac1n=1\not\to0=\int\lim f_n$。质量"挤"到越来越高越来越窄的尖峰里逃逸。

失败二（行进帽子，质量向右逃逸）：$f_n=\mathbf{1}_{[n,n+1]}$。逐点 $f_n(x)\to0$，但 $\int f_n=1\not\to0$。质量"走"到越来越远处逃逸。

两种逃逸都让 $\int\lim<\lim\int$。三大定理的条件正是为了堵住这两种逃逸。

历史¶

单调收敛定理常归于 Beppo Levi（1906），控制收敛定理是 Lebesgue（1910）的标志性成果，Fatou 引理来自 Fatou（1906）研究 Fourier 级数时。三者构成 Lebesgue 积分相对 Riemann 的决定性优势——Riemann 框架下没有任何与之对应的定理。

理论：单调收敛定理（MCT）¶

定理 8.1（单调收敛定理 / Beppo Levi）：设 $f_n\ge0$ 可测，$f_n\nearrow f$ a.e.（单调递增逐点收敛）。则 $$\int f_n\,d\mu\nearrow\int f\,d\mu.$$

证明（完整，含著名的 $\alpha$-技巧）：

上界：由单调性 $f_n\le f$ 得 $\int f_n\le\int f$，故 $\lim_n\int f_n\le\int f$（极限存在因 $\int f_n$ 递增）。

下界（关键）：要证 $\lim_n\int f_n\ge\int f$，即对任意简单函数 $0\le\varphi\le f$ 证 $\lim_n\int f_n\ge\int\varphi$（再对 $\varphi$ 取上确界即得 $\ge\int f$）。固定 $\alpha\in(0,1)$，令 $$ E_n={x:f_n(x)\ge\alpha\varphi(x)}. $$ 由 $f_n\nearrow f\ge\varphi>\alpha\varphi$（在 $\varphi>0$ 处），每个 $x$ 终将进入 $E_n$，故 $E_n\uparrow X$。于是 $$ \int f_n\ge\int_{E_n}f_n\ge\alpha\int_{E_n}\varphi. $$ 对 $\varphi=\sum_i c_i\mathbf{1}_{A_i}$，$\int_{E_n}\varphi=\sum_i c_i\mu(A_i\cap E_n)$。由测度的**由下连续性**（§3，这里是关键），$\mu(A_i\cap E_n)\uparrow\mu(A_i)$，故 $\int_{E_n}\varphi\to\int\varphi$。取 $n\to\infty$ 得 $\lim_n\int f_n\ge\alpha\int\varphi$。再令 $\alpha\uparrow1$ 得 $\lim_n\int f_n\ge\int\varphi$。$\quad\blacksquare$

本质洞察：MCT 的证明把"积分与极限交换"归约到了"测度与递增集合极限交换"（由下连续性，§3 命题 3.2.4）。这揭示了一条因果链：可数可加性 ⟹ 测度由下连续 ⟹ MCT ⟹（下面）Fatou ⟹ DCT。整座收敛定理大厦的地基，是 §3 那一条可数可加性公理。$\alpha$-技巧（先放松到 $\alpha\varphi$ 再令 $\alpha\to1$）是测度论里反复出现的"留出余量"手法，值得专门记住。

非负性不可省（反事实）：$f_n=-\frac1n\mathbf{1}_{[0,n]}\nearrow0$，但 $\int f_n=-1\not\to0$。负值允许质量从下方逃逸，MCT 失效。

理论：Fatou 引理¶

定理 8.2（Fatou 引理）：设 $f_n\ge0$ 可测。则 $$\int\liminf_n f_n\,d\mu\le\liminf_n\int f_n\,d\mu.$$

证明（由 MCT 推出）：令 $g_k=\inf_{n\ge k}f_n$。则 $g_k\nearrow\liminf_n f_n$（这是 $\liminf$ 的定义），且 $g_k$ 非负可测、$g_k\le f_n$ 对一切 $n\ge k$。由后者 $\int g_k\le\inf_{n\ge k}\int f_n$。对 $g_k\nearrow\liminf f_n$ 用 MCT： $$ \int\liminf_n f_n=\lim_k\int g_k\le\lim_k\inf_{n\ge k}\int f_n=\liminf_n\int f_n.\quad\blacksquare $$

为什么是不等式而非等式（这是 Fatou 的精髓）：两个失败反例都给出**严格**不等。行进帽子 $f_n=\mathbf{1}_{[n,n+1]}$：$\liminf f_n=0$ 故左边 $=0$，而 $\liminf\int f_n=1$，故 $0<1$ 严格。Fatou 只保证"极限的积分不超过积分的下极限"——它单边地控制"质量逃逸"：逃逸只会让 $\int f_n$ 偏大，不会偏小。

本质洞察：Fatou 是三定理里**假设最弱**（只要非负）的，代价是结论最弱（只有单边不等式）。但正因假设弱，它成了证明其他两个定理（尤其 DCT）的杠杆——MCT 给 Fatou，Fatou 给 DCT。在概率论里 Fatou 直接给出"下半连续性"，是证明各种期望不等式（如 $\mathbb{E}[\liminf X_n]\le\liminf\mathbb{E}[X_n]$）的万能工具。

理论：控制收敛定理（DCT）——粒子滤波收敛的核心¶

定理 8.3（控制收敛定理 / Lebesgue）：设 $f_n\to f$ a.e.，且存在**控制函数** $g\in L^1(\mu)$ 使 $|f_n|\le g$ 对一切 $n$。则 $f\in L^1$，且 $$\int f_n\,d\mu\to\int f\,d\mu,\qquad\text{更强地}\quad\int|f_n-f|\,d\mu\to0.$$

证明（由 Fatou 两次推出，优雅）：由 $|f_n|\le g$ 取极限得 $|f|\le g$，故 $f\in L^1$。

考虑两个非负函数列：$g+f_n\ge0$ 与 $g-f_n\ge0$（因 $|f_n|\le g$）。

对 $g+f_n$ 用 Fatou：$\int(g+f)\le\liminf\int(g+f_n)=\int g+\liminf\int f_n$，消去 $\int g<\infty$ 得 $\int f\le\liminf\int f_n$。

对 $g-f_n$ 用 Fatou：$\int(g-f)\le\liminf\int(g-f_n)=\int g-\limsup\int f_n$，消去 $\int g$ 得 $\limsup\int f_n\le\int f$。

合并：$\limsup\int f_n\le\int f\le\liminf\int f_n$，故 $\lim\int f_n=\int f$。$L^1$ 收敛同理对 $2g-|f_n-f|\ge0$ 用 Fatou。$\quad\blacksquare$

本质洞察：DCT 的核心是控制函数 $g$——它像一个"质量天花板"，把整个序列 $\{f_n\}$ 罩在一个可积函数下面，堵死了质量向上（高瘦帽子）和向远处（行进帽子）的逃逸。有了这个天花板，逐点收敛就足以保证积分收敛。DCT 是机器人蒙特卡洛方法里用得最多的定理：只要被积函数被一个固定的可积函数控制，"用样本平均逼近期望"的极限交换就合法。

控制函数必要性的反例（两个逃逸都缺天花板）： - 行进帽子 $f_n=\mathbf{1}_{[n,n+1]}\to0$，最小的控制函数需 $g\ge1$ 于 $[0,\infty)$，但 $\int g=\infty\notin L^1$——无可积天花板，DCT 不适用，$\int f_n=1\not\to0$。 - 高瘦帽子 $f_n=n\mathbf{1}_{(0,1/n]}\to0$，最小控制函数 $g(x)\ge\sup_n f_n(x)=1/x$（在 $x\in(0,1]$），但 $\int_0^1\frac1x\,dx=\infty\notin L^1$——同样无天花板。

理论：两个有用的推广¶

Scheffé 引理：$f_n,f\ge0$，$f_n\to f$ a.e.，$\int f_n\to\int f<\infty$ $\Rightarrow$ $\int|f_n-f|\to0$（$L^1$ 收敛）。

Scheffé 妙在**不需要外部控制函数**——只要积分值收敛 + 非负，就免费得到 $L^1$ 收敛。它在概率论里专门处理"密度逐点收敛 + 总质量都为 1"的情形（如经验密度收敛到真密度）。

Pratt 引理（广义 DCT）：$|f_n|\le g_n$，$g_n\to g$ a.e.，$\int g_n\to\int g<\infty$ $\Rightarrow$ $\int f_n\to\int f$。

Pratt 把 DCT 的"固定控制函数 $g$"放松成"收敛的控制函数列 $g_n$"，覆盖更多情形（如控制函数本身随 $n$ 变化但收敛）。

机器人应用：DCT 是粒子滤波收敛性证明的核心¶

这是本章最重要的应用之一，值得完整展开。

粒子滤波的收敛问题：粒子滤波用 $N$ 个加权样本的**经验测度** $\mu_t^N=\frac1N\sum_{i=1}^N\delta_{x_t^{(i)}}$ 近似真后验 $\pi_t$。要证明的核心命题是：对任意有界可测的检验函数 $\varphi$（如要估计的某个状态分量），

\[ \mu_t^N(\varphi)=\frac1N\sum_{i=1}^N\varphi(x_t^{(i)})\xrightarrow{N\to\infty}\pi_t(\varphi)=\int\varphi\,d\pi_t. \]

DCT 在哪一步起作用？ 收敛性证明（Crisan–Doucet 2002；Del Moral 2004）的归纳结构里，每一步贝叶斯更新都涉及一个**似然归一化**： $$ \pi_t(\varphi)=\frac{\int\varphi(x)\,p(z_t\mid x)\,\hat\pi_{t}(dx)}{\int p(z_t\mid x)\,\hat\pi_t(dx)}. $$ 要把"经验测度的归一化"$\mu_t^N$ 与"真测度的归一化"$\pi_t$ 的差控制住，需要把极限 $N\to\infty$ 移进积分号。这正是 DCT 的工作：被积函数 $\varphi\cdot p(z_t\mid\cdot)$ 被**有界**的 $\|\varphi\|_\infty\cdot p(z_t\mid\cdot)$ 控制（似然有界 + 检验函数有界），DCT 保证极限与积分交换合法。

定量收敛率：在 Feynman–Kac 框架下可证 $L^2$ 收敛率 $$ \mathbb{E}\big|\mu_t^N(\varphi)-\pi_t(\varphi)\big|^2\le\frac{C_t\,|\varphi|_\infty^2}{N}, $$ 即均方误差 $O(1/N)$、标准差 $O(1/\sqrt N)$（与维度无关，这是粒子滤波相对网格法的优势）。这个界的逐步证明里，每一个似然归一化步骤都调用 DCT 来交换期望与极限；常数 $C_t$ 随时间 $t$ 增长，反映粒子退化（degeneracy）——这也是重采样必要性的理论根源。

本质洞察：你以前可能把"粒子滤波收敛"当成一句口号或仿真观察。测度论把它变成定理：经验测度弱收敛到真后验，速率 $O(1/\sqrt N)$，证明的发动机是 DCT。审稿人问"你的滤波器为什么收敛、收多快"，答案就是这条 DCT 论证 + Feynman–Kac 误差递推。控制函数（有界似然）的存在性是整个论证的前提——这也解释了为什么**重尾似然**（无界）会破坏标准收敛性证明（陷阱 7.3、练习 7.3），需要额外的截断或矩条件。

DCT 还支撑另外两类机器人算法： - 随机梯度下降的 a.s. 收敛："残差趋零"这一步常用 Scheffé 引理处理 $L^1$ 损失的收敛； - 价值函数迭代：拟合价值迭代（Munos–Szepesvári 2008）的误差传播分析中，Bellman 算子的极限行为靠 DCT 交换"迭代极限"与"期望"。

⚠️ 常见陷阱¶

陷阱 8.1（思维陷阱）：用 DCT 时不验证控制函数存在 - 错误描述：看到 $f_n\to f$ 逐点就直接写 $\int f_n\to\int f$，跳过"找 $g\in L^1$ 使 $|f_n|\le g$"。 - 现象/后果：在质量逃逸的情形（行进帽子、高瘦帽子）得到错误结论 $\int f_n\to0$ 而实际 $\int f_n=1$。 - 根本原因：逐点收敛**不蕴含**积分收敛；必须有可积控制函数堵住逃逸。 - 正确做法：用 DCT 三步走——(i) 确认 $f_n\to f$ a.e.；(ii) 显式给出 $g\in L^1$ 使 $|f_n|\le g$；(iii) 才能下结论。找不到 $g$ 时改用 MCT（若单调）、Fatou（只要单边界）、Vitali（一致可积，§14）或 Scheffé。

陷阱 8.2（概念误区）：把 Fatou 的不等式方向记反或当成等式 - 错误描述：写成 $\int\liminf f_n\ge\liminf\int f_n$（方向反）或 $=$（当等式）。 - 现象/后果：导出错误的上界/下界，证明失效。 - 根本原因：Fatou 是 $\int\liminf\le\liminf\int$——"先取下极限再积分"$\le$"先积分再取下极限"。行进帽子给严格不等 $0<1$。 - 正确做法：用质量逃逸记忆方向：逃逸使 $\int f_n$ 偏大，所以 $\liminf\int f_n$（右边）$\ge\int\liminf f_n$（左边，已"丢掉"逃逸的质量）。需要反方向时用"反 Fatou"$\int\limsup f_n\ge\limsup\int f_n$（需上方控制函数）。

陷阱 8.3（思维陷阱）：以为非负性/单调性在 MCT 里可有可无 - 错误描述：对非单调或可变号的序列套用 MCT。 - 现象/后果：$f_n=-\frac1n\mathbf{1}_{[0,n]}\nearrow0$ 但 $\int f_n=-1\not\to0$；对变号序列得错误极限。 - 根本原因：MCT 严格要求 $f_n\ge0$ 且单调递增。负值或非单调破坏了"由下连续性"论证。 - 正确做法：MCT 用于非负递增。变号或非单调时分解正负部、或改用 DCT（有控制函数）/ Fatou。注意 MCT 有递减版本但需 $f_1\in L^1$（类比 §3 上连续性的有限性条件）。

陷阱 8.4（概念误区）：混淆"$L^1$ 收敛"与"逐点收敛" - 错误描述：以为 $\int|f_n-f|\to0$（$L^1$）与 $f_n\to f$ a.e.（逐点）等价。 - 现象/后果：打字机序列 $L^1$ 收敛到 $0$ 但处处不收敛（§14）；误判收敛模式导致错误推理。 - 根本原因：两种收敛互不蕴含。DCT 同时给出二者（在其假设下），但一般情形下它们分离（§14 详述）。 - 正确做法：明确你需要哪种收敛。粒子滤波的 $L^2$ 收敛率是范数收敛；a.s. 收敛是逐点收敛（§14）。它们对工程的含义不同——范数收敛是"平均意义"，a.s. 是"每条轨迹"。

练习¶

（证明题，草稿纸完成） 用 MCT 证明积分对非负可测函数的**可数可加性**（Beppo Levi 级数形式）：若 $f_n\ge0$ 可测，则 $\int\sum_{n=1}^\infty f_n=\sum_{n=1}^\infty\int f_n$。提示：对部分和 $S_N=\sum_{n\le N}f_n\nearrow\sum_n f_n$ 用 MCT。这个形式在级数与积分交换里极常用。
（推导题） 用 DCT 计算 $\lim_{n\to\infty}\int_0^1\frac{n\sqrt x}{1+n^2x^2}\,dx$。先求逐点极限（$=0$ a.e.），再找控制函数（提示：用 AM-GM $\frac{n\sqrt x}{1+n^2x^2}\le\frac{n\sqrt x}{2n\sqrt x\cdot\sqrt x}=\frac{1}{2\sqrt x}\in L^1(0,1)$），最后下结论。亲手走一遍 DCT 三步。
（跨节综合题） 结合 §7 Markov 不等式与本节 DCT，给出粒子滤波 $L^2$ 收敛率 $\mathbb{E}|\mu_t^N(\varphi)-\pi_t(\varphi)|^2\le C_t\|\varphi\|_\infty^2/N$ 的一个"用途"：用 Chebyshev（Markov 的 $p=2$ 版）把它转成尾概率界 $P(|\mu_t^N(\varphi)-\pi_t(\varphi)|>\varepsilon)\le C_t\|\varphi\|_\infty^2/(N\varepsilon^2)$，再讨论：这个界能否（配合 Borel–Cantelli，§3）推出 a.s. 收敛？需要对 $N$ 求和收敛，缺了什么条件？（这串起 §3、§7、§8 三节，预告 §14。）

§9 Riemann 积分与 Lebesgue 积分的比较 ⭐⭐¶

动机：两套积分到底什么关系？¶

学完 Lebesgue 积分，自然要问：它和本科的 Riemann 积分什么关系？是替代、扩展，还是平行？这关系到实践——你算具体积分时该用哪套？本节给出精确答案。本节也是全章节奏里的一个"轻松段"（R3）：在 §7-§8 的密集推导后，停下来梳理两套积分的关系，巩固直觉。

理论：一致性——经典计算无须重做¶

定理 9.1（一致性）：若 $f:[a,b]\to\mathbb{R}$ Riemann 可积，则 $f$ 也 Lebesgue 可积，且两个积分值**相等**： $$(\mathrm{R})\!\int_a^b f\,dx=(\mathrm{L})\!\int_{[a,b]}f\,d\lambda.$$

这条定理是定心丸：你本科学的所有积分技巧（换元、分部、Newton–Leibniz）在 Lebesgue 框架下**照常有效**，数值不变。Lebesgue 不是推翻 Riemann，而是在 Riemann 适用的地方完全兼容、在 Riemann 失效的地方接管。

理论：Riemann 可积的 Lebesgue 判据¶

定理 9.2（Lebesgue 判据）：有界 $f:[a,b]\to\mathbb{R}$ Riemann 可积 $\iff$ 其不连续点集是 Lebesgue 零测集。

这条已在 §1 出现，现在可以理解它的位置：它用 Lebesgue 测度精确刻画了"Riemann 能积什么"。直觉：Riemann 用上下 Darboux 和夹逼，夹缝的大小由"函数振荡的地方有多大"决定；振荡集（不连续点）零测时夹缝闭合。

理论：Lebesgue 的四大优势¶

优势	内容	Riemann 为何做不到
极限交换	MCT/Fatou/DCT（§8）	Riemann 框架下无对应定理，逐点极限可能跳出可积类
空间完备	$L^p$ 是 Banach 空间（§13）	Riemann 可积函数在 $\\|\cdot\\|_p$ 下不完备，Cauchy 列极限可能非 Riemann 可积
乘积与 Fubini	重积分=累次积分的简洁条件（§10）	Riemann 的多重积分对函数光滑性要求高，理论繁琐
无界自然处理	无界区间/函数无须"广义"权宜	Riemann 需广义积分（极限定义），理论割裂

其中**完备性**是对机器人学最致命的一条。Kalman 滤波的存在性（§13）依赖 $L^2$ 完备；若用 Riemann 可积函数空间，那个"最优估计的投影"可能根本不存在（极限掉出空间外）。这是非 Lebesgue 不可的最深理由。

本质洞察：Riemann 与 Lebesgue 的关系，恰如 $\mathbb{Q}$ 与 $\mathbb{R}$ 的关系（§1 前置桥接）。$\mathbb{Q}$ 上能做的算术 $\mathbb{R}$ 都能做且结果一致（类比一致性定理），但 $\mathbb{Q}$ 不完备（Cauchy 列极限可能是无理数），分析无法在 $\mathbb{Q}$ 上展开。Lebesgue 之于 Riemann 就是这个"完备化"——它把不完备的 Riemann 可积函数空间补全成完备的 $L^p$，让极限分析得以进行。这个类比像的地方：都是"补全缺失的极限点"；不像的地方：$\mathbb{R}$ 补的是数，$L^p$ 补的是函数，且 $L^p$ 还需模掉"a.e. 相等"才成真范数（§13）。

反面：Lebesgue 也有"做不到"的——条件收敛积分¶

Lebesgue 并非全面占优。有一类积分 Riemann（广义）能做而 Lebesgue 不能：

反例 9.3（条件收敛）：$\int_0^\infty\frac{\sin x}{x}\,dx$ 作为广义 Riemann 积分存在，值为 $\pi/2$。但它**不是 Lebesgue 可积**，因为 $$\int_0^\infty\Big|\frac{\sin x}{x}\Big|\,dx=\infty.$$

原因：Lebesgue 可积要求 $|f|$ 可积（绝对可积），而 $\frac{\sin x}{x}$ 是**条件收敛**——正负部分相互抵消才收敛，绝对值积分发散。这类"震荡抵消"型积分超出 Lebesgue 的处理范围，需 Henstock–Kurzweil 积分或在复分析中作反常积分（留数）处理。

本质洞察：Lebesgue 与 Riemann（广义）不是简单的包含关系——它们在"无界区间的条件收敛积分"上分道扬镳。Lebesgue 要绝对可积（为了 Fubini、DCT 等定理成立，必须排除依赖求和顺序的条件收敛）；广义 Riemann 允许条件收敛（但因此失去那些定理）。这是一个深刻的权衡：绝对可积性是换取强大极限定理的"入场费"。机器人里用到 $\frac{\sin x}{x}$ 型积分（如 sinc 滤波器、理想低通）时要警惕——不能对它们套 Fubini/DCT。

⚠️ 常见陷阱¶

陷阱 9.1（概念误区）：以为 Lebesgue 可积 $\supseteq$ Riemann（广义）可积 - 错误描述：认为 Lebesgue 积分总能积"更多"函数，广义 Riemann 是其子集。 - 现象/后果：对 $\int_0^\infty\frac{\sin x}{x}\,dx$ 套用 Lebesgue 定理（Fubini、DCT），得到错误结果。 - 根本原因：Lebesgue 要绝对可积；条件收敛的广义 Riemann 积分（如 $\sin x/x$）不是 Lebesgue 可积。二者不可比。 - 正确做法：对绝对可积函数用 Lebesgue 的全套定理；对条件收敛积分（绝对值发散）只能用广义 Riemann 极限定义或复分析，不能用 Fubini/DCT。

陷阱 9.2（思维陷阱）：因为"结果相等"就忽视 Lebesgue 的理论必要性 - 错误描述：既然两者数值相等（一致性定理），就觉得 Lebesgue 是多余的形式主义。 - 现象/后果：在需要极限交换、空间完备、Fubini 的地方（粒子滤波收敛、Kalman 存在性、SLAM 边际化）找不到合法工具。 - 根本原因：两者数值相等仅在 Riemann 可积时；Lebesgue 的价值在 Riemann 失效或无定理可用**的场景。 - **正确做法：具体数值计算用经典微积分（Riemann 可积时）；理论论证（收敛、存在、交换）用 Lebesgue。分工而非替代。

练习¶

（证明题，草稿纸完成） 用 §8 的反例 $f_n=\mathbf{1}_{\{q_1,\dots,q_n\}}\uparrow\mathbf{1}_{\mathbb{Q}}$ 说明：Riemann 可积函数空间在逐点极限下不封闭。再说明它在 $\|\cdot\|_1$ 下也不完备（构造一个 Riemann 可积函数的 $L^1$-Cauchy 列，其极限非 Riemann 可积）。这是定理 9.1 优势表中"完备性"一栏的直接验证。
（开放思考题） 反例 9.3 中 $\sin x/x$ 条件收敛。请用"正负部分别积分"的视角解释：$\int_0^\infty(\sin x/x)^+\,dx=\int_0^\infty(\sin x/x)^-\,dx=\infty$，两者相减是 $\infty-\infty$（无定义），但按 $x$ 从小到大的顺序求和（广义 Riemann）却收敛到 $\pi/2$。这说明条件收敛积分的值**依赖求和顺序**——为什么这与 Fubini（§10 要交换积分顺序）天然冲突？

§10 积测度与 Fubini–Tonelli 定理 ⭐⭐⭐¶

动机：多重积分能拆成累次积分吗？¶

机器人学里大量的积分是**多变量**的：SLAM 的联合后验在"位姿 × 地图"空间上，要对地图变量积分掉（边际化）；因子图的消息传递要对邻居变量求和-积分。这些都隐含一个操作：把高维积分 $\iint f(x,y)\,d(x,y)$ 拆成累次积分 $\int\big(\int f\,dy\big)dx$，先积一个变量再积另一个。这个拆分什么时候合法？积分顺序能换吗？Fubini–Tonelli 定理给出精确答案——答错会导致 SLAM 边际化出系统性错误。

反面：积分顺序不能随便换¶

先看一个警告性的反例，它说明"想当然地交换积分顺序"会出错。

反例 10.1（累次积分不相等）：在 $(0,1]^2$ 上取 $f(x,y)=\dfrac{x^2-y^2}{(x^2+y^2)^2}$。则 $$\int_0^1\Big(\int_0^1 f\,dy\Big)dx=\frac\pi4,\qquad\int_0^1\Big(\int_0^1 f\,dx\Big)dy=-\frac\pi4.$$ 两个累次积分一正一负，不相等！

毛病在哪？计算可知 $\iint|f|\,dx\,dy=\infty$——$f$ 不绝对可积。Fubini 定理的前提（绝对可积）失效，所以交换顺序非法。这个反例是悬在所有"想换积分顺序"的人头上的剑：不检查绝对可积性就交换，结果可能符号都反了。

历史¶

Fubini（1907）证明了绝对可积情形的累次积分定理；Tonelli（1909）补上了非负但未必可积情形的版本（只需可测 + 非负，不需先验可积）。两者合称 Fubini–Tonelli，是多重积分理论的支柱。

理论：积 $\sigma$-代数与积测度¶

定义 10.2（积 $\sigma$-代数与积测度）：给定 $(X,\mathcal{A},\mu)$、$(Y,\mathcal{B},\nu)$。 - 积 $\sigma$-代数 $\mathcal{A}\otimes\mathcal{B}:=\sigma(\{A\times B:A\in\mathcal{A},B\in\mathcal{B}\})$，由"可测矩形"生成。 - 积测度 $\mu\times\nu$：在可测矩形上定义 $(\mu\times\nu)(A\times B)=\mu(A)\,\nu(B)$，经 Carathéodory 扩张（§4）到 $\mathcal{A}\otimes\mathcal{B}$。$\sigma$-有限下此扩张唯一（$\pi$-$\lambda$ 定理）。

这里又一次用到 §4 的扩张引擎和 §2 的 $\pi$-$\lambda$ 唯一性——积测度的存在唯一性不是天经地义，而是这两台机器的产物。$\sigma$-有限是关键前提。

理论：单调类定理（积分版的归纳工具）¶

证明 Fubini 需要一个"对所有可测集成立"的归纳工具，类似 $\pi$-$\lambda$。

定理 10.3（单调类定理）：若 $\mathcal{A}_0$ 是代数，$\mathcal{M}(\mathcal{A}_0)$ 是包含 $\mathcal{A}_0$ 的最小**单调类**（对递增并、递减交封闭），则 $\mathcal{M}(\mathcal{A}_0)=\sigma(\mathcal{A}_0)$。

它的用法和 $\pi$-$\lambda$ 一样：要证某性质对 $\sigma(\mathcal{A}_0)$ 成立，先证它对代数 $\mathcal{A}_0$ 成立，再证"满足该性质的集合构成单调类"。下面 Tonelli 证明的第一步正是如此。

理论：Tonelli 定理（非负情形）¶

定理 10.4（Tonelli）：设 $\mu,\nu$ 为 $\sigma$-有限测度，$f:X\times Y\to[0,\infty]$ 为 $\mathcal{A}\otimes\mathcal{B}$-可测。则切片函数 $x\mapsto\int_Y f(x,y)\,d\nu(y)$ 是 $\mathcal{A}$-可测的（$y$ 切片对称），且三个积分相等： $$\int_{X\times Y}f\,d(\mu\times\nu)=\int_X\Big(\int_Y f(x,y)\,d\nu(y)\Big)d\mu(x)=\int_Y\Big(\int_X f(x,y)\,d\mu(x)\Big)d\nu(y).$$

证明（三步，逐级推广）： 1. 指示函数 $f=\mathbf{1}_E$：令 $\mathcal{M}=\{E\in\mathcal{A}\otimes\mathcal{B}:$ 两个累次积分都等于 $(\mu\times\nu)(E)\}$。可验证 $\mathcal{M}$ 含一切可测矩形（$\mathbf{1}_{A\times B}$ 的累次积分显然 $=\mu(A)\nu(B)$），且是单调类（用 MCT 处理递增并、有限性处理递减交）。由单调类定理 $\mathcal{M}=\mathcal{A}\otimes\mathcal{B}$，即对一切可测 $E$ 成立。 2. 非负简单函数：由第 1 步 + 积分线性性（有限和）立得。 3. 非负可测 $f$：取简单函数 $\varphi_n\nearrow f$（定理 6.4），对内外积分各用一次 MCT、对重积分用一次 MCT，三次极限交换后得证。$\quad\blacksquare$

Tonelli 的关键便利：它**只需非负 + 可测**，不需预先知道 $f$ 可积。所以实践中先用 Tonelli 对 $|f|$ 算累次积分，若有限就知道 $f$ 绝对可积，再用 Fubini——这是处理多重积分的标准两步。

理论：Fubini 定理（绝对可积情形）¶

定理 10.5（Fubini）：设 $\mu,\nu$ $\sigma$-有限，$f\in L^1(\mu\times\nu)$（即 $\iint|f|<\infty$）。则 a.e. $x$ 处切片 $f(x,\cdot)\in L^1(\nu)$，累次积分存在且等于重积分（三式相等，与 Tonelli 同形）。

证明：先对 $|f|\ge0$ 用 Tonelli，由 $f\in L^1$ 得累次积分有限，故 a.e. 切片可积。再对 $f^+,f^-$（都 $\le|f|$ 故可积）分别用 Tonelli，相减即得。$\quad\blacksquare$

本质洞察：Fubini 与 Tonelli 是一枚硬币的两面——Tonelli 管非负（不问可积，可能得 $\infty$），Fubini 管绝对可积（先验证 $\int|f|<\infty$）。实践黄金法则：永远先用 Tonelli 对 $|f|$ 验证绝对可积性，确认有限后才用 Fubini 交换顺序。反例 10.1 正是跳过这一步的恶果。这个"先 Tonelli 验绝对可积、再 Fubini 换序"的纪律，是处理一切多重积分（SLAM 边际化、卷积、期望的累次计算）的安全带。

理论：两个不可省条件的反例¶

反例 10.6（缺绝对可积）：反例 10.1 的 $f=\frac{x^2-y^2}{(x^2+y^2)^2}$，$\iint|f|=\infty$，两累次积分 $\pm\pi/4$ 不等。

反例 10.7（缺 $\sigma$-有限）：$X=Y=[0,1]$，$\mu=$ Lebesgue，$\nu=$ 计数测度（非 $\sigma$-有限）。取 $f=\mathbf{1}_\Delta$（对角线 $\Delta=\{(x,x)\}$ 的指示）。则 $\int_X\int_Y f\,d\nu\,d\mu=\int_X 1\,d\mu=1$（每条竖线交对角线一点，计数测度为 1），而 $\int_Y\int_X f\,d\mu\,d\nu=\int_Y 0\,d\nu=0$（每条横线交对角线一点，Lebesgue 测度为 0）。两累次积分 $1\ne0$——$\sigma$-有限性不可省。

机器人应用：SLAM 边际化、Rao–Blackwell 化、因子图¶

Fubini 是 SLAM 后端一系列核心操作的合法性来源。

(1) 地图边际化：完整 SLAM 后验 $p(x_{0:T},m\mid z_{1:T})$ 同时含轨迹 $x_{0:T}$ 与地图 $m$。要得到纯轨迹后验，需把地图积分掉： $$ p(x_{0:T}\mid z_{1:T})=\int p(x_{0:T},m\mid z_{1:T})\,dm. $$ 这是 Fubini——在乘积空间"轨迹 × 地图"上对地图变量做边缘化。合法性要求被积的联合后验绝对可积（归一化的概率密度自动满足）。

(2) FastSLAM 的 Rao–Blackwell 化：FastSLAM 的核心分解 $$ p(x_{0:t},m\mid z_{1:t})=p(x_{0:t}\mid z_{1:t})\cdot p(m\mid x_{0:t},z_{1:t}) $$ 把"轨迹 × 地图"的联合分解为"轨迹边际 × 给定轨迹的地图条件"。给定轨迹后地图各路标条件独立，可解析（EKF）处理，于是只需对低维轨迹用粒子滤波——把高维粒子代价压到低维。这个分解和后续的期望计算（Rao–Blackwell 化降方差）依赖 Fubini 交换"对轨迹积分"与"对地图积分"的顺序。

(3) 因子图 sum-product：因子图上的消息传递，每一步"对一个变量求和/积分掉"再传给邻居，本质是 Fubini 的反复应用——把全局边际拆成局部积分的累次执行。

本质洞察：SLAM 后端的"边际化""消元""消息传递"听起来是工程操作，其数学本体都是 Fubini 定理——把高维联合积分拆成可计算的低维累次积分。Fubini 保证了"先消地图还是先消某段位姿"在绝对可积时结果一致，这是各种消元顺序（如 Cholesky 分解的变量排序、因子图的 elimination ordering）能自由选择的理论根据。警示：若用了未归一化的位势或重尾似然（不绝对可积），交换积分顺序可能像反例 10.1 那样给出错误结果——这在实现自定义因子时是真实的陷阱。

⚠️ 常见陷阱¶

陷阱 10.1（思维陷阱）：不验证绝对可积就交换积分顺序 - 错误描述：直接写 $\int\int f\,dy\,dx=\int\int f\,dx\,dy$，不检查 $\iint|f|<\infty$。 - 现象/后果：反例 10.1 给出 $\pi/4\ne-\pi/4$——结果连符号都错。在 SLAM 边际化中可能得到错误后验。 - 根本原因：Fubini 要求绝对可积；条件收敛或非可积时累次积分依赖顺序。 - 正确做法：永远"先 Tonelli 验 $\iint|f|<\infty$、再 Fubini 换序"。对概率密度（归一化、非负）通常自动满足，但自定义未归一化位势/重尾似然必须显式检查。

陷阱 10.2（概念误区）：忽视 $\sigma$-有限性前提 - 错误描述：对含计数测度等非 $\sigma$-有限测度的乘积套用 Fubini。 - 现象/后果：反例 10.7 的对角线给出 $1\ne0$——累次积分不等。 - 根本原因：积测度的唯一性与 Fubini 都要 $\sigma$-有限（保证 Carathéodory 扩张唯一、单调类论证成立）。 - 正确做法：确认两个测度都 $\sigma$-有限。Lebesgue $\times$ Lebesgue、概率 $\times$ 概率都满足；涉及计数测度（离散无限）时小心。机器人混合状态（离散标签 × 连续位姿）里，离散部分若有限则计数测度有限、安全。

陷阱 10.3（概念误区）：把"切片可测"当成理所当然 - 错误描述：默认 $f$ 在乘积空间可测就保证每个切片 $f(x,\cdot)$ 可测、切片积分作为 $x$ 的函数可测。 - 现象/后果：在非 $\sigma$-有限或非乘积可测的构造里，切片可测性可能失效，累次积分无定义。 - 根本原因：切片可测性是 Tonelli/Fubini 的结论（需 $\sigma$-有限 + 乘积可测），不是无条件成立的。 - 正确做法：确认 $f$ 是积 $\sigma$-代数 $\mathcal{A}\otimes\mathcal{B}$-可测（而非仅各分量可测），并在 $\sigma$-有限下应用定理，切片可测性随之保证。

练习¶

（证明题，草稿纸完成） 用 Tonelli 证明 §7 的 Layer-cake 公式 $\int f\,d\mu=\int_0^\infty\mu(\{f>t\})\,dt$（非负 $f$）。提示：在 $X\times[0,\infty)$ 上对 $\mathbf{1}_{\{(x,t):t<f(x)\}}$ 用 Tonelli，两个累次积分分别给出公式两边。这是 §7 留下的"待 §10 严格化"的债。
（推导题） 验证反例 10.1：对 $f=\frac{x^2-y^2}{(x^2+y^2)^2}$，先验证 $\frac{\partial}{\partial y}\big(\frac{-y}{x^2+y^2}\big)=f$，由此算内层 $\int_0^1 f\,dy=\frac{1}{1+x^2}$，再算 $\int_0^1\frac{dx}{1+x^2}=\frac\pi4$。对称地算另一顺序得 $-\frac\pi4$。最后说明 $\iint|f|=\infty$（提示：极坐标下 $|f|\sim1/r^2$，在原点附近不可积）。
（跨节综合题） 结合 §6 可测函数、§7 期望与本节 Fubini：证明独立随机变量的期望乘积公式 $\mathbb{E}[XY]=\mathbb{E}[X]\mathbb{E}[Y]$（当 $X,Y$ 独立且都可积）。提示：独立 $\iff$ 联合分布 $P_{(X,Y)}=P_X\times P_Y$ 是积测度；对 $\int xy\,d(P_X\times P_Y)$ 用 Fubini 拆成 $\big(\int x\,dP_X\big)\big(\int y\,dP_Y\big)$。这把"独立"的测度论定义（积测度）与"期望可乘"的实用结论连起来。

§11 符号测度与 Hahn–Jordan 分解 ⭐⭐⭐¶

动机：为 Radon–Nikodym 铺路¶

到目前为止测度都非负。但下一节（§12）要证的 Radon–Nikodym 定理——机器人概率方法的最核心定理——其证明需要处理形如 $\nu-t\mu$ 的"测度之差"，这可能取负值。能取负值的"测度"叫**符号测度**。本节建立符号测度的分解理论（Hahn–Jordan），它是 §12 的技术前提。这是一节承上启下的"工具节"，篇幅相对紧凑。

历史与直觉¶

符号测度的直觉是"带正负的质量分布"——比如电荷分布（有正负电荷）、奖励塑形里的正负奖励、或两个概率测度之差 $P-Q$。Hahn（1921）和 Jordan 证明了任何符号测度都能干净地分成"纯正部分"和"纯负部分"，就像把电荷分布分成正电荷区和负电荷区。

理论：符号测度与正负集¶

定义 11.1（符号测度）：$\nu:\mathcal{M}\to[-\infty,\infty]$ 称为**符号测度**，若 $\nu(\varnothing)=0$、$\nu$ 至多取 $+\infty$ 与 $-\infty$ 之一（避免 $\infty-\infty$）、且对不交可数并满足可数可加（级数绝对收敛或确定发散到一侧）。

定义 11.2（正集/负集）：可测集 $P$ 称为 $\nu$-正集，若 $\nu(E)\ge0$ 对一切可测 $E\subseteq P$；$\nu$-**负集**对称定义。

注意正集不是"$\nu(P)\ge0$"那么简单——它要求 $P$ 的**每个**可测子集都非负。这排除了"整体为正但内部有负区域"的情形。

理论：Hahn 分解与 Jordan 分解¶

定理 11.3（Hahn 分解）：对每个符号测度 $\nu$，存在可测划分 $X=P\sqcup N$，$P$ 为正集、$N$ 为负集。此分解在 $\nu$-零测集意义下唯一。

证明骨架：设 $\nu$ 不取 $-\infty$（另一情形对称）。令 $m=\inf\{\nu(E):E\text{ 可测}\}\ge-\infty$，取 $E_n$ 使 $\nu(E_n)\to m$。从每个 $E_n$ 中"剔除其正子集"得到"尽可能负"的集合，用一个极值论证（对 $E_n$ 的某种组合取极限）构造负集 $N$ 使 $\nu(N)=m$，则 $P=N^c$ 必为正集（否则 $P$ 含负子集会使 $\nu$ 取到比 $m$ 更小的值，矛盾）。$\quad\blacksquare$

定理 11.4（Jordan 分解）：符号测度 $\nu$ 唯一分解为两个互奇异的正测度之差： $$\nu=\nu^+-\nu^-,\qquad \nu^+(E)=\nu(E\cap P),\ \nu^-(E)=-\nu(E\cap N),\qquad\nu^+\perp\nu^-.$$ 全变差测度 $|\nu|:=\nu^++\nu^-$；全变差范数 $\|\nu\|:=|\nu|(X)$。

$\nu^+$ 是"正部"（把质量集中在正集 $P$ 上），$\nu^-$ 是"负部"。它们互奇异（$\nu^+$ 活在 $P$、$\nu^-$ 活在 $N$，互不重叠）。全变差 $|\nu|$ 把正负质量都算成正的总量。

划分刻画：$|\nu|(E)=\sup\{\sum_i|\nu(E_i)|:\{E_i\}\text{ 是 }E\text{ 的可测有限划分}\}$。

这个刻画与泛函分析中向量测度的全变差定义一致，也是符号测度空间 $M(X)$ 成为 Banach 空间（范数 $\|\cdot\|$）的基础。

本质洞察：Jordan 分解是把"带正负的测度"还原成"两个正测度"的标准手术。它让符号测度的积分 $\int f\,d\nu=\int f\,d\nu^+-\int f\,d\nu^-$ 有定义（化归到正测度上的积分），也让 §12 的 Radon–Nikodym 能用正测度的工具处理 $\nu-t\mu$ 这种符号测度。可以说，Hahn–Jordan 是连接"符号测度"与"正测度理论"的桥——没有它，§12 寸步难行。

机器人应用：奖励塑形与 R–N 前提¶

奖励塑形（reward shaping）：强化学习里为加速学习常用势函数塑形 $r'(s,a,s')=r(s,a,s')+\gamma\Phi(s')-\Phi(s)$。塑形项 $\gamma\Phi(s')-\Phi(s)$ 可正可负，把它看成状态空间上的符号测度，Hahn 分解能界定"塑形的正部/负部"分别集中在哪些状态——这对分析塑形是否保持最优策略不变（potential-based shaping 的理论）有帮助。

但符号测度对本章更重要的角色是**技术前提**：§12 的 Radon–Nikodym 定理（经典证法）要对符号测度 $\nu-t\mu$ 做 Hahn 分解，找出其正集来构造导数。没有本节，§12 的经典证明无法进行。

本质洞察：两个概率测度之差 $P-Q$ 是符号测度，其全变差 $\|P-Q\|_{\mathrm{TV}}=\frac12|P-Q|(X)$ 就是机器人/RL 里常用的**全变差距离**（total variation distance）——衡量两个策略、两个分布的差异。TRPO/PPO 的信赖域、分布漂移的度量都用到它。所以本节不只是 §12 的铺垫，全变差本身就是策略优化里的实用工具。

⚠️ 常见陷阱¶

陷阱 11.1（概念误区）：把"$\nu(P)\ge0$"当成"$P$ 是正集" - 错误描述：以为整体测度非负的集合就是正集。 - 现象/后果：在 Hahn 分解里错误地取正集，导致分解错误。 - 根本原因：正集要求**每个**可测子集都非负，比"整体非负"强得多。整体正的集合内部可能有负区域。 - 正确做法：正集 $P$ 的定义是 $\forall E\subseteq P,\nu(E)\ge0$。验证正集需排除内部负子集。Hahn 分解的 $P,N$ 满足这个强条件。

陷阱 11.2（思维陷阱）：混淆 $\nu(E)$、$|\nu|(E)$、$\|\nu\|$ - 错误描述：把符号测度的值 $\nu(E)$（可正可负）、全变差测度 $|\nu|(E)$（非负）、全变差范数 $\|\nu\|=|\nu|(X)$（一个数）混用。 - 现象/后果：在估计或不等式里用错量，如把 $|\nu(E)|$ 当 $|\nu|(E)$（前者 $\le$ 后者，可严格小）。 - 根本原因：$|\nu(E)|=|\nu^+(E)-\nu^-(E)|\le\nu^+(E)+\nu^-(E)=|\nu|(E)$，正负可能相互抵消。 - 正确做法：分清三者。$\nu(E)$ 是净值，$|\nu|(E)$ 是总量（正负都算正），$\|\nu\|$ 是全空间总量（一个标量，符号测度空间的范数）。全变差距离用 $|\nu|$ 而非 $|\nu(\cdot)|$。

练习¶

（证明题，草稿纸完成） 证明 Jordan 分解的唯一性：若 $\nu=\mu_1-\mu_2=\nu^+-\nu^-$ 是两个"互奇异正测度之差"的分解，则 $\mu_1=\nu^+$、$\mu_2=\nu^-$。提示：用互奇异性 $\nu^+\perp\nu^-$ 找出各自的支撑集，比较在支撑集上的取值。
（推导题） 设 $X=[-1,1]$，$\nu(E)=\int_E x\,d\lambda(x)$（以 $x$ 为"密度"的符号测度）。求它的 Hahn 分解 $P,N$、Jordan 分解 $\nu^+,\nu^-$、全变差 $|\nu|$ 和范数 $\|\nu\|$。（答案提示：$P=[0,1]$，$N=[-1,0]$，$\|\nu\|=\int_{-1}^1|x|\,dx=1$。）
（开放思考题） 全变差距离 $\|P-Q\|_{\mathrm{TV}}=\sup_{E}|P(E)-Q(E)|$（等价于 $\frac12|P-Q|(X)$）。请证明这个 $\sup$ 在 $E=\{$ $P$ 密度 $\ge Q$ 密度 $\}$（即 Hahn 分解的正集）处取到。讨论：为什么 RL 里用全变差或 KL 散度（§12）而非欧氏距离来度量策略差异？（提示：策略是分布，分布间的"距离"必须对测度敏感而非对参数敏感。）

§12 Radon–Nikodym 定理与 Lebesgue 分解 ⭐⭐⭐⭐¶

动机：贝叶斯更新、重要性采样、Girsanov、KL——都是同一个导数¶

这是本章机器人密度最高的一节，也是承重墙中的承重墙。前面 §5 说"概率密度 $=\dfrac{dP}{d\lambda}$"，但当时只是预告。本节正式定义并证明 Radon–Nikodym 导数 $\dfrac{d\nu}{d\mu}$ 的存在唯一性——它是"一个测度相对另一个测度的密度"。一旦掌握，你会震惊地发现机器人概率方法里四件看似无关的事其实是**同一个 R–N 导数**：

贝叶斯更新：后验相对先验的密度 $\dfrac{dP(\cdot\mid z)}{dP}$；
重要性采样权：目标相对提议分布的密度 $\dfrac{d\pi}{dq}$；
Girsanov 测度变换：受控相对被动 Wiener 测度的密度 $\dfrac{d\mathbb{Q}}{d\mathbb{P}}$（路径积分控制）；
KL 散度/Fisher 信息：$D(P\|Q)=\int\log\dfrac{dP}{dQ}\,dP$（TRPO/PPO 信赖域）。

把这四件事统一成 R–N 导数，是测度论给机器人学最深刻的礼物之一。

反面：没有 R–N 会怎样¶

如果没有 R–N 定理，"密度"就只是欧氏空间上的特殊技巧，无法推广。混合状态（离散标签 + 连续位姿）下贝叶斯更新的分母 $\int p(z\mid x')\,dP(x')$ 既非求和也非欧氏积分，你不知道更新公式的合法形式；流形状态（$\mathrm{SO}(3)$）下根本没有 Lebesgue 测度做密度的分母；测度变换（Girsanov）无从定义。R–N 定理把"密度"从欧氏空间的具体技巧提升为任意两个测度间的抽象关系，覆盖所有这些情形。

理论：绝对连续与互奇异¶

定义 12.1：设 $\mu,\nu$ 为同一可测空间上的测度。 - 绝对连续 $\nu\ll\mu$：$\mu(E)=0\Rightarrow\nu(E)=0$（$\mu$ 忽略的集合 $\nu$ 也忽略）。 - 互奇异 $\nu\perp\mu$：存在划分 $X=A\sqcup B$ 使 $\nu(A)=0$、$\mu(B)=0$（两测度"住在不同地方"）。

绝对连续与互奇异是两个极端：前者"$\nu$ 完全被 $\mu$ 主导"，后者"$\nu$ 与 $\mu$ 毫无重叠"。Gauss 分布相对 Lebesgue 绝对连续；退化 Gauss（坍缩到子空间）相对 Lebesgue 互奇异（住在零测子空间上）。

理论：Radon–Nikodym 定理¶

定理 12.2（Radon–Nikodym）：设 $\mu,\nu$ 为 $\sigma$-有限测度，$\nu\ll\mu$。则存在非负可测函数 $f:X\to[0,\infty)$，$\mu$-a.e. 唯一，使 $$\nu(E)=\int_E f\,d\mu\qquad\forall E\in\mathcal{M}.$$ 记 $f=\dfrac{d\nu}{d\mu}$，称 Radon–Nikodym 导数。

这个 $f$ 就是"$\nu$ 相对 $\mu$ 的密度"——它告诉你在每一点 $\nu$ 比 $\mu$ "浓"多少倍。

理论：von Neumann 的 $L^2$ 投影证法（优雅、短）¶

R–N 有多种证法，von Neumann 用 Hilbert 空间投影的证法最优雅，且揭示了 R–N 与 $L^2$（§13）的深刻联系。这个证法预示了"Kalman = $L^2$ 投影"的主题。

证明（六步）：

归约到有限测度：$\sigma$-有限下把空间切成可数个有限块分别处理再拼接，故不妨设 $\mu,\nu$ 有限。
构造辅助测度与有界泛函：令 $\varphi=\mu+\nu$（有限测度）。在 Hilbert 空间 $L^2(\varphi)$ 上定义线性泛函 $\Lambda g=\int g\,d\nu$。由 Cauchy–Schwarz，$|\Lambda g|=|\int g\,d\nu|\le\big(\int|g|^2\,d\nu\big)^{1/2}\nu(X)^{1/2}\le\nu(X)^{1/2}\|g\|_{L^2(\varphi)}$（因 $\nu\le\varphi$），故 $\Lambda$ 有界。
Riesz 表示：由 Hilbert 空间的 Riesz 表示定理（§13），存在 $h\in L^2(\varphi)$ 使 $\Lambda g=\langle g,h\rangle_\varphi=\int gh\,d\varphi$。即对一切 $g\in L^2(\varphi)$： $$ \int g\,d\nu=\int gh\,d\varphi=\int gh\,d\mu+\int gh\,d\nu \Longrightarrow \int g(1-h)\,d\nu=\int gh\,d\mu. $$
定位 $h$ 的范围：取 $g=\mathbf{1}_E$ 代入分析可证 $0\le h\le1$ $\varphi$-a.e.（否则在 $h<0$ 或 $h>1$ 的集合上取 $g$ 会矛盾）。令 $A=\{h<1\}$、$B=\{h=1\}$。
奇异部分（在 $B$ 上）：取 $g=\mathbf{1}_B$，左边 $\int_B(1-h)\,d\nu=0$，右边 $\int_B h\,d\mu=\mu(B)$，故 $\mu(B)=0$。这部分 $\nu_s:=\nu|_B$ 集中在 $\mu$-零测集 $B$ 上，故 $\nu_s\perp\mu$。
绝对连续部分（在 $A$ 上）：迭代代入 $g=\mathbf{1}_E(1+h+h^2+\cdots+h^n)$（利用 $0\le h<1$ 于 $A$），等比求和取极限（MCT），得 $$ \nu_{ac}(E)=\int_E\frac{h}{1-h}\mathbf{1}_A\,d\mu,\qquad\text{即}\quad f=\frac{h}{1-h}\mathbf{1}_A. $$ 由 $\nu\ll\mu$ 知 $\nu_s=0$，故 $\nu=\nu_{ac}$，$f$ 即所求。$\quad\blacksquare$

本质洞察：von Neumann 证法的精髓是——把"测度的导数"问题转化为"Hilbert 空间里的投影"问题。R–N 导数的存在性，本质上是 $L^2$ 完备性（Riesz 表示，§13）的推论。这条暗线 [R–N ⟸ Riesz 表示 ⟸ $L^2$ 完备] 在 §13 会反向呼应——那里 $(L^p)^*\cong L^q$ 的证明又**用 R–N**。两个定理互为表里，共同支撑起 Kalman 滤波（$L^2$ 投影）与贝叶斯更新（R–N 导数）这对机器人滤波的孪生支柱。

理论：Lebesgue 分解定理与链式法则¶

定理 12.3（Lebesgue 分解）：$\mu,\nu$ $\sigma$-有限 $\Rightarrow$ 唯一分解 $\nu=\nu_{ac}+\nu_s$，其中 $\nu_{ac}\ll\mu$、$\nu_s\perp\mu$。

von Neumann 证法第 5、6 步其实**同时**给出了 R–N 与 Lebesgue 分解——$A$ 上的部分是绝对连续分量，$B$ 上的是奇异分量。

链式法则：$\lambda\ll\nu\ll\mu\Rightarrow\dfrac{d\lambda}{d\mu}=\dfrac{d\lambda}{d\nu}\cdot\dfrac{d\nu}{d\mu}$ $\mu$-a.e.

链式法则让 R–N 导数像普通导数一样"链式相乘"——这是重要性采样、序贯贝叶斯更新里"权重相乘"的根据。

$\sigma$-有限不可省（反例）：$X=[0,1]$，$\mu=$ Lebesgue、$\nu=$ 计数测度（非 $\sigma$-有限）。虽 $\mu\ll\nu$（计数测度只在空集为零），但**不存在** $f$ 使 $\mu(E)=\sum_{x\in E}f(x)$——单点测度 $\mu(\{x\})=0$ 要求 $f(x)=0$ 处处，但那给出 $\mu\equiv0$，矛盾。$\sigma$-有限性不可省。

机器人应用：四合一的 R–N 导数¶

现在兑现开头的承诺——把四件机器人大事统一成 R–N 导数。

(1) 贝叶斯更新 = 后验对先验的 R–N 导数。 给定观测 $z$，后验测度 $P(\cdot\mid z)$ 相对先验 $P$ 的 R–N 导数是 $$ \frac{dP(\cdot\mid z)}{dP}(x)=\frac{p(z\mid x)}{\int p(z\mid x')\,dP(x')}. $$ 这就是贝叶斯定理的测度论形式——不依赖密度是否存在，对混合状态、流形状态一律成立。分子是似然，分母是归一化常数（证据）。SLAM 后验的递推 $\dfrac{d\pi_t}{d\pi_{t-1}}\propto p(z_t\mid x_t)$ 是 R–N 导数的逐步累乘（用链式法则）。

(2) 重要性采样权 = 目标对提议的 R–N 导数。 无法直接从目标分布 $\pi$ 采样时，从提议分布 $q$ 采样并加权，权重就是 R–N 导数的样本值： $$ w^{(i)}\propto\frac{d\pi}{dq}(x^{(i)}),\qquad x^{(i)}\sim q. $$ 自归一化重要性采样 $\hat{\mathbb{E}}_\pi[\varphi]=\dfrac{\sum_i w^{(i)}\varphi(x^{(i)})}{\sum_i w^{(i)}}$ 的无偏性/一致性证明，依赖 R–N 导数的乘法与链式性质。要求 $\pi\ll q$——提议分布的支撑必须覆盖目标（否则某些区域权重无定义），这是重要性采样"提议分布要够宽"的理论根据。

(3) Girsanov 定理 = 测度变换的 R–N 导数（路径积分控制）。 在受控扩散 $dX_t=u_t\,dt+dW_t$ 中，受控过程的 Wiener 测度 $\mathbb{Q}$ 相对被动过程（$u\equiv0$）的 Wiener 测度 $\mathbb{P}$ 的 R–N 导数是指数鞅： $$ \frac{d\mathbb{Q}}{d\mathbb{P}}=\exp\Big(\int_0^T u_s^\top\,dW_s-\tfrac12\int_0^T|u_s|^2\,ds\Big). $$ 这是**路径积分控制**（$\text{PI}^2$、MPPI）的数学核心——它把"控制的影响"编码成路径空间上的测度变换，从而能用蒙特卡洛在被动动力学下采样、用 R–N 导数加权来评估受控代价。MPPI 在四足、无人机上的成功，底层就是这个 Girsanov R–N 导数（搜索确认：Girsanov 通过 R–N 导数把含漂移的布朗运动变成标准布朗运动，控制问题里把控制吸收进测度变换）。

(4) KL 散度 = R–N 导数的对数期望（信息几何/信赖域）。 两个测度的 Kullback–Leibler 散度 $$ D(P|Q)=\int\log\frac{dP}{dQ}\,dP=\mathbb{E}_P\Big[\log\frac{dP}{dQ}\Big] $$ 只有当 $P\ll Q$ 时才有限（否则 $\frac{dP}{dQ}$ 在某处无定义，$D=\infty$）。它定义了概率分布流形上的"信息距离"，是 TRPO/PPO 信赖域约束 $D(\pi_{\text{new}}\|\pi_{\text{old}})\le\delta$ 的核心——限制策略更新步长以保证单调改进。Fisher 信息矩阵是 KL 散度的二阶 Taylor 系数，定义了信息几何的黎曼度量（自然梯度）。

本质洞察：贝叶斯更新、重要性采样、Girsanov、KL 散度——四件机器人概率方法的核心操作，数学本体都是**一个测度相对另一个测度的 Radon–Nikodym 导数**。这不是巧合或类比，而是字面的同一。一旦你把它们看成同一个 $\dfrac{d\nu}{d\mu}$，许多看似独立的技巧（贝叶斯递推的权重累乘、重要性采样的链式权重、Girsanov 的指数权重）就统一成 R–N 导数的链式法则与乘法性质。绝对连续性 $\nu\ll\mu$ 是所有这些操作的共同前提——它在贝叶斯里是"似然非病态"、在重要性采样里是"提议覆盖目标"、在 KL 里是"两分布支撑兼容"。理解了这一点，你就掌握了机器人概率方法的统一语言。

⚠️ 常见陷阱¶

陷阱 12.1（概念误区）：忽视绝对连续性 $\nu\ll\mu$ 前提 - 错误描述：不检查 $\nu\ll\mu$ 就谈 R–N 导数 $\frac{d\nu}{d\mu}$。 - 现象/后果：在退化分布（$P$ 坍缩到 $\lambda$-零测子空间）、不兼容支撑（重要性采样提议 $q$ 不覆盖目标 $\pi$）下，R–N 导数不存在，强行计算得发散或无定义；KL 散度 $=\infty$。 - 根本原因：R–N 导数仅在 $\nu\ll\mu$ 时存在。退化 Gauss $\perp\lambda$（互奇异）而非 $\ll\lambda$，故无密度。 - 正确做法：用 R–N 前验证绝对连续。重要性采样确保 $\mathrm{supp}(\pi)\subseteq\mathrm{supp}(q)$；处理退化分布时回到测度层面（Lebesgue 分解分出奇异部分）或换参照测度。

陷阱 12.2（思维陷阱）：把 R–N 导数当成普通函数随意运算 - 错误描述：忘记 R–N 导数只是 $\mu$-a.e. 唯一，在零测集上随意取值或比较。 - 现象/后果：在零测集上的不同取值导致"两个 R–N 导数不等"的假象；逐点比较两个导数时出错。 - 根本原因：$\frac{d\nu}{d\mu}$ 只确定到 $\mu$-a.e.——在 $\mu$-零测集上可任意改值不影响积分。 - 正确做法：R–N 导数的等式、不等式都在 a.e. 意义下理解。链式法则、乘法性质都是 a.e. 成立。涉及具体点值时（如某状态的密度）要意识到这只是一个 a.e. 代表元。

陷阱 12.3（概念误区）：混淆"绝对连续"与"连续" - 错误描述：把测度的绝对连续 $\nu\ll\mu$ 与函数的连续性混为一谈。 - 现象/后果：误以为绝对连续测度的密度必连续（实际可只可测、可有跳跃）。 - 根本原因：$\nu\ll\mu$ 是测度间的关系（$\mu$ 零测 $\Rightarrow\nu$ 零测），与密度函数 $\frac{d\nu}{d\mu}$ 的连续性无关——密度可以是任意非负可测函数（含阶跃）。 - 正确做法：分清两个"绝对连续"——测度的绝对连续（本节 $\nu\ll\mu$）与函数的绝对连续（§15 的 AC 函数）。它们有联系（§15 末：$f$ AC $\iff\mu_f\ll\lambda$）但不是同一概念。

练习¶

（证明题，草稿纸完成） 证明 R–N 导数的链式法则 $\frac{d\lambda}{d\mu}=\frac{d\lambda}{d\nu}\cdot\frac{d\nu}{d\mu}$ a.e.（$\lambda\ll\nu\ll\mu$）。提示：对任意 $E$，$\lambda(E)=\int_E\frac{d\lambda}{d\nu}\,d\nu=\int_E\frac{d\lambda}{d\nu}\frac{d\nu}{d\mu}\,d\mu$（第二步用"$\int g\,d\nu=\int g\frac{d\nu}{d\mu}\,d\mu$"，需先对简单函数证再 MCT），与 $\lambda(E)=\int_E\frac{d\lambda}{d\mu}\,d\mu$ 比较，由唯一性得证。
（推导题） 写出两个一维 Gauss $\mathcal{N}(\mu_1,\sigma^2)$ 与 $\mathcal{N}(\mu_2,\sigma^2)$ 之间的 R–N 导数 $\frac{dP_1}{dP_2}(x)$（同方差），并由此推导它们的 KL 散度 $D(P_1\|P_2)=\frac{(\mu_1-\mu_2)^2}{2\sigma^2}$。讨论：为什么方差不同（$\sigma_1\ne\sigma_2$）时 KL 散度多出一个对数项？这与 §5 退化 Gauss（$\sigma\to0$）时 KL 发散有何联系？
（跨节综合题） 结合 §10 Fubini、§11 全变差与本节 R–N：证明当 $P\ll Q$ 时全变差距离 $\|P-Q\|_{\mathrm{TV}}=\frac12\int\big|\frac{dP}{dQ}-1\big|\,dQ$。提示：用 Hahn 分解（§11）找出 $\frac{dP}{dQ}\ge1$ 与 $<1$ 的区域，在各区域上积分。再讨论：全变差距离与 KL 散度的关系（Pinsker 不等式 $\|P-Q\|_{\mathrm{TV}}\le\sqrt{D(P\|Q)/2}$）在 RL 信赖域里如何把 KL 约束转成全变差保证。

§13 $L^p$ 空间 ⭐⭐⭐¶

动机：Kalman 滤波到底是什么的"最优"？¶

你知道 Kalman 滤波给出"最优估计"，但**在什么意义下最优、为什么那个最优一定存在？** 答案是：Kalman 是 $L^2$ 空间（平方可积随机变量的 Hilbert 空间）中向"观测张成的子空间"的**正交投影**，而这个投影的存在性依赖 $L^2$ 的**完备性**。本节建立 $L^p$ 空间及其完备性（Riesz–Fischer），把 Kalman 重新理解为投影——这是测度论送给状态估计的最深洞察。

反面：在不完备空间里，最优估计可能不存在¶

设想在 Riemann 可积函数空间（不完备，§9）里找"最优估计"。最优估计是某个逼近序列的极限，但不完备意味着极限可能**掉出空间外**——最优估计不存在！正交投影定理严格要求子空间完备（闭）。所以 Kalman 的"最优估计存在"绝非理所当然，它是 $L^2$ 完备性的定理性结论。没有 Lebesgue 积分（Riemann 下空间不完备），Kalman 滤波在数学上无法成立。

理论：$L^p$ 空间的定义¶

定义 13.1：对 $1\le p<\infty$， $$L^p(X,\mu)=\Big\{f\text{ 可测}:\|f\|_p:=\Big(\int|f|^p\,d\mu\Big)^{1/p}<\infty\Big\}\Big/\sim,$$ 其中 $\sim$ 是"a.e. 相等"等价关系。$L^\infty=\{f:\|f\|_\infty:=\operatorname{ess\,sup}|f|<\infty\}$（本性上确界）。

理论：三大不等式¶

引理 13.2（Young 不等式）：$a,b\ge0$，$\frac1p+\frac1q=1$（$1<p<\infty$，称 $p,q$ 共轭）$\Rightarrow ab\le\frac{a^p}{p}+\frac{b^q}{q}$。

证明：对 $\log$ 用凹性（$\log$ 是凹函数，$\log(\frac{a^p}{p}+\frac{b^q}{q})\ge\frac1p\log a^p+\frac1q\log b^q=\log ab$）。

定理 13.3（Hölder 不等式）：$\int|fg|\,d\mu\le\|f\|_p\|g\|_q$（$\frac1p+\frac1q=1$）。

证明：归一化 $\tilde f=f/\|f\|_p$、$\tilde g=g/\|g\|_q$，对 $|\tilde f\tilde g|$ 逐点用 Young 再积分：$\int|\tilde f\tilde g|\le\int(\frac{|\tilde f|^p}{p}+\frac{|\tilde g|^q}{q})=\frac1p+\frac1q=1$。$p=q=2$ 时退化为 Cauchy–Schwarz。

定理 13.4（Minkowski 不等式）：$\|f+g\|_p\le\|f\|_p+\|g\|_p$（三角不等式）。

证明：$|f+g|^p\le|f+g|^{p-1}(|f|+|g|)$，两项分别用 Hölder（指数 $q=p/(p-1)$）。这条让 $\|\cdot\|_p$ 满足三角不等式，从而是范数。

理论：Riesz–Fischer 完备性定理¶

定理 13.5（Riesz–Fischer）：$1\le p\le\infty$ 时 $L^p(X,\mu)$ 是 Banach 空间（完备赋范空间）。$p=2$ 时 $L^2$ 是 Hilbert 空间（内积 $\langle f,g\rangle=\int f\bar g\,d\mu$）。

证明骨架（$1\le p<\infty$，五步）： 1. 取 Cauchy 列 $\{f_n\}$，抽**速收子列** $\{f_{n_k}\}$ 使 $\|f_{n_{k+1}}-f_{n_k}\|_p<2^{-k}$。 2. 令 $g_K=\sum_{k=1}^K|f_{n_{k+1}}-f_{n_k}|$，由 Minkowski $\|g_K\|_p\le\sum_k 2^{-k}\le1$。令 $g=\sup_K g_K$，由 MCT $\int g^p\le1$，故 $g\in L^p$ 且 $g<\infty$ a.e. 3. 在 $\{g<\infty\}$ 上级数 $\sum_k(f_{n_{k+1}}-f_{n_k})$ 绝对收敛，定义 $f:=f_{n_1}+\sum_k(f_{n_{k+1}}-f_{n_k})=\lim_k f_{n_k}$ a.e. 4. $|f-f_{n_k}|^p\le(|f|+g)^p\in L^1$，由 DCT $\|f_{n_k}-f\|_p\to0$。 5. Cauchy 列 + 子列收敛 $\Rightarrow$ 整列收敛 $\|f_n-f\|_p\to0$。$\quad\blacksquare$

本质洞察：Riesz–Fischer 完备性的证明里，MCT 和 DCT（§8）各用一次——这印证了"$L^p$ 完备性是收敛定理的产物"。而完备性反过来是 Kalman 投影、最小二乘存在性的前提。这条因果链 [可数可加 ⟹ MCT/DCT ⟹ $L^p$ 完备 ⟹ 投影存在 ⟹ Kalman] 把本章从第一条公理一路贯通到状态估计。Riemann 积分给不了第二环（无收敛定理），所以这条链在 Riemann 框架下断裂——这是 Kalman 滤波非要 Lebesgue 不可的终极理由。

理论：对偶性与稠密性¶

定理 13.6（$L^p$ 对偶）：$\sigma$-有限 + $1\le p<\infty$ $\Rightarrow(L^p)^*\cong L^q$（$\frac1p+\frac1q=1$），同构 $g\mapsto\Lambda_g(f)=\int fg\,d\mu$。

证明用 R–N（§12）：有界线性泛函 $\Lambda$ 定义集函数 $\nu_\Lambda(E)=\Lambda(\mathbf{1}_E)$，可证 $\nu_\Lambda\ll\mu$，R–N 给出密度 $g=\frac{d\nu_\Lambda}{d\mu}$，即 $\Lambda$ 的表示。这正是 §12 暗线的呼应——$L^p$ 对偶用 R–N，而 R–N 用 $L^2$ Riesz 表示，两定理互为表里。

稠密性：简单函数在 $L^p$ 中稠密（$p<\infty$）；$\mathbb{R}^n$ 上 $C_c^\infty$（紧支撑光滑函数）在 $L^p$ 中稠密（$p<\infty$）。

稠密性让"先在好函数（简单/光滑）上证，再逼近到一般 $L^p$"成为标准手法（§15 Lebesgue 微分定理就这么用）。

机器人应用：Kalman 滤波 = $L^2$ 正交投影¶

这是本节的高潮。把 Kalman 滤波放进 $L^2$ 框架，一切豁然开朗。

令 $L^2(\Omega,\mathcal{F},\mathbb{P})$ 为平方可积随机变量的 Hilbert 空间，内积 $\langle X,Y\rangle=\mathbb{E}[XY]$（协方差结构）。给定观测，定义**观测子空间** $$ H_t=\overline{\operatorname{span}}{1,y_1,\dots,y_t}\subset L^2, $$ 即所有观测的（闭）线性组合。则**最小均方误差（MMSE）线性估计**就是正交投影 $$ \hat x_{t\mid t}=\Pi_{H_t}x_t, $$ 即在 $H_t$ 中找离 $x_t$ 最近（$L^2$ 范数下）的点。

投影存在性靠完备性：正交投影定理要求 $H_t$ 是 Hilbert 空间的闭子空间——这依赖 $L^2$ 完备（Riesz–Fischer）。没有完备性，"最近点"可能不存在，Kalman 失去数学根基。

新息序列与 Kalman 增益：定义新息 $\tilde y_t=y_t-\Pi_{H_{t-1}}y_t$（观测中"新"的部分，与历史正交）。递推正交化（Gram–Schmidt）给出 Kalman 增益 $K_t$——它是把新息投影到状态的系数。整个 Kalman 递推就是 $L^2$ 中的序贯正交投影。

与条件期望的关系：Gauss 假设下，正交投影**恰好等于**条件期望 $\hat x_{t\mid t}=\mathbb{E}[x_t\mid y_{1:t}]$（最优估计，不限线性）。非 Gauss 下二者分离——Kalman 只是最优**线性** MMSE，而条件期望是全局最优（可能非线性）。这解释了 Kalman 在非 Gauss 下的局限，也是粒子滤波（直接逼近条件期望/后验测度）的用武之地。

本质洞察：你以前把 Kalman 滤波当成一组递推公式（预测-更新、增益、协方差）。$L^2$ 视角把它揭示为一个几何对象：在随机变量的 Hilbert 空间里，把状态向"观测张成的子空间"作正交投影。增益 $K_t$ 不是魔法，是投影系数；新息正交化就是 Gram–Schmidt；协方差递推是投影残差的范数演化。**Kalman = 投影**这个视角不仅优美，更实用——它立刻告诉你 Kalman 的最优性边界（仅线性、Gauss 下才是全局最优）、推广方向（非线性 → EKF/UKF 近似投影、非 Gauss → 粒子滤波直接逼近后验测度），以及为什么完备性（Lebesgue 积分）是它的隐形地基。

更广地，强化学习里**价值函数** $V\in L^2(\mu)$ 的最小二乘时序差分学习（LSTD）= 在有限维子空间上对 Bellman 算子做 Galerkin 投影；$L^p$ 完备性保证迭代极限存在。这把 Kalman 与 LSTD 统一在"$L^2$ 投影"的旗下。

⚠️ 常见陷阱¶

陷阱 13.1（概念误区）：忘记 $L^p$ 是等价类而非函数 - 错误描述：把 $L^p$ 元素当具体函数，谈论其在某点的值。 - 现象/后果：在零测集上比较函数值、谈"$f(x_0)$"，得到无意义结论（同一 $L^p$ 元素可在 $x_0$ 取任意值）。 - 根本原因：$L^p$ 模掉了 a.e. 相等，元素是等价类。点值在零测集上无定义。 - 正确做法：$L^p$ 中一切只在 a.e. 意义下成立。需要点值时（如 §15 Lebesgue 点）要专门论证存在"好代表元"。$L^\infty$ 用本性上确界 $\operatorname{ess\,sup}$ 而非 $\sup$，同理。

陷阱 13.2（思维陷阱）：以为 $L^p$ 之间有包含关系（不分有限/无限测度） - 错误描述：认为总有 $L^p\subseteq L^q$ 或反之。 - 现象/后果：在无限测度（Lebesgue on $\mathbb{R}$）上误用 $L^2\subseteq L^1$（实际不成立，如 $1/(1+|x|)\in L^2\setminus L^1$）。 - 根本原因：包含关系依赖测度有限性。$\mu(X)<\infty$ 时 $L^q\subseteq L^p$（$p\le q$，由 Hölder）；无限测度时无普遍包含。 - 正确做法：分清测度有限（概率测度，$L^q\subseteq L^p$ for $p<q$）与无限（Lebesgue，无包含）。粒子滤波在概率测度上，故 $L^2\subseteq L^1$，方差有限 $\Rightarrow$ 期望有限。

陷阱 13.3（概念误区）：把 Kalman 的"最优"无条件理解为全局最优 - 错误描述：认为 Kalman 在任何情形都给全局最优估计。 - 现象/后果：在强非 Gauss/非线性系统上盲信 Kalman/EKF，估计严重偏差却不知原因。 - 根本原因：Kalman 是最优**线性** MMSE（向 $H_t$ 投影）。仅 Gauss 下它才等于条件期望（全局最优）。非 Gauss 下线性投影 $\ne$ 条件期望。 - 正确做法：明确 Kalman 的最优性边界。强非线性/非 Gauss 时用 UKF/粒子滤波（逼近条件期望或后验测度）。"最优"二字要问"在什么类（线性 vs 全部）、什么假设（Gauss vs 一般）下"。

练习¶

（证明题，草稿纸完成） 用 Hölder 不等式证明：在有限测度空间 $\mu(X)<\infty$ 上，$p\le q\Rightarrow L^q\subseteq L^p$ 且 $\|f\|_p\le\mu(X)^{1/p-1/q}\|f\|_q$。提示：对 $|f|^p\cdot1$ 用 Hölder，指数取 $q/p$ 与其共轭。说明此结论在无限测度上失效（举 $\mathbb{R}$ 上的反例）。
（推导题） 在 $L^2(\Omega,\mathcal{F},\mathbb{P})$ 中，设标量状态 $x$ 与观测 $y=x+v$（$v$ 零均值噪声，与 $x$ 独立，方差 $r$，$x$ 方差 $\sigma^2$）。用正交投影 $\hat x=\Pi_{\overline{\operatorname{span}}\{1,y\}}x$ 推导单步 Kalman 估计 $\hat x=\frac{\sigma^2}{\sigma^2+r}y$（取 $x$ 零均值）。验证增益 $K=\frac{\sigma^2}{\sigma^2+r}$ 与教科书 Kalman 增益一致。亲手体会"Kalman = 投影"。
（跨节综合题） 结合 §12 R–N、本节对偶定理与 Kalman 投影：解释为什么 Gauss 假设下"$L^2$ 正交投影 = 条件期望"。提示：条件期望 $\mathbb{E}[x\mid\mathcal{F}]$ 是 $x$ 在"$\mathcal{F}$-可测平方可积函数"子空间上的 $L^2$ 投影（一般成立）；Gauss 下该子空间的最优元恰好落在线性子空间 $H_t$ 内（因 Gauss 的条件期望是线性的）。这把 §2 的"滤波 = 条件期望"、§12 的"条件期望 = $\sigma$-子代数上 R–N 导数"、本节的"Kalman = 投影"三个视角统一起来。

§14 收敛模式与相互关系 ⭐⭐¶

动机：a.s. 收敛 vs 依概率收敛——对机器人意味着什么不同？¶

机器人算法的收敛性有好几种"味道"：随机梯度下降"几乎必然收敛"和"依概率收敛"，对实际部署意味着完全不同的保证。本节梳理四种收敛模式（a.e./依测度/$L^p$/一致）及其相互蕴含关系，并讲清为什么机器人学更看重 a.s. 收敛。这是 §8 收敛定理的姊妹篇——§8 讲"积分与极限交换"，本节讲"函数列收敛的不同含义"。

理论：四种收敛模式¶

定义 14.1：设 $f_n,f$ 可测。 1. 几乎处处收敛（a.e.，概率论里 a.s.）：$\mu(\{x:f_n(x)\not\to f(x)\})=0$。 2. 依测度收敛（in measure，概率论里依概率）：$\forall\varepsilon>0,\ \mu(\{|f_n-f|>\varepsilon\})\to0$。 3. $L^p$ 收敛（范数收敛）：$\|f_n-f\|_p\to0$。 4. 一致收敛：$\sup_x|f_n(x)-f(x)|\to0$。

四种由强到弱大致是：一致 > $L^\infty$ > $L^p$ > 依测度，而 a.e. 与依测度、$L^p$ 之间关系微妙（下图）。

理论：蕴含关系图（$\mu$ 有限时）¶

定理 14.2（蕴含关系，$\mu(X)<\infty$）： $$\text{一致}\Rightarrow L^\infty\Rightarrow L^p\Rightarrow L^1\Rightarrow\text{依测度};\qquad \text{a.e.}\overset{\text{Egorov}}{\Rightarrow}\text{依测度};\qquad L^p\Rightarrow\text{依测度}.$$ 且 $L^p$ 收敛或依测度收敛 $\Rightarrow$ 存在子列 a.e. 收敛（Riesz 子列定理）。

这些蕴含里，"$L^p\Rightarrow$ 依测度"由 Markov 不等式（§7）：$\mu(\{|f_n-f|>\varepsilon\})\le\|f_n-f\|_p^p/\varepsilon^p\to0$。"a.e. $\Rightarrow$ 依测度"（有限测度下）由 Egorov（§6）。

理论：反例填满每个缺口¶

蕴含关系**不可逆**，每个缺口都有标准反例。这些反例是理解收敛模式的关键，务必记住。

缺口	反例	现象
a.e. $\not\Rightarrow L^p$	高瘦帽子 $f_n=n\mathbf{1}_{(0,1/n]}$	$f_n\to0$ a.e. 但 $\\|f_n\\|_1=1$（质量逃逸）
$L^p\not\Rightarrow$ a.e.	打字机序列（见下）	$\\|f_n\\|_1\to0$ 但处处不收敛
依测度 $\not\Rightarrow$ a.e.	同打字机序列	依测度收敛但无处逐点收敛
a.e. $\not\Rightarrow$ 依测度（无限测度）	行进帽子 $f_n=\mathbf{1}_{[n,n+1]}$ on $\mathbb{R}$	a.e. 收敛但依测度不收敛（需有限测度）

打字机序列（typewriter sequence）：在 $[0,1]$ 上，把区间按 $j=0,1,2,\dots$ 分成 $2^j$ 等份，$f_n$ 依次取每一份的指示函数（像打字机逐格移动）：$\mathbf{1}_{[0,1]},\mathbf{1}_{[0,1/2]},\mathbf{1}_{[1/2,1]},\mathbf{1}_{[0,1/4]},\dots$。则 $\|f_n\|_1=$ 当前份的长度 $\to0$（$L^1$ 收敛到 $0$），但每个点 $x$ 被无穷多个 $f_n$ "扫到"又无穷多次"错过"，故 $f_n(x)$ 在 $0,1$ 间反复横跳，处处不收敛。

本质洞察：打字机序列是"$L^p$ 收敛但 a.e. 不收敛"的典范——它揭示了**范数收敛（平均意义）与逐点收敛（每点意义）的本质差异**。$L^1$ 收敛只说"平均误差趋零"，允许误差在不断移动的小区域上保持大；a.e. 收敛要"每个固定点最终都收敛"。Riesz 子列定理是二者的桥：$L^p$ 收敛虽不给 a.e. 收敛，但能抽出 a.e. 收敛的子列。这个区分对机器人收敛性分析是实打实的——"平均性能收敛"和"每条轨迹收敛"是两码事。

理论：一致可积与 Vitali 收敛定理¶

DCT 要求"固定控制函数"，有时太强。一致可积（UI）是更灵活的条件。

定义 14.3（一致可积）：$\{f_n\}\subset L^1$ 称为**一致可积**，若 $\lim_{M\to\infty}\sup_n\int_{\{|f_n|>M\}}|f_n|\,d\mu=0$（尾部质量一致地小）。

定理 14.4（Vitali 收敛定理）：$\mu(X)<\infty$，$f_n\to f$ 依测度，$\{f_n\}$ 一致可积 $\Rightarrow f\in L^1$ 且 $\|f_n-f\|_1\to0$。

Vitali 比 DCT 更通用：有 $L^1$ 控制函数 $\Rightarrow$ UI（取 $\int_{\{|f_n|>M\}}|f_n|\le\int_{\{g>M\}}g\to0$），但反之不然。所以 Vitali 覆盖了一些 DCT 处理不了的情形（无单一控制函数但尾部一致小）。

机器人应用：为什么机器人学强调 a.s. 收敛¶

把收敛模式接到随机优化上。

随机梯度下降的两种收敛保证：SGD 在非凸目标上的经典结果（Robbins–Monro 1951；Tsitsiklis 1994 的异步随机逼近）给出 $$ \theta_n\xrightarrow{\text{a.s.}}\theta^*, $$ 即**几乎每一条训练轨迹都收敛**到（某个）驻点。这与"依概率收敛"（多次训练的集合中大部分收敛）有本质差异：

本质洞察：机器人学/具身智能里强调 a.s. 收敛而非仅依概率收敛，因为**单次部署即决定系统成败**。依概率收敛说"做 100 次训练，大部分会收敛"——但你部署的是**这一次**，依概率收敛不保证这一次不属于那"少部分"。a.s. 收敛说"几乎每条轨迹都收敛"，是对单次运行的保证。对一个要上真实硬件、跑一次就要 work 的机器人策略，a.s. 收敛是必需的鲁棒性证书，依概率收敛不够。这也解释了为什么强化学习理论里大量精力花在证 a.s. 收敛（用 Borel–Cantelli §3、鞅收敛、ODE 方法），而非满足于依概率。

actor–critic 的双时间尺度分析（Konda–Tsitsiklis 2003）需要 UI（一致可积）来处理"参数在两个时间尺度上跳跃"时的极限一致性——快变量（critic）跟踪慢变量（actor）的极限，UI 保证这个跟踪在 $L^1$ 意义下成立。这是 Vitali 收敛定理（比 DCT 灵活）在 RL 里的用武之地。

⚠️ 常见陷阱¶

陷阱 14.1（概念误区）：混淆 a.s. 收敛与依概率收敛 - 错误描述：把"依概率收敛"当成"几乎必然收敛"，或反之。 - 现象/后果：误判算法的部署保证——依概率收敛不保证单次轨迹收敛，但被当成 a.s. 用，导致对系统可靠性的高估。 - 根本原因：a.s.（逐点/逐轨迹）强于依概率（依测度）。打字机序列依概率收敛但处处不 a.s. 收敛。 - 正确做法：明确算法证的是哪种收敛。单次部署的机器人系统要 a.s. 收敛；只关心平均性能时依概率/$L^p$ 可接受。论文里看到"converges in probability"不要默认它 a.s. 收敛。

陷阱 14.2（思维陷阱）：以为 $L^p$ 收敛蕴含 a.e. 收敛 - 错误描述：从 $\|f_n-f\|_p\to0$ 直接断言 $f_n\to f$ a.e. - 现象/后果：打字机序列 $L^1$ 收敛到 $0$ 但处处不收敛——按此误判会得出"处处收敛"的错误结论。 - 根本原因：$L^p$ 收敛只给"平均误差趋零"，允许误差在移动的小集上保持大。只能抽出 a.e. 收敛的**子列**（Riesz）。 - 正确做法：$L^p$ 收敛 $\Rightarrow$ 子列 a.e. 收敛（非全列）。需要全列 a.e. 收敛要额外条件（如单调、快速收敛 $\sum\|f_n-f\|_p<\infty$）。

陷阱 14.3（概念误区）：在无限测度上误用"a.e. $\Rightarrow$ 依测度" - 错误描述：在 $\mathbb{R}$（无限测度）上从 a.e. 收敛推依测度收敛。 - 现象/后果：行进帽子 $f_n=\mathbf{1}_{[n,n+1]}$ a.e. 收敛到 $0$ 但依测度不收敛（$\mu(\{f_n>1/2\})=1\not\to0$）。 - 根本原因："a.e. $\Rightarrow$ 依测度"经 Egorov，需 $\mu(X)<\infty$。无限测度下质量可逃逸到无穷远。 - 正确做法：此蕴含仅在有限测度（概率测度自动满足）下成立。无限测度（Lebesgue on $\mathbb{R}$）上要小心，质量逃逸破坏依测度收敛。

练习¶

（证明题，草稿纸完成） 用 Markov 不等式（§7）证明"$L^p$ 收敛 $\Rightarrow$ 依测度收敛"：$\mu(\{|f_n-f|>\varepsilon\})\le\|f_n-f\|_p^p/\varepsilon^p$。再说明反向不成立（用打字机序列：依测度/$L^1$ 收敛但不 a.e.，且构造一个依测度收敛但 $L^1$ 不收敛的例子，如高瘦帽子）。
（开放思考题） 详细描述打字机序列的构造，并证明：(a) $\|f_n\|_1\to0$；(b) 对每个 $x\in[0,1]$，$\limsup_n f_n(x)=1$ 且 $\liminf_n f_n(x)=0$（故处处不收敛）。再用 Riesz 子列定理抽出一个 a.e. 收敛到 $0$ 的子列（提示：取每个尺度 $j$ 的第一个，使长度 $\to0$ 足够快）。
（跨节综合题） 结合 §3 Borel–Cantelli、§8 DCT 与本节：证明若 $\sum_n\|f_n-f\|_p^p<\infty$（快速 $L^p$ 收敛），则 $f_n\to f$ a.e.（全列，非仅子列）。提示：用 Markov 把 $P(|f_n-f|>\varepsilon)$ 控制为可和，再用 Borel–Cantelli 得"$|f_n-f|>\varepsilon$ 只发生有限次" a.e.。这解释了为什么"足够快的 $L^p$ 收敛"能升级为 a.e. 收敛——这正是粒子滤波 $O(1/N)$ 速率配合 Borel–Cantelli 推 a.s. 收敛的机制（§8 练习 3 的续）。

§15 微分与 FTC ⭐⭐⭐⭐¶

动机：积分和微分在测度论里还是逆运算吗？¶

本科微积分基本定理（FTC）说 $\int_a^x f'=f(x)-f(a)$、$\frac{d}{dx}\int_a^x f=f(x)$——积分和微分互逆。但 §1、§5 的 Cantor 函数反例已经警告：连续 + 几乎处处可导**不足以**保证 FTC（$c'=0$ a.e. 却 $c(1)-c(0)=1$）。那么测度论框架下，FTC 成立的**精确条件**是什么？答案是"绝对连续"。本节建立 Lebesgue 微分定理与 FTC 的测度论版本，它是理解"密度与累积分布""导数与测度"关系的关键，也是 §12 R–N 在一维的具体化。

反面：Cantor 函数——FTC 失效的精确反例¶

重温 Cantor 函数 $c:[0,1]\to[0,1]$：连续、单调递增、$c'=0$ 几乎处处（在补 Cantor 集的全长为 1 的开集上分段常值），却 $c(1)-c(0)=1$。于是

\[ \int_0^1 c'(x)\,dx=0\ne1=c(1)-c(0). \]

FTC 失效！缺的是什么？$c$ 连续、有界变差（单调即 BV），但**不绝对连续**——它把"全部增量"挤在了零测的 Cantor 集上，而 AC 函数恰好禁止这种行为。本节就是要精确刻画这个缺失的条件。

理论：Hardy–Littlewood 极大函数与覆盖引理¶

要证 Lebesgue 微分定理（"平均值收敛到点值"），需要控制"极大平均"。

定义 15.1（Hardy–Littlewood 极大函数）：对 $f\in L^1_{\mathrm{loc}}(\mathbb{R}^n)$， $$Mf(x)=\sup_{r>0}\frac{1}{|B(x,r)|}\int_{B(x,r)}|f(y)|\,dy.$$ 即所有以 $x$ 为心的球上 $|f|$ 平均值的上确界。

引理 15.2（Vitali 覆盖引理，有限版）：有限球族 $\{B_1,\dots,B_N\}\subset\mathbb{R}^n$ $\Rightarrow$ 存在不交子族 $\{B_{i_j}\}$ 使 $\bigcup_k B_k\subseteq\bigcup_j 3B_{i_j}$（$3B$ 是同心 3 倍半径球）。

证明：按半径降序贪心选取——每次选当前最大且与已选不交的球，被它"挤掉"的球都含于它的 3 倍球内。

定理 15.3（弱 (1,1) 极大不等式）：$\lambda(\{Mf>\alpha\})\le\dfrac{3^n}{\alpha}\|f\|_1$。

证明：对紧 $K\subseteq\{Mf>\alpha\}$，每点 $x$ 有球 $B(x,r_x)$ 使 $\int_{B}|f|>\alpha|B|$；取有限覆盖、用 Vitali 抽不交族 $\{B_{i_j}\}$，则 $\lambda(K)\le\sum_k|B_k|\le3^n\sum_j|B_{i_j}|\le\frac{3^n}{\alpha}\sum_j\int_{B_{i_j}}|f|\le\frac{3^n}{\alpha}\|f\|_1$（末步用不交性）。

理论：Lebesgue 微分定理¶

定理 15.4（Lebesgue 微分定理）：$f\in L^1_{\mathrm{loc}}(\mathbb{R}^n)\Rightarrow$ 几乎处处的 $x$ 是 Lebesgue 点，即 $$\lim_{r\to0}\frac{1}{|B(x,r)|}\int_{B(x,r)}|f(y)-f(x)|\,dy=0.$$ 特别地 $\lim_{r\to0}\frac{1}{|B(x,r)|}\int_{B(x,r)}f\,dy=f(x)$ a.e.

证明骨架（稠密 + 极大不等式）：连续函数在 $L^1$ 中稠密（§13）。对连续 $g\in C_c$，由一致连续性**每个**点都是 Lebesgue 点。对一般 $f$，写 $f=g+(f-g)$，残差 $f-g$ 的"坏集"$\{M(f-g)>\alpha\}\cup\{|f-g|>\alpha\}$ 由弱 (1,1) 不等式与 Markov 控制为 $\le C\|f-g\|_1/\alpha$。令 $\|f-g\|_1\to0$（稠密性）得坏集测度趋零，故 a.e. 点是 Lebesgue 点。$\quad\blacksquare$

本质洞察：Lebesgue 微分定理是"$\frac{d}{dx}\int_a^x f=f$"的测度论升级——它说**几乎处处地，函数在小邻域的平均值收敛到点值**。这是"局部平均能恢复点值"的严格保证，机器人感知里的局部滤波、密度估计全靠它。注意它只在 Lebesgue 点（a.e.）成立——在跳跃间断点（如似然的障碍边界）失效，那里平均值收敛到左右极限的某种加权而非点值。这恰好对应 §6 的 Lusin：除小集外函数良好。

理论：绝对连续函数与 FTC¶

定义 15.5：$f:[a,b]\to\mathbb{R}$ 称为**绝对连续**（AC），若 $\forall\varepsilon>0\exists\delta>0$，对任意不交区间族 $\{(a_i,b_i)\}$ 满足 $\sum(b_i-a_i)<\delta$ 就有 $\sum|f(b_i)-f(a_i)|<\varepsilon$。有界变差（BV）：$V_a^b f=\sup_\pi\sum|f(x_{i+1})-f(x_i)|<\infty$。

包含关系：AC $\subsetneq$ BV $\subsetneq$ 连续。Cantor 函数是 BV（单调）但非 AC——它正好卡在缝里。

定理 15.6（Lebesgue FTC）：$f:[a,b]\to\mathbb{R}$ AC $\iff$ $f'$ 存在 a.e.、$f'\in L^1$、且 $$f(x)-f(a)=\int_a^x f'(t)\,dt\quad\forall x\in[a,b].$$

AC 是 FTC 成立的**精确充要条件**。Cantor 函数非 AC，故 FTC 对它失效——一切自洽。

定理 15.7（R–N 与 FTC 统一）：$f$ 在 $[a,b]$ 上 AC $\iff$ $f$ 诱导的 Lebesgue–Stieltjes 测度 $\mu_f\ll\lambda$ $\iff$ $f'=\dfrac{d\mu_f}{d\lambda}$ 是 R–N 导数。

这条把本节与 §12 焊死：一维的"导数"就是 Lebesgue–Stieltjes 测度相对 Lebesgue 测度的 R–N 导数。FTC 是 R–N 在一维、对 AC 函数的具体化。Cantor 函数诱导的测度 $\mu_c$ 集中在零测 Cantor 集上，$\mu_c\perp\lambda$（互奇异）而非 $\ll\lambda$，所以没有 R–N 导数（密度），FTC 失效。

本质洞察：把 §12（R–N）和 §15（FTC）放在一起看，会看到一个统一图景——"函数的导数"与"测度的密度"是同一回事。累积分布函数 $F$ 的导数 $F'$ = 概率测度相对 Lebesgue 的密度（= 概率密度 $p$），当且仅当 $F$ 绝对连续（$P\ll\lambda$）。离散分布的 $F$ 是阶跃函数（跳跃 = 点质量，$\perp\lambda$），Cantor 分布的 $F$ 是 Cantor 函数（$\perp\lambda$ 但连续无跳跃）——这两类都没有密度。一个分布的 Lebesgue 分解 $P=P_{ac}+P_{\text{跳跃}}+P_{\text{奇异连续}}$ 正好对应其 CDF 分解为 AC 部分 + 跳跃部分 + Cantor 型部分。这个"导数 = 密度"的统一是测度论最优美的结论之一。

机器人应用：局部平均、随机逼近 ODE 方法、分形轨迹警示¶

(1) 极大函数 = 局部平均算子。Hardy–Littlewood 极大函数 $Mf$ 在机器人感知里直接出现："半径 $r$ 邻域内的平均"正是 $M$ 算子的核心。视觉 SLAM 的**局部亮度归一化**（除以邻域平均亮度抗光照变化）、LiDAR 点云的**局部密度估计**（邻域内点数/体积）都是局部平均，Lebesgue 微分定理保证这些平均在 a.e. 点恢复真实点值（$r\to0$ 时）。

(2) 随机逼近的 ODE 方法（Borkar 2008）。证明 SGD/Q-learning $\theta_n\to\theta^*$ a.s. 的主流工具是"ODE 方法"——把离散随机迭代视为一个确定性 ODE $\dot\theta=h(\theta)$ 的带噪扰动，证明迭代轨迹 a.s. 跟踪 ODE 极限。这里 Lebesgue 微分（"局部平均恢复点值"）保证带噪轨迹的时间平均收敛到 ODE 的瞬时行为，是连接"随机离散"与"确定连续"的桥。

(3) 分形轨迹警示（反事实）。Cantor 函数反例提醒：机器人轨迹若仅**连续而非绝对连续**，即使导数 a.e. 为零，总位移也可能非零！这在分形路径、纯分段常数控制下是真实风险——你以为"速度几乎处处为零所以没动"，但轨迹可能像 Cantor 函数一样"在零测集上偷偷爬升"。要保证"零速度 a.e. $\Rightarrow$ 不动"，轨迹必须 AC。实践中光滑或分段光滑轨迹自动 AC，但理论上构造或学习出的奇异轨迹要警惕。

⚠️ 常见陷阱¶

陷阱 15.1（概念误区）：以为"连续 + a.e. 可导"就满足 FTC - 错误描述：认为函数连续且几乎处处可导就有 $\int_a^x f'=f(x)-f(a)$。 - 现象/后果：Cantor 函数连续、$c'=0$ a.e. 但 $\int_0^1 c'=0\ne1=c(1)-c(0)$——FTC 失效却被误用。 - 根本原因：FTC 需**绝对连续**（AC），比"连续 + a.e. 可导"强。Cantor 函数是 BV 非 AC。 - 正确做法：用 FTC 前确认 AC。判据：$f$ AC $\iff$ $\mu_f\ll\lambda$。Lipschitz 函数、$C^1$ 函数都 AC；Cantor 型奇异函数不 AC。

陷阱 15.2（思维陷阱）：以为 Lebesgue 微分定理处处成立 - 错误描述：认为"邻域平均 $\to$ 点值"对所有点成立。 - 现象/后果：在跳跃间断点（似然的障碍边界）误用，那里平均收敛到左右极限的加权而非点值。 - 根本原因：Lebesgue 微分定理只在 Lebesgue 点（a.e.）成立，间断点（零测）可能不是 Lebesgue 点。 - 正确做法：局部平均恢复点值仅 a.e. 成立。处理已知间断点（边界、遮挡）时单独考虑，或用 Lusin（§6）在"除小集外"的好区域应用。

陷阱 15.3（概念误区）：混淆函数的 AC 与测度的绝对连续 - 错误描述：把 §15 的"AC 函数"与 §12 的"测度绝对连续 $\nu\ll\mu$"当成无关或同一概念。 - 现象/后果：在判据间跳跃出错。 - 根本原因：二者通过定理 15.7 联系——$f$ AC $\iff$ 其诱导测度 $\mu_f\ll\lambda$。是"函数层面"与"测度层面"的同一现象的两面，但不是字面同一。 - 正确做法：记住桥梁定理 15.7。函数 AC（$\varepsilon$-$\delta$ 区间条件）$\iff$ 测度 $\ll\lambda$（零测集映零）$\iff$ 有 R–N 导数（密度 = $f'$）。三者等价。

练习¶

（证明题，草稿纸完成） 证明 Lipschitz 函数（$|f(x)-f(y)|\le L|x-y|$）必绝对连续。再证 $C^1$ 函数（连续可导）在紧区间上 AC。由此说明：机器人里光滑或 Lipschitz 的轨迹/代价函数自动满足 FTC，无须担心 Cantor 型病态。
（推导题） 用弱 (1,1) 极大不等式（定理 15.3）证明：$Mf$ 几乎处处有限（当 $f\in L^1$）。提示：$\lambda(\{Mf=\infty\})\le\lambda(\{Mf>\alpha\})\le3^n\|f\|_1/\alpha\to0$（$\alpha\to\infty$）。讨论：为什么这保证了"局部平均算子"在 a.e. 点给出有限值——这对 LiDAR 局部密度估计的良定义意味着什么？
（跨节综合题） 结合 §12 Lebesgue 分解与本节定理 15.7：给定一个一维概率分布的 CDF $F$，说明它如何分解为 $F=F_{ac}+F_{\text{jump}}+F_{\text{Cantor}}$ 三部分，分别对应 $P=P_{ac}+P_{\text{discrete}}+P_{\text{singular continuous}}$。举机器人例子：连续位姿后验（$F_{ac}$，有密度）、离散数据关联（$F_{\text{jump}}$，点质量）。再讨论：为什么"奇异连续部分"$F_{\text{Cantor}}$ 在工程中几乎不出现，但理论上必须考虑？

§16 局部紧 Hausdorff 空间上的 Radon 测度与 Riesz 表示定理 ⭐⭐⭐⭐¶

动机：$\mathrm{SO}(3)$ 上怎么"积分"？没有 Lebesgue 测度怎么办？¶

机器人姿态在 $\mathrm{SO}(3)$（旋转群）、刚体位姿在 $\mathrm{SE}(3)$（刚体运动群）上。这些是**非欧的弯曲流形/群**，没有 Lebesgue 测度可用。可你又必须在上面积分——算姿态的平均、定义"无信息先验"、做群上的卷积。用什么测度？ 答案是 Haar 测度，而它的存在性由本节的 Riesz–Markov 表示定理"凭空造出"。这是本章的进阶climax，也是整个李群机器人学的测度论地基。

反面：照搬欧氏直觉会彻底失败¶

你可能想："$\mathrm{SO}(3)$ 三维，就当 $\mathbb{R}^3$ 用 Lebesgue 测度呗。"错。$\mathrm{SO}(3)$ 是紧的弯曲流形（拓扑上是 $\mathbb{RP}^3$），没有平移结构，"均匀"在欧氏意义下无定义。用欧氏 Lebesgue 测度会破坏旋转不变性——你的"姿态平均"会依赖于坐标卡（欧拉角 vs 四元数 vs 旋转矩阵）的选取，系统性偏置。必须找一个**与群作用相容**（左不变）的测度，这就是 Haar 测度。

历史¶

Riesz（1909）证明了 $C[a,b]$ 上正线性泛函由测度表示；Markov 与 Kakutani（1941）推广到局部紧 Hausdorff（LCH）空间。Haar（1933）证明局部紧拓扑群上存在不变测度；Weil（1940）用 Riesz 表示给出 Haar 测度存在性的优雅证明——把"造测度"归约为"造正线性泛函"。

理论：Radon 测度与 Riesz–Markov–Kakutani 定理¶

定义 16.1（Radon 测度）：$X$ 为 LCH 空间，$(X,\mathcal{B}(X),\mu)$ 满足 (i) 紧集测度有限；(ii) 外正则（任意 Borel 集）；(iii) 内正则（对开集；$\sigma$-紧下对所有 Borel 集）。

定理 16.2（Riesz–Markov–Kakutani 表示定理）：$X$ 为 LCH，$\Lambda:C_c(X)\to\mathbb{R}$ 为**正线性泛函**（$f\ge0\Rightarrow\Lambda f\ge0$）。则存在**唯一** Radon 测度 $\mu$ 使 $$\Lambda f=\int_X f\,d\mu\qquad\forall f\in C_c(X).$$

这个定理是测度论与拓扑/泛函分析的交汇点：它说"积分"（正线性泛函）与"测度"是一一对应的——给一个 $\int f\,d\mu$ 这样的运算，就唯一确定一个测度。

证明骨架（六步）： 1. 开集赋测：$\mu(U)=\sup\{\Lambda f:0\le f\le1,\operatorname{supp}f\subseteq U\}$。 2. 外测度：$\mu^*(E)=\inf\{\mu(U):U\supseteq E\text{ 开}\}$。 3. Carathéodory 可测性：用 Urysohn 引理（LCH 版，构造分离紧集与开集外部的连续函数 $\varphi$）验证 $\mu^*(E)=\mu^*(E\cap A)+\mu^*(E\cap A^c)$ 对开集 $A$ 成立，从而 Borel 集皆可测（§4 引擎再现）。 4. 正则性：开集内正则由定义；$\sigma$-紧下传到所有 Borel 集。 5. 积分表示：对 $0\le f\le1$ 做水平集分层 $f\approx\sum_{k=1}^N\frac1N\mathbf{1}_{\{f>k/N\}}$，用 Urysohn 光滑化，由 $\Lambda$ 线性 + 极限得 $\Lambda f=\int f\,d\mu$（又是 §1 水平切片思想！）。 6. 唯一性：两个表示同一 $\Lambda$ 的测度，对紧 $K$ 由 Urysohn 刻画 $\mu(K)$，再由正则性传到 Borel 集。$\quad\blacksquare$

对偶形式：$C_0(X)^*\cong M(X)$（有限符号 Radon 测度空间，范数为全变差 §11）。这把 §11 的全变差范数接到了泛函分析的对偶理论上。

理论：Haar 测度的存在性¶

定理 16.3（Haar 测度）：设 $G$ 为局部紧 Hausdorff 拓扑群。则存在**左不变** Radon 测度 $\mu_H$（即 $\mu_H(gE)=\mu_H(E)$ 对一切 $g\in G$），至多差一个正常数倍唯一。称 Haar 测度。

怎么造出来（Weil 1940 的 Riesz 路径）：在 $C_c(G)$ 上通过"比率平均"构造一个左不变的正线性泛函 $\Lambda$——用 Tychonoff 紧性对一族近似取极限得到不变性。然后 Riesz 表示定理（16.2）把这个泛函 $\Lambda$ **输出**为一个左不变 Radon 测度，即 Haar 测度。

本质洞察：Haar 测度的存在性是 Riesz 表示定理"凭空造测度"能力的最壮观应用。先造一个不变的"积分"（正线性泛函），Riesz 定理自动给你一个不变的"测度"——这个"先有积分后有测度"的逆向构造，是测度论最深刻的思想之一。没有 Riesz 定理，Haar 测度只是一个"愿景"（我们希望有这么个不变测度）；有了它，愿景变成定理。Lebesgue 测度的平移不变唯一性（§5 性质 5.2）正是 Haar 测度在 $G=(\mathbb{R}^n,+)$ 上的特例——所以你早就见过 Haar 测度了，只是没叫这个名字。

机器人应用：李群机器人学的测度论地基¶

这是本节、也是全章进阶线的最终落点。$\mathrm{SO}(3)$、$\mathrm{SE}(3)$ 上的一切概率与积分都建立在 Haar 测度上。

(1) 各向同性姿态先验。"无偏好"的姿态先验取归一化 Haar 测度 $dR$ 于 $\mathrm{SO}(3)$。$\mathrm{SO}(3)$ 的（未归一化）Haar 体积在标准双不变度量（由 $\langle X,Y\rangle=-\frac12\operatorname{tr}(XY)$ 诱导）下为 $\operatorname{Vol}(\mathrm{SO}(3))=8\pi^2$。（注：该数值依赖度量归一化约定——不同的度量缩放会给出不同常数，如某些欧拉角参数化下为 $16\sqrt2\pi^2$；$8\pi^2$ 是机器人文献最常用的标准约定，对应把 $\mathrm{SO}(3)$ 看成半径为 ... 的 $\mathbb{RP}^3$。）归一化后得 $\mathrm{SO}(3)$ 上的均匀分布，这才是"各向同性""无信息姿态先验"的严格定义——它对左乘旋转不变，故不偏好任何姿态。

(2) 群卷积。滤波/控制中组合两个姿态不确定性用群卷积 $$ (p*q)(g)=\int_G p(h)\,q(h^{-1}g)\,d\mu_H(h), $$ 积分必须用 Haar 测度 $\mu_H$ 才能保证卷积的群不变性（与欧氏卷积平移不变性类比）。这是姿态预测、不确定性传播的基本运算。

(3) $\mathrm{SE}(3)$ 上的 Gauss 分布（Chirikjian 2009；Barfoot–Furgale 2014）。位姿不确定性的标准模型是：在李代数 $\mathfrak{se}(3)$ 上取 Gauss $\xi\sim\mathcal{N}(0,\Sigma)$，通过指数映射 $T=\exp(\xi^\wedge)\cdot T_0$ 推到群上。其在群上的密度**相对 Haar 测度**有显式形式（带一个 Jacobian 修正因子）。没有 Haar 测度做参照，这个"$\mathrm{SE}(3)$ 上的 Gauss 密度"无从定义——这是 §5"密度依赖参照测度"的终极体现：在群上参照测度从 Lebesgue 换成了 Haar。

(4) 群上的 Fourier 分析与等变网络。Peter–Weyl 定理把紧群的 $L^2(G,\mu_H)$ 分解为不可约表示的直和，支撑**球面卷积 CNN**（Cohen–Welling 2016）、旋转等变特征、姿态图谱滤波。这些深度学习架构的数学基础是 $L^2(G,\mu_H)$——又一次以 Haar 测度为底座。

本质洞察：欧氏空间概率论的一切（密度、均匀分布、卷积、Gauss）在 $\mathrm{SO}(3)/\mathrm{SE}(3)$ 上都要**以 Haar 测度替换 Lebesgue 测度**重新搭建。Riesz 表示定理保证了这个替换的合法性——它造出了 Haar 测度。所以本章从 §1"Riemann 不够用"出发，经测度构造、积分、收敛、R–N，最终在这里闭环：测度论不仅让欧氏空间的概率严格化，更让弯曲流形/群上的概率成为可能。这是李群机器人学（姿态估计、群等变学习、$\mathrm{SE}(3)$ 控制）整个领域得以站立的地基。没有它，"在 $\mathrm{SO}(3)$ 上做贝叶斯滤波"这句话连数学意义都没有。

⚠️ 常见陷阱¶

陷阱 16.1（概念误区）：在 $\mathrm{SO}(3)/\mathrm{SE}(3)$ 上用欧氏 Lebesgue 测度 - 错误描述：把旋转群当 $\mathbb{R}^3$（或四元数当 $\mathbb{R}^4$）直接用 Lebesgue 测度积分/采样。 - 现象/后果：姿态平均、先验依赖坐标卡（欧拉角/四元数/旋转矩阵）的选取，产生系统性偏置；"均匀采样"实际不均匀（如欧拉角均匀采样在极点附近过密）。 - 根本原因：群是弯曲流形，无平移结构，欧氏 Lebesgue 测度不左不变。必须用 Haar 测度。 - 正确做法：$\mathrm{SO}(3)/\mathrm{SE}(3)$ 上的积分、先验、采样用 Haar 测度。均匀姿态采样用归一化 Haar（如四元数在 $S^3$ 上均匀 + 双覆盖修正），而非欧拉角均匀。

陷阱 16.2（思维陷阱）：以为"密度"在群上和欧氏空间一个意思 - 错误描述：把 $\mathrm{SE}(3)$ 上 Gauss 的密度直接写成欧氏 Gauss 公式。 - 现象/后果：忽略 Haar 测度参照与指数映射的 Jacobian 修正，得到错误的归一化与协方差传播。 - 根本原因：群上密度 $=dP/d\mu_H$（相对 Haar），指数映射 $\exp:\mathfrak{se}(3)\to\mathrm{SE}(3)$ 带 Jacobian，密度形式与欧氏不同。 - 正确做法：群上密度相对 Haar 测度定义，含指数映射 Jacobian 修正（Barfoot–Furgale 的具体公式）。这是 §5"密度依赖参照测度"在群上的体现。

陷阱 16.3（概念误区）：忽视左右 Haar 测度的区别（模函数） - 错误描述：默认左 Haar 测度 = 右 Haar 测度。 - 现象/后果：在非幺模群（左右 Haar 不等）上混用，群卷积/积分出错。 - 根本原因：一般 LCH 群左右 Haar 测度差一个**模函数** $\Delta(g)$（$\mathrm{SO}(3)$ 紧群幺模，$\Delta\equiv1$；但某些 $\mathrm{SE}$ 类群或可解群非幺模）。这是 §5 性质 5.3 线性变换 $|\det A|$ 因子的群推广。 - 正确做法：紧群（$\mathrm{SO}(3)$、$\mathrm{SO}(n)$）幺模，左右 Haar 一致，无须区分。一般群明确用左还是右 Haar，非幺模时带模函数。$\mathrm{SE}(3)$ 作为半直积通常取双不变约定下处理。

练习¶

（推导题，草稿纸完成） 验证 Lebesgue 测度的平移不变性（§5 性质 5.2）正是 Haar 测度定理（16.3）在 $G=(\mathbb{R}^n,+)$ 上的特例。说明为什么这个群是幺模的（左右 Haar 一致），以及"至多差常数倍唯一"如何对应 §5 中"加上归一化 $\lambda([0,1]^n)=1$ 后唯一"。
（开放思考题） Riesz 表示定理用"正线性泛函 $\Lambda$"造测度。请解释为什么"先造积分（泛函）再得测度"这个逆向思路对 Haar 测度特别有效——直接构造一个左不变测度难在哪里，而构造左不变泛函（用比率平均 + 紧性取极限）为什么相对容易？这体现了"积分"与"测度"哪个更"软"（易构造）？
（跨节综合题） 结合 §5 性质 5.2/5.3、§12 R–N 与本节：解释 $\mathrm{SO}(3)$ 上"各向同性姿态先验"为什么是相对归一化 Haar 测度的均匀分布，而其相对某个坐标卡（如欧拉角的 Lebesgue 测度）的 R–N 导数（密度）不是常数（带 $\sin\theta$ 等 Jacobian 因子）。这把"均匀"（相对 Haar）与"密度非常数"（相对坐标 Lebesgue）的表面矛盾用 R–N 导数和参照测度的选择统一起来——正是 §5 那个本质洞察在群上的兑现。

§17 与后续任务的接口总结 ⭐⭐¶

本章在路线图下游的四条主线¶

本节把测度论的产出接到下游，示意哪些工具将在何处再次出现。这不是简单罗列，而是给你一张"测度论投资回报表"——你在本章学的每个定理，将在哪里收获利息。

→ B3 泛函分析：$L^p$（§13）是 Banach 空间最核心的例子，$L^2$ 是无限维 Hilbert 空间的范式。B3 将在此基础上展开 Banach–Alaoglu、Hahn–Banach、开映射、闭图像等支柱定理；Riesz 表示定理（§16）的对偶形式 $C_0^*\cong M(X)$ 将作为一般 Banach 对偶理论的具体化。回报：粒子滤波弱紧性（经验测度列有收敛子列）的来源正是 Banach–Alaoglu——它不再"抽象"，而是滤波收敛的工具。

→ C1 概率论：测度论直接变身概率论的语言字典：

测度论概念（本章）	概率论概念（C1）
可测函数（§6）	随机变量
积分 $\int X\,d\mathbb{P}$（§7）	期望 $\mathbb{E}[X]$
积测度 = 边缘分解（§10）	独立性
$\sigma$-子代数上 R–N 导数（§12）	条件期望 $\mathbb{E}[X\mid\mathcal{G}]$
适应过程的条件期望塔	鞅
Fourier 变换（测度的）	特征函数

C1 的鞅收敛定理、大数定律、中心极限定理将大量调用 DCT（§8）与 Fatou（§8）。回报：你在 §8 手推的 DCT，将是证明 SLLN（强大数定律）、鞅收敛的主力。

→ Layer-1 流形积分与李群：Riesz 表示定理（§16）直通 Haar 测度；黎曼流形上的体积形式是坐标卡局部 $\sqrt{\det g}\,dx^1\cdots dx^n$ 的积分，整体化为流形上的 Radon 测度。李群指数映射与 Baker–Campbell–Hausdorff 将与 Haar 测度交互定义 Gauss–$\mathrm{SE}(3)$ 分布。回报：§16 的 Haar 测度是 $\mathrm{SE}(3)$ 滤波、群等变学习的直接地基。

→ 第二层 SLAM / 状态估计 / 控制 / 学习：

本章工具	下游应用	关键文献
DCT（§8）	粒子滤波收敛	Crisan–Doucet 2002；Del Moral 2004
R–N 导数（§12）	贝叶斯更新、重要性采样、Girsanov($\text{PI}^2$/MPPI)、KL(TRPO/PPO)	Todorov 2009；Theodorou 2010
Fubini（§10）	SLAM 边际化、Rao–Blackwell 化(FastSLAM)、因子图 sum-product	Montemerlo 2002
$L^2$ 投影（§13）	Kalman/EKF/UKF、LSTD/LSPI	Kalman 1960
Haar 测度（§16）	姿态估计、群卷积 CNN、姿态图谱	Barfoot–Furgale 2014；Cohen–Welling 2016

三篇桥梁论文¶

读懂下面三篇标志着本章真正达标（不只是会背定理，而是能用它读论文）：

Crisan & Doucet, "A Survey of Convergence Results on Particle Filtering Methods for Practitioners", IEEE T-SP 2002——看 DCT（§8）在哪一步起作用。
Barfoot & Furgale, "Associating Uncertainty with Three-Dimensional Poses for Use in Estimation Problems", IEEE T-RO 2014——看 Haar 测度（§16）与 $\mathrm{SE}(3)$ Gauss 密度。
Munos & Szepesvári, "Finite-Time Bounds for Fitted Value Iteration", JMLR 2008——看 $L^p$（§13）与 DCT 在误差界中的角色。

三次认知跃迁（结语）¶

本质洞察：本章的学习体验应该是**三次认知跃迁**。第一次在 §5——意识到"密度"只是 R–N 导数，概率分布的本体是测度（而非密度）。第二次在 §8——理解 DCT 如何让"极限与积分交换"在机器人蒙特卡洛算法中变成定量收敛率 $O(1/\sqrt N)$。第三次在 §16——看到 Riesz 表示定理如何凭空"造出" $\mathrm{SO}(3)$ 上的 Haar 测度，让整个李群机器人学成立。带着这三次跃迁进入 B3 与 C1，你会发现泛函分析里 Banach–Alaoglu 不再"抽象"（它是粒子滤波弱紧性的来源），鞅收敛不再是"概率论装饰"（它是 Q-learning a.s. 收敛证明的核心）。测度论不是数学修养，是机器人学博士未来五年论文的脚手架——本章学得扎实与否，直接决定你之后能否独立评估一篇滤波/控制/学习论文的数学正确性。

建议学完每节问自己三个问题：(i) 这节的核心定理失效会导致哪个机器人算法出错？(ii) 削弱一个条件（去 $\sigma$-有限、去控制函数、去完备性），反例是什么？(iii) 我能在一张 A4 纸上默写主要证明骨架吗？三问皆"是"，即可进入下一节。

本章常见误解汇总¶

下表汇总贯穿全章的核心误解。它们是初学测度论时最容易踩的坑，建议在复习时逐条自查。

#	误解	正确理解	出处
1	"积分就是求曲线下面积"	积分是测度对函数的作用 $\int f\,d\mu$；面积只是 $\mu=\lambda$ 的特例，期望是 $\mu=P$，群平均是 $\mu=\mu_H$	§1, §7, §16
2	"零测集 = 可数集"	可数 $\Rightarrow$ 零测，但反之不然；Cantor 集不可数却零测	§1, §5
3	"逐点收敛 $\Rightarrow$ 积分收敛"	必须有控制函数（DCT）、单调（MCT）或单边界（Fatou）；否则质量逃逸	§1, §8
4	"代数与 $\sigma$-代数差不多"	可数并封闭（$\sigma$）才能谈极限事件；代数撑不起 Borel–Cantelli 与收敛定理	§2, §3
5	"能给所有子集量长度"	Vitali 集（选择公理）不可测；必须退到 $\sigma$-代数圈定好集合	§2, §5
6	"由上连续性无条件成立"	递减极限需 $\mu(A_1)<\infty$；反例 $[n,\infty)\downarrow\varnothing$ 但测度恒 $\infty$	§3
7	"密度 $p(x)$ 是分布的内禀属性"	密度 $=dP/d\lambda$ 仅在 $P\ll\lambda$ 时存在，依赖参照测度；退化/流形分布无密度	§5, §12, §16
8	"测度为零 = 不可能发生"	连续分布下单点概率为零是常态；概率零（a.s. 不发生）$\ne$ 空集（逻辑不可能）	§5, §14
9	"可测 = 可积"	可测保证积分有定义（可能 $\infty$）；可积要 $\int	f
10	"可测函数 ≈ 连续函数"	可测远弱于连续，可处处不连续；需连续性时用 Lusin（除小集外连续）	§6
11	"Lebesgue $\supseteq$ Riemann（广义）"	条件收敛积分（$\sin x/x$）广义 Riemann 可积但非 Lebesgue 可积；二者不可比	§1, §9
12	"积分顺序随便换"	Fubini 需绝对可积；先 Tonelli 验 $\iint	f
13	"Kalman 总给全局最优"	Kalman 是最优线性 MMSE（$L^2$ 投影）；仅 Gauss 下 = 条件期望（全局最优）	§13
14	"a.s. 收敛 = 依概率收敛"	a.s.（逐轨迹）强于依概率；单次部署的机器人系统要 a.s.	§14
15	"连续 + a.e. 可导 $\Rightarrow$ FTC"	需绝对连续（AC）；Cantor 函数连续、$c'=0$ a.e. 但 $c(1)-c(0)=1$	§1, §15
16	"$\mathrm{SO}(3)$ 当 $\mathbb{R}^3$ 用 Lebesgue"	群无平移结构，须用 Haar 测度；否则姿态先验/采样系统性偏置	§16

本章小结¶

符号表¶

本章新引入的核心数学符号及含义（首见小节）：

符号	含义	首见
$\mathcal{M},\mathcal{F}$	$\sigma$-代数 / 事件域	§2
$\sigma(\mathcal{E})$	由 $\mathcal{E}$ 生成的最小 $\sigma$-代数	§2
$\mathcal{B}(X)$	Borel $\sigma$-代数（开集生成）	§2
$\mathcal{P},\mathcal{L}$	$\pi$-系 / $\lambda$-系（Dynkin 系）	§2
$\mathcal{F}_t$	信息 $\sigma$-代数 / 过滤 $\sigma(z_{1:t},u_{1:t})$	§2
$\mu(\varnothing)=0$	测度公理（空集测度零）	§3
$\limsup_n A_n$	$\bigcap_k\bigcup_{n\ge k}A_n$，"无穷多次发生"	§3
$\mu^*$	外测度（对全体子集定义，仅次可加）	§4
$\mathcal{M}^*$	$\mu^*$-可测集 $\sigma$-代数	§4
$\lambda,m$	Lebesgue 测度	§5
$\mathcal{L}$	Lebesgue 可测集 $\sigma$-代数（$\supsetneq\mathcal{B}$）	§5
$\mathbf{1}_A$	集合 $A$ 的指示函数	§6
$f^{-1}(B)$	原像（可测性定义核心）	§6
$\varphi=\sum c_i\mathbf{1}_{A_i}$	简单函数	§6
$\int f\,d\mu$	Lebesgue 积分	§7
$\mathbb{E}[X]=\int X\,d\mathbb{P}$	期望	§7
$f^+,f^-$	正部 / 负部	§7
$L^1(\mu)$	可积函数空间（$\int	f
$Mf$	Hardy–Littlewood 极大函数	§15
$\nu\ll\mu$	绝对连续	§12
$\nu\perp\mu$	互奇异	§12
$\dfrac{d\nu}{d\mu}$	Radon–Nikodym 导数	§12
$\mu\times\nu$	积测度	§10
$\nu^+,\nu^-,	\nu	$
$\\|f\\|_p,\\|f\\|_\infty$	$L^p$ 范数 / 本性上确界	§13
$\langle X,Y\rangle=\mathbb{E}[XY]$	$L^2$ 内积	§13
$\Pi_{H_t}$	向观测子空间 $H_t$ 的正交投影	§13
$D(P\\|Q)$	KL 散度	§12
$\mu_H,dR,dg$	Haar 测度	§16
$C_c(X),C_0(X)$	紧支撑 / 趋零连续函数	§16
$\Lambda$	正线性泛函（Riesz 表示）	§16

定理速查表¶

本章核心定理及一句话说明：

定理	一句话说明	对应节
$\pi$-$\lambda$ 定理	唯一性证明的瑞士军刀：$\pi$-系 $\subseteq\lambda$-系 $\Rightarrow\sigma(\pi)\subseteq\lambda$	§2
Borel–Cantelli	$\sum\mu(A_n)<\infty\Rightarrow$ 坏事件 a.e. 只发生有限次	§3
Carathéodory 定理	$\mu^*$-可测集成 $\sigma$-代数，外测度限制上去成完备测度	§4
Hahn–Kolmogorov 扩张	代数上预测度 $\to$ $\sigma$-代数上测度，$\sigma$-有限下唯一	§4
Lebesgue 测度构造	区间长度经 Carathéodory 扩张为 $\lambda$，平移不变 + 唯一	§5
简单函数逼近	非负可测 $f$ 有简单函数列 $\varphi_n\nearrow f$（积分脚手架）	§6
Egorov / Lusin	可测函数"几乎"一致收敛 / "几乎"连续	§6
MCT（单调收敛）	$f_n\ge0,f_n\nearrow f\Rightarrow\int f_n\nearrow\int f$	§8
Fatou 引理	$\int\liminf f_n\le\liminf\int f_n$（最弱假设、单边界）	§8
DCT（控制收敛）	$f_n\to f$ a.e. + $	f_n
Fubini–Tonelli	重积分 = 累次积分（Tonelli 非负、Fubini 绝对可积）	§10
Hahn–Jordan 分解	符号测度 = 两互奇异正测度之差 $\nu^+-\nu^-$	§11
Radon–Nikodym	$\nu\ll\mu$（$\sigma$-有限）$\Rightarrow d\nu/d\mu$ 存在 a.e. 唯一	§12
Lebesgue 分解	$\nu=\nu_{ac}+\nu_s$（绝对连续 + 奇异）唯一	§12
Riesz–Fischer	$L^p$ 完备（Banach），$L^2$ 是 Hilbert	§13
Hölder / Minkowski	$\int	fg
$(L^p)^*\cong L^q$	$L^p$ 对偶（用 R–N 证），$\sigma$-有限、$p<\infty$	§13
Vitali 收敛	依测度 + 一致可积 $\Rightarrow L^1$ 收敛（比 DCT 通用）	§14
Hardy–Littlewood 弱(1,1)	$\lambda(\{Mf>\alpha\})\le3^n\\|f\\|_1/\alpha$	§15
Lebesgue 微分	$f\in L^1_{\mathrm{loc}}\Rightarrow$ a.e. 点局部平均恢复点值	§15
Lebesgue FTC	$f$ AC $\iff f(x)-f(a)=\int_a^x f'$	§15
Riesz–Markov–Kakutani	LCH 上正线性泛函 $\leftrightarrow$ 唯一 Radon 测度	§16
Haar 测度	LCH 群上存在左不变测度，至多差常数倍唯一	§16

知识点总表¶

#	知识点	核心要点	对应节	难度
1	Riemann→Lebesgue 动机	按值域分层；Riemann 的三类病理	§1	⭐⭐
2	$\sigma$-代数	可数并封闭让极限事件可度量；$\pi$-$\lambda$	§2	⭐⭐
3	测度	可数可加 $\Rightarrow$ 五大性质；Borel–Cantelli	§3	⭐⭐
4	Carathéodory 扩张	测度存在性的唯一引擎；$\sigma$-有限保唯一	§4	⭐⭐⭐
5	Lebesgue 测度	密度的参照物；Vitali 不可测；平移不变唯一	§5	⭐⭐⭐
6	可测函数	随机变量的真身；极限封闭；简单函数逼近	§6	⭐⭐
7	Lebesgue 积分	三阶段构造；期望 = 积分；Layer-cake	§7	⭐⭐⭐
8	三大收敛定理	MCT/Fatou/DCT；DCT = 粒子滤波收敛核心	§8	⭐⭐⭐
9	Riemann vs Lebesgue	一致性 + 四优势；条件收敛是缺口	§9	⭐⭐
10	Fubini–Tonelli	SLAM 边际化合法性；先 Tonelli 后 Fubini	§10	⭐⭐⭐
11	符号测度	Hahn–Jordan 分解；全变差距离；R–N 前提	§11	⭐⭐⭐
12	Radon–Nikodym	贝叶斯/重要性采样/Girsanov/KL 四合一	§12	⭐⭐⭐⭐
13	$L^p$ 空间	完备性 = Kalman 投影前提；Hölder	§13	⭐⭐⭐
14	收敛模式	a.s. vs 依概率；打字机序列；UI	§14	⭐⭐
15	微分与 FTC	AC = FTC 充要；极大函数 = 局部平均	§15	⭐⭐⭐⭐
16	Riesz / Haar	凭空造测度；$\mathrm{SO}(3)/\mathrm{SE}(3)$ 积分地基	§16	⭐⭐⭐⭐
17	后续接口	测度论 → 泛函/概率/李群/滤波	§17	⭐⭐

累积项目：本章新增模块¶

数学方向累积项目——"从公理到机器人滤波器的纸面推导链"：本项目贯穿第零层数学，目标是让你**不依赖任何黑盒**地、从最基础的公理出发，亲手推导出一个完整的机器人状态估计器的数学正确性证明。每学一章，给这条推导链加一环。

本章（B2）新增三个模块：

模块 B2-1：贝叶斯滤波的测度论重写。把你熟悉的贝叶斯滤波"预测-更新"循环，逐行用本章工具重写为严格的测度递推： - 状态空间 $(\mathcal{X},\mathcal{B}(\mathcal{X}))$，后验测度 $\pi_t$； - 预测步 = 转移核作用（Fubini §10 边际化）； - 更新步 = 似然加权 + 归一化（R–N 导数 §12，$\frac{d\pi_t}{d\hat\pi_t}\propto p(z_t\mid\cdot)$）。产出：一页纸的"测度论贝叶斯滤波"推导，每步标注用了本章哪个定理。

模块 B2-2：粒子滤波 $O(1/\sqrt N)$ 收敛证明骨架。用 §8 DCT + §7 Markov + §3 Borel–Cantelli，写出经验测度 $\mu_t^N\to\pi_t$ 的收敛证明骨架（弱收敛 + $L^2$ 速率）。产出：标注"DCT 在第几步交换极限与积分""Markov 在第几步转尾概率"的证明流程图。

模块 B2-3：Kalman = $L^2$ 投影的几何推导。用 §13 把单步 Kalman 推导为 $L^2$ 正交投影，画出"状态 - 观测子空间 - 投影 - 残差"的几何图，标注增益 $K$ = 投影系数、新息 = Gram–Schmidt 正交化。产出：一张 Kalman 的几何示意图 + 投影推导。

与后续衔接：B3（泛函分析）将给模块 B2-3 补上"投影定理的完整证明"（Banach–Alaoglu、闭子空间）；C1（概率论）将给模块 B2-2 补上"鞅收敛"使 a.s. 收敛证明完整；Layer-1（李群）将把模块 B2-1 推广到 $\mathrm{SE}(3)$ 上（Haar 测度 §16）。

延伸阅读¶

主教材（按角色分类）：

教材	角色	重点章节	难度
*Folland, Real Analysis* 2e** (Wiley 1999)	首选主教材	Ch 1–3, 6, 7（覆盖本章全部）	⭐⭐⭐
Tao, An Introduction to Measure Theory (AMS GSM 126, 2011)	动机阅读首选	§1.1–§1.3（Jordan→Lebesgue 动机驱动）	⭐⭐
*Cohn, Measure Theory* 2e** (Birkhäuser 2013)	概率过渡最佳	Ch 1–5, 7, 9, 10（Ch 10 概率 + 鞅 + Brownian）	⭐⭐⭐
*Rudin, Real and Complex Analysis* 3e** (1987)	优雅证法精读	Ch 1–3, 6–8（§6.10 von Neumann R–N 证）	⭐⭐⭐⭐
Stein–Shakarchi, Real Analysis (PUP 2005)	几何直觉	Ch 1–3, 6（$\mathbb{R}^n$ 几何路线、连通 Fourier）	⭐⭐⭐
Royden–Fitzpatrick 4e	渐进温和回退方案	Ch 2–8, 17–22	⭐⭐

核心教材深度对照表：

教材	构造 Lebesgue 测度	Radon–Nikodym 证明	Riesz 表示	对机器人博士适用度
Folland 2e	Carathéodory 标准路线 (§1.4–§1.5)	经典 Hahn 分解 + 上确界 (§3.2)	Ch 7 独立章节	★★★★★ 首选
Rudin RC 3e	反向：经 Riesz 表示倒推 (§2.14)	von Neumann Hilbert 证 (§6.10)	§2.14 起点	★★★★ 参考精读
Cohn 2e	标准 Carathéodory	经典 Hahn 分解 (§4.2)	Ch 7 详尽	★★★★★ 概率过渡
Tao GSM 126	Jordan→Lebesgue→Carathéodory 动机驱动	未完整给	未涵盖	★★★★ 动机首选
Stein–Shakarchi III	$\mathbb{R}^n$ 几何，开矩形覆盖	von Neumann 风格 (Ch 6 §4)	Ch 6 间接	★★★★ 搭配使用

12 周学习路径建议： - Week 1–2：Tao §1.1–§1.3（Jordan/Lebesgue 动机）→ 对应本章 §1 - Week 3–4：Folland Ch 1 → §2–§5 - Week 5–6：Folland Ch 2 → §6–§10 - Week 7–8：Folland Ch 3 → §11–§12, §15 - Week 9–10：Folland Ch 6 → §13–§14 - Week 11：Folland §7.1–§7.2（§16）+ Cohn Ch 10（概率衔接） - Week 12：三篇桥梁论文（Crisan–Doucet、Barfoot–Furgale、Munos–Szepesvári）

数学史里程碑文献： 1. Lebesgue, H., Intégrale, longueur, aire, 博士论文, 1902（Lebesgue 测度与积分首次系统构造）。 2. Carathéodory, C., "Über das lineare Maß von Punktmengen", Nachr. Akad. Wiss. Göttingen, 1914（外测度与 $\mu^*$-可测性）。 3. Radon, J. (1913) 与 Nikodym, O. (1930)（抽象测度的导数）。 4. Riesz, F. (1909) 与 Kakutani, S., Ann. Math. 42:994–1024, 1941（LCH 版表示定理）。 5. Fubini, G. (1907) 与 Tonelli, L. (1909)（累次积分定理）。 6. Haar, A., Ann. Math. 34:147–169, 1933；Weil, A., L'intégration dans les groupes topologiques, Hermann, 1940（Haar 测度存在性的 Riesz 路径）。 7. Kolmogorov, A. N., Grundbegriffe der Wahrscheinlichkeitsrechnung, 1933（概率论公理化 = 归一化测度论）。

机器人与学习桥梁文献： 8. Kalman, R. E., "A New Approach to Linear Filtering and Prediction Problems", J. Basic Eng. 82(1):35–45, 1960。 9. Robbins, H. & Monro, S., "A Stochastic Approximation Method", Ann. Math. Stat. 22(3):400–407, 1951。 10. Crisan, D. & Doucet, A., "A Survey of Convergence Results on Particle Filtering Methods for Practitioners", IEEE T-SP 50(3):736–746, 2002。 11. Del Moral, P., Feynman–Kac Formulae, Springer, 2004。 12. Montemerlo, Thrun, Koller, Wegbreit, "FastSLAM", AAAI 2002。 13. Karaman, S. & Frazzoli, E., "Sampling-based Algorithms for Optimal Motion Planning", IJRR 30(7):846–894, 2011。 14. Theodorou, Buchli, Schaal, "A Generalized Path Integral Control Approach to RL", JMLR 11:3137–3181, 2010（$\text{PI}^2$，用 Girsanov）。 15. Munos, R. & Szepesvári, C., "Finite-Time Bounds for Fitted Value Iteration", JMLR 9:815–857, 2008。 16. Barfoot, T. & Furgale, P., "Associating Uncertainty with 3D Poses", IEEE T-RO 30(3):679–693, 2014。 17. Chirikjian, G. S., Stochastic Models, Information Theory, and Lie Groups, Vols. 1–2, Birkhäuser, 2009 & 2012。 18. Cohen, T. & Welling, M., "Group Equivariant Convolutional Networks", ICML 2016（Peter–Weyl / Haar 在等变 CNN）。

本章与后续章节的关系¶

后续章节	与本章的关系	本章哪个知识点为其铺垫
B3 泛函分析	$L^p/L^2$ 是 Banach/Hilbert 空间范式；Riesz 对偶具体化	§13（$L^p$ 完备）、§16（Riesz 表示对偶）
C1 概率论	测度论 = 概率论的语言字典（随机变量/期望/条件期望/鞅）	§6（可测函数）、§7（期望）、§12（条件期望 = R–N）、§8（DCT 证大数定律/鞅收敛）
Layer-1 流形积分/李群	黎曼体积形式 = 流形 Radon 测度；$\mathrm{SE}(3)$ Gauss	§16（Haar 测度、Riesz 表示）
SLAM / 状态估计	贝叶斯滤波、粒子滤波、Kalman 的数学正确性	§12（贝叶斯/重要性采样）、§8（粒子滤波收敛）、§13（Kalman 投影）、§10（边际化）
最优控制 / 路径积分	MPPI/$\text{PI}^2$ 的 Girsanov 测度变换	§12（R–N 导数、Girsanov）
强化学习	TRPO/PPO 信赖域（KL）、SGD a.s. 收敛、LSTD	§12（KL 散度）、§14（a.s. 收敛）、§13（$L^2$ Galerkin 投影）

🔧 故障排查手册¶

测度论本身不"运行"，但用它分析/实现机器人概率算法时，下列"数学故障"会以具体的工程症状暴露。每个给出症状 → 可能原因 → 排查步骤 → 相关节。

故障 1：粒子滤波估计的方差不随 $N$ 减小 / 不收敛¶

项	内容
症状	增加粒子数 $N$，估计的方差不按 $O(1/N)$ 下降，甚至发散；权重退化（少数粒子占据几乎全部权重）
可能原因	(a) 似然无界（重尾），DCT 控制函数不存在，收敛性证明前提失效；(b) 提议分布 $q$ 不覆盖目标 $\pi$（$\pi\not\ll q$），R–N 权重病态；(c) 未做重采样，权重方差随时间累积
排查步骤	1. 检查似然是否有界（§8 DCT 要 $
相关节	§8（DCT 控制函数）、§12（R–N 绝对连续）、§14（收敛模式）

故障 2：EKF/UKF 协方差矩阵奇异 / 数值崩溃¶

项	内容
症状	协方差 $\Sigma$ 接近奇异，$\Sigma^{-1}$ 或 $\det\Sigma$ 爆炸；滤波器发散或输出 NaN
可能原因	(a) 状态被等式约束/完美观测压到低维子流形，后验相对 Lebesgue 互奇异（$P\perp\lambda$），密度不存在；(b) 退化 Gauss 被当成有密度的 Gauss 处理
排查步骤	1. 判断是否有约束使某些方向不确定性归零（§5 退化 Gauss）。2. 若是，回到测度层面（§12 Lebesgue 分解分出奇异部分），或在约束子流形上重参数化。3. 数值上加 Tikhonov 正则 $\Sigma+\epsilon I$ 作权宜。
相关节	§5（退化 Gauss 无密度）、§12（绝对连续、Lebesgue 分解）

故障 3：SLAM 边际化后后验"符号错误" / 概率为负¶

项	内容
症状	对地图/位姿变量边际化（积分掉）后，得到的"概率"出现负值或归一化失败；不同消元顺序给出不同结果
可能原因	(a) 被积的联合位势未归一化或重尾，不绝对可积（$\iint
排查步骤	1. 先用 Tonelli（§10）验证 $\iint
相关节	§10（Fubini 先验绝对可积）、§11（符号测度）

故障 4：$\mathrm{SO}(3)/\mathrm{SE}(3)$ 上的姿态先验/采样有系统性偏置¶

项	内容
症状	"均匀"姿态采样在某些方向过密（如欧拉角采样在极点聚集）；姿态平均结果依赖坐标卡选取；先验偏向某些姿态
可能原因	在群上用了欧氏 Lebesgue 测度（或坐标卡的 Lebesgue 测度）而非 Haar 测度；忽略了指数映射的 Jacobian
排查步骤	1. 改用 Haar 测度做先验/采样（§16）：均匀姿态用四元数在 $S^3$ 均匀 + 双覆盖修正，而非欧拉角均匀。2. 群上密度相对 Haar 定义，补指数映射 Jacobian（§16 陷阱 16.2）。3. 验证左乘旋转不变性。
相关节	§16（Haar 测度、Riesz 表示）、§5（密度依赖参照测度）

故障 5：交换极限与积分（期望）得到错误结果¶

项	内容
症状	在蒙特卡洛/随机逼近里写 $\lim_n\mathbb{E}[f_n]=\mathbb{E}[\lim_n f_n]$，结果与仿真不符；"残差期望趋零"推不出来
可能原因	无控制函数就交换极限与积分（§8 陷阱 8.1）；质量逃逸（高瘦/行进帽子）；混淆 $L^p$ 收敛与 a.e. 收敛
排查步骤	1. 用 DCT 前显式找 $g\in L^1$ 使 $
相关节	§8（三大收敛定理）、§14（收敛模式）、§7（Markov 不等式）

故障 6：KL 散度 / 重要性采样权发散为无穷¶

项	内容
症状	TRPO/PPO 的 KL 约束计算出 $\infty$；重要性采样权 $w=d\pi/dq$ 在某些样本上爆炸
可能原因	$P\not\ll Q$（两分布支撑不兼容）：KL 散度 $\int\log\frac{dP}{dQ}\,dP$ 仅 $P\ll Q$ 时有限；提议分布不覆盖目标
排查步骤	1. 检查 $\mathrm{supp}(P)\subseteq\mathrm{supp}(Q)$（§12 绝对连续）。2. 提议/旧策略分布要比目标/新策略"更宽"（重尾、加噪）。3. 退化情形用全变差距离（§11，恒有界）替代 KL，或用 Pinsker 不等式联系二者。
相关节	§12（R–N、KL、绝对连续）、§11（全变差距离）

研究实践建议¶

给初学者（第一次系统学测度论）：

不要纠结于构造细节，先抓主线。Carathéodory 扩张（§4）、Riesz 表示（§16）的证明技术性强，第一遍可只记住"它保证了什么存在性"，把精力放在"每个定理对应哪个机器人算法"。主线是：测度（量集合）→ 积分（量函数）→ 收敛定理（交换极限）→ R–N（密度/变换）→ $L^2$（Kalman）→ Haar（李群）。
每个抽象定理都找一个机器人锚点。本章每节末的"机器人应用"就是锚点。复习时反过来问："粒子滤波收敛用哪个定理？"（DCT）"Kalman 最优性用什么？"（$L^2$ 完备 + 投影）。锚点让抽象定理可记忆、可调用。
手推三大收敛定理与 R–N。§8 的 MCT/Fatou/DCT、§12 的 von Neumann R–N 证法是必须能默写的"肌肉记忆"。它们是后续概率论、滤波理论一切证明的发动机。
建立"反例库"。Dirichlet 函数、Cantor 函数、Vitali 集、高瘦/行进帽子、打字机序列——每个反例都精确标记了某个定理的边界。记住反例比记住定理更能防止误用。

给有经验者（已学过实分析、想直接用于研究）：

重点吃透 §12（R–N）与 §13（$L^2$ 投影）。这两节是机器人概率方法的核心。把贝叶斯/重要性采样/Girsanov/KL 统一成 R–N 导数（§12 本质洞察）、把 Kalman/LSTD 统一成 $L^2$ 投影（§13 本质洞察），是能直接迁移到读论文、写证明的高杠杆理解。
§16 Haar 测度是李群机器人学的入场券。若你做 $\mathrm{SE}(3)$ 上的滤波、姿态估计、群等变学习，§16 + Chirikjian/Barfoot–Furgale 是必修。注意"密度依赖参照测度"（§5、§16）这个反复出现的主题——它是欧氏直觉在群上失效的根源。
关注 $\sigma$-有限性与绝对连续性这两个"前提"。本章大定理（Fubini、R–N、扩张唯一）都要 $\sigma$-有限；R–N、KL、重要性采样都要绝对连续。研究中 80% 的"数学故障"（见故障排查手册）都源于这两个前提被悄悄违反（退化分布、重尾、不兼容支撑）。养成"用定理前先验前提"的习惯。
把收敛模式（§14）的区分用于陈述你的结果。论文里"converges"要精确到 a.s./依概率/$L^p$——审稿人会追问。机器人系统强调 a.s.（单次部署），用 Borel–Cantelli（§3）+ 快速 $L^p$ 收敛（§14 练习 3）证明它。

版权声明：本章为「机器人体系化教学项目」（达妙科技）的一部分，采用 CC BY 4.0 许可。

类型	条件	例子
有限测度	\(\mu(X)<\infty\)	任何概率测度；区间 \([0,1]\) 上的 Lebesgue 测度
概率测度	\(\mu(X)=1\)	所有 \(P,\mathbb{P}\)
\(\sigma\)-有限测度	\(X=\bigcup_n X_n\)，\(\mu(X_n)<\infty\)	\(\mathbb{R}^n\) 上的 Lebesgue 测度（\(\mathbb{R}^n=\bigcup_n[-n,n]^n\)）
计数测度	\(\mu(A)=\#A\)（元素个数）	离散求和的测度化

缺口	反例	现象
a.e. \(\not\Rightarrow L^p\)	高瘦帽子 \(f_n=n\mathbf{1}_{(0,1/n]}\)	\(f_n\to0\) a.e. 但 \(\\|f_n\\|_1=1\)（质量逃逸）
\(L^p\not\Rightarrow\) a.e.	打字机序列（见下）	\(\\|f_n\\|_1\to0\) 但处处不收敛
依测度 \(\not\Rightarrow\) a.e.	同打字机序列	依测度收敛但无处逐点收敛
a.e. \(\not\Rightarrow\) 依测度（无限测度）	行进帽子 \(f_n=\mathbf{1}_{[n,n+1]}\) on \(\mathbb{R}\)	a.e. 收敛但依测度不收敛（需有限测度）

符号	含义	首见
\(X,\Omega\)	全集 / 样本空间	§2
\(\mathcal{M},\mathcal{F}\)	\(\sigma\)-代数 / 事件域	§2
\(2^X\)	\(X\) 的幂集（全体子集）	§2
\(\sigma(\mathcal{E})\)	由 \(\mathcal{E}\) 生成的最小 \(\sigma\)-代数	§2
\(\mathcal{B}(X)\)	Borel \(\sigma\)-代数	§2
\(\mu,\nu\)	（正/符号）测度	§3
\(P,\mathbb{P}\)	概率测度	§3
\(\lambda,m\)	Lebesgue 测度	§5
\(\mu^*\)	外测度	§4
\(\mathbf{1}_A\)	集合 \(A\) 的指示函数	§6
\(\int f\,d\mu\)	\(f\) 关于 \(\mu\) 的 Lebesgue 积分	§7
\(\mathbb{E}[X]\)	期望 \(=\int_\Omega X\,d\mathbb{P}\)	§7
a.e. / a.s.	几乎处处 / 几乎必然	§7
\(f^+,f^-\)	正部 \(\max(f,0)\) / 负部 \(\max(-f,0)\)	§7
\(L^p(\mu)\)	\(p\) 次可积函数空间	§13
\(\\|f\\|_p\)	\(L^p\) 范数 $(\int	f
\(\nu\ll\mu\)	\(\nu\) 关于 \(\mu\) 绝对连续	§12
\(\nu\perp\mu\)	\(\nu\) 与 \(\mu\) 互奇异	§12
\(\dfrac{d\nu}{d\mu}\)	Radon–Nikodym 导数	§12
\(\mu\times\nu\)	积测度	§10
$	\nu	$
\(\mathrm{SO}(3),\mathrm{SE}(3)\)	旋转群 / 刚体运动群	§16
\(\mu_H,dR,dg\)	Haar 测度	§16
\(C_c(X),C_0(X)\)	紧支撑 / 趋零连续函数空间	§16

拼图	要回答的问题	本章位置
可测集	哪些集合 \(\{f\in[y_k,y_{k+1})\}\) 能赋测度？测度满足什么公理？	§2（\(\sigma\)-代数）、§3（测度）、§4（Carathéodory）、§5（Lebesgue 测度）
可测函数	哪些函数 \(f\) 保证每一层都可测？	§6
积分本身	怎么从"层的测度"严格定义 \(\int f\,d\mu\)，并证明它有好的极限性质？	§7（构造）、§8（收敛定理）

例子	描述	大小	用途
平凡 \(\sigma\)-代数	\(\{\varnothing, X\}\)	最小	"什么都区分不了"的信息基线
幂集	\(2^X\)	最大	离散空间（如有限状态机）默认 \(\sigma\)-代数
Borel \(\sigma\)-代数	\(\mathcal{B}(X)=\sigma(\text{开集})\)	适中	\(\mathbb{R}^n\)、流形上分析的标准框架

测度性质	概率版本	机器人含义
\(\mu(\varnothing)=0\)	\(P(\varnothing)=0\)	不可能事件概率为 \(0\)
有限可加（不交）	\(P(A\cup B)=P(A)+P(B)\)	互斥事件概率相加
单调性	\(A\subseteq B\Rightarrow P(A)\le P(B)\)	更宽泛的事件更可能
由下连续	\(A_n\uparrow A\Rightarrow P(A_n)\uparrow P(A)\)	观测越多，事件概率估计越稳定收敛
可数次可加	\(P(\bigcup A_n)\le\sum P(A_n)\)	union bound：失败概率被各分量之和控制
Borel–Cantelli	\(\sum P(A_n)<\infty\Rightarrow P(A_n\text{ i.o.})=0\)	坏事件几乎必然只发生有限次

测度论概念（本章）	概率论概念（C1）
可测函数（§6）	随机变量
积分 \(\int X\,d\mathbb{P}\)（§7）	期望 \(\mathbb{E}[X]\)
积测度 = 边缘分解（§10）	独立性
\(\sigma\)-子代数上 R–N 导数（§12）	条件期望 \(\mathbb{E}[X\mid\mathcal{G}]\)
适应过程的条件期望塔	鞅
Fourier 变换（测度的）	特征函数

#	误解	正确理解	出处
1	"积分就是求曲线下面积"	积分是测度对函数的作用 \(\int f\,d\mu\)；面积只是 \(\mu=\lambda\) 的特例，期望是 \(\mu=P\)，群平均是 \(\mu=\mu_H\)	§1, §7, §16
2	"零测集 = 可数集"	可数 \(\Rightarrow\) 零测，但反之不然；Cantor 集不可数却零测	§1, §5
3	"逐点收敛 \(\Rightarrow\) 积分收敛"	必须有控制函数（DCT）、单调（MCT）或单边界（Fatou）；否则质量逃逸	§1, §8
4	"代数与 \(\sigma\)-代数差不多"	可数并封闭（\(\sigma\)）才能谈极限事件；代数撑不起 Borel–Cantelli 与收敛定理	§2, §3
5	"能给所有子集量长度"	Vitali 集（选择公理）不可测；必须退到 \(\sigma\)-代数圈定好集合	§2, §5
6	"由上连续性无条件成立"	递减极限需 \(\mu(A_1)<\infty\)；反例 \([n,\infty)\downarrow\varnothing\) 但测度恒 \(\infty\)	§3
7	"密度 \(p(x)\) 是分布的内禀属性"	密度 \(=dP/d\lambda\) 仅在 \(P\ll\lambda\) 时存在，依赖参照测度；退化/流形分布无密度	§5, §12, §16
8	"测度为零 = 不可能发生"	连续分布下单点概率为零是常态；概率零（a.s. 不发生）\(\ne\) 空集（逻辑不可能）	§5, §14
9	"可测 = 可积"	可测保证积分有定义（可能 \(\infty\)）；可积要 $\int	f
10	"可测函数 ≈ 连续函数"	可测远弱于连续，可处处不连续；需连续性时用 Lusin（除小集外连续）	§6
11	"Lebesgue \(\supseteq\) Riemann（广义）"	条件收敛积分（\(\sin x/x\)）广义 Riemann 可积但非 Lebesgue 可积；二者不可比	§1, §9
12	"积分顺序随便换"	Fubini 需绝对可积；先 Tonelli 验 $\iint	f
13	"Kalman 总给全局最优"	Kalman 是最优线性 MMSE（\(L^2\) 投影）；仅 Gauss 下 = 条件期望（全局最优）	§13
14	"a.s. 收敛 = 依概率收敛"	a.s.（逐轨迹）强于依概率；单次部署的机器人系统要 a.s.	§14
15	"连续 + a.e. 可导 \(\Rightarrow\) FTC"	需绝对连续（AC）；Cantor 函数连续、\(c'=0\) a.e. 但 \(c(1)-c(0)=1\)	§1, §15
16	"\(\mathrm{SO}(3)\) 当 \(\mathbb{R}^3\) 用 Lebesgue"	群无平移结构，须用 Haar 测度；否则姿态先验/采样系统性偏置	§16

定理	一句话说明	对应节
\(\pi\)-\(\lambda\) 定理	唯一性证明的瑞士军刀：\(\pi\)-系 \(\subseteq\lambda\)-系 \(\Rightarrow\sigma(\pi)\subseteq\lambda\)	§2
Borel–Cantelli	\(\sum\mu(A_n)<\infty\Rightarrow\) 坏事件 a.e. 只发生有限次	§3
Carathéodory 定理	\(\mu^*\)-可测集成 \(\sigma\)-代数，外测度限制上去成完备测度	§4
Hahn–Kolmogorov 扩张	代数上预测度 \(\to\) \(\sigma\)-代数上测度，\(\sigma\)-有限下唯一	§4
Lebesgue 测度构造	区间长度经 Carathéodory 扩张为 \(\lambda\)，平移不变 + 唯一	§5
简单函数逼近	非负可测 \(f\) 有简单函数列 \(\varphi_n\nearrow f\)（积分脚手架）	§6
Egorov / Lusin	可测函数"几乎"一致收敛 / "几乎"连续	§6
MCT（单调收敛）	\(f_n\ge0,f_n\nearrow f\Rightarrow\int f_n\nearrow\int f\)	§8
Fatou 引理	\(\int\liminf f_n\le\liminf\int f_n\)（最弱假设、单边界）	§8
DCT（控制收敛）	\(f_n\to f\) a.e. + $	f_n
Fubini–Tonelli	重积分 = 累次积分（Tonelli 非负、Fubini 绝对可积）	§10
Hahn–Jordan 分解	符号测度 = 两互奇异正测度之差 \(\nu^+-\nu^-\)	§11
Radon–Nikodym	\(\nu\ll\mu\)（\(\sigma\)-有限）\(\Rightarrow d\nu/d\mu\) 存在 a.e. 唯一	§12
Lebesgue 分解	\(\nu=\nu_{ac}+\nu_s\)（绝对连续 + 奇异）唯一	§12
Riesz–Fischer	\(L^p\) 完备（Banach），\(L^2\) 是 Hilbert	§13
Hölder / Minkowski	$\int	fg
\((L^p)^*\cong L^q\)	\(L^p\) 对偶（用 R–N 证），\(\sigma\)-有限、\(p<\infty\)	§13
Vitali 收敛	依测度 + 一致可积 \(\Rightarrow L^1\) 收敛（比 DCT 通用）	§14
Hardy–Littlewood 弱(1,1)	\(\lambda(\{Mf>\alpha\})\le3^n\\|f\\|_1/\alpha\)	§15
Lebesgue 微分	\(f\in L^1_{\mathrm{loc}}\Rightarrow\) a.e. 点局部平均恢复点值	§15
Lebesgue FTC	\(f\) AC \(\iff f(x)-f(a)=\int_a^x f'\)	§15
Riesz–Markov–Kakutani	LCH 上正线性泛函 \(\leftrightarrow\) 唯一 Radon 测度	§16
Haar 测度	LCH 群上存在左不变测度，至多差常数倍唯一	§16

后续章节	与本章的关系	本章哪个知识点为其铺垫
B3 泛函分析	\(L^p/L^2\) 是 Banach/Hilbert 空间范式；Riesz 对偶具体化	§13（\(L^p\) 完备）、§16（Riesz 表示对偶）
C1 概率论	测度论 = 概率论的语言字典（随机变量/期望/条件期望/鞅）	§6（可测函数）、§7（期望）、§12（条件期望 = R–N）、§8（DCT 证大数定律/鞅收敛）
Layer-1 流形积分/李群	黎曼体积形式 = 流形 Radon 测度；\(\mathrm{SE}(3)\) Gauss	§16（Haar 测度、Riesz 表示）
SLAM / 状态估计	贝叶斯滤波、粒子滤波、Kalman 的数学正确性	§12（贝叶斯/重要性采样）、§8（粒子滤波收敛）、§13（Kalman 投影）、§10（边际化）
最优控制 / 路径积分	MPPI/\(\text{PI}^2\) 的 Girsanov 测度变换	§12（R–N 导数、Girsanov）
强化学习	TRPO/PPO 信赖域（KL）、SGD a.s. 收敛、LSTD	§12（KL 散度）、§14（a.s. 收敛）、§13（\(L^2\) Galerkin 投影）

项	内容
症状	增加粒子数 \(N\)，估计的方差不按 \(O(1/N)\) 下降，甚至发散；权重退化（少数粒子占据几乎全部权重）
可能原因	(a) 似然无界（重尾），DCT 控制函数不存在，收敛性证明前提失效；(b) 提议分布 \(q\) 不覆盖目标 \(\pi\)（\(\pi\not\ll q\)），R–N 权重病态；(c) 未做重采样，权重方差随时间累积
排查步骤	1. 检查似然是否有界（§8 DCT 要 $
相关节	§8（DCT 控制函数）、§12（R–N 绝对连续）、§14（收敛模式）

项	内容
症状	协方差 \(\Sigma\) 接近奇异，\(\Sigma^{-1}\) 或 \(\det\Sigma\) 爆炸；滤波器发散或输出 NaN
可能原因	(a) 状态被等式约束/完美观测压到低维子流形，后验相对 Lebesgue 互奇异（\(P\perp\lambda\)），密度不存在；(b) 退化 Gauss 被当成有密度的 Gauss 处理
排查步骤	1. 判断是否有约束使某些方向不确定性归零（§5 退化 Gauss）。2. 若是，回到测度层面（§12 Lebesgue 分解分出奇异部分），或在约束子流形上重参数化。3. 数值上加 Tikhonov 正则 \(\Sigma+\epsilon I\) 作权宜。
相关节	§5（退化 Gauss 无密度）、§12（绝对连续、Lebesgue 分解）

项	内容
症状	在蒙特卡洛/随机逼近里写 \(\lim_n\mathbb{E}[f_n]=\mathbb{E}[\lim_n f_n]\)，结果与仿真不符；"残差期望趋零"推不出来
可能原因	无控制函数就交换极限与积分（§8 陷阱 8.1）；质量逃逸（高瘦/行进帽子）；混淆 \(L^p\) 收敛与 a.e. 收敛
排查步骤	1. 用 DCT 前显式找 \(g\in L^1\) 使 $
相关节	§8（三大收敛定理）、§14（收敛模式）、§7（Markov 不等式）

项	内容
症状	TRPO/PPO 的 KL 约束计算出 \(\infty\)；重要性采样权 \(w=d\pi/dq\) 在某些样本上爆炸
可能原因	\(P\not\ll Q\)（两分布支撑不兼容）：KL 散度 \(\int\log\frac{dP}{dQ}\,dP\) 仅 \(P\ll Q\) 时有限；提议分布不覆盖目标
排查步骤	1. 检查 \(\mathrm{supp}(P)\subseteq\mathrm{supp}(Q)\)（§12 绝对连续）。2. 提议/旧策略分布要比目标/新策略"更宽"（重尾、加噪）。3. 退化情形用全变差距离（§11，恒有界）替代 KL，或用 Pinsker 不等式联系二者。
相关节	§12（R–N、KL、绝对连续）、§11（全变差距离）

测度论与 Lebesgue 积分——机器人概率方法的严格底座¶

前置自测¶

本章目标¶

本章知识导航¶

前置知识桥接¶

如果跳过本章会怎样¶

预计阅读时间¶

数学史脉络¶

本章符号约定¶

§1 从 Riemann 到 Lebesgue 的动机 ⭐⭐¶

动机：一个积分到底在求什么？¶

反面：Riemann 积分坏在哪——三个经典反例¶

反面（续）：极限与积分不能交换——最致命的缺陷¶

历史：Lebesgue 的"水平切片"革命¶

理论：Lebesgue 纲领的三块拼图¶

机器人应用：为什么连续状态空间非 Lebesgue 不可¶

⚠️ 常见陷阱¶

练习¶

§2 \(\sigma\)-代数与可测空间 ⭐⭐¶

动机：不是所有集合都能量长度¶

历史：从代数到 \(\sigma\)-代数¶

理论：\(\sigma\)-代数的定义¶

理论：三个基本例子¶

理论：生成 \(\sigma\)-代数与 Borel 集¶

理论：\(\pi\)-\(\lambda\) 定理（Dynkin 系统定理）——唯一性证明的瑞士军刀¶

机器人应用：信息 \(\sigma\)-代数与因果性¶

⚠️ 常见陷阱¶

练习¶

§3 测度的定义与基本性质 ⭐⭐¶

动机：把"长度/概率/质量"公理化¶

历史：Borel 的可数可加性与 Kolmogorov 的概率公理¶

理论：测度的定义¶

理论：从公理推出的基本性质¶

理论：Borel–Cantelli 引理——"坏事件几乎必然有限次"¶

理论：测度的完备化¶

机器人应用：概率公理就是测度公理的特化¶

⚠️ 常见陷阱¶

练习¶

§4 外测度与 Carathéodory 扩张定理 ⭐⭐⭐¶

动机：测度从哪里来？¶

反面：天真的"内外逼近"为什么不够¶

理论：外测度¶

理论：Carathéodory 可测性条件¶

理论：Carathéodory 定理¶

理论：Hahn–Kolmogorov 扩张定理¶

反面：没有 \(\sigma\)-有限性，唯一性会失效¶

机器人应用：一切概率模型存在性的根基¶

⚠️ 常见陷阱¶

练习¶

§5 Lebesgue 测度的构造与性质 ⭐⭐⭐¶

动机：给"概率密度"找一个参照物¶

历史：从 Jordan 容度到 Lebesgue 测度¶

理论：Lebesgue 测度的构造¶

理论：Lebesgue 测度的六大性质¶

机器人应用：密度的本体、退化 Gauss 的危机¶

⚠️ 常见陷阱¶

练习¶

§6 可测函数 ⭐⭐¶

动机：哪些函数能积分？¶

反面：不可测函数会让积分崩溃¶

历史与直觉¶

理论：可测函数的定义¶

理论：可测函数的封闭性（极其丰富）¶

理论：简单函数逼近定理——积分的脚手架¶

理论：Littlewood 三原则与 Egorov、Lusin 定理¶

机器人应用：似然函数虽不连续却可测，且"几乎连续"¶

⚠️ 常见陷阱¶

练习¶

§7 Lebesgue 积分的构造 ⭐⭐⭐¶

动机：把"层的测度加权和"变成严格定义¶

反面：为什么不能"一步到位"定义¶

理论：三阶段构造¶

理论：积分的基本性质¶

理论：Layer-cake 表示——把积分翻译成"超水平集测度的积分"¶

机器人应用：期望就是 Lebesgue 积分¶

⚠️ 常见陷阱¶

练习¶

§8 三大收敛定理 ⭐⭐⭐¶

动机：极限与积分何时可交换——蒙特卡洛的命根子¶

反面：极限与积分不能随便交换——两个反例先看¶