强化学习数学（第六批）¶

导读：六个专题沿一条主线展开：MDP 与动态规划把 RL 严格化为 Banach 空间上的不动点问题，策略梯度将不动点求解从查表推进到参数化梯度上升，逼近动态规划分析用采样与函数逼近代替精确计算后的稳定性，连续控制架起 RL 与经典最优控制/MPC 的双向桥梁，随机逼近的 ODE 方法为前四个专题的收敛性提供统一证明工具，样本复杂度从学习理论视角回答"要多少样本"并打开前沿方向。整条路径的设计逻辑是：先建骨架，再长肌肉，最后验血。

目录¶

编号	专题	说明
10	MDP与动态规划基础	MDP 与动态规划基础
20	策略梯度与Actor_Critic	策略梯度与 Actor-Critic 理论
30	逼近动态规划与TD学习	逼近动态规划与 TD 学习
40	连续控制与RL统一视角	连续控制与 RL 的统一视角
50	随机逼近与ODE方法	随机逼近与 ODE 方法
60	样本复杂度与前沿理论	样本复杂度与前沿理论