强化学习数学(第六批)¶
导读:六个专题沿一条主线展开:MDP 与动态规划把 RL 严格化为 Banach 空间上的不动点问题,策略梯度将不动点求解从查表推进到参数化梯度上升,逼近动态规划分析用采样与函数逼近代替精确计算后的稳定性,连续控制架起 RL 与经典最优控制/MPC 的双向桥梁,随机逼近的 ODE 方法为前四个专题的收敛性提供统一证明工具,样本复杂度从学习理论视角回答"要多少样本"并打开前沿方向。整条路径的设计逻辑是:先建骨架,再长肌肉,最后验血。
目录¶
| 编号 | 专题 | 说明 |
|---|---|---|
| 10 | MDP与动态规划基础 | MDP 与动态规划基础 |
| 20 | 策略梯度与Actor_Critic | 策略梯度与 Actor-Critic 理论 |
| 30 | 逼近动态规划与TD学习 | 逼近动态规划与 TD 学习 |
| 40 | 连续控制与RL统一视角 | 连续控制与 RL 的统一视角 |
| 50 | 随机逼近与ODE方法 | 随机逼近与 ODE 方法 |
| 60 | 样本复杂度与前沿理论 | 样本复杂度与前沿理论 |