跳转至

强化学习数学(第六批)

导读:六个专题沿一条主线展开:MDP 与动态规划把 RL 严格化为 Banach 空间上的不动点问题,策略梯度将不动点求解从查表推进到参数化梯度上升,逼近动态规划分析用采样与函数逼近代替精确计算后的稳定性,连续控制架起 RL 与经典最优控制/MPC 的双向桥梁,随机逼近的 ODE 方法为前四个专题的收敛性提供统一证明工具,样本复杂度从学习理论视角回答"要多少样本"并打开前沿方向。整条路径的设计逻辑是:先建骨架,再长肌肉,最后验血

目录

编号 专题 说明
10 MDP与动态规划基础 MDP 与动态规划基础
20 策略梯度与Actor_Critic 策略梯度与 Actor-Critic 理论
30 逼近动态规划与TD学习 逼近动态规划与 TD 学习
40 连续控制与RL统一视角 连续控制与 RL 的统一视角
50 随机逼近与ODE方法 随机逼近与 ODE 方法
60 样本复杂度与前沿理论 样本复杂度与前沿理论