随机规划中的序贯决策与价值函数逼近

字数 789 2025-11-07 12:33:33

随机规划中的序贯决策与价值函数逼近

基本概念引入
序贯决策是指在多阶段决策过程中，每个阶段的决策依赖于当前状态信息，并影响后续状态与收益。在随机规划中，状态转移和收益往往包含随机性（如市场需求波动），需通过动态规划方法求解最优策略。价值函数定义为从某状态出发的最大期望总收益，是动态规划的核心。
动态规划与维数灾难
动态规划通过贝尔曼方程递归计算价值函数。例如，在有限阶段问题中，最优价值函数满足：
\(V_t(s_t) = \max_{a_t} \mathbb{E}[r_t(s_t, a_t) + V_{t+1}(s_{t+1}) | s_t, a_t]\)
但当状态空间或行动空间较大时，精确计算\(V_t(s)\)需遍历所有可能状态，导致“维数灾难”。
价值函数逼近的原理
为解决维数灾难，用参数化函数\(\hat{V}(s; \theta)\)近似真实价值函数\(V(s)\)，其中\(\theta\)为可调参数。常见逼近器包括：
- 线性模型：\(\hat{V}(s; \theta) = \phi(s)^T \theta\)（\(\phi(s)\)为特征向量）
- 神经网络：通过非线性映射捕捉复杂状态关系。
逼近方法分类
- 参数优化法：通过最小化逼近函数与目标值的误差（如均方误差）更新参数。
- 时序差分学习：结合蒙特卡洛采样和自举法，在线更新参数（如TD(λ)算法）。
- 函数逼近与策略迭代结合：在策略评估步骤中使用函数逼近，迭代改进策略。
收敛性与挑战
线性逼近在温和条件下可收敛，但非线性逼近可能不稳定。需平衡探索与利用，并处理函数逼近的偏差-方差权衡。现代方法（如深度Q网络）通过经验回放和目标网络提升稳定性。
应用场景
适用于资源分配、库存管理、机器人控制等复杂随机系统，其中状态空间连续或高维，传统动态规划不可行。