随机规划中的序贯决策与学习
字数 1290 2025-11-05 08:31:29
随机规划中的序贯决策与学习
1. 基本概念引入
序贯决策与学习是随机规划中处理动态不确定性问题的核心方法。它研究决策者如何在多个阶段中,基于逐步获得的信息调整策略,以优化长期目标。例如,在资源分配或投资计划中,决策者需根据实时观测的数据(如市场需求、价格波动)不断更新行动。与静态随机规划不同,序贯决策强调“决策-观测-学习-再决策”的循环过程。
2. 核心要素与建模框架
问题通常建模为多阶段随机规划,包含以下要素:
- 决策阶段:时间被离散为 \(t=1,2,\dots,T\),每个阶段需选择行动 \(x_t\)。
- 状态变量:描述系统在阶段 \(t\) 的状况(如库存水平、资金量),其演化受随机噪声影响。
- 信息过程:决策者在阶段 \(t\) 可观测到随机变量的实现(如需求 \(d_t\)),并基于历史信息 \(\mathcal{F}_t\) 做决策。
- 代价函数:每阶段产生成本 \(c_t(x_t, \xi_t)\),目标是最小化总期望成本 \(\mathbb{E}[\sum_{t=1}^T c_t(x_t, \xi_t)]\)。
3. 动态方程与非预期性约束
系统动态由状态转移方程描述:
\[s_{t+1} = f_t(s_t, x_t, \xi_t) \]
其中 \(\xi_t\) 是随机参数。决策需满足非预期性约束:阶段 \(t\) 的行动 \(x_t\) 仅依赖于当前已知信息 \(\mathcal{F}_t\),而不能依赖未来不确定性。这通常写作 \(x_t \preceq \xi_t\)(\(x_t\) 对 \(\xi_t\) 可测)。
4. 求解挑战与策略类型
由于“维数灾难”(状态和随机参数空间随阶段数指数增长),直接求解精确解不可行。两类主要策略为:
- 开环策略:所有决策在初始阶段确定,忽略中途信息,通常保守。
- 闭环策略:决策是当前状态的函数(如 \(x_t = \pi_t(s_t)\)),需通过动态规划或近似方法求解。
5. 基于学习的近似方法
当模型不完全已知时,需结合学习与决策:
- 随机动态规划:若模型已知,用Bellman方程递归计算值函数 \(V_t(s_t) = \min_{x_t} \mathbb{E}[c_t + V_{t+1}(s_{t+1}) | \mathcal{F}_t]\)。
- 模型预测控制(MPC):每阶段求解有限阶段的优化问题,实施首阶段决策后重新滚动优化。
- 参数化策略函数:将策略 \(\pi_t\) 参数化(如线性函数、神经网络),通过随机梯度下降优化参数。
- 前瞻性采样:生成随机场景树近似未来路径,但需平衡计算复杂度与近似精度。
6. 应用与扩展
该方法广泛应用于库存管理(如多阶段报童问题)、能源系统调度、金融风险管理等。扩展方向包括部分可观系统(加入贝叶斯学习)、多智能体协同决策,以及结合鲁棒优化处理分布模糊性。