随机规划中的多阶段决策与动态风险度量

字数 859 2025-11-03 18:01:13

随机规划中的多阶段决策与动态风险度量

基本概念：多阶段决策问题涉及在多个时间阶段依次做出决策，每个阶段的决策依赖于当前状态和未来不确定性。动态风险度量是评估多阶段随机决策风险的工具，它不仅考虑最终结果的分布，还关注风险随时间累积的过程。
数学模型：设决策阶段为 \(t=1,\dots,T\)，状态变量为 \(x_t\)，决策变量为 \(u_t\)，随机噪声为 \(\xi_t\)。系统演化遵循状态方程 \(x_{t+1} = f_t(x_t, u_t, \xi_t)\)。目标是最小化总成本 \(\sum_{t=1}^T c_t(x_t, u_t, \xi_t)\) 的动态风险值。
动态风险度量的性质：采用一致性动态风险度量（如条件风险价值，CVaR的动态扩展），需满足：
- 时间一致性：当前阶段的风险评估与未来阶段的风险评估逻辑一致，避免策略短视。
- 单调性：若某路径成本始终更低，则其风险值更小。
- 凸性：保证优化问题的凸结构，便于求解。
动态规划方程：通过贝尔曼方程递归计算最优策略。定义值函数 \(V_t(x_t)\) 为从阶段 \(t\) 状态 \(x_t\) 出发的最小动态风险值：

\[ V_t(x_t) = \min_{u_t} \rho_t \left( c_t(x_t, u_t, \xi_t) + V_{t+1}(x_{t+1}) \right) \]

其中 \(\rho_t\) 为条件风险度量算子，编码对阶段 \(t\) 后风险的态度。

求解方法：
- 随机动态规划：当状态和噪声空间较小时，直接递归求解。
- 近似动态规划（ADP）：对于高维问题，使用值函数近似或策略搜索，结合蒙特卡洛采样。
- 随机对偶动态规划（SDDP）：针对凸问题，通过割平面法近似值函数，处理连续随机变量。
应用场景：适用于金融投资组合动态管理、能源系统调度、供应链多期库存控制等需长期风险控制的领域。