随机规划中的序贯决策与学习
字数 1290 2025-11-05 08:31:29

随机规划中的序贯决策与学习

1. 基本概念引入
序贯决策与学习是随机规划中处理动态不确定性问题的核心方法。它研究决策者如何在多个阶段中,基于逐步获得的信息调整策略,以优化长期目标。例如,在资源分配或投资计划中,决策者需根据实时观测的数据(如市场需求、价格波动)不断更新行动。与静态随机规划不同,序贯决策强调“决策-观测-学习-再决策”的循环过程。

2. 核心要素与建模框架
问题通常建模为多阶段随机规划,包含以下要素:

  • 决策阶段:时间被离散为 \(t=1,2,\dots,T\),每个阶段需选择行动 \(x_t\)
  • 状态变量:描述系统在阶段 \(t\) 的状况(如库存水平、资金量),其演化受随机噪声影响。
  • 信息过程:决策者在阶段 \(t\) 可观测到随机变量的实现(如需求 \(d_t\)),并基于历史信息 \(\mathcal{F}_t\) 做决策。
  • 代价函数:每阶段产生成本 \(c_t(x_t, \xi_t)\),目标是最小化总期望成本 \(\mathbb{E}[\sum_{t=1}^T c_t(x_t, \xi_t)]\)

3. 动态方程与非预期性约束
系统动态由状态转移方程描述:

\[s_{t+1} = f_t(s_t, x_t, \xi_t) \]

其中 \(\xi_t\) 是随机参数。决策需满足非预期性约束:阶段 \(t\) 的行动 \(x_t\) 仅依赖于当前已知信息 \(\mathcal{F}_t\),而不能依赖未来不确定性。这通常写作 \(x_t \preceq \xi_t\)\(x_t\)\(\xi_t\) 可测)。

4. 求解挑战与策略类型
由于“维数灾难”(状态和随机参数空间随阶段数指数增长),直接求解精确解不可行。两类主要策略为:

  • 开环策略:所有决策在初始阶段确定,忽略中途信息,通常保守。
  • 闭环策略:决策是当前状态的函数(如 \(x_t = \pi_t(s_t)\)),需通过动态规划或近似方法求解。

5. 基于学习的近似方法
当模型不完全已知时,需结合学习与决策:

  • 随机动态规划:若模型已知,用Bellman方程递归计算值函数 \(V_t(s_t) = \min_{x_t} \mathbb{E}[c_t + V_{t+1}(s_{t+1}) | \mathcal{F}_t]\)
  • 模型预测控制(MPC):每阶段求解有限阶段的优化问题,实施首阶段决策后重新滚动优化。
  • 参数化策略函数:将策略 \(\pi_t\) 参数化(如线性函数、神经网络),通过随机梯度下降优化参数。
  • 前瞻性采样:生成随机场景树近似未来路径,但需平衡计算复杂度与近似精度。

6. 应用与扩展
该方法广泛应用于库存管理(如多阶段报童问题)、能源系统调度、金融风险管理等。扩展方向包括部分可观系统(加入贝叶斯学习)、多智能体协同决策,以及结合鲁棒优化处理分布模糊性。

随机规划中的序贯决策与学习 1. 基本概念引入 序贯决策与学习是随机规划中处理动态不确定性问题的核心方法。它研究决策者如何在多个阶段中,基于逐步获得的信息调整策略,以优化长期目标。例如,在资源分配或投资计划中,决策者需根据实时观测的数据(如市场需求、价格波动)不断更新行动。与静态随机规划不同,序贯决策强调“决策-观测-学习-再决策”的循环过程。 2. 核心要素与建模框架 问题通常建模为多阶段随机规划,包含以下要素: 决策阶段 :时间被离散为 \( t=1,2,\dots,T \),每个阶段需选择行动 \( x_ t \)。 状态变量 :描述系统在阶段 \( t \) 的状况(如库存水平、资金量),其演化受随机噪声影响。 信息过程 :决策者在阶段 \( t \) 可观测到随机变量的实现(如需求 \( d_ t \)),并基于历史信息 \( \mathcal{F}_ t \) 做决策。 代价函数 :每阶段产生成本 \( c_ t(x_ t, \xi_ t) \),目标是最小化总期望成本 \( \mathbb{E}[ \sum_ {t=1}^T c_ t(x_ t, \xi_ t) ] \)。 3. 动态方程与非预期性约束 系统动态由状态转移方程描述: \[ s_ {t+1} = f_ t(s_ t, x_ t, \xi_ t) \] 其中 \( \xi_ t \) 是随机参数。决策需满足 非预期性约束 :阶段 \( t \) 的行动 \( x_ t \) 仅依赖于当前已知信息 \( \mathcal{F}_ t \),而不能依赖未来不确定性。这通常写作 \( x_ t \preceq \xi_ t \)(\( x_ t \) 对 \( \xi_ t \) 可测)。 4. 求解挑战与策略类型 由于“维数灾难”(状态和随机参数空间随阶段数指数增长),直接求解精确解不可行。两类主要策略为: 开环策略 :所有决策在初始阶段确定,忽略中途信息,通常保守。 闭环策略 :决策是当前状态的函数(如 \( x_ t = \pi_ t(s_ t) \)),需通过动态规划或近似方法求解。 5. 基于学习的近似方法 当模型不完全已知时,需结合学习与决策: 随机动态规划 :若模型已知,用Bellman方程递归计算值函数 \( V_ t(s_ t) = \min_ {x_ t} \mathbb{E}[ c_ t + V_ {t+1}(s_ {t+1}) | \mathcal{F}_ t ] \)。 模型预测控制(MPC) :每阶段求解有限阶段的优化问题,实施首阶段决策后重新滚动优化。 参数化策略函数 :将策略 \( \pi_ t \) 参数化(如线性函数、神经网络),通过随机梯度下降优化参数。 前瞻性采样 :生成随机场景树近似未来路径,但需平衡计算复杂度与近似精度。 6. 应用与扩展 该方法广泛应用于库存管理(如多阶段报童问题)、能源系统调度、金融风险管理等。扩展方向包括部分可观系统(加入贝叶斯学习)、多智能体协同决策,以及结合鲁棒优化处理分布模糊性。