随机规划中的序贯决策与学习

字数 1290 2025-11-05 08:31:29

随机规划中的序贯决策与学习

1. 基本概念引入
序贯决策与学习是随机规划中处理动态不确定性问题的核心方法。它研究决策者如何在多个阶段中，基于逐步获得的信息调整策略，以优化长期目标。例如，在资源分配或投资计划中，决策者需根据实时观测的数据（如市场需求、价格波动）不断更新行动。与静态随机规划不同，序贯决策强调“决策-观测-学习-再决策”的循环过程。

2. 核心要素与建模框架
问题通常建模为多阶段随机规划，包含以下要素：

决策阶段：时间被离散为 \(t=1,2,\dots,T\)，每个阶段需选择行动 \(x_t\)。
状态变量：描述系统在阶段 \(t\) 的状况（如库存水平、资金量），其演化受随机噪声影响。
信息过程：决策者在阶段 \(t\) 可观测到随机变量的实现（如需求 \(d_t\)），并基于历史信息 \(\mathcal{F}_t\) 做决策。
代价函数：每阶段产生成本 \(c_t(x_t, \xi_t)\)，目标是最小化总期望成本 \(\mathbb{E}[\sum_{t=1}^T c_t(x_t, \xi_t)]\)。

3. 动态方程与非预期性约束
系统动态由状态转移方程描述：

\[s_{t+1} = f_t(s_t, x_t, \xi_t) \]

其中 \(\xi_t\) 是随机参数。决策需满足非预期性约束：阶段 \(t\) 的行动 \(x_t\) 仅依赖于当前已知信息 \(\mathcal{F}_t\)，而不能依赖未来不确定性。这通常写作 \(x_t \preceq \xi_t\)（\(x_t\) 对 \(\xi_t\) 可测）。

4. 求解挑战与策略类型
由于“维数灾难”（状态和随机参数空间随阶段数指数增长），直接求解精确解不可行。两类主要策略为：

开环策略：所有决策在初始阶段确定，忽略中途信息，通常保守。
闭环策略：决策是当前状态的函数（如 \(x_t = \pi_t(s_t)\)），需通过动态规划或近似方法求解。

5. 基于学习的近似方法
当模型不完全已知时，需结合学习与决策：

随机动态规划：若模型已知，用Bellman方程递归计算值函数 \(V_t(s_t) = \min_{x_t} \mathbb{E}[c_t + V_{t+1}(s_{t+1}) | \mathcal{F}_t]\)。
模型预测控制（MPC）：每阶段求解有限阶段的优化问题，实施首阶段决策后重新滚动优化。
参数化策略函数：将策略 \(\pi_t\) 参数化（如线性函数、神经网络），通过随机梯度下降优化参数。
前瞻性采样：生成随机场景树近似未来路径，但需平衡计算复杂度与近似精度。

6. 应用与扩展
该方法广泛应用于库存管理（如多阶段报童问题）、能源系统调度、金融风险管理等。扩展方向包括部分可观系统（加入贝叶斯学习）、多智能体协同决策，以及结合鲁棒优化处理分布模糊性。

随机规划中的序贯决策与学习 1. 基本概念引入序贯决策与学习是随机规划中处理动态不确定性问题的核心方法。它研究决策者如何在多个阶段中，基于逐步获得的信息调整策略，以优化长期目标。例如，在资源分配或投资计划中，决策者需根据实时观测的数据（如市场需求、价格波动）不断更新行动。与静态随机规划不同，序贯决策强调“决策-观测-学习-再决策”的循环过程。 2. 核心要素与建模框架问题通常建模为多阶段随机规划，包含以下要素：决策阶段：时间被离散为 \( t=1,2,\dots,T \)，每个阶段需选择行动 \( x_ t \)。状态变量：描述系统在阶段 \( t \) 的状况（如库存水平、资金量），其演化受随机噪声影响。信息过程：决策者在阶段 \( t \) 可观测到随机变量的实现（如需求 \( d_ t \)），并基于历史信息 \( \mathcal{F}_ t \) 做决策。代价函数：每阶段产生成本 \( c_ t(x_ t, \xi_ t) \)，目标是最小化总期望成本 \( \mathbb{E}[ \sum_ {t=1}^T c_ t(x_ t, \xi_ t) ] \)。 3. 动态方程与非预期性约束系统动态由状态转移方程描述： \[ s_ {t+1} = f_ t(s_ t, x_ t, \xi_ t) \] 其中 \( \xi_ t \) 是随机参数。决策需满足非预期性约束：阶段 \( t \) 的行动 \( x_ t \) 仅依赖于当前已知信息 \( \mathcal{F}_ t \)，而不能依赖未来不确定性。这通常写作 \( x_ t \preceq \xi_ t \)（\( x_ t \) 对 \( \xi_ t \) 可测）。 4. 求解挑战与策略类型由于“维数灾难”（状态和随机参数空间随阶段数指数增长），直接求解精确解不可行。两类主要策略为：开环策略：所有决策在初始阶段确定，忽略中途信息，通常保守。闭环策略：决策是当前状态的函数（如 \( x_ t = \pi_ t(s_ t) \)），需通过动态规划或近似方法求解。 5. 基于学习的近似方法当模型不完全已知时，需结合学习与决策：随机动态规划：若模型已知，用Bellman方程递归计算值函数 \( V_ t(s_ t) = \min_ {x_ t} \mathbb{E}[ c_ t + V_ {t+1}(s_ {t+1}) | \mathcal{F}_ t ] \)。模型预测控制（MPC）：每阶段求解有限阶段的优化问题，实施首阶段决策后重新滚动优化。参数化策略函数：将策略 \( \pi_ t \) 参数化（如线性函数、神经网络），通过随机梯度下降优化参数。前瞻性采样：生成随机场景树近似未来路径，但需平衡计算复杂度与近似精度。 6. 应用与扩展该方法广泛应用于库存管理（如多阶段报童问题）、能源系统调度、金融风险管理等。扩展方向包括部分可观系统（加入贝叶斯学习）、多智能体协同决策，以及结合鲁棒优化处理分布模糊性。