随机规划中的序贯决策与学习

字数 1313 2025-11-05 23:46:51

随机规划中的序贯决策与学习

基本概念引入
序贯决策与学习是随机规划中处理动态不确定性的核心方法。其核心思想是：在多个时间阶段中，决策者需根据当前已知信息做出决策，同时考虑未来可能的不确定性，并通过观测新信息（如市场需求、价格波动等）逐步调整策略。与静态随机规划不同，序贯决策强调“决策-观测-学习-再决策”的循环过程，例如在生产规划中，企业需根据实时销售数据调整生产量。
数学模型框架
设决策分为 \(T\) 个阶段，每个阶段 \(t\) 的决策变量为 \(x_t\)，随机变量为 \(\xi_t\)（表示不确定性）。系统状态为 \(s_t\)，满足状态转移方程 \(s_{t+1} = f_t(s_t, x_t, \xi_t)\)。目标是最小化总期望成本：

\[ \min \mathbb{E} \left[ \sum_{t=1}^T c_t(s_t, x_t, \xi_t) \right], \]

其中 \(x_t\) 需满足 \(x_t \in \mathcal{X}_t(s_t)\) 且依赖当前信息 \(\mathcal{F}_t\)（即 \(\xi_1, \dots, \xi_{t-1}\) 的历史观测）。这种结构称为随机动态规划。

信息结构与非预期性条件
序贯决策要求决策满足非预期性条件：阶段 \(t\) 的决策 \(x_t\) 仅能依赖当前已知信息，而非未来不确定性。这通过可测性约束 \(x_t \in \mathcal{F}_t\) 实现。例如在投资问题中，第 \(t\) 天的资产分配只能基于历史价格，而非未来价格。
求解的挑战与近似方法
直接求解动态规划的贝尔曼方程会遭遇“维数灾难”（状态空间随变量增长指数爆炸）。常用近似方法包括：
- 值函数近似：用参数化函数（如线性回归、神经网络）拟合未来成本函数。
- 策略空间优化：直接参数化策略（如 \(x_t = \pi_t(s_t, \theta)\)），通过随机梯度调整参数 \(\theta\)。
- 滚动时域控制：每阶段用短期随机规划重新求解，仅实施当前阶段决策。
主动学习与探索-利用权衡
当决策影响未来信息获取时（如临床试验中分配治疗组以学习药物效果），需平衡“利用当前最优决策”与“探索未知以改进未来决策”。这类问题可建模为部分可观测马尔可夫决策过程（POMDP） 或多臂老虎机框架，使用贝叶斯学习更新不确定性分布的信念。
实际应用示例
- 能源系统调度：电力公司根据实时电价和需求预测调整发电计划。
- 供应链管理：基于销售数据动态补货，同时更新需求分布估计。
- 自动驾驶：车辆根据传感器数据序贯调整路径，同时学习环境变化模式。
与机器学习的结合
现代方法将序贯决策与强化学习深度融合，例如：
- 深度Q网络（DQN）：用经验回放和目标网络稳定值函数学习。
- 演员-评论家算法：结合策略梯度（演员）和值函数估计（评论家）处理连续决策空间。
  这类方法在超大规模问题（如推荐系统、机器人控制）中显露出优势。

随机规划中的序贯决策与学习基本概念引入序贯决策与学习是随机规划中处理动态不确定性的核心方法。其核心思想是：在多个时间阶段中，决策者需根据当前已知信息做出决策，同时考虑未来可能的不确定性，并通过观测新信息（如市场需求、价格波动等）逐步调整策略。与静态随机规划不同，序贯决策强调“决策-观测-学习-再决策”的循环过程，例如在生产规划中，企业需根据实时销售数据调整生产量。数学模型框架设决策分为 \( T \) 个阶段，每个阶段 \( t \) 的决策变量为 \( x_ t \)，随机变量为 \( \xi_ t \)（表示不确定性）。系统状态为 \( s_ t \)，满足状态转移方程 \( s_ {t+1} = f_ t(s_ t, x_ t, \xi_ t) \)。目标是最小化总期望成本： \[ \min \mathbb{E} \left[ \sum_ {t=1}^T c_ t(s_ t, x_ t, \xi_ t) \right ], \] 其中 \( x_ t \) 需满足 \( x_ t \in \mathcal{X}_ t(s_ t) \) 且依赖当前信息 \( \mathcal{F} t \)（即 \( \xi_ 1, \dots, \xi {t-1} \) 的历史观测）。这种结构称为随机动态规划。信息结构与非预期性条件序贯决策要求决策满足非预期性条件：阶段 \( t \) 的决策 \( x_ t \) 仅能依赖当前已知信息，而非未来不确定性。这通过可测性约束 \( x_ t \in \mathcal{F}_ t \) 实现。例如在投资问题中，第 \( t \) 天的资产分配只能基于历史价格，而非未来价格。求解的挑战与近似方法直接求解动态规划的贝尔曼方程会遭遇“维数灾难”（状态空间随变量增长指数爆炸）。常用近似方法包括：值函数近似：用参数化函数（如线性回归、神经网络）拟合未来成本函数。策略空间优化：直接参数化策略（如 \( x_ t = \pi_ t(s_ t, \theta) \)），通过随机梯度调整参数 \( \theta \)。滚动时域控制：每阶段用短期随机规划重新求解，仅实施当前阶段决策。主动学习与探索-利用权衡当决策影响未来信息获取时（如临床试验中分配治疗组以学习药物效果），需平衡“利用当前最优决策”与“探索未知以改进未来决策”。这类问题可建模为部分可观测马尔可夫决策过程（POMDP）或多臂老虎机框架，使用贝叶斯学习更新不确定性分布的信念。实际应用示例能源系统调度：电力公司根据实时电价和需求预测调整发电计划。供应链管理：基于销售数据动态补货，同时更新需求分布估计。自动驾驶：车辆根据传感器数据序贯调整路径，同时学习环境变化模式。与机器学习的结合现代方法将序贯决策与强化学习深度融合，例如：深度Q网络（DQN）：用经验回放和目标网络稳定值函数学习。演员-评论家算法：结合策略梯度（演员）和值函数估计（评论家）处理连续决策空间。这类方法在超大规模问题（如推荐系统、机器人控制）中显露出优势。