随机规划中的序贯决策与学习
-
基本概念引入
序贯决策与学习是随机规划中处理动态不确定性的核心方法。其核心思想是:在多个时间阶段中,决策者需根据当前已知信息做出决策,同时考虑未来可能的不确定性,并通过观测新信息(如市场需求、价格波动等)逐步调整策略。与静态随机规划不同,序贯决策强调“决策-观测-学习-再决策”的循环过程,例如在生产规划中,企业需根据实时销售数据调整生产量。 -
数学模型框架
设决策分为 \(T\) 个阶段,每个阶段 \(t\) 的决策变量为 \(x_t\),随机变量为 \(\xi_t\)(表示不确定性)。系统状态为 \(s_t\),满足状态转移方程 \(s_{t+1} = f_t(s_t, x_t, \xi_t)\)。目标是最小化总期望成本:
\[ \min \mathbb{E} \left[ \sum_{t=1}^T c_t(s_t, x_t, \xi_t) \right], \]
其中 \(x_t\) 需满足 \(x_t \in \mathcal{X}_t(s_t)\) 且依赖当前信息 \(\mathcal{F}_t\)(即 \(\xi_1, \dots, \xi_{t-1}\) 的历史观测)。这种结构称为随机动态规划。
-
信息结构与非预期性条件
序贯决策要求决策满足非预期性条件:阶段 \(t\) 的决策 \(x_t\) 仅能依赖当前已知信息,而非未来不确定性。这通过可测性约束 \(x_t \in \mathcal{F}_t\) 实现。例如在投资问题中,第 \(t\) 天的资产分配只能基于历史价格,而非未来价格。 -
求解的挑战与近似方法
直接求解动态规划的贝尔曼方程会遭遇“维数灾难”(状态空间随变量增长指数爆炸)。常用近似方法包括:- 值函数近似:用参数化函数(如线性回归、神经网络)拟合未来成本函数。
- 策略空间优化:直接参数化策略(如 \(x_t = \pi_t(s_t, \theta)\)),通过随机梯度调整参数 \(\theta\)。
- 滚动时域控制:每阶段用短期随机规划重新求解,仅实施当前阶段决策。
-
主动学习与探索-利用权衡
当决策影响未来信息获取时(如临床试验中分配治疗组以学习药物效果),需平衡“利用当前最优决策”与“探索未知以改进未来决策”。这类问题可建模为部分可观测马尔可夫决策过程(POMDP) 或多臂老虎机框架,使用贝叶斯学习更新不确定性分布的信念。 -
实际应用示例
- 能源系统调度:电力公司根据实时电价和需求预测调整发电计划。
- 供应链管理:基于销售数据动态补货,同时更新需求分布估计。
- 自动驾驶:车辆根据传感器数据序贯调整路径,同时学习环境变化模式。
-
与机器学习的结合
现代方法将序贯决策与强化学习深度融合,例如:- 深度Q网络(DQN):用经验回放和目标网络稳定值函数学习。
- 演员-评论家算法:结合策略梯度(演员)和值函数估计(评论家)处理连续决策空间。
这类方法在超大规模问题(如推荐系统、机器人控制)中显露出优势。