随机规划中的序贯决策与信息价值
-
基本概念引入
在随机规划中,序贯决策 指决策者分阶段观察随机变量的实现,并基于新信息调整后续决策的过程。例如,在动态投资中,每期根据市场变化调整资产配置。信息价值 则量化了额外信息对决策目标函数的改进程度,是衡量信息有用性的关键指标。 -
序贯决策的数学模型
设决策阶段为 \(t = 1, \dots, T\),每阶段观察随机变量 \(\xi_t\) 的实现,决策变量为 \(x_t\)。决策 \(x_t\) 依赖于历史信息 \(\mathcal{F}_t = (\xi_1, \dots, \xi_t)\),目标是最小化总期望成本:
\[ \min \mathbb{E}\left[\sum_{t=1}^T f_t(x_t, \xi_t) \right] \quad \text{s.t. } x_t \in X_t(\mathcal{F}_t). \]
此处 \(X_t(\mathcal{F}_t)\) 表示基于信息 \(\mathcal{F}_t\) 的可行决策集,体现了决策的适应性。
-
信息价值的定义与分类
- 完全信息价值:假设所有随机变量 \(\xi_1, \dots, \xi_T\) 在初始阶段完全已知,此时最优目标值为 \(V^{\text{perfect}}\)。与无信息(仅知分布)的目标值 \(V^{\text{no-info}}\) 的差值 \(V^{\text{no-info}} - V^{\text{perfect}}\) 即为完全信息价值。
- 样本信息价值:通过抽样获取部分信息后目标的改进量,常用于蒙特卡洛方法中。
- 阶段信息价值:衡量特定阶段信息对整体目标的影响,例如提前一期需求信息对库存决策的效益。
-
信息价值的计算方法
- 两阶段示例:比较“等待观测”与“立即决策”的期望成本差。设第一阶段决策 \(x_1\),第二阶段观测 \(\xi\) 后决策 \(x_2(\xi)\),则信息价值为:
\[ \text{VoI} = \min_{x_1} \mathbb{E}[f_1(x_1) + f_2(x_2(\xi), \xi)] - \min_{x_1} \mathbb{E}\left[\min_{x_2} f_1(x_1) + f_2(x_2, \xi) \right]. \]
后者允许 \(x_2\) 适应 \(\xi\),体现了信息优势。
- 多阶段推广:通过动态规划递归计算价值函数 \(V_t(\mathcal{F}_t)\),比较不同信息结构下的 \(V_1\)。
-
信息价值在资源分配中的应用
以能源系统为例:电力公司需在需求不确定性下分配发电资源。若提前获得天气预报(影响需求),可优化机组启停计划。信息价值等于有预报时期望运营成本的节约额,直接影响气象数据采购决策。 -
信息价值与学习策略的关联
在强化学习中,信息价值对应“探索-利用”权衡中的探索收益。例如,在多臂老虎机问题中,尝试未知臂可能带来未来更高回报,其价值可通过贝叶斯方法估计。 -
复杂性与近似计算
精确计算信息价值需求解高维随机动态规划,通常难以处理。常用近似方法包括:- 情景树简化:对随机过程采样生成有限场景,减少状态空间。
- 双界法:通过乐观(完全信息)与悲观(无信息)策略的目标值界估计信息价值。
- 灵敏度分析:扰动信息结构,观察目标函数变化率。