随机规划中的序贯决策与信息价值

字数 1453 2025-11-10 11:03:11

随机规划中的序贯决策与信息价值

基本概念引入
在随机规划中，序贯决策 指决策者分阶段观察随机变量的实现，并基于新信息调整后续决策的过程。例如，在动态投资中，每期根据市场变化调整资产配置。信息价值 则量化了额外信息对决策目标函数的改进程度，是衡量信息有用性的关键指标。
序贯决策的数学模型
设决策阶段为 \(t = 1, \dots, T\)，每阶段观察随机变量 \(\xi_t\) 的实现，决策变量为 \(x_t\)。决策 \(x_t\) 依赖于历史信息 \(\mathcal{F}_t = (\xi_1, \dots, \xi_t)\)，目标是最小化总期望成本：

\[ \min \mathbb{E}\left[\sum_{t=1}^T f_t(x_t, \xi_t) \right] \quad \text{s.t. } x_t \in X_t(\mathcal{F}_t). \]

此处 \(X_t(\mathcal{F}_t)\) 表示基于信息 \(\mathcal{F}_t\) 的可行决策集，体现了决策的适应性。

信息价值的定义与分类
- 完全信息价值：假设所有随机变量 \(\xi_1, \dots, \xi_T\) 在初始阶段完全已知，此时最优目标值为 \(V^{\text{perfect}}\)。与无信息（仅知分布）的目标值 \(V^{\text{no-info}}\) 的差值 \(V^{\text{no-info}} - V^{\text{perfect}}\) 即为完全信息价值。
- 样本信息价值：通过抽样获取部分信息后目标的改进量，常用于蒙特卡洛方法中。
- 阶段信息价值：衡量特定阶段信息对整体目标的影响，例如提前一期需求信息对库存决策的效益。
信息价值的计算方法
- 两阶段示例：比较“等待观测”与“立即决策”的期望成本差。设第一阶段决策 \(x_1\)，第二阶段观测 \(\xi\) 后决策 \(x_2(\xi)\)，则信息价值为：

\[ \text{VoI} = \min_{x_1} \mathbb{E}[f_1(x_1) + f_2(x_2(\xi), \xi)] - \min_{x_1} \mathbb{E}\left[\min_{x_2} f_1(x_1) + f_2(x_2, \xi) \right]. \]

后者允许 \(x_2\) 适应 \(\xi\)，体现了信息优势。

多阶段推广：通过动态规划递归计算价值函数 \(V_t(\mathcal{F}_t)\)，比较不同信息结构下的 \(V_1\)。

信息价值在资源分配中的应用
以能源系统为例：电力公司需在需求不确定性下分配发电资源。若提前获得天气预报（影响需求），可优化机组启停计划。信息价值等于有预报时期望运营成本的节约额，直接影响气象数据采购决策。
信息价值与学习策略的关联
在强化学习中，信息价值对应“探索-利用”权衡中的探索收益。例如，在多臂老虎机问题中，尝试未知臂可能带来未来更高回报，其价值可通过贝叶斯方法估计。
复杂性与近似计算
精确计算信息价值需求解高维随机动态规划，通常难以处理。常用近似方法包括：
- 情景树简化：对随机过程采样生成有限场景，减少状态空间。
- 双界法：通过乐观（完全信息）与悲观（无信息）策略的目标值界估计信息价值。
- 灵敏度分析：扰动信息结构，观察目标函数变化率。

随机规划中的序贯决策与信息价值基本概念引入在随机规划中，序贯决策指决策者分阶段观察随机变量的实现，并基于新信息调整后续决策的过程。例如，在动态投资中，每期根据市场变化调整资产配置。信息价值则量化了额外信息对决策目标函数的改进程度，是衡量信息有用性的关键指标。序贯决策的数学模型设决策阶段为 \( t = 1, \dots, T \)，每阶段观察随机变量 \(\xi_ t\) 的实现，决策变量为 \(x_ t\)。决策 \(x_ t\) 依赖于历史信息 \(\mathcal{F} t = (\xi_ 1, \dots, \xi_ t)\)，目标是最小化总期望成本： \[ \min \mathbb{E}\left[ \sum {t=1}^T f_ t(x_ t, \xi_ t) \right] \quad \text{s.t. } x_ t \in X_ t(\mathcal{F}_ t). \] 此处 \(X_ t(\mathcal{F}_ t)\) 表示基于信息 \(\mathcal{F}_ t\) 的可行决策集，体现了决策的适应性。信息价值的定义与分类完全信息价值：假设所有随机变量 \(\xi_ 1, \dots, \xi_ T\) 在初始阶段完全已知，此时最优目标值为 \(V^{\text{perfect}}\)。与无信息（仅知分布）的目标值 \(V^{\text{no-info}}\) 的差值 \(V^{\text{no-info}} - V^{\text{perfect}}\) 即为完全信息价值。样本信息价值：通过抽样获取部分信息后目标的改进量，常用于蒙特卡洛方法中。阶段信息价值：衡量特定阶段信息对整体目标的影响，例如提前一期需求信息对库存决策的效益。信息价值的计算方法两阶段示例：比较“等待观测”与“立即决策”的期望成本差。设第一阶段决策 \(x_ 1\)，第二阶段观测 \(\xi\) 后决策 \(x_ 2(\xi)\)，则信息价值为： \[ \text{VoI} = \min_ {x_ 1} \mathbb{E}[ f_ 1(x_ 1) + f_ 2(x_ 2(\xi), \xi)] - \min_ {x_ 1} \mathbb{E}\left[ \min_ {x_ 2} f_ 1(x_ 1) + f_ 2(x_ 2, \xi) \right ]. \] 后者允许 \(x_ 2\) 适应 \(\xi\)，体现了信息优势。多阶段推广：通过动态规划递归计算价值函数 \(V_ t(\mathcal{F}_ t)\)，比较不同信息结构下的 \(V_ 1\)。信息价值在资源分配中的应用以能源系统为例：电力公司需在需求不确定性下分配发电资源。若提前获得天气预报（影响需求），可优化机组启停计划。信息价值等于有预报时期望运营成本的节约额，直接影响气象数据采购决策。信息价值与学习策略的关联在强化学习中，信息价值对应“探索-利用”权衡中的探索收益。例如，在多臂老虎机问题中，尝试未知臂可能带来未来更高回报，其价值可通过贝叶斯方法估计。复杂性与近似计算精确计算信息价值需求解高维随机动态规划，通常难以处理。常用近似方法包括：情景树简化：对随机过程采样生成有限场景，减少状态空间。双界法：通过乐观（完全信息）与悲观（无信息）策略的目标值界估计信息价值。灵敏度分析：扰动信息结构，观察目标函数变化率。