随机规划中的序贯决策与多臂老虎机问题

字数 967 2025-11-12 14:03:55

随机规划中的序贯决策与多臂老虎机问题

我将通过以下步骤为您系统讲解这个交叉领域：

基础概念融合
多臂老虎机问题本质上是探索与利用的权衡问题：面对K个收益分布未知的选项（老虎机），决策者需通过序贯选择来最大化累积收益。在随机规划框架下，这被建模为具有不完全信息的序贯决策过程，每个时间步的选择都会带来新的收益观测值，同时更新对收益分布的认知。

2.问题形式化建模
设动作空间A={1,...,K}，每个动作a对应未知收益分布ν_a。在时刻t：

决策者基于历史观测H_{t-1}={a_1,r_1,...,a_{t-1},r_{t-1}}选择动作a_t
获得随机收益r_t ~ ν_{a_t}
目标是最小化T步累积遗憾：R(T)=T·μ^-Σ_{t=1}^T E[r_t]
其中μ^=max_{a∈A} E_{r~ν_a}[r]为最优动作的期望收益

3.核心求解算法族
• ε-贪心算法：以1-ε概率选择当前经验最优动作，以ε概率随机探索
• UCB（上置信界）算法：选择具有最大置信上界的动作
a_t=argmax_{a∈A}(μ̂_{a,t-1}+√(2ln t/N_{a,t-1}))
其中N_{a,t-1}是动作a的被选次数
• 汤普森采样：通过后验分布进行随机化选择
P(a_t=a)=P(μ_a=max_{a'∈A} μ_a' | H_{t-1})

4.理论性能分析
• 贪心算法可能陷入次优动作（线性遗憾）
• UCB算法实现O(log T)的渐近遗憾界
• 汤普森采样对伯努利收益可达贝叶斯遗憾上界O(√{KT log K})

5.扩展与变体
• 上下文老虎机：在时刻t额外观测上下文x_t∈R^d
• 线性老虎机：期望收益E[r_t|a_t]=〈θ,x_{a_t}〉
• 对抗性老虎机：收益由对手自适应生成

6.与随机规划的深度融合
在随机规划的序贯决策框架中，多臂老虎机问题可视为：

状态空间：信念状态（收益分布的后验）
动作空间：有限的选择集合
转移动力学：信念状态的贝叶斯更新
目标函数：有限时域的折扣累积收益

这种形式化使得我们可以运用随机规划中的值迭代、策略迭代等方法求解精确解，同时启发式算法（如UCB）提供了计算可行的近似方案。

随机规划中的序贯决策与多臂老虎机问题我将通过以下步骤为您系统讲解这个交叉领域：基础概念融合多臂老虎机问题本质上是探索与利用的权衡问题：面对K个收益分布未知的选项（老虎机），决策者需通过序贯选择来最大化累积收益。在随机规划框架下，这被建模为具有不完全信息的序贯决策过程，每个时间步的选择都会带来新的收益观测值，同时更新对收益分布的认知。 2.问题形式化建模设动作空间A={1,...,K}，每个动作a对应未知收益分布ν_ a。在时刻t：决策者基于历史观测H_ {t-1}={a_ 1,r_ 1,...,a_ {t-1},r_ {t-1}}选择动作a_ t 获得随机收益r_ t ~ ν_ {a_ t} 目标是最小化T步累积遗憾：R(T)=T·μ^ -Σ_ {t=1}^T E[ r_ t ] 其中μ^ =max_ {a∈A} E_ {r~ν_ a}[ r ]为最优动作的期望收益 3.核心求解算法族 • ε-贪心算法：以1-ε概率选择当前经验最优动作，以ε概率随机探索 • UCB（上置信界）算法：选择具有最大置信上界的动作 a_ t=argmax_ {a∈A}(μ̂_ {a,t-1}+√(2ln t/N_ {a,t-1})) 其中N_ {a,t-1}是动作a的被选次数 • 汤普森采样：通过后验分布进行随机化选择 P(a_ t=a)=P(μ_ a=max_ {a'∈A} μ_ a' | H_ {t-1}) 4.理论性能分析 • 贪心算法可能陷入次优动作（线性遗憾） • UCB算法实现O(log T)的渐近遗憾界 • 汤普森采样对伯努利收益可达贝叶斯遗憾上界O(√{KT log K}) 5.扩展与变体 • 上下文老虎机：在时刻t额外观测上下文x_ t∈R^d • 线性老虎机：期望收益E[ r_ t|a_ t]=〈θ,x_ {a_ t}〉 • 对抗性老虎机：收益由对手自适应生成 6.与随机规划的深度融合在随机规划的序贯决策框架中，多臂老虎机问题可视为：状态空间：信念状态（收益分布的后验）动作空间：有限的选择集合转移动力学：信念状态的贝叶斯更新目标函数：有限时域的折扣累积收益这种形式化使得我们可以运用随机规划中的值迭代、策略迭代等方法求解精确解，同时启发式算法（如UCB）提供了计算可行的近似方案。