组合数学中的组合马尔可夫决策过程
我们先从最基础、你已熟悉的概念开始,逐步构建新的知识。你已经了解“组合数学中的组合概率论”和“组合马尔可夫链”,这是我们今天的起点。
-
回顾核心构件:马尔可夫链。在“组合马尔可夫链”中,我们讨论了在一个有限状态空间上,系统如何以概率方式从一个状态转移到另一个状态,且转移规则只依赖于当前状态(马尔可夫性)。这描述了系统随时间“被动”演化的过程。
-
引入新维度:决策与行动。现在,我们将“控制”或“决策”的概念引入上述系统。这就是马尔可夫决策过程的核心。在MDP中,系统不仅处于某个状态,而且在每个状态,一个“决策者”(或称“智能体”)可以从一组可用的行动中选择一个执行。你的选择会影响两件事:
- 转移概率: 从当前状态 \(s\) 执行行动 \(a\) 后,系统转移到下一个状态 \(s'\) 的概率 \(P(s' | s, a)\)。这与组合马尔可夫链的 \(P(s'|s)\) 类似,但概率现在依赖于所选择的行动。
- 即时奖励: 在状态 \(s\) 执行行动 \(a\) 并转移到状态 \(s'\) 后,决策者会立即获得一个数值反馈 \(R(s, a, s')\),称为奖励。奖励可以是正(收益)或负(成本/惩罚)。决策者的目标是选择行动来最大化某种形式的长期累积奖励。
-
组合场景的适配。当我们谈论“组合”马尔可夫决策过程时,我们特指那些状态空间和/或行动空间具有组合结构的MDP。例如:
- 状态是组合对象: 状态可能是一个图的顶点集合的子集、一个排列、一个集合划分、一个背包问题的当前装填方案等。
- 行动是组合操作: 行动可能是在图中添加或删除一条边、交换排列中的两个元素、合并划分中的两个块、向背包中添加一个物品等。
- 转移具有组合意义: 转移概率通常由组合规则定义。例如,在随机搜索一个集合的最优子集时,行动是“翻转一个元素是否在子集中”,转移概率可能均匀分布在所有可行的“翻转”上。
-
策略与目标函数。决策者的方案由一个策略 定义,它告诉我们在每个状态下应该采取哪个行动。策略可以是确定性的(状态→固定行动),也可以是随机性的(状态→行动上的概率分布)。我们的目标是找到一个最优策略,最大化期望折现累计奖励: \(E[\sum_{t=0}^{\infty} \gamma^t R_t]\),其中 \(R_t\) 是第 \(t\) 步的即时奖励,\(\gamma \in [0, 1]\) 是一个折现因子,使未来奖励的现值递减。\(\gamma=1\) 时需确保总和有限。
-
动态规划求解:贝尔曼方程。求解CMDP的核心工具是动态规划。我们定义两个关键函数:
- 状态值函数 \(V^{\pi}(s)\): 从状态 \(s\) 开始,始终遵循策略 \(\pi\) 所能获得的期望累计奖励。
- 状态-行动值函数 \(Q^{\pi}(s, a)\): 从状态 \(s\) 开始,先执行行动 \(a\),之后遵循策略 \(\pi\) 所能获得的期望累计奖励。
最优值函数 \(V^*(s) = \max_{\pi} V^{\pi}(s)\) 满足贝尔曼最优性方程:
\[ V^*(s) = \max_{a \in A(s)} \left\{ \sum_{s'} P(s'|s, a) [ R(s, a, s') + \gamma V^*(s') ] \right\} \]
这个方程是递归的:状态 \(s\) 的最优值等于,对所有可能行动 \(a\),计算其“即时奖励期望”加上“下一个状态最优值的折现期望”,然后取最大值。解这个方程(通常通过值迭代、策略迭代等算法)就能找到最优策略。
- 组合特性带来的挑战与机遇。在CMDP中,状态空间往往是指数级巨大的(例如,所有 \(n\) 元子集的数量是 \(2^n\))。这导致:
- 挑战: 无法显式列出所有状态,标准动态规划算法失效。
- 机遇与方法:
- 利用组合结构逼近: 设计紧凑的函数近似(如基于组合特征的线性函数)来表示 \(V\) 或 \(Q\)。
* 分解与简化: 利用组合问题(如排队网络、作业调度)特有的可加性、可分性或模块性,将大问题分解为小问题的组合,从而简化贝尔曼方程。
* 启发式策略与策略搜索: 直接在具有组合约束的策略空间中进行搜索,例如使用局部搜索、模拟退火或遗传算法。 - 在线学习与模拟: 当模型(\(P\) 和 \(R\))未知但可模拟时,使用强化学习方法(如蒙特卡洛树搜索、Q-学习)在“试错”中学习近似最优策略,尤其适合状态是组合配置(如棋局、路由路径)的问题。
总结来说,组合马尔可夫决策过程是将序列决策理论(MDP)应用于具有组合结构状态/行动空间的问题框架。它继承了你已知的组合概率和马尔可夫链的动态,并叠加了“优化决策”这一层。其核心挑战源于组合爆炸,而研究重点在于如何利用组合结构的特性(对称性、分解性、邻域关系等)来设计高效的最优或近似最优决策算法。它在机器人路径规划、资源调度、组合优化问题(如随机旅行商问题、动态背包问题)的在线求解、人工智能(游戏树搜索)等领域有重要应用。