随机规划中的序贯决策与学习
**随机规划中的序贯决策与学习**
1. **基本概念引入**
随机规划中的序贯决策与学习研究决策者在多阶段不确定性环境下,如何通过逐步观察信息来调整策略,以优化长期目标。与静态随机规划不同,序贯决策强调“决策-观测-学习-再决策”的循环过程。例如,在动态资源分配中,每一阶段的决策依赖当前观测到的随机参数(如需求、价格),并考虑未来信息更新的可能性。
2. **核心问题建模:多阶段随机规划框架**
问题通常建模为多阶段随机规划:
- 阶段 \( t=0,1,\d
2025-11-05 11:13:48
0