重要性抽样
字数 1332 2025-11-07 22:15:15

重要性抽样

重要性抽样是一种用于估计数学期望的方差缩减技术,尤其适用于蒙特卡洛方法中难以直接采样的分布。其核心思想是通过引入一个易于采样的辅助分布(建议分布),对样本进行加权,以修正分布偏差,从而更高效地估计目标期望。

1. 基本问题设定

设目标随机变量 \(X\) 服从概率密度函数 \(p(x)\)(可能难以直接采样),需计算期望:

\[\mu = \mathbb{E}_p[f(X)] = \int f(x) p(x) \, dx. \]

直接采样若不可行,可选择另一个易于采样的分布 \(q(x)\)(满足 \(q(x) > 0\)\(p(x) > 0\)),将期望改写为:

\[\mu = \int f(x) \frac{p(x)}{q(x)} q(x) \, dx = \mathbb{E}_q\left[ f(X) \frac{p(X)}{q(X)} \right]. \]

其中,权重函数 \(w(x) = p(x)/q(x)\) 称为重要性权重

2. 估计量的构造

\(q(x)\) 中抽取独立样本 \(x_1, x_2, \dots, x_n\),则重要性抽样估计量为:

\[\hat{\mu}_n = \frac{1}{n} \sum_{i=1}^n f(x_i) w(x_i). \]

此估计量是 \(\mu\) 的无偏估计(若 \(p(x) > 0\)\(q(x) > 0\))。

3. 权重归一化与偏差处理

\(p(x)\)\(q(x)\) 的归一化常数未知(如仅知道未归一化的密度 \(\tilde{p}(x), \tilde{q}(x)\)),可使用自归一化重要性抽样:

\[\hat{\mu}_n^{\text{norm}} = \frac{ \sum_{i=1}^n f(x_i) w(x_i) }{ \sum_{i=1}^n w(x_i) }, \quad w(x) = \frac{\tilde{p}(x)}{\tilde{q}(x)}. \]

此估计量有轻微偏差,但大样本下渐近无偏。

4. 方差与效率优化

估计量的方差为:

\[\text{Var}(\hat{\mu}_n) = \frac{1}{n} \mathbb{E}_q\left[ \left( f(X) w(X) - \mu \right)^2 \right]. \]

最优建议分布 \(q^*(x)\) 需最小化方差,可证明为:

\[q^*(x) \propto |f(x)| p(x). \]

实际中常使用重尾分布(如柯西分布、t分布)作为 \(q(x)\) 以避免权重爆炸。

5. 应用场景

  • 稀有事件模拟:通过 \(q(x)\) 增大罕见区域的采样概率。
  • 贝叶斯计算:后验分布 \(p(x)\) 难以采样时,用先验分布作为 \(q(x)\)
  • 强化学习:离策略评估中修正行为策略与目标策略的差异。

重要性抽样的效果高度依赖于 \(q(x)\) 的选择,需权衡采样难度与方差缩减程度。

重要性抽样 重要性抽样是一种用于估计数学期望的方差缩减技术,尤其适用于蒙特卡洛方法中难以直接采样的分布。其核心思想是通过引入一个易于采样的辅助分布(建议分布),对样本进行加权,以修正分布偏差,从而更高效地估计目标期望。 1. 基本问题设定 设目标随机变量 \( X \) 服从概率密度函数 \( p(x) \)(可能难以直接采样),需计算期望: \[ \mu = \mathbb{E}_ p[ f(X) ] = \int f(x) p(x) \, dx. \] 直接采样若不可行,可选择另一个易于采样的分布 \( q(x) \)(满足 \( q(x) > 0 \) 当 \( p(x) > 0 \)),将期望改写为: \[ \mu = \int f(x) \frac{p(x)}{q(x)} q(x) \, dx = \mathbb{E}_ q\left[ f(X) \frac{p(X)}{q(X)} \right ]. \] 其中,权重函数 \( w(x) = p(x)/q(x) \) 称为 重要性权重 。 2. 估计量的构造 从 \( q(x) \) 中抽取独立样本 \( x_ 1, x_ 2, \dots, x_ n \),则重要性抽样估计量为: \[ \hat{\mu} n = \frac{1}{n} \sum {i=1}^n f(x_ i) w(x_ i). \] 此估计量是 \( \mu \) 的无偏估计(若 \( p(x) > 0 \) 时 \( q(x) > 0 \))。 3. 权重归一化与偏差处理 若 \( p(x) \) 或 \( q(x) \) 的归一化常数未知(如仅知道未归一化的密度 \( \tilde{p}(x), \tilde{q}(x) \)),可使用自归一化重要性抽样: \[ \hat{\mu} n^{\text{norm}} = \frac{ \sum {i=1}^n f(x_ i) w(x_ i) }{ \sum_ {i=1}^n w(x_ i) }, \quad w(x) = \frac{\tilde{p}(x)}{\tilde{q}(x)}. \] 此估计量有轻微偏差,但大样本下渐近无偏。 4. 方差与效率优化 估计量的方差为: \[ \text{Var}(\hat{\mu}_ n) = \frac{1}{n} \mathbb{E}_ q\left[ \left( f(X) w(X) - \mu \right)^2 \right ]. \] 最优建议分布 \( q^ (x) \) 需最小化方差,可证明为: \[ q^ (x) \propto |f(x)| p(x). \] 实际中常使用重尾分布(如柯西分布、t分布)作为 \( q(x) \) 以避免权重爆炸。 5. 应用场景 稀有事件模拟 :通过 \( q(x) \) 增大罕见区域的采样概率。 贝叶斯计算 :后验分布 \( p(x) \) 难以采样时,用先验分布作为 \( q(x) \)。 强化学习 :离策略评估中修正行为策略与目标策略的差异。 重要性抽样的效果高度依赖于 \( q(x) \) 的选择,需权衡采样难度与方差缩减程度。