随机变量的变换的随机逼近方法
随机逼近方法是一种用于寻找函数根或极值的随机迭代算法,特别适用于无法直接观测函数值,只能获得带有噪声的函数观测值的情况。
1. 核心思想与问题背景
假设我们想找到一个未知函数 \(g(\theta)\) 的根,即求解 \(g(\theta) = 0\) 的 \(\theta^*\)。但我们无法直接计算 \(g(\theta)\),每次在点 \(\theta_n\) 进行实验,我们只能得到一个带有噪声的观测值 \(Y_n\):
\[ Y_n = g(\theta_n) + \epsilon_n \]
其中 \(\epsilon_n\) 是均值为零的随机噪声。随机逼近的目标是设计一个迭代序列 \(\{\theta_n\}\),使得 \(\theta_n\) 能够收敛到真实的根 \(\theta^*\)。
2. 基本算法:Robbins-Monro 算法
这是随机逼近最经典的算法,用于寻找函数的根。
- 迭代公式:
\[ \theta_{n+1} = \theta_n - a_n Y_n \]
其中:
-
\(\theta_n\) 是第 \(n\) 步对根 \(\theta^*\) 的估计。
-
\(Y_n\) 是在 \(\theta_n\) 处观测到的带有噪声的函数值。
-
\(a_n\) 是一个正的步长序列。
-
直观理解:
在确定性情况下(没有噪声),如果我们想求 \(g(\theta) = 0\),可以用牛顿法等。随机逼近可以看作牛顿法的随机类比。当观测值 \(Y_n\) 为正时,意味着在当前点 \(\theta_n\),函数 \(g\) 可能为正,因此我们需要减小 \(\theta\) 的值以接近根,所以迭代公式中是减去 \(a_n Y_n\)。反之,当 \(Y_n\) 为负时,减去一个负值相当于增加 \(\theta\)。步长 \(a_n\) 控制着每次调整的幅度。
3. 算法的收敛性条件
为了保证序列 \(\{\theta_n\}\) 能收敛到真值 \(\theta^*\),算法参数需要满足严格的条件。
- 对步长序列 \(\{a_n\}\) 的要求:
- \(a_n > 0\) (步长为正)
- \(\sum_{n=1}^{\infty} a_n = \infty\) (步长之和发散,保证算法有足够的“能量”到达最优点,避免过早停止)
- \(\sum_{n=1}^{\infty} a_n^2 < \infty\) (步长平方和收敛,保证噪声的累积方差有限,从而使算法最终稳定下来)
一个常见的满足条件的步长序列是 \(a_n = c/n\),其中 \(c > 0\)。
-
对函数 \(g(\theta)\) 的要求:
\(g(\theta)\) 需要满足一些正则条件,例如在根 \(\theta^*\) 附近是连续且单调递增的(即 \(g'(\theta^*) > 0\)),这保证了 \(\theta^*\) 是一个吸引点。 -
对噪声 \(\{\epsilon_n\}\) 的要求:
噪声序列通常需要是鞅差序列(即 \(E[\epsilon_n | \mathcal{F}_{n-1}] = 0\),其中 \(\mathcal{F}_{n-1}\) 是前 n-1 步的信息),并且具有有条件的同方差性。这保证了噪声在长期平均下会相互抵消,不会将估计值系统地推离真值。
4. 推广:Kiefer-Wolfowitz 算法
Robbins-Monro 算法解决的是求根问题。如果我们想求解一个函数的极小值(或极大值),即 \(\min_\theta M(\theta)\),问题就变成了寻找梯度函数 \(g(\theta) = M'(\theta)\) 的根。Kiefer-Wolfowitz 算法就是为此设计的。
- 核心思想:由于无法直接计算梯度 \(M'(\theta)\),我们使用有限差分来近似梯度。
- 迭代公式:
\[ \theta_{n+1} = \theta_n - a_n \left( \frac{Y_n^+ - Y_n^-}{2c_n} \right) \]
其中:
- \(Y_n^+\) 是在 \(\theta_n + c_n\) 处观测到的带有噪声的函数值 \(M(\theta_n + c_n) + \epsilon_n^+\)。
- \(Y_n^-\) 是在 \(\theta_n - c_n\) 处观测到的带有噪声的函数值 \(M(\theta_n - c_n) + \epsilon_n^-\)。
- \(\frac{Y_n^+ - Y_n^-}{2c_n}\) 是梯度 \(M'(\theta_n)\) 的对称差分估计量。
- \(a_n\) 是步长序列,需满足与 Robbins-Monro 算法类似的条件。
- \(c_n\) 是差分间隔序列,需要满足 \(c_n \to 0\)(以保证梯度估计的偏差趋于零)。
5. 应用场景
随机逼近方法在以下领域有广泛应用:
- 随机优化:目标函数本身或其梯度带有噪声的优化问题。
- 系统控制与自适应滤波:如用于调整滤波器参数的 LMS (Least Mean Squares) 算法,就是随机逼近的一个特例。
- 机器学习:随机梯度下降 (Stochastic Gradient Descent, SGD) 可以看作是随机逼近思想的一种体现,它使用数据子集(小批量)的梯度来近似真实梯度,从而高效地优化大规模机器学习模型。
- 信号处理:用于信道均衡、波束成形等。
总结
随机逼近方法的核心在于,它通过巧妙地设计迭代步长,使得在存在随机噪声的情况下,迭代序列能够几乎必然地收敛到目标值(函数的根或极值点)。它将确定性优化/求根算法与概率论中的收敛定理相结合,为解决不确定性环境下的序贯决策问题提供了强大的理论基础。