随机变量的变换的随机梯度下降方法
随机梯度下降是优化领域中处理大规模数据的重要方法,特别适用于概率论与统计中的参数估计问题。下面我将从基础概念开始,逐步讲解其核心原理、数学推导、变体及其统计性质。
-
优化问题背景
在统计学习中,我们常需要最小化期望风险:\(J(\theta) = \mathbb{E}[L(X;\theta)]\),其中\(L\)是损失函数,\(X\)是随机变量。由于真实分布未知,我们使用经验风险\(J_n(\theta)=\frac{1}{n}\sum_{i=1}^n L(x_i;\theta)\)。当数据量极大时,传统梯度下降每次迭代需计算所有样本的梯度,计算成本高昂。 -
核心算法推导
随机梯度下降用单个样本梯度近似整体梯度:
\[\theta_{t+1} = \theta_t - \eta_t \nabla L(x_{i_t}; \theta_t) \]
其中\(i_t\)是从\({1,...,n}\)中均匀随机抽取的索引,\(\eta_t\)是学习率。其关键思想是用无偏估计量\(\nabla L(x_{i_t}; \theta_t)\)代替真实梯度,满足\(\mathbb{E}[\nabla L(x_{i_t}; \theta_t)] = \nabla J_n(\theta_t)\)。
- 收敛性分析
在凸函数假设下,通过合理设置学习率(如\(\eta_t \propto 1/\sqrt{t}\)),SGD满足:
\[\mathbb{E}[J_n(\bar{\theta}_T) - J_n(\theta^*)] = O(1/\sqrt{T}) \]
其中\(\bar{\theta}_T\)是迭代路径的均值。证明需要构造上界:
\[\|\theta_{t+1}-\theta^*\|^2 \leq \|\theta_t-\theta^*\|^2 - 2\eta_t(\theta_t-\theta^*)^\top g_t + \eta_t^2\|g_t\|^2 \]
再通过取期望和 telescoping 求和得证。
- 方差控制技术
原始SGD由于梯度噪声会导致收敛震荡。改进方法包括:
- 动量法:\(v_t = \gamma v_{t-1} + \eta_t \nabla L(x_{i_t}; \theta_t)\),加速收敛
- AdaGrad:自适应调整学习率 \(\eta_{t,i} = \eta_0/(\delta + \sqrt{\sum_{k=1}^t g_{k,i}^2})\)
- 小批量梯度下降:用\(m\)个样本的批量梯度降低方差
- 随机梯度下降的统计推断
SGD迭代路径包含参数估计的分布信息:
- 渐近正态性:\(\sqrt{t}(\theta_t - \theta^*) \xrightarrow{d} N(0, \Sigma)\)
- 协方差矩阵\(\Sigma = H^{-1} S (H^{-1})^\top\),其中\(H=\nabla^2 J(\theta^*)\),\(S=\text{Cov}(\nabla L(X;\theta^*))\)
- 在线Bootstrap方法可通过并行运行带噪声的SGD过程构造置信区间
- 现代发展与应用
- 随机坐标下降:每次迭代随机选择一个坐标方向更新
- 随机镜像下降:使用Bregman散度替代欧氏距离
- 方差缩减技术:SVRG、SAGA等方法通过控制变量减少梯度方差
- 在贝叶斯推理中的扩展:随机梯度朗之万动力学 \(\theta_{t+1} = \theta_t - \eta_t \nabla L(x_{i_t}; \theta_t) + \sqrt{2\eta_t}\epsilon_t\)
这些发展使得随机梯度下降不仅能处理海量数据,还提供了丰富的统计理论支撑,成为连接优化理论与统计推断的重要桥梁。