方差分析
方差分析(ANOVA)是一种用于比较多个群体均值是否存在显著差异的统计方法。让我从基础概念开始,逐步解释其核心思想、数学模型和应用场景。
-
基本思想与问题背景
在实际研究中,我们经常需要比较三个或更多组的平均值(如不同药物治疗效果、不同教学方法的成绩)。若使用两两t检验,会增加犯第一类错误(假阳性)的概率。方差分析通过同时分析所有组的数据,控制整体错误率。其核心思想是:将数据的总变异分解为组间变异(不同处理间的差异)和组内变异(同一组内的随机误差),通过比较这两种变异的相对大小判断均值差异是否显著。 -
数学模型与变异分解
假设有 \(k\) 个组,每组样本量为 \(n_i\),总样本量 \(N = \sum n_i\)。观测值 \(y_{ij}\) 表示第 \(i\) 组第 \(j\) 个数据,模型为:
\[ y_{ij} = \mu_i + \varepsilon_{ij} = \mu + \tau_i + \varepsilon_{ij} \]
其中 \(\mu\) 是总均值,\(\tau_i\) 是第 \(i\) 组的处理效应(满足 \(\sum \tau_i = 0\)),\(\varepsilon_{ij} \sim N(0, \sigma^2)\) 为随机误差。总变异(总平方和, SST)可分解为:
\[ \text{SST} = \sum_{i=1}^k \sum_{j=1}^{n_i} (y_{ij} - \bar{y})^2 = \sum_{i=1}^k n_i (\bar{y}_i - \bar{y})^2 + \sum_{i=1}^k \sum_{j=1}^{n_i} (y_{ij} - \bar{y}_i)^2 \]
即 SST = 组间平方和(SSB) + 组内平方和(SSW)。
- F检验与假设构建
假设检验为:- \(H_0: \mu_1 = \mu_2 = \cdots = \mu_k\)(或所有 \(\tau_i = 0\))
- \(H_1:\) 至少存在一对 \(\mu_i \neq \mu_j\)
计算均方(MS):
\[ \text{MSB} = \frac{\text{SSB}}{k-1}, \quad \text{MSW} = \frac{\text{SSW}}{N-k} \]
在 \(H_0\) 成立时,统计量 \(F = \frac{\text{MSB}}{\text{MSW}} \sim F(k-1, N-k)\)。若 \(F > F_{\alpha}(k-1, N-k)\),则拒绝 \(H_0\)。
-
前提条件与验证
方差分析需满足:- 独立性:观测值相互独立
- 正态性:每组数据来自正态分布
- 方差齐性:组间方差相等
可通过残差图、Shapiro-Wilk检验(正态性)和Levene检验(方差齐性)验证。若不满足条件,需使用非参数方法(如Kruskal-Wallis检验)或数据变换。
-
事后检验与效应量
若拒绝 \(H_0\),需进行事后检验(如Tukey HSD、Bonferroni校正)确定具体哪些组存在差异。同时,效应量如 \(\eta^2 = \frac{\text{SSB}}{\text{SST}}\) 可量化组间差异的实际重要性。 -
扩展形式:多因素方差分析
当存在多个自变量时(如因素A和B),可分析主效应和交互效应。例如双因素方差模型:
\[ y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk} \]
通过分解出交互项平方和,检验因素间是否相互影响。
方差分析通过系统性的变异分解,成为比较多元群体均值的核心工具,广泛应用于实验设计、社会科学和工业质量控制等领域。