相依性度量与Copula函数
我们先从简单的概念开始。您应该熟悉随机变量、概率分布以及两个随机变量之间的相关性(如皮尔逊相关系数)。但是,相关性主要衡量的是线性关系,对于非线性的依赖关系,它的描述能力有限。例如,当两个变量在极端情况下倾向于同时取极大值或极小值(即尾部依赖)时,相关系数可能无法捕捉。因此,我们需要更一般的工具来描述变量之间的“相依结构”。
第一步:联合分布与边际分布
假设有两个随机变量 \(X\) 和 \(Y\),它们的联合分布函数为:
\[H(x, y) = P(X \le x, Y \le y) \]
同时,\(X\) 和 \(Y\) 各自有边际分布函数:
\[F(x) = P(X \le x), \quad G(y) = P(Y \le y) \]
问题在于:给定边际分布 \(F\) 和 \(G\),如何构造或描述一个联合分布 \(H\),使得它能灵活地表达各种依赖模式(不仅是线性)?
第二步:Copula的定义与Sklar定理
这就是Copula函数的出发点。一个二维Copula \(C(u, v)\) 是一个定义在单位正方形 \([0,1]^2\) 上的函数,满足:
- 对于任意 \(u, v \in [0,1]\),有 \(C(u, 0) = C(0, v) = 0\),\(C(u, 1) = u\),\(C(1, v) = v\)。
- \(C\) 是二维递增的:对于任意 \(u_1 \le u_2, v_1 \le v_2\),有:
\[ C(u_2, v_2) - C(u_2, v_1) - C(u_1, v_2) + C(u_1, v_1) \ge 0 \]
(这保证了它能够作为联合分布函数,其边际是均匀分布)。
最核心的结论是Sklar定理(您已在“随机变量的变换的Copula方法”中了解其应用,但这里我们从更基础的角度阐述其本身):
对于任意具有边际分布 \(F\) 和 \(G\) 的联合分布函数 \(H\),存在一个Copula \(C\),使得对所有的 \(x, y\):
\[ > H(x, y) = C\big(F(x), G(y)\big) > \]
如果 \(F\) 和 \(G\) 是连续的,则 \(C\) 唯一;否则,\(C\) 在 \(\text{Ran}(F) \times \text{Ran}(G)\) 上唯一。
该定理意味着,任何联合分布都可以分解为它的边际分布和一个描述相依结构的Copula函数。这使我们能分离边际与相依性:我们可以单独建模边际分布,再单独选择合适的Copula来描述变量间的依赖。
第三步:常见Copula族举例
- 独立性Copula:当 \(X\) 与 \(Y\) 独立时,\(C_{\text{ind}}(u, v) = uv\)。
- 完全正相关Copula(上界):对应完全同向单调依赖,\(C_{\text{max}}(u, v) = \min(u, v)\)。
- 完全负相关Copula(下界):对应完全反向单调依赖,对于二维情况,\(C_{\text{min}}(u, v) = \max(u+v-1, 0)\)。
- 高斯Copula:基于二元正态分布构造。设 \(\Phi\) 为标准正态分布函数,\(\Phi_\rho\) 为相关系数为 \(\rho\) 的二元标准正态分布函数,则:
\[ C_{\rho}^{\text{Gauss}}(u, v) = \Phi_\rho\big( \Phi^{-1}(u), \Phi^{-1}(v) \big) \]
它捕捉的是正态型的依赖,但边际可以是任意连续分布。
5. t-Copula:基于多元t分布,能描述更强的尾部依赖(即极端事件同时发生的概率更高)。
6. 阿基米德Copula族:通过一个生成函数 \(\psi\) 定义:\(C(u, v) = \psi^{[-1]}\big( \psi(u) + \psi(v) \big)\),其中 \(\psi\) 连续、严格递减且 \(\psi(1)=0\)。例如:
- Clayton Copula:\(\psi(t) = (t^{-\theta} - 1)/\theta\)(\(\theta > 0\)),能刻画下尾依赖(即左侧极端值同时出现)。
- Gumbel Copula:\(\psi(t) = (-\ln t)^\theta\)(\(\theta \ge 1\)),能刻画上尾依赖(即右侧极端值同时出现)。
- Frank Copula:\(\psi(t) = -\ln\frac{e^{-\theta t}-1}{e^{-\theta}-1}\)(\(\theta \ne 0\)),对称且无尾部依赖。
第四步:相依性度量与Copula的关系
由于Copula完全编码了相依结构,许多经典的相依性度量都可以用Copula表示:
- Kendall's Tau:\(\tau = 4 \iint_{[0,1]^2} C(u, v) \, dC(u, v) - 1\)。
- Spearman's Rho:\(\rho_S = 12 \iint_{[0,1]^2} C(u, v) \, du dv - 3\)。
- 尾部依赖系数(衡量极端事件同时发生的概率):
上尾依赖:\(\lambda_U = \lim_{q \to 1^-} \frac{1 - 2q + C(q, q)}{1 - q}\)。
下尾依赖:\(\lambda_L = \lim_{q \to 0^+} \frac{C(q, q)}{q}\)。
例如,高斯Copula的尾部依赖系数为0(除非完全相关),而t-Copula或某些阿基米德Copula可有非零尾部依赖。
第五步:Copula的参数估计与模型构建
在实际应用中,给定数据 \((x_i, y_i)_{i=1}^n\),构建Copula模型的典型步骤为:
- 估计边际分布:可采用参数方法(如假设边际为正态、伽马等并估计参数)或非参数方法(如使用经验分布函数)。
- 将数据转换为伪观测值:利用估计的边际分布函数 \(\hat{F}\) 和 \(\hat{G}\),计算 \(u_i = \hat{F}(x_i)\),\(v_i = \hat{G}(y_i)\)。如果边际估计准确,则 \((u_i, v_i)\) 应近似服从以某个Copula \(C\) 为联合分布的均匀分布样本。
- Copula拟合:基于伪观测值,选择Copula族(如通过图形比较或信息准则),并估计其参数(常用极大似然法或矩方法)。
- 模型验证:检查拟合Copula是否与数据相依结构一致(如通过K-S检验、比较经验Copula与理论Copula等)。
第六步:更高维度与局限性
Copula可推广到多维,但高维下选择适当的Copula结构变得复杂(例如使用藤Copula(Vine Copula)分层建模)。需要注意的是,Copula方法虽然强大,但若边际分布估计不准,会传播误差;另外,选择不当的Copula族可能导致对依赖关系的错误刻画。
通过以上步骤,您应能理解:Copula函数是将联合分布分解为边际与相依结构的数学工具,它提供了比相关系数更丰富的依赖刻画方式,在金融风险管理、极端天气分析、保险精算等领域有广泛应用。