概率密度函数
字数 1910 2025-11-03 08:34:11
概率密度函数
概率密度函数(Probability Density Function,PDF)是描述连续型随机变量概率分布的核心工具。下面从基础概念到深入性质逐步讲解。
1. 连续型随机变量与概率密度函数的直观引入
- 离散型随机变量的概率分布用概率质量函数(PMF)表示,每个取值有明确的概率。
- 连续型随机变量的取值充满一个区间(如身高、温度),单个点的概率为0,因此需要一种新的方式描述概率分布。
- 类比物理中的“密度”:一根棍子的总质量 = 密度 × 长度。类似地,连续型随机变量在某个区间内的概率通过“概率密度”积分得到。
2. 概率密度函数的定义
设 \(X\) 为连续型随机变量,若存在非负可积函数 \(f(x)\),使得对任意实数 \(a \leq b\),有:
\[P(a \leq X \leq b) = \int_a^b f(x) \, dx \]
则 \(f(x)\) 称为 \(X\) 的概率密度函数。
关键性质:
- 非负性:\(f(x) \geq 0\) 对所有 \(x\) 成立。
- 归一性:\(\int_{-\infty}^{\infty} f(x) \, dx = 1\)(总概率为1)。
3. 概率密度函数与概率分布函数的关系
- 累积分布函数(CDF) \(F(x) = P(X \leq x) = \int_{-\infty}^x f(t) \, dt\)。
- 密度函数是分布函数的导数:\(f(x) = \frac{d}{dx} F(x)\)(在 \(f(x)\) 连续点处成立)。
例子:标准正态分布的密度函数为 \(f(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}\),其CDF无法用初等函数封闭表示,但可通过积分定义。
4. 概率密度函数的物理意义
- \(f(x)\) 不是概率,而是概率的“密度”。
- 对极小区间 \([x, x+dx]\),有 \(P(x \leq X \leq x+dx) \approx f(x) \, dx\)。
- 密度值越大,说明随机变量落在该点附近的概率越高(需乘以区间长度)。
5. 常见概率密度函数示例
- 均匀分布:区间 \([a, b]\) 上,\(f(x) = \frac{1}{b-a}\)(常数密度)。
- 指数分布:参数 \(\lambda > 0\),\(f(x) = \lambda e^{-\lambda x}\)(用于描述等待时间)。
- 正态分布:\(f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\)(钟形曲线)。
6. 概率密度函数的变换
若 \(Y = g(X)\),且 \(g\) 是严格单调可导函数,则 \(Y\) 的密度函数为:
\[f_Y(y) = f_X(g^{-1}(y)) \cdot \left| \frac{d}{dy} g^{-1}(y) \right| \]
此公式通过变量变换与雅可比行列式推导而来(你已学过雅可比行列式)。
7. 多元概率密度函数
- 对连续型随机向量 \((X_1, X_2, \dots, X_n)\),联合密度函数 \(f(x_1, \dots, x_n)\) 满足:
\[P((X_1, \dots, X_n) \in D) = \int_D f(x_1, \dots, x_n) \, dx_1 \cdots dx_n \]
- 边缘密度通过积分得到,例如 \(f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy\)。
8. 概率密度函数与期望计算
连续型随机变量的期望定义为:
\[E[X] = \int_{-\infty}^{\infty} x f(x) \, dx \]
方差、矩等概念均通过密度函数的积分计算。
9. 密度估计:从数据到模型
在实际问题中,密度函数往往未知,需通过样本数据估计:
- 参数估计:假设密度属于某分布族(如正态分布),用样本估计参数(如极大似然估计)。
- 非参数估计:直方图、核密度估计(KDE)等,不假设具体分布形式。
总结
概率密度函数将连续型随机变量的概率分布可视化与量化,是连接概率论、统计学与应用的桥梁。理解其定义、性质及与分布函数的关系,是掌握连续型随机变量分析的基础。