生物数学中的基因表达分布建模
基因表达分布建模是使用概率分布来描述细胞群体中单个细胞基因表达水平的异质性的数学框架。我将从基本概念开始,逐步深入到核心模型和应用。
-
基础:细胞异质性与基因表达噪声
即使在遗传背景相同、环境条件一致的细胞群体中,单个细胞的基因表达水平(如特定mRNA或蛋白质的分子数)也存在显著差异。这种差异被称为基因表达异质性或噪声。传统上,群体平均测量掩盖了这种异质性。基因表达分布建模的核心目标就是刻画这种异质性的统计规律,即回答“在某一时刻,群体中有多少比例的细胞其分子数量在某个特定范围内?”。 -
核心数学模型:随机过程与主方程
要描述分子数量的动态起伏,必须采用随机模型。最基础的模型是生灭过程。我们将细胞内的mRNA或蛋白质分子数量视为一个随机变量 \(n\)。其变化由两个基本随机事件驱动:
- 生成: 基因以一定的概率速率(转录或翻译速率)产生新的分子。设合成速率为 \(k_s\)。
- 消亡: 每个已存在的分子以一定的概率速率(降解速率)被降解。设降解速率为 \(\gamma\),且通常假设降解遵循一级动力学,即每个分子的降解概率是独立的。
描述随机变量 \(n\) 的概率 \(P(n, t)\) 随时间演化的方程称为主方程。对于简单的生灭过程,主方程为:
\[ \frac{dP(n,t)}{dt} = k_s P(n-1,t) + \gamma (n+1) P(n+1,t) - [k_s + \gamma n] P(n,t) \]
这个方程描述了概率是如何从状态 \(n-1\) 和 \(n+1\) “流入”状态 \(n\),以及如何从状态 \(n\) “流出”的。
- 稳态分布:泊松分布与负二项分布
当系统达到稳态(即概率分布不随时间变化)时,我们可以求解主方程。稳态分布的形式取决于合成速率 \(k_s\) 是否恒定。
- 恒定合成速率(泊松分布): 如果基因转录以恒定速率发生(即 \(k_s\) 是常数),稳态下的分子数分布是一个泊松分布:
\[ P(n) = \frac{\lambda^n e^{-\lambda}}{n!} \]
其中,\(\lambda = k_s / \gamma\) 是平均分子数。泊松分布的特征是方差等于均值(\(\sigma^2 = \lambda\))。
- 波动(爆发式)合成(负二项分布): 在实际生物系统中,基因转录常常是爆发式的,即基因在短时间内被快速、频繁地转录,然后进入一段静默期。这可以建模为合成速率 \(k_s\) 本身也是一个随机变量,遵循某种分布(如指数分布,对应泊松爆发过程)。在这种情况下,稳态分布是负二项分布:
\[ P(n) = \frac{\Gamma(n+r)}{\Gamma(n+1)\Gamma(r)} p^r (1-p)^n \]
其中,\(r\) 和 \(p\) 是分布的形状参数和成功概率参数,与平均爆发大小和爆发频率相关。负二项分布的特征是方差大于均值(\(\sigma^2 > \mu\)),这种现象称为过度离散,能更好地拟合许多实验观测到的具有长尾(即少数细胞含有极高分子数)的表达分布。
- 模型推断与参数估计
建模的最终目的是从实验数据(如单细胞RNA测序数据或荧光流式细胞术数据)中推断出模型的参数。这个过程通常包括:- 模型选择: 判断实验数据更符合泊松分布还是负二项分布。可以使用统计检验(如似然比检验)来比较不同模型对数据的拟合优度。如果负二项分布拟合显著更好,则表明基因表达存在转录爆发。
- 参数估计: 对于选定的模型,使用最大似然估计等方法,根据观测到的分子数计数数据,计算出模型参数(如 \(k_s, \gamma, r, p\))的最优值。这些参数具有明确的生物学意义,例如,从负二项分布参数可以推算出平均爆发频率和每次爆发产生的平均mRNA分子数。
- 扩展与应用
基础模型可以扩展以研究更复杂的生物学问题:- 双峰分布与细胞命运决策: 当基因表达分布呈现两个明显的峰时,表明细胞群体中存在两种不同的状态(如“开”和“关”)。这可以通过引入正反馈回路或双稳态开关的模型来描述,对理解细胞分化至关重要。
- 基因网络建模: 将多个基因的表达分布模型耦合起来,可以研究调控关系(如激活、抑制)如何影响噪声的传播和关联。
- 时间序列建模: 通过分析单个细胞基因表达随时间变化的序列数据,可以更直接地推断转录动力学的参数,区分不同的爆发模式。
总之,基因表达分布建模通过将随机过程理论应用于分子生物动力学,将细胞异质性从“噪声”转化为可量化的信息,为理解基因调控的精确机制和细胞决策的随机性本质提供了强大的数学工具。