生物数学中的基因表达分布建模
基因表达分布建模是生物数学中一个专注于描述和解释细胞群体中基因表达水平变异性的研究领域。与传统的将基因表达视为群体平均值的方法不同,该领域承认并量化细胞间的异质性,将基因表达水平视为一个随机变量,并研究其概率分布。
第一步:理解基因表达异质性的来源
在看似同质的细胞群体中,单个细胞的基因表达水平(例如,特定信使RNA或蛋白质的分子数量)存在显著差异。这种异质性并非“噪音”或实验误差,而是由生物系统的内在随机性驱动的。其主要来源包括:
- 转录随机性:基因的转录(从DNA到mRNA)是一个随机事件。RNA聚合酶与启动子的结合、转录起始的成败,都受限于分子数量少所带来的随机波动。
- 翻译随机性:mRNA的翻译(合成蛋白质)同样是一个随机过程,核糖体与mRNA的结合频率会影响蛋白质的合成速率。
- 基因拷贝数波动:在细胞分裂周期中,DNA的复制会导致基因拷贝数的暂时性变化。
- 细胞周期和状态差异:细胞处于细胞周期的不同阶段,或其内部状态(如代谢状态、应激水平)不同,都会系统性影响基因表达水平。
基因表达分布建模的核心目标,就是用数学模型来刻画这种由随机性导致的表达量分布。
第二步:核心数学模型——主方程与生成函数
为了描述基因表达分子数量的动态变化,我们将其视为一个随机过程。最基础的建模框架是化学主方程。它描述了系统中拥有特定分子数量(例如,n个mRNA分子)的概率随时间变化的微分方程。
考虑一个简化的基因表达模型(只考虑mRNA):
- 转录:以常数速率 \(k_m\) 发生,导致mRNA分子数从 \(n\) 增加到 \(n+1\)。
- 降解:每个mRNA分子以常数速率 \(\gamma_m\) 降解,导致分子数从 \(n\) 减少到 \(n-1\)。
对应的主方程为:
\[\frac{dP(n, t)}{dt} = k_m P(n-1, t) + \gamma_m (n+1) P(n+1, t) - k_m P(n, t) - \gamma_m n P(n, t) \]
其中 \(P(n, t)\) 表示在时间 \(t\) 时有 \(n\) 个mRNA分子的概率。
直接求解主方程可能很复杂。一个强有力的数学工具是使用概率生成函数,其定义为:
\[F(z, t) = \sum_{n=0}^{\infty} z^n P(n, t) \]
将主方程转换为关于生成函数 \(F(z, t)\) 的偏微分方程,通常更容易求解。通过分析生成函数,我们可以得到概率分布 \(P(n)\) 的所有矩(如均值、方差)以及分布的具体形式。
第三步:稳态分布与经典结果
在长时间后,系统会达到一个稳态,概率分布 \(P(n)\) 不再随时间变化。对于上述简单的转录-降解模型,其稳态下的mRNA分子数分布是一个泊松分布:
\[P(n) = \frac{ \lambda^n e^{-\lambda} }{ n! } \]
其中 \(\lambda = k_m / \gamma_m\) 是分布的均值(也是方差)。这是一个非常重要的基准模型。
然而,大量实验数据表明,许多基因的表达分布比泊松分布更分散(方差远大于均值)。这引出了更复杂的模型,其中最具代表性的是二态模型(或称随机开关模型)。该模型假设基因可以在“开”(活跃)和“关”(不活跃)两种状态间随机切换。只有在“开”态时,才能以高速率进行转录。
这个模型的稳态mRNA分布不再是指数形式。通过求解对应的主方程,可以得到其分布是一个泊松-伽马混合分布,具体表现为负二项分布:
\[P(n) = \frac{\Gamma(n+r)}{n! \Gamma(r)} p^r (1-p)^n \]
其中 \(r\) 和 \(p\) 是与开关速率和转录速率相关的参数。负二项分布的方差可以大于其均值,能更好地拟合实验观测到的过度分散现象。这是基因表达分布建模中的一个核心成果。
第四步:从mRNA到蛋白质的建模与矩分析
完整的基因表达过程包括转录和翻译。我们可以建立一个两阶段的模型:基因状态随机切换 -> mRNA产生/降解 -> 蛋白质产生/降解。这会导致蛋白质分子数的分布更加复杂。
对于这种复杂模型,精确求解完整的概率分布 \(P(n_{mRNA}, n_{protein})\) 非常困难。因此,矩分析成为一种重要的数学工具。我们不再追求完整的分布形式,而是计算其低阶矩,如:
- 均值:平均表达水平。
- 方差:表达水平的波动大小。
- 噪声:通常定义为标准差与均值的比值(\(\eta = \sigma / \mu\)),用于量化相对波动强度。
- Fano因子:方差与均值的比值(\(F = \sigma^2 / \mu\)),在泊松分布中等于1。大于1表示过度分散。
通过矩分析,我们可以推导出噪声的解析表达式,并将其分解为不同随机性来源的贡献(如转录噪声、翻译噪声、启动子开关噪声)。这为理解哪些生物物理参数主导了表达的随机性提供了深刻的洞见。
第五步:前沿发展与数据分析方法
现代基因表达分布建模的前沿包括:
- 非稳态建模:研究细胞对信号、应激或发育线索的响应过程中,表达分布的动态演化。
- 多基因耦合:研究多个基因在共同调控网络下的联合表达分布,以及它们之间的相关性。
- 与单细胞测序数据的结合:利用单细胞RNA测序等高通量技术获得海量的表达数据,需要开发新的统计推断方法来从数据中估计模型的参数(如开关速率、转录速率),并检验不同模型的优劣。这通常涉及最大似然估计、矩匹配等计算方法。
总之,基因表达分布建模通过运用随机过程、主方程、生成函数和矩分析等数学工具,将基因表达的随机性从“噪音”提升为可量化、可理解的研究对象,深刻揭示了细胞决策、命运决定和疾病发生中的随机基础。