生物数学中的基因表达随机切换模型
基因表达随机切换模型是描述单个细胞中基因在活跃("开")状态和非活跃("关")状态之间随机转换,以及这种转换如何导致基因产物(如mRNA和蛋白质)水平随机波动的数学模型。
第一步:核心概念与生物学背景
在单个细胞水平上,基因表达并非一个持续稳定、可预测的过程。即使在同一遗传背景和相同环境下的细胞群体中,基因产物的数量也存在显著差异。这种细胞间的异质性部分源于基因表达内在的随机性。一个关键的内在随机性来源是基因启动子(控制基因转录开始的DNA区域)状态的随机变化。许多基因的启动子可以在两种基本状态间随机切换:
- "关"状态:转录因子和RNA聚合酶无法有效结合,基因转录被抑制,几乎不产生mRNA。
- "开"状态:转录机制组装成功,基因可以以一定的速率进行转录,产生mRNA。
这种在"开"和"关"状态之间的随机转换,就是"随机切换"。它被认为是导致基因表达出现"爆发"或"脉冲"现象(即基因产物在短时间内间歇性产生)的根本原因之一。
第二步:两状态马尔可夫切换模型
最简单的基因表达随机切换模型是一个两状态马尔可夫过程。我们首先描述基因本身的随机切换动态,暂不考虑mRNA和蛋白质。
- 模型状态:基因有两种状态,\(G_{off}\)(关)和 \(G_{on}\)(开)。
- 切换速率:
- 从"关"状态切换到"开"状态的速率记为 \(k_{on}\)(激活速率)。
- 从"开"状态切换到"关"状态的速率记为 \(k_{off}\)(失活速率)。
- 动力学:基因在"关"状态下停留一段随机时间(平均时间为 \(1/k_{on}\)),然后以概率方式切换到"开"状态;在"开"状态下停留一段随机时间(平均时间为 \(1/k_{off}\)),然后切换回"关"状态。这个过程是"无记忆"的(马尔可夫性),即下一次切换只取决于当前状态,与之前的历史无关。
这个简单的开关模型是理解更复杂模型的基础。基因处于"开"状态的稳态概率 \(P_{on}\) 可以计算为 \(P_{on} = k_{on} / (k_{on} + k_{off})\)。
第三步:引入转录与降解——mRNA水平的随机性
现在,我们在基因随机切换的基础上,加入转录和mRNA降解过程,构建一个完整的基因表达随机切换模型。
- 模型扩展:当基因处于"开"状态(\(G_{on}\))时,它以恒定速率 \(r_m\) 合成mRNA分子。当基因处于"关"状态(\(G_{off}\))时,转录速率为零。
- mRNA动力学:每个mRNA分子以恒定速率 \(\gamma_m\) 被降解。
- 系统状态:此时,系统的状态需要用两个变量来描述:基因状态(\(G_{on}\) 或 \(G_{off}\))和细胞内的mRNA分子数目(\(n_m\))。
这个模型(常称为"随机切换模型"或"二态模型")的动力学可以用主方程(Master Equation)精确描述,该方程给出了系统处于任一可能状态(例如,基因状态为"开"且mRNA数为5)的概率随时间变化的方程。
第四步:模型的关键特征与数学分析
该模型能够产生典型的基因表达随机性特征:
- mRNA分布的爆发性:模型的稳态解显示,mRNA数量的概率分布不是简单的泊松分布。当 \(k_{off}\) 远大于 \(k_{on}\) 时,分布呈现明显的重尾特征,表明细胞中会出现少量mRNA分子数极高的情况,这与实验观察到的表达爆发一致。
- 噪声分析:可以计算mRNA水平的噪声(常用变异系数CV的平方,即Fano因子来衡量)。该模型的噪声由两部分组成:一部分源于mRNA合成和降解的固有随机性(即使开关速率极快也会存在),另一部分则直接来源于基因的随机切换。当切换速率较慢时(\(k_{on}, k_{off}\) 与 \(\gamma_m\) 相比较小),切换带来的噪声占主导地位,导致表达波动巨大。
- mRNA分布的解析解:在稳态下,mRNA分子数的概率分布可以解析求解,它是一个由两个泊松分布混合而成的分布,混合权重由基因的开关动力学(\(P_{on}\) 和 \(P_{off}\))决定。
第六步:模型的扩展与应用
基本的两状态模型可以扩展以更精确地模拟生物学现象:
- 多状态切换:引入更多基因状态(如多个不同的"开"状态,具有不同的转录速率),以模拟更复杂的调控。
- 包含蛋白质水平:在mRNA之下再增加一层蛋白质的合成与降解,研究随机切换如何从转录层传递到蛋白质层,导致蛋白质水平的波动。
- 反馈调控:引入反馈机制,例如,蛋白质产物本身可以反馈调节其基因的 \(k_{on}\) 或 \(k_{off}\) 速率,这可以导致双稳态(细胞群体分化成两个亚群)或振荡等复杂动力学行为。
- 应用领域:
- 细胞命运决定:解释为何遗传背景相同的细胞会分化成不同类型,随机切换可能触发不同的基因表达程序。
- 病原体持久性:解释细菌群体中一小部分"持留菌"对抗生素的耐受性,可能与关键基因的随机关闭有关。
- 癌症异质性:肿瘤内部细胞对药物的不同敏感性可能与基因表达的随机波动相关。
- 单细胞数据分析:该模型是分析单细胞RNA测序(scRNA-seq)数据的重要理论工具,用于推断细胞群体中基因的开关动力学参数。