生物数学中的非马尔可夫基因表达过程建模
我来为你介绍“生物数学中的非马尔可夫基因表达过程建模”。这个模型旨在描述基因表达过程中那些不符合“马尔可夫性质”(即未来状态只取决于当前状态,与历史无关)的随机动态。让我们循序渐进地理解它。
第一步:从经典马尔可夫基因表达模型到其局限性
首先,我们需要一个基础参照。在已学过的众多“基因表达随机模型”(如随机模型、噪声模型、切换模型)中,最常见的一类是基于连续时间马尔可夫链(CTMC) 的模型。例如,在简单的基因“开/关”切换模型中,我们通常假设基因在“激活”和“抑制”状态之间的切换时间服从指数分布。指数分布的关键特性是“无记忆性”:一个已经持续了t时间的过程,在接下来的Δt时间内发生状态改变的概率,与它已经持续了多久(t)无关。这个性质使得建模和数学分析(通常用主方程描述)变得相对简单。
然而,越来越多的单细胞实验数据表明,许多生物过程,包括:
- 转录:RNA聚合酶在启动子处的停留、暂停和释放。
- 翻译:核糖体在mRNA上的移动和易位。
- 表观遗传状态的维持:如染色质修饰状态的持续时间。
它们的状态持续时间(等待时间)分布往往不是指数分布,而是呈现长尾、爆发性或多峰分布。这意味着过程“记得”它已经进行了多久,其未来的演变概率依赖于其历史。这违背了马尔可夫性质,因此我们称之为“非马尔可夫”过程。
第二步:非马尔可夫性的来源与数学刻画
为什么基因表达会表现出非马尔可夫性?其物理和生物化学根源复杂:
- 多步化学反应:一个宏观的“开”状态,可能内部包含多个连续的、隐藏的生化步骤(如转录起始复合物的逐步组装)。只有完成所有步骤,状态才会改变。这导致宏观状态的持续时间是多个指数分布随机变量的和,其结果是一个埃尔朗(Erlang)分布或更一般的相型(Phase-type)分布,而非指数分布。
- 分子拥挤与异质性:细胞内环境拥挤且异质,反应速率常数可能随时间或空间变化,而不是常数。
- 反馈与记忆:基因产物(如蛋白质)可能反馈调节自身的表达,这种时滞反馈引入了历史依赖性。
在数学上,要描述一个非马尔可夫过程,我们需要超越主方程。一种核心方法是使用广义主方程或积分微分方程。在广义主方程中,状态转移的速率不仅依赖于当前状态,还可能通过一个“记忆核”依赖于过去的状态历史。另一种强大且直观的建模框架是连续时间随机游走(CTRW) 和更新过程。在这种框架下,我们明确地定义“等待时间分布”ψ(τ),它描述了系统在发生一次状态跃迁(如从“开”跳到“关”)之前,停留在当前状态的时间τ的概率分布。当ψ(τ)是指数分布时,过程是马尔可夫的;当ψ(τ)是任何其他分布(如幂律分布、伽马分布)时,过程就是非马尔可夫的。
第三步:非马尔可夫基因表达模型的核心构建与求解
建模通常从一个简化的基因表达“开-关”模型(或称随机电报模型)开始,但将指数等待时间替换为非指数等待时间。
-
模型设定:考虑一个基因有两个状态:G(开,活跃)和 G*(关,沉默)。假设:
- 从 G* 切换到 G 的等待时间分布为 f_on(τ)。
- 从 G 切换到 G* 的等待时间分布为 f_off(τ)。
- 当基因处于 G 状态时,mRNA 以恒定速率 ρ 产生(泊松过程)。
- mRNA 分子以恒定速率 γ 降解(通常仍假设为指数过程,这是一个合理简化)。
这里 f_on(τ) 和 f_off(τ) 就是我们引入非马尔可夫性的关键,它们可以是埃尔朗分布、韦布尔分布,甚至幂律分布。
-
数学描述与求解挑战:由于失去了无记忆性,系统的状态演化不能再用一个简单的关于概率 P(n, t)(在t时刻有n个mRNA的概率)的微分方程(主方程)描述。常用的分析方法包括:
- 更新理论方法:将状态切换时刻视为“更新点”,利用卷积等工具推导 mRNA 计数分布。
- 生成函数法:推导 mRNA 数量生成函数所满足的积分方程。
- 嵌入马尔可夫链法:虽然连续时间过程是非马尔可夫的,但如果我们只观察状态切换的瞬间,这个离散时间序列可能构成一个马尔可夫链,再结合等待时间分布进行分析。
- 拉普拉斯变换:在拉普拉斯域中,卷积运算变为乘法,可以大大简化对广义主方程或更新方程的分析。
第四步:非马尔可夫性带来的独特生物学现象与影响
引入非马尔可夫性后,模型能产生和解释许多经典马尔可夫模型无法捕捉的复杂动态:
- mRNA/蛋白质计数分布的“重尾”与“超泊松”噪声:非指数(特别是长尾)的关闭时间分布,会导致转录爆发持续时间变化极大,从而产生计数分布中比泊松分布更长的尾部,即更大的方差(Fano因子 > 1),这与许多实验观察相符。
- 非指数衰减的自相关函数:mRNA 数量的时间自相关函数可能以非指数的、更缓慢的方式衰减,表明系统具有更长的“记忆”,波动持续更久。
- 基因表达“爆发”动力学的精细调控:模型可以区分“爆发大小”(每次活跃期产生的平均mRNA数)和“爆发频率”之外的第三个调控维度——“爆发时间分布的形状”。例如,通过改变等待时间分布的形状(从指数变为更集中的分布),细胞可以在不改变平均表达水平的情况下,显著改变表达的波动(噪声)特性。
- 对细胞命运决定的潜在影响:长记忆性可能使基因表达状态更持久,从而影响细胞在分化或应对刺激时做出决定的时序和可逆性。
第五步:与相关领域的联系与发展
- 与“多状态模型”的关系:一个具有多个隐藏生化步骤的模型,其宏观表现往往就是一个非马尔可夫过程。因此,非马尔可夫模型可以被视为多状态模型的一种简约化或聚合描述。
- 与“随机时滞模型”的关系:非马尔可夫性可以看作是一种分布时滞。固定时滞是分布时滞的一种极端特例(狄拉克δ分布)。
- 参数推断的挑战:正如“基因表达随机模型参数估计”所讨论的,从实验的单个细胞时间序列数据中推断非马尔可夫模型的参数(如等待时间分布的形状和尺度参数)比马尔可夫模型更具挑战性,通常需要更复杂的似然函数和计算技术(如贝叶斯推断)。
- 当前研究前沿:包括将非马尔可夫建模扩展到更复杂的调控网络(涉及多个非马尔可夫环节的耦合),研究非马尔可夫噪声在细胞信息处理(联系“传感极限模型”)和决策中的作用,以及开发更高效的非马尔可夫随机模拟算法。
总之,生物数学中的非马尔可夫基因表达过程建模通过放弃经典的“无记忆性”假设,采用更一般的等待时间分布,为理解基因表达中复杂的时序动态、异质性噪声来源以及它们对细胞功能的影响,提供了一个更强大、更贴近生物物理现实的数学框架。它将随机过程理论中的更新过程、相型分布等工具与分子生物学动力学紧密结合,是经典随机模型的重要深化和拓展。