生物数学中的基因表达随机热力学非平衡相变模型参数估计
我们来系统性地讲解这个模型的核心思想、数学模型、以及关键的参数估计方法。我会从基本概念开始,循序渐进,最后深入到估计的数学技术。
第一步:理解模型的基石——非平衡基因表达与相变
-
背景回顾:你已经知道,基因表达是一个随机的、消耗能量的非平衡过程。随机性体现在分子(如转录因子、RNA聚合酶、核糖体)随机碰撞导致的基因开关切换、mRNA和蛋白质合成的随机爆发。非平衡性体现在细胞需要持续消耗化学能(如ATP、GTP)来维持基因的活性状态、转录和翻译过程,这些过程是单向的、不可逆的,远离热力学平衡态。
-
“相变”的引入:在统计物理和动力系统中,“相变”指系统宏观性质在某个参数(如温度、浓度)的微小变化下,发生突然的、定性的改变。例如,水在0°C从液态水变为固态冰。在基因调控网络中,“相变” 可以类比为细胞命运的决定。例如,一个多能干细胞在接收到特定信号后,其核心基因调控网络的“状态”会从一个对应于“多能性”的吸引子,跨越一个能量或概率的“势垒”,跃迁到另一个对应于“分化细胞类型(如神经元)”的吸引子。这种状态间的宏观跃迁,在数学模型上就表现为一种非平衡相变。
-
模型的核心:基因表达随机热力学非平衡相变模型 就是将上述两点结合起来。它用随机过程(如化学主方程、Fokker-Planck方程、朗之万方程)描述基因表达的微观动力学,用非平衡热力学(如熵产生、非平衡势函数)量化系统远离平衡的程度和驱动力,并最终研究系统参数(如调控强度、能量消耗率)如何影响系统宏观状态(如不同细胞命运对应的高维概率分布)之间的突变性转换,即非平衡相变。
第二步:构建数学模型框架
这个模型通常包含以下几个层次:
- 微观动力学:对于一个包含N个基因的简化网络,我们用状态变量 \(\vec{n} = (n_1, n_2, ..., n_N)\) 表示各种蛋白质的分子数。它的演化遵循一个主方程:
\[ \frac{\partial P(\vec{n}, t)}{\partial t} = \sum_{\vec{n}’} [W(\vec{n} | \vec{n}’) P(\vec{n}’, t) - W(\vec{n}’ | \vec{n}) P(\vec{n}, t)] \]
其中 \(W(\vec{n}’ | \vec{n})\) 是从状态 \(\vec{n}\) 跳到 \(\vec{n}’\) 的跃迁速率,它包含了基因调控逻辑(如激活、抑制)和能量消耗(驱动非平衡跃迁的“燃料”)。
- 非平衡热力学描述:在非平衡稳态下,概率流 \(J_{ss}\) 不为零。我们可以定义每一条微观路径的熵产生。对于模型而言,关键点是引入一个非平衡势函数 \(\Phi(\vec{n})\),使得稳态概率分布可以近似(在弱噪声下)表示为:
\[ P_{ss}(\vec{n}) \propto \exp(-\Phi(\vec{n}) / D) \]
这里的 \(D\) 表征噪声强度,而 \(\Phi(\vec{n})\) 是一个有效的“景观”(就像山地地形),它的极小值点对应系统可能停留的宏观状态(如不同细胞命运)。相变在数学上就体现为 \(\Phi(\vec{n})\) 的形状随某个模型参数的变化而发生突变——从一个单阱变为双阱或多阱,或者阱的深度发生相对变化。
- 相变点:相变发生在模型的控制参数(如调控强度 \(k\)、能量输入率 \(\mu\))的某个临界值 \(k_c\) 或 \(\mu_c\)。在临界点附近,系统的宏观序参数(如某个关键蛋白的平均浓度、或两种状态的概率差)会发生类似于二级相变的幂律行为,或一级相变的滞后现象。
第三步:模型参数估计的挑战与核心思路
我们的目标是:利用实验数据(例如,单细胞测序得到的基因表达数据,或活细胞成像追踪的蛋白质动态)来估计模型中的未知参数,从而预测相变行为。这些参数可能包括:
- 调控参数:转录/翻译速率、调控的希尔系数、阈值。
- 非平衡参数:驱动非平衡循环流的“能量”参数(体现跃迁速率 \(W\) 的不对称性)。
- 噪声参数:内在噪声强度 \(D\)。
核心挑战在于:相变模型通常很复杂,高维且非线性,其似然函数难以直接计算。因此,参数估计需要巧妙的近似或模拟方法。
第四步:具体的参数估计方法
- 矩方法/矩封闭近似:
- 思路:我们不直接处理整个概率分布 \(P(\vec{n})\),而是关注它的一阶矩(均值)和二阶矩(方差、协方差)。对主方程进行变换,可以得到关于矩的微分方程。然而,方程通常是不封闭的(高阶矩依赖于更高阶矩)。
- 估计:在相变点附近,我们可以用高斯近似或系统尺寸展开来封闭矩方程。然后,我们将模型预测的稳态均值、协方差与实验数据计算得到的样本均值、协方差进行匹配,通过最小化两者之间的差异来估计参数。这能有效估计线性化的相互作用强度和噪声大小。
- 路径积分方法与最大似然/最大后验估计:
- 思路:将基因表达随时间的轨迹(从实验获取)视为模型的实现。利用路径积分公式,可以写出观测到整条轨迹的概率(即路径的“作用量”)。
- 估计:我们寻找使这个路径概率(似然)最大化的参数。实际操作中,常结合变分推断。我们假设一个近似但易处理的后验分布 \(Q(\text{隐藏状态} | \text{参数})\),然后最大化证据下界。优化过程会同时优化变分分布的参数和模型参数,这特别适合处理有隐藏变量(如未观测的调控因子状态)的相变模型。
- 谱方法(基于特征值/特征函数):
- 思路:主方程可以写成一个线性算子(生成元)\(\mathcal{L}\) 作用在概率分布上。这个算子的特征谱(特征值和特征函数)完全决定了系统动力学,特别是弛豫到稳态的速率和模式。
- 估计:在接近相变点时,系统的弛豫会变慢,这体现在生成元 \(\mathcal{L}\) 的首个非零特征值(谱隙)趋于零。我们可以从实验的时间序列数据中,通过动态模态分解或其他方法,估计弛豫时间。然后,通过匹配模型预测的谱隙与实验观测的弛豫时间在参数空间的变化,来定位相变临界点 和估计相关参数。
- 基于“景观”重构的估计:
- 思路:直接从高维单细胞基因表达数据(稳态分布)出发,用密度估计方法(如扩散图、核密度估计)近似重建出稳态概率分布 \(P_{ss}^{data}(\vec{n})\)。
- 估计:根据非平衡势函数 \(\Phi(\vec{n}) = -D \ln P_{ss}(\vec{n})\) 的关系,我们将重建的 \(P_{ss}^{data}(\vec{n})\) 转化为一个经验势函数 \(\Phi_{data}(\vec{n})\)。然后,我们调整模型参数,使得模型理论预测的势函数 \(\Phi_{model}(\vec{n}; \theta)\) 在形状、极小值点的位置和深度、以及极小值之间的势垒高度上与 \(\Phi_{data}(\vec{n})\) 最为接近。这尤其适合于估计分岔参数和势垒高度,这些直接决定了状态转换的难易程度。
- 近似贝叶斯计算 :
- 思路:当模型的似然函数难以计算,但模型可以相对容易地模拟时,ABC是强有力的工具。
- 步骤:
a. 从参数的先验分布中抽取一组候选参数 \(\theta^*\)。
b. 用这组参数在计算机上模拟模型,生成一组“模拟数据” \(D_{sim}\)。
c. 计算模拟数据 \(D_{sim}\) 和真实实验数据 \(D_{obs}\) 的摘要统计量(如均值、方差、相关系数、状态占比、弛豫时间等)。
d. 如果模拟数据与真实数据的摘要统计量之间的距离 \(\rho(S(D_{sim}), S(D_{obs}))\) 小于某个容忍阈值 \(\epsilon\),则接受这组参数 \(\theta^*\)。 - 在相变模型中的应用:对于相变模型,精心设计的摘要统计量至关重要,例如:双/多峰性的度量、峰间的距离、在临界点附近数据的波动大小(发散性)、自相关时间(临界慢化)等。通过反复模拟和比较,ABC可以近似出参数的后验分布,尤其擅长捕捉引发相变的临界参数值及其不确定性。
总结:
“基因表达随机热力学非平衡相变模型参数估计”是一个结合了非平衡统计物理、随机过程、动力系统和计算统计学的前沿领域。其核心目标是从复杂、高维、随机的单细胞数据中,定量反推出驱动细胞命运决定等宏观相变的微观调控规则和能量学参数。这使我们不仅能描述细胞状态的转变,更能预测在何种干预下(如改变某个调控强度或代谢状态)可能诱导或阻止这种转变,为合成生物学和疾病治疗提供了定量的理论基础。