生物数学中的基因表达异质性建模
基因表达异质性建模是研究在遗传背景相同、环境条件一致的细胞群体中,单个细胞间基因表达水平存在显著差异的数学框架。这种异质性对细胞命运决定、药物耐受和发育过程有深远影响。
-
概念基础:从群体平均到单细胞视角
传统分子生物学主要测量细胞群体的平均表达水平,掩盖了细胞间的差异。基因表达异质性关注的是这种变异本身。其来源包括:内在噪声(生化反应的随机性,如转录、翻译的随机事件)和外在噪声(细胞间状态的差异,如细胞周期阶段、代谢物浓度等)。数学上,这需要从描述平均动力学的常微分方程转向能捕捉随机性和个体变异的模型。 -
核心数学工具:主方程和福克-普朗克方程
要描述异质性,关键是刻画基因表达水平在细胞群体中的概率分布随时间如何演化。主方程 是描述这一过程的基石。对于一个简单的基因表达模型(如从DNA到mRNA再到蛋白质),主方程给出了系统处于任意状态(特定mRNA和蛋白质分子数)的概率随时间的变化率。它是一个微分-差分方程,描述了所有可能状态间的概率流动。对于连续变量或大分子数情况,主方程可近似为福克-普朗克方程,这是一个偏微分方程,描述了表达水平的概率密度函数的演化,更便于分析。 -
关键模型:两状态模型(Telegraph Model)
这是建模转录爆发(基因在活跃和非活跃状态间随机切换,活跃时高速产生mRNA)的经典模型。该模型假设基因有两个状态:开(ON)和关(OFF)。状态间的切换是随机的(泊松过程)。当基因处于ON状态时,mRNA以一定速率合成。mRNA本身也随机降解。这个简单模型能解析地推导出稳态时mRNA分子数的分布,通常是一个负二项分布,成功解释了实验中观察到的表达异质性远超泊松分布的现象。 -
从mRNA到蛋白质:级联放大效应
基因表达的异质性在从mRNA到蛋白质的传递过程中会被放大。即使mRNA水平的波动不大,由于翻译过程(每个mRNA分子可被多次翻译)的随机性,蛋白质水平的异质性通常会更加显著。数学模型(如两状态模型结合翻译步骤)可以量化这种放大效应,揭示翻译速率等参数如何影响蛋白质表达的变异系数和分布形状。 -
外在噪声的整合:混合模型
纯粹的随机模型(如两状态模型)描述内在噪声。为了考虑外在噪声(如细胞体积、调控因子浓度的差异),需要引入混合模型。其核心思想是,模型中的某些参数(如基因切换速率、转录/翻译速率)不再是固定常数,而是在细胞群体中遵循某个概率分布。最终观察到的表达水平分布是给定参数下内在噪声导致的分布,对该参数分布进行加权平均(混合)的结果。这能更真实地反映实验数据。 -
现代发展与数据分析:基于单细胞数据的模型推断
随着单细胞测序(如scRNA-seq)等技术的出现,我们现在能直接测量成千上万个细胞的基因表达谱。建模的重点转向如何利用这些高维、稀疏的单细胞数据来推断背后的动力学参数。这涉及到随机过程模型的参数估计、非稳态动力学的推断(如从时间序列单细胞数据推断基因调控关系),以及使用机器学习方法(如变分自编码器)从复杂数据中直接识别表达状态和动力学规律。基因表达异质性建模已成为连接微观随机动力学与宏观细胞表型的关键桥梁。