生物数学中的基因调控网络流形嵌入与降维分析
我们先从基础背景开始。在细胞中,成千上万个基因并非独立工作,而是通过复杂的调控关系形成一个网络,即基因调控网络(GRN)。理解其结构是理解细胞功能、发育和疾病的核心。然而,通过高通量实验(如单细胞RNA测序)得到的数据通常具有数万个基因维度,即每个细胞样本对应一个超高维空间中的数据点。为了在这种“维度灾难”中可视化、聚类和分析数据,并推断潜在的调控结构,我们需要有效的降维方法。传统方法(如主成分分析-PCA)是线性的,但基因间的调控关系通常是非线性的。因此,能捕捉非线性结构的流形学习(Manifold Learning)与嵌入(Embedding)方法变得至关重要。
第一步:从高维数据到低维流形假设
- 核心问题:实验测量了p个基因在n个细胞中的表达水平。p极大(>10^4),n相对较小(10^3-10^5)。每个细胞是p维空间中的一个点。我们相信,驱动细胞状态变化的根本生物学过程(如细胞周期、分化轨迹、对刺激的响应)所对应的内在自由度d远小于p。例如,决定一个干细胞分化为神经元的调控“程序”,可能只由几十个关键转录因子和信号通路主导。
- 流形概念:数学上,一个d维流形是局部类似于d维欧几里得空间的拓扑空间。在此处的生物语境中,我们假设所有观测到的高维数据点(细胞)实际上都位于(或近似位于)一个嵌入在p维高维空间中的、复杂的、可能弯曲的d维低维流形上。这个流形称为“细胞状态流形”或“转录本流形”,它编码了所有可能的、生物学上可达的细胞状态及其相互关系。
第二步:流形学习与降维的核心任务
我们的目标是从高维观测数据 \(X \in \mathbb{R}^{n \times p}\) 中,无监督地学习到这个低维流形的几何与拓扑结构,并找到一种映射 \(f: \mathbb{R}^{p} \rightarrow \mathbb{R}^{d}\),使得高维点 \(x_i\) 被映射到低维嵌入 \(y_i = f(x_i) \in \mathbb{R}^{d}\),同时尽可能地保持数据点之间的某种几何关系。这个映射f通常通过优化一个目标函数来学习。不同的算法保持的关系不同,这引出了第三步。
第三步:关键算法及其生物学解读
以下是几种核心方法,它们都试图揭示基因表达空间中的非线性结构,但侧重点不同:
- t-分布随机近邻嵌入 (t-SNE):
- 原理:t-SNE的核心是保持局部结构。它首先在高维空间为每一对数据点 \(x_i, x_j\) 计算一个条件概率 \(p_{j|i}\),表示“在给定数据点 \(x_i\) 的情况下,\(x_j\) 是其近邻的可能性”。然后,在低维嵌入空间(如2维),为对应的点 \(y_i, y_j\) 定义一个类似的概率 \(q_{ij}\)(使用t分布计算,使得低维空间能容纳更宽的间距)。最后,通过最小化高维分布P和低维分布Q之间的Kullback-Leibler散度来优化Y。
- 生物数学意义:t-SNE擅长将高维空间中“局部相似”的细胞(如处于同一分化阶段的细胞)在低维图中紧密地聚集在一起,形成清晰的“簇”。这非常有助于细胞类型识别和亚群发现。但它不保持全局结构(簇间距离无意义),且结果对“困惑度”参数敏感。
-
均匀流形逼近与投影 (UMAP):
- 原理:UMAP基于严格的拓扑理论(特别是黎曼几何和单纯复形)。它首先在高维数据上构建一个模糊拓扑表示,通过自适应地确定每个点的邻域大小。然后,在低维空间寻找一个具有最相似拓扑结构的表示。其优化目标基于交叉熵。
- 生物数学意义:UMAP不仅试图保持局部邻接关系(像t-SNE),也更好地保持了全局结构(例如,不同分化路径之间的相对位置关系更可靠)。它计算效率更高,能处理更大数据集,并且得到的嵌入中,簇间的距离可能包含更多生物学信息(如谱系关系)。这使得它成为绘制细胞分化轨迹图的有力工具。
-
扩散映射 (Diffusion Maps):
- 原理:该方法将数据点视为一个马尔可夫随机过程的节点。先计算点对之间的相似性(如高斯核),构造一个扩散概率矩阵。这个矩阵的特征向量提供了数据“扩散几何”的坐标。将数据映射到由前几个(非平凡)特征向量张成的空间,即为扩散映射。
- 生物数学意义:扩散映射的坐标轴对应数据中主要的“扩散模式”或“变化方向”。在生物学上,这通常对应潜在的、连续的生物学过程,如伪时间(分化进程)、细胞周期进程、或对刺激的连续响应。它能揭示流形的内在参数化,特别适合分析连续变化的动态过程。
-
自编码器 (Autoencoder, AE) 及其变体:
- 原理:这是一种深度神经网络方法。它包含一个“编码器”网络将高维输入x压缩到低维“潜空间”表示z,以及一个“解码器”网络试图从z重构出x。训练目标是使重构误差最小化。训练完成后,编码器的输出就是低维嵌入z。
- 生物数学意义:AE是高度灵活的非线性降维工具。其变体如变分自编码器 (VAE) 更进一步,它学习一个潜变量的概率分布,能生成新的、合理的基因表达谱,用于模拟和探索细胞状态空间。AE特别擅长在去除噪声(如技术噪声)的同时,捕捉复杂的、分层的调控关系。
第四步:流形嵌入如何服务于基因调控网络(GRN)推断
得到低维嵌入 \(Y\) 并不是终点,而是新分析的起点,用于反过来理解高维的GRN:
-
轨迹推断:在UMAP或扩散映射的二维/三维嵌入图上,细胞可能呈现连续的路径(如从干细胞到成熟细胞的分支轨迹)。我们可以沿着这些路径对细胞进行排序(伪时间分析)。然后,可以分析基因表达沿此伪时间的动态变化,从而推断哪些基因驱动了该过程,并构建时序性的调控关系。
-
空间共表达模块识别:在低维流形上,位置相近的细胞具有相似的表达谱。我们可以识别在流形特定区域(如某个分支尖端)协同高表达或低表达的基因集。这些基因集可能就是受共同调控子控制的功能模块,为GRN的模块化结构提供线索。
-
从低维动力系统反推高维动力系统:如果我们假设细胞在流形上的运动受一个潜在的、低维的动力系统支配(例如, \(\frac{dy}{dt} = F(y)\), \(y\) 是低维嵌入),那么我们可以从数据中推断这个向量场 \(F\)(如使用RNA速度或基于最优传输的方法)。这个推断出的低维动力系统可以预测细胞状态演化的方向和命运,其“吸引子”对应稳定的细胞类型,“排斥子”对应过渡状态。这实质上是GRN整体动力学在低维空间的可视化与建模。
第五步:挑战与前沿
- 解释性:低维嵌入的坐标轴(如UMAP1, UMAP2)通常没有直接的生物学含义,它们是复杂组合的抽象。将其与已知的标记基因或通路活性关联是关键。
- 批次效应:技术批次效应会扭曲流形结构,需要专门的校正方法(如Harmony, BBKNN)在降维前/中/后进行整合。
- 时空整合:最新的挑战是将来自不同时间点、空间位置的单细胞数据嵌入到一个统一且一致的流形中,以重建完整的时空动态。
- 与因果推断结合:正在发展的方向是将流形学习与因果发现方法结合,利用低维轨迹揭示基因间的潜在因果调控方向,而不仅仅是相关性。
总结来说,基因调控网络流形嵌入与降维分析是通过非线性降维技术,从超高维基因表达数据中提取出代表核心生物学变异的低维结构,并将此结构作为路线图,来可视化细胞状态、推断分化轨迹、识别基因模块,并最终辅助我们理解驱动这些模式的、隐藏在背后的基因调控网络动力学架构。