2026/4/3 13:25:23
网站建设
项目流程
云南做网站的公司,外贸营销网站建设工程,永兴网站开发,泰安新闻头条最新消息代码地址#xff1a;https://github.com/NabaviLab/stMMC摘要理解生物组织中复杂而精细的细胞环境对于揭示复杂生物学功能具有重要意义。尽管单细胞 RNA 测序技术显著提升了我们对细胞状态的认识#xff0c;但其缺乏空间位置信息#xff0c;难以全面刻画细胞所处的空间环境。…代码地址https://github.com/NabaviLab/stMMC摘要理解生物组织中复杂而精细的细胞环境对于揭示复杂生物学功能具有重要意义。尽管单细胞 RNA 测序技术显著提升了我们对细胞状态的认识但其缺乏空间位置信息难以全面刻画细胞所处的空间环境。空间转录组技术Spatial TranscriptomicsST通过在保留空间位置信息的同时实现全转录组水平的表达谱分析有效弥补了这一不足。空间聚类是 ST 数据分析中的关键挑战之一。现代 ST 测序流程通常伴随高分辨率的组织学图像已有研究表明该类图像与基因表达谱之间存在密切关联。然而现有空间聚类方法往往未能充分利用图像信息从而限制了其对关键空间结构和细胞相互作用的刻画能力。针对上述问题本文提出了一种空间转录组多模态聚类模型spatial transcriptomics multi-modal clusteringstMMC。该模型是一种基于对比学习的深度学习方法通过多模态并行图自编码器将基因表达数据与组织学图像特征进行有效融合。在两个公开的 ST 数据集上将 stMMC 与四种当前先进的基线模型进行了对比实验。实验结果表明stMMC 在 ARI 和 NMI 指标上均表现出显著优势消融实验进一步验证了模型各关键组成模块的有效性。引言生物组织样本中包含高度复杂的细胞过程这些过程由细胞分布模式、细胞类型、细胞状态、组织组成以及细胞间相互作用等多种因素共同塑造 [1]。这些信息对于理解组织的发育、修复以及对外界信号的响应至关重要 [1][2]。近年来单细胞 RNA 测序技术在效率、可及性和准确性方面取得了显著发展使研究人员能够深入解析细胞状态并促进了新细胞类型的发现 [3]。然而尽管单细胞测序为细胞层面的研究提供了重要洞见其缺乏空间上下文信息限制了我们对细胞在组织环境中如何共存、相互作用与交流机制的理解 [4][5]。空间转录组技术Spatial TranscriptomicsST通过在保留空间位置信息的同时实现全转录组范围的表达谱分析有效弥补了这一不足 [6][7]。该研究由美国国家科学基金会NSF资助使研究者能够超越传统的细胞聚类分析进一步探索更高层次的组织结构。在 ST 数据分析流程中空间聚类已成为下游分析的标准起点例如组织解剖结构可视化、区域依赖性生物标志物的发现以及分子调控网络的构建等 [8]–[11]。随着 Visium [12]、seqFISH [13] 和 MERFISH [14] 等技术的不断成熟和普及ST 数据规模迅速增长对先进空间聚类方法的需求也日益迫切。当前 ST 测序流程通常包含高分辨率的组织学图像。已有研究表明组织学图像特征与基因表达之间存在紧密关联 [15][16]。然而大多数现有分析方法尚未充分融合空间信息、组织学图像与基因表达数据这在一定程度上限制了聚类模型从图像中提取关键生物学信息的能力例如细胞间相互作用以及细胞状态的空间变化。在上述背景下如何在融合空间与图像上下文的条件下从基因表达谱中挖掘有效模式仍是空间转录组分析中的一项重要挑战。为此本文提出了一种新的基于对比学习的深度学习模型——空间转录组多模态聚类模型spatial transcriptomics multi-modal clusteringstMMC。该模型通过并行图自编码器将基因表达数据与组织学图像特征进行融合并利用对比学习机制对各模态的特征提取过程进行约束。本文的主要贡献包括(i) 提出了一种基于高分辨率组织学图像的多模态对比学习空间聚类方法 stMMC用于空间转录组数据分析(ii) 证明了融合基因表达数据与学习得到的组织学图像特征能够显著提升空间聚类性能为相关研究提供了新的思路(iii) 通过多组基准数据实验验证了所提出方法在性能上的显著优势。模型如图 1 所示所提出的模型由三个主要模块组成(i)多模态并行图自编码器multi-modal parallel graph autoencoderMPGA由两个相互独立的图自编码器Graph AutoencoderGAE构成(ii)对比学习模块通过引入扰动图corrupted graph利用对比学习机制对每个 GAE 的表示学习过程进行约束(iii)解码与聚类模块通过图解码器重构基因表达数据并对精炼后的基因表达表示进行聚类从而获得最终的空间聚类结果。A. 问题定义设一个空间转录组数据集包含 N 个空间点spot每个空间点具有 M 个基因测序读数记为XG{x1G,x2G,…,xNG}∈RN×M.在 stMMC 模型中默认选取方差最高的 M3000个基因作为输入特征。对于组织学图像从每个空间点对应的位置中提取一个正方形图像块patch并使用一个在 ImageNet 上预训练的自编码器对这些图像块进行特征提取。提取得到的图像特征表示为XI∈RN×D,其中 D表示图像特征的维度。为更充分地结合空间位置信息、基因表达数据和组织学图像特征本文为每一种模态分别构建图结构并在构图过程中引入来自另一模态的关系信息。例如在构建基因表达模态的图时利用组织学图像模态中的空间邻近信息反之在构建图像特征模态的图时引入基因表达模态中的相似性信息。通过这种方式在特征聚合与融合之前即可实现多模态信息的交互。具体而言基因表达模态的图定义为GG(XG,VS,EG),其中 XG 表示基因表达特征VS为节点集合每个节点对应样本中的一个空间点EG 为基于空间点之间距离关系构建的边集合。其对应的邻接矩阵记为 AG当空间点 i 与 j 在物理距离上相邻时Aij1否则 Aij0。对于图 GG中的任一空间点 i选取其 K3 个最近邻空间点建立连接。图像特征模态的图定义为GI(XI,VS,EI),其中 XI为图像特征VS为共享的空间点节点集合EI 为基于基因表达相似性构建的边集合。为计算相似性边首先对基因表达数据进行 PCA 降维然后基于欧氏距离采用 KNN 方法为每个空间点选取 K3个最近邻空间点。其对应的邻接矩阵记为 AI当空间点 i 与 j 的基因表达相似时Aij1否则 Aij0。综上本文为每一种模态分别构建了一个独立的图结构这些图共享相同的节点集合但具有不同的节点属性和边集合并通过边结构引入来自另一模态的信息从而实现多模态特征的有效融合。B. 多模态并行图自编码器Multi-modal Parallel Graph Autoencoder为充分提取各模态中的有效信息MPGA 模块中采用了两个相互独立的图自编码器Graph AutoencoderGAE分别用于建模基因表达模态与图像特征模态。其编码过程定义如下两个模态的初始特征分别设定为ZI(0)XI,ZG(0)XG.在每一层中将两个 GAE 学习得到的特征通过加权方式进行聚合其中 αl 为第 l 层的可学习权重L 表示 GCN 的总层数。最终得到的聚合特征 Z(L)作为 MPGA 的输出并输入至图解码器中。图解码器用于重构基因表达数据其形式定义为对应的重构损失函数定义为C. 对比学习模块Contrastive Learning Module对比学习是一种新兴的无监督表示学习技术能够有效提升嵌入特征的判别能力近年来已在多种任务中展现出良好性能。其核心思想是构造正负样本对在特征空间中拉近正样本对的距离同时拉远负样本对的距离。受 Deep Graph Infomax 方法 [25] 的启发本文为每一种模态构建一个扰动图corrupted graph通过在保持图拓扑结构不变的情况下随机打乱节点特征来生成。对于基因表达模态和图像特征模态扰动图分别表示为其中 EProximity 和 ESimilarity在打乱过程中保持不变。扰动图被输入至对应模态的 GAE 中得到扰动后的嵌入表示分别记为 ZG∗和 ZI∗。为捕获空间点之间的局部社区结构信息本文为每个空间点计算社区表示其定义如下其中 zj,m表示第 j 个空间点在第 m 个模态下的嵌入表示Neb(i) 表示空间点 i 的一阶邻居集合。在对比学习过程中将原始图中空间点 i 的嵌入表示 zi,m与其社区表示 gi,m视为正样本对而将扰动图中得到的嵌入表示 zi,m∗与原始社区表示 gi,m 视为负样本对。该对比机制的核心目标是在潜在空间中使 gi,m 与对应的原始嵌入 zi,m 尽可能接近同时与扰动嵌入 zi,m∗保持足够距离。图 2 展示了该过程在随机选取空间点上的示意图。为区分正负样本对本文采用一个基于神经网络的判别器 Θ(⋅)用于计算样本对 (zi,m,gi,m)为正样本对的概率得分。对比学习损失函数基于二元交叉熵损失定义为D. 聚类模块Clustering Module重构后的数据通过独立的聚类模块用于空间聚类分析。stMMC 默认采用mclust算法 [26] 进行聚类同时也支持其他常见的聚类方法。在实验过程中观察到 stMMC 的聚类结果中部分空间点的聚类标签与其局部邻域内空间点的聚类结果不一致尤其在人工标注的数据集中这种现象会导致聚类性能下降。为缓解该问题本文引入了一种可选的平滑处理步骤。具体而言在聚类模块生成初始聚类结果后根据每个空间点的最近 b 个邻居的聚类标签进行重新赋值即将该空间点重新分配到其邻域内出现次数最多的聚类类别中。实验中将 b 的最优取值设为 50。实验空间转录组数据的聚类分析