文章总结1、近期生物先验相关的研究比较多,例如pathformer、DeePathNet、DeepKEGG等,将pathway通路等生物先验知识结合到神经网络模型中,并在疾病分类、生存分析、风险预测等下游任务中有着良好的表现,是研究的热点之一;2、作者通过研究,认为生物先验引导的生物网络,性能提升主要是源于网络结构的稀疏性,而非源自生物学相关性。作者将生物引导的神经网络,改成基于随机信息的模型,随机信息模型和生物引导的神经网络稀疏性相当,此时模型在不同指标和数据集下的表现和生物引导模型相近,甚至有3个模型的随机版本表现优于生物学引导版本。3、对后续研究思考:在加入生物先验知识时,需要补充实验,如果将生物先验换成具有相似稀疏性的随机网络,如泊松分布、伯努利分布等,模型性能是否会发生变化。需要验证性能的提升是归因于稀疏性还是生物先验知识。4、仅靠稀疏度,若不包含生物学知识,往往就足够了。这可能导致生物学知情模型的开发方式转变,更多关注结构性优势如稀疏性,而非具体生物数据的整合。 未来工作应持续通过比较模型性能与随机对应模型来验证通路整合。此类比较将确保生物信息的整合不仅仅带来稀缺,还能真正增强预测能力。摘要生物引导神经网络通常利用通路注释来提升生物医学应用的性能。我们假设通路整合的益处并非源于其生物学相关性,而在于它带来的稀疏性。我们对所有相关的基于路径的神经网络模型进行了全面分析,批判性地评估了每项研究的贡献。通过本次评测,我们筛选出部分源代码公开的方法子集。比较基于生物信息的先进深度学习模型与其随机对应模型显示,基于随机信息的模型在不同指标和数据集下的表现与生物引导模型相当。值得注意的是,在15个分析模型中,有3个随机版本的表现甚至超过了其生物学引导版本。此外,通路引导模型在可解释性上并无明显优势,尽管缺乏显性通路信息,随机模型仍能识别相关的疾病生物标志物。我们的发现表明,通路注释可能噪声过大或现有方法探索不足。因此,我们提出了一种可应用于不同领域的方法论,并可作为系统比较新路径知情模型与其随机对应模型的坚实基准。这种方法使研究人员能够严格判断观察到的性能提升是否归因于生物学洞察。背景与总结在处理深度学习模型时,许多通过机器学习方法高效计算的函数表现出所谓的“合成稀疏性”,意味着它们可以分解成几个更简单的函数,每个函数仅依赖于输入的子集。深度网络,如卷积神经网络(CNN)和Transformer,与许多目标函数的组成结构相符,从而实现更好的推广,因为它们能高效地近似这些函数,而不会陷入“维度诅咒”,即输入维度为 [37, 12, 31, 13, 32] 的指数级增长。通过引入先验约束来进一步增强这种组合稀疏性,比如将特征分组为概念或建模它们之间的相互作用。这种方法与结构化稀疏性和层级特征学习[2]相符,这些也在多项深度学习研究中被探讨过[39, 38, 34]。生物知情模型利用功能注释数据库中的生物知识来增强学习过程并提升预测性能[11, 6]。许多方法基于神经网络架构,将通路注释视为生物信息。例如,其中一些模型采用多层感知器(MLP),通过修改神经连接以纳入生物通路。这些架构的设计可能很简单,使用单一隐藏层[7, 33],并使用与通路层[30]关联的全连接网络,采用稀疏编码机制,通过丢弃增强稀疏效应,同时结合基因通路修剪连接[8, 9, 10, 4]。另一种整合方式是修改所有中间层,采用通路信息,拟合顺序神经网络结构[6, 14, 11],或使用并行全连通网络,包含所有基因特征,因此也包括与通路无关联的特征[17]。最近,生物知情深度学习模型还引入了自注意力机制到组学通路层[19],变换器增强通路与不同数据模态之间的交互[24],甚至变分自编码器生成潜在数据表示,将通路信息整合进编码器[15]。因此,所有这些方法都塑造了网络拓扑结构,确保功能相关的基因产物(或其他生物实体)与同一神经元共享连接,同时根据通路注释进行连接修剪。利用通路信息的另一种方法是将输入数据转换为通路关系,从而支持为非表格数据设计的神经网络架构。这些架构的例子包括图神经网络(GNNs)[20],它可以将基因相关特征作为节点,根据特定路径的关系表示特定路径[21],或者将路径作为节点和边,反映路径交互,通过图卷积层[23]或注意力机制[26]加以利用。一种互补的数据转换策略是构建一个二维“通路图像”,直接将基因-通路关联编码到矩阵中,基因表达水平以“像素强度”表示。这种格式使标准架构如卷积神经网络能够利用路径提供的结构信息来完成预测任务[29]。或者,这些