在医学生物知识图谱KG中生物实体基因、蛋白质、疾病、药物以节点表示其相互关系相互作用、关联、调控以边表示。尽管高通量实验不断产生数据但图谱中的许多关系仍未发现。链接预测LP方法通过分析网络拓扑来推断缺失或潜在关联因此至关重要。本文介绍了BioPathNet这是一种基于神经贝尔曼-福特网络NBFNet构建的消息传递神经网络框架旨在利用路径表示学习的力量在医学生物知识图谱上进行链接预测。与NBFNet相比BioPathNet引入了多项改进包括使用背景调控图谱BRG来增强消息传递以及采用节点类型感知NTA负采样策略以提高学习精度并处理图的异质性。这些设计选择对于提升特定任务的性能至关重要。我们在不同规模、稀疏度和质量的多样化医学生物知识图谱上评估了BioPathNet的链接预测任务包括使用来自Pathway Commons的KEGG通路进行基因功能分配、使用PrimeKG进行零样本疾病-药物适应症预测、使用SynLethDB进行合成致死基因对预测以及使用LncTarD 2.0推断长链非编码RNA与靶基因之间的调控关系。我们的结果表明BioPathNet在医学生物链接预测方面具有通用性其性能始终优于随机预测其成功程度因任务而异。消融研究进一步强调了关键设计选择的优势例如NTA负采样和使用BRG进行消息传递。与通用基线相比BioPathNet不仅超越了一跳知识图谱嵌入方法如TransE、DistMult和RotatE而且在所有任务中始终优于更具表达力的节点嵌入模型如R-GCN、RAGAT和HGTMRR性能提升范围从基因功能预测的2%到药物重定位的87%。这突显了路径表示学习相对于那些分别计算节点和关系嵌入的方法的优势和表达能力即使后者在表示中包含了图异质性。然而BioPathNet中路径表示学习的卓越准确性和性能是以更高的计算训练时间和资源需求为代价的。与四个不同链接预测任务的特定任务基线相比BioPathNet在所有五个零样本疾病子集肾上腺、贫血、心血管、细胞增殖和心理健康的药物重定位特定基线上均优于DREAMwalk和最先进的TxGNNAUPRC平均分别提高了60.8%和23.2%。此外BioPathNet实现了更高的Recallk值在top预测中更好地优先考虑了已知治疗方法。具体来说在k20时BioPathNet恢复了61.9%的已知治疗方法而TxGNN为53.9%。这在生物学中尤其有价值因为BioPathNet增强的优先级排序减少了在假设生成或实验验证过程中需要验证生物合理性的预测数量。与节点嵌入方法相比基于路径嵌入的方法如BioPathNet通过多跳关系增强了表示并通过追踪和可视化路径以及有影响的节点提供了更好的可解释性这有助于验证预测和生成假设。结合BRG进一步提高了路径的表达能力和可解释性揭示了关键路径并验证了预测例如在阿尔茨海默病案例中。我们证明了BioPathNet在处理各种知识图谱的不同问题以及在合成致死性包括归纳设置方面的通用性。然而推断lncRNA-靶标调控关系对所有方法包括BioPathNet来说都是最困难的任务这可能源于训练数据和BRG的质量和不确定性。BioPathNet的局限性包括训练数据中潜在的偏差。未来的改进可能涉及排除在主要关系如适应症上的消息传递并优先考虑分子相互作用以阐明对阿尔茨海默病等了解较少的疾病的潜在机制。最后BioPathNet为每个任务使用不同的BRG这可能会根据所选的BRG引入偏差。总之BioPathNet是一种用于生物知识图谱链接预测的路径嵌入方法在基因功能预测、药物适应症、合成致死性和mRNA-lncRNA相互作用等任务中实现了最先进的性能。其可解释性框架突出了关键的预测路径提高了生物合理性并有助于偏差检测。未来的方向包括改进和去噪医学生物知识图谱利用条件特定知识以及整合节点特征。最终BioPathNet可以作为医学生物知识图谱中预测模型的基础加速整个生物学和医学领域的假设生成。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享