TLSEA 2.0:一种更新后的长链非编码RNA(lncRNA)富集分析工具
《Journal of Molecular Biology》:TLSEA 2.0: an updated tool for lncRNA enrichment analysis
【字体:
大
中
小
】
时间:2026年01月09日
来源:Journal of Molecular Biology 4.5
编辑推荐:
lncRNAs通过复杂分子相互作用形成功能调控网络,传统方法仅关注单个lncRNA的功能。TLSEA 2.0通过整合53,588条lncRNA的疾病、药物、RNA相互作用等多维度数据,结合GAT-GCN混合图学习框架,实现用户提交列表的智能扩展与功能富集分析。
田云鹤|李子宇|杨家琳|李建伟
河北工业大学人工智能学院,天津,300401,中国
摘要
长链非编码RNA(lncRNAs)通过与各种分子的广泛而多样的相互作用来调节基因表达、细胞功能和疾病相关过程,从而形成异质性的功能调控网络。lncRNAs通常以协同的方式发挥其调控作用,功能富集分析被认为是系统阐明其功能的强大方法。然而,大多数现有方法仅关注单个lncRNAs的功能,忽略了它们之间的复杂相互作用,这限制了富集分析的范围。在本文中,我们开发了TLSEA 2.0(http://www.lirmed.com/tlsea2/),这是一个基于网络的更新工具,具有扩展的功能lncRNA集合库,以增强富集分析能力。与早期版本相比,TLSEA 2.0的参考lncRNA集合数量增加了两倍,并将富集分析类别从一种扩展到五种:疾病、药物、RNA-RNA相互作用、RNA-蛋白质相互作用和癌症表型。TLSEA 2.0引入了“扩展”选项,该选项通过基于相似性网络将与输入集合有强关联的额外lncRNAs纳入用户提交的lncRNA列表中,从而扩展了用户提交的lncRNA列表并发现了更多潜在的关联。此外,还整合了额外的功能相似性网络,包括lncRNA-蛋白质相互作用和共表达数据。此外,TLSEA 2.0在提取lncRNA特征的过程中采用了图注意力网络(GAT)和图卷积网络(GCN)来替代传统的图表示学习方法。这些改进使TLSEA 2.0成为一个更全面、更强大的在线功能富集分析平台,有助于更深入地了解lncRNAs的复杂生物调控功能。
引言
长链非编码RNA(lncRNAs)由于缺乏蛋白质编码能力,通过广泛的转录和转录后机制成为基因表达和细胞功能的关键调节因子[1],[2]。越来越多的证据表明,lncRNAs在各种复杂人类疾病的起始和进展中起着关键作用[3],[4]。例如,lncRNA MALAT1是一种众所周知的肿瘤相关lncRNA,它通过与miR-200家族的miRNAs相互作用来调节细胞运动性和侵袭性。MALAT1抑制miR-200c的表达,导致ZEB1的上调,ZEB1是一种已知能抑制E-钙黏蛋白表达并促进上皮-间充质转化(EMT)的关键转录因子,而EMT是癌症转移的关键过程[5]。lncRNA PVT1与肝细胞癌(HCC)的起始和进展密切相关。PVT1通过与癌蛋白MYC的相互作用促进HCC的增殖和转移。此外,PVT1通过调节miRNA活性发挥其致癌作用,从而影响细胞周期调控并抑制相关的凋亡途径[6]。
随着高通量测序技术的快速发展、全基因组研究的扩展以及大规模基因组测序项目的实施,越来越多的与lncRNA相关的功能基因集合以及各种功能相似性网络已被系统地识别和整理[7]。但迄今为止,具有明确定义功能的lncRNAs的比例仍然很小。大量实验证据证实,lncRNAs具有集体发挥调控作用的能力。为了便于解释lncRNAs的功能,已经开发了多种lncRNA富集分析工具。例如,NcPATH[8]整合了人类非编码RNA与KEGG信号通路之间的调控关系,并提供了可视化和富集分析模块。LncSEA 2.0[9]整合了多种功能数据库,构建了全面的lncRNA基因集合,并支持跨多个生物学类别的富集分析。LnCompare[10]则利用内在的lncRNA特征进行基于特征的富集和相似基因识别,即使对于注释较少的lncRNAs也能进行功能推断。在LnCompare的基础上,TLSEA[11]进一步整合了与lncRNA相关的数据,如lncRNA-miRNA和lncRNA-疾病关联,采用多源数据融合来提高预测功能相关lncRNAs的准确性。因此,功能富集分析已成为系统揭示lncRNAs调控作用的有效方法。然而,有效地整合来自多种调控机制的整理过的lncRNA参考基因集合与lncRNA功能相似性网络,并开发一个更全面的在线lncRNA功能富集分析平台,仍然是一个紧迫的挑战。2023年,我们开发了TLSEA,这是一个基于网络的工具,它利用图嵌入方法整合多源数据并生成与用户提供的富集集合相关的扩展lncRNA列表。TLSEA可以发现传统功能富集分析方法可能忽略的潜在lncRNA-疾病关联,为lncRNA功能研究提供了一个更全面和系统的工具,并进一步提高了其可解释性。
自TLSEA发布以来,可访问的新的lncRNA功能数据量大幅增加。诸如EVLncRNAs[12]、MND-R[13]、LncRNA-Wiki[14]、LncRNADisease[15]和Lnc2Cancer[16]等数据库不断更新,为用户提供了更全面的lncRNA特征及其疾病关联注释。RNAInter[17]、NpInter[18]和ENCORI[19]等数据库进一步扩展了RNA-RNA和RNA-蛋白质相互作用的数据集,有助于更深入地理解lncRNA的调控功能。此外,人们越来越认识到lncRNA序列在基因调控、疾病发病机制和药物开发中的关键作用,这激发了对探索序列级分析与lncRNA调控功能之间关系的兴趣。这些研究的见解有助于从结构角度阐明lncRNA的调控机制,进一步揭示lncRNAs的生物学特性[20]。
基于以上内容,我们开发了TLSEA 2.0,在lncRNA参考集合的规模和提取lncRNA特征的方法方面实现了显著改进和增强。TLSEA 2.0的一个关键设计原则是明确区分两个概念上不同的组成部分:参考集合和可扩展lncRNAs,它们在分析工作流程中各自发挥着不同的作用。在TLSEA 2.0中,参考集合代表了经过整理的lncRNA功能注释的全面集合,作为富集分析的背景知识库。相比之下,可扩展lncRNAs表示一组预定义的lncRNAs,在预富集扩展步骤中可以识别出与用户提交的列表高度相关的lncRNAs。这两个组件在TLSEA 2.0的工作流程中扮演着不同的角色:参考集合定义了用于富集的功能类别,而可扩展lncRNAs指定了在富集分析之前选择并与原始列表合并的候选池。除了疾病富集外,TLSEA 2.0现在还支持与癌症表型、药物、RNA-蛋白质相互作用和RNA-RNA相互作用相关的功能分析。TLSEA 2.0的参考集合中共包含53,588个lncRNAs,比TLSEA增加了两倍。为了扩展用户提交的lncRNA列表,TLSEA 2.0进一步整合了多个与lncRNA相关的生物网络,包括lncRNA-疾病关联网络、lncRNA-miRNA相互作用网络、lncRNA-蛋白质相互作用网络和lncRNA共表达网络。因此,可扩展lncRNAs的数量从原始版本的1,409个增加到了3,064个。TLSEA 2.0的另一个重大改进是采用了结合图注意力网络(GAT)和图卷积网络(GCN)的混合图学习框架,从而更全面地利用了多样的lncRNA特征。在扩展用户提交的lncRNA列表以进行富集分析时,采用了更高效的加权随机行走策略,允许更精细地评估节点重要性并提高识别潜在lncRNA关联的准确性。总的来说,这些改进使TLSEA 2.0成为一个更强大、更准确的富集分析平台。
TLSEA 2.0概述
TLSEA 2.0的总体工作流程如图1所示(详细参数设置见补充材料1)。
在A部分,基于lncRNA-miRNA相互作用、结合语义相似性的lncRNA-疾病关联、整合蛋白质序列相似性的lncRNA-蛋白质关联以及跨多个组织的lncRNA表达谱构建了四个不同的lncRNA功能相似性网络。
B部分中,这四个lncRNA功能相似性网络被
比较实验结果
为了全面评估结合GNN方法在节点特征学习中的有效性,我们进行了一系列比较实验。在TLSEA 2.0中,预测任务被构建为一个二元链接预测问题,模型旨在确定两个lncRNA之间是否存在关联。真实标签来自预先构建的lncRNA关联矩阵;当矩阵值超过指定阈值时,分配相应的标签
讨论
功能富集分析是一种广泛使用的生物信息学方法,用于揭示与给定基因列表相关的潜在生物通路。随着lncRNA研究的迅速进展,出现了许多新的lncRNAs和各种与lncRNA相关的数据集。为了系统分析lncRNAs的多样化调控功能并更深入地了解它们在生物过程中的作用,我们开发了TLSEA 2.0网络服务器,这是一个更新和增强的工具。与原始版本相比
CRediT作者贡献声明
田云鹤:撰写——原始草稿和编辑、可视化、方法学、调查、数据整理、软件。李子宇:撰写——审阅和编辑、监督、资源、方法学、调查。杨家琳:可视化、调查。李建伟:撰写——审阅和编辑、可视化、监督、资金获取、概念化。
资金来源
本工作得到了中国国家自然科学基金(项目编号82470461和62072154)和河北省科技计划(河北省重点研发计划项目)(项目编号223-42001D)的支持。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
数据可用性
TLSEA 2.0网络服务器的应用程序可在以下地址获取:http://www.lirmed.com/tlsea2/。TLSEA 2.0中的lncRNA参考集合可在以下地址获取:http://www.lirmed.com/tlsea2/downloads。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号