《Journal of Biomedical Informatics》:CBFI: A multi-layer gene network key node identification algorithm integrating structural-biological features and dynamic regulatory weights
编辑推荐:
摘要
目的:识别多层基因调控网络(GRN)中的关键节点对于揭示潜在的生物标志物和的治疗靶点至关重要。关键节点既表现出局部结构优势(例如,桥接弱连接、疾病关联),也具有全局影响力(例如,中心性、调控影响)。为了全面量化多层GRN中的节点重要性,研究人员提出了CB
摘要
目的:识别多层基因调控网络(GRN)中的关键节点对于揭示潜在的生物标志物和的治疗靶点至关重要。关键节点既表现出局部结构优势(例如,桥接弱连接、疾病关联),也具有全局影响力(例如,中心性、调控影响)。为了全面量化多层GRN中的节点重要性,研究人员提出了CBFI(基于综合生物学特征的重要性,Comprehensive Biological Feature-based Importance)算法。
方法:该算法整合了局部网络属性——表型增强的网络约束系数(PNCC),以及全局属性——全局漫游韧性系数(GTC)。局部属性通过结合结构洞理论和弱连接指标来量化桥接能力,并引入基因表达-表型相关性作为逆加权因子;从而整合拓扑和生物信息,提高识别疾病相关节点的敏感性。全局属性使用疾病与正常样本之间的差分互信息(DMI)作为边权重,并应用改进的K-shell分解法分配节点权重。这些边和节点权重被整合到偏置随机游走模型中以优化转移概率分布。此外,还纳入了节点韧性(T),用于量化每个节点对整体网络连通性的贡献。从而,优先考虑具有强疾病关联和高结构连通性的节点。
结果:构建了一个基准数据集来评估CBFI的节点排序性能。结果显示,CBFI在肺鳞状细胞癌(LUSC)的多层GRN中取得了优异的性能(AUC = 0.9346)。验证了其在不同排序阈值下的鲁棒性。超几何分布分析表明,CBFI预测的关键节点与LUSC基准集的重叠度高于其他方法。该算法的模型适应性也在线性和非线性机器学习模型中得到了证实。在胰腺腺癌多层网络上的外部验证进一步证实了其有效性。CBFI在单层胶质瘤网络中也表现良好(AUC = 0.9345);其方向感知变体CBFI_D显著优于HCIC。
结论:CBFI为识别GRN中具有生物学相关性的关键节点提供了一个鲁棒、可推广的框架,有助于基于网络的生物标志物发现和治疗见解。
论文解读:融合多维特征的基因网络关键节点识别算法CBFI研究
本研究聚焦于生物医学信息学领域,针对多层基因调控网络(GRN)中关键节点识别的挑战,提出了一种名为CBFI(Comprehensive Biological Feature-based Importance)的创新算法。该研究由北京工业大学生命科学与化学学院的Yue Li、Junkai Kang及Xiaoyi Zhang共同完成,旨在解决现有方法在整合拓扑结构与生物学功能、捕捉动态调控机制方面的不足,相关成果发表在《Journal of Biomedical Informatics》。
研究背景与动机
在疾病机制研究中,关键节点作为潜在的诊断、预后生物标志物及治疗靶点具有重要价值。然而,当前主流研究多局限于单层GRN(如蛋白质相互作用网络,PPI),难以揭示涉及非编码RNA等多分子协同调控的多维机制。虽然多层GRN能够整合mRNA、miRNA、lncRNA及转录因子(TF)等不同层级的信息,但现有的识别方法存在显著缺陷。传统的拓扑学方法(如度中心性DC、介数中心性BC、K-shell分解)往往忽视生物学背景,导致结果缺乏生物学解释性;而基于共表达的方法(如WGCNA)虽具生物学意义,却缺乏因果推断能力。尽管近年来出现了多属性融合方法(如TOPSIS、HCIC),但它们大多仍停留在拓扑驱动层面,未能有效纳入疾病相关的动态表达差异,且普遍存在计算复杂度高、参数敏感等问题。因此,开发一种能同时兼顾局部结构洞优势与全局调控影响、并能融合表型信息的鲁棒算法成为迫切需求。
主要关键技术方法
研究人员构建了包含lncRNA、miRNA、mRNA及TF的LUSC多层调控网络,数据来源于TCGA数据库,包含242个肿瘤样本与27个正常样本的mRNA/lncRNA数据,以及227个肿瘤样本与24个正常样本的miRNA数据。技术核心包括:首先,定义表型增强网络约束系数(PNCC),将结构洞理论与基因表达-表型相关性相结合;其次,定义全局漫游韧性系数(GTC),利用疾病与正常样本间的差分互信息(DMI)构建边权重,结合改进K-shell分解与偏置随机游走模型优化节点排序;最后,通过计算节点韧性(T)量化节点对网络连通性的维持能力。
研究结果
Objective(目的)
研究旨在通过整合局部结构优势(如桥接弱连接)与全局影响力(如中心性),提出CBFI算法以全面量化多层GRN中的节点重要性,从而克服传统单一尺度分析的局限性。
Methods(方法)
研究人员设计了双层次的量化框架。局部层面,提出PNCC指标,该指标在传统网络约束系数(NCC)基础上,引入Salton和Jaccard等弱连接度量以增强对桥接节点的敏感性,并利用基因表达与表型的相关性作为加权因子,强化了拓扑结构与生物学功能的耦合。全局层面,提出GTC指标,利用疾病与正常状态间的DMI动态调整边权重,通过改进K-shell算法分配节点层级权重,并将其嵌入偏置随机游走模型以优化转移概率,同时引入节点韧性(T)评估节点失效对网络连通性的影响。
Results(结果)
在LUSC多层GRN的基准数据集评估中,CBFI展现了卓越的性能,其AUC值达到0.9346,且在不同的排序阈值下均表现出良好的鲁棒性。超几何分布检验证实,CBFI预测的关键节点与已知LUSC基准集的重叠率显著高于对比方法。此外,该算法在线性与非线性机器学习模型中的适应性也得到了验证。在胰腺腺癌多层网络中的外部验证进一步支持了其泛化能力。值得注意的是,CBFI在单层胶质瘤网络中同样表现优异(AUC = 0.9345),且其方向感知版本CBFI_D在性能上显著超越了现有的HCIC方法。
Conclusion(结论)
研究人员得出结论,CBFI通过融合结构-生物学特征与动态调控权重,成功构建了一个鲁棒且通用的关键节点识别框架。该算法不仅在多层GRN中表现出色,在单层网络中也具有竞争力,为基于网络的生物标志物发现及疾病治疗靶点的筛选提供了有力的计算工具。
CRediT authorship contribution statement(作者贡献)
Yue Li负责初稿撰写、可视化、验证、软件、方法论、调研、形式分析及数据整理;Junkai Kang负责文稿审阅与编辑、监督及数据整理;Xiaoyi Zhang负责文稿审阅与编辑、监督、项目管理、方法论及概念化。
Funding(资助)
本研究未接受外部资助。
Declaration of competing interest(利益冲突声明)
作者声明不存在可能影响本研究的已知竞争性财务利益或个人关系。