SENET-AOP:一个用于药物发现中优先选择抗氧化蛋白靶点的计算框架模型

《European Journal of Medical Genetics》:SENET-AOP: A Computational Framework Model for Prioritizing Antioxidant Protein Targets in Drug Discovery

【字体: 时间:2026年05月10日 来源:European Journal of Medical Genetics 1.7

编辑推荐:

  陈少斌 | 朱宇涵 | 刘金润 | 刘叶子 | 何思思 | 朱晓蕾 安徽农业大学信息与人工智能学院,中国安徽省合肥市230036 **摘要** 氧化应激与衰老以及多种重大疾病密切相关,包括癌症、神经退行性疾病和炎症性疾病。因此,抗氧化蛋白成为药物发现中重要的功能性生

  陈少斌 | 朱宇涵 | 刘金润 | 刘叶子 | 何思思 | 朱晓蕾
安徽农业大学信息与人工智能学院,中国安徽省合肥市230036

**摘要**
氧化应激与衰老以及多种重大疾病密切相关,包括癌症、神经退行性疾病和炎症性疾病。因此,抗氧化蛋白成为药物发现中重要的功能性生物分子和潜在的治疗靶点。准确高效地识别抗氧化蛋白对于生物医学研究和早期靶点探索具有重要意义。为了解决现有计算方法的局限性,如数据集规模有限、泛化能力不足和特征表示过于简化等问题,我们构建了一个包含1,144种抗氧化蛋白和2,959种非抗氧化蛋白的高质量基准数据集。在此基础上,我们提出了SENET-AOP,这是一种基于注意力的深度学习框架,用于抗氧化蛋白分类和靶点优先级排序。该模型整合了来自两种蛋白质语言模型ESM-2和ProtT5的互补语义表示,并采用双分支CNN–SENet架构来捕捉局部序列模式和全局物理化学性质,同时动态调整通道级别的特征重要性。实验结果表明,在五折交叉验证下,SENET-AOP的准确率为0.9360,Matthews相关系数为0.8376,AUROC为0.9721。在独立测试集上,该模型的准确率为0.9367,AUROC为0.9795,持续优于其他方法。此外,所提出的框架具有较好的可解释性。总体而言,SENET-AOP为抗氧化蛋白靶点的高通量识别和优先级排序提供了有效可靠的工具,支持与氧化应激相关的疾病研究和以药物化学为导向的药物发现工作流程。为了方便用户使用,已开发了一个免费访问的网页服务器:http://www.senetaop.com.cn/

**引言**
氧化是一个基本的化学过程,普遍存在于生物系统和非生物环境中,其特征是物质失去电子或氢原子并与氧化剂相互作用[1][2]。这一过程在细胞能量代谢和分子转化中起着关键作用;然而,它不可避免地会产生活性氧(ROS),包括超氧阴离子、羟基自由基和过氧化氢以及其他自由基种类[3][4]。在生理稳态下,低水平的ROS和自由基在细胞信号传导、免疫防御和细胞分化调节中起着重要作用。然而,由于X射线辐射、香烟烟雾、环境污染物或代谢失调等因素导致的ROS过度产生,或者ROS清除系统的损伤,会破坏细胞内氧化还原平衡,从而引发氧化应激[5][6]。在这种病理状态下,高活性自由基通过从必需的大分子(如脂质、蛋白质和核酸)中抽取电子而造成损伤,导致脂质过氧化、蛋白质氧化修饰和DNA链断裂。这些事件随后触发与细胞功能障碍相关的通路,并与衰老和多种重大疾病(如心血管疾病、神经退行性疾病、癌症、代谢综合征和自身免疫炎症性疾病)的启动和进展密切相关[7][8]。

抗氧化蛋白是核心的防御分子,它们通过直接清除活性氧、修复氧化损伤或调节抗氧化信号通路来帮助生物体抵抗氧化应激,维持细胞稳态[9]。根据其起源和功能特性,抗氧化蛋白大致可分为内源性酶类抗氧化剂(如超氧化物歧化酶SOD、过氧化氢酶CAT和谷胱甘肽过氧化物酶GSH-Px)和非酶类蛋白质(如白蛋白和金属硫蛋白[10]。虽然生物体能够合成一部分抗氧化蛋白,但在现代环境中持续的氧化压力常常会超过内源性抗氧化防御的能力。因此,在持续氧化应激的情况下,抗氧化蛋白及其相关通路作为潜在的治疗干预点受到了越来越多的关注[11]。近年来,抗氧化蛋白在修复氧化DNA损伤和调节氧化还原信号通路中的关键作用得到了越来越多的证实,突显了它们在预防和治疗心血管疾病、阿尔茨海默病和年龄相关性黄斑变性等疾病方面的巨大潜力[12]。然而,传统的实验技术(包括质谱和色谱法)在高通量识别抗氧化蛋白时仍然耗时且成本高昂[13]。随着基因组数据的快速积累,基于计算生物学的预测模型为高效筛选抗氧化蛋白、开发新型抗氧化治疗药物以及阐明衰老和疾病进展的分子机制提供了重要支持[14]。

从药物发现的角度来看,抗氧化蛋白越来越被视为参与氧化还原稳态和疾病调节的功能相关靶点。越来越多的证据表明,失调的氧化应激是多种疾病(包括神经退行性疾病、慢性炎症、癌症和与衰老相关的疾病)的常见病理驱动因素[15][16]。因此,系统地识别和优先排序抗氧化蛋白靶点是抗氧化药物发现的重要早期任务,先于实验靶点验证和药物化学优化。

随着计算生物学的进步,一系列基于序列的预测模型被提出,以支持抗氧化蛋白的计算机模拟筛选,从而为早期药物发现研究提供潜在的计算支持。迄今为止,已经开发了多种基于不同特征提取策略和分类算法的抗氧化蛋白预测计算工具。在数据库开发方面,冯等人[17]首次建立了专门的抗氧化蛋白数据库AOD,为该领域后续研究奠定了基础。随后,邓等人[18]整合了来自权威资源库(包括UniProt)的数据,开发了AODB,该数据库的数据规模大幅扩大,注释也更加全面,显著提高了数据覆盖率和时效性,为抗氧化蛋白预测模型的训练和验证阶段提供了关键支持。

在预测模型开发方面,研究人员采用了多种方法论范式。早期的代表性研究包括Blanco等人的工作[19],他们提出了一种使用随机森林(RF)分类器的抗氧化蛋白预测模型,其中蛋白质特征是通过星形图网络提取的拓扑指数得到的。冯等人[20]基于氨基酸残基和二肽频率构建了蛋白质表示,并训练了一个朴素贝叶斯分类器,在自举验证下的准确率为66.88%。在后续研究中,冯等人[21]开发了AodPred,这是一种基于SVM的抗氧化蛋白预测器,利用g-gap二肽组成,自举测试下的准确率为74.79%。张等人[22]使用位置特异性评分矩阵(PSSM)结合g-gap二肽组成对蛋白质序列进行编码,应用信息增益和增量特征选择来确定最佳特征子集,并使用RF算法进行模型训练。在另一项研究中,张等人[23]整合了二级结构信息、PSSM、相对溶剂可及性(RSA)和组成-转变-分布(CTD)特征,并采用基于多基分类器的集成学习策略,最终实现了0.94的最佳集成准确率和0.95的敏感性。徐等人[24]使用八种一级结构特征对蛋白质序列进行表征,通过最大相关性最大距离(MRMD)方法进行特征选择,随后训练了一个SVM模型用于抗氧化蛋白识别。Butt等人[25]开发了一个基于计算智能和统计矩特征的计算模型,并使用十折交叉验证评估了多层神经网络(MLNN)。孟等人[26]从PSSM和氨基酸频率矩阵构建了特征表示,采用SVM作为分类器,并使用自举验证评估模型性能。李等人[27]使用g-gap二肽组成和简化氨基酸组成(RAAC)对蛋白质序列进行编码,生成了九组最佳单个特征子集,并相应地训练了一个SVM分类器。Ao等人[28]提出了一种新颖的抗氧化蛋白预测方法。在此方法中,使用四种单独的编码策略(188D描述符、基于轮廓的自相关、N-gram和g-gap)提取特征,然后将其整合成一个混合特征集。为了获得最优且紧凑的表示,应用了包括协方差分析、基于MRMD的降维和主成分分析的三步特征选择程序。最后,使用随机森林分类器进行模型训练。Lam等人[29]同样使用了人工设计的特征,并利用RF分类器进行模型构建。Xi等人[30]提出了基于SVM的ANPrAod模型,通过整合673个简化氨基酸字母表与N肽组合策略来构建特征表示。通过方差分析(ANOVA)和增量特征选择(IFS),该模型在抗氧化蛋白识别方面表现出高效性能。Ahmad等人[31]引入了一个智能计算框架,用于准确识别抗氧化蛋白。在此框架中,使用生物轮廓PSSM(Bi-PSSM)提取进化特征,而序列特征则来自k间隔氨基酸对(KSAAP)和二肽组成(DPC)。然后通过顺序特征选择(SFS)-SVM集成策略选择最佳特征,最终使用SVM分类器进行分类。Ahmed等人[32]开发了预测器PredAoDP,其中从PSI-BLAST生成的PSSM中提取了基于氨基酸组成的PSSM(AAC-PSSM)和Bigram-PSSM特征,并使用SVM分类器进行预测。Zhai等人[33]提出了抗氧化蛋白分类模型AOPM,其中蛋白质特征来自188D描述符和k间隔氨基酸对的组成(CKSAAP),然后使用MRMD算法进一步选择特征。基于所选特征,使用RF构建了模型。孟等人[34]提出了基于SVM的模型DP-AOP,通过合成少数过采样技术(SMOTE)解决类别不平衡问题,提取了包含进化和二级结构信息的473维特征,并使用MRMD排名结合动态规划将特征维度降低到17。最近,Rukh等人[35]提出了StackedEnC-AOP,这是一个堆叠集成模型,它整合了来自伪PSSM离散小波变换(PsePSSM-DWT)、进化差异公式特征(EEDP)和复合物理化学性质(CPP)的多尺度特征。在用SMOTE减轻类别不平衡并使用最小冗余最大相关性(mRMR)标准选择最佳特征后,该模型采用了堆叠集成策略,以XGBoost、决策树(DT)、RF和SVM作为基础分类器,逻辑回归(LR)作为元分类器。

近年来,深度学习技术在抗氧化蛋白预测领域表现出显著优势。Usman等人[36]提出了基于深度潜在空间编码的AoP-LSE方法。在此方法中,首先使用k间隔氨基酸对的组成(CKSAAP)提取蛋白质序列特征,然后通过结合自编码器和全连接神经网络(FCNN)分类器的混合架构进行抗氧化蛋白分类。Tran等人[37]利用标准化的位置特异性评分矩阵(PSSM)和来自ProtBert嵌入的优化特征,并结合卷积神经网络(CNNs)和随机森林(RF)进行分类。

对前述关于抗氧化蛋白(AOP)预测的研究进行系统调查发现,尽管现有模型取得了令人鼓舞的预测性能,但仍存在一些共同的限制。首先,大多数方法依赖于冯等人[17]构建的小规模数据集,其中训练集和测试集规模有限且数据分布均匀,从而限制了模型的泛化能力。其次,大多数方法继续使用传统的机器学习分类器(如随机森林和支持向量机),因此未能充分利用深度学习在蛋白质功能预测方面的表示能力。第三,一些模型通过过采样策略强制实现类别平衡,这破坏了非抗氧化蛋白占主导地位的自然分布,从而影响了模型在现实应用中的可靠性。第四,当前方法使用的特征主要是手动制作的,可能无法捕捉复杂的序列语义和上下文信息;它们没有利用来自蛋白质语言模型的基于嵌入的特征,这些特征可以编码丰富的进化和结构模式。最后,大多数现有方法缺乏公开可用的源代码,目前还缺乏高效且用户友好的预测平台。从药物化学和药物发现的角度来看,这些限制限制了现有模型在大规模蛋白质组筛选和合理靶点优先排序中的实际用途。特别是,缺乏可扩展、可解释和基于排名的预测框架,阻碍了它们在早期工作流程中的集成,这些工作流程旨在识别具有潜在药用价值的抗氧化蛋白靶点。

为了解决上述限制,本研究从数据集和模型架构两方面进行了改进。在数据集构建方面,从四个权威的国际数据库中检索了相关条目,并对它们进行了严格的预处理程序,包括去重和去除冗余,最终得到了一个新整理的数据集,其中包含1,144种抗氧化蛋白(AOPs)和2,959种非AOPs。该数据集的特点是样本量较大,其分布更接近现实世界的生物学普遍情况。关于模型开发,我们引入了SENET-AOP,这是一个先进的深度学习框架,用于AOP的筛选和优先级排序,旨在支持早期药物发现研究。该模型通过整合来自大规模蛋白质语言模型(即ESM-2和ProtT5)的语义表示来编码蛋白质序列。与传统的手工特征和基于序列比对的描述符相比,这种策略提供了更丰富的上下文信息,同时大幅降低了计算成本。此外,SENet架构[38]促进了深度特征提取和整合,增强了模型的鲁棒性和泛化能力,并通过阐明特征贡献机制提高了模型的可解释性。这种可解释性使研究人员能够更深入地了解模型的决策过程,并为后续的生物学研究提供了宝贵的支持。实验结果表明,SENET-AOP在相同的基准测试数据集上优于大多数现有方法。

### 材料与方法
在本节中,我们描述了用于构建、训练和评估SENET-AOP的计算程序,该框架作为药物发现中早期抗氧化蛋白靶标优先级筛选的计算机模拟工具。

### 预训练PLMs及其组合的性能
为了系统地评估不同蛋白质语言模型在抗氧化蛋白识别方面的信息内容和互补性,本研究在统一的网络架构和训练协议下对ESM-2、ProtT5、ESM-1b、TAPE、ProtBERT以及各种特征组合进行了五折交叉验证。总体结果如表2所示,相应的ROC和PR曲线显示在图2中。

### 单个特征模型的视角
ESM-2

### 结论
本研究提出了一个全面的计算框架,用于精确识别和优先排序抗氧化蛋白,创新涵盖数据集构建、特征表示、模型架构和Web服务器开发等方面。大规模、自然分布的数据集有效缓解了以往研究中数据稀缺和分布偏差的局限性,为模型的泛化提供了坚实的基础。

### ESM-2和ProtT5特征的整合

### CRediT作者贡献声明
朱宇涵:撰写——原始草稿、可视化、验证、正式分析、数据整合。
陈少斌:撰写——原始草稿、可视化、验证、方法论、研究、资金获取、数据整合。
刘叶子:撰写——原始草稿、可视化、验证、数据整合。
刘金润:可视化、验证、软件、方法论。
朱晓磊:撰写——审阅与编辑、监督、资源管理、项目执行、资金获取、概念化。

### 数据可用性
本研究中使用的代码和数据集可在以下链接获取:https://github.com/xingxiao-ai/senet-aop。这些代码和数据集也可在zenodo.org上找到(DOI: 10.5281/zenodo.18230474)。

### 写作过程中使用生成式AI和AI辅助技术的声明
声明:在准备本手稿期间,作者使用了ChatGPT来润色语言。使用该工具/服务后,作者根据需要对内容进行了审查和编辑,并对出版物的内容负全责。

### 资金支持
本工作得到了安徽省自然科学科学研究项目(授权号2023AH050998)和安徽省大学生创新创业培训项目(授权号S202510364030)的支持。

### 利益冲突声明
? 作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号