通过检索增强生成技术、蛋白质语言模型和深度学习来提升蛋白质中金属结合残基的分类精度
《Engineering Applications of Artificial Intelligence》:Enhancing the classification of metal-binding residue in proteins with retrieval-augmented generation, protein language models, and deep learning
【字体:
大
中
小
】
时间:2026年02月28日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
金属离子对蛋白质功能至关重要,但结合位点预测面临类不平衡难题。本研究提出RAG-PLMs-MetalBind框架,通过检索预计算金属结合蛋白结构信息(1948条),结合滑动窗口(15 residues)提取的ProtTrans特征,并利用位置注意力变换网络(PATN)进行分类。在579条非冗余金属结合蛋白数据集上,模型AUC达0.8810,召回率0.7729,且在15条新蛋白测试中表现优异。相较于bindEmbed21,相对召回率提升超200%,为药物开发提供高灵敏度筛选工具。
Muhammad Shahid Malik|Van The Le|Yu-Yen Ou
巴基斯坦吉尔吉特-巴尔蒂斯坦地区卡拉科拉姆国际大学计算机科学系,邮编15100
摘要
金属离子对蛋白质结构、分子识别和酶催化至关重要,因此准确识别金属结合残基对于药物发现、酶工程和金属蛋白研究至关重要。尽管计算方法具有可扩展性和成本效益,但由于类别极度不平衡(结合残基的数量远少于非结合残基),残基级别的金属结合预测仍然具有挑战性,这导致标准深度学习模型倾向于偏好多数类别。
我们提出了一种新的框架,该框架整合了检索增强生成(RAG)、蛋白质语言模型(PLMs)和位置注意力变换器网络(PATN)。从Littmann等人的高同源性容忍度(CD-HIT)聚类数据库(序列同源性<20%)中筛选出的14,894种蛋白质中,得到了579种非冗余的金属结合蛋白质,结合与非结合残基的比例约为1:32。为了克服基于序列的模型的局限性,引入了RAG作为一种动态过采样策略,该策略明确地结合了结构上下文。对于每个查询,模型从包含1948种非冗余金属结合蛋白质(锌、锰、镁和钙;序列同源性<30%)的 curated 数据库中检索并平均前五个最相似的15个残基的ProtTrans嵌入,从而丰富了局部表示,使其包含与结合相关的上下文信号。随后,融合后的嵌入通过PATN进行处理以进行分类。
所提出的模型在独立测试集上的接收者操作特征曲线下面积(AUC)为0.8810,召回率为0.7729,并且在15种新报告的蛋白质上进一步展示了强大的泛化能力(AUC = 0.9586,召回率 = 0.896)。尽管精度有所下降,但该方法的表现优于bindEmbed21,相对召回率提高了200%以上,从而建立了一种有效的金属结合位点发现的高灵敏度筛选工具。
引言
金属离子对许多生物过程至关重要,它们既作为酶的辅因子,也是结构组成部分。几乎三分之一的蛋白质能够结合金属(Bruins等人,2000年;Andreini等人,2009年;Galera-Laporta等人,2021年),参与诸如脱氧核糖核酸(DNA)复制、转录、修复、催化和信号转导等关键功能(Ferré-D'Amaré等人,2011年)。金属结合位点的失调与阿尔茨海默病、帕金森病和癌症等疾病有关(Alissa等人,2011年;Barnham等人,2008年)。例如,铜的稳态失调与威尔逊病相关,而铁的失调则会导致恶性肿瘤和炎症性疾病(Bandmann等人,2015年;Madsen等人,2007年)。像p53和超氧化物歧化酶1(SOD1)这样的蛋白质直接与癌症进展和肌萎缩侧索硬化症(ALS)有关(Chia等人,2018年)。鉴于其生物学重要性,金属结合位点已成为药物发现的焦点,例如铂基治疗和金属蛋白抑制剂在癌症治疗中的应用(Anthony等人,2020年)。计算方法可用于识别潜在的结合位点并开发调节金属-蛋白质相互作用的基于金属的治疗药物(Schauperl等人,2022年)。
准确识别金属结合位点在结构生物学中是一个重大挑战,因为传统的X射线晶体学和核磁共振(NMR)光谱等方法成本高昂、耗时且并不总是可靠(Fevzioglu等人,2020年)。计算方法可以通过整合序列保守性、生化特征和机器学习算法来克服这些限制,从而提高结合位点的预测能力。事实上,深度学习和自然语言处理(NLP)的进步使得基于序列的分析更加强大,有助于实现这一目标。
在最近的尝试中,多项研究使用计算方法探索了蛋白质-金属相互作用(Li等人,2024年;Koohi-Moghadam等人,2019年;Shenoy等人,2024年;Littmann等人,2021年)。例如,Littmann等人(2021年)表明,蛋白质语言模型(PLM)嵌入在预测配体结合位点方面优于多重序列比对,而Shenoy等人(2024年)在金属结合蛋白质预测中获得了0.83的AUC和0.85的召回率,但未能显著提高残基级别的识别能力。PMSFF框架(Li等人,2024年)通过结合多尺度特征提高了各种金属结合残基(PBRs)的准确性,但它适用于多种结合类别,如核苷酸或小配体,而不是专注于金属结合残基。这些发现突显了需要一种更专门的方法来捕捉复杂的残基相互作用并利用外部知识来改进预测。我们提出了两种主要方案来解决这些问题。
首先,在生物研究中,变换器网络设计(Vaswani等人,2017年)已经显示出良好的性能,使模型能够处理生理相关的表示并管理大量的未标记序列数据。受到之前预训练模型(如双向编码器表示来自变换器(BERT)(Devlin等人,2018年)的启发,一些后续模型如ProtTrans、ESM2、TAPE和ProstT5(Elnaggar等人,2021年;Lin等人,2022年;Rao等人,2019年;Heinzinger等人,2023年)使用庞大的序列数据库来捕捉蛋白质序列的语法和语义。然而,很少有研究探索它们在金属结合位点预测中的应用,因此还有进一步研究的空间。本研究使用滑动窗口方法形成了基于氨基酸的分类的稳健特征表示,将每个氨基酸与其相邻残基分组。
对于第二个问题,传统的深度学习模型在金属结合位点预测中存在类别不平衡的问题,因为结合残基的数量远少于非结合残基。检索增强生成(RAG)是一种先进的深度学习策略,通过检索外部知识来提高预测准确性,丰富上下文理解并增强泛化能力。这种技术已成功应用于NLP任务中以改进表示,其在生物序列分析中的最新应用表明了对蛋白质相互作用研究的有潜在益处。RAG框架通过在整个数据集中均匀应用来解决金属结合位点预测中的类别不平衡问题,通过使用预计算数据库中的结构相关嵌入来丰富数据,而不改变样本分布。通过改进基于序列的特征提取,RAG可能提高了蛋白质序列嵌入的可预测性。具体来说,我们不仅将RAG用于特征增强,还将其作为动态过采样机制来缓解类别不平衡。通过从已知的结合剂平衡数据库中检索“支持性”嵌入,我们在推理过程中丰富了少数类(结合残基)的特征空间。这使模型能够捕捉到纯序列模型中经常缺失的潜在结构线索。
在这项研究中,我们引入了RAG-PLMs-MetalBind,这是一种新的计算框架,它结合了RAG、蛋白质语言模型(PLMs)和基于变换器的网络来增强蛋白质中金属结合残基的分类。我们的框架将基于序列的表示与检索到的结构上下文相结合,通过使用预计算知识库中的相似嵌入来丰富整个样本,从而解决类别不平衡问题。我们进一步通过滑动窗口策略(15个残基)来细化残基级别的预测,该策略捕捉局部序列相互作用,而RAG组件通过外部知识检索增强了上下文理解。需要注意的是,这种架构被设计为一个高灵敏度的发现工具。虽然这种方法优先考虑召回率以最小化假阴性,这对于确保不会错过潜在的药物靶点至关重要,但它可能导致精度降低,因此需要后续过滤。
部分内容
材料与方法
工作流程从包含结合和非结合残基的金属结合蛋白质开始。使用四种不同的预训练PLM的权重生成序列嵌入,然后使用滑动窗口方法在残基级别对这些嵌入进行转换。RAG技术通过检索相关的上下文信息进一步丰富这些嵌入。最后,基于变换器的网络将残基分类为金属结合或非结合。图1说明了这一过程
结果与讨论
所提出的RAG-PLMs-MetalBind架构使用了多尺度预训练的蛋白质语言模型嵌入以及RAG策略和curated的Metal Binding Sites Dataset(bindEmbed21)进行评估。为了识别疾病过程和治疗靶点,我们使用了这些蛋白质中的关键金属结合残基。
本研究扩展了之前关于金属结合位点预测的研究,这些研究在对象分类方面不够敏感或准确。使用复杂的预训练蛋白质
结论
本文介绍了RAG-PLMs-MetalBind,这是一种用于发现金属结合残基的架构,在灵敏度和平衡性能指标方面优于基线技术。通过将检索增强生成(RAG)整合到多尺度残基特征系统中,我们改进了正样本的表示,同时保持了出色的整体性能。该模型从外部数据库获取并混合了上下文信息,以捕捉局部和全局信息
CRediT作者贡献声明
Muhammad Shahid Malik:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,软件,方法论,调查,形式分析,数据策划,概念化。Van The Le:可视化,验证,软件,概念化。Yu-Yen Ou:验证,监督,资源,调查,资金获取,形式分析,概念化。
利益冲突声明
我,Muhammad Shahid Malik,特此声明我没有可能与本工作主题产生影响的任何组织的财务利益或关系。我还确认我没有可能影响我的研究公正性和客观性的任何专业或个人隶属关系。
我没有收到与本研究中呈现的研究相关的任何资金、资助或酬金。此外,我没有个人关系或
致谢
这项工作部分得到了台湾国家科学技术委员会的支持,资助编号为NSTC 112-2221-E-155-020-MY3。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号