一种由人工智能驱动的多层策略和精心挑选的数据集,用于从牦牛骨胶原蛋白水解物中提取抗氧化肽

《Food Research International》:An AI-driven multilayer strategy and curated dataset for mining antioxidant peptides from yak bone collagen hydrolysates

【字体: 时间:2026年02月13日 来源:Food Research International 8

编辑推荐:

  本研究构建了整合蛋白语言模型(ESM-2)、机器学习、分子对接及体外验证的多层级框架,用于快速筛选胶原蛋白酶解物中的抗氧化肽。通过整合2020-2025年实验验证的抗氧化肽数据库及公共数据库,训练九种机器学习算法,最终从酶解物中筛选出九个具有抗氧化活性的肽段,验证了该框架在提高功能性肽筛选效率和准确性的有效性,为AI辅助抗氧化肽开发提供了通用方法。

  
王亚莉|杨家庆|方白山|王康旭|傅有司
中国厦门大学化学与化学工程学院化学与生化工程系,厦门361005

摘要

胶原蛋白衍生的生物活性肽具有多种生物活性,但从复杂的水解物中快速鉴定它们仍然是一个主要挑战。本研究建立了一个多层次框架,结合了蛋白质语言模型嵌入(ESM-2)、机器学习、分子对接和体外验证方法,用于从胶原蛋白酶解物中鉴定抗氧化肽。2020年至2025年5月期间,通过实验验证的抗氧化肽被整理(命名为AoXpDb)并整合到公共数据库中,以构建用于模型训练的大规模、平衡的数据集。在各种嵌入方法中,ESM-2(2560维)在预测准确性和计算效率之间提供了最佳平衡。机器学习筛选从水解物中预测出了70种候选肽,随后的分子对接和体外测定确认其中9种具有抗氧化活性。这些发现表明,将蛋白质语言模型与计算和实验筛选相结合,能够准确高效地鉴定功能性肽,为AI辅助的抗氧化肽挖掘提供了一个通用框架。

引言

氧化应激是人类代谢中不可避免的现象,主要由活性氧(ROS)如超氧阴离子、羟基自由基和过氧化氢引起(Sies & Jones, 2020)。在正常生理条件下,ROS在细胞信号传导和免疫功能中起着关键作用(Ray et al., 2012)。然而,ROS的过度产生或清除不足会导致氧化损伤,包括脂质过氧化、蛋白质变性和DNA突变,这些都与心血管疾病、癌症、神经退行性疾病和衰老等多种疾病有关(Birben et al., 2012; Reuter et al., 2010; Singh et al., 2019)。天然抗氧化剂通过中和ROS、修复氧化损伤或调节相关信号通路来维持身体的氧化平衡(Fu et al., 2019)。这些抗氧化剂具有高安全性、良好的生物利用度和多靶点效应等优点,对于预防和治疗相关疾病具有重要意义。
胶原蛋白是哺乳动物结缔组织中最丰富的蛋白质,约占人体总蛋白质含量的30%,主要存在于皮肤、骨骼和软骨中(Tang et al., 2022)。其结构特征是三螺旋重复序列(Gly-X-Y),其中X和Y通常是脯氨酸和羟脯氨酸,赋予了其优异的生物相容性和功能多样性(Gelse et al., 2003)。通过胶原蛋白酶解获得的胶原蛋白衍生物肽是短肽链,已被证明具有多种生理功能,抗氧化活性是它们的关键特性之一(Song et al., 2021; Tang et al., 2022)。酶解法,特别是使用胶原酶,是生产胶原蛋白肽的首选方法,因为其反应条件温和、特异性高且环保(Deng et al., 2023)。然而,胶原蛋白水解物通常是包含数百或数千种不同肽序列的复杂混合物。从这些复杂混合物中高效准确地鉴定和筛选抗氧化肽仍然是该领域的一个重大挑战。传统方法如分离、纯化和生物活性测定耗时、劳动密集,不适合高通量筛选(Hong et al., 2019),这突显了高效预测和鉴定技术的迫切需求。
蛋白质大型语言模型(pLLMs),如ESM-2(Evolutionary Scale Modeling-2),已成为蛋白质序列分析的强大工具(Lin et al., 2023)。这些模型在数百万蛋白质序列上训练,生成能够捕捉氨基酸之间复杂上下文和功能关系的高维嵌入(Lee et al., 2025)。当与机器学习算法(例如随机森林、支持向量机和神经网络)结合时,pLLMs能够开发出用于高效筛选生物活性肽的预测模型(Ahmed et al., 2025; Shoombuatong et al., 2025)。在抗氧化肽预测领域,这些方法已被初步应用于从蛋白质水解物中鉴定潜在的生物活性肽,显著提高了筛选效率和准确性(R. Zhang et al., 2025)。然而,现有研究通常仅限于单一数据库或简单的特征编码,对胶原蛋白衍生肽的应用较少,模型泛化能力有限。
本研究整合了多源数据库、蛋白质大型语言模型和机器学习,建立了从胶原蛋白水解物中筛选抗氧化肽的有效框架(图1)。通过胶原酶水解获得生物活性水解物,并通过液相色谱-串联质谱(LC-MS/MS)鉴定肽序列。然后从文献和五个公共数据库中编译出实验验证的抗氧化肽,构建了一个大规模数据集。使用pLLMs生成的嵌入,训练并优化了九种机器学习算法以预测抗氧化活性。最终,鉴定并实验验证了九种具有抗氧化潜力的肽,证明了该预测框架的可靠性,并为AI辅助的新抗氧化肽挖掘提供了实用策略。

材料

牦牛骨胶原蛋白购自中国安徽的GuoTai有限公司。1,1-二苯基-2-联苯肼(DPPH)购自美国密苏里州圣路易斯的Sigma Aldrich公司,其他试剂购自中国上海的Sinopharm Chemical Reagent Chemical有限公司。

胶原蛋白酶解和肽序列鉴定

使用我们之前研究中开发和表征的重组胶原酶LYCol-2对牦牛骨胶原蛋白进行酶解(Song et al., 2021)。简要来说,胶原溶液(4–6%,w/v)和LYCol-2(110.0 μg/mL)被

胶原蛋白酶解和肽序列鉴定

根据我们之前的响应面方法学(RSM)研究确定的优化实验条件(Song et al., 2021),成功地使用胶原酶制备了具有抗氧化活性的胶原蛋白水解物。为了进一步纯化和表征这些活性成分,随后通过快速蛋白质液相色谱(FPLC)对水解物进行了分离。FPLC分析显示成功获得了三种主要肽组分,其分子量分别为

讨论

在本研究中,通过pLLM嵌入、机器学习建模、分子对接和体外抗氧化测定,从胶原蛋白水解物中成功筛选并验证了九种具有抗氧化活性的肽。这种多层次筛选策略显著提高了功能性肽发现的效率,凸显了人工智能在基于肽的抗氧化研究中的潜力。
传统上,抗氧化肽研究依赖于

结论

总之,本研究系统地整合了pLLM嵌入、机器学习、分子对接和体外验证方法用于抗氧化肽的挖掘。通过将这一多层次框架应用于胶原蛋白水解物,成功鉴定了九种具有确认的抗氧化活性的肽,证明了计算预测和实验验证之间的强大协同作用。除了鉴定这些肽之外,这项工作还提供了一种方法论上的进步

CRediT作者贡献声明

王亚莉:撰写 – 审稿与编辑,撰写 – 原稿,方法学,研究,概念化。杨家庆:撰写 – 审稿与编辑。方白山:撰写 – 审稿与编辑,资金获取。王康旭:撰写 – 审稿与编辑,监督,资金获取。傅有司:撰写 – 审稿与编辑,撰写 – 原稿,监督,方法学,研究,概念化。

资助

本研究得到了中国国家自然科学基金(22278343)、中国国家重点研发计划(2021YFD2100603)和CAST青年精英科学家资助计划(YESS20230347)的资助。

未引用参考文献

Wang, Wang, Fang and Fu, 2025

利益冲突声明

作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号