氧化应激是人类代谢中不可避免的现象,主要由活性氧(ROS)如超氧阴离子、羟基自由基和过氧化氢引起(Sies & Jones, 2020)。在正常生理条件下,ROS在细胞信号传导和免疫功能中起着关键作用(Ray et al., 2012)。然而,ROS的过度产生或清除不足会导致氧化损伤,包括脂质过氧化、蛋白质变性和DNA突变,这些都与心血管疾病、癌症、神经退行性疾病和衰老等多种疾病有关(Birben et al., 2012; Reuter et al., 2010; Singh et al., 2019)。天然抗氧化剂通过中和ROS、修复氧化损伤或调节相关信号通路来维持身体的氧化平衡(Fu et al., 2019)。这些抗氧化剂具有高安全性、良好的生物利用度和多靶点效应等优点,对于预防和治疗相关疾病具有重要意义。
胶原蛋白是哺乳动物结缔组织中最丰富的蛋白质,约占人体总蛋白质含量的30%,主要存在于皮肤、骨骼和软骨中(Tang et al., 2022)。其结构特征是三螺旋重复序列(Gly-X-Y),其中X和Y通常是脯氨酸和羟脯氨酸,赋予了其优异的生物相容性和功能多样性(Gelse et al., 2003)。通过胶原蛋白酶解获得的胶原蛋白衍生物肽是短肽链,已被证明具有多种生理功能,抗氧化活性是它们的关键特性之一(Song et al., 2021; Tang et al., 2022)。酶解法,特别是使用胶原酶,是生产胶原蛋白肽的首选方法,因为其反应条件温和、特异性高且环保(Deng et al., 2023)。然而,胶原蛋白水解物通常是包含数百或数千种不同肽序列的复杂混合物。从这些复杂混合物中高效准确地鉴定和筛选抗氧化肽仍然是该领域的一个重大挑战。传统方法如分离、纯化和生物活性测定耗时、劳动密集,不适合高通量筛选(Hong et al., 2019),这突显了高效预测和鉴定技术的迫切需求。
蛋白质大型语言模型(pLLMs),如ESM-2(Evolutionary Scale Modeling-2),已成为蛋白质序列分析的强大工具(Lin et al., 2023)。这些模型在数百万蛋白质序列上训练,生成能够捕捉氨基酸之间复杂上下文和功能关系的高维嵌入(Lee et al., 2025)。当与机器学习算法(例如随机森林、支持向量机和神经网络)结合时,pLLMs能够开发出用于高效筛选生物活性肽的预测模型(Ahmed et al., 2025; Shoombuatong et al., 2025)。在抗氧化肽预测领域,这些方法已被初步应用于从蛋白质水解物中鉴定潜在的生物活性肽,显著提高了筛选效率和准确性(R. Zhang et al., 2025)。然而,现有研究通常仅限于单一数据库或简单的特征编码,对胶原蛋白衍生肽的应用较少,模型泛化能力有限。
本研究整合了多源数据库、蛋白质大型语言模型和机器学习,建立了从胶原蛋白水解物中筛选抗氧化肽的有效框架(图1)。通过胶原酶水解获得生物活性水解物,并通过液相色谱-串联质谱(LC-MS/MS)鉴定肽序列。然后从文献和五个公共数据库中编译出实验验证的抗氧化肽,构建了一个大规模数据集。使用pLLMs生成的嵌入,训练并优化了九种机器学习算法以预测抗氧化活性。最终,鉴定并实验验证了九种具有抗氧化潜力的肽,证明了该预测框架的可靠性,并为AI辅助的新抗氧化肽挖掘提供了实用策略。