一种基于机器学习的植物蛋白质功能预测模型:利用可测量的结构特征评估原料质量

《Proteins: Structure, Function, and Bioinformatics》:A Machine Learning Approach to Predict Functional Performance From Measurable Protein Structural Characteristics: A Screening Tool for Protein Ingredient Quality

【字体: 时间:2026年03月13日 来源:Proteins: Structure, Function, and Bioinformatics 2.8

编辑推荐:

  本期推荐一篇探讨植物蛋白质功能预测新方法的综述。文章核心展示了如何运用多种机器学习(ML)算法,通过少数宏观结构特征(如表面疏水性、ζ电位、未变性蛋白含量、持水性、可溶性蛋白聚合物含量和β-折叠含量)来准确预测植物蛋白的溶解度、乳化活性指数、乳化能力和凝胶强度。研究结果表明,基于高斯核的支持向量回归(SVR)模型在各项功能属性预测上均表现出优异性能(R2最高达0.89),为复杂食品蛋白质体系提供了一种更实用、数据驱动的结构-功能关系解析方案,有望成为筛选适用于不同食品应用的蛋白质原料的宝贵工具。

一种利用机器学习从可测量蛋白质结构特征预测功能性能的方法:蛋白质原料质量的筛选工具
随着对植物蛋白需求和依赖的增长,其市场正经历飞速扩张。食品工业正见证着专门蛋白质基功能成分的兴起,这些成分在各种食品应用中用作胶凝、增稠和/或乳化剂。然而,蛋白质来源(包括物种和品种)以及多变的加工条件都会影响蛋白质的结构特性,进而决定其功能属性。蛋白质复杂的结构-功能关系可以使用机器学习(ML)算法进行建模。
1. 引言
全球植物蛋白市场预计将从2022年到2027年以7.3%的复合年增长率增长,预计到2029年价值将达到205亿美元。这种快速增长受到环境、动物福利问题以及对健康饮食的青睐所推动。大豆和豌豆是最常见的植物蛋白来源,其中大豆蛋白是市场上最通用和最主要的植物蛋白。新兴的蛋白质来源包括鹰嘴豆、亚麻荠、遏蓝菜和大麻。植物蛋白成分,如分离蛋白、浓缩蛋白和水解蛋白,越来越多地被用作不同食品配方中的“清洁标签”功能成分。溶解度、胶凝、水结合/持有和乳化等功能特性使植物蛋白能够用于各种产品,包括饮料、烘焙食品、肉类类似物和乳制品替代品。
上述功能特性取决于各种内在(例如基因型、蛋白质结构、组成、物理化学特性)和外在(例如pH、离子强度、温度)因素、加工(例如溶剂使用、均质化、挤压)以及蛋白质与其他成分的相互作用。植物蛋白的结构特征(例如分子量、氨基酸组成、表面特性、构型)的差异导致功能行为的差异。为了理解品种差异、加工和配方对蛋白质功能行为的影响,需要进行大量的表征分析。这些分析是费力的、耗时的、昂贵的、需要专门设备,并且通常没有标准化。虽然结构特征对蛋白质功能行为的影响已被广泛研究,但缺乏直接可靠的预测模型。开发数据驱动的统计模型来关联植物蛋白结构的复杂性与其功能特性,将有助于推进功能植物蛋白成分的发展。
统计模型可用于基于选定输入变量的值来预测输出变量(如蛋白质溶解度)。已经提出了使用回归、响应面方法和偏最小二乘法的不同统计模型。例如,Nakai等人基于线性回归开发了经验方程,利用表面疏水性、溶解度和净表面电荷来预测乳蛋白的乳化活性指数、乳液稳定性和油结合能力。然而,简单的线性回归模型通常过度简化了结构-功能关系的复杂非线性性质。本研究旨在使用少数宏观结构特征,通过各种线性和非线性模型预测不同的功能特性,为复杂的食品蛋白质体系提供更实用、数据驱动的替代方案。
植物蛋白结构-功能的非线性关系可以通过不同的机器学习算法来解释。本研究的主要目标是使用多种ML模型(从线性和正则化模型到基于树的集成和基于核的方法)以及在同一实验条件下产生的大型分析数据集,开发用于植物蛋白溶解度、乳化特性和凝胶强度的预测模型。这种新颖的方法是本工作的亮点。
2. 材料与方法
2.1 数据集准备和预处理
本研究使用的数据集通过合并明尼苏达大学植物蛋白创新中心对不同植物蛋白物种(包括大豆、豌豆、鹰嘴豆、大米、大麻、亚麻荠和遏蓝菜)进行的研究工作的分析数据编制而成。目的是纳入不同的植物蛋白,以构建稳健准确的预测模型,该模型能够解释数据集因来源而产生的变异(与产品类型、提取条件或预处理无关),并能预测未见过的、新数据的功能。
用于模型开发的五个结构特征包括:表面疏水性(H0)、ζ电位(ζ)、未变性蛋白百分比(D)、可溶性蛋白聚合物(SPP)和β-折叠百分比(β)。测量的功能特性包括:pH 7.0下的蛋白质溶解度(S)、乳化活性指数(EAI)、乳化能力(EC)、持水能力(WHC)和凝胶强度(G)。所有分析程序均在相同的实验条件下进行。
2.2 数据可视化和主成分分析
在ML模型实施之前,进行了初步探索性数据可视化,以研究功能参数与不同结构特征之间的关联。使用R软件生成数据散点图。此外,对数据集进行主成分分析,以探索数据的结构和模式。PCA确定了能解释数据集>60%方差的主成分。前三个主成分(PC1、PC2、PC3)解释了总方差的约72%,其中PC1和PC2分别解释了35.44%和23.24%的变异性。
2.3 机器学习算法实现
本研究旨在探索和数值预测因变量(功能特性)作为自变量(结构特征)函数的值。采用一系列机器学习模型来捕获不同植物蛋白物种结构特征和功能特性之间的定量关系,确保广泛的适用性和泛化性。
总共评估了十三种不同的ML模型,涵盖线性和非线性算法,包括:线性回归、泊松回归、多项式回归、样条回归、对数线性回归、LASSO回归、决策树、随机森林、梯度提升机、支持向量机回归、高斯支持向量回归、K最近邻和神经网络。每种模型都通过网格搜索和5折交叉验证进行了超参数调优。数据集被随机分为训练集(70%)和测试集(30%)。模型性能基于统计指标(如决定系数R2、均方根误差RMSE、平均绝对误差MAE)以及不违反物理约束(例如,预测的溶解度在0%到100%之间,乳化指数和乳化能力预测值>0)来评估。
3. 结果与讨论
3.1 数据可视化和主成分分析
数据可视化散点图显示了功能特性与结构特征之间的关联。例如,蛋白质溶解度与表面疏水性呈中度强负相关,表明高表面疏水性导致蛋白质因疏水相互作用而聚集,从而降低溶解度。溶解度与未变性蛋白百分比呈中度强正相关,表明高水平的天然未变性蛋白有助于高溶解度。乳化活性指数与表面疏水性和溶解度分别呈强负相关和正相关。凝胶强度与表面疏水性、ζ电位和β-折叠含量呈弱负相关,但与持水能力呈中度正相关。
PCA结果证实了蛋白质溶解度与表面疏水性之间存在负相关。大豆蛋白样本的得分靠近溶解度加载轴,证实了其高溶解度,而大麻蛋白样本的得分靠近表面疏水性加载轴,证实了其高疏水性和低溶解度,因此功能性差。鹰嘴豆和亚麻荠蛋白的得分表明其具有良好的乳化特性。PCA允许基于结构特征和功能特性分离蛋白质来源,为后续的ML建模奠定了基础。
3.2 植物蛋白功能性的预测建模
3.2.1 蛋白质溶解度预测
评估的13种ML算法对不同植物蛋白来源的溶解度预测性能存在显著差异。基于高斯核的支持向量回归模型对整个数据集显示出最佳拟合,其R2= 0.8906,MAE = 7.4711,RMSE = 9.584。泊松模型的预测能力最差。神经网络、支持向量机等模型预测效果不佳。
基于对物理约束的遵守,溶解度模型预测值应在0%到100%之间。线性回归及其正则化模型(LASSO)会高估高溶解度样本,预测值超过100%。多项式和样条回归模型过度拟合数据,预测出不合理的极小值(<0%)和极大值(>100%)。决策树、随机森林、梯度提升机、K最近邻和高斯支持向量回归模型在合理误差范围内表现出较低的预测误差,且预测值在可行的最小值和最大值之间。其中,高斯支持向量回归模型显示出最高的预测能力,反映了强大的模型性能。
偏依赖图分析显示,无论模型类型如何,表面疏水性是溶解度的主导预测因子,其次是未变性蛋白百分比。表面疏水性与溶解度呈负相关,而未变性蛋白百分比与溶解度呈正相关。ζ电位对溶解度也有负面影响,当其值接近0 mV时,蛋白质分子倾向于聚集,从而对整体功能产生负面影响。研究结果表明,表面疏水性、ζ电位和未变性蛋白百分比是不同类型植物蛋白溶解度的强预测因子。因此,在ML算法中共同使用这些预测因子,可以有效预测大豆、豌豆、鹰嘴豆、亚麻荠、大米和大麻蛋白质成分的溶解度。
3.2.2 乳化特性预测
蛋白质的乳化特性通过乳化活性指数和乳化能力进行研究。训练模型在预测EAI和EC方面表现出不同的性能。高斯支持向量回归模型对EAI和EC都显示出最佳拟合,其R2分别为0.7383和0.7978。泊松模型预测EAI和EC的能力最差。K最近邻、神经网络和支持向量机回归模型对EAI和EC的预测也较差。
对于乳化活性指数,多项式和样条回归模型过度拟合数据,预测出<0的值,这在物理上是不可能的。随机森林、决策树、梯度提升机和高斯支持向量回归模型预测误差较低。对于乳化能力,随机森林、梯度提升机和高斯支持向量回归模型预测误差较低。高斯支持向量回归模型再次显示出最佳性能。
3.2.3 凝胶强度预测
植物蛋白的凝胶强度通过多种结构特征进行预测。训练模型在预测凝胶强度方面表现出不同的性能。高斯支持向量回归模型再次显示出最佳拟合,其R2= 0.8822。泊松模型的预测能力最差。线性回归、对数线性回归、LASSO回归、K最近邻、支持向量机回归和神经网络模型对凝胶强度的预测效果不佳。
基于对物理约束的遵守,凝胶强度预测值应为>0 N。多项式和样条回归模型过度拟合数据,预测出<0的凝胶强度值。随机森林、决策树、梯度提升机和高斯支持向量回归模型预测误差较低。高斯支持向量回归模型显示出最高的预测能力和对物理约束的良好遵守。
4. 结论
本研究成功开发并比较了多种机器学习模型,用于基于少数关键结构特征预测植物蛋白的功能特性,包括溶解度、乳化活性指数、乳化能力和凝胶强度。在评估的13种模型中,基于高斯核的支持向量回归模型在预测所有四项功能属性方面均表现出卓越的性能,其R2值高,预测误差(MAE, RMSE)低,并且严格遵守物理约束(如预测溶解度在0-100%范围内)。
结果表明,表面疏水性、ζ电位和未变性蛋白含量是预测溶解度和乳化活性的关键结构特征。对于乳化能力,除了上述特征,溶解度也是一个重要预测因子。凝胶强度的预测则需要溶解度、未变性蛋白含量、持水能力、可溶性蛋白聚合物含量和β-折叠含量的共同参与。
这项研究强调了机器学习算法在解析复杂植物蛋白结构-功能关系方面的巨大潜力。所开发的预测模型可以作为筛选适用于各种食品应用的蛋白质原料的宝贵工具。这种方法提供了一种更高效、数据驱动的途径,可以显著减少传统繁琐、耗时且昂贵的功能表征实验的需求,从而加速新型植物蛋白成分的开发和优化过程。研究的完整代码已在GitHub上开源,促进了该领域的进一步研究和应用。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号