《Food Hydrocolloids》:Advancing structure–emulsifying property relationships of corn fiber gum–soy protein isolate conjugates through machine learning
编辑推荐:
基于玉米纤维 gum 与大豆蛋白 isolate 共价结合物的结构-功能关系研究,采用酸水解、酶解、超声和蒸汽爆破制备具有多样化结构的 CFG–SPI 复合物,通过 AutoML–SHAP 框架分析分子量、单糖组成及糖苷键等参数对乳化性能(粒径、稳定性指数、zeta 电势)的影响。模型 R2 值达 0.896-0.952,揭示 1,4-吡喃木糖、1,2,3,4-吡喃木糖、α-阿拉伯糖等糖苷键及分子量是关键影响因素。
杨雅琴|刘环环|朱巧梅|郭青斌|康吉
中国天津市天津科技大学食品科学与工程学院食品营养与安全国家重点实验室,300457
摘要
多糖-蛋白质共轭乳化剂天然存在且无毒,具有优异的乳化稳定性。然而,由于多糖-蛋白质共轭物是复杂的生物大分子,传统方法在阐明多糖结构与乳化稳定性之间的内在和精确关系方面能力有限。因此,本研究引入了一种机器学习-Shapley(ML-ShAP)策略,自动预测多糖-蛋白质共轭物的乳化性能,并对预测结果提供深入的解释。通过酸水解、酶水解、超声波处理和蒸汽爆炸制备了一系列具有不同结构特征的玉米纤维胶-大豆蛋白分离物(CFG-SPI)共轭物。基于CFG的物理化学、结构信息及其相应的乳化数据集,建立了一个AutoML-ShAP框架,以阐明CFG与乳化性能之间的结构-功能关系。CFG的物理化学和结构参数(分子量、单糖组成和糖苷键)作为模型输入,而乳化性能指标(粒径、Turbiscan稳定性指数[TSI]和ζ电位)作为输出。AutoML-ShAP模型表现出较高的预测准确性,粒径、TSI和ζ电位的R2值分别为0.896、0.952和0.913。可解释性分析(SHAP)进一步揭示了1,4-Xylp、1,2,3,4-Xylp、T-Araf、1,3-Araf、1,2-Araf、Ara以及分子量是影响CFG-SPI共轭物乳化和稳定性能的主要物理化学和结构因素。这些发现为深入理解多糖-蛋白质共轭乳化剂的结构-功能关系提供了理论基础,并为研究其他多糖提供了新的视角。
引言
乳液是热力学不稳定的系统,在加工和储存过程中容易发生絮凝、聚结、重力分离和相变;添加乳化剂可以有效提高其稳定性(Nooshkam等人,2023年)。目前,虽然合成乳化剂在加工食品中得到广泛应用,但其消费与潜在的健康风险相关(F. Csáki和Sebestyén,2019年)。天然乳化剂如阿拉伯胶在来源稳定性和性能方面存在局限性。多糖-蛋白质共轭乳化剂由天然存在的无毒多糖和蛋白质结合而成,具有增强的环境适应性、乳化和稳定性能(Kan等人,2021年;Urango等人,2024年)。
天然存在的亲水胶体乳化剂受地理来源和植物品种等因素的影响;即使在同一类型内,其乳化性能也可能有很大差异。这种变异性凸显了系统研究多糖结构与其乳化性能之间内在关系的迫切需求。多糖分子具有高度异质性和结构复杂性,包含多个结构参数,包括分支度、单糖组成和分子量分布,这为系统阐明其结构-功能关系带来了重大挑战(Kang等人,2024年)。然而,关于多糖结构-功能关系的全面研究仍然有限,限制了基于多糖的乳化剂的精确开发。当前的研究主要依赖于传统的表征技术,这些技术侧重于单个结构因素,而研究整体结构相互作用如何调节乳化行为仍具有高度挑战性。
多项研究探讨了多糖的结构-功能关系。例如,不同分子量的多糖在乳化性能上存在显著差异。研究表明,分子量超过10.0 kDa的多糖能有效提高共轭系统的乳液稳定性(Chen等人,2025年;Li等人,2026年)。Chen等人(2025年)报告称,聚半乳糖醛酸的乳液稳定性随分子量降低(<28.4 kDa)而提高。多糖侧链也显著影响乳化性能。例如,Bindereif等人证明阿拉伯糖侧链在稳定甜菜果胶基乳液方面起着关键作用。因此,分子量、糖苷键类型、侧链数量和分支度是影响多糖乳化性能的关键因素(Tang & Huang,2021年)。
随着计算技术的进步,机器学习已成为生物工业中不可或缺的工具(Pandey等人,2024年)。例如,Li等人(Li等人,2016年)应用多元线性回归(MLR)、支持向量机(SVM)和人工神经网络(ANN)来建模多糖结构特征与抗氧化活性之间的关系。自动化机器学习(AutoML)通过自动执行数据预处理、特征工程、模型选择和超参数优化等任务,简化了模型开发过程,从而提高了效率和预测准确性(Chen等人,2021年)。然而,AutoML固有的“黑箱”特性对模型可解释性提出了重大挑战。可解释机器学习通过揭示变量之间的关系来解决这一问题,从而提高模型的透明度和可解释性(Gupta等人,2024年)。为此,我们整合了SHAP(Shapley Additive exPlanations)框架,该框架基于Shapley值理论量化了各个特征的贡献,实现了全局和局部的可解释性,同时提高了复杂模型预测的透明度(Chen等人,2025年)。
传统上,阐明多糖的结构-功能关系主要依赖于大量的实验工作和研究人员的积累经验。此外,关于多糖-蛋白质共价共轭乳化剂的结构-功能关系的研究仍然有限,通常仅限于将分子量或分支度与乳液稳定性联系起来的零散报告,系统性的研究很少。因此,它们的结构与乳化性能之间的关系仍然知之甚少。鉴于这些生物大分子的复杂性,深入了解多糖结构与乳化性能之间的内在联系具有挑战性。因此,机器学习提供了一种数据驱动的方法,有望克服这些限制并推进多糖结构-功能关系的研究。
玉米纤维胶(CFG)是从玉米麸皮中通过碱提取和酒精沉淀提取的阿拉伯木聚糖,其乳化性能可与阿拉伯胶相当甚至超越阿拉伯胶(Yadav等人,2007年,2012年)。大豆蛋白分离物(SPI)是一种广泛使用的植物蛋白,具有良好的界面活性和高乳化性能(Yan等人,2021年)。多糖-蛋白质共价共轭物被广泛认为是一类新型乳化剂,可以有效改善天然多糖和蛋白质的乳化活性、溶解度和稳定性(Liu等人,2025年)。为了构建结构多样化的数据集用于机器学习建模,我们采用了四种改性策略——超声波处理、蒸汽爆炸、特异性酶水解和非特异性酸水解——来系统地改变CFG的结构特征。具体来说:(1)超声波利用空化诱导的剪切力使多糖链解聚,适度降低分子量;(2)蒸汽爆炸通过高温/高压后快速减压破坏纤维结晶度,部分水解半纤维素组分;(3)木聚糖酶水解选择性切割β-1,4-糖苷键,降低分子量同时切割阿拉伯木聚糖主链;(4)TFA水解随机切割糖苷键,优先攻击阿拉伯呋喃糖侧链,显著降低分支度(Liu等人,2020年)。尽管已对多糖应用了各种改性技术,但CFG特有的结构特征——特别是糖苷键模式——对乳化性能的精确影响仍不甚清楚。因此,本研究通过一个可解释的机器学习框架系统地整合了结构特征和乳化性能,以阐明CFG结构与乳化性能之间的结构-功能关系。
因此,在本研究中,我们采用了一种结合结构增强、可解释学习和AutoML的综合工作流程,全面研究了CFG结构与CFG-SPI共轭物乳化性能之间的关系。在初步实验的基础上,使用非特异性超声处理、蒸汽爆炸、特异性酶水解和非特异性酸水解制备了具有不同结构特征的玉米纤维胶(CFG)。随后通过美拉德反应获得了具有不同结构特征的CFG-SPI共轭物,并系统评估了它们的乳化性能,以探讨CFG的结构变化如何影响共轭物的乳化性能。基于这些实验数据,构建了一个包含物理化学和结构信息的数据集——包括分子量、单糖组成和糖苷键——作为模型输入,乳化性能参数——包括粒径分布、Turbiscan稳定性指数和ζ电位——作为输出。集成的AutoML工作流程自动化了数据预处理、模型选择、超参数优化和性能评估,同时采用集成方法提高了模型的鲁棒性。模型训练后,进行了基于SHAP的可解释性分析,以量化每个结构特征对模型预测的贡献,并确定控制CFG-SPI共轭物乳化性能的关键因素。本研究为阐明多糖结构-功能关系提供了新的视角,并对其结构属性和功能属性之间的内在联系提供了更深入的见解。
材料
玉米麸皮购自中国黑龙江的中粮生化能源有限公司,大豆蛋白分离物(纯度:蛋白质≥90%)购自中国北京的Solarbio科技有限公司。所有分析级化学品均购自美国密苏里州圣路易斯的Sigma-Aldrich公司和中国天津的江天化工有限公司。
玉米纤维胶的分离、纯化和改性
玉米纤维胶(CFG)是使用Kang等人描述的碱提取方法从玉米麸皮中分离出来的,并进行了轻微修改(Kang等人,2019年
玉米纤维胶的改性:物理化学和结构表征
经过不同时间的酸水解(CA)、不同时间的酶水解(CE)、不同功率的超声波(CU)以及不同压力的蒸汽爆炸(CSE)处理后,获得了具有不同结构的玉米纤维胶(CFG),分别标记为CA15、CA30、CA……;CE5、CE15、CE……;CU0.5、CU1、CU……;CSE0.5、CSE0.8、CSE1.2。改性CFG的化学组成见表2。经过酶水解、超声波和蒸汽爆炸处理后,这些处理会……
结论
本研究结合了多糖结构表征、机器学习建模和可解释性分析,建立了多糖系统的结构-功能预测,并阐明了关键残基对乳化性能的边际贡献。我们采用了一个可解释的机器学习框架,将AutoML建模与SHAP分析相结合,研究了玉米纤维胶(CFG)的结构特征与其乳化性能之间的关系
CRediT作者贡献声明
杨雅琴:撰写——原始草稿、资源收集、实验研究。刘环环:撰写——审阅与编辑、方法学、形式分析。朱巧梅:资源收集、实验研究。郭青斌:撰写——审阅与编辑、监督、方法学。康吉:撰写——审阅与编辑、监督、资金获取、概念构思。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了国家自然科学基金(编号:32272270)的支持。