LeGenD:利用可解释人工智能与凝集素谱分析进行高通量N-聚糖图谱表征

《Journal of Biological Chemistry》:LeGenD: high-throughput N-glycan profiling using explainable AI and lectin profiling

【字体: 时间:2026年06月06日 来源:Journal of Biological Chemistry 3.9

编辑推荐:

  糖基化影响生物体中的多种关键功能。因此,对其进行测量对于从基础科学到生物技术的诸多领域都至关重要,包括生物药开发和临床诊断。然而,传统聚糖分析方法在通量和成本方面常面临挑战。凝集素为聚糖分析提供了一种替代性策略,但其通常只能提供聚糖表位信息,而无法给出完整的聚

  
糖基化影响生物体中的多种关键功能。因此,对其进行测量对于从基础科学到生物技术的诸多领域都至关重要,包括生物药开发和临床诊断。然而,传统聚糖分析方法在通量和成本方面常面临挑战。凝集素为聚糖分析提供了一种替代性策略,但其通常只能提供聚糖表位信息,而无法给出完整的聚糖结构信息。为克服这些局限,研究人员开发了LeGenD,这是一种基于凝集素与人工智能(AI)的方法,可依据凝集素结合模式预测纯化蛋白上的优势N-聚糖结构并确定其相对丰度。研究人员利用来自10种重组蛋白、由30种糖工程中国仓鼠卵巢(CHO)细胞系产生的309份糖谱(glycoprofiles)对LeGenD模型进行了训练。独立测试数据显示,可有效确定特定蛋白中的优势糖基化模式。进一步结合SHapley Additive exPlanations(SHAP)分析,有助于识别对糖谱预测至关重要的凝集素。因此,LeGenD方法为蛋白质糖基化分析提供了一个替代性平台,并可补充现有用于研究糖基化的工具体系。
该研究发表于《Journal of Biological Chemistry》,围绕“如何以更高通量、更低成本解析蛋白质N-糖基化结构”这一核心问题,提出了名为LeGenD的研究框架。糖基化是蛋白质最重要的翻译后修饰之一,直接影响蛋白稳定性、折叠、溶解性、分子互作及多类生物学过程,也与炎症、病毒免疫逃逸、肿瘤转移、凋亡及多种遗传性和感染性疾病相关。因此,构建准确、可扩展的糖基化分析方法,对于基础糖生物学、生物制药开发和临床标志物研究都具有重要意义。现有高效液相色谱(HPLC)、毛细管电泳、质谱(MS)和核磁共振等技术虽能提供高价值结构信息,但往往存在通量有限、成本较高、分析复杂、对专业经验依赖强等限制。凝集素检测可较便捷地捕获糖链表位特征,但通常只能读出局部结合特征,难以无歧义地重建完整聚糖结构。正是在这一背景下,研究人员尝试将凝集素谱分析与人工神经网络(ANN)及可解释人工智能(XAI)相结合,以突破凝集素只能识别“表位”、难以直接解析“完整糖谱”的瓶颈。

研究首先从理论层面证明,仅凭凝集素结合模式来反推完整糖谱,本质上是一个欠约束问题。研究人员基于74种已知聚糖结构随机生成大量糖谱,并据既定凝集素结合规则模拟其凝集素图谱;结果显示,不同组成的糖谱可以产生极其相似的凝集素结合特征。这一发现说明,若缺乏生物合成约束信息,凝集素读数本身并不足以唯一确定聚糖组成。研究的关键创新,在于使用来源广泛且具有细胞生物学约束的真实糖谱数据训练ANN模型,使模型能够学习细胞糖基化合成过程中隐含的结构限制、共现模式与蛋白背景依赖性,从而将原本严重欠约束的推断问题转化为可预测问题。

为建立训练体系,研究人员构建并利用30种糖工程CHO细胞系,这些细胞系覆盖17种糖基转移酶(glycosyltransferases)的不同敲除与敲入组合;进一步由这些细胞系表达10种重组糖蛋白,包括单克隆抗体、融合蛋白、细胞因子及酶类蛋白。研究人员对所得样本进行N-聚糖分析,获得309份实验测得的N-糖谱,共涉及74种注释的N-聚糖结构。随后,研究人员依据文献整理的凝集素特异性规则,将每个聚糖分解为若干糖特征,并通过糖特征矩阵与结合规则矩阵相乘,模拟得到对应的凝集素结合谱。为了验证这一模拟是否与真实实验一致,研究进一步选择人血清IgG与牛Fetuin B作为代表性糖蛋白,通过超高效液相色谱(UPLC)获得其N-聚糖组成,并使用酶联凝集素分析(ELLA)实测凝集素结合模式。模拟值与实验值之间表现出较高一致性,经线性回归校正后,IgG与Fetuin B的均方根误差(RMSE)分别为2.63×10-3和3.85×10-3,支持将模拟凝集素谱作为模型训练输入。

本研究采用的主要技术方法可概括为以下几类:首先,基于30种糖工程CHO细胞系表达10种重组糖蛋白,建立包含309份N-糖谱的训练数据集;其次,采用亲和纯化、N-聚糖释放、荧光标记及亲水相互作用液相色谱-超高效液相色谱(HILIC-UPLC)表征聚糖组成,并以ELLA获取凝集素结合数据,另以MALDI-TOF质谱辅助排查O-聚糖交叉反应;再次,依据文献中的凝集素结合规则构建凝集素谱模拟流程,并以人工神经网络(ANN)进行监督学习;最后,应用SHAP对模型进行可解释性分析,识别对预测贡献最大的凝集素特征。

在模型构建方面,LeGenD采用全连接ANN结构,最佳模型包含4个隐藏层、每层20个节点。训练过程中使用309份实验糖谱及其对应模拟凝集素谱形成输入-输出对,经过超参数调优与3折交叉验证后确定最优架构。由于该模型属于监督学习框架,其预测空间限于训练集中已观测到的74种N-聚糖,因此对未在训练中出现的新聚糖只能近似映射为最接近的已知结构。研究人员还为模型输出设计了基于logit分离度和预测丰度的置信度分层,将预测结果分为高、中、低置信度,以提示使用者对低丰度或边界性预测保持谨慎。

在结果部分,论文首先保留并展开了“Lectin profiling cannot unambiguously predict glycoprofiles”这一小标题下的结论。研究人员通过对随机糖谱的模拟表明,相似的凝集素结合图谱可以对应完全不同的聚糖组成;在4,722个随机生成糖谱中,筛选出100个与锚定凝集素谱Pearson相关系数大于0.95的样本,这些样本对应的实际糖谱仍可分为多个簇,且存在组成上显著不同但凝集素谱近乎相同的情形。这一结果说明,从凝集素信号到完整糖谱的映射本身并非一一对应,也为后续引入数据驱动建模提供了理论必要性。

在“Simulated and experimental lectin-binding profiles are similar”部分,研究人员证明了模拟凝集素谱具备现实可用性。通过将每种聚糖结构分解为可被凝集素识别的特征,并将特征计数与结合规则进行矩阵运算,研究人员实现了从UPLC糖谱到凝集素谱的系统模拟。随后,以IgG和Fetuin B的真实实验为基准,对模拟值与ELLA实测值进行比较。结果表明,两者高度吻合,说明在研究设定中,“凝集素结合强度与相应糖特征数量近似成比例”的假设可以成立,模拟数据足以作为模型训练基础。

在“LeGenD accurately predicts N-glycosylation in A1AT”部分,研究人员将训练完成的LeGenD应用于重组人α1-抗胰蛋白酶(rhA1AT)和血浆来源α1-抗胰蛋白酶(pdA1AT)的N-糖谱预测。研究中将ELLA实测凝集素谱输入ANN,并对输出结果采用0.02的丰度阈值去噪和归一化。与UPLC实测结果比较后,rhA1AT的预测RMSE为0.068,误差为0.075;pdA1AT的预测RMSE为0.056,误差为0.0739。整体而言,模型能够较好恢复优势糖型的组成与相对丰度,尤其对高丰度糖型的预测更为稳健。研究还指出,模型内生置信度标注有助于区分支撑较强的主导糖型预测与需要谨慎解读的低置信度结果。

在“Crucial lectins can be identified using SHAP”部分,研究人员利用SHAP对这一“黑箱”模型进行解释。对于rhA1AT,SNA、RCA-I和LCA是最具影响力的凝集素;对于pdA1AT,SNA和LCA仍占主导,而PHA-L和WGA则在两类蛋白中均表现为预测信息量较低。SNA的正向SHAP值与其对α-2,6连接唾液酸的特异性一致,支持模型正确识别A1AT中的唾液酸化特征;LCA与岩藻糖化聚糖相关,其低信号对应模型对去岩藻糖化糖链丰度升高的预测。值得注意的是,MAL-I虽针对Siaα2-3Galβ1-4GlcNAc表位,但在A1AT缺乏该经典表位的情况下仍呈正向贡献,提示模型可能学习到了与该凝集素行为共同出现的结构背景信息。研究人员同时强调,SHAP结果反映的是模型输入特征与输出之间的相关性解释,而非因果关系。

讨论部分指出,LeGenD的意义在于为传统糖分析技术提供一种高通量、低成本、可扩展的补充方案。与依赖分离和结构解析的传统平台相比,LeGenD将凝集素的表位识别能力与AI对复杂约束关系的学习能力结合起来,使其能够从相对简化的凝集素信号中恢复样本中占优势的N-聚糖结构。论文特别强调,尽管糖链理论结构空间极其庞大且具有高度分支性与非线性,但细胞内糖基化酶谱、底物可及性、蛋白结构环境等因素会显著限制实际可产生的糖型集合,ANN正是捕获了这些内在约束。研究同时坦诚其局限:当前模型主要对高丰度糖型预测可靠,低丰度糖型可能仍需更丰富的凝集素面板或数据增强策略;监督学习框架也限制了新型未知聚糖的识别能力。此外,部分凝集素如WGA和PHA-L对提升预测性能贡献有限,提示未来需要开发特异性更强的糖结合分子,并扩展可用凝集素库。

论文还展望了该框架的拓展方向,包括引入图神经网络(GNN)等更适合糖链图结构表示的模型架构,结合DNA条形码、微流控、凝集素阵列或下一代测序(NGS)等更高灵敏度和更高通量平台,以及扩充训练集以覆盖bisecting GlcNAc、非核心岩藻糖、修饰型唾液酸和多聚唾液酸等研究不足的特征。就当前阶段而言,LeGenD已经显示出在生物治疗产品表征中的直接实用价值,尤其适用于优势糖型识别、批次监测、克隆筛选、培养基优化及糖型质量评估。

研究结论部分可译为:总之,随着人们对糖基化重要性认识的不断提高,亟需新的技术来提升聚糖研究工具的可及性与通量。LeGenD提供了一种互补性概念,经进一步发展后,有望推动糖分析学在常规生物学研究中的普及。实际上,在糖分析学中引入人工智能,有助于管理该领域的复杂性,从而服务更广泛的糖组学用户群体,并使研究人员能够将糖基化变化与表型变化联系起来。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号