基于单类学习的疾病相关肽异常评分模型：一种克服负样本缺失的致病肽识别新策略

《Scientific Reports》：DPAS: disease-associated peptide anomaly score for identifying pathogenic peptides via one-class learning

【字体：大中小】 时间：2026年02月16日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对生物信息学中因缺乏可靠阴性数据集而导致疾病相关肽预测存在偏倚的挑战，提出了一种仅专注于阳性标签数据的单类分类新方法。研究人员采用One-Class SVM、Isolation Forest和自编码器等三种分类器，最终自编码器表现最佳，能有效区分内群与离群肽段。研究创新性地引入了结合模型异常分与SHAP特征重要性的DPAS评分，为肽类生物标志物的发现提供了兼具稳健性与可解释性的新工具。

在生物信息学和疾病生物标志物发现领域，预测与特定疾病相关的多肽序列是一项关键且充满挑战的任务。传统的预测方法通常依赖于二元分类模型，这类模型需要同时使用已知的“阳性”（即疾病相关）样本和“阴性”（即健康或非相关）样本进行训练。然而，问题的症结恰恰在于构建一个可靠且无偏的阴性数据集异常困难。在现实中，哪些多肽“绝对不”与某种疾病相关，往往缺乏明确的生物学界定或实验验证，导致所谓的阴性样本可能混杂了大量未被识别的潜在阳性样本。这种数据集的先天不足，使得基于此类数据训练出的模型容易产生系统性偏倚，其预测结果的可信度和泛化能力大打折扣。这就如同试图在一堆混杂的沙砾中准确找出所有金子，却无法清晰定义“非金子”的标准，使得筛选过程充满不确定性。

为了从根本上跳出这一困境，一项发表于《Scientific Reports》的研究提出了一种颇具巧思的新思路：与其在界定不清的阴阳样本中纠结，不如将目光完全聚焦于我们确信的“金子”——即已知的疾病相关肽（阳性数据）上。这项研究不再寻求区分“是”与“否”，而是转而识别“典型”与“异常”。研究人员开展了一项主题为利用单类学习模型预测疾病相关肽的研究。他们假定，已知的疾病相关肽在特征空间中构成了一个相对紧凑的“内群”，而那些未知的、可能与疾病无关或关联性弱的肽段则作为“离群点”分布在外围。基于这一假设，研究团队系统性地评估了三种经典的单类分类算法：单类支持向量机（One-Class Support Vector Machines, OCSVM）、孤立森林（Isolation Forest）和自编码器（Autoencoders）。模型的训练完全基于阳性数据集，其核心任务是学习阳性样本的内在分布规律或重建模式。

研究得出的核心结论是，自编码器模型在此任务中表现最为出色。通过专门在阳性肽段数据上训练，自编码器能够学习到其序列特征的压缩表示和重建规律。对于与训练集分布相似的肽段（内群），模型可以较低的重建误差（mean reconstruction errors）进行重构；而对于分布不同的肽段（离群点），重建误差则会显著升高。通过计算重建误差，模型可以有效地区分内群与离群，从而将重建误差高的肽段识别为潜在的“非疾病相关”或关联性较弱的候选者。这种方法巧妙地规避了对明确定义阴性样本的依赖。

该研究的意义不仅在于提出了一种有效的分类框架，更在于其极大地增强了预测结果的可解释性和实用性。为了对识别出的异常（或潜在阴性）肽段进行排序和优先性评估，研究者创新性地提出了一个名为“疾病肽异常评分”的综合指标。DPAS的创新之处在于，它并非单一地依赖模型输出的异常分数，而是将其与SHAP（SHapley Additive exPlanations）方法计算出的特征重要性值相结合。SHAP是一种源自博弈论的特征归因方法，能够解释每个输入特征对于模型做出某个特定预测的贡献度。因此，DPAS高分意味着该肽段不仅被模型判定为“异常”（偏离已知疾病肽模式），而且其偏离是由那些对疾病关联性判断重要的序列特征所驱动的。这种双重考量使得DPAS能够更可靠、更可解释地对肽段进行优先级排序，为实验生物学家后续验证提供了清晰、有力的线索，标志着肽类生物标志物发现方法向精准化与可解释化迈出了重要一步。

为开展此项研究，作者主要应用了以下几项关键技术方法：首先，研究基于已知的疾病相关肽构建了阳性数据集。其次，从多肽序列中系统提取了多种基于序列的特征。接着，核心分析采用了单类机器学习方法，重点使用了自编码器进行无监督表征学习与异常检测，并以平均重建误差作为主要评估指标。最后，为了提升模型解释性，引入了SHAP框架进行特征归因分析，并据此与模型异常分结合，创新性地提出了DPAS评分体系。

研究结果

单类分类器的比较评估

通过系统比较OCSVM、Isolation Forest和Autoencoders三种单类分类器在区分疾病相关肽（内群）与候选离群肽上的性能，得出自编码器模型展现了最优的区分能力。其依据是自编码器能够基于重建误差最有效地分离内群与离群样本。

自编码器重建误差作为判别标准

聚焦于表现最佳的自编码器模型，研究详细分析了其工作机制。结论是，在仅使用阳性数据训练的自编码器中，内群样本（已知疾病肽）的重建误差显著低于离群样本。这表明模型成功学习了疾病相关肽的潜在特征模式，并将高重建误差作为识别非典型或潜在非关联肽段的可靠指标。

多特征组合的有效性

研究评估了所采用的多种序列特征组合对于模型性能的贡献。结果表明，融合多种互补的序列特征（如氨基酸组成、理化性质等）比使用单一特征能更全面地描述多肽，从而提升了单类分类模型（特别是自编码器）的判别精度和稳健性。

DPAS评分的提出与验证

为克服单一异常分数的局限性，研究创新性地提出了DPAS。结论显示，DPAS通过整合自编码器产生的模型异常分数与SHAP分析得出的特征重要性值，能够对肽段进行更有意义的排序。得分高的肽段不仅被视为异常，且其异常性由关键生物特征驱动，从而提供了兼具高置信度与高可解释性的肽段优先级列表，便于后续实验验证。

研究结论与讨论

本研究证实了单类学习策略在疾病相关肽预测问题上的可行性与优越性。它成功绕过了传统二元分类对可靠阴性数据的严格依赖，为解决因数据偏倚导致的预测瓶颈提供了新范式。其中，基于自编码器的异常检测方法被证明尤为有效。更重要的是，所提出的DPAS评分体系将模型的预测能力与可解释性工具（SHAP）深度融合，不仅实现了对候选肽段的量化排序，还揭示了驱动其被判定为“异常”的关键序列特征，极大地增强了结果在生物学上的可读性和可验证性。这项工作为肽类生物标志物的发现提供了一套稳健、可解释的计算框架，有望加速从海量序列数据中精准筛选致病相关肽的进程，具有重要的方法论意义和应用前景。论文发表于《Scientific Reports》，为相关领域的研究者提供了新的工具和思路。

热点排行

新闻专题