基于孪生网络的拉曼光谱分析新方法：有效克服生物学重复变异提升模型泛化能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Talanta》：Siamese Networks in Raman Spectroscopy: Towards a Better Performance Against Replicate Variability

【字体：大中小】 时间：2026年01月20日 来源：Talanta 6.1

编辑推荐：

　　本研究针对拉曼光谱分析中因生物样本重复间变异大导致模型泛化性能下降的难题，开发了基于孪生神经网络(SNet)的新方法。通过将样本对输入共享权重的子网络，并创新性地在损失函数中引入重复变异约束(SNet-R)，显著提升了细菌分类准确率至0.899，较传统方法(MS/EMSC)提升超过10%。该方法无需测试数据参与模型调整，为临床诊断应用提供了更实用的解决方案。

在生物医学研究和临床诊断领域，拉曼光谱技术正以其无标记、非破坏性的独特优势展现出巨大潜力。通过测量分子的振动信息，拉曼光谱能够提供样本的"指纹"特征，从而实现对生物样本的精确识别和分类。然而，尽管机器学习方法在这一领域的应用取得了显著进展，一个长期存在的挑战始终制约着该技术的实际应用——生物样本间的变异问题。

即使是同一物种的不同生物重复或不同患者的样本，在相同测量条件下获得的拉曼光谱也可能存在显著差异。令人困扰的是，这些重复间或患者间的变异往往比研究者关注的本质生物学差异更为明显，严重影响了基于训练数据构建的化学计量学模型在新样本上的预测性能。这一困境在作者前期的研究中已得到证实：当训练数据与测试数据来自不同生物重复时，分类准确率明显低于两者来自同一重复的情况。

传统解决方案依赖于模型迁移技术，如分数移动(MS)和扩展乘性散射校正(EMSC)，这些方法需要通过测试数据对模型或数据空间进行调整。然而，它们都存在一个共同局限：需要一定量的测试数据参与调整过程。而深度学习方法虽然具有强大潜力，但通常需要大量训练数据，这在拉曼光谱应用中往往难以满足。

正是在这一背景下，来自德国莱布尼茨光子技术研究所的Shuxia Guo和Thomas Bocklitz团队开展了一项创新性研究，他们探索了孪生神经网络在拉曼光谱分析中的应用潜力，相关成果发表在《Talanta》期刊上。研究人员设计了一种新型的孪生神经网络架构，专门用于解决生物重复变异带来的挑战。

该研究的核心技术方法包括：构建具有共享权重子网络的孪生神经网络架构，采用包含组别和重复归属信息的谱对训练策略，设计结合组别判别和重复差异抑制的多任务损失函数，建立基于参考数据集的多数投票预测机制，并采用留一重复交叉验证方案系统评估模型性能。

材料与方法

研究基于单细胞拉曼光谱数据集，包含四种细菌物种（大肠杆菌DSM 423、 terregena DSM 2687、 warneri DSM 20316和 cohnii DSM 20261），每个物种有九个独立生物重复。所有光谱均经过尖峰去除、波数校准、基线校正和归一化等预处理。研究人员构建了包含六个一维卷积层的孪生网络，通过绝对距离计算和Sigmoid激活函数判断样本对是否属于同一类别。

结果与讨论

验证路径I结果

通过改变训练重复数量（m=2,5,8）的系统评估显示，孪生网络对训练数据量具有高度敏感性。当仅使用2个重复训练时，SNet和SNet-R的表现略低于MS和EMSC方法；但当训练重复增至5个或8个时，孪生网络显著优于所有对比方法，平衡准确率最高达到0.899。特别值得注意的是，传统神经网络在少量训练数据下表现不佳，而孪生网络即使在小样本情况下也能保持较好性能，证明了其在数据效率方面的优势。

验证路径II结果

通过组合多个训练模型进行多数投票的策略进一步提升了性能。当训练重复为5个时，SNet和SNet-R经过模型组合后准确率可从0.850提升至0.900以上，而其他方法的最佳表现仅为0.815。SNet-R表现出更低的模型不确定性，在不同训练数据采样下性能更加稳定。

参考数据集影响

参考数据集大小的优化分析表明，每类10个参考样本即可在保证性能的同时控制计算成本。推理时间随参考数据集增大而线性增加，但准确率在超过10个样本后趋于稳定，实现了性能与效率的良好平衡。

进一步应用验证

在小鼠组织样本的疾病诊断应用中，SNet同样表现出色，在训练数据为制备组织、测试数据为活检组织的挑战性场景下，达到了0.805的平衡准确率，优于其他对比方法。然而，SNet-R在此场景下性能下降，分析表明当训练数据中的重复变异不能代表训练-测试数据间的变异时，SNet-R的约束机制可能产生负面影响。

结论与意义

本研究系统证明了孪生神经网络在解决拉曼光谱生物重复变异问题上的有效性。相比传统方法，孪生网络不仅能够实现更高的分类准确率，更重要的是不需要测试数据参与模型调整，这在实际临床应用场景中具有显著优势。研究人员创新的SNet-R架构通过损失函数约束有效抑制了模型对重复变异的敏感性，在多数场景下进一步提升了性能。

该方法的成功应用为拉曼光谱在真实临床环境的推广提供了有力工具，特别是在样本资源有限、个体变异显著的诊断场景中。未来研究方向包括引入更先进的网络架构（如Transformer、ResNet等）以及开发更复杂的变异适应机制，以应对更具挑战性的应用场景。

这项工作的真正价值在于它架起了实验室研究与临床应用之间的桥梁，使拉曼光谱技术更接近于实现其在实际医疗诊断中的巨大潜力。随着方法的不断完善和优化，我们有理由期待拉曼光谱将在精准医疗、病原体快速检测和疾病早期诊断等领域发挥更加重要的作用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号