结合对比学习(contrastive learning)与进化算法从原始谱图中端到端进行多模态结构解析

《Nature Communications》：End-to-end multimodal structure elucidation from raw spectra combining contrastive learning and evolutionary algorithms

【字体：大中小】 时间：2026年06月07日 来源：Nature Communications 15.7

编辑推荐：

　　从光谱数据解析分子结构是化学中最基本的挑战之一，通常需要大量专家知识及手动解读多种分析技术，这是因为有限实验数据下结构解析问题常存在简并解。现有计算方法局限于单一光谱模态、需大量手动预处理，且缺乏实际应用所需的置信度估计与上下文信息。本文提出SECS（Stru

从光谱数据解析分子结构是化学中最基本的挑战之一，通常需要大量专家知识及手动解读多种分析技术，这是因为有限实验数据下结构解析问题常存在简并解。现有计算方法局限于单一光谱模态、需大量手动预处理，且缺乏实际应用所需的置信度估计与上下文信息。本文提出SECS（Structure Elucidation from Chemical Spectra，基于化学光谱的结构解析）框架，结合对比学习(contrastive learning)与进化算法(evolutionary algorithm)，可直接从原始多模态光谱数据自动完成结构解析。通过对核磁共振(NMR)、红外(IR)与质谱(MS)的嵌入(embedding)进行跨模态对齐，SECS模拟专家利用多重光谱视角解析结构的过程，同时提供校准后置信度评分与相关数据库上下文。在具有挑战性的分子鉴定任务中，试点研究(head-to-head comparison)显示SECS性能与专家化学家相当。该系统可成功识别已发表文献中的错误结构归属，并能通过更新参考数据库适应新化学领域而无需重新训练。本研究证明机器学习范式协同组合可解决制约化学发现的解析瓶颈。

论文解读：结合对比学习与进化算法从原始多模态光谱数据自动解析分子结构——SECS框架

《Nature Communications》发表的此项研究针对传统计算机辅助结构解析(Computer-Assisted Structure Elucidation, CASE)依赖手动峰提取(peak picking)、仅支持单光谱模态、无法给出置信度及不能生成数据库外新结构等瓶颈，提出SECS（Structure Elucidation from Chemical Spectra）框架。研究人员利用对比学习(contrastive learning)将分子SMILES字符串与各光谱模态（¹H NMR、¹³C NMR、IR、HSQC）映射到统一嵌入空间(embedding space)，实现光谱对分子数据库的直接跨模态检索(cross-modal retrieval)；在此基础上以检索 top?N 分子为初始种群，采用基于分子图的遗传算法(Graph?based Genetic Algorithm, GraphGA)进化优化结构使多模态光谱?分子余弦相似度最大，最终输出带校准置信度排名的结构候选列表（含数据库匹配物及新生成结构）。研究显示多光谱联用显著提高检索命中率（四谱联用 Top?1 达98.4%），SECS 在模拟与实验数据集上 Top?1 正确解析率最高分别达82%（超文献基线约22%）和88.2%（¹H+¹³C NMR，微调后），在人类专家对照实验中达到同等水平，并可检测文献错误结构归属。该工作表明对比学习与离散优化的协同可突破传统 CASE 局限，推动全自动实验室解析流程。

主要关键技术方法：

研究人员基于 Alberts 等人79.4万 SMILES?光谱配对数据集，以 MolFormer 编码 SMILES，MLP 编码 ¹³C NMR（二值位移向量），ResNet+自注意力编码 ¹H NMR（强度归一化向量）及 HSQC（512×512矩阵），CNN 编码 IR；通过对称 InfoNCE 损失进行跨模态对比预训练使同分子不同表征嵌入相近。解析时先计算输入光谱嵌入与 PubChem 分子嵌入余弦相似度做初筛（提供化学先验），取 top?N 初始化 GraphGA，奖励函数 R 为多光谱?分子嵌入余弦相似均值减分子式(molecular formula)不匹配惩罚，进化生成/筛选结构后按 R 重排输出。实验数据部分用数据增强（加噪、位移、峰展宽等）模拟真实仪器谱并微调；人类对照实验由6名化学家对20例 Chemotion 库 ¹H NMR＋分子式任务与 SECS 盲测比较。

研究结果

Retrieval from databases and the importance of combining spectra（数据库检索及联用光谱的重要性）

研究人员在1000例测试分子上评估各光谱组合交叉检索 Top?1 命中率：单谱约89%，两谱联用96.4%，三谱98.1%，四谱（¹H NMR＋¹³C NMR＋IR＋HSQC）98.4%；表明多模态互补可消除单一谱图简并性，提高检索可靠性。

Structure elucidation with SECS（SECS 结构解析性能）

在含四谱的测试集上，SECS（检索＋GraphGA优化）Top?1 正确率为82%，Top?5 更高，较仅用峰列表的多模态 Transformer 基线提升约22%。添加 ¹³C NMR 后增益显著，再追加 ¹H NMR 或 HSQC 提升有限，说明多数案例可由1D?NMR 解决，少数需额外模态破简并。多随机种子运行可提高性能且具单调性。

Calibration and confidence estimation（校准与置信度估计）

分析多模态相似度得分与预测正确率关系，得良好校准曲线（线性趋势），缩放奖励 R＞0.94 时正确率约94%，证实余弦相似度可作可靠置信估计(conformity score)，支持自主筛选或向专家返回前20候选。

Identifying incorrect structure assignments（识别错误结构归属）

对文献已知错误归属的4例天然产物（porritoxin、annuionone A 等），输入正确化合物模拟光谱，SECS 给原错误结构低 R 值并发出警示，GA 优化后 Top?3 含正确结构且 R 高于误属结构，证明 SECS 可辅助发现数据库/ELN 中谱?结构不匹配。

SECS on experimental data – In?house dataset（实验数据验证－内部数据集）

34例自有实验 ¹H/¹³C NMR（不在训练集）：仅模拟预训练模型对实验谱失效（Top?1＝0%），经数据增强训练后 Top?1 升至38.2%，再用2370例实验谱微调达55.8%；加入实验 ¹³C NMR 后 Top?1 达88.2%、Top?3 达97.1%，证实域适应必要性。

SECS on experimental data – Recently published NMR spectra（实验数据验证－Chemotion 公开库）

1486例近期 Chemotion 库光谱（C_3?15H_4?42O_0?5N_0?5Cl_0?5，≤15重原子子集323例）：SECS Top?1 正确率27.9%，Top?20 为58.5%；全库 Top?1 10.3%、Top?20 24.8%，显示真实世界复杂体系挑战仍存。

Comparison with human performance（与专家化学家对比）

20例挑战性 NMR 解析任务，6名专家（含20年 NMR 专长）平均正确数低于半数，SECS 正确数与专家组均值差仅+0.8（TOST 检验 p_TOST=0.0287 不显著），SECS 位于参与者成绩第64百分位，证明达到专家级表现。

讨论与结论

研究人员指出传统结构解析依赖查库或量子化学谱图模拟验证，无法对库外新结构提候选且需人工预处理；SECS 通过对比学习跨模态对齐实现原始谱图对分子数据库直接检索，并以检索结果为先验引导图遗传算法进化出新结构候选，同时输出校准置信度与相关上下文、支持换库不重训适应新领域。研究表明机器学习范式（表示学习＋离散优化）协同可转化分析瓶颈为计算机会，加速化学发现。未来可扩展至蛋白质(NOESY等)、混合物(NMF分解)及立体构型解析。

热点排行