《Nature Communications》:End-to-end multimodal structure elucidation from raw spectra combining contrastive learning and evolutionary algorithms
编辑推荐:
从光谱数据解析分子结构是化学中最基本的挑战之一,通常需要大量专家知识及手动解读多种分析技术,这是因为有限实验数据下结构解析问题常存在简并解。现有计算方法局限于单一光谱模态、需大量手动预处理,且缺乏实际应用所需的置信度估计与上下文信息。本文提出SECS(Stru
从光谱数据解析分子结构是化学中最基本的挑战之一,通常需要大量专家知识及手动解读多种分析技术,这是因为有限实验数据下结构解析问题常存在简并解。现有计算方法局限于单一光谱模态、需大量手动预处理,且缺乏实际应用所需的置信度估计与上下文信息。本文提出SECS(Structure Elucidation from Chemical Spectra,基于化学光谱的结构解析)框架,结合对比学习(contrastive learning)与进化算法(evolutionary algorithm),可直接从原始多模态光谱数据自动完成结构解析。通过对核磁共振(NMR)、红外(IR)与质谱(MS)的嵌入(embedding)进行跨模态对齐,SECS模拟专家利用多重光谱视角解析结构的过程,同时提供校准后置信度评分与相关数据库上下文。在具有挑战性的分子鉴定任务中,试点研究(head-to-head comparison)显示SECS性能与专家化学家相当。该系统可成功识别已发表文献中的错误结构归属,并能通过更新参考数据库适应新化学领域而无需重新训练。本研究证明机器学习范式协同组合可解决制约化学发现的解析瓶颈。
论文解读:结合对比学习与进化算法从原始多模态光谱数据自动解析分子结构——SECS框架
《Nature Communications》发表的此项研究针对传统计算机辅助结构解析(Computer-Assisted Structure Elucidation, CASE)依赖手动峰提取(peak picking)、仅支持单光谱模态、无法给出置信度及不能生成数据库外新结构等瓶颈,提出SECS(Structure Elucidation from Chemical Spectra)框架。研究人员利用对比学习(contrastive learning)将分子SMILES字符串与各光谱模态(1H NMR、13C NMR、IR、HSQC)映射到统一嵌入空间(embedding space),实现光谱对分子数据库的直接跨模态检索(cross-modal retrieval);在此基础上以检索 top?N 分子为初始种群,采用基于分子图的遗传算法(Graph?based Genetic Algorithm, GraphGA)进化优化结构使多模态光谱?分子余弦相似度最大,最终输出带校准置信度排名的结构候选列表(含数据库匹配物及新生成结构)。研究显示多光谱联用显著提高检索命中率(四谱联用 Top?1 达98.4%),SECS 在模拟与实验数据集上 Top?1 正确解析率最高分别达82%(超文献基线约22%)和88.2%(1H+13C NMR,微调后),在人类专家对照实验中达到同等水平,并可检测文献错误结构归属。该工作表明对比学习与离散优化的协同可突破传统 CASE 局限,推动全自动实验室解析流程。
主要关键技术方法:
研究人员基于 Alberts 等人79.4万 SMILES?光谱配对数据集,以 MolFormer 编码 SMILES,MLP 编码 13C NMR(二值位移向量),ResNet+自注意力编码 1H NMR(强度归一化向量)及 HSQC(512×512矩阵),CNN 编码 IR;通过对称 InfoNCE 损失进行跨模态对比预训练使同分子不同表征嵌入相近。解析时先计算输入光谱嵌入与 PubChem 分子嵌入余弦相似度做初筛(提供化学先验),取 top?N 初始化 GraphGA,奖励函数 R 为多光谱?分子嵌入余弦相似均值减分子式(molecular formula)不匹配惩罚,进化生成/筛选结构后按 R 重排输出。实验数据部分用数据增强(加噪、位移、峰展宽等)模拟真实仪器谱并微调;人类对照实验由6名化学家对20例 Chemotion 库 1H NMR+分子式任务与 SECS 盲测比较。
研究结果
Retrieval from databases and the importance of combining spectra(数据库检索及联用光谱的重要性)
研究人员在1000例测试分子上评估各光谱组合交叉检索 Top?1 命中率:单谱约89%,两谱联用96.4%,三谱98.1%,四谱(1H NMR+13C NMR+IR+HSQC)98.4%;表明多模态互补可消除单一谱图简并性,提高检索可靠性。
Structure elucidation with SECS(SECS 结构解析性能)
在含四谱的测试集上,SECS(检索+GraphGA优化)Top?1 正确率为82%,Top?5 更高,较仅用峰列表的多模态 Transformer 基线提升约22%。添加 13C NMR 后增益显著,再追加 1H NMR 或 HSQC 提升有限,说明多数案例可由1D?NMR 解决,少数需额外模态破简并。多随机种子运行可提高性能且具单调性。
Calibration and confidence estimation(校准与置信度估计)
分析多模态相似度得分与预测正确率关系,得良好校准曲线(线性趋势),缩放奖励 R>0.94 时正确率约94%,证实余弦相似度可作可靠置信估计(conformity score),支持自主筛选或向专家返回前20候选。
Identifying incorrect structure assignments(识别错误结构归属)
对文献已知错误归属的4例天然产物(porritoxin、annuionone A 等),输入正确化合物模拟光谱,SECS 给原错误结构低 R 值并发出警示,GA 优化后 Top?3 含正确结构且 R 高于误属结构,证明 SECS 可辅助发现数据库/ELN 中谱?结构不匹配。
SECS on experimental data – In?house dataset(实验数据验证-内部数据集)
34例自有实验 1H/13C NMR(不在训练集):仅模拟预训练模型对实验谱失效(Top?1=0%),经数据增强训练后 Top?1 升至38.2%,再用2370例实验谱微调达55.8%;加入实验 13C NMR 后 Top?1 达88.2%、Top?3 达97.1%,证实域适应必要性。
SECS on experimental data – Recently published NMR spectra(实验数据验证-Chemotion 公开库)
1486例近期 Chemotion 库光谱(C3?15H4?42O0?5N0?5Cl0?5,≤15重原子子集323例):SECS Top?1 正确率27.9%,Top?20 为58.5%;全库 Top?1 10.3%、Top?20 24.8%,显示真实世界复杂体系挑战仍存。
Comparison with human performance(与专家化学家对比)
20例挑战性 NMR 解析任务,6名专家(含20年 NMR 专长)平均正确数低于半数,SECS 正确数与专家组均值差仅+0.8(TOST 检验 pTOST=0.0287 不显著),SECS 位于参与者成绩第64百分位,证明达到专家级表现。
讨论与结论
研究人员指出传统结构解析依赖查库或量子化学谱图模拟验证,无法对库外新结构提候选且需人工预处理;SECS 通过对比学习跨模态对齐实现原始谱图对分子数据库直接检索,并以检索结果为先验引导图遗传算法进化出新结构候选,同时输出校准置信度与相关上下文、支持换库不重训适应新领域。研究表明机器学习范式(表示学习+离散优化)协同可转化分析瓶颈为计算机会,加速化学发现。未来可扩展至蛋白质(NOESY等)、混合物(NMF分解)及立体构型解析。