深度学习驱动的富铈(Ni–Fe–Co–Ce)Ox析氧反应催化剂异常检测与特征发现

《RSC Advances》:Deep learning-driven anomaly detection and feature discovery in Ce-rich (Ni–Fe–Co–Ce)Ox catalysts for oxygen evolution reaction

【字体: 时间:2026年05月22日 来源:RSC Advances 4.6

编辑推荐:

  开发高性能析氧反应(OER)催化剂对能源转换至关重要。然而,从海量高通量实验数据集中筛选稀有优质材料仍具挑战,传统机器学习模型常将这些最优数据点误判为噪声。研究人员提出一种深度学习驱动的异常检测框架以解决该局限。该方法将原子级描述符与卷积神经网络(CNN)结合

  
开发高性能析氧反应(OER)催化剂对能源转换至关重要。然而,从海量高通量实验数据集中筛选稀有优质材料仍具挑战,传统机器学习模型常将这些最优数据点误判为噪声。研究人员提出一种深度学习驱动的异常检测框架以解决该局限。该方法将原子级描述符与卷积神经网络(CNN)结合进行相似性稳定性分析,通过迭代数据清洗机制自动分离并评估高性能离群点。研究人员在(Ni–Fe–Co–Ce)Ox催化剂高通量数据集上验证了该方法。模型对内部样本预测的R2达0.90,同时成功捕获了特定富铈组分窗口(0.3–0.6 at%),其表现出极低的过电位。该框架提供了一种可靠的数据驱动分析工具,证明了深度学习异常检测在加速新型材料发现与优化中的强大作用。
该研究发表于《RSC Advances》,针对析氧反应(OER)催化剂开发中的核心瓶颈展开。OER是水分解与金属空气电池等可再生能源技术的关键限速步骤,其高过电位与缓慢动力学特性亟需高效催化剂突破。镍铁钴基过渡金属氧化物因活性高、成本低、可规模化应用被广泛研究,近年高通量实验表明掺铈(Ce)可利用其独特电子性质与过渡金属的协同效应显著提升催化性能,例如已有研究报道电沉积Ni0.2Co0.3Ce0.5Ox在10 mA cm?2电流密度下过电位低至310 mV。高通量实验虽能快速生成大量组分与电化学性能数据,但易引入噪声、测量误差与异常数据点。传统材料科学机器学习(ML)侧重“数据拟合”,优先优化模型以预测数据集主体分布,导致极高活性数据点常被误分类为统计噪声并丢弃,阻碍了真正的材料发现。为此,研究人员构建深度学习驱动的异常检测框架,以Haber等人报道的(Ni–Fe–Co–Ce)Ox高通量数据集为基准,不依赖先验化学直觉与人类干预,通过自动化流程重新发现人类专家经经验分析得到的稀有高性能组分规律,将机器学习从数据拟合工具转变为独立的数据驱动引擎,加速非常规高效材料的开发。
研究人员采用的核心技术方法包括:使用VisOut?(Visual Similarity of Outlier Trimming)迭代决策流程,结合核主成分分析(KPCA)非线性降维与预训练卷积神经网络(VGG16)的图像特征提取能力,通过余弦相似度量化学习特征图与实验特征图的拓扑差异,实现迭代式离群点清洗;构建含60维输入特征的深度回归网络(4种金属组分+56种分子描述符),采用三层全连接结构(256-128-64神经元)与Leaky ReLU激活函数预测过电位(OP);通过人工神经网络(ANN)执行异常检测,以预测绝对误差最大点为离群点,逐步优化内部样本集。
研究结果如下:
3.1 数据清洗过程及其对学习的影响:迭代移除离群点显著提升模型性能,初始R2仅0.56,移除前5个离群点后升至0.69,移除66个后达0.73,移除330个后R2达0.80。相似性稳定分析显示250至330次迭代间相似度变化极小,验证清洗过程有效分离离群点并优化内部数据集。
3.2 内部样本与离群点的过电位分布:内部样本呈单峰分布,集中于380–480 mV,代表数据集主体特征空间;离群点呈双峰分布,低过电位峰(386 mV)对应关键金属组分比,高过电位峰(455 mV)与研究目标无关,低过电位模式对应新型催化特征。
3.3 数据清洗前后的相关性图谱:清洗前预测值与实验值散点分散,相关性差;清洗后内部样本呈强线性相关,离散度低;离群点集中出现低过电位簇,该特征在未处理数据中被掩盖。
3.4 离群点特征分析:移除高偏差点虽会人为提升R2,但离群点非随机噪声,而是高度聚集于0.40–0.44 at%的富铈区域,证明框架并非去除随机噪声,而是分离出具有真实化学特异性的高潜力催化特征。与传统无监督异常检测方法(孤立森林IF、局部离群因子LOF)相比,该框架可特异性识别具有催化意义的富铈子集。
3.5 内部与离群域的过电位分布探索:内部域KPCA图谱呈连续平滑梯度(400–470 mV),符合已知(Ni–Fe–Co–Ce)Ox催化剂行为;离群域呈碎片化拓扑,存在孤立超低热区(<360 mV),集中于0.3–0.6 at%富铈区。四面体坐标变换显示低过电位簇与实验观测到的高性能区域重合,证实离群点对应组分连贯的催化基序。
3.6 离群域内的铈组分趋势:过电位360–310 mV区间,数据点集中于0.35–0.44 at% Ce,峰值0.40–0.44 at%;310–235 mV超低热区间,峰值移至0.40–0.49 at%,最高频仍为0.40–0.44 at%。该区间是最具统计显著性与催化相关性的区域。
3.7 富铈催化剂的数据驱动机理解释:低过电位源于Ce的特定空间分布与局域电子拓扑,而非体相浓度。低过电位样品可能形成表面或近表面CeO2?x纳米团簇或富铈界面带,Ce4+/Ce3+氧化还原缓冲与氧空位协同促进反应,该结构形成能垒高,故在低概率下出现。模型仅作为数据驱动检测器识别0.40–0.44 at% Ce的高活性窗口,机理解释由领域专家基于现有文献提出,非模型直接推导。
3.8 研究局限与未来展望:当前使用的RDKit分子描述符未编码量子化学相互作用,无法推断原子尺度机制,未来将整合Magpie元素描述符与密度泛函理论(DFT)计算的d带中心等物理信息特征,结合VisOut?与MatterGen等生成设计工具,构建更完整的催化剂发现路径。
结论部分总结:该研究验证了VisOut深度学习框架在处理高通量实验数据中的有效性。通过主动分离与分析离群点而非丢弃,框架自主识别出富铈组分(0.3–0.6 at%)相关的隐藏高活性催化特征,证实极低过电位值并非实验异常,而是具有显著提升OER性能潜力的独立组分空间。框架同时具备标记真实错误测量的能力,避免将所有离群点误判为化学意义样本。该框架成功“再发现”富铈区域,证明其鲁棒性,未来可推广至未知催化剂体系,自动定位新兴化学奇异点并引导研发方向,减少对先验化学直觉与人类试错的依赖,为下一代材料的发现与优化提供可扩展、客观且鲁棒的方法学基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号