高斯过程回归-神经网络混合模型结合优化冗余坐标:科学家机器学习工具箱中简单而强大的新工具

《Advanced Intelligent Discovery》:Gaussian Process Regression–Neural Network Hybrid with Optimized Redundant Coordinates: A New Simple Yet Potent Tool for Scientist's Machine Learning Toolbox

【字体: 时间:2026年01月21日 来源:Advanced Intelligent Discovery

编辑推荐:

  本文推荐一种结合高斯过程回归(GPR)与神经网络(NN)优势的新型混合机器学习方法——优化冗余坐标的高斯过程回归-神经网络(opt-GPRNN)。该方法通过蒙特卡洛算法优化冗余坐标,在保持GPR对过拟合鲁棒性的同时,显著提升了表达能力和参数效率,在分子势能面、材料带隙预测等科学计算中展现出媲美深度NN的性能,为高维稀疏数据建模提供了新范式。

  
引言:机器学习方法的融合创新
机器学习方法如神经网络、核回归等在各类应用中展现强大泛化能力,但其数据密集型特点与过拟合风险仍是挑战。高斯过程回归-神经网络混合方法通过加性核函数在冗余坐标空间实现线性回归与非线性表达的平衡,既保留了高斯过程回归的稳定性,又具备神经网络的表达能力。
方法原理:opt-GPRNN的技术突破
opt-GPRNN的核心创新在于对冗余坐标的权重矩阵进行蒙特卡洛优化。该方法将原始特征通过线性变换映射至高维冗余空间,在每维坐标上采用一维核函数构建加性高斯过程回归模型。通过随机扰动权重向量并筛选降低训练误差的更新,使模型在少量神经元下即可逼近深度神经网络的表现。优化后的冗余坐标还可实现维度压缩,当神经元数小于特征维度时仍保持预测能力。
水分子势能面建模:高精度场景的验证
以水分子势能面机器学习为例,opt-GPRNN仅需约30个神经元即可达到0.3 cm-1的测试误差,较未优化版本减少一半参数量。值得注意的是,即使神经元数量超过最优值,测试误差仍保持稳定,展现出对过拟合的天然抵抗能力。与需要数千训练轮次的多层神经网络相比,opt-GPRNN在保持精度的同时避免了局部极小值陷阱,且对核函数超参数不敏感。
材料物性预测:稀疏数据下的稳健表现
在材料信息学应用中,零振动能预测任务表明当神经元数等于特征维度时出现误差拐点,印证了特征空间的本征维度。对于双钙钛矿带隙预测,优化后的模型仅需15个冗余坐标即可达到0.14 eV的误差极限,较传统方法提升约20%。这些案例证明该方法在数据稀疏场景下仍能保持稳定预测,为材料设计提供可靠工具。
结论展望:机器学习工具箱的新成员
opt-GPRNN通过优化冗余坐标实现了表达效率与鲁棒性的统一,其加性核结构保障了计算可并行性。该方法在保持单隐层神经网络简洁性的同时,通过自适应神经元激活函数逼近深度网络性能,为科学计算领域提供了兼具解释性与预测力的新工具。未来可进一步探索优化算法与核函数的协同创新,拓展其在生物医学等领域的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号