数据分布至关重要:通过有意识地利用正样本和负样本,提高数据驱动材料发现中模型的泛化能力

《ACTA PHYSICO-CHIMICA SINICA》:Data Distribution Matters: Enhancing model generalization in Data-Driven Materials Discovery by intentionally exploiting both positive and negative data

【字体: 时间:2026年03月24日 来源:ACTA PHYSICO-CHIMICA SINICA 13.5

编辑推荐:

  数据分布对机器学习模型在材料科学中的预测能力有显著影响。本研究通过七种采样策略对比,发现同时覆盖正负极端区域的采样方法能有效提升模型泛化性能,优于仅关注单一方向的策略。该成果为材料发现的数据驱动流程优化提供了新思路。

  
吴一恒|刘丽君|邓伟|姜浩东|李若彤|胡明|彭波|王大鹏
中国科学院长春应用化学研究所高分子科学与技术国家重点实验室,中国长春 130022

摘要

训练数据的分布是决定机器学习模型在材料科学中成功与否的一个基本因素,但这一因素常常被忽视。本研究通过在高维基准函数和真实世界材料数据库上对比七种静态和自适应采样策略,评估了数据分布对预测建模的影响。核心发现是:同时关注正负极值区域的采样策略显著提升了模型的泛化能力,其性能优于仅针对一个极值区域(无论是正还是负)的均匀采样或单向采样策略。这些结果表明,主动调整数据分布以探索“不理想”的材料区域既不是资源浪费,也并非仅有微小的好处。相反,这是一种经过深思熟虑的举措,为更高效的数据驱动发现工作流程铺平了道路。

引言

近年来,人工智能(AI)深刻地重塑了材料科学的研究范式,推动了从传统的经验驱动实验向数据驱动的智能预测方法的转变。[1]、[2]、[3]、[4] 当前的研究涉及高通量计算、高通量实验和先进的机器学习算法。[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14] 这些方法能够精确建模材料中的成分-性质关系,并支持逆向设计,极大地加速了分子、聚合物、合金和陶瓷等材料的发现。[9]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23] 尽管取得了这些进展,数据稀缺仍然是一个主要挑战,尤其是在工业环境中。高通量方法的有限可用性,加上手动记录的实验数据往往碎片化、不一致或不足,阻碍了机器学习算法的有效应用。这一挑战激发了对小数据环境下的研究兴趣,人们正在探索多种策略,如多保真度学习、迁移学习、预训练基础模型、嵌入领域知识的特征选择、基于数据集的模型推荐、分而治之的建模策略以及增强机器学习的试错方法,以从有限的观测中提取有意义的模式。[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]
随着数据驱动方法在材料发现中不断取得成功,越来越明显的是,进展不仅取决于算法的进步和数据的积累,[36]、[37] 还取决于现有数据是否可靠、充分且适合模型学习,尤其是在数据量较少的情况下。[38]、[39] 最近的研究强调,材料机器学习中的数据充分性不应仅通过样本大小来判断,还应考虑数据分布和模型复杂性。[40]、[41]、[42] 数据分布具有重要意义,[43] 但相关研究相对较少。一项开创性研究表明,增加数据多样性可以提高模型的泛化能力。[44] 真实世界材料数据集很少是完全多样和均匀的;相反,它们往往偏向于被广泛研究的化学空间,例如常见的氧化物、钙钛矿[45]、热力学稳定的相以及实验上可实现的合成路线。这些数据的质量通常受到测量协议、计算方法或标记准确性的影响。[46] 越来越多的证据表明,即使在某些形式有偏且不完整的数据集上训练的最先进的机器学习模型,也容易产生错误的预测。[43]、[47]、[48]、[49]
在机器学习中,人们已经认识到,聚类或不平衡的数据分布会阻碍预测模型的性能,这与一个基本共识一致,即有效的泛化通常需要训练数据能够广泛、多样且具有代表性地覆盖整个输入空间。[44]、[50]、[51] 根据这一理念,包括我们团队在内的研究社区经常在数据驱动的材料设计中依赖各种实验设计(DoE)采样方法,目的是在整个空间中生成广泛而多样的数据,以实现有效的模型训练。[25]、[52]、[53]、[54] 近年来,包括主动学习(AL)在内的自适应方法在特定领域越来越多地补充了传统的DoE方法。[55]、[56] 然而,自适应方法生成的数据集表现出对正数据区域的强烈选择性偏差。这种偏差可能是由于算法在给定空间中侧重于正数据区域,或者是倾向于仅报告“成功”的实验结果。然而,现代数据科学表明,模型性能不仅受数据量和覆盖范围的影响,还受采样数据对目标任务的信息量的影响。[50]、[57] 最近的研究表明,失败或负面的例子包含大量信息;[58]、[59]、[60]、[61] 将它们纳入模型可以显著影响模型的预测性能和泛化能力。[43]、[62]、[63]、[64] 然而,一个关键问题仍未得到解答:什么样的分布特征能够定义出在材料发现中具有强大泛化能力的高信息量数据结构?回答这个问题对于释放AI驱动的材料创新的全部潜力至关重要——更广泛地说,对于科学发现本身也是如此。
在这项工作中,我们构建了一组具有不同复杂性和拓扑结构的高维基准函数。通过应用各种采样策略,我们在给定的设计空间内生成了具有不同数据分布的数据集。分析表明,最有效的泛化性能数据分布结合了空间均匀性和对正负数据的针对性采样。在这里,正样本表示满足目标标准的实例,而负样本则表示不满足目标的实例。我们进一步将这种数据选择策略应用于真实世界数据库,包括JARVIS和Materials Project(MP),证明了与随机或均匀采样相比,它通过有效利用正负数据而具有更出色的泛化性能。

部分摘录

采样策略

为了系统地评估数据分布对模型性能的影响,我们将采样策略分为两类:(i)静态的、填充空间的设计和(ii)动态的、自适应采样。[51] 这一区分将仅依赖输入空间几何探索的策略与利用观测数据来主动指导后续采样的策略区分开来。

数据分布评估概述

在这项研究中,我们调查了数据分布对各种机器学习模型性能的影响,旨在识别能够提升数据驱动材料发现中泛化性能的最佳数据分布。从数据为中心的角度出发,我们首先构建了六个高维基准函数,这些函数涵盖了广泛的复杂性和拓扑结构,从而可以访问已知的真实值。这些函数作为受控环境

结论

总之,我们通过构建高维基准函数并应用多种采样策略来生成不同的数据分布,研究了训练数据分布如何影响机器学习模型在材料发现中的泛化能力。核心发现是:同时关注正负极值区域的采样策略显著提升了模型的泛化能力,其性能优于均匀采样和单向采样

CRediT作者贡献声明

姜浩东: 数据管理。李若彤: 可视化。刘丽君: 资源获取、资金筹措。邓伟: 数据管理。王大鹏: 写作——审稿与编辑、监督、资源管理、项目管理、资金筹措、概念化。胡明: 可视化。彭波: 写作——审稿与编辑、初稿撰写、可视化、验证、监督、项目管理、方法论、调查、正式分析、数据管理、概念化。吴一恒:

数据可用性声明

用于重现结果的代码和数据集可在公共仓库中获取:https://github.com/2305293559/DataDistributionMatters

利益冲突声明

? 作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

致谢

本工作得到了吉林省与中国科学院科技合作高新技术产业化专项(编号2024SYHZ0036)、国家自然科学基金(编号22473106)以及吉林省科技发展计划(编号20240208014JH)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号