近年来,数据科学工具,尤其是机器学习(ML),在材料科学领域取得了重要进展,包括材料发现[1]、[2]、性能优化/预测[3]、计算机模拟的原子间势能开发[3]、[4]以及微观结构分析[5]、[6]、[7]、[8]、[9]等方面。具体来说,利用机器学习获取和解释材料微观结构的能力,使我们在介观尺度上定量表征和分析材料结构和动态方面取得了突破性进展。例如,通过透射电子显微镜(TEM)获得的薄膜金属微观结构的分割,过去是一项需要人工干预来追踪晶界的艰巨任务,现在可以通过基于卷积神经网络(CNN)的算法边界检测方法(如U-Net [10])轻松完成,从而大大减少了繁琐的手动追踪工作[11]。此外,机器学习工具还实现了亮场TEM图像中离散缺陷[12]、扫描隧道显微镜(STM)图像中的点缺陷[13]以及高分辨率扫描透射电子显微镜(STEM)图像中的铁磁畴[14]的自动检测和识别。此外,机器学习工具为微观结构分析和建模开辟了许多有价值的途径,包括:结构分类、基于微观结构的合金设计、学习到的结构-性能关系、稀有晶粒尺寸分布事件的识别、数据驱动的介观尺度模拟等。
最近在微观结构图像获取和解释中应用的机器学习方法值得特别关注。如上所述,新的方法彻底改变了图像分割的任务,每种方法都有其相对的优势和劣势。例如,YOLO [15] 是一种快速处理图像的单阶段架构,通常以牺牲准确性和精度为代价;而Mask R-CNN [16] 则是一种两阶段框架,用于图像中的对象检测,并同时生成分割掩码。此外,基于YOLO的模型对对象大小非常敏感,因此存在一些基于多尺度架构(如U-Net)的模型所没有的挑战,尽管前者模型特别适用于显微镜下的实时分割[17]。在YOLO和基于Mask的模型中,都需要监督学习的数据,但最近在零样本、少样本[18]和基础模型(如Segment Anything Model (SAM))方面的进展为微观结构评估提供了强大的工具,尽管仍存在显著限制。因此,在材料科学应用中选择特定方法取决于具体情境(例如领域)、可用的或所需的数据以及所使用的显微镜技术。
对于已分割的微观结构,提取表征系统的物理特征(如相分数、颗粒形态等)是很重要的,然后使用这些特征向量进行后续分类。传统上,人们采用数字图像分析技术(如边缘检测和纹理分析(例如灰度共生矩阵(GLCM)[19])来进行特征分析。现在,这一过程通过计算机视觉算法[20]得到简化,在高维特征空间的情况下,结果通过降维策略(如主成分分析(PCA)[21]映射到低维空间。然后,特征向量成为分类器(如随机森林或支持向量机(SVM)[22])的输入,从而实现对微观结构特征的解释。
微观结构解释和建模也受益于材料信息学工具箱中一系列技术的应用。在这一领域,既使用了监督学习方法,也使用了无监督学习方法来进行数据解释。在前者中,传统的ML方法(如基于将类别标签与预测特征关联的模型的方法)被用来描述图像内容(如局部相身份),或区分图像像素以进行后续分割[23]、[24]。在后者中,人们通常希望根据相似的共享特征将数据分组到不同的簇中。其中,无监督k-means聚类[25]尤为突出,例如用于颗粒的聚类分析[5]、识别铝中晶界附近的应变局部化区域[26]以及模拟沉淀动力学[27]。
为了解释静态和动态的分割微观结构,人们还使用了相关统计技术[28],这些技术来自诸如点相关函数[29]、[30]等描述符。这些统计描述符体现了不同微观结构区域之间的平均空间和/或时间关联,并系统地描述了序参量(如局部相或晶体取向)的潜在概率分布。值得注意的是,这些相关量是对复杂性度量的补充,而这些复杂性度量是基于信息论[31]、[32]和谱图理论[33]定义的微观结构熵的代理。熵的时间演化有助于区分各种粗化现象,例如异常晶粒生长[32]、[34]。
鉴于机器学习在材料微观结构获取和解释中日益重要的作用以及快速的发展步伐,提供关于材料信息学在材料科学和工程及相关领域复杂微观结构问题中的应用影响、许多成功案例和剩余挑战的当前概述是非常有用且及时的。在本概述中,我们综述了推动上述进展的重要ML方法和应用,并为解决缺陷检测、原位晶粒尺寸统计数据的获取、演变微观结构的建模以及大型微观结构数据集的分析和管理等当前和未来的挑战提供了路线图。总体目标不是提供详尽的操作手册或方法论的全面描述,而是提供一个快速发展的领域的详细快照,其中包含缩写和术语,以澄清概念、突出重要问题和考虑因素,并强调最佳实践。
本概述的结构如下:第2节总结了不同的图像分割和特征提取方法,重点介绍了机器学习在这些任务中的作用。第3节概述了各种显微镜技术,并描述了与图像分割和图像对象识别相关的问题。为了清晰起见,还包含了每个显微镜技术的关键信息摘要表。第4节探讨了机器学习在微观结构分析和建模中的作用,概述了利用神经网络(NN)进行分类和聚类等图像解释策略。我们还回顾了用于调整微观结构以实现极端理想性能的微观结构优化和逆向设计方法,以及用于表征异常晶粒生长(AGG)的相关统计和基于NN的技术。第5节讨论了与数据管理相关的问题,包括在整个生命周期中维护和研究数据的保存。第6节对该领域的未来发展进行了讨论和展望。最后,提供了术语表、重要的基于ML的分割方法总结和缩写列表,以指导读者。