通过改进的大型视觉模型实现扫描探针显微镜图像的数据高效分割，以用于材料表征

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computational Materials Science》：Data-efficient segmentation of scanning probe microscopy images via an enhanced large vision model for materials characterization

【字体：大中小】 时间：2026年03月21日 来源：Computational Materials Science 3.3

编辑推荐：

　　语义分割在扫描探针显微镜（SPM）图像分析中至关重要，但受限于数据获取成本高、标注繁琐及跨类区分能力不足。本文提出APL-SAM框架，通过集成大视觉模型与少样本学习，创新性地采用自适应提示学习机制和多层特征对齐模块，显著提升电池材料SPM图像的分割精度（Dice系数达89.53%），并建立含195例标注的SPM-Seg数据集。

沈瑶|魏子伟|刘春梦|魏淑明|赵琦|李光耀|曾开阳

同济大学计算机科学与技术学院，中国上海曹安路4800号，201804

摘要

扫描探针显微镜（SPM）图像的语义分割对于阐明材料中的结构-性质关系至关重要，然而，对不同物理特征的准确划分和解释仍然是一个持续的挑战。随着跨学科进展的浪潮，基于深度学习的方法正在重新定义传统的SPM分析工作流程。尽管如此，现有方法受到数据采集成本高、注释工作量大以及类别间区分能力有限的限制。在这里，我们提出了一个专用于SPM图像的分割框架，该框架结合了大型视觉模型的表达能力和少量样本学习的数据效率。为了解决SPM数据的独特特性，我们提出了一种自适应提示学习机制，该机制能够根据对象规模和空间上下文动态编码语义先验。此外，解码器中嵌入了一个多源、多层次的特征对齐模块，以在稀疏监督下实现稳健的分割。我们的方法在极少的训练数据下实现了精确的语义分割，并且在电池材料方面始终优于领先的少量样本学习、完全监督和基于基础模型的方法，相对原始的SAM方法，Dice相似性系数提高了30%以上。它还为纳米尺度材料表征的多样化下游任务提供了可扩展的基础。

引言

扫描探针显微镜（SPM）技术，包括基于探针的显微镜方法，如扫描隧道显微镜（STM）和原子力显微镜（AFM），提供了强大的成像和表征技术，彻底改变了人们对材料科学、凝聚态物理和微纳尺度器件操作的理解[1]、[2]、[3]、[4]。SPM能够构建具有纳米级分辨率的扫描表面详细三维图像，通过提供多通道数据和图像来捕获所测材料的各种特性，如地形和各种功能属性。然而，分析SPM图像始终是一个重要且具有挑战性的课题，因为这些图像通常编码了超出单纯表面形态的耦合信息，使得分离和检查不同的物理特征变得困难。近年来，基于深度学习的分析方法越来越多地应用于SPM图像[5]、[6]、[7]、[8]、[9]、[10]。与图像级分类不同，语义分割执行像素级分类，将每个像素分配到一个语义类别中，从而将材料相关的结构与背景分离出来进行形状分析[5]、[6]，并检测纳米级异常[7]，实现定量解释和自动化表征。对于电池材料而言，SPM数据的语义分割通常是下游定量分析的关键前提，因为它能够精确地划分晶粒、晶界、相界面、孔隙和表面涂层；它还能够自动量化晶粒尺寸分布、边界密度和孔隙率，并支持多通道属性的空间映射[11]、[12]。通过将纳米尺度结构与宏观电化学性能联系起来，这种方法将电池研究从经验性表征提升到了数据驱动、智能引导的设计。

与自然场景图像不同，SPM输出的是具有跨通道异构空间分辨率的多通道灰度数据。这些图像通常具有低对比度、模糊的边界、高噪声水平以及细微的特征间变化。因此，直接将为自然图像开发的分割算法应用于SPM数据往往会产生不理想的效果。另一方面，SPM图像的采集和注释是高度复杂的过程，它们取决于材料条件、机器参数的设置以及熟练专业人员的经验和知识。因此，开发一个高效且高度泛化的少量样本语义分割模型至关重要，该模型能够在严重受限的注释数据下运行，这对于实际的基于SPM的材料表征来说是非常必要的。

大型视觉模型提供了强大的特征提取和零样本泛化能力，使它们在复杂领域（如SPM）中的精确分割变得吸引人。Segment Anything Model（SAM）[13]经过超过11亿张来自不同自然图像领域的掩码的训练，可以方便地在给定图像中分割任何目标对象。然而，SAM在分布外的科学数据（包括医学、电子显微镜和SPM图像）上的表现不佳[14]、[15]、[16]。为了提高SAM对这些特定场景的适应性，之前的研究引入了各种策略。一些研究升级了SAM的架构[17]、[18]，要么通过集成轻量级适配器，要么仅改进掩码解码器；而其他研究则尝试将SAM与额外的特征提取器结合，以实现更快的领域适应[15]。然而，这些方法并没有专门针对SPM图像进行定制，这突显了开发一个专为SPM数据设计的SAM基础图像分割算法的迫切需求，这也是我们本文研究的动机。

直接将原始的SAM应用于多样化的SPM图像会得到次优的分割结果（图1），即使在每张图像20个提示的情况下，平均Dice相似性系数（DSC）也只有55.24%。该模型容易受到噪声、模糊边界、轻微的前景-背景差异和“阴影”的影响，导致误分类和假阴性结果。在这里，我们将“阴影”定义为SPM测量过程中由于振幅通道中的差异信号而产生的类似光影的现象。为了消除这些因素的影响，并在没有大量训练数据的情况下实现准确和自动的分割，我们提出了用于SPM图像分割的自适应提示学习框架，本文将其命名为APL-SAM。我们提出的框架遵循经典的两分支少量样本分割架构[19]，并采用元学习训练范式[20]，以在极其有限的监督下实现先前未见目标类别的高精度像素级分割。该框架包括两个核心组件。第一个是一个改进的提示编码器，它使用自适应提示学习模块来利用来自有限支持集的少量样本嵌入，根据目标规模和几何形状自适应地形成视觉提示。第二个组件是一个丰富的掩码解码器，它整合了支持图像和查询图像的信息，并在多个层次上进行预测。此外，我们结合了Houlsby等人提出的方法[21]中的适配器来微调SAM的图像编码器，以促进SAM有效学习SPM数据特有的特征。为了便于后续研究，我们整理了一个包含195个来自各种电池相关材料类别的SPM图像数据集。这个数据集是训练和验证所提出的分割框架的基础。在一次性训练设置中，每个支持集只包含一个带注释的图像，我们的方法实现了89.53%的平均DSC，显著提高了SPM图像的分割精度，并展示了跨材料类别的强大泛化能力。

本文的其余部分组织如下：第2节回顾了SPM中语义分割的相关工作和大型视觉模型的发展。第3节描述了提出的网络架构和实现细节。第4节展示了实验结果以及相应的分析和讨论。最后，第5节总结了本文并指出了未来研究的方向。

章节片段

扫描探针显微镜图像分割

扫描探针显微镜图像的语义分割使得可以从复杂的背景中提取感兴趣的区域，这对于进一步在不同层次上对图像进行定量分析具有重要意义[22]。尽管可以应用手动分割方法到SPM图像上，但它们效率低下且容易受到人为偏见的影响[23]。为了克服这些限制，已经开发了一系列自动化分割方法[22]、[24]、[25]、[26]、[27]。

问题定义

我们解决了在跨类别泛化设置下的少量样本SPM图像分割挑战，其中评估阶段出现的目标类别与训练期间看到的类别是不相交的。目标是在测试时仅使用少量带注释的支持图像来分割查询SPM图像中以前未见过的材料类别。在这方面，我们采用了一种元学习方法，构建了一个元学习器

数据集构建

深度学习方法通常需要大规模的数据集才能有效训练模型。然而，SPM测量中公共数据集的有限可用性对SPM图像分析中深度学习算法的应用构成了重大挑战。为了解决这一限制，我们构建了一个名为SPM-Seg的SPM图像数据集，其中包含195张图像及其对应的像素级标签掩码，这个规模与常用的少量样本分割基准一致

结论

在这项研究中，我们介绍了APL-SAM，这是一个增强型的大型视觉模型，专门设计用于提高SAM在SPM图像语义分割方面的性能。通过结合少量样本学习范式，APL-SAM能够在一次性监督下实现准确的分割，并有效地泛化到未见过的材料类别。该框架引入了三项关键创新：（1）集成到SAM图像编码器中的轻量级适配器，用于SPM特定特征的适应；（2）自适应

CRediT作者贡献声明

沈瑶：写作——审阅与编辑，撰写——原始草稿，方法论，调查，形式分析，数据整理，概念化。魏子伟：形式分析，数据整理。刘春梦：调查，数据整理。魏淑明：数据整理。赵琦：写作——审阅与编辑，资源，方法论，调查。李光耀：写作——审阅与编辑，监督，资源，资金获取。曾开阳：写作——审阅与编辑，监督，资源，资金

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

本文所述的工作得到了国家自然科学基金（NSFC）在Grant 62272345和62505169下的支持，以及2023年科技创新项目（XTCX-KJ-2023-2-26的支持。作者感谢新加坡教育部通过学术研究基金（AcRF, A-0009122-01-00提供的财政支持。Y.S还感谢中国国家留学基金委员会（CSC）和同济大学的支持

联系信箱：

粤ICP备09063491号

摘要

引言