多状态DNA折纸的分类：一种低耗时标记和基于置信度的自动化方法

《Journal of Chemical Information and Modeling》：Classifying Multistate DNA Origami: An Automated Approach with Minimal Labeling and Confidence-Based Filtering

【字体：大中小】 时间：2026年05月11日 来源：Journal of Chemical Information and Modeling 5.3

编辑推荐：

　　高分辨率图像下载 MS PowerPoint 幻灯片 DNA 折纸纳米结构可以采取多种构象状态，因此准确且快速的分类对于推进纳米级制造至关重要。尽管原子力显微镜（AFM）提供了不可或缺的结构验证，但手动对每个对象进行标记以进行分类仍然是一个持续的瓶颈。在这里，我们介绍了一个自动

　　高分辨率图像下载 MS PowerPoint 幻灯片

DNA 折纸纳米结构可以采取多种构象状态，因此准确且快速的分类对于推进纳米级制造至关重要。尽管原子力显微镜（AFM）提供了不可或缺的结构验证，但手动对每个对象进行标记以进行分类仍然是一个持续的瓶颈。在这里，我们介绍了一个自动化分类框架，该框架在保持高准确性的同时最小化了用户注释的需求。该流程采用基于置信度的过滤器来标记不确定或聚集的对象，然后选择性地重新标记和增强这些对象以进行迭代训练。这种人在循环中的改进使分类器能够在不进行大量新标记的情况下捕捉到更大的类内形态多样性。通过每类仅20张标记图像并结合强大的增强技术，我们的框架在两个结构不同的DNA折纸数据集上始终优于已建立的少量样本和对比学习基线，同时相对于传统方法缩短了分析时间，实现了高效、高通量和客观的多态DNA纳米结构分类。

### 引言
DNA折纸技术利用DNA自组装的独特可编程性来构建具有精确可控形状和性质的纳米结构。(1?3) 其潜在应用包括分子计算、(4?6) 纳米治疗、(7?10) 以及纳米制造。(11?13) 这种多功能性源于DNA折纸可以从静态架构(14,15)扩展到可以响应外部刺激（如DNA插入剂）动态重新配置的结构(16)，这些刺激通过双链解旋来调节机械应变。(17?19) 通常，我们通过使用原子力显微镜（AFM）获得的显微图来表征这些结构。然而，处理这些图像以识别单个对象并对不同的结构状态进行分类往往既耗时又劳动密集。手动分类还可能受到其固有的主观性的影响，引入不必要的偏差。当我们需要分析可以具有多种构象状态的结构时，这一点尤为重要，因此我们必须从单张图像中准确检测出各种形状。

为了解决这些挑战，最近的研究探索了将深度学习方法应用于DNA纳米结构分析的自动化。例如，一次看遍（YOLO）模型(20)已被成功用于DNA折纸结构的检测和分类。(21,22) 同样，基于U-Net的架构也被用来实现高通量的结构分析。(23) 然而，这些基于对象检测的方法仍然受到依赖于手动标记的大规模数据集的局限。

在这项研究中，我们提出了一个针对包含多种态DNA折纸结构的AFM图像的极小标记分类框架，该框架在区分不同的结构状态方面达到了足够高的准确性。为了确保在有限标记条件下仍能保持可靠的分类性能，我们基于现有的分类模型设计了一个两轮训练过程。在第一轮中，使用每类仅用少量标记样本训练的模型来定位和分类单个对象，并借助大量的数据增强。通过尺寸分布分析排除过大的聚集物，同时使用基于置信度的分数移除折叠不清晰或缺陷的对象。(24) 然后，这些过滤后的样本进行二次标记和重新训练，进一步提高分类准确性。结果表明，使用所提出的方法，分析时间可以从几小时的人工劳动显著减少到几分钟。此外，与传统的几种方法和对比学习基线(25?27)在两个结构不同的DNA折纸数据集上进行基准测试时，我们的方法在少量样本条件下始终表现更好，证明了我们这种数据高效分类框架的有效性。

### 结果与讨论
#### 过程概述
我们采用了一种监督学习框架，以确保在有限的标记条件下对多样化的DNA折纸结构进行准确分类，并可靠地移除目标外对象。本研究分析的DNA对象是环状折纸束，根据插入剂引起的扭转应力，它们可以存在三种构象——圆形、莱姆尼斯形和双环形——如图5的方法部分所示。此后，我们将这个三类别系统称为Shape数据集。

我们的分类工作流程（图1）从原始AFM图像开始，通过算法预处理步骤自动裁剪出单个对象。(28) 然后，我们的方法进行迭代的两轮标记和过滤过程。在第一轮中，用户为每个类别手动标记最少的样本数量（每类<10个样本）。这些标记的图像随后被用来微调初始分类模型，该模型随后对所有剩余对象进行分类。在此分类之后，根据简单的尺寸分布分析过滤掉过大的聚集物，任何与每个类别原型（25）的余弦相似度较低的对象——表明可能是目标外样本——被留待第二轮处理。在这第二轮中，这些低置信度的图像被呈现给用户进行另一轮手动标记。通过额外标记应该分配到特定类别的低置信度图像，用户能够重新定义图像类别分布，从而提高分类性能的鲁棒性。最后，最初标记的和新的低置信度图像被结合起来重新训练模型，得到最终的分类结果。该流程的输出是完整的分类结果，其中对象被排序到各自的结构类别中，而目标外结构（在这里定义为用户未分配到预定义结构类别的任何裁剪对象，例如聚集物、畸形组装或形态上不确定的对象）被有效地分离到自己的独立组中。因为这个边界本质上是用户依赖的，不能通过固定的数字规则来捕捉，因此手动标记仍然是该框架的一个重要组成部分。

#### 模型性能
在典型的DNA图像分类或对象检测模型（例如，一次看遍（YOLO）(20)、ResNet-50 (29)）的微调中，通常使用数百到数千张标记图像进行训练。然而，对于DNA图像分类，我们假设通过使用少量代表性对象形状（10–20张标记图像）并进行强大的数据增强，可以获得足够的性能。我们强大的数据增强策略旨在显著增加最小训练集的多样性，从而在数据量少的情况下提高模型的鲁棒性。该策略包括一系列激进的随机变换：旋转（最多360°）、随机水平和垂直翻转，以及激进的色彩空间抖动（调整亮度、对比度、饱和度和色调）。通过应用这些变换，我们从有限的标记样本中合成了每个类别3000张增强图像的大型训练集。随后在扩展的多样化数据集上训练分类模型。

为了评估这种方法的有效性，我们将我们的模型性能与两组不同的基线进行了比较：(1) 在不同数据集大小（每类10到300张图像）上训练的ResNet-50基线模型；(2) 使用每类50、100和200个样本的少量样本进行标记数据训练的YOLOv8n模型。

为了定量评估我们框架的数据效率，我们测量了达到目标F1分数（精确度和召回率的调和平均值）0.85所需的最少标记样本数量（k）。如图2所示，ResNet-50基线模型需要更多的数据才能达到这一性能阈值，对于某些复杂结构（如莱姆尼斯形），k超过150。此外，我们将我们的方法与YOLOv8n进行了基准测试（详见支持信息中的架构和超参数）。值得注意的是，YOLOv8n同时进行对象定位和分类的双重任务自然要求更多的注释数据，这导致了其在这种情况下的数据效率较低。尽管随着训练集大小的增加，YOLOv8n的性能有所提高，但与我们的方法相比，其效率差距显著。例如，即使使用k = 200个标记样本，YOLOv8n也无法达到莱姆尼斯形类别的目标性能（在图2中标记为“未达到”）。相比之下，我们的方法在所有类别中仅使用k = 20个样本就始终超过了性能阈值，显示出比基线模型高出5到10倍的数据效率。

#### 两轮分类
我们方法的一个关键方面是通过过滤和重新标记目标外图像来改进数据集，然后在最终分类之前进行重新训练。为此，我们建立了一个允许重新标记最初被排除但应属于特定类别的过滤后的图像的过程。虽然第一轮分类专注于标记每个类别中的典型样本，但第二轮旨在重新定义之前被错误分类为目标外的模糊或不典型结构。

如图3(a)所示，用户指导的不确定结构重新定义导致所有类别的F1分数一致提升，加权平均达到了0.91。这一性能提升通过图3(b)中的混淆矩阵差异进一步说明。正对角线条目反映了显著的真正例增加，特别是对于莱姆尼斯形和双环形结构，而目标外列中的负值表明由于结构模糊性导致之前错误分类的样本显著减少。

#### 总体框架比较
为了全面评估我们的完整流程——结合少量样本标记与强大的数据增强和迭代的两轮重新训练——我们将其与两个DNA折纸数据集（数据集部分中描述的两个数据集）上建立的少量样本学习和对比学习基线进行了比较：一个3类Shape数据集（圆形、莱姆尼斯形和双环形）和一个5类Folding数据集（正方形、Q1、Q12、Q13和Q123）。所有方法使用相同的ImageNet预训练的ResNet-50骨干网络和每类相同的20张标记训练图像。少量样本基线使用相同的基于ProtoNet的评估协议：类别原型计算为训练特征的L2标准化均值，测试图像根据与最近原型的余弦相似度进行分类。这些方法的不同之处仅在于在此评估阶段之前如何（或是否）对主干网络进行适配。我们考虑了四个基准模型。ProtoNet（冻结版）不进行额外的训练；直接使用ImageNet预训练的权重，作为通用视觉特征所能达到的最低限度。ProtoNet（情节式FT）遵循Prototypical Networks的情节式元学习范式，其中通过反复采样小规模的支持集和查询集，并优化基于原型的预测上的交叉熵损失来更新主干网络。SupCon → ProtoNet（26）为每张图像生成两个增强视图，并使用类别标签将同类别的表示聚集在一起，同时将不同类别的表示在嵌入空间中分开。最后，作为一个半监督基准模型，SimCLR → ProtoNet（27）采用类似的双视图对比框架，但它在没有标签的情况下运行，利用额外的未标记图像：只有同一图像的增强视图被视为正例，而所有其他图像被视为负例。

对于目标外检测，为了实现与阈值无关的比较，我们报告了AUROCoff和AUPRoff，这两个指标分别衡量接收者操作特征曲线和精确度-召回曲线下的面积。

如表1所示，我们的方法在Shape数据集上实现了最高的准确率和宏观F1分数，显著优于所有基准模型。我们的方法达到了0.9928的准确率和0.9922的宏观F1分数，分别比最强的基准模型（Episodic FT）高出1.3和1.4个百分点。对于目标外检测，基于ProtoNet的基准模型表现出了竞争力：Episodic FT实现了最高的AUROCoff（0.9352），而冻结版的ProtoNet实现了最高的AUPRoff（0.8276），这表明基于原型的相似性评分提供了一种天然有效的开集拒绝机制。尽管如此，我们的方法也实现了可比较的AUROCoff（0.9319）和AUPRoff（0.8057），证明它在保持强大的开集检测能力的同时大幅提高了分类性能。

表1. 两种DNA折纸数据集（20张标记图像/类别）的比较

a,b
方法准确率宏观F1 AUROCoff AUPRoff
Shape数据集（3类别）我们的方法 0.9928 0.9922 0.9319 0.8057
Prototypical Network（冻结版） 0.9098 0.9029 0.9248 0.8276
Prototypical Network（情节式FT） 0.9796 0.9784 0.9352 0.8083
SupCon → ProtoNet 0.9559 0.9532 0.9213 0.7980
SimCLR → ProtoNet 0.9592 0.9570 0.9264 0.8261

Folding数据集（5类别）我们的方法 0.8665 0.8735 0.7635 0.1370
Prototypical Network（冻结版） 0.7647 0.7716 0.6750 0.1050
Prototypical Network（情节式FT） 0.7932 0.7975 0.7899 0.1541
SupCon → ProtoNet 0.7426 0.7450 0.7216 0.1242
SimCLR → ProtoNet 0.7112 0.7169 0.6685 0.1020

所有方法都使用相同的ImageNet ResNet-50主干网络。每列中的最佳值以粗体显示。
b半监督：使用额外的未标记图像进行预训练。

在更具挑战性的Folding数据集上，性能差距进一步扩大：我们的方法实现了0.8665的准确率和0.8735的宏观F1分数，分别比最佳基准模型（Episodic FT）高出7.3和7.6个百分点。对于目标外检测，Episodic FT再次实现了最高的AUROCoff（0.7899）和AUPRoff（0.1541），而我们的方法获得了0.7635和0.1370，仍然与最佳基准模型保持竞争力。所有方法的总体低AUPRoff值反映了在更细粒度的分类环境中区分目标外对象的难度增加，但我们的方法仍然在分类准确率和目标外检测之间取得了良好的平衡。

这些结果表明，与仅使用元学习或对比式微调相比，我们的方法在数据极度稀缺的情况下提供了更有效的预训练特征适应途径，并且其优势在复杂程度不同的数据集中都表现稳健。

时间效率评估
开发我们自动化框架的一个主要动机是克服手动原子力显微镜（AFM）图像分析的显著限制。传统方法依赖研究人员手动识别和分类每个结构，不仅容易受到主观解释和操作者偏见的影响，而且耗时极长。根据我们的实验室经验，有经验的用户可能需要5到10分钟来分类单个AFM图像中的对象。考虑到典型的实验涉及获取数十张这样的图像，总分析时间很容易累积到几个小时，从而成为研究工作流程中的主要瓶颈。我们提出的方法从根本上重构了这一过程。主要的时间成本是一次性训练阶段，其持续时间与需要识别的类别数量成线性关系。我们确定训练每个类别大约需要140秒（2.3分钟）。一旦完成初始模型训练，任何数量的新图像的分类都可在几秒钟内完成。与手动方法相比，这种效率大大降低了分析时间。为了说明这一改进，考虑将10张AFM图像分类为三个不同结构类别的代表性任务。手动分类大约需要50分钟。相比之下，我们的自动化方法在8分钟内完成了整个任务，这段时间包括了初始训练时间（3个类别×140秒/类别≈7分钟）和几乎即时的分类。这意味着分析时间减少了大约6倍，使研究人员从繁琐的任务中解放出来，并显著加快了DNA纳米技术研究中的设计-构建-测试-学习循环。

结论
在这项研究中，我们解决了在标记数据集有限的情况下对AFM图像中的多状态DNA折纸纳米结构进行分类的挑战。我们的方法整合了两种核心策略来实现高精度和高效率：通过强大的数据增强来最大化从最少样本中学习特征，以及一个包含顺序过滤的两轮分类框架。强大的数据增强被证明非常有效，使得模型仅使用每个类别20个标记样本就能实现稳健的性能，这一水平与使用超过150个样本训练的ResNet-50基准模型相当，并且优于使用相同有限数据集的YOLOv8n。此外，涉及用户指导对模糊目标外结构重新标记的两轮分类过程对于细化模型对类别内变异性的理解至关重要。这种迭代方法在所有结构类别上都带来了明确且可测量的提升。这些优势扩展到了更具挑战性的5类别折叠数据集，在那里我们的框架超过了所有基准的少样本和对比学习模型，验证了其在结构不同的折纸系统中的通用性。最终，我们的方法通过将劳动密集型的手动检查转变为近乎即时的分类，实现了高通量和客观分类复杂DNA纳米结构的时间减少了近6倍。

通过克服手动检查和需要大量标记训练数据的自动化方法的局限性，该框架有潜力加速纳米尺度研究工作流程，并适用于需要定量分析多状态纳米结构的更广泛应用。展望未来，我们的框架可以通过整合自监督学习（SSL）范式（如对比学习（27）或掩码自编码器（30）来进一步改进。通过与实验团队合作，收集来自不同样本制备和成像条件的大量未标记AFM图像，可以组装出大量的未标记数据集，用于学习特定领域的特征表示，而无需额外的标记工作。我们的基准比较为此方向提供了初步证据：在小型未标记数据集上预训练的SimCLR → ProtoNet基准模型已经提高了分类准确率（表1）。使用更大的未标记数据集扩展这种预训练可以进一步减少标记预算，最终，将SSL表示与无监督聚类相结合可能实现复合纳米结构的完全自动化、零样本分类。

方法数据集
在这项研究中，我们考虑了一个展示三种不同构型的DNA折纸环（图5）：圆（类别1）、莱姆尼萨德（类别2）和双环（类别3）。该环被设计为在DNA插入剂引起的低扭转应力下保持圆形配置的拓扑受限DNA束。在这种状态下，结构能够承受扭转应变能量而不会发生构型变化。然而，当插入剂的浓度超过某个阈值时，由于结构不稳定，环会重新配置为其他两种构型，即类似数字8的莱姆尼萨德和双环状态。验证和测试数据集的组成在表2中总结。为了模型训练，最初准备了三个类别，每个类别包含20张手动标记的图像。为了扩展数据集，应用了图像增强技术生成每个类别3000张图像，总共9000张训练图像。还使用了一个单独的验证数据集来优化模型性能。具体来说，它用于超参数调整，包括训练周期数、层特定学习率、丢弃率和批量大小。此外，验证集还用于确定标记图像的最佳数量、增强策略和置信度阈值。一个独立的测试数据集专门用于最终评估分类性能，包括计算F1分数和构建混淆矩阵。关于超参数优化结果以及用于训练、验证和测试的所有裁剪图像的详细信息在支持信息中提供。

图5
图5. DNA折纸环结构的三种构型的示意图和代表性AFM图像：(a) 圆形，(b) 莱姆尼萨德，(c) 双环状态。

高分辨率图像
下载MS PowerPoint幻灯片

表2. 训练、验证和测试的数据集组成
数据集类别1 类别2 类别3 类别4 总计
验证 310 375 305 256 124
测试 581 490 447 171 935
a（类别1：圆形，类别2：莱姆尼萨德，类别3：双环，类别4：目标外）

为了验证分类性能，还使用了五种额外的DNA对象结构（图6）。这些结构分别命名为Square、Q1、Q12、Q13和Q123。结构的名称和图像根据应用于初始Square DNA骨架的折叠方向数量而变化；Q表示四分之一折叠，数字后缀表示折叠的四分之一。测试数据集的组成在表3中总结。关于相应测试数据集组成的详细信息以及完整样本图像在支持信息中提供。

图6
图6. DNA骨架纸张五种构型的示意图和代表性AFM图像：(a) Square，(b) Q1，(c) Q12，(d) Q13，(e) Q123。
高分辨率图像
下载MS PowerPoint幻灯片

表3. DNA骨架纸张结构的测试数据集组成
数据集类别1 类别2 类别3 类别4 类别5 类别6 总计
测试 42 130 547 95 457 36 20 226 88
a（类别1：Square，类别2：Q1，类别3：Q12，类别4：Q13，类别5：Q123，类别6：目标外）

模型架构
我们采用了基于在ImageNet上预训练的ResNet-50（29）主干网络的分类架构。移除了ResNet的原始全连接层，以暴露高维的全局特征表示。在这个主干网络之上，我们附带了一个带有丢弃层的双层MLP（多层感知器）分类头。这种设计允许MLP作为轻量级分类器，同时通过丢弃率提供正则化。为了稳定优化，我们采用了AdamW（31）和分层学习率。新添加的MLP头的学习率相对较高，而ResNet-50主干网络的微调则更加保守，从后期层到早期层逐渐减小学习率。这种差异化的 scheduling策略有助于保留预训练的特征表示，同时允许分类头更快地适应下游任务。模型的详细超参数，包括优化器设置和训练计划，在支持信息中提供。

关键因素优化
我们检查了三个关键因素：每个类别的标记样本数量、增强规模以及目标外图像过滤的置信度阈值。参数选择是通过分析验证集确定的，并在测试集评估中应用。性能依赖于标记样本数量和增强规模
我们研究了用有限数量的标记样本（k-shot）微调的预训练分类模型的性能，并考虑了这两种因素之间的交互关系。我们采用网格搜索方法系统地绘制了性能地图（图7）。评估仅在包含目标外样本的目标图像上进行。

图7
图7. 标记样本数量与增强规模之间的关系。热图显示了不同k-shot设置和增强幅度（每个类别）下的加权F1分数。虚线红色轮廓突出显示了性能保持稳定的区域（F1分数>0.97）。一旦每个类别至少提供7个标记样本，并且每个类别都有1500个或更多的增强变体，就可以获得可靠的准确率。

高分辨率图像
下载MS PowerPoint幻灯片

由于使用完全标记的数据集（超过300个样本）的评估在验证数据集上获得了0.97–0.98的加权平均F1分数，我们将这个范围确定为性能稳定的阈值，并将其作为模型参数的优化标准。当训练集包含每个类别7个或更多标记示例，并且增强过程为每个类别生成不少于1500个合成样本时，分类器可靠地达到了这一水平。我们的分析表明，在每个类别应用足够的增强的情况下，即使每个类别只有不到10个人类标记的实例，也可以获得强劲的性能。因此，我们通过使用每个轮次（或每轮每个类别）至少10个标记实例来训练模型，并生成3000个增强样本，从而优化了我们的过程。增强组件的贡献
为了量化每个增强组件的贡献，我们在六种配置下训练了分类器，这些配置分别独立于几何基线来隔离每个颜色抖动组件（表4）。所有其他超参数保持不变，并且每种配置在两个数据集上都使用了两个随机种子进行了重复实验。

表4. 两个数据集上的增强消融实验（两个种子的平均值）
a, b 形状数据集
折叠数据集
增强
AccF1
AUROC
Coff
AccF1
AUROC
Coff
无
0.906
0.902
0.709
0.645
0.648
0.751
几何
0.980
0.978
0.809
0.829
0.835
0.801
G + B + C
0.990
0.990
0.812
0.839
0.847
0.767
G + S
0.985
0.984
0.807
0.837
0.847
0.758
G + H
0.989
0.988
0.841
0.838
0.850
0.751
全组合（G + B + C + S + H）
0.992
0.992
0.859
0.855
0.864
0.772

a. 每个抖动组件都是在几何基线的基础上单独测试的。
b. 几何（G）= 旋转（360°）+ 水平/垂直翻转；B + C = 亮度 + 对比度；S = 饱和度；H = 色调。颜色抖动通过 RandomApply(p = 0.8) 实现，强度分别为 0.7/0.7/0.7/0.5（B/C/S/H）。

仅几何变换就带来了最大的增益，分别在形状数据集和折叠数据集上提高了7.4%和18.4%的准确率。在几何基线的基础上测试的各个颜色抖动组件中，色调对AUROCcoff的提升最大（从0.809提高到0.841，+0.032），而亮度/对比度则提供了最大的封闭集准确率提升（在两个数据集上都提高了+1.0%）。颜色空间抖动使分类器能够适应不同AFM仪器和样品制备过程中常见的多样化背景和成像条件。全组合（G + B + C + S + H）在两个数据集上都获得了最高的封闭集性能，这证实了这些组件是互补的，并且在少数样本情况下共同促进了稳健的分类。

确定置信度分数
监督分类的一个关键限制是其固有的无法分类不属于任何预定义训练类别的对象的能力。在DNA折纸制造的背景下，AFM图像中出现非目标结构（如畸形或聚集的构象）是不可避免的；因此，为异常检测（OOD）选择合适的置信度分数是可靠流程操作的关键因素。
我们比较了三种广泛使用的置信度分数：softmax分数，定义为最大softmax概率，它会标记那些最大pi低于阈值τ的样本；能量分数，定义为E = ?log?∑i ezi，提供了一个理论上更有说服力的替代方案，因为它不太容易受到过度自信的softmax输出的影响；最后，我们考虑了余弦相似度分数，s = maxc cos(f, μc)，其中f是测试图像的L2标准化主干特征，μc是从少数样本训练集中计算出的L2标准化类均值原型；与每个类原型的相似度低表示这是一个OOD样本。
为了确定哪种置信度分数在不同结构的目标系统中的泛化能力最好，我们在两个不同的数据集上评估了这三种分数：形状数据集（3类；1518个目标样本/417个非目标样本）和折叠数据集（5类；2486个目标样本/202个非目标样本）。

我们报告了无阈值的AUROCcoff，它衡量的是随机抽取的非目标样本获得比随机抽取的目标样本更高分数的概率；因此，它总结了所有可能操作点下的区分能力，而无需依赖于特定的阈值。
如图8所示，余弦相似度分数始终优于softmax和能量分数，分别在形状数据集和折叠数据集上实现了0.859和0.822的AUROCcoff值。此外，它在两个数据集之间的AUROCcoff下降仅为0.037，而softmax为0.114，能量分数为0.092，这证实了余弦分数在两个数据集的所有假阳性率范围内都优于其他两种分数。

图8. 在两个结构不同的DNA折纸数据集上评估的三种置信度分数的ROC曲线：(a) 形状数据集（3类）和(b) 折叠数据集（5类）。余弦相似度分数（绿色）在两个数据集中始终占据了曲线下面积的最大部分，优于基于softmax和能量的分数。

高分辨率图像
下载MS PowerPoint幻灯片

这种差异可能反映了分数构建方式的根本区别：softmax和能量分数依赖于原始分类logits，其范围会随着类别数量和训练配置的变化而变化，而余弦相似度则在L2标准化特征空间中操作，自然地被限制在[0, 1]范围内，不受这些因素的影响。因此，我们采用余弦相似度分数作为我们流程中的置信度分数。

剩余的设计选择是如何在这个分数的基础上选择一个拒绝阈值。由于固定的阈值不能适用于结构不同的数据集，我们提出了一种简单的自适应阈值策略：在部署时，用户计算每个少数样本训练图像与其最近类原型之间的余弦相似度，并将拒绝阈值设置为该分布的较低p百分位数。因为这个过程仅使用分类已经需要的支持集，所以不会产生额外的数据收集成本，并且能够自动适应特定的成像条件和AFM设置。
为了评估这种选择的鲁棒性，我们在形状数据集和折叠数据集上将p扫描{1, 2, 3, 5, 7, 10}。如表5所示，相同的百分位数规则在两个数据集上产生了可比的F1值：在形状数据集上，F1从0.21（p = 1）单调增加到0.53（p = 10）；在折叠数据集上，当p ≥ 2时，F1在0.25到0.32之间稳定。我们在整篇文章中使用p = 7，这最大化了折叠数据集上的F1（0.317），同时在形状数据集上也接近最佳值（0.477），并且不需要针对每个数据集进行调整。

表5. 在形状数据集和折叠数据集上，随着p在{1, 2, 3, 5, 7, 10}之间变化时，基于余弦相似度置信度的自适应百分位数阈值的F1值
p = 1
F1
0.21
0.22
8
0.26
8
0.43
7
0.47
7
0.53
0
Folding
0.12
3
0.25
4
0.28
6
0.29
4
0.31
7
0.28
7

热点排行