使用具有迁移学习功能的孪生网络对小样本数据集进行牙齿识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Displays》：Using siamese networks with transfer learning for dental identification on small-samples datasets

【字体：大中小】 时间：2026年03月25日 来源：Displays 3.4

编辑推荐：

　　本文提出一种基于深度学习的牙科识别模型，通过多维度特征融合和跨域迁移学习策略提升识别精度。首先改进图像纹理特征并设计双阶段迁移学习框架实现特征空间对齐，其次测试VGG、ResNet等网络发现VGG19表现最佳，Rank-1准确率71.05%。最后引入注意力机制，其中CA模块嵌入VGG16 Block_5层前，准确率提升至86.61%，验证轻量级网络在细粒度识别中的优势。

刘园|李家庆|徐同凯|龙云子|程学元|王环|杨冉|梁胜

中国北京，北京大学口腔医学院及医院普通牙科二系、国家口腔医学中心、国家口腔疾病临床研究中心、国家口腔生物材料与数字医疗设备工程技术研究中心

摘要

牙科识别在临床诊断和法医鉴定中发挥着重要作用，但由于传统方法依赖人工经验，效率较低。随着人工智能技术的进步，深度学习为牙科识别提供了新的解决方案。然而，实际应用仍面临数据注释不足、特征变异性和可区分性等问题。本文提出了一种基于深度学习的牙科识别模型，结合了多维特征融合和跨领域迁移学习策略，以提高识别精度，同时减少对大规模标注数据的依赖。首先，我们通过CLAHE和随机几何变换的协作增强策略提高了图像纹理特征的质量，并设计了两阶段跨领域迁移学习框架，利用ImageNet预训练模型实现特征空间对齐。其次，引入了孪生网络架构来评估VGG、ResNet、DenseNet和EfficientNet等CNN模型的性能。实验结果表明，VGG19的识别精度最高，达到71.05%的排名第一准确率。最后，通过加入CBAM、ECA和CA等注意力机制，优化了VGG网络的细粒度特征识别性能，特别是在VGG16的Block_5层之前嵌入CA机制后，排名第一准确率提升至86.61%。本研究为牙科识别提供了一条有效的技术路径，证明了轻量级网络架构的优越性能。

引言

在信息驱动的社会中，识别技术在社会保障、金融交易、智能设备控制和个人隐私保护等领域至关重要。传统的识别方法（如密码、PIN码和实体卡认证）虽然使用简单，但容易被盗用或伪造，无法满足现代社会的复杂安全需求。因此，基于生物特征和行为模式的识别技术应运而生，提供了更高的安全性和便利性。指纹[1]、面部[2]和虹膜[3]识别已被广泛采用，但在某些情况下可能存在伪造风险和环境影响。牙科识别技术因其独特性和稳定性而受到关注。口腔结构（如牙齿形态[4]和排列[5]）具有显著的个体差异和高稳定性，是一种独特且难以篡改的识别方式。口腔X光图像数据的长期保存特性使其在法医鉴定等领域具有价值。

早期的研究主要依赖于手动特征提取，如牙齿形态、种植体特征和牙科修复材料。陈洪等人提出了一种基于主动轮廓模型的方法，通过新的动态能力区分相邻牙齿边界[7]。日井明等人开发了一种基于相位相关函数的高效牙科图像配准算法[8]。Oktay引入了一种新的方法，使用支持向量机和概率模型来识别和标记牙齿，根据牙齿外观和几何相似性计算图像匹配分数，达到81%的排名第一准确率和89%的排名第二准确率[9]。随着深度学习技术的进步，研究人员开始使用卷积神经网络（CNN）进行自动牙科识别。Kim等人使用预训练的VGG16进行模型训练，并通过排名第一、第三和第五的准确率、运行时间和梯度加权类激活映射来评估模型[10]。Sathya B等人应用AlexNet进行迁移学习，分三个阶段进行牙齿图像特征提取和分类[11]。Fan等人开发了DENT-net，通过计算特征向量之间的相似性来比较图像[12]。Lai等人设计了一种可学习的连接注意力网络，集成了改进的通道注意力模块用于卷积训练[13]。Wu等人提出了基于注意力机制的多监督网络（AMNet），使用余弦相似性计算图库和查询特征之间的匹配分数[14]。Lin等人引入了DHI-GAN，通过“生成时分类”的范式解决了小样本问题[15]。

本文旨在通过引入迁移学习和孪生网络模型来优化口腔X光图像识别技术，以提高识别精度。

本研究的主要创新点有三点：首先，我们为小规模牙科数据集设计了两阶段跨领域迁移学习框架；其次，系统研究了在孪生网络中嵌入轻量级注意力机制的策略，并确定了最佳配置——将坐标注意力（CA）模块放置在VGG16的Block_5层之前；第三，我们证明了适当配置的轻量级网络在这一特定细粒度识别任务中可以超越更深的架构。

节选内容

孪生网络架构

孪生网络是一种用于相似性判断的深度学习架构，广泛应用于图像识别和验证任务。它最初由Bromley等人提出，用于手写签名验证[16]。其特点是通过对输入对使用具有共享权重的两个子网络提取特征并计算它们的相似性。与传统分类网络不同，孪生网络不直接预测类别标签，而是学习确定相似性。

骨干网络的性能比较

表2展示了不同骨干网络在牙科身份识别任务中的识别性能和检索效率。

如表2所示，VGG系列在排名第一准确率上明显优于其他骨干网络。VGG19在排名第一准确率上比VGG16高出2.63%，而ResNet系列则表现出深度负相关性，即模型越深，性能越差，这表明深度架构可能存在梯度消失问题。

单一注意力机制的比较

不同注意力机制的效果

讨论

本研究系统评估了不同骨干网络、注意力机制和嵌入位置对牙科身份识别任务性能的影响。主要发现如下：

(1) 骨干网络的影响

实验结果表明，VGG16的性能优于VGG19，并显著优于ResNet、DenseNet和EfficientNet系列。特别是ResNet系列表现出深度负相关性，即模型越深

结论

本研究对各种骨干网络和注意力机制配置在牙科身份识别和检索任务中的性能进行了系统比较。实验结果表明，VGG16始终优于其他骨干网络，更适合嵌入轻量级注意力模块。在单一注意力机制中，通道注意力（CA）模块在嵌入前的性能最佳

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本研究得到了国家重点研发计划（项目编号：2023YFF0615800）的资助。

联系信箱：

粤ICP备09063491号

摘要

引言

节选内容

孪生网络架构

骨干网络的性能比较

单一注意力机制的比较

讨论

结论

利益冲突声明

致谢

热点排行