综述：三维计算机断层扫描/锥形束计算机断层扫描中解剖标志点的自动识别：一项范围综述

《Frontiers in Dental Medicine》：Automatic identification of anatomical landmarks in three-dimensional computed tomography/cone-beam computed tomography: a scoping review

【字体：大中小】 时间：2026年05月29日 来源：Frontiers in Dental Medicine 1.8

编辑推荐：

　　目的：本研究旨在进行一项范围综述，系统性回顾三维（3D）计算机断层扫描（CT）/锥形束计算机断层扫描（CBCT）中软组织和硬组织标志点的自动识别技术，特别关注基于人工智能（AI）的方法，以探索其在精度、效率和临床适用性方面的进展与挑战。材料与方法：在这项范围

目的：本研究旨在进行一项范围综述，系统性回顾三维（3D）计算机断层扫描（CT）/锥形束计算机断层扫描（CBCT）中软组织和硬组织标志点的自动识别技术，特别关注基于人工智能（AI）的方法，以探索其在精度、效率和临床适用性方面的进展与挑战。
材料与方法：在这项范围综述中，研究人员检索了截至2026年1月发表在PubMed、Web of Science和Cochrane Library数据库中关于CT/多层螺旋CT或CBCT中自动标志点识别的研究。纳入标准为将自动标志点识别方法与通常由人类专家手动标注的参考标准进行验证的研究。
结果：最终共有37项研究（20项仅CBCT，10项仅CT，7项CBCT+CT）被纳入本综述。大多数研究聚焦于非综合征型恒牙列人群或单一类型的错畸形（除6项涉及混合牙列外），且样本数量有限，75.7%的研究样本量小于200例。标志点数量从7到105个不等，大多数研究关注硬组织标志点，仅6项涉及软组织标志点。在精度方面，56.8%的研究达到了临床可接受的标准[平均径向误差（MRE）< 2 mm]，整体趋势表明标志点识别精度逐渐提高。部分研究未使用MRE或成功检测率作为结果指标，这可能影响了分析的整体可比性。
结论：现有研究样本数量和类型有限；标志点主要集中在硬组织，单一算法在临床应用中的鲁棒性和泛化性能有限。此外，三维自动标志点识别的准确性评估体系尚未标准化，传统二维准确性阈值在三维空间中的临床意义仍存在争议。

本综述旨在系统梳理三维计算机断层扫描（3D-CT）/锥形束计算机断层扫描（CBCT）影像中解剖标志点自动识别技术的研究进展，尤其是基于人工智能（AI）的方法，并探讨其在精度、效率和临床应用方面面临的挑战。

## 1 引言
颅颌面畸形指牙齿、上颌骨、下颌骨及面部软组织间的异常位置关系，影响咀嚼功能、颞下颌关节健康及气道状况。传统诊断依赖头影测量分析，由正畸医生或口腔颌面外科医生手动标记解剖标志点，以获取具有临床意义的线性距离和角度数据。该手动校准过程耗时、依赖经验，易产生系统误差。鉴于此局限性，人工智能（AI）的快速发展推动了二维（2D）头影测量自动化的进程，主要提升了效率和稳定性。然而，2D图像存在固有缺陷，如颅骨左右结构重叠、结构放大不均、解剖结构变形以及患者拍摄时头部位置变化导致的随机误差，这些都限制了诊断的准确性和全面性。
自20世纪90年代末锥形束计算机断层扫描（CBCT）技术引入以来，正畸医生迅速采用了三维（3D）成像。CBCT在特定诊断任务中优势显著，在适应症情况下可减少正畸和颌面外科手术规划中对多次2D X光片的需求。与计算机断层扫描（CT）/多层CT（MSCT）相比，CBCT成本更低、辐射暴露更少，并且可以直接从3D图像测量上颌骨和颌骨宽度，从而排除牙齿倾斜或移位的影响。基于CBCT的分析更为准确，已成为颌骨宽度分析的金标准。此外，CBCT能够精确评估牙齿位置、气道结构等关键参数，量化颌平面偏差，为手术决策提供客观依据。然而，在高复杂度的3D图像（如颅骨）中手动识别标志点仍是一项具有挑战性且繁琐的任务，易产生随机和系统误差，进而影响评估的可重复性。这凸显了开发高精度AI驱动3D标志点识别系统的必要性，该系统可在适应症情况下相比手动方法提高临床诊断和治疗的效率和准确性。
在自动标志点识别技术的发展中，根据人工干预程度可分为全自动和半自动方法。半自动方法通常需要人类参与，如设置初始标志点、调整参数或校正不准确结果；全自动方法则依靠算法独立完成所有标志点的识别和定位。目前，许多研究正从半自动向全自动方法过渡；然而，真正的全自动标志点识别尚未实现。因此，研究人员相信全自动解剖标志点识别尚未实现，本文中使用的“自动”一词并非指真正的全自动化。
当前，用于自动标志点定位的主流AI算法的演进轨迹清晰。早期阶段以森林模型和形状模型为主，依赖手工特征和先验约束。后期阶段以深度神经网络为主导，卷积神经网络（CNN）和U-Net架构实现了端到端的精确定位。此外，图卷积网络（GCN）被用于建模标志点间的几何关系，而多任务学习和注意力机制进一步增强了特征表示和定位精度。在精度方面，纳入方法的平均误差范围从0.89?±?0.64 mm到5.79?±?0.98 mm，显示出随着神经网络进步而精度持续提高的趋势。
尽管有这些技术进步，但目前尚缺乏关于3D自动标志点识别证据的全面综合。现有综述常聚焦于2D技术、特定算法，或缺乏对方法学鲁棒性、临床适用性和研究间标准化的系统性综合。虽然理想的完美自动标志点识别要求完全无需人工干预（真正的全自动），但在此综述中，“自动标志点识别”实际上指仅需最少用户干预的方法，因为真正的全自动系统尚未经过临床验证。因此，本研究采用范围综述方法，系统回顾了在3D-CT/CBCT图像中进行硬组织和软组织标志点自动识别的技术，重点关注基于AI的分析（如深度学习），以探讨其在精度、效率和临床应用方面的进展与挑战。本综述的见解可以指明未来的研究方向，并为颅颌面畸形诊断和治疗的精确、智能方案开发提供参考。

## 2 材料与方法
### 2.1 研究设计与指南
本研究严格按照范围综述的方法学框架进行，遵循Arksey和O'Malley提出的五阶段框架，并按照PRISMA-ScR报告指南进行报告。

### 2.2 文献检索策略
为识别相关文章，研究人员在PubMed、Web of Science和Cochrane Library（用于Cochrane系统评价）数据库中，使用布尔运算符（“AND”和“OR”）组合医学主题词（MeSH）和自由词短语进行检索（最后检索日期为2026年1月23日）。鉴于3D自动标志点识别在2020年尚未因神经网络技术而成为主流，2020年及以前发表的研究使用关键词（“cephal*”）AND（“3D” OR “CBCT” OR “CT”）AND（“automated” OR “artificial intelligence” OR “machine learning” OR “deep learning” OR “learning”）进行筛选。对于2021年1月至2026年1月发表的文献，此时神经网络在自动定位中的应用已趋成熟，为避免遗漏涉及全身（非仅颅骨）自动定位的跨学科研究文献，使用了以下检索词：（“3D” or “CBCT” or “CT”）AND（“automated” OR “artificial intelligence” OR “machine learning” OR “deep learning” OR “learning” OR “AI-driven”）。重复文献首先使用EndNote排除，然后由其中一名作者（JZ）手动核查。
纳入本综述的研究根据PICO（研究对象、干预、比较、结果）框架制定以下标准：（1）研究对象：接受CBCT或MSCT检查的个体，无年龄限制。（2）干预措施：基于CBCT或MSCT图像的自动解剖标志点识别系统。（3）比较：自动识别系统的性能与参考标准进行评估，参考标准通常由人类专家手动标注组成。（4）结局指标：主要结局指标为解剖标志点识别的定量准确性指标（例如，平均径向误差、成功检测率）。未报告定量准确性结局的研究被排除。（5）研究设计：本研究包括体外和体内前瞻性及回顾性研究（临床试验、比较研究、验证研究或评估研究），排除书籍章节、动物研究、病例报告、流行病学研究、叙述性综述和作者观点文章。（6）时间设定：未设置起始时间限制，检索截止至2026年1月23日。数据库检索采用分阶段策略。第一阶段涵盖2020年及以前发表的文献，第二阶段涵盖2021年1月至2026年1月发表的文献，每个阶段使用不同的检索词集。（7）语言：英文。

### 2.3 文献筛选与数据提取
文献筛选和数据提取由两名作者（YW和JZ）独立进行。检索共获得5,622篇论文：PubMed中46篇（2020年及以前）和2,898篇（2021年至今）；Cochrane Library数据库中5篇（2020年及以前）和114篇（2021年至今）；Web of Science数据库中29篇（2020年及以前）和2,530篇（2021年至今）。去重后，选取3,976篇论文进行初步筛选。经过标题和摘要筛选及全文精读，排除了3,909篇与3D-CT/CBCT中解剖标志点自动识别无关或不符合研究目标的出版物。此外，两名评审员（YW和JZ）手动检索原始研究、综述和会议文献的参考文献，以补充电子数据库检索可能遗漏的相关研究。最终，37项符合纳入标准并提供有效数据的研究被纳入并进行深度分析。文献纳入筛选过程详见PRISMA流程图。
为评估不同研究中与自动标志点识别相关的信息，提取了纳入文献的数据集、样本量、通用方法、算法和准确性评估指标。

### 2.4 质量评估
使用诊断准确性研究质量评估-2（QUADAS-2）工具评估纳入诊断准确性研究的方法学质量。该工具在四个关键领域评估研究：患者选择、索引测试、参考标准以及流程和时间。评估每个领域的偏倚风险，并且前三个领域还评估了适用性方面的顾虑。
两名评审员（YW和JZ）独立对每项纳入研究进行质量评估。他们判断中的任何分歧通过讨论解决直至达成共识，或在必要时咨询第三位资深评审员。质量评估结果见图。

## 3 结果
### 3.1 数据集特征
#### 3.1.1 不同类型的3D-Ct和样本类型（不同牙列阶段和不同错畸形类型）
所回顾的研究包括20例仅CBCT病例，主要涉及非错畸形患者的图像分析；10例仅CT数据集，主要用于各种颌面畸形的手术规划。大多数研究在其数据集中包含了恒牙列，只有少数研究涉及混合牙列；仅一项研究包含了乳牙列病例。此外，大多数研究聚焦于某一类特定患者，例如唇腭裂患者、半侧面部萎缩患者、无综合征的颌面畸形患者，以及需要正颌手术治疗牙颌畸形的患者。
#### 3.1.2 样本量和来源
在纳入的研究中，样本量范围从18到1,190例，54.1%（20/37）的研究样本量≤100例（18-100例），21.6%（8/37）的研究样本量为100-200例（107-198例）。近年来，越来越多的研究倾向于使用更大的样本量。例如，Blum等人的研究纳入了1,045例，而Liu等人的研究纳入了1,190例。
关于样本来源，大多数数据来自单一医疗中心或使用统一影像设备收集，参与者大多局限于特定种族或民族群体。

### 3.2 数据集的校准
#### 3.2.1 校准方法
手动校准3D-CT标志点的方法分为在3D重建模型上直接固定和多平面重建（MPR）辅助固定两类：9篇文章使用了前者，14篇文章使用了后者。使用在3D重建模型上直接固定方法的数据集，其自动固定的准确性可能低于MPR辅助固定方法。
#### 3.2.2 标志点的类型和数量
以往3D-CT自动标志点识别研究中的大多数解剖标志点仅限于硬组织，少数涉及软组织，并且大多数数据来自与正颌手术相关的颌面畸形患者。标志点数量从7到105个不等，大多数涉及矢状向和垂直向的头影测量指标，与上颌宽度不调相关的指标很少。

### 3.3 自动标志点识别算法的技术创新
#### 3.3.1 通用方法
3D-CT自动标志点识别的实现可分为以下三种不同方法：
（1）基于知识的方法：基于预定义的定义，应用数学描述（如峰值和谷值）在图像的解剖轮廓上定位标志点。本综述共纳入了四种基于知识的自动定点方法。例如，Gupta等人通过定义感兴趣区域和轮廓特征检测了20个颅颌面标志点，平均误差为2.01 mm。该研究团队随后通过几何轮廓分析和坐标计算实现了自动头影测量，准确性接近手动标记。Neelapu等人提出了一种基于人体解剖边界定义的3D-CBCT图像标志点检测自动算法；其在20个标志点处的总平均误差为1.88 mm。Montúfar等人进一步创新性地将基于知识的方法与基于学习的方法相结合，提出了混合主动形状模型和基于知识的标志点定位方法。这类方法依赖于先验知识，但对复杂解剖结构的适应性较差。
（2）基于图谱的方法：使用一个或多个参考图像的图谱，手动标记参考标志点，然后将参考图像与测试图像对齐，从而将参考标志点转移到新图像上进行标志点识别。本综述共纳入了两种基于图谱的自动定点方法，例如，Shahidi等人结合特征对齐和图谱方法实现了14个标志点的自动识别，平均误差为3.4 mm。在另一项研究中，Codari等人使用半自动方法手动确定下颌谷点，并使用基于强度的图像配准，将21个标志点从参考颅骨转移到特定颅骨，完成自动标志点识别。该方法的准确性受图像变形和配准误差的限制。
（3）基于学习的方法：首先使用训练集训练AI学习图像特征，从而实现自动标志点定位。本综述纳入了32种基于学习的自动定位方法，其算法主要包括森林模型、形状模型、全卷积网络（FCN）、卷积神经网络（CNN）、图卷积网络（GCN）、多任务学习、注意力机制和U-Net架构。其中，U-Net架构常与CNNs通过级联或并联架构结合使用。准确性范围从0.89?±?0.64到5.79?±?0.98 mm，随着神经网络的发展，总体趋势是准确性逐渐提高，表明其比基于知识和基于图的自动定点方法具有更高的准确性。

### 3.4 自动标志点识别准确性分析
#### 3.4.1 准确性评估标准
自动标志点识别的评估标准——包括平均绝对误差（MAE）、均方根误差（RMSE）、一致性相关系数（CCC）、平均径向误差（MRE）和成功检测率（SDR）——在不同研究中各不相同。MRE计算自动定位点与手动标注金标准（Ground Truth, GT）之间的平均欧几里得距离（通常以mm为单位），其中欧几里得距离是N维空间中两点间的直线距离；二维和三维标志点的误差距离分别源于两个和三个坐标方向。MRE和SDR是目前最常用的精度指标，本综述纳入的37篇文章中有30篇（81.1%）使用了该指标。
#### 3.4.2 准确性评估的不一致性
所纳入文献的可用自动标志点识别准确性范围从0.89?±?0.64 mm到5.79?±?0.98 mm。现有研究在数据集的手动校准和自动识别难度上存在差异；因此，仅依靠所有点的MRE或SDR值来直接比较不同研究的准确性是不够客观的。例如，Chen等人报告的整体平均误差为1.64?±?1.13 mm，小于Neelapu等人1.88?±?1.10 mm的结果。然而，Chen等人研究中鼻根点（nasion）的平均误差为1.69?±?1.34 mm，大于Neelapu等人研究中的0.95?±?0.69 mm；对于B点（Point B），数值分别为2.17?±?1.64 mm和1.78?±?0.91 mm，在Chen等人的研究中显示更高的数值。

## 4 讨论
CBCT是一种通过锥形X射线束和平面探测器获取3D体积数据的医学成像系统，其特点是在有限扫描范围内具有亚毫米级空间分辨率，具有低辐射剂量、低成本和高空间分辨率的显著优势。CT是一种通过计算机重建围绕人体从多个角度投影的X射线束数据来获取横断面图像的医学成像技术。与CBCT相比，CT扫描范围更广，但辐射剂量相对较高。由于不同设备的成像参数（如体素大小、视野、扫描时间）可能影响后续自动标志点识别的准确性，未来的研究应考虑详细说明图像采集技术和相关参数。
纳入恒牙列病例的趋势可能是因为恒牙解剖结构相对规则稳定，从而易于准确识别。尽管准确、可重复地识别解剖标志点不仅是颅面异常诊断和治疗的关键，也是AI深度学习的基础，但青春期是正齿治疗的最佳时机，因为这一发育阶段为改善面部轮廓和咬合功能提供了关键窗口，并且由于生长期解剖变异性更大，给自动标志点识别带来了更大挑战。因此，有必要进行针对性研究。值得注意的是，不同研究聚焦于某一类患者限制了其单一算法的泛化性。为增强算法的临床价值和泛化能力，建议未来的研究应同时纳入更多样化的影像数据：不同牙列发育阶段（乳牙期、混合牙列期、恒牙列期）、多种错畸形类型（骨性Ⅰ-Ⅲ类）以及复杂的解剖变异（如唇腭裂、半侧面部萎缩、颌骨病变和颞下颌关节紊乱）。
现有3D-CT自动标志点识别研究的局限性包括样本量和来源，75.7%的研究纳入少于200个案例。小样本训练容易导致模型过拟合，即在特定数据集上表现良好，但在外部验证时准确性下降。更大的样本量有效减少随机误差，有助于提高解剖标志点定位的准确性。尽管少数研究已将3D自动定位的数据库数量增加到超过1,000例，但与传统基于2D图像的深度学习研究（通常需要数万个样本来训练模式）相比，3D图像研究的样本量仍有提升空间。同时，大多数现有研究的样本同质性往往限制了算法跨种族泛化的能力。为克服样本量和多样性不足对算法鲁棒性和泛化性的影响，Sahlsten等人的研究纳入了多中心、多民族和设备多样化的数据，该模型有望有效支持算法优化。
关于校准方法，在3D重建模型上直接固定直观且有助于快速识别明显的体表标志点（如鼻根点、颏前点），但无法完全避免3D数据重建过程中的误差。在MPR辅助固定中，可以在围绕3D渲染模型的窗口中显示矢状面、轴面和冠状面切片。通过多视图评估进行多操作者交叉验证可以减少观察者间变异性，提高标志点识别的准确性。然而，Hassan等人指出，使用MPR方法时，标志点校准的平均时间加倍，尽管准确性提高了。这种在MPR辅助手动标志点识别中观察到的精度优势趋势可能会扩展到基于深度学习的自动标志点检测算法中。尽管排除了样本量差异的潜在影响，在de Jong等人和Montúfar等人的研究中，与在3D重建模型上直接固定进行标志点识别相比，MPR辅助校准的鼻根点MRE降低了0.65 mm。由于人类专家在使用MPR辅助标志点识别时表现出更高的准确性，通过让AI系统性地学习上述高质量数据集，可以开发出更智能的算法。
以往3D-CT自动标志点识别研究中的大多数解剖标志点主要集中在硬组织，相对较少的研究调查软组织标志点的识别。这一现象可能源于两个因素：一方面，CT/CBCT成像技术对硬组织具有更高的对比分辨率；另一方面，许多算法在预处理阶段主动排除软组织信息，这可能会引入噪声并影响检测精度。此外，与骨性解剖标志点的识别相比，软组织解剖标志点的自动识别面临更突出的挑战，这是该领域数据缺口的重要原因。首先，软组织在常用成像模式中表现出低对比度和模糊边界，其形态易受患者体位、生理状态等非解剖因素影响，增加了模型学习的难度。其次，软组织标志点的临床定义往往缺乏统一的解剖共识，且专家间标注一致性低，导致“金标准”本身存在相当大的观察者变异性，从而影响了模型训练监督和准确性评估的可靠性。此外，公共数据集中软组织样本的可用性不足，限制了深度神经网络在该任务上的训练效能和泛化能力。尽管软组织的准确识别更依赖于三维形态距离映射等技术，但随着CBCT成像技术的不断进步，一些研究人员最近已开始将CBCT应用于面部软组织研究，这提供了新的可能性。考虑到Choudhary等人研究中基于CBCT的软组织测量精度存在区域性差异，未来的研究应考虑改进CBCT的软组织标志点识别算法，以增强其在面部三维形态测量和分析中的全面性。这种改进可以扩大CBCT在临床场景中的应用价值，例如正齿治疗设计和整形外科手术规划。
随着AI技术的快速发展，数据驱动的计算机视觉神经网络架构（CNN、FCN、U-Net架构）已成为基于学习的自动定点领域的研究热点，因其强大的特征提取能力。在早期机器学习中，Zhang等人提出了一种基于分段引导的部分联合回归森林模型，利用回归森林和多尺度统计特征自动数字化CBCT上的颅颌面标志点，校准15个标志点的平均误差为1.44 mm；2018年，Montúfar等人使用主动形状模型在正交投影上定位标志点，然后转换为3D坐标，校准18个标志点的平均误差为3.6476 mm。随后，他们提出了结合知识驱动标志点定位的混合主动形状模型，进一步将平均误差降低至2.5129?±?1.6058 mm。接着，Zhang等人提出了一种上下文引导的FCN用于联合骨分割和标志点数字化，15个标志点的平均误差仅为1.10 mm。自2019年以来，包括CNN、FCN和U-Net架构在内的神经网络受到了广泛关注，其准确性逐步提高。例如，O’Neil等人提出使用FCN代替传统的决策森林，用于CT扫描中解剖标志点的自动定位，其中FCN表现显著优于决策森林方法。Lee等人使用一种基于阴影2D图像的机器学习方法进行自动3D头影测量标注，使用具有3D几何形态信息的多个2D阴影图像，结合VGG-net进行训练，7个主要标志点的平均误差为1.5 mm。这些基于神经网络的方法通过大量训练数据学习标志点的特征，能够有效适应个体间不同的颅颌面差异，提高自动标志点识别的准确性。然而，此类基于计算机视觉的算法模型训练面临的挑战包括对大规模、高质量标注数据的依赖、训练期间对计算资源的高需求以及模型可解释性弱。当前该领域的研究趋势包括通过整合注意力机制和多任务学习来进一步增强模型鲁棒性的方法。Chen等人采用了一个图注意力模块和一个自注意力门控模块，其中图注意力模块用于捕捉标志点之间的全局-局部依赖关系，而自注意力门控模块增强了对关键信息的关注，从而提高了标志点检测的准确性。总体而言，基于深度学习的自动标志点识别方法比基于知识、基于图以及其他机器学习算法的方法更准确。
关于准确性，一些文献报告的相对较低的定位准确性可能归因于样本类型的复杂性，由于年龄、创伤和发育畸形，相同的解剖结构更难识别，从而增加了整体平均误差。Park等人的研究进一步证实，在根尖发育不完全的年轻恒牙中，尚未完全闭合的根尖孔呈喇叭口状特征，导致解剖根尖标志点的3D空间定位准确性显著降低。因此，在评估算法准确性时，不能仅将整体平均MRE或SDR作为唯一的比较指标，原因如下：首先，MRE < 2 mm的临床可接受性取决于具体情境。在2D分析中，此阈值可能符合常规诊断要求。然而，在3D CBCT中，仅MRE < 2 mm是不够的，因为角度测量对方向误差累积高度敏感，尤其是在解剖结构不明显的区域。因此，MRE应与空间测量参数一起评估，而不是作为临床适用性的唯一标准。其次，SDR应定义为径向误差在2 mm、3 mm和4 mm阈值内的标志点比例。第三，单个标志点2 mm误差的临床影响取决于其在后续测量中的作用。对于核心标志点（如蝶鞍点和鼻根点），此类误差可通过角度和线性测量（如ANB角）传播，可能使诊断解释产生偏差，特别是当数值接近临床决策阈值时。最后，人类专家并非完美的金标准。观察者间/观察者内变异性以及解剖歧义性（如下颌角点、根尖孔外露的根尖）给手动标注带来了固有的局限性。因此，即使在基于AI的标志点识别之后，仍建议进行手动二次校准以确保临床可靠性。
现有的准确性评估体系存在一些局限性。MRE和SDR作为评估AI模型定位性能的核心指标，可以有效反映算法输出点与GT点之间的欧几里得距离，并有助于稳定性检测。然而，在临床应用中，这些指标存在一些局限性，需要结合解剖特征和临床需求来考虑。例如，双侧耳点（Po）缺乏明显的骨性结构过渡特征。在X轴和Y轴方向通过影像特征定位尤其困难；然而，只要Z轴（垂直方向）定位准确，并基于Po点建立法兰克福水平平面，仍然可以满足临床正畸分析或手术规划的功能需求。虽然许多研究使用MRE，但其他研究未使用，影响了分析的整体可比性。为增强未来研究的可比性，研究人员提出通过将标志点精度转换为具有预定义阈值（≤ 2.0 mm/°）的临床可解释参数（如角度、距离和面积）来标准化自动3D头影测量的评估，而不是仅仅依赖MRE。
一些学者将自动标志点识别输出的点坐标转换为临床诊断中的测量值，作为评估标志点识别方法准确性的补充方法。由于CBCT中矢状中线平面的头影测量与传统2D测量无显著差异，一些研究通过比较AI和GT在3D图像矢状中线平面上的正交投影测量值（如线距和角度）来验证算法准确性，或者通过比较基于知识的自动标志点识别方法与Angle I类患者手动标志点获得的3D线距和角度测量值来进行验证。其他研究通过比较GT和AI在53项测量值上的差异来评估算法性能。然而，这些方法无法充分利用3D测量的潜力，尤其是对于偏斜患者，矢状中线平面的投影角度可能因下颌骨偏斜而显著偏离真实的3D角度。因此，本研究提出引入一种潜在的补充评估方法：对深度学习获取的标志点坐标进行综合3D测量，并与人类专家手动标志点测量结果进行统计比较，以在自动标志点识别后验证其准确性，从而全面评估AI模型在3D空间中的临床适用性。
针对当前领域的局限性，未来的研究应重点关注以下方向。首先，应构建更大、更多样化的数据集，覆盖多种成像模式、解剖部位和人群特征，同时改进软组织标志点的标准化标注。其次，应开发自监督或半监督学习框架，以减少对大规模标注数据的依赖，并结合整合解剖先验知识（例如，通过图神经网络引入几何约束），以增强模型在不同临床场景下的泛化能力。第三，应建立标准化的评估体系，包括统一的评估指标、固定的数据划分和公共基准平台，以促进研究间的公平比较并加速自动标志点识别技术的临床转化。

### 4.1 局限性
本综述的若干方法学局限性可能影响研究结果的全面性，需要在未来研究中加以解决：（1）可能遗漏了灰色文献（如会议论文、技术报告）；（2）纳入研究在数据集、算法和评估指标方面存在显著异质性，限制了研究间的直接比较；（3）由于这种变异性，无法进行荟萃分析；（4）单中心、小样本数据集可能引入的潜在偏倚限制了结果的泛化性。未来的研究应采用多中心设计，纳入更大、更多样化的数据集，并采用标准化的评估框架。

## 5 结论
近年来，随着算法的不断进步，3D-CT自动标志点识别技术取得了显著发展。然而，当前研究仍面临以下关键挑战：（1）由于数据集小且同质，常聚焦于非综合征型恒牙列人群或单一错畸形类型，导致算法鲁棒性有限；（2）标志点数量有限且选择受限，较少研究关注软组织标志点，从而限制了算法在临床应用中的泛化能力；（3）三维准确性评估体系非标准化，大多数研究沿用传统二维头影测量的阈值（例如，欧几里得距离< 2 mm被视为临床准确性标准，距离< 4 mm被认为临床可接受）；（4）缺乏系统性研究来验证欧几里得距离的维度差异对角度测量数据及其临床意义的影响，以及与临床意义更相关、更明确的评估标准缺乏。未来的研究需要解决这些问题，以推动3D-CT自动定点技术的发展及其在临床实践中的更好应用。

热点排行