基于类别引导关键特征聚合与自适应决策的声带病变预测模型 CKAD-Net

《Scientific Reports》:CKAD-Net: class-guided key-feature aggregation and adaptive decision network for vocal cord lesion prediction

【字体: 时间:2026年04月17日 来源:Scientific Reports 3.9

编辑推荐:

  声带病变(VCL)的早期识别对阻止其向喉癌恶化至关重要。本文提出了一种创新的声带病变预测模型CKAD-Net,其核心是类别引导的关键特征聚合机制与自适应决策机制。该模型在自建的VCLScopeData数据集上,对粗、细粒度病变的预测均表现出色(AUC高达0.944和0.929,ACC达0.864和0.730),性能显著优于其他模型。这项研究为声带病变的精准、高效辅助诊断提供了新的AI解决方案。

  
在日常生活中,悦耳动听的声音不仅是沟通的桥梁,也关乎个人生活质量。声带,作为我们嗓音的“发生器”,其健康状况却常被忽视。声带病变(Vocal Cord Lesion, VCL)是一类常见但易被忽略的疾病,初期可能仅表现为声音嘶哑,但若未能得到及时诊断和治疗,短期内会严重影响患者的语音质量和交流能力,降低其生活品质。更令人担忧的是,若病变长期存在并持续进展,有可能最终演变为喉部恶性肿瘤,严重威胁患者的健康与生命。因此,如何实现对声带病变的早期、精准识别,从而进行有效干预,成为临床上面临的一项重要挑战。
传统的声带病变诊断高度依赖于专业医生的经验,存在一定的主观性和诊断效率瓶颈。近年来,人工智能(Artificial Intelligence, AI),特别是机器学习(Machine Learning)和深度学习(Deep Learning)技术,在图像识别和医学辅助诊断领域展现出巨大潜力。然而,直接将现有通用模型应用于声带病变预测,往往难以充分捕捉不同病变类型的细微特征,导致模型性能不佳。针对这一难题,发表于《Scientific Reports》的研究提出了一种全新的深度学习框架——CKAD-Net,旨在通过智能化技术提升声带病变预测的准确性与可靠性。
为了完成这项研究,作者构建并使用了医院私有的声带病变影像数据集VCLScopeData。在模型方法上,研究主要依托于两个核心技术:一是“类别引导的关键特征聚合机制”,该机制能够根据不同病变类型,自适应地调整模型对不同特征的注意力分布,从而强化与特定类别相关的特征表达;二是“自适应决策机制”,它通过一个可学习的权重因子,动态融合来自不同特征层面的预测结果,生成更精准的最终决策。研究通过对比实验,验证了CKAD-Net在粗粒度和细粒度声带病变预测上的优越性能。
研究结果
模型架构与核心机制
研究提出了CKAD-Net模型。其创新性主要体现在两个核心模块上。类别引导的关键特征聚合机制通过分析不同病变类别的特性,引导模型在学习过程中聚焦于对区分该类病变最具判别性的图像区域和特征,有效增强了模型的特征表征能力。自适应决策机制则设计了一个可学习的权重参数,能够根据输入样本的特性,动态地权衡并融合来自基础特征区域和经过类别引导的判别性特征的预测分数,实现了决策层面的自适应优化。
在粗粒度声带病变预测任务上的性能
研究首先评估了CKAD-Net在区分病变与正常声带的粗粒度任务上的表现。实验结果表明,CKAD-Net取得了优异的性能,其受试者工作特征曲线下面积(Area Under Curve, AUC)达到了0.944 ± 0.002 [0.940, 0.948],分类准确率(Accuracy, ACC)为0.864 ± 0.008 [0.848, 0.880]。这一结果显著优于其他参与对比的基准模型,证明了CKAD-Net模型在识别声带是否存在病变方面的强大能力。
在细粒度声带病变预测任务上的性能
研究进一步在更具挑战性的细粒度任务上测试了模型,即需要对不同类型的声带病变(如息肉、结节等)进行精确分类。在这一任务中,CKAD-Net同样表现突出,其AUC值为0.929 ± 0.003 [0.923, 0.935],ACC为0.730 ± 0.015 [0.700, 0.759]。尽管细粒度分类的难度更大,但CKAD-Net依然保持了很高的AUC值和具有竞争力的准确率,再次验证了其提出的类别引导和自适应决策机制在捕捉细微病变差异方面的有效性。
消融实验与分析
为了深入理解模型中各个组件的作用,研究进行了系统的消融实验。实验分别移除了类别引导的关键特征聚合模块和自适应决策模块。结果发现,当移除任一模块时,模型在粗粒度和细粒度任务上的性能均出现明显下降,AUC和ACC指标均有降低。这充分证明了这两个核心机制对于CKAD-Net取得优异性能都是不可或缺的,它们共同协作,分别从特征学习和决策融合两个层面提升了模型的预测精度。
研究结论与意义
本研究表明,所提出的CKAD-Net模型在声带病变预测任务上,无论是粗粒度的病变检测还是细粒度的病变分类,均展现了卓越的性能,其AUC和ACC指标均优于其他对比模型。该研究的核心贡献在于创新性地引入了类别引导的关键特征聚合与自适应决策机制。前者使模型能够“有的放矢”,针对不同病变强化学习最具判别性的特征;后者则让模型能够“灵活权衡”,智能融合不同层面的证据以做出更可靠的判断。这两大机制的协同工作,有效解决了通用模型在医学影像细粒度分类中特征利用不充分、决策单一的问题。
这项工作具有重要的理论与实践意义。在理论层面,它为计算机辅助诊断(Computer-Aided Diagnosis, CAD)领域,特别是针对医学影像的细粒度分类问题,提供了一种新的、可解释性更强的网络架构设计思路。在实践层面,CKAD-Net为声带病变的早期筛查和精准诊断提供了一个高效、客观的AI工具原型,有望辅助耳鼻喉科医生提升诊断效率与一致性,降低漏诊、误诊风险。最终,这项技术的应用推广,对于改善声带疾病患者的预后、阻止良性病变向恶性转化、保障患者的生命健康与生活质量,具有积极的促进作用和广阔的临床应用前景。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号