Kolmogorov-Arnold 优化 UNet:一种基于 Kolmogorov-Arnold 网络和卷积 Kolmogorov-Arnold 网络的增强型图像分割模型
编辑推荐:
图像分割模型KUNet通过引入Kolmogorov-Arnold网络(KAN)和其卷积扩展CKAN,优化UNet架构,提升复杂特征提取与多模态泛化能力。实验验证其在DRIVE、ISBI2015等7个数据集上表现最优或次优,参数量最少且输出稳定性显著优于基线模型。
作者:娄世萌、邵玉斌、杜青志
单位:中国云南省昆明市昆明科技大学信息工程与自动化学院,邮编650500
摘要
由于独特的编码器-解码器架构,UNet模型已成为图像分割的关键工具,但在提取复杂特征和增强泛化能力方面仍存在局限性。为了解决这些问题,本文提出了一种优化的人工智能模型——Kolmogorov-Arnold优化UNet(KUNet)。该模型通过集成Kolmogorov-Arnold网络(KAN)和卷积Kolmogorov-Arnold网络(CKAN)来改进原始UNet架构。具体而言,KUNet用CKAN替换了传统的卷积层,引入了基于KAN的特征增强模块,优化了跳跃连接,并加入了自适应基函数学习机制。这些改进共同提升了特征提取的多样性和准确性,同时保留了结构信息。实验在七个多模态数据集(CARVANA、dsb2018、ISBI2015、LiTS、CORN、DRIVE和Lungs)上进行,使用了五组随机种子和提前停止策略以确保结果的可靠性。实验结果表明,KUNet在四个数据集(DRIVE、ISBI2015、Lungs和CORN)上取得了最佳的分割性能,并在其余数据集上表现出了极具竞争力的第二名。特别是在处理复杂结构(如血管、细胞和神经)时,KUNet表现出卓越的细节保留和边界分割能力。此外,KUNet的参数数量最少,在计算效率和分割准确性之间取得了良好的平衡,其输出具有极低的性能标准差。总之,KUNet不仅显著提高了图像分割的准确性,还为在实际场景中部署深度学习分割模型提供了一种新颖、高效且稳健的AI驱动架构。
引言
图像分割是计算机视觉和多模态数据处理中的基本技术,在医学成像、眼科和自动驾驶等领域有广泛应用(Garcia-Garcia等人,2017;Minaee等人,2021;Li等人,2024;Koz?owski等人,2024)。在医学成像中,分割不仅用于精确勾画器官(如肝脏、肺部)的边界,还支持肿瘤定位和核分析等关键任务,在疾病早期诊断和治疗计划中发挥着重要作用(Lee等人,2024;Rong等人,2023;Roth等人,2015;Litjens等人,2017)。在眼科领域,准确分割角膜神经和眼部结构对于青光眼和视网膜病变等疾病的早期诊断至关重要(Devalla等人,2020)。在自动驾驶系统中,分割能够准确识别车辆、行人和交通标志,确保在复杂交通环境中的实时物体检测和系统安全(Rizzoli等人,2022;Cordts等人,2016)。
UNet模型因其编码器-解码器架构和跳跃连接而成为图像分割的经典方法(Ronneberger等人,2015)。然而,UNet在复杂特征提取和泛化能力方面仍存在局限性,尤其是在捕捉多尺度特征和保留细节方面(Zhou等人,2018;Jiangtao等人,2025;Zhang等人,2025)。尽管传统卷积层可以有效地提取局部特征,但它们难以在大感受野和多个尺度上捕获关键信息,导致分割准确性不足——尤其是在处理精细结构和边界时(Zhao等人,2017)。
为了解决这些问题,提出了多种改进模型。例如,DeepLab系列采用了孔状卷积来扩展感受野,在分割复杂场景方面表现出色(Chen等人,2017)。此外,基于Transformer的模型(如Swin-UNet)利用自注意力机制,在多模态任务中展现出更强的泛化能力(Cao等人,2022)。然而,即使这些先进模型也面临特定数据集的挑战。
2024年,受Kolmogorov–Arnold定理启发的Kolmogorov-Arnold网络(KAN)被引入,并证明了其强大的非线性特征表示能力,能够有效捕获复杂数据中的潜在模式(Liu等人,2024)。其卷积变体CKAN(卷积KAN)将卷积操作与可学习的基函数结合,特别适合图像数据中的多尺度特征提取(Bodner等人,2024)。通过将KAN和CKAN模块集成到UNet中,我们旨在克服传统卷积层在特征表示和细节保留方面的不足,从而提高分割准确性和泛化能力,特别是在复杂和多模态场景中。
在本研究中,我们提出了基于KAN和CKAN架构的KUNet模型。本研究的主要贡献如下:
- 用CKAN替换传统卷积层,显著增强了多尺度特征提取能力,并提高了复杂图像场景中的分割准确性。
- 将KAN层引入解码器的上采样阶段作为特征增强模块,进一步优化了特征表示和细节保留。
- 使用KAN处理编码器特征图以优化跳跃连接,促进了多尺度特征的融合,提高了整体模型性能。
- 整合了可学习的基函数参数,使模型能够根据不同数据集的特点动态调整基函数,从而提高适应性和泛化能力。
所提出的方法已在多个多模态数据集上进行了验证。为了全面评估KUNet模型的泛化能力,我们在七个基准数据集(CARVANA、DSB2018、ISBI2015、LiTS、CORN、DRIVE和Lungs)上进行了实验。通过这些优化,本文不仅提出了一个新颖的图像分割框架,还为处理复杂和多模态数据提供了更高效的解决方案。
相关工作
本节首先概述了我们工作所基于的网络架构改进理由(第2.1节),然后详细介绍了用作比较基线的原始UNet模型(第2.2节)。
方法
本节系统阐述了我们提出的KUNet方法。首先介绍了KUNet的整体优化架构(第3.1节),然后深入探讨了其两个核心理论组成部分:KAN网络(第3.2节)及其卷积扩展CKAN(第3.3节)。
实验
本节详细介绍了验证KUNet性能的实验设置。具体包括:使用的数据集及其预处理流程(第4.1节)、采用的评估指标(第4.2节)以及模型的损失函数和训练细节(第4.3节)。
结果
本节从多个维度全面展示了和分析实验结果。首先是对分割结果的视觉比较分析(第5.1节),然后评估了模型在低分辨率输入下的鲁棒性(第5.2节)。接着进行了基于统计指标的全面性能比较和分析(第5.3节)。最后,通过消融研究验证了每个模块的贡献(第5.4节)。
结论
本文提出了基于KAN和CKAN网络的UNet图像分割模型KUNet。该模型通过用卷积Kolmogorov-Arnold网络(CKAN)层替换传统卷积层,引入KAN特征增强模块,优化跳跃连接,并整合自适应基函数学习机制,有效提升了提取复杂特征的能力和融合多尺度信息的效率。
CRediT作者贡献声明
娄世萌:写作——审稿与编辑、撰写初稿、可视化、验证、软件开发、资源管理、方法论设计、调查、形式分析、数据整理、概念构建。
邵玉斌:写作——审稿与编辑、监督、资金获取。
杜青志:写作——审稿与编辑、监督。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文报告的工作。