综述：关于用于医学图像分割的神经网络轻量级技术的调查

《Pattern Recognition》：A Survey on lightweight technology of neural networks for medical image segmentation

【字体：大中小】 时间：2026年05月02日 来源：Pattern Recognition 7.6

编辑推荐：

　　朱志勤|王汉臣|齐观秋|李园园|尼尔·马祖尔|刘宇|李华峰|丛百森|白立涛重庆邮电大学计算机科学与技术学院，重庆，400065，中国 **摘要** 近期医学图像分割技术的进步显著提高了分割精度。然而，大规模分割网络的临床应用仍受到参数数量过多、架构复杂以及适应不同

　　朱志勤|王汉臣|齐观秋|李园园|尼尔·马祖尔|刘宇|李华峰|丛百森|白立涛
重庆邮电大学计算机科学与技术学院，重庆，400065，中国

**摘要**
近期医学图像分割技术的进步显著提高了分割精度。然而，大规模分割网络的临床应用仍受到参数数量过多、架构复杂以及适应不同部署环境能力有限等挑战的制约。轻量级设计的缺失进一步限制了它们在资源有限的边缘设备中的集成。为了解决这些问题，轻量级策略应运而生。结构优化简化了网络架构，降低了计算成本；模型压缩技术在不牺牲性能的情况下缩小了模型规模；同时，硬件级加速为实际场景中的高效推理提供了额外支持。本综述系统地总结了从软件和硬件角度出发的医学图像分割轻量级方法，重点介绍了包括剪枝、量化、知识蒸馏和高效网络架构在内的代表性算法，以及针对边缘部署定制的硬件感知优化策略。此外，我们还探讨了将大规模模型与轻量级技术相结合的主流方法，以实现分割精度和计算效率之间的最佳平衡。最后，本文指出了当前的限制和潜在的研究方向，以促进轻量级分割模型在常规临床工作流程中的应用。通过提供结构化的参考，本综述旨在帮助研究人员和实践者推动医学图像分割在临床环境中的高效实用应用。

**1. 引言**
医疗和健康领域面临资源短缺、人口老龄化以及医疗服务不平衡等多重挑战，这凸显了提高临床工作流程效率的迫切需求。医学图像分析的最新进展促进了全栈分析和医疗服务的整合，使服务趋向于集成化的全方位模型。由于计算和内存要求高，医学图像分割在部署时常遇到困难（如图1所示）。这些限制对延迟、能源效率和存储等关键性能指标产生了不利影响，最终阻碍了临床工作流程的顺利进行。通用大型模型的出现（如基础医学AI模型[1]）通过出色的泛化能力大大提升了医学图像分割的性能。然而，基于云的部署会导致实时场景中的不可接受延迟（由于数据传输量大）。为了解决这一问题，人们探索了模型蒸馏等技术来开发轻量级且高效的替代方案。因此，减小模型规模、提高推理速度以及实现本地化部署将成为未来的发展方向。

鉴于在临床环境中获取和维护高性能计算工作站的高昂成本，对能够在医学图像中精确分割目标区域的轻量级神经网络架构的需求日益增加。已有大量研究聚焦于计算效率高的医学图像分析，特别是CT[2]和MRI[3][4][5]等模态的分割应用。此外，新兴研究表明，在资源受限的环境中，轻量级方法在医学图像分割任务中同样有效。这一趋势直接反映了在资源受限的临床和研究环境中对高效分割解决方案的日益增长的需求。尽管该领域取得了显著进展，但目前轻量级方法在实际临床应用中的整合仍不够充分。同时，缺乏能够全面严格整合现有研究成果的系统综述，这阻碍了对核心挑战的清晰识别和未来研究方向的确定。本文旨在通过提供全面的最新综述来填补这一空白，为后续研究提供指导。

**2. 材料与方法**
2.1. 搜索策略
为了确保本系统综述的严谨性，我们在文献搜索过程中遵循了《系统评价和荟萃分析的优先报告项目》（PRISMA）指南。具体而言，我们在Web of Science、PubMed、IEEE Xplore、ACM Digital Library、Science@Direct、Scopus和Springer Link等数据库中进行了全面搜索，以尽量减少相关文献的遗漏。如图2所示，搜索时间范围调整为2019年1月至2025年6月，以与实际发表的研究时间线保持一致。我们使用布尔逻辑组合关键词：“（”轻量级神经网络”或“模型压缩”或“模型剪枝”或“高效模块”或“量化”）和（“CT”或“MRI”或“超声”或“PET”或“医学图像”）和（“分割”）。使用Zotero软件从初始搜索结果中删除重复记录。

**3. 轻量级方法**
本章研究了通过模型和硬件优化实现的医学图像分割方法，代表性方法在表1中进行了总结。确定“代码可用性”的标准如下：研究文章是否提供了可访问代码的具体存储库地址。如果文章明确给出了官方代码存储库、第三方代码存储库或其他类型代码存储库的有效地址，并且可以通过这些地址获取相应代码，则认为该研究的代码是“可用”的。图4展示了用于医学图像分割的轻量级技术的详细分类树，进一步明确了模型和硬件两个核心优化方向。轻量级医学图像分割网络大致可以分为两个主要发展方向：模型优化和硬件优化。

**4. 性能评估**
第4节讨论了这些方法在医学分割中的性能，包括可重复性和通用性问题，并展望了硬件集成和轻量级的新型范式。

**5. 结论**
本文探讨了软件、硬件和医学成像领域轻量级技术的演变，强调了模型-硬件优化、互补作用以及任务转移的共享技术。回顾了集成医疗保健领域的最新研究成果，并关注实际应用和临床效果。

**6. 下一步工作**
鉴于轻量级方法在医学领域中的独特整合方式，现有文献中缺乏全面的综述。因此，本研究专门针对医学成像中的轻量级技术进行了调查。为了提升临床工作流程，本文探讨了软件-硬件集成，总结了医学软件和硬件开发的实用轻量级策略。通过分析全栈医学方法，本文评估了不同的轻量级方法，识别了挑战，并指出了未来的研究方向。这些混合方法展示了如何将结构稀疏性与专门的注意力机制相结合，以显著优化轻量级医学成像框架。WiNet [3] 通过嵌入可微分的离散小波变换（DWT）来进一步推进轻量级设计，该变换可以将输入分解为频率子带，从而在不丢失信息的情况下将空间分辨率减半，并使用无参数的逆离散小波变换（IDWT）来重建全分辨率输出，避免了昂贵的级联操作并大幅降低了内存使用量。除了频率域设计外，空间自适应模块也实现了极端的轻量化，例如SACB-Net [58] 就是一个例子。它采用了一个共享的轻量级编码器，通过高效的K-Means聚类生成空间感知核，并在低分辨率尺度上进行粗到细的估计，最终得到了一个仅包含1.11M参数的超轻量级模型。LessNet [59] 通过完全放弃可学习的编码器，进一步实现了架构的简化。为了从定量角度进一步说明这一点，我们在表2中总结了代表性轻量级模块与标准卷积的计算复杂性。如表所示，DSConv与标准卷积相比可以将FLOPs减少近70%，而MPConv和LDN-SNP分别减少了60%和40%-50%。尽管非对称卷积结构扩大了感受野，但仍能节省约30%的FLOPs。这证实了这些模块的效率不仅在概念上是可行的，而且在实践中也是可测量的，为它们适用于轻量级医学图像分割网络提供了强有力的证据。

总体而言，这些高效模块的进步凸显了一个明确的趋势：从简单的参数减少转向创建与医学图像独特特征相匹配的整体设计。通过结合不同的卷积范式、注意力机制和架构创新，研究人员正在稳步推进医学图像分割领域的轻量级神经网络的发展，使得在资源受限的临床环境中实现高性能分割变得更加容易。

表2. 代表性轻量级模块与标准卷积的计算复杂性比较。复杂性是基于输入大小为H×W、输入通道数为Cin和输出通道数为Cout的情况估计的，“k”代表卷积核的大小。

模块 | 复杂性 | 相比标准卷积的减少量
--- | --- | --- |
| Standard Conv (k×k) | O(k2CinCoutHW) | — |
| DSConv [9] | O(k2CinHW) + O(CinCoutHW) | ～70% |
| MPConv [13] | O(k3CinHW) + O(CinCoutHW) | ～60% |
| LDN-SNP [14] | O(αCinHW), α| asymmetric conv [7] | o(∑kcincouthw) | ～30% |

3.1.2. 神经架构搜索（nas）
神经架构搜索（nas）通过自动化高效的网络设计，正在彻底改变轻量级医学图像分割领域。它超越了手动试错的方法，探索了广泛的网络架构空间，以找到在捕获医学图像复杂模式的同时减少参数和能耗的配置。在医学图像分割中，nas正从通用搜索空间向任务感知设计发展。denas-vit将nas从模块级选择细化为u形编码器-解码器框架内的token级多尺度搜索[23]，而ew2则通过自适应优化窗口移动大小和解码器上采样策略，进一步针对医学成像进行了定制[22]。进化策略增强了nas在医学成像中的应用范围。slicemamba表明，nas可以适应病变和器官的不同大小和形状，自动识别特定任务的扫描配置，从而实现更好的局部特征建模[21]。将u-net与gp结合使用，利用u-net的优势同时发展出新的连接[19]。进化框架通过使用差分进化（de）来识别轻量级fcn和eu-net[17]，利用交叉/突变来减少冗余。这对于多尺度医学特征至关重要，如图5所示的病变特征进化搜索过程中，不同的架构能够检测到小和大的病变[18]。

nas重新定义了轻量级设计，创建了优先考虑诊断特征的结构。通过整合进化多样性、任务感知和约束，它在适应性方面超越了手动设计，使得在资源受限的诊所中实现高精度分割成为可能。

3.1.3. 总结
医学图像分割的轻量级结构设计通过卷积和架构创新，在准确性和效率之间取得了平衡。在卷积层面，效率主要通过多尺度特征提取、分解卷积以及非对称或维度解耦设计得到提升。在架构层面，轻量级注意力机制以有限的开销增强了关键特征，而nas则实现了数据驱动的优化，更好地平衡了特征保留和参数压缩，适用于小样本、特定领域的医学数据。此外，集成轻量级模型和大规模模型正成为实现更好精度-效率权衡的重要趋势。

3.2. 模型压缩和加速
3.2.1. 知识蒸馏
知识蒸馏使轻量级学生模型能够模仿强大的教师模型进行医学分割，同时平衡效率和性能。注意力校正和边界约束的蒸馏在降低复杂性的同时保持了性能[30]；而浅层3d u-nets利用欧几里得距离和加权损失进行椎骨分割[29]，如图6所示。带有贝叶斯优化学生模型的集成框架[60]进一步根据任务特定需求定制了蒸馏过程。值得注意的是，自蒸馏是知识蒸馏的一种变体，它使模型能够从自身获取知识，从而无需预训练的教师模型。这种方法在应对标记医学数据的稀缺性方面表现出了显著的效果。具体来说，拓扑感知自蒸馏框架（tasdf）[32]结合了自蒸馏机制和拓扑约束，解决了囊胚图像分割中的挑战，有效提高了分割准确性和结构完整性，同时减少了对外部标记样本的依赖。此外，missu [28]将自蒸馏与3d transunet架构结合，用于体积医学图像分割，在模型内部蒸馏多尺度特征知识，以增强全局语义表示和局部空间细节学习，同时在训练后丢弃辅助蒸馏分支以保持推理效率。

3.2.2. 修剪
修剪通过移除冗余连接或参数来减小模型大小。结构化修剪包括滤波器修剪、权重修剪和通道修剪，被认为更容易实现。遗传策略有助于高效修剪：通过遗传运算符保留未修剪的层滤波器，避免了敏感层的损坏并减少了维度[34]；将滤波器修剪视为多目标优化与遗传算法结合，用于脑肿瘤分割中的冗余去除[36]。架构设计也至关重要。transedgenet [41]表明，将deeplabv3+与令牌修剪和时空注意力结合使用，可以在实时医学图像分析中提高分割精度，同时减少计算开销。最近的mamba基设计进一步表明，修剪可以扩展到拓扑感知的稀疏化，其中图细化和平滑节点掩蔽结合使用，去除了冗余连接，同时保留了诊断上重要的结构[40]。硬件感知方法，如fpga（现场可编程门阵列）优化的修剪，在息肉分割中提高了约30%的速度[37]。

3.2.3. 量化
与知识蒸馏和修剪相比，模型量化更侧重于通过将模型权重和激活值从高比特宽度转换为低比特宽度表示来优化硬件逻辑，从而降低计算和存储成本。尽管在医学分割领域还处于早期阶段，量化已经显示出显著的潜力。在fpga系统上，量化u-net权重和激活值实现了10倍的加速和15倍的内存减少[62]。高级技术，如自适应量化和分布损失，进一步实现了12倍的三值量化压缩[42]。此外，向量量化（vq）[63]在瓶颈处将连续特征离散化为码本表示，通过将不规则特征映射到最近的码本条目，从而在保持准确性的同时提高了可解释性。混合精度量化[42]解决了固定低比特宽度方案中的性能损失和敏感性不一致问题。策略包括在解码器中进行语义-空间比特宽度分配，以及基于操作符复杂性的动态阶段调整[44]。结合haq [43]和qat [64]，这些范式为胎儿超声等要求苛刻的临床应用优化了精度-资源权衡。

3.3. 部署和操作
3.3.1. 边缘设备和iomt（医疗物联网）
iomt驱动的边缘计算实现了本地数据处理，解决了医学分割中的效率-性能权衡问题。通过结合双重注意力机制和混合信号处理，模型可以在保持准确性的同时显著降低能耗[47]。这些创新降低了在便携式临床传感器和智能手机上部署复杂分割工具的障碍。此外，定制策略解决了设备限制：u-rwkv [48]采用线性复杂度的rwkv设计，结合空间位移和三方向扫描，保留了3d空间结构，同时提高了效率，仅使用9.33m参数就实现了强大的体积分割性能。sslln框架[65]通过用2d卷积和4d张量替换内存密集型的3d卷积和5d张量操作，实现了高效的轻量化，显著减少了gpu内存占用、内存带宽压力和计算密度，非常适合在内存有限的临床gpu上部署。sua [66]通过采用紧凑的2d u-net类型生成器-检测器架构，实现了显著的轻量化，将空间变换和强度渲染分为独立的轻量级模块，避免了使用重型3d卷积、变换器或多分支开销。英特尔团队为ncs-2平台优化了一个基本的u-net模型[45]，减少了特征图和参数，以确保兼容性。对于分布式场景，mobileunet-fpn的多级边缘系统将训练转移到本地医院节点，通过减少数据传输来降低通信开销[46]。

3.3.2. tpu（张量处理单元）
在能源效率方面，tpu在医学分割中优于gpu。例如，边缘tpu提供了更快、更节能的青光眼和病理检测分割，这对便携式诊断工具非常有益[50]。针对edge tpus优化tensorflow lite模型进一步提高了效率，使网络适应tpu架构[49]。专用平台也利用了类似tpu的加速技术。对于胎儿测量分割，zynq ultrascale+ mpsoc使用xilinx dpu进行深度学习推理，使用apu进行预处理/关键点检测[64]。这种架构通过高效的数据流、并行处理和智能内存管理提高了性能，这对于实时医学分析至关重要。

3.3.3. 现场可编程门阵列（fpga）
在基于3d cnn的肺结节分割中，使用多个fpga节点优化了资源利用和吞吐量，如图8所示，展示了fpga在体积医学数据方面的可扩展性[67]。通过配置式处理元素（pe）架构，可以进一步提高fpga的效率[51]。同时，根据卷积层的特性调整计算模式，可以确保计算负载最大的组件实现最佳运行。除了加速器优化外，设计工具和自定义模块也增强了fpga的潜力。xilinx system generator简化了fpga设计，直接提高了分割任务的处理速度[68]。 | ～40%-50% | | asymmetric conv [7] | o(∑kcincouthw) | ～30% | 3.1.2. 神经架构搜索（nas）神经架构搜索（nas）通过自动化高效的网络设计，正在彻底改变轻量级医学图像分割领域。它超越了手动试错的方法，探索了广泛的网络架构空间，以找到在捕获医学图像复杂模式的同时减少参数和能耗的配置。在医学图像分割中，nas正从通用搜索空间向任务感知设计发展。denas-vit将nas从模块级选择细化为u形编码器-解码器框架内的token级多尺度搜索[23]，而ew2则通过自适应优化窗口移动大小和解码器上采样策略，进一步针对医学成像进行了定制[22]。进化策略增强了nas在医学成像中的应用范围。slicemamba表明，nas可以适应病变和器官的不同大小和形状，自动识别特定任务的扫描配置，从而实现更好的局部特征建模[21]。将u-net与gp结合使用，利用u-net的优势同时发展出新的连接[19]。进化框架通过使用差分进化（de）来识别轻量级fcn和eu-net[17]，利用交叉突变来减少冗余。这对于多尺度医学特征至关重要，如图5所示的病变特征进化搜索过程中，不同的架构能够检测到小和大的病变[18]。 nas重新定义了轻量级设计，创建了优先考虑诊断特征的结构。通过整合进化多样性、任务感知和约束，它在适应性方面超越了手动设计，使得在资源受限的诊所中实现高精度分割成为可能。 3.1.3. 总结医学图像分割的轻量级结构设计通过卷积和架构创新，在准确性和效率之间取得了平衡。在卷积层面，效率主要通过多尺度特征提取、分解卷积以及非对称或维度解耦设计得到提升。在架构层面，轻量级注意力机制以有限的开销增强了关键特征，而nas则实现了数据驱动的优化，更好地平衡了特征保留和参数压缩，适用于小样本、特定领域的医学数据。此外，集成轻量级模型和大规模模型正成为实现更好精度-效率权衡的重要趋势。 3.2. 模型压缩和加速 3.2.1. 知识蒸馏知识蒸馏使轻量级学生模型能够模仿强大的教师模型进行医学分割，同时平衡效率和性能。注意力校正和边界约束的蒸馏在降低复杂性的同时保持了性能[30]；而浅层3d u-nets利用欧几里得距离和加权损失进行椎骨分割[29]，如图6所示。带有贝叶斯优化学生模型的集成框架[60]进一步根据任务特定需求定制了蒸馏过程。值得注意的是，自蒸馏是知识蒸馏的一种变体，它使模型能够从自身获取知识，从而无需预训练的教师模型。这种方法在应对标记医学数据的稀缺性方面表现出了显著的效果。具体来说，拓扑感知自蒸馏框架（tasdf）[32]结合了自蒸馏机制和拓扑约束，解决了囊胚图像分割中的挑战，有效提高了分割准确性和结构完整性，同时减少了对外部标记样本的依赖。此外，missu [28]将自蒸馏与3d transunet架构结合，用于体积医学图像分割，在模型内部蒸馏多尺度特征知识，以增强全局语义表示和局部空间细节学习，同时在训练后丢弃辅助蒸馏分支以保持推理效率。 3.2.2. 修剪修剪通过移除冗余连接或参数来减小模型大小。结构化修剪包括滤波器修剪、权重修剪和通道修剪，被认为更容易实现。遗传策略有助于高效修剪：通过遗传运算符保留未修剪的层滤波器，避免了敏感层的损坏并减少了维度[34]；将滤波器修剪视为多目标优化与遗传算法结合，用于脑肿瘤分割中的冗余去除[36]。架构设计也至关重要。transedgenet [41]表明，将deeplabv3+与令牌修剪和时空注意力结合使用，可以在实时医学图像分析中提高分割精度，同时减少计算开销。最近的mamba基设计进一步表明，修剪可以扩展到拓扑感知的稀疏化，其中图细化和平滑节点掩蔽结合使用，去除了冗余连接，同时保留了诊断上重要的结构[40]。硬件感知方法，如fpga（现场可编程门阵列）优化的修剪，在息肉分割中提高了约30%的速度[37]。 3.2.3. 量化与知识蒸馏和修剪相比，模型量化更侧重于通过将模型权重和激活值从高比特宽度转换为低比特宽度表示来优化硬件逻辑，从而降低计算和存储成本。尽管在医学分割领域还处于早期阶段，量化已经显示出显著的潜力。在fpga系统上，量化u-net权重和激活值实现了10倍的加速和15倍的内存减少[62]。高级技术，如自适应量化和分布损失，进一步实现了12倍的三值量化压缩[42]。此外，向量量化（vq）[63]在瓶颈处将连续特征离散化为码本表示，通过将不规则特征映射到最近的码本条目，从而在保持准确性的同时提高了可解释性。混合精度量化[42]解决了固定低比特宽度方案中的性能损失和敏感性不一致问题。策略包括在解码器中进行语义-空间比特宽度分配，以及基于操作符复杂性的动态阶段调整[44]。结合haq [43]和qat [64]，这些范式为胎儿超声等要求苛刻的临床应用优化了精度-资源权衡。 3.3. 部署和操作 3.3.1. 边缘设备和iomt（医疗物联网） iomt驱动的边缘计算实现了本地数据处理，解决了医学分割中的效率-性能权衡问题。通过结合双重注意力机制和混合信号处理，模型可以在保持准确性的同时显著降低能耗[47]。这些创新降低了在便携式临床传感器和智能手机上部署复杂分割工具的障碍。此外，定制策略解决了设备限制：u-rwkv [48]采用线性复杂度的rwkv设计，结合空间位移和三方向扫描，保留了3d空间结构，同时提高了效率，仅使用9.33m参数就实现了强大的体积分割性能。sslln框架[65]通过用2d卷积和4d张量替换内存密集型的3d卷积和5d张量操作，实现了高效的轻量化，显著减少了gpu内存占用、内存带宽压力和计算密度，非常适合在内存有限的临床gpu上部署。sua [66]通过采用紧凑的2d u-net类型生成器-检测器架构，实现了显著的轻量化，将空间变换和强度渲染分为独立的轻量级模块，避免了使用重型3d卷积、变换器或多分支开销。英特尔团队为ncs-2平台优化了一个基本的u-net模型[45]，减少了特征图和参数，以确保兼容性。对于分布式场景，mobileunet-fpn的多级边缘系统将训练转移到本地医院节点，通过减少数据传输来降低通信开销[46]。 3.3.2. tpu（张量处理单元）在能源效率方面，tpu在医学分割中优于gpu。例如，边缘tpu提供了更快、更节能的青光眼和病理检测分割，这对便携式诊断工具非常有益[50]。针对edge tpus优化tensorflow lite模型进一步提高了效率，使网络适应tpu架构[49]。专用平台也利用了类似tpu的加速技术。对于胎儿测量分割，zynq ultrascale+ mpsoc使用xilinx dpu进行深度学习推理，使用apu进行预处理关键点检测[64]。这种架构通过高效的数据流、并行处理和智能内存管理提高了性能，这对于实时医学分析至关重要。 3.3.3. 现场可编程门阵列（fpga）在基于3d cnn的肺结节分割中，使用多个fpga节点优化了资源利用和吞吐量，如图8所示，展示了fpga在体积医学数据方面的可扩展性[67]。通过配置式处理元素（pe）架构，可以进一步提高fpga的效率[51]。同时，根据卷积层的特性调整计算模式，可以确保计算负载最大的组件实现最佳运行。除了加速器优化外，设计工具和自定义模块也增强了fpga的潜力。xilinx system>| asymmetric conv [7] | o(∑kcincouthw) | ～30% |

3.1.2. 神经架构搜索（nas）
神经架构搜索（nas）通过自动化高效的网络设计，正在彻底改变轻量级医学图像分割领域。它超越了手动试错的方法，探索了广泛的网络架构空间，以找到在捕获医学图像复杂模式的同时减少参数和能耗的配置。在医学图像分割中，nas正从通用搜索空间向任务感知设计发展。denas-vit将nas从模块级选择细化为u形编码器-解码器框架内的token级多尺度搜索[23]，而ew2则通过自适应优化窗口移动大小和解码器上采样策略，进一步针对医学成像进行了定制[22]。进化策略增强了nas在医学成像中的应用范围。slicemamba表明，nas可以适应病变和器官的不同大小和形状，自动识别特定任务的扫描配置，从而实现更好的局部特征建模[21]。将u-net与gp结合使用，利用u-net的优势同时发展出新的连接[19]。进化框架通过使用差分进化（de）来识别轻量级fcn和eu-net[17]，利用交叉/突变来减少冗余。这对于多尺度医学特征至关重要，如图5所示的病变特征进化搜索过程中，不同的架构能够检测到小和大的病变[18]。

nas重新定义了轻量级设计，创建了优先考虑诊断特征的结构。通过整合进化多样性、任务感知和约束，它在适应性方面超越了手动设计，使得在资源受限的诊所中实现高精度分割成为可能。

3.1.3. 总结
医学图像分割的轻量级结构设计通过卷积和架构创新，在准确性和效率之间取得了平衡。在卷积层面，效率主要通过多尺度特征提取、分解卷积以及非对称或维度解耦设计得到提升。在架构层面，轻量级注意力机制以有限的开销增强了关键特征，而nas则实现了数据驱动的优化，更好地平衡了特征保留和参数压缩，适用于小样本、特定领域的医学数据。此外，集成轻量级模型和大规模模型正成为实现更好精度-效率权衡的重要趋势。

3.2. 模型压缩和加速
3.2.1. 知识蒸馏
知识蒸馏使轻量级学生模型能够模仿强大的教师模型进行医学分割，同时平衡效率和性能。注意力校正和边界约束的蒸馏在降低复杂性的同时保持了性能[30]；而浅层3d u-nets利用欧几里得距离和加权损失进行椎骨分割[29]，如图6所示。带有贝叶斯优化学生模型的集成框架[60]进一步根据任务特定需求定制了蒸馏过程。值得注意的是，自蒸馏是知识蒸馏的一种变体，它使模型能够从自身获取知识，从而无需预训练的教师模型。这种方法在应对标记医学数据的稀缺性方面表现出了显著的效果。具体来说，拓扑感知自蒸馏框架（tasdf）[32]结合了自蒸馏机制和拓扑约束，解决了囊胚图像分割中的挑战，有效提高了分割准确性和结构完整性，同时减少了对外部标记样本的依赖。此外，missu [28]将自蒸馏与3d transunet架构结合，用于体积医学图像分割，在模型内部蒸馏多尺度特征知识，以增强全局语义表示和局部空间细节学习，同时在训练后丢弃辅助蒸馏分支以保持推理效率。

3.2.2. 修剪
修剪通过移除冗余连接或参数来减小模型大小。结构化修剪包括滤波器修剪、权重修剪和通道修剪，被认为更容易实现。遗传策略有助于高效修剪：通过遗传运算符保留未修剪的层滤波器，避免了敏感层的损坏并减少了维度[34]；将滤波器修剪视为多目标优化与遗传算法结合，用于脑肿瘤分割中的冗余去除[36]。架构设计也至关重要。transedgenet [41]表明，将deeplabv3+与令牌修剪和时空注意力结合使用，可以在实时医学图像分析中提高分割精度，同时减少计算开销。最近的mamba基设计进一步表明，修剪可以扩展到拓扑感知的稀疏化，其中图细化和平滑节点掩蔽结合使用，去除了冗余连接，同时保留了诊断上重要的结构[40]。硬件感知方法，如fpga（现场可编程门阵列）优化的修剪，在息肉分割中提高了约30%的速度[37]。

3.2.3. 量化
与知识蒸馏和修剪相比，模型量化更侧重于通过将模型权重和激活值从高比特宽度转换为低比特宽度表示来优化硬件逻辑，从而降低计算和存储成本。尽管在医学分割领域还处于早期阶段，量化已经显示出显著的潜力。在fpga系统上，量化u-net权重和激活值实现了10倍的加速和15倍的内存减少[62]。高级技术，如自适应量化和分布损失，进一步实现了12倍的三值量化压缩[42]。此外，向量量化（vq）[63]在瓶颈处将连续特征离散化为码本表示，通过将不规则特征映射到最近的码本条目，从而在保持准确性的同时提高了可解释性。混合精度量化[42]解决了固定低比特宽度方案中的性能损失和敏感性不一致问题。策略包括在解码器中进行语义-空间比特宽度分配，以及基于操作符复杂性的动态阶段调整[44]。结合haq [43]和qat [64]，这些范式为胎儿超声等要求苛刻的临床应用优化了精度-资源权衡。

3.3. 部署和操作
3.3.1. 边缘设备和iomt（医疗物联网）
iomt驱动的边缘计算实现了本地数据处理，解决了医学分割中的效率-性能权衡问题。通过结合双重注意力机制和混合信号处理，模型可以在保持准确性的同时显著降低能耗[47]。这些创新降低了在便携式临床传感器和智能手机上部署复杂分割工具的障碍。此外，定制策略解决了设备限制：u-rwkv [48]采用线性复杂度的rwkv设计，结合空间位移和三方向扫描，保留了3d空间结构，同时提高了效率，仅使用9.33m参数就实现了强大的体积分割性能。sslln框架[65]通过用2d卷积和4d张量替换内存密集型的3d卷积和5d张量操作，实现了高效的轻量化，显著减少了gpu内存占用、内存带宽压力和计算密度，非常适合在内存有限的临床gpu上部署。sua [66]通过采用紧凑的2d u-net类型生成器-检测器架构，实现了显著的轻量化，将空间变换和强度渲染分为独立的轻量级模块，避免了使用重型3d卷积、变换器或多分支开销。英特尔团队为ncs-2平台优化了一个基本的u-net模型[45]，减少了特征图和参数，以确保兼容性。对于分布式场景，mobileunet-fpn的多级边缘系统将训练转移到本地医院节点，通过减少数据传输来降低通信开销[46]。

3.3.2. tpu（张量处理单元）
在能源效率方面，tpu在医学分割中优于gpu。例如，边缘tpu提供了更快、更节能的青光眼和病理检测分割，这对便携式诊断工具非常有益[50]。针对edge tpus优化tensorflow lite模型进一步提高了效率，使网络适应tpu架构[49]。专用平台也利用了类似tpu的加速技术。对于胎儿测量分割，zynq ultrascale+ mpsoc使用xilinx dpu进行深度学习推理，使用apu进行预处理/关键点检测[64]。这种架构通过高效的数据流、并行处理和智能内存管理提高了性能，这对于实时医学分析至关重要。

3.3.3. 现场可编程门阵列（fpga）
在基于3d cnn的肺结节分割中，使用多个fpga节点优化了资源利用和吞吐量，如图8所示，展示了fpga在体积医学数据方面的可扩展性[67]。通过配置式处理元素（pe）架构，可以进一步提高fpga的效率[51]。同时，根据卷积层的特性调整计算模式，可以确保计算负载最大的组件实现最佳运行。除了加速器优化外，设计工具和自定义模块也增强了fpga的潜力。xilinx system generator简化了fpga设计，直接提高了分割任务的处理速度[68]。>在特定应用中，形态学操作和CCA在FPGA上的实现能够从虹膜图像中高效地分割出瞳孔[69]，而定制的Verilog模块则有助于在MRI图像中精准检测脑肿瘤[52]，这展示了FPGA在适应多样化的医学成像需求方面的灵活性。下载：下载高分辨率图像（315KB）下载：下载全尺寸图像图8. 使用多个FPGA节点加速肺结节分割系统[67]。3.3.4. 总结为了在边缘设备/IoMT设备上实现保护隐私的实时医学分割，必须解决硬件与算法之间的异构性问题。除了利用TPU和FPGA的优势外，结合硬件特定定制和标准化封装的策略也是必不可少的。通过将模型与底层硬件解耦，医疗机构可以在无需冗余重新训练的情况下，在多种多模态终端上实现灵活稳定的部署。4. 实验分析与评估4.1. 评估指标和数据集在医学图像分割中，数据集的选择对模型开发和评估至关重要。代表性的数据集包括BraTS（脑肿瘤，多模态MRI）、ISIC（皮肤病变，皮肤镜图像/注释）、CVC-ClinicDB（结直肠癌，结肠镜图像/掩膜）、LiTS（肝脏/肿瘤，腹部CT）和DRIVE（糖尿病视网膜病变，视网膜图像）。轻量级模型的关键评估指标包括DICE（分割重叠度）、Hausdorff距离（边界偏差）、敏感性/特异性（阳性/阴性识别）、IoU（像素级重叠度）以及参数、FLOPs、加速比、压缩率、MACs（用于评估复杂性、计算负载、效率和压缩效果）。表3. 在统一实验环境下不同轻量级模型的效率和复杂性指标比较。TransUnet [70] 被作为基准引入。方法推理时间（秒）加速比每秒帧数（FPS）峰值GPU内存（MB）FLOPs（G）参数（M）压缩率（%）MACs（G）TransUnet [70]0.684 ± 0.012–1.464283.21319.0093.08–159.50Graph Flow [27]0.014 ± 0.01248.8671.43291.822.040.3599.621.02STAMP [35]0.104 ± 0.0136.589.621159.2055.820.3599.6227.91SGU-Net [8]0.018 ± 0.00338.0055.561194.7574.6011.5487.6037.30MISSU [28]0.046 ± 0.01614.8721.74890.0390.7916.2982.5045.40Evo_Conv [36]0.099 ± 0.0116.9110.1049.1725.2512.6486.4212.63MobileUNETR [71]0.028 ± 0.00424.4335.50173.074.853.0196.772.04I2U-Net [72]0.016 ± 0.00642.7562.5021.302.747.0392.451.37DTMFormer [73]0.016 ± 0.01142.7564.00144.424.8312.1986.902.41TinyU-Net [74]0.009 ± 0.00276111.11537.0013.310.4899.486.66LCNet [75]0.008 ± 0.00285.5123.0042.008.020.5199.454.01LW-CTrans [13]0.337 ± 0.0052.032.972842.13110.230.5199.4555.12MATransformerV2 [76]0.006 ± 0.002114.0047.19923.3850.4034.9962.41100.81DFU-MambaLiteUNet [77]0.066 ± 0.01510.3615.1511272.340.9698.971.17BMIS [78]0.009 ± 0.01376.00107.53165.888.900.8799.074.45CMDC [20]0.021 ± 0.02632.5747.621036.14148.4939.9857.0574.25ACF-BCKD [30]0.055 ± 0.00712.4418.18642.1611.140.8299.126.574.2. 结果讨论为了确保公平比较，所有模型都在使用NVIDIA RTX 3090 GPU（CUDA 12.1，PyTorch 2.4.0）和FP32精度的标准化环境中进行了评估。所有2D和3D图像都被调整为512 × 512大小，推理时间、FPS、峰值GPU内存、FLOPs、参数和MACs都是在每个模型50个样本上的平均值（表3）。结果表明，以架构为导向的轻量级方法[8]、[75]通常比传统模型（如TransUnet [70]）更高效，其推理时间低于0.02秒。基于压缩的方法[28]、[30]具有相似的参数规模，但显示出不同的推理效率，反映了轻量级策略之间的权衡。在SOTA轻量级Transformer中，MobileUNETR [71]、DTMFormer [73]和MATransformerV2 [76]展示了不同的复杂度-效率平衡：MobileUNETR因其平衡的设计和低内存使用而更适合边缘设备，而MATransformerV2由于其更高的准确性和复杂性则更适合医院GPU工作站。我们还分析了方法特性与效率指标之间的关系。然而，由于医学分割任务在图像分辨率和模态上存在差异，直接比较推理速度和FLOPs往往不公平。因此，如表4所示，这里使用参数数量作为技术比较的主要指标。从宏观角度来看，当前的轻量级分割研究仍主要由架构设计主导。如表5至表9所示，基于结构的方法在大多数解剖区域中占了超过一半的方法，红色和蓝色分别表示最佳和第二最佳性能。例如，在DRIVE（表5）中的15种方法和ISIC18（表7）中的10种方法中有13种是基于结构的，而LiTS（表8）对这种范式的偏好较弱。这种差异可能与数据集规模有关：像DRIVE和ISIC18这样的较小数据集更适合紧凑的结构设计，而像LiTS这样的大型数据集则更常依赖于强大的模型后再进行压缩。同时，基于结构的方法仍然可以实现极小的模型，例如T-Net [83]只有0.03M参数和EGE-UNet [56]有0.053M参数。总体而言，架构设计仍然是主流策略，而压缩高性能模型可能提供更大的部署潜力。表4. 每种方法的详细信息与参数总数之间的相关性。高效技术实现细节SOTA示例参数（M）高效模块DSConvBVI-Net [79]0.026分组卷积Light-Net [10]0.834不对称卷积AMCC-Net [7]0.845注意力DFU-MambaLiteUNet [77]0.959NASEvolutionaryNASGP-Net [19]1.65适应实际约束CMDC [20]8.86KDLogit蒸馏EDGE [80]2.041特征蒸馏多教师KD [31]0.714图蒸馏GKD [81]0.35区域蒸馏DWKD [82]0.057剪枝滤波器剪枝Evo_ConV [36]4.39通道剪枝Lite-MixedNet [39]24.36令牌剪枝APFormer [61]0.845量化QATH-BiSeNet [64]2.66混合精度MA-TransformerV2[63]25硬件感知协同设计FPGAXilinx VIVADO [52]30.906在技术层面，不同的轻量级策略显示出不同的权衡。深度可分离卷积有效降低了复杂性，而注意力机制增加了有限的开销，但可以改善特征建模。在NAS中，进化方法相对轻量且适应性强。在知识蒸馏中，图蒸馏比区域蒸馏更轻量。在剪枝中，通道剪枝通常不如滤波器剪枝和令牌剪枝在参数压缩方面有效。量化感知训练通常在准确性和效率之间取得更好的平衡。硬件感知协同设计，特别是基于FPGA的优化，进一步表明部署效率不仅取决于模型简化，还取决于硬件适应。总体而言，应根据实际部署需求选择这些技术。从微观角度来看，架构设计通常在泛化要求有限的任务中提供了更好的性能与轻量级之间的平衡。如表5所示，T-Net [83]仅用0.03M参数就实现了高准确性和AUC。类似的趋势也出现在CVC-ClinicDB（表6）和ISIC18（表7）中，其中表现最好的方法大多是基于结构的。即使在更复杂的BraTS19任务（表9）中，架构设计仍然有效。相比之下，对于需要更强泛化的任务，如CHAOS（表8）上的多器官分割，基于压缩的方法（如EU-Net [17]和GKD [81]）表现更好，这表明在某些情况下压缩高性能模型可能更合适。表5. 在DRIVE数据集上不同方法的实验比较。下载：下载高分辨率图像（368KB）下载：下载全尺寸图像图9. 不同轻量级方法在DRIVE数据集上的模型参数大小和性能指标的全面比较，其中SP代表特异性，SE代表敏感性，ACC代表准确性。表6. 在CVC-ClinicDB数据集上不同方法的实验比较。下载：下载高分辨率图像（364KB）下载：下载全尺寸图像图10. 不同方法在Clinic DB和ISIC2018数据集上的模型参数规模、DICE(a)和mIoU(b)的全面比较，其中参数数量是对数化的，以便于数据分布的可视化优化。下载：下载高分辨率图像（346KB）下载：下载全尺寸图像图11. 不同方法在BraTS19数据集上的模型参数大小和DICE的全面比较。表7. 在ISIC2018数据集上不同方法的实验比较。表8. 在LiTS和CHAOS数据集上不同方法的实验比较。表9. 在BraTS19数据集上不同方法的实验比较。下载：下载高分辨率图像（251KB）下载：下载全尺寸图像图12. 比较不同方法在2D分割目标医学图像时的参数数量。下载：下载高分辨率图像（271KB）下载：下载全尺寸图像图13. 比较不同方法在3D分割目标医学图像时的参数数量。从权衡的角度来看，图10显示了轻量级医学图像分割中效率与准确性之间的平衡。图10(a)和图10(b)都表明准确性和参数数量之间存在总体负相关。UNeXt [98]显示出最佳平衡，而DCSAU-Net [94]的复杂性较高但准确性有限。MALUNet [57]在DICE上表现良好，但在mIoU改进方面表现较弱。如图9和图11所示，Residual U-Net以牺牲准确性为代价降低了复杂性，而MPEDA-Net [108]和BVI-Net [79]实现了更好的平衡。高参数模型如MISSU [28]在某些指标上表现良好，但缺乏一致性。图12和图13进一步表明，2D方法更注重高效的卷积和注意力，而3D方法则强调空间建模。评估应根据应用场景进行调整。对于轻量级医学图像分割，评估不应仅依赖于准确性，还应考虑模型大小、处理速度、能耗和内存使用。因此，需要一个多指标评估框架来平衡临床部署中的分割性能和计算复杂性。当诊断准确性至关重要时，应优先考虑临床性能；例如，如果模型在关键病变区域的性能更好，即使计算成本较高也可能更受欢迎。相比之下，在资源有限的场景中，稍微不那么准确但效率更高的模型可能更为实用，而基于云的场景可以容忍更高的成本以获得更好的性能。在相同的数据集和评估协议下，可以通过标准和化的性能和复杂性比较来量化这种平衡，从而为特定临床需求选择最合适的模型。基于此，未来的工作可以进一步探索动态适应机制，使模型能够根据输入图像的难度调整计算复杂性[61]。这样的自调节模型可能在不同场景中实现分割性能和效率之间的更好平衡。软件-硬件协同优化也是必不可少的：在软件层面，可以根据目标硬件优化模型结构，例如为FPGA设计并行卷积[51]或为TPU设计硬件友好的激活函数[49]、[50]；在硬件层面，可以使用专用芯片或硬件参数调整来更好地匹配模型要求。5. 从临床角度出发的有望的研究方向如前几节所讨论的，轻量级医学图像分割方法在提高模型准确性和效率方面取得了显著进展。本节通过临床视角探讨未来的研究方向，探索如何更好地将技术创新与实际临床需求对齐，以促进实际部署并改善患者护理。5.1. 用于临床级医学图像分割的轻量级大型模型一些SOTA分割方法在医学图像分割中表现出强大的跨模态泛化能力[2]。然而，它们的临床应用仍受到三个主要障碍的限制。首先，依赖于专家提示、在自然图像上的预训练以及高计算成本降低了临床可行性。2025年AI指数报告[117]强调，前沿AI系统的规模仍在迅速扩大，训练计算大约每五个月翻一番，训练数据集每八个月更新一次，功耗每年增加，这凸显了大规模模型开发日益增长的资源负担。同时，尽管AI硬件成本每年下降了约30%，能效每年提高了约40%，但大多数临床机构仍难以承受大型模型的整体资源需求。因此，如知识蒸馏、剪枝和量化等轻量级策略对于资源有限的设置（包括社区医院和移动诊所）来说是必要的。其次，提示机制和掩码解码器需要更好地适应临床工作流程。优化针对临床输入（如解剖标志或病理线索）的提示编码器，并将自动提示生成与证据学习相结合，可以减少人工干预，同时提供不确定性估计，这对临床信任很重要。例如，可以突出不确定的肿瘤边界以便放射科医生进行迭代细化。此外，减少对标记数据的依赖并改进开放类别分割将提高实用性，使模型能够检测到偶然的病变而不仅仅是预定义的目标。第三，临床部署需要效率和适应性。大多数机构难以获得用于SAM训练的大规模医学数据集，基于Transformer的编码器通常缺乏实时性能，这限制了其在手术指导或紧急分诊等时间敏感场景中的使用。因此，轻量级架构和优化编码器对于实现快速推理是必要的。具有直观输入（如草图或边界框）的交互式分割也可以更好地匹配临床工作流程，从而有效纠正不规则结构。最后，集成视觉-语言框架[2]、[118]可能提高临床可解释性，如图14所示。生成描述性输出和分割结果的模型可以支持临床医生的理解和决策。将这些框架扩展到时间序列数据（如EEG和ECG）可能通过结合成像和生理信号进一步实现全面分析。在这些集成模型中，较低的训练成本和更好的可解释性对于更广泛的临床应用非常重要。下载：下载高分辨率图像（716KB）下载：下载全尺寸图像图14. 用于牙科应用的自动化多模态LLM AI系统的架构图。该图改编自[118]。5.2. 将轻量级模型嵌入临床基础设施大型医学模型的临床部署受到硬件限制的约束。因此，人工智能的进步必须通过芯片级创新来匹配，以实现临床环境中的高效、实时和节能使用。新兴的轻量级范式提供了有希望的解决方案。Mamba以其结构化状态空间模型和动态权重选择，在医学图像分割中展示了潜力[77]，通过平衡全局上下文和计算效率。其硬件感知设计可能减少便携式超声等设备中的延迟，尽管内存开销仍然是一个挑战。基于PhyLL算法[119]改进的物理神经网络（PNNs）提供了另一种轻量级选择，具有低延迟、高能效和固有的可解释性。这些特性在紧急情况下尤其有价值，例如救护车中的创伤成像。进一步改进Mamba的领域泛化能力并扩展PNNs的应用范围将增强其临床适用性。定制芯片设计同样重要，以使硬件与临床工作流程相匹配。考虑硬件的架构优化、网络-硬件协同设计以及专为卷积操作设计的专用芯片可以提高效率。例如，调整输入/输出通道以适应硬件内存限制或利用NPU功能[37]可以在保持性能的同时降低能耗。尽管深度卷积在理论上是高效的，但由于带宽限制，它们可能会引入GPU瓶颈。将深度学习处理单元（DPU）与应用处理单元（APU）集成可以解决这个问题[64]，从而在多任务临床环境中实现并行处理和高效的数据传输。定量案例研究通过将技术配置与可测量的性能联系起来进一步证明了其临床价值[52]、[120]。在基于FPGA的脑肿瘤检测中，部署在Altera DE II FPGA板上的软IP核心实现了每张图像6.49μs的处理时间、最大30.906 MB的内存使用量和约82 mW的平均功耗[52]，表明其适用于便携式和紧急MRI分析。在气胸诊断中，使用Mindray M9超声和TDI-QA软件的分析获得了0.99的AUC、93%的敏感性和96%的特异性[120]。这些例子展示了轻量级医学图像分析在紧急和资源有限环境中的实际价值。实际上，轻量级模型已经被集成到医疗设备中。便携式超声系统如Butterfly iQ/iQ+、Philips Lumify和GE Vscan Air支持在嵌入式平台上的低功耗、低延迟推理。在胸部X光筛查中，JF Healthcare已在移动DR和社区诊所部署了深度学习系统。Deepwise推出了SAMI 3D通用分割模型，具有毫秒级的响应时间和多模态支持，尽管具体部署细节尚不清楚。在胃肠道内窥镜检查中，Medtronic GI Genius?系统能够实现实时息肉检测，具有毫秒级的边缘响应时间和99.7%的敏感性（针对338个息肉）。这些例子共同突显了硬件-算法协同优化在床边、远程和移动医疗中的日益重要性。

总之，芯片级别的优化应优先考虑低功耗、实时性能和与现有临床基础设施的兼容性。这种硬件与算法之间的协调对于将轻量级医学图像分割模型转化为常规临床实践至关重要。

5.3 基于多维指标的边缘部署
在轻量级医学图像分割中，边缘部署不能仅通过参数数量或FLOPs来评估。低参数和低FLOPs并不一定能保证实际部署。GPU内存消耗、训练成本和推理延迟也是关键因素，这些指标通常是相互关联的。因此，面向边缘的设计应强调在多个指标上的平衡优化。

I2U-Net [72]通过双路径架构和多功能信息交互模块（MFII）减少了内存冗余，同时保持了低参数和FLOPs。其固定通道的隐藏状态路径避免了传统U形网络中由于通道加倍引起的内存增长，其推理阶段不需要存储额外的历史特征图，使其适用于内存有限的边缘设备。BMIS [78]也采用了类似的思想，它使用浅而宽的架构和不对称的编码器-解码器。通过减少下采样操作和去除冗余的跳过连接，BMIS在简化重建的同时保留了细节。它将模型压缩到0.87M参数，并实现了2014 MB的GPU内存使用量和13 ms的推理时间，表明冗余剪枝可以同时改善多个部署指标。

在模块层面，TinyU-Net [74]进一步强调了这一原则。其级联多敏感性场（CMRF）模块结合了通道冗余重用和深度可分离卷积，仅用0.48M参数就实现了高效的特征提取。其分阶段的敏感性场扩展也避免了单个大卷积引起的内存峰值。这表明轻量级模块设计应平衡表示能力和资源效率，而不仅仅是减少模型大小。

对于实际部署，LCNet [75]提供了有用的工程证据。它在Jetson Xavier NX嵌入式GPU上实现了9 fps的处理速度，并通过TensorRT加速进一步展示了软件-硬件协同优化的价值。低参数和FLOPs支持加速，但内存效率在很大程度上决定了模型是否能在边缘硬件上运行。这在手持皮肤病变分割和嵌入式腹部多器官分割等医疗场景中尤为重要，这些场景需要实时推理、低功耗和稳定的内存使用。

总之，医学图像分割模型的边缘部署需要一个多维评估框架。未来的工作应结合I2U-Net [72]和BMIS [78]中的架构策略（如路径解耦和冗余剪枝）以及LCNet [75]所示的硬件感知优化和后处理技术（如量化和剪枝）。这是将轻量级模型从实验室研究转化为临床边缘设备的重要一步。

5.4 临床部署挑战
除了在架构、压缩和硬件适应方面的技术优化外，轻量级医学图像分割模型在从实验室验证转向临床实践时还面临其他障碍。其中，法规合规性和模型更新是两个主要瓶颈。法规合规性对于临床使用至关重要，因为轻量级模型必须满足安全性、有效性和可解释性的严格要求，这些要求超出了Dice分数或FLOPs等传统指标的范围。尽管大多数现有的轻量级模型已在具有标准化注释的公共基准数据集上进行了验证，但实际临床环境涉及异构数据分布和高风险诊断场景，需要严格的临床试验来验证不同患者群体和环境下的性能一致性。监管机构还要求记录模型故障模式，而这往往缺失，因为许多轻量级研究更注重技术效率而非临床风险评估。此外，有限的可解释性仍然是一个挑战，因为输入特征与分割输出之间的因果关系通常不明确，使得在临床工作流程中难以证明模型决策的合理性。

在临床环境中部署的轻量级模型还必须适应不断发展的医学知识、新的成像技术和新兴的疾病模式，同时不干扰现有的工作流程。然而，传统的更新过程依赖于大规模重新训练和全面重新验证，在临床环境中往往不切实际。在新临床数据上的重新训练通常涉及敏感的患者信息，引发隐私问题并限制了多中心数据共享。同时，许多医疗机构，特别是社区医院，缺乏频繁更新、硬件重新配置或集成到医院信息系统所需的技术资源。结果，部署可能会停滞，模型性能可能会逐渐落后于临床需求。这些挑战进一步反映了技术优化目标与临床工作流程要求之间的不匹配。许多轻量级模型旨在最小化参数或推理时间，而临床部署需要在这些指标与安全性、鲁棒性和可用性之间取得平衡。临床实践还要求在多样化和复杂的条件下保持可靠的性能，而这些条件很少被基准数据集涵盖，增加了部署后性能下降的风险。因此，未来的研究应超越单纯的轻量级设计，将法规合规性、自适应更新机制和工作流程兼容性纳入模型开发中，以便轻量级模型不仅能满足实验室基准，还能满足临床护理的实际、安全和操作需求。

6. 结论
本文从并行角度回顾了医学图像分割的轻量级算法和硬件技术。它总结了在架构设计、模型压缩和硬件优化方面的进展，并对临床设备中的软件-硬件协同设计提供了启示。基于当前的医疗场景，本文指出了三个核心挑战：准确性和效率之间的权衡、有限的跨模态泛化能力以及技术优化与临床实施之间的差距。过度轻量化可能会降低准确性，特别是对于小病变和复杂的解剖结构；许多模型在单一模态下表现良好，但在CT、MRI和超声之间的泛化能力较差；以及不一致的评估指标和有限的真实临床数据集验证阻碍了公平比较和临床转化。此外，本文整合了主流基准数据集的最新结果，为比较轻量级方法提供了更直观的基础。通过系统分析，它还指出了当前领域的主要局限性并明确了未来的发展方向。最终目标是在大型模型时代促进轻量级医学图像分割的技术进步和临床应用。

cRediT作者贡献声明
Zhiqin Zhu：撰写——原始草稿、可视化、监督、项目管理、方法论、资金获取、正式分析。
Hanchen Wang：撰写——审阅与编辑、撰写——原始草稿、验证、监督、方法论、调查。
Guanqiu Qi：撰写——审阅与编辑、验证、监督、方法论、资金获取。
Yuanyuan Li：撰写——原始草稿、监督、软件、方法论、资金获取。
Neal Mazur：撰写——审阅与编辑、方法论、调查、数据整理。
Yu Liu：软件、方法论、调查、正式分析。
Huafeng Li：正式分析、数据整理。
Baisen Cong：撰写——审阅与编辑、可视化、调查。
Litao Bai：验证、监督、资金获取。

未引用的参考文献
[84], [85], [86], [87], [88], [89], [90], [91], [92], [93], [95], [96], [97], [99], [100], [101], [102], [103], [104], [105], [106], [107], [109], [110], [111], [112], [113], [114], [115], [116]

热点排行