大规模B型肝超声数据集SMC-LUD助力肝细胞癌与血管瘤精准分类

【字体: 时间:2026年03月12日 来源:Scientific Data 6.9

编辑推荐:

  本研究致力于解决肝细胞癌(HCC)准确超声分类的临床挑战。研究人员通过收集2015-2024年间的B型超声图像,构建了大规模、高质量、公开可用的数据集SMC-LUD,包含5,385张图像(HCC 2,716张,血管瘤2,669张),为开发与验证用于肝癌筛查和诊断的深度学习模型提供了宝贵资源,具有重要的临床转化意义。

  
在全球范围内,肝癌是导致癌症相关死亡的主要原因之一,其中肝细胞癌(HCC)是最常见的原发性肝癌类型。B型超声作为一种无创、便捷、成本相对较低的影像学检查手段,是肝癌筛查和早期诊断的重要工具。然而,准确区分肝脏中的恶性病灶(如HCC)和良性病灶(如最常见的良性肝肿瘤——肝血管瘤)是临床实践中的一大挑战。这种分类的准确性直接影响着后续治疗方案的制定和患者的预后。传统上,超声图像的解读高度依赖于放射科医生的经验和主观判断,存在一定的诊断异质性。近年来,深度学习技术为自动化、精准的医学影像分析带来了革命性的希望。然而,一个核心瓶颈在于,要训练出强大而鲁棒的深度学习模型,需要有大规模、标注准确、且临床相关性强的数据集作为“燃料”。当前,公开可用的、专门针对肝脏局灶性病变分类的高质量超声数据集非常稀缺,这严重制约了相关人工智能模型的开发、验证和临床转化。为了破解这一困局,来自韩国三星医疗中心(Samsung Medical Center, SMC)的研究团队在《Scientific Data》上发表了一项重要的研究工作。
本研究旨在构建并发布一个大规模、公开可用的B型肝脏超声数据集,专门用于HCC和肝血管瘤这两种关键肝脏局灶性病变的分类。该数据集被命名为SMC-LUD (Samsung Medical Center - Liver Ultrasound Dataset)。研究人员收集了韩国三星医疗中心在2015年至2024年间产生的超声影像数据,经过严格的匿名化处理和专业的医学标注,最终构建的数据集包含了来自1,021名患者的5,385张B型超声图像。这些图像被明确分为两个临床核心类别:肝细胞癌(HCC)和肝血管瘤。其中,所有HCC病例(共2,716张图像)的诊断均通过手术切除或活检获得了组织病理学(histopathologically)的确认,这是诊断的“金标准”。而所有肝血管瘤病例(共2,669张图像)则依据其特征性的影像学表现,由放射科医生进行诊断。每一张图像的标签都由具有执业资格的放射科医生和病理学家进行了审核和验证,并且数据按照患者级别进行组织,确保了其临床研究的实用性。SMC-LUD的发布,直接针对当前肝脏超声人工智能研究领域数据匮乏的核心问题,为开发和验证用于肝癌筛查和诊断的深度学习模型提供了一个高质量的基础。
为了开展这项研究,研究人员主要运用了以下关键技术方法:首先是临床数据收集与构建,从韩国三星医疗中心2015-2024年的影像存档系统中,系统性收集了符合纳入标准的B型肝超声图像。其次是严格的医学标注与质量控制,由执业放射科医生和病理学家依据金标准(对HCC为组织病理学结果,对血管瘤为特征性影像学表现)对所有图像进行诊断分类和验证。最后是数据匿名化与结构化处理,对患者个人信息进行脱敏处理,并将图像按照患者来源进行分组,构建成可用于机器学习研究的结构化数据集。
研究结果
SMC-LUD数据集的构成
研究人员成功构建了SMC-LUD数据集。该数据集总计包含5,385张B型肝超声图像,这些图像来源于1,021名独立的患者。数据集被清晰地划分为两个类别。第一类为肝细胞癌(Hepatocellular carcinoma, HCC),共包含2,716张图像。第二类为肝血管瘤(Hemangioma),共包含2,669张图像。数据集的构建确保了类别间图像数量的基本平衡。
数据标注的金标准与质量保证
本数据集的核心价值在于其高质量的标注。对于HCC类别的所有图像,其对应的诊断均通过外科手术切除或穿刺活检获取的组织样本,经过病理学检查得到了组织病理学确认。这是诊断HCC最可靠的方法。对于肝血管瘤类别的所有图像,其诊断则基于该病变在超声、计算机断层扫描(CT)或磁共振成像(MRI)等影像检查中表现出的典型特征,由经验丰富的放射科医生做出诊断。所有图像的最终标签均经过由执业放射科医生和病理学家组成的专家团队的审核与验证,最大限度地保证了标签的准确性。
数据组织方式
为了方便后续的机器学习研究,特别是需要避免患者数据泄露(data leakage)的模型验证,数据集采用了患者级别的分组方式进行组织。这意味着来自同一位患者的所有超声图像都被归并在同一个标识下,确保在划分训练集、验证集和测试集时,同一位患者的数据不会同时出现在不同的集合中,从而使得模型评估结果更贴近真实的临床泛化性能。
研究结论与讨论
本研究成功创建并公开发布了SMC-LUD,一个专门用于肝细胞癌与肝血管瘤分类的大规模、高质量B型肝脏超声图像数据集。该数据集具有几个关键优势:首先,其规模在当前同类公开数据集中位居前列;其次,其标注基于严格的医学金标准(病理证实或典型影像特征),并由多学科专家验证,可靠性高;最后,其按患者分组的结构设计符合严谨的机器学习研究规范。
SMC-LUD的发布具有重要的科学意义和临床转化潜力。在科学研究层面,它直接解决了该领域长期存在的大规模标注数据稀缺的瓶颈问题,为全球学术界开发、训练、比较和验证新的深度学习算法提供了一个公平、统一的基准平台。研究人员可以利用该数据集探索更先进的神经网络架构、数据增强技术以及小样本学习等方法,以提升模型对肝脏超声图像的分类性能。在临床实践层面,基于此类高质量数据训练出的模型,未来有望集成到临床辅助决策系统中,为放射科医生提供客观、一致的诊断参考,特别是在医疗资源相对匮乏或经验不足的地区,有助于提高肝细胞癌的早期检出率和鉴别诊断的准确性,最终惠及广大患者。总之,SMC-LUD不仅是一项重要的数据资源共享工作,更是推动人工智能在肝脏超声诊断领域从研究走向实际应用的关键基础设施。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号