《Engineering Applications of Artificial Intelligence》:A social recommendation model based on cross-view contrastive learning and multi-head attention for multi-rating fusion
编辑推荐:
非小细胞肺癌亚型分类中提出混合代表性因果网络(HRCL),通过深度学习与 radiomics 特征交互学习因果结构,提升诊断准确率至83.7%和90.3%。
刘莉|王学英|黄珊珊|邓正桥|王舒|吴光|杨东来|查思茜|苏国新|陶青
新疆大学智能制造与现代工业学院,乌鲁木齐830017,中国
摘要
从计算机断层扫描(CT)图像中识别出具有代表性的因果特征仍然是非小细胞肺癌(NSCLC)亚型分类的一个重大挑战。现有的方法,无论是基于放射组学还是深度神经网络,往往忽略了特征之间的复杂因果关系,从而导致诊断结果不尽如人意甚至有害。为了解决这一难题,我们提出了一种混合代表性因果网络(HRCL)用于NSCLC亚型识别,该方法从整体角度明确捕捉了放射组学与特征之间交互的局部因果关系。具体而言,通过可变数量的节点和链接学习了一个因果网络结构,以区分不同NSCLC亚型的独特因果配置。该网络遵循因果马尔可夫性质,从而确保所有局部因果依赖关系的一致性。此外,我们设计了一种混合代表性特征选择器,从因果网络中识别出最显著的因果特征,以实现精确的NSCLC亚型分类。我们的方法在公开可用的P-NSCLC数据集上的准确率为83.7%,在私人收集的I-NSCLC数据集上的准确率为90.3%。实证评估表明,我们的模型显著优于现有方法。
引言
非小细胞肺癌(NSCLC)是全球癌症相关死亡的主要原因(Li等人,2024年;Li等人,2023年),其组织学特征多种多样,包括腺癌(ADC)和鳞状细胞癌(SCC)。目前NSCLC诊断的金标准是基于病理学评估,尽管这些方法精确度高,但通常资源消耗大、耗时且解释不够充分。尽管经验丰富的放射科医生可以根据放射图像提供初步诊断,但开发能够从计算机断层扫描(CT)图像中区分不同亚型的强大数据驱动模型是必要的。现有模型大致可分为两类:一类需要手动提取和编码放射学特征的传统模型,另一类可以直接从图像中自动发现特征的深度学习模型。然而,这些图像数据集通常具有高维度和有限的样本数量,这可能会因维度灾难和过拟合而影响识别模型的准确性和效率(Duangsoithong等人,2013年)。此外,从CT图像中提取的许多特征与NSCLC亚型无关,甚至可能引入噪声或对诊断过程产生不利影响。因此,明智地选择特征对于提高NSCLC亚型识别的准确性和可靠性至关重要(Fan等人,2019年)。
尽管在放射组学领域已经使用了一些代表性特征选择算法,包括传统方法和基于深度学习的方法(Li等人,2017年),但这些方法的一个关键局限性是它们通常假设特征是独立的,忽略了它们潜在的因果关系(Feng等人,2018年;S. Huang等人,2024年;S. Wang等人,2024年)。实际上,肺癌CT图像中的放射学特征之间存在因果关系,每种特征都具有独特的诊断价值(Debbi,2021年;Guo等人,2020年;Han等人,2021年;Kumar等人,2012年;Lambin等人,2017年;Lambin等人,2012年;Li和Li,2010年;Raghu等人,2019年)。例如,如图1所示,胸膜标记或空气支气管征在CT检测中是NSCLC亚型腺癌的指示指标。然而,大多数现有数据驱动模型可能仅识别出胸膜标记和空气支气管征之间的强相关性,未能深入理解腺癌是这两种症状的共同结果,从而导致表面上的关联。因此,确定关键因素具有挑战性,这对于NSCLC诊断至关重要,因为误诊可能会带来严重后果。在这项工作中,我们主要关注CT图像中因果特征的发现,因为放射成像数据与癌症类型之间的因果关系是肺癌诊断的基础(Castro等人,2020年;Wang等人,2024年;Ning等人,2023年;Duan等人,2024年)。
尽管存在这些固有挑战,图形因果建模已成为一种重要的方法,特别是贝叶斯网络(L. Wang等人,2024年;Hu等人,2023年),它们通过建立节点(例如成像特征或NSCLC亚型)和边(表示它们的因果连接)以及它们在特定约束下的联合概率分布来捕捉特征之间的关系,这些约束通常由马尔可夫性质施加。这些方法大致可以分为两类:基于评分的模型,旨在优化评分标准以学习因果网络;以及基于约束的模型,利用条件独立性和依赖性约束来揭示观察变量的因果结构(Guo等人,2020年;Wang等人,2023年)。基于评分的模型不假设因果充分性,需要预先定义的潜在变量数量,这在CT图像的背景下往往不可行。然而,一个重要的限制是成像特征通常不是因果充分的,这意味着存在未观察到的因素影响两个观察变量(Van Der Zander等人,2019年;Liu等人,2023年)。相比之下,基于约束的算法在处理缺乏此类先验知识的场景时更为有效。此外,与基于评分的方法相比,基于约束的方法在计算上更高效,后者在复杂性方面被认为是NP难的(Coumans等人,2017年;Zhang等人,2022年)。
在这项工作中,我们采用基于约束的模型来识别CT图像中的因果特征,以用于NSCLC识别。通常,这些模型在马尔可夫性质下建立特征之间的因果关系,依赖于全面图形网络的穷举搜索来学习。然而,关键挑战在于计算成本(Ahmadvand和Foroutan,2025年),因为潜在的因果关系和网络配置的数量随着变量(即节点)的数量呈指数级增长(Guo等人,2020年;Huang等人,2022年)。随着网络规模的增加,验证马尔可夫一致性在计算上变得难以处理。此外,由于贝叶斯网络结构是有向无环图,保持因果一致性通常需要从网络中消除一些高度相关的关系,这不可避免地会导致信息丢失。例如,空气支气管征作为NSCLC腺癌诊断的关键特征,由于违反马尔可夫一致性,无法被现有基于约束的方法准确识别为因果变量。因此,这些方法在识别网络中表现出有意义的因果关系的特征变量方面存在局限性(Chaudhary等人,2016年;S. Wang等人,2022年)。
为了解决上述挑战,我们提出了一种专门用于NSCLC亚型识别的混合代表性因果网络(HRCL)。我们的方法遵循一种原则性方法,发现并利用与NSCLC亚型相关的CT成像特征之间的因果关系。具体来说,通过利用在因果马尔可夫性质约束下高度相关的节点(特征)构建的因果网络,从CT图像中提取代表性因果特征。需要注意的是,该网络中的节点集包括基于深度学习的特征和重要的放射组学特征。每个生成的因果网络都具有一组独特的定向链接,表示因果关系,以及常用的放射组学特征,如肿瘤病变的形状、纹理和统计信息。此外,我们设计了一种代表性节点选择器,从因果网络中识别出最具有信息量的因果特征,用于NSCLC亚型分类。因此,因果网络可以描述CT成像特征在非侵入性NSCLC诊断中的固有因果依赖关系,从而超越了现有技术。我们方法的有效性通过后续部分的实证评估得到了验证。我们的工作对NSCLC亚型分类领域做出了几项关键贡献:
- •
提出了一种HRCL模型,用于识别NSCLC亚型,该模型从整体角度明确捕捉了放射组学与特征之间交互的局部因果关系。
- •
设计了一种混合代表性特征学习机制,从因果网络中识别出显著的因果特征,提高了NSCLC亚型识别的准确性和可靠性。
- •
我们在公共和内部NSCLC数据集上展示了HRCL的优越性能,验证了其有效性和临床应用的潜力。
本文的其余部分组织如下。第2节提供了NSCLC亚型分类相关工作的全面回顾。第3节详细介绍了我们提出的HRCL方法,包括混合代表性因果网络的构建、因果网络结构学习和因果权重估计。第4节描述了混合特征表示学习过程,包括深度特征表示和放射组学特征表示。第5节展示了实验结果和分析,第6节总结了本文。
相关工作
现有算法主要用于从计算机断层扫描(CT)图像中识别非小细胞肺癌(NSCLC)亚型,主要包括放射组学方法和深度学习方法。
我们的混合代表性因果网络
为了使用计算机断层扫描(CT)图像识别非小细胞肺癌(NSCLC)亚型,我们的混合代表性因果网络(HRCL)方法的总体框架如图2所示。最重要的步骤是使用受限因果模型构建混合代表性因果网络,以表征各种特征变量与NSCLC亚型之间的因果效应。然后,在估计
混合特征表示学习
现在,我们详细说明如何从原始计算机断层扫描(CT)图像中学习混合特征作为因果网络中的变量节点,包括深度特征和放射组学特征。
数据获取
实验数据集包括一个公开可用的数据集和一个从医院收集的肺癌CT成像数据集。使用的公共数据集是NSCLC-radiomics-lung(P-NSCLC)数据集(Aerts等人,2014年),其中包含203名被诊断为NSCLC的患者。其中包括51名被诊断为腺癌(ADC)的患者和152名被诊断为鳞状细胞癌(SCC)的患者。具体来说,私人数据集(I-NSCLC)来源于
结论
在本文中,我们提出了一种混合代表性因果网络方法,该方法整合了因果马尔可夫条件,利用深度学习和放射组学特征之间的因果效应依赖性来识别CT图像中的NSCLC。这种方法比现有技术更可靠和灵活,因为它从因果角度明确识别了代表性特征。虽然我们的方法可以应用于其他基于CT图像的任务,但它仍然
CRediT作者贡献声明
刘莉:写作 – 审稿与编辑,撰写原始草稿,监督,资金获取。王学英:写作 – 审稿与编辑,可视化。黄珊珊:写作 – 审稿与编辑,验证,监督,概念化。邓正桥:撰写原始草稿,方法论,数据管理。王舒:调查,资金获取。吴光:验证,资源。杨东来:软件。查思茜:验证,软件。苏国新:正式分析,概念化。陶青:
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:刘莉报告称获得了中国国家自然科学基金会的财务支持。王舒报告称获得了中国国家自然科学基金会的财务支持。如果有其他作者,他们声明没有已知的财务利益或个人关系可能影响这项工作
致谢
本项工作得到了中国国家自然科学基金会的资助(资助编号:62477004, 62377040)。