《Radiography》:Quality assessment of radiographs through AI-driven feedback: A randomized comparative study on radiographer response in lateral knee radiographs
编辑推荐:
引言
高质量的放射摄影体位摆放对于膝关节影像中的准确诊断至关重要。尽管人工智能(AI)能够以较高准确性评估图像质量,但其对放射技师临床决策的影响仍不明确。本研究考察了AI反馈是否会影响放射技师对膝关节侧位X线片的接受或拒绝判断。
方法
在2025年欧洲放
引言
高质量的放射摄影体位摆放对于膝关节影像中的准确诊断至关重要。尽管人工智能(AI)能够以较高准确性评估图像质量,但其对放射技师临床决策的影响仍不明确。本研究考察了AI反馈是否会影响放射技师对膝关节侧位X线片的接受或拒绝判断。
方法
在2025年欧洲放射学大会(ECR 2025)期间,89名参与者分别评估了50张膝关节侧位X线片(其中包括6个重复病例),评估时可见或不可见由AI生成的接受/拒绝标注。一个预训练卷积神经网络(CNN)依据专家共识参考标准对股骨髁排列情况进行分类。研究比较了两组的诊断效能、读者间一致性(Gwet's AC)及读者内可靠性(Cohen's kappa)。
结果
在有无AI支持的情况下,放射技师的敏感度相同(0.64),特异度、阳性预测值(PPV)或阴性预测值(NPV)均无显著差异。当显示AI标注时,读者间一致性较低(AC 0.233 vs. 0.374)。既往具有AI使用经验的参与者与AI结果的一致性有所提高,而无相关经验者的一致性则下降。在重复病例中,错误AI反馈降低了敏感度和特异度,提示读者易受错误AI建议影响。
结论
AI反馈未提高对膝关节侧位体位摆放评估的总体表现,且可能降低一致性,尤其是在缺乏AI经验的使用者中。放射技师表现出较强的独立评估能力,这强调了在放射摄影质量保证中实施AI时开展批判性训练的重要性。
临床实践启示
研究结果提示,在放射摄影实践中引入基于AI的质量反馈应保持谨慎,因为其可能无意中降低放射技师之间的一致性,尤其是在既往缺乏AI经验者中。应通过针对性的AI输出批判性评价训练以及分阶段整合进入临床工作流程,以减轻自动化偏倚。
该文发表于《Radiography》,聚焦于放射摄影质量控制场景下人工智能(AI)反馈对操作者决策行为的真实影响。研究背景在于,膝关节是放射科常规摄片中最常见的解剖部位之一,骨折、骨关节炎和类风湿性关节炎等多种病变均依赖高质量影像完成初始诊断及后续治疗规划。对于膝关节侧位X线片而言,图像质量不仅涉及曝光、准直和后处理等技术性指标,也涉及患者体位摆放是否满足诊断要求,其中股骨髁对位情况是关键判定依据。临床中,放射技师必须在采集当下快速判断图像是否合格、是否需要重拍,这既关系诊断准确性,也关系患者辐射暴露和工作流程效率。
目前存在的问题是,虽然AI在肌肉骨骼放射学中已广泛用于病变检出,且近期也已显示出对放射影像质量、尤其是体位质量的自动评估能力,但既往证据主要停留在算法性能层面,对于AI反馈是否会改变放射技师的接受/拒绝阈值、是否会提高判断准确性,或者反而引入自动化偏倚(automation bias),仍缺乏直接证据。既有临床决策支持研究提示,算法反馈并非中性信息,它可能通过锚定效应、过度依赖、执行性错误与遗漏性错误系统性影响操作者判断。因此,有必要在实际阅片任务中检验AI反馈对放射技师决策的影响,这正是本研究开展的原因。
研究人员围绕膝关节侧位X线片体位质量判定开展了一项随机实验性读者研究,核心目标是评估预训练AI模型反馈是否影响放射技师对图像是否应接受或拒绝的判断。研究结论表明,AI反馈并未改善总体判读表现;相反,当AI标注可见时,读者间一致性下降,且错误AI反馈会削弱敏感度和特异度,说明受试者会受到错误建议影响。研究还发现,既往具有AI决策支持经验者在有AI时一致性有所改善,而无经验者一致性下降更明显。这一结果的重要意义在于:在放射摄影质量保证中,AI并非天然带来更优决策,其部署效果取决于使用者经验、训练水平以及模型错误模式;因此,AI整合进入临床流程必须伴随批判性使用训练,而不能简单替代专业判断。
本研究的主要技术方法包括以下几个方面。首先,研究样本来源于丹麦南部大学医院放射与核医学科2021年1月至2023年12月间获取的成人负重位膝关节侧位X线片,数据由机构图像存档与传输系统(PACS)提取,并依据纳入排除标准筛选、匿名化。其次,采用既往已建立的预训练混合卷积神经网络(CNN),基于Xception架构,对股骨髁排列进行“可接受/应拒绝”二分类,参考标准由两位资深报告放射技师共识确定。再次,在ECR 2025现场通过定制应用程序随机向参与者展示带或不带AI“ACCEPT/REJECT”标注的数字影像通信标准(DICOM)图像,并记录其判定结果及人口学信息。最后,统计学上采用广义估计方程(GEE)评估敏感度、特异度、阳性预测值(PPV)和阴性预测值(NPV),采用Gwet's AC评价读者间一致性,采用Cohen's kappa评价读者内一致性,并利用重复病例及反转AI标注设计观察决策切换现象。
研究结果部分可概括如下。
Demographics
共有89人参与研究,其中仅9人(10%)具有既往放射摄影质量评估AI决策支持使用经验。参与者构成包括临床放射技师、放射技师学生、教育者、研究人员和报告放射技师等,来源国家较广,平均年龄36.9岁,非学生参与者平均职业年限15.6年。参考标准判定50个病例中26例可接受、24例不可接受。AI算法表现出较高敏感度和较低特异度,即敏感度0.83、特异度0.27,提示模型更倾向于将图像判为不可接受,存在较保守的拒绝倾向。这一算法错误分布为后续解释AI对受试者决策的影响提供了基础。
Diagnostic performance with and without AI annotations
47名读者看到AI标注,42名未看到。结果显示,有无AI支持时参与者的总体诊断表现差异不显著。两组敏感度均为0.89,特异度分别为0.56与0.63,PPV分别为0.67与0.71,NPV均为0.87,各项差异均无统计学意义。该结果说明,在膝关节侧位体位质量评估任务中,AI反馈并未提高参与者识别不合格图像或合格图像的整体能力,放射技师及相关参与者本身已具备较强的独立判定能力。
Inter-reader agreement
采用Gwet's agreement coefficient(Gwet's AC)分析读者间一致性后发现,当读者可见AI标注时,一致性下降(AC 0.233 vs. 0.374)。这提示AI反馈虽然未显著改变平均准确率,却可能改变不同读者整合信息的方式,从而增加群体层面的判断离散度。换言之,AI并未让参与者更趋同,反而使其判断标准更不一致。
Stratification by previous AI experience
按既往AI经验分层后,结果呈现方向相反的变化。具有AI经验者在AI支持下Gwet's AC由0.234上升至0.339,提示其可能更能有条件地采纳或修正AI建议;无AI经验者则由0.385降至0.219,说明缺乏经验时,AI反馈更可能成为锚定线索,扰动原本较稳定的判断标准。这一发现表明,AI经验可能是调节AI反馈影响的重要因素。
Repeated cases and intra-reader reliability
研究纳入6个重复病例以评价读者内一致性。无AI标注时,同一图像两次出现的敏感度与特异度基本一致,说明参与者在无辅助条件下内部一致性较稳定。而在显示AI标注的组别中,当首次显示正确AI分类、重复时改为错误分类后,敏感度由0.91降至0.79,特异度由0.58降至0.52,表明错误AI反馈会诱发决策改变。对其余86名可计算者而言,平均读者内Cohen's kappa在无AI组为0.65,在有AI组为0.59,差异虽无统计学意义,但方向上仍显示AI可能削弱个体内部稳定性。
在讨论部分,研究人员指出,本研究支持这样一个判断:放射技师及学生即使在无AI支持时,也能够对膝关节侧位X线片是否需要重拍作出快速且相对准确的判断。这强调了图像评价这一基础临床核心能力在技术快速发展的背景下仍不可替代。同时,研究人员并未否认AI在放射摄影中的潜力,认为AI未来仍可扩展至诊断支持、剂量优化和流程效率提升等多个方面,但其落地必须重视教育、组织支持和批判性使用能力培养。研究进一步指出,本研究样本具有异质性,学生比例较高,临床放射技师占比有限,因此不能据此简单外推至全部职业放射技师群体;未来仍需在真实临床环境中,针对正式执业放射技师开展研究。此外,AI模型高敏感度、低特异度的保守错误模式,可能促使操作者更倾向于拒绝图像并考虑重拍,这不仅影响一致性,也可能带来不必要辐射暴露和流程负担。因此,临床应用中需要同时关注模型总体准确性与错误谱特征,而非只看单一性能指标。研究优势在于纳入多国参与者,并设计了随机AI暴露及反转AI标注重复病例,能够较直接观察AI对决策切换的影响;局限性则包括会议现场招募可能带来的选择偏倚、学生比例较高、未记录亚专科背景以及未提供患者摄片适应证等。
研究结论部分可译为:人工智能(AI)是重要的临床决策工具,但过度依赖仍是一项挑战。在测试情境下,放射技师与学生能够快速且正确地作出判断,并未表现出对AI的过度依赖。