《ESMO Rare Cancers》:Intra- and interobserver variability in response evaluation metrics used for localized soft tissue sarcoma
编辑推荐:
背景:局部软组织肉瘤(Soft Tissue Sarcoma, STS)基于影像学的可靠疗效评估对于指导治疗和解读临床试验结果至关重要。研究人员量化了观察者内与观察者间的变异性,并评估了其在使用实体瘤疗效评价标准(Response Evaluation Cri
背景:局部软组织肉瘤(Soft Tissue Sarcoma, STS)基于影像学的可靠疗效评估对于指导治疗和解读临床试验结果至关重要。研究人员量化了观察者内与观察者间的变异性,并评估了其在使用实体瘤疗效评价标准(Response Evaluation Criteria in Solid Tumors, RECIST)1.1和磁共振(Magnetic Resonance, MR)改良Choi标准以及不同测量工具进行分类时的影响。
材料与方法:10名放射科医师通过视觉估计、数字卡尺和分割方法评估了19对放疗前和放疗后的磁共振成像(Magnetic Resonance Imaging, MRI)配对扫描;通过镜像病灶评估观察者内误差;将观察者间误差分析分解为系统性和随机性成分。通过分析疗效分类阈值交叉点以及在现实临床场景(包括基线扫描和随访扫描由同一名或不同阅片者评估时)下RECIST 1.1和MR改良Choi分类的一致性,来评估测量变异性的临床影响。
结果:基于分割的直径测量显示出最低的变异性和最高的一致性。使用分割方法时,RECIST 1.1分类在阅片者间具有一致性(Fleiss's κ = 0.92-1.00),但基于卡尺的测量显示出较低的一致性(Fleiss's κ = 0.40-0.46)。MR改良Choi标准变异更大,特别是信号强度测量,在高达16%的相同扫描对比中导致了错误的疾病进展(Progressive Disease, PD)/部分缓解(Partial Response, PR)判定。在比较现实世界基线随访情景时,一致性也较低(Fleiss's κ = 0.31-0.53)。
结论:在STS疗效评估中存在显著的观察者内和观察者间变异性,特别是基于信号强度的标准。分割衍生的直径测量提高了可重复性和一致性。需要改进和自动化基于信号强度的方法,以确保临床试验中疗效评估的可靠性。
软组织肉瘤(Soft Tissue Sarcoma, STS)是一种罕见且异质性强的恶性肿瘤,影像学疗效评估的准确性一直是一个尚未满足的需求。当前,RECIST 1.1是多数STS临床试验中影像学评估的主要标准,但其仅依赖最大肿瘤直径,难以捕捉肿瘤内部的生物学变化(如坏死、纤维化),且观察者内和观察者间的测量变异性可能超过判定疾病进展的阈值,导致错误分类。与此同时,磁共振改良Choi标准结合了对比增强变化,但该方法依赖于耗时的分割,且可能在捕捉STS的异质性特征方面存在不足。尽管已有研究关注个体影像学标准作为病理反应替代指标的效能,但对于这些标准在STS中可重复性的研究却很有限。为了阐明这些局限性并指导临床决策和新辅助治疗评估的改进,本研究旨在量化RECIST 1.1和MR改良Choi标准的观察者内与观察者间变异性,并评估其对疗效分类的影响。
本研究的队列来源于一项先前研究的107名STS患者的放疗前后MRI扫描。研究人员通过分层抽样,从完整数据集中选择了一个具有代表性的病灶子集(n=17),并根据治疗前体积和治疗反应模式进行分层,最终数据集包括19个病例。十名放射科医师通过定制的3D Slicer界面,按照固定序列完成任务,包括视觉估计、使用数字卡尺测量轴向直径、分割编辑以自动提取直径和肿瘤平均强度,以及使用固定圆形或自由勾勒法放置肌肉感兴趣区以进行信号强度标准化。研究采用了基于共识的内部参考标准,并使用变异系数(Coefficient of Variation, CoV)评估观察者内变异性,通过系统误差和随机误差的组合来评估观察者间变异性,并使用Fleiss' kappa系数评估不同测量方法和现实临床场景下的疗效分类一致性。
研究结果显示,在研究人群方面,最终分析纳入了17名患者,中位治疗前肿瘤直径为6.2 cm。在系统误差方面,视觉估计和数字卡尺均低估了病灶大小,而信号强度测量存在系统误差但没有明显的模式。在随机误差:观察者内与观察者间变异性方面,视觉估计的观察者内误差最高,而分割衍生直径的误差最低。对于小肿瘤,分割的观察者内误差更大。观察者间变异性随肿瘤大小增加而增加,但分割衍生直径的变异性与肿瘤大小无关。在复合误差估计方面,视觉估计在测量肿瘤大小时产生的随机误差最高,其次是数字卡尺,分割产生的误差最小。但在测量小肿瘤时,分割产生的误差更高。强度测量的自由勾勒和圆形ROI方法产生相似的复合误差。在测量误差对反应结果的临床影响方面,通过评估相同扫描发现,在基线扫描和随访扫描相同并由同一名放射科医师评估的理想情况下,RECIST 1.1的阈值从未被超过,而MR改良Choi标准的强度评估显示了最高的观察者内变异性。在重复评估同一扫描对的场景下,RECIST 1.1疗效分类在数字卡尺和分割衍生直径上表现出完美的一致性,而MR改良Choi标准则表现出不一致性。在现实场景中,当由同一名放射科医师测量基线和随访时,使用数字卡尺的标准RECIST 1.1一致性较低,而分割衍生直径的RECIST 1.1则达到完美一致性。在MR改良Choi标准下,使用数字卡尺的一致性也较低,而结合分割衍生直径略有改善。当由不同放射科医师评估基线和随访时,结果在RECIST 1.1方面相似,分割衍生直径保持了高一致性。然而,对于MR改良Choi标准,即使使用分割衍生直径,一致性仍然较低。
讨论部分总结道,本研究量化了局部STS测量的观察者内和观察者间变异性,并评估了其对RECIST 1.1和MR改良Choi标准的影响。测量工具选择和肿瘤大小显著影响了肿瘤大小和强度评估的变异性。对于肿瘤大小测量,应优先选择分割而非数字卡尺和视觉估计。视觉评估应避免。目前没有强度测量工具能达到满意的一致性。值得注意的是,即使在“基线”和“随访”扫描相同的情况下,基于强度的测量也会导致检测到不可能的治疗效果。研究结果强调,在解读可能影响重要治疗决策的临界疗效或进展结果时需要谨慎。未来的研究应致力于开发自动化、稳健的基于强度的反应测量方法以减少变异性。然而,本研究存在一些局限性,包括队列规模小、模拟临床工作流程的人工设置、内部共识参考标准的影响以及阅片者经验水平的差异。这些发现表明,分割衍生测量可以减少阅片者间的变异性。未来的工作应开发可重复的、针对肉瘤的疗效评估框架,超越直径评估,并根据临床意义的终点(如病理完全缓解、局部控制、无进展生存期和总生存期)进行验证。
结论:在STS(软组织肉瘤)疗效评估中存在显著的观察者内和观察者间变异性,特别是基于信号强度的标准。分割衍生的直径测量提高了可重复性和一致性。需要改进和自动化基于信号强度的方法,以确保临床试验中疗效评估的可靠性。