正文

背景与范围

我们欢迎Paul Estes就我们最近的出版物“利用多模态机器学习支持的数字认知评估同时检测认知障碍和淀粉样蛋白阳性”所提出的意见。[1] 对比效力的审查是一个成熟领域的标志,我们对此表示欢迎!Paul Estes担心我们的分析依赖于“过时的监管数据”和“不相当的队列”,并且认为我们的研究忽略了其他指标,如Cognivue Amyloid Risk Measure(CARM)。我们很高兴有机会纠正关于我们研究设计的事实误解,并将我们的发现置于新兴行业标准的框架中进行讨论。

“不相当的队列”这一误解

主要批评观点——即报告的性能差异(DCR检测认知障碍的AUC为0.83,而Cognivue为0.75;检测淀粉样蛋白状态的AUC为0.81,而Cognivue为0.70)可归因于“不相当的队列”——是事实错误的。我们的分析在Bio-Hermes-001试验中采用了配对样本设计[2]。所有用于Digital Clock and Recall?(DCR)性能计算的参与者都是提供Cognivue Clarity?数据的同一批人(N = 930)。两种评估都基于相同的淀粉样蛋白-PET真实值和相同的共识临床诊断。因此,Estes先生提到的混淆因素——如疾病患病率、人口统计构成和诊断参考标准——都得到了完美控制。观察到的性能差异是这种特定临床试验环境中测试方法本身的固有特性。

当代数据与历史引用

来信认为我们的研究依赖于2013年获得的510(k)批准文件中的“过时监管数据”。这混淆了设备的描述和性能数据的来源。虽然我们引用了基础文献来描述Cognivue Clarity设备[3], 但我们在结果部分报告的性能指标是根据2021年至2023年间在Bio-Hermes试验中收集的原始数据重新计算的。我们评估的是在研究中实际使用的、已获得FDA批准的商用版本的设备。

方法学的严谨性与事后指标的排除

Paul Estes认为我们的分析不完整,因为没有使用CARM。首先,在我们进行分析时,我们无法获取CARM模型的个体级输出。这是合理的,因为该指标似乎是对应团队在使用研究期间收集的数据事后推导和优化的。

最重要的是,如果将使用嵌套交叉验证方法验证的DCR(用于模拟在未见数据上的性能)与在这个特定数据集事后派生和拟合的指标(CARM)进行比较,可能会因过拟合而产生偏差。为了保持科学严谨性并避免数据泄露,我们将比较限制在两种设备的标准、事先定义的临床输出上,这些输出在研究期间对所有Bio-Hermes-001的研究人员都是可用的。

与全球首席执行官阿尔茨海默病倡议标准的对齐

这次交流突显了最近发布的全球首席执行官阿尔茨海默病倡议(CEOi)DCA工作组的建议的必要性。我们的研究设计直接符合CEOi关于在“人口统计上具有代表性”的队列中进行严格验证的要求,这些队列反映了“预期用途”的人群。此外,CEOi明确建议,对于简短的DCA,验证应包括“证明优于(或至少不逊于)非数字认知筛查方法”。我们的研究通过将DCR和Cognivue与MMSE和RAVLT进行基准测试,遵循了这一标准。

结论

关于数字工具比较效力的激烈讨论表明,数字认知评估领域正从概念验证阶段迈向严格的临床应用。我们同意CEOi工作组的观点,即“性能上的差异[…]造成了混淆”,并认为只有在共享队列中进行透明的直接比较(如我们手稿中展示的那样)才能解决这种混淆。我们坚持我们的发现,即多模态过程指标在检测淀粉样蛋白相关障碍方面具有明显优势,同时承认整个生态系统将通过所有工具不断根据这些不断发展的标准进行验证而蓬勃发展。