iTrail制作测试（iTMT）在帕金森病中的新型评估范式、隐藏测量指标与诊断准确性研究

《Journal of Clinical and Experimental Neuropsychology》：The iTrail making test (iTMT): an evaluation of novel testing paradigms, hidden indices of measurement, and diagnostic accuracy in Parkinson’s disease

【字体：大中小】 时间：2026年01月17日 来源：Journal of Clinical and Experimental Neuropsychology 1.7

编辑推荐：

　　本研究评估了两种新型计算机化连线测试（Trail Making Test, TMT）范式——iTMT-Tap（点击版）和iTMT-Drag（拖拽版）在帕金森病（Parkinson’s Disease, PD）患者中的可靠性及诊断准确性。研究揭示了隐藏测量指标（如时间在目标上，Time on Target, TOT）可有效区分伴有轻度认知障碍（Mild Cognitive Impairment, MCI）的PD患者（PD-MCI），并证实了计算机化评估在减少运动功能混淆、提升评分效率方面的潜力，为神经心理学（Neuropsychology 3.0）的数字化实践提供了重要依据。

ABSTRACT

Introduction

连线测试（Trail Making Test, TMT）是评估帕金森病（Parkinson’s Disease, PD）患者认知困难的重要工具。然而，传统的纸笔形式容易受到施测和评分误差的影响，且可能过度反映运动障碍而非认知表现。本研究旨在评估两种新型计算机化TMT版本——iTMT-Tap（点击版）和iTMT-Drag（拖拽版）的可靠性和诊断准确性。

Method

本研究采用准实验诊断准确性设计，纳入34名健康对照（Healthy Controls, HC）、28名认知正常的PD患者（PD-NC）和31名伴有轻度认知障碍的PD患者（PD-MCI）。参与者接受了一系列认知测试，包括三种平衡顺序的TMT版本（传统TMT、iTMT-Tap和iTMT-Drag）。此外，iTMT-Tap和iTMT-Drag在短暂休息后进行了重测。

Results

iTMT-Tap和iTMT-Drag均表现出足够的收敛效度和重测信度，并在识别PD-MCI方面达到了可接受的分类准确性。本研究还识别出隐藏的测量指标，这些指标可能减少施测时间或运动功能的混淆影响，并且这些指标也达到了公平的诊断准确性。

Conclusion

研究结果表明，iTMT-Tap和iTMT-Drag可能是传统TMT的有效替代品，经过进一步验证后，有望成为临床实践的有益补充。文章还讨论了未来研究和临床部署的建议。

KEYWORDS: Trail Making Test, computerized cognitive assessment, neuropsychology 3.0, Parkinson’s disease, mild cognitive impairment

Introduction

尽管帕金森病（PD）常被概念化为一种运动功能障碍，但越来越多的人认识到，相当比例的PD患者也经历认知困难。新兴证据表明，认知困难存在于PD的前驱期，并且对许多PD患者而言，认知困难会随时间推移逐渐恶化，约36%至45%的PD患者符合轻度认知障碍（MCI）的标准，24%至31%符合帕金森病痴呆（PDD）的标准。认知困难与生活质量下降、照顾者负担增加以及残疾程度加重密切相关。

执行功能指的是参与目标导向行为的一系列高阶自上而下的认知功能。元分析研究表明，PD患者在执行功能测量上常常表现出显著困难，并且执行功能困难是PD前驱期最常观察到的认知困难。导致PD运动症状的神经病理机制——如黑质多巴胺耗竭和前额叶-纹状体连接减少——也与执行功能障碍有关。因此，在PD中恰当使用执行功能神经心理学测量具有重要的临床意义。

连线测试（TMT）是一种广泛使用的认知测试。TMT由A和B两个子测试组成。两项任务都涉及按顺序在页面上的目标刺激之间画线，因此它们测量了视觉空间能力、心理和精神运动速度以及基本序列能力的组合。然而，TMT-B还引入了“切换”成分，因此更侧重于工作记忆和“任务切换”的测量。研究发现TMT-B能够准确区分PD患者和健康对照（AUC = 0.872），并且TMT表现可以预测PD向PDD的转化。使用功能性近红外光谱学的研究证实，TMT-B的表现与PD患者右侧背外侧前额叶皮层的神经活动相关。最后，TMT表现被证明在深部脑刺激（DBS）和经颅直流电刺激（tDCS）后有所改善，这表明它可能是评估脑刺激对PD认知功能有效性的可行结果指标。

Computerized cognitive assessments

临床神经心理学在将技术进步纳入常规实践方面相对缓慢。TMT的施测涉及使用物理刺激物和记录表格、人工操作计时器、手动评分、随后扫描到纸质化临床记录系统等，所有这些都导致了标准神经心理学实践的效率低下。研究表明，即使在相对简单的测量上，纸笔测试的管理和手动评分错误也非常常见。利用技术支持神经心理学测试有几个重要好处，包括提高评分的准确性和速度、减少临床医生时间、更复杂的数据解释方法以及可能减轻患者的行政负担。因此，对计算机化认知测试进行试验和验证以用于临床神经心理学实践至关重要，这在测量PD患者的认知时可能尤为相关。

计算机化认知评估还为临床医生将隐藏测量指标纳入评估提供了潜力，这可能会提高评估的精确性。例如，连线测试评估执行功能的能力受到精神运动速度和精细运动技能的混淆，这两者在帕金森病中都可能受到影响。隔离连线测试的“执行”组成部分可能会改进该评估的使用方式，而技术可能在实现这一目标中发挥关键作用。使用技术调整已建立的纸笔评估需要仔细考虑。计算机化测试通常涉及将依赖过度学习技能的绘图任务，调整为在无摩擦表面上使用触控笔绘图或手指绘图，这两者都可能需要更多的意识处理，并已被证明会影响测试表现。增加任务的运动计划需求可能对PD患者尤其重要，因为他们经历着显著的运动症状。

关于纸笔和计算机化TMT方法的等效性，研究结果不一，缺乏研究重复，文献中对于哪种计算机化方法最有效尚无共识。已经试验了各种数字TMT范式，但这项研究仍主要是小规模和实验性的，对于PD中使用的最合适的TMT范式尚无共识。最近，D-KEFS高级连线测试要求个体使用触控笔依次点击目标。尽管D-KEFS高级版经过了全面试验并具有良好的规范性，但它在几个基本方面与原始版本不同，并且其临床验证样本中未包括PD患者，因此其在该人群中的使用情况未知。

鉴于PD中执行功能困难的高发生率，以及关于最佳连线测试数字范式缺乏共识，本研究旨在评估两种新型数字TMT版本：iTMT-Tap和iTMT-Drag。这两种计算机化TMT变体被明确设计用于减少PD患者TMT表现中运动能力的混淆影响。因此，假设这些测量相对于传统连线测试，在识别帕金森病轻度认知障碍方面能提供更高的特异性。

Methodology

本研究招募了临床诊断为PD的参与者和健康对照（主要由PD样本的配偶组成）。PD参与者如果符合确诊的PD诊断，愿意并能够提供知情同意，并且能够遵守研究程序，则符合资格。健康对照参与者需要没有已知的神经退行性疾病，提供知情同意，并遵守研究要求。如果参与者无法遵守研究方案，患有其他已知影响认知的严重疾病，在评估前12小时内使用过酒精、苯二氮卓类药物或其他镇静物质，非英语流利，有严重视觉或听力障碍，有严重心理健康困难，或无法使用纸笔材料，则被排除。

PD参与者通过英国国家卫生服务体系（NHS）专科PD服务运营的当地研究登记册招募。登记册的纳入仅限于临床确诊为PD的个体。诊断由专门研究PD的专家神经科医生根据与常规NHS实践一致的专科临床评估做出。没有以规定的方式应用单一的形式诊断标准。专家临床诊断被认为是金标准，并且与基于标准的诊断高度一致。

表示有兴趣参与本研究的潜在参与者会收到一份信息表，并在大约一周后联系，以确定他们是否愿意进一步参与。所有参与都是自愿的，参与者在研究人员预约前提供了完整的知情同意。符合纳入标准的参与者在家中或标准化的临床环境中完成了全面评估。在任何一种情况下，研究人员都会组织环境以减少潜在混杂因素的影响。

研究方案经过健康研究管理局伦理委员会审查和批准（REC参考号14/SW/0084），批准号153118。获得了所有参与者的书面知情同意。所有参与者都具有同意参与的精神能力。

Measures

TMT

连线测试（TMT）是一种免费的执行功能测试。TMT使用标准化指令进行施测。完成每个子测试的时间是主要分数，较低的分数表示更好的表现。每个TMT子测试在300秒后停止。

iTMT measures

一种新型的计算机化TMT版本由本文的两位作者（CN & RN）和一名软件开发人员开发，下文称为iTMT。iTMT应用程序使用C#开发。测试版应用程序通过Apple的TestFlight平台分发给患者和公众参与（PPI）贡献者以及临床专业人员进行可用性测试。初步可用性测试发现了一些触摸屏点击的困难。作为回应，引入了一个简短的标准化指导协议，允许参与者在任务施测前练习点击，并提供明确的指导，例如使用手指指腹而非指甲。实施该协议后，在iPad设备上点击被可靠地记录。未在其他设备上测试点击的有效性。

iTMT使用第二代iPad进行施测，并镜像了TMT的范式，即试验A涉及按升序将数字连接在一起，而试验B包括数字和字母。鉴于iPad屏幕小于A4纸，测试刺激被缩放以适应iPad屏幕。在iTMT任务之前，施用了特定的iPad指令和评估前熟悉试验。如果参与者犯下序列错误，屏幕会自动闪红，提醒参与者纠正错误，因此与传统TMT不同，不需要检查者反馈。试验了两种iTMT变体：iTMT Drag和iTMT Tap。

iTMT Drag

iTMT Drag通过指示参与者用手指将黄色滑块拖到每个目标刺激上以正确的顺序（参见图1）来复制标准TMT范式。这允许捕获两个潜在有用的指标：目标上时间（Time on Target, TOT），即滑块在每个数字上的时间，被认为捕获认知处理（即视觉扫描、工作记忆和排序）；以及目标间时间（Time Between Targets, TBT），即滑块在目标刺激之间移动的时间，被认为捕获精神运动速度。本研究特别关注TOT指数，以及它是否可能比传统TMT指数更能特异性地测量PD MCI。

iTMT Tap

iTMT Tap的构建与iTMT Drag任务相同。然而，参与者被指示点击正确的圆圈，而不是拖动滑块。这项测试去除了一些测试的精神运动速度和精细运动技能组成部分。记录了完成iTMT Tap上每个项目所花费的时间，这允许分析项目级数据和以前无法访问的测量指标。开发了两个指数，这两个指数都试图针对字母排序比数字排序更少过度学习的事实。虽然人们相对容易理解数字11后面是数字12，但字母表中的字母通常被编码为一个序列；这在回忆字母表越靠后的部分时尤其明显。这意味着，为了回忆“P”在“O”之后，人们通常需要先背诵完整的序列，即从“L”开始。因此，在iTMT-Tap上，数字排序被认为更容易，因为参与者只需要在工作记忆中保持一个前导数字，而对于字母排序，参与者可能需要在工作记忆中保持最多六个字母的序列。设计了两项任务来利用这种现象：1）iTMT-Tap B 2/2仅关注试验后半部分的数据，在此期间字母序列不太熟悉，可能对工作记忆和排序技能提出额外要求；2）还捕获了“字母到数字”和“数字到字母”之间的切换时间，基于从“数字到字母”切换认知需求更高的想法。

Montreal Cognitive Assessment (MoCA)

蒙特利尔认知评估（MoCA）是一种简短的认知筛查测试，旨在筛查通常与MCI和痴呆相关的认知困难。分数范围从0到30，较低的分数表示较差的认知能力。MoCA已在PD背景下得到验证，分数低于21提示PDD（敏感性=0.81，特异性=0.95），分数在21至25之间提示PD-MCI（敏感性=0.90，特异性=0.75）。

National Adult Reading Test (NART)

国家成人阅读测试（NART）是一项包含50个项目的单词阅读测试，通常用作痴呆患者病前智力的估计测量。NART已被“重新规范化”以提供对参与者韦氏成人智力量表（WAIS-IV）分数的估计。该公式将用于本研究估计病前智力。

Assessment procedure

研究电池根据临床记录表以标准化格式进行。参与者首先回答人口统计学问题，然后完成国家成人阅读测试（NART）、iTMT Drag和iTMT Tap、蒙特利尔认知评估（MoCA）、纸笔版连线测试。各种连线测试的顺序被平衡以减少练习效应。iTMT Drag和iTMT Tap被施测两次，中间有30分钟的休息。第二次试验时刺激被镜像，以降低练习效应扭曲表现的风险。

运动障碍学会工作组（Movement Disorder Society Task Force）提供了PD患者MCI诊断的指南。他们概述了两个诊断级别：级别I（简略评估）允许基于在有效的全局认知筛查测量（例如MoCA）上受损或在有限认知电池中至少两项测试受损来诊断可能的PD-MCI。这种方法提供的诊断确定性较低，不允许详细的认知亚型分型。级别II（全面评估）需要在五个认知领域中的每个领域至少进行两项测试的正式神经心理学测试，并证明在一个领域内或跨领域至少两项测试受损。级别II诊断允许对PD-MCI亚型进行分类。本研究根据I级MCI标准对参与者进行分类，即MoCA分数在21-25之间。MoCA分数在MCI范围内的健康对照参与者被排除。这导致18名参与者的数据被排除在分析之外。

Data analysis plan

目标样本量是基于检测PD和HC样本之间中等差异（F = 0.35）的效力来选择的。这是基于先前PD研究在TMT上观察到的大差异，而本研究选择了更保守的方法。使用单向方差分析（ANOVA）实现足够效力（1-β = 0.85, α = 0.05）所需的最小总样本量为93名参与者，即31名健康对照、认知正常的PD患者和伴有轻度认知障碍的PD患者。

超过300秒的iTMT测试分数被编码为300。这导致iTMT-B Drag和Tap上有两次调整，TMT-B子测试上有五次调整。本研究中有几处数据缺失。主要的数据缺失来源与早期软件的技术限制有关，当时无法提取初始参与者子集的项级变量。因此，尽管33名健康对照参与者完成了iTMT任务，但该组中只有25名个体可进行项级分析。额外的数据缺失源于参与者疲劳或手部不适导致的偶尔提前终止任务，以及间歇性的触控笔故障导致无法可靠完成任务。这些情况很少发生，并且分布在各个组中。值得注意的是，缺失数据与执行功能无关，而主要反映了数据记录问题、疲劳和手部不适。因此，缺失数据最好被描述为“随机缺失”。在可能的情况下，通常建议使用现代程序来处理这种性质的缺失数据，包括最大似然法和多重插补法。然而，鉴于主要分析包括诊断准确性和测试水平的组间比较，而不是基于模型的参数估计，缺失数据的量相对适中，并且支持可靠实施最大似然法和多重插补方法需要足够的数据，这些方法被认为不适合在本研究中使用。相反，对于重测信度分析，需要包含时间1和时间2的数据，因此使用了成对删除程序。对于组间比较，使用所有可用数据进行

热点排行

新闻专题