近年来,功能性近红外光谱(fNIRS)在神经管理和神经成像分析中得到了广泛应用[1],尤其是在脑功能监测和认知神经科学研究中[2][3],显示出其独特的优势。Pinti等人的综合评论[4]指出,“过去25年里,fNIRS作为一种工具,在各种应用和人群中监测功能性脑活动方面取得了快速发展”。与其他神经成像技术(如fMRI和EEG)相比,fNIRS是非侵入性的、便携的,且成本相对较低,这使其在临床和实验室环境中都非常实用[5]。然而,fNIRS信号的质量经常受到运动伪影、头部运动、传感器分离和生理噪声的影响[6],特别是在动态实验和长时间监测过程中,这些因素会导致信号失真,严重影响数据的可用性和下游分析的准确性。
这些质量问题已成为fNIRS应用中的瓶颈[7]。运动伪影和头部运动会对数据产生不利影响,导致信号与脑活动之间的真实关系被掩盖[8]。传统的数据预处理方法,如ICA信号去噪[9]、运动伪影校正[10]和机器学习方法[11][12],可以在一定程度上缓解这些问题,但无法完全消除噪声。因此,如何有效修复和提升fNIRS数据的质量,并充分利用现有数据,已成为当前fNIRS研究中的一个重要课题。
由于深度学习和时间模型的强大表示能力,它们已被引入用于fNIRS/fMRI信号恢复。结合卷积神经网络、循环神经网络或生成对抗网络的方法已被提出,以利用时空信息来恢复受损信号[13][14]。表1展示了几种代表性信号修复方法的优缺点比较。例如,Zhi等人[13]构建了一个多尺度卷积GRU模型,通过重建通道信号与原始信号的相关系数来评估重建水平,并在模拟删除实验中保持了老年人静息态fNIRS数据的功能连接结构。Gao等人[12]使用降噪自动编码器去除fNIRS运动伪影,并显示该模型在减少残余伪影和均方误差方面优于传统方法。对于fMRI,Yan等人[14]使用在大量健康受试者的BOLD图像上训练的深度卷积生成对抗网络(DCGAN)来填充人为移除的脑区域,重建的时间与原始信号具有统计上的显著相关性。此外,一般的图像生成方法,如3D扩散模型,也被用于缺失图像的重建。例如,ReMiND模型可以根据之前的扫描在缺失的时间点生成全脑结构MRI,其质量优于传统的前向填充或变分自动编码器方法[15]。尽管上述方法在重建准确性方面取得了进展,但大多数都是“黑盒”模型,在恢复过程中缺乏可解释性。现代的可解释性技术(如注意力机制和权重分析)已应用于fMRI解码和脑网络分析[16],但尚未在信号重建领域得到充分利用。
Transformer和自动编码器架构已广泛应用于功能性近红外光谱(fNIRS)信号处理。例如,Jing等人[17]使用基于Transformer的架构进行跨受试者心理工作负荷分类,展示了Transformer模型捕捉fNIRS时间序列中长距离时间依赖性的潜力。
从更广泛的角度来看,Abdollahpour等人[18]进行了一项PRISMA驱动的系统性回顾,研究了Transformer架构在fNIRS中的应用。虽然Transformer模型在分类和特征提取等任务中取得了显著成功,但该回顾指出,在信号恢复或重建的专门研究中还存在明显差距。
在自动编码器方面,尽管最近的研究主要集中在分类任务上,但也有一些相关研究涉及用于特征提取和信号重建的自动编码器。例如,AMFN[19]使用自动编码器进行EEG-fNIRS多模态融合,这可能为fNIRS中的重建任务提供启示。
总体而言,现有文献主要关注使用Transformer和自动编码器架构进行分类或特征提取任务,而信号恢复和重建任务仍然相对较少探索。Transformer模型在模拟fNIRS数据的时间依赖性建模方面显示出优势,自动编码器已成功应用于多模态设置中的特征提取和重建任务。然而,关于使用这些架构进行fNIRS信号恢复/重建的专注研究仍然不足。
为了解决上述所有差距和限制,我们提出了教师-学生Transformer自动编码器(TSAE)模型,该模型利用Transformer架构捕捉fNIRS信号中的长距离时间依赖性。该模型通过特别设计的教师-学生网络结构提高重建精度,并引入通道贡献权重以实现可解释性。与现有方法相比,TSAE进一步提高了重建精度,同时输出通道级别的权重,揭示哪些通道对重建贡献最大,从而为信号恢复和基于ROI的脑区影响分析提供了新工具。
为了明确这项研究的新颖性,我们强调三个方面。(1)我们开发了一种两阶段教师-学生训练范式,其中学生编码器在经过完整多通道输入训练的教师编码器的指导下学习重建部分屏蔽的fNIRS序列;这种设计在保持高保真度恢复的同时对齐了潜在表示。(2)我们引入了一种考虑ROI的随机屏蔽策略,在训练过程中平衡不同区域的屏蔽通道,减少区域偏差并提高异构空间覆盖下的泛化能力。(3)我们设计了一种模型无关的后验贡献分析协议,统计量化每个可用通道如何支持屏蔽目标通道的重建。该协议不改变TSAE架构或训练目标;相反,它提供了关于跨区域依赖性的可解释性证据,并揭示了学习到的贡献模式与物理探针布局之间的一致性。综上所述,TSAE在具有认知挑战性的数据上推进了稳健的fNIRS恢复,同时提供了透明的、基于统计的可解释性,补充了核心模型。
虽然Masked Autoencoders(MAE)在自然语言处理(NLP)[20]和计算机视觉(CV)[21]中引发了革命,但由于领域差异,它们直接应用于生理时间序列恢复并不简单。与预测无基线漂移的离散语义令牌的NLP模型不同,fNIRS信号是连续且非平稳的,受物理定律(即修正的比尔-朗伯定律[22])支配,这些定律本质上将低频趋势与神经波动混合在一起。为了解决这个问题,TSAE引入了一个考虑趋势的解码器,以明确分离血流动力学漂移和神经活动,用连续流形学习替代了令牌分类。此外,与依赖静态像素的高空间冗余来支持随机屏蔽的CV模型不同,fNIRS光电二极管在空间上是稀疏的且拓扑受限的;因此,我们提出了考虑ROI的屏蔽方法,以强制保留区域间的功能耦合,而不仅仅是简单的局部插值。通过将这些基于物理的机制与教师-学生先验注入策略相结合,TSAE建立了一个可推广的结构化生理信号恢复范式,超越了fNIRS的特定模态。