综述：视觉工具包第三部分：用于注视行为表征的扫描路径及其衍生表示法的综述

《Frontiers in Physiology》：Vision toolkit part 3. Scanpaths and derived representations for gaze behavior characterization: a review

【字体：大中小】 时间：2026年01月27日 来源：Frontiers in Physiology 3.4

编辑推荐：

　　本综述系统回顾了扫描路径（scanpath）分析的核心方法学框架，重点探讨了如何通过几何描述符、空间密度表征、注意力图（attention maps）、递归量化分析（RQA）及符号字符串编码等多种表征技术来刻画个体视觉探索行为，并详细评述了包括点映射、弹性对齐（如DTW, Fréchet距离）、字符串编辑距离（如Levenshtein距离）、基于显著性的度量以及整合时空信息的混合方法在内的扫描路径比较策略。文章强调，选择何种方法取决于具体的研究问题与实验背景，旨在为跨学科的眼动动力学研究提供统一的方法选择指南与可重复性支持。

扫描路径分析作为窥探视觉行为的强大窗口，通过同时捕捉注视的空间组织和时间动态，将知觉、认知和眼动控制联系起来，为理解个体如何探索视觉场景并完成任务目标提供了丰富的见解。

1 引言

“扫描路径”（scanpath）这一术语最早由Noton和Stark提出，其核心思想是内部认知表征以自上而下（top-down）的方式引导视觉感知和相关的主动眼动机制。Yarbus的经典研究则表明，注视位置、时间顺序以及扫描路径的整体结构共同依赖于刺激特性和观察者的心理状态。一个扫描路径通常定义为一系列连续的注视点，每个点由其空间坐标和持续时间指定。从原始 gaze 信号到扫描路径轨迹的转换过程，通常始于将原始注视记录分割为慢速（注视）和快速（扫视）阶段，最终生成扫描路径时间序列。经典的扫描路径理论认为扫描路径主要是自上而下的过程，由观察者的心理模型驱动。而视觉显著性（visual saliency）模型则强调自下而上（bottom-up）的影响，即低水平刺激特性（如对比度、颜色、运动）捕获注意力并引导眼动。当代观点倾向于一种动态的、交互式的过程，认为初始注视主要由自下而上的显著性驱动，而后期的注视则越来越多地反映与任务目标、期望、先验知识相关的自上而下影响。

2 单扫描路径表征

本节关注于独立分析单个注视序列的方法，旨在表征其结构，而无需进行显式的跨观察者或试验比较。

2.1 几何学方法

2.1.1 基本描述性特征

•
扫描路径长度：量化扫描过程中眼睛移动的总距离，常以视觉角度或像素表示。较长的路径常与较低效的搜索行为相关。
•
角度分析：分析连续注视点形成的角度，可用于表征视觉搜索的几何效率。
•
注视分散度：评估注视点在场景中的空间分布，高分散度可能反映探索性搜索，低分散度则可能表示注意力集中或受限的探索。
•
其他描述符：平均扫视幅度和平均注视持续时间等，为眼动行为提供更细致的描述。

2.1.2 空间密度

•
扫描路径空间密度：描述视觉场被探索的广泛程度，与搜索策略和观察者专业技能相关。计算方法包括网格法、连续滤波法（如使用1°或2°视场的圆形滤波器）。
•
K系数：结合标准化的注视持续时间和后续扫视幅度，用于区分环境和焦点注意力状态，指示认知负荷变化。
•
最近邻指数（NNI）：评估注视点分布的随机性，与认知工作量相关。
•
Voronoi图：通过分析Voronoi细胞的大小分布来表征注视的均匀性和聚类情况。

2.1.3 凸包

凸包是包含所有注视点的最小凸多边形区域。其面积反映了任务期间探索的周边视野范围，较小的面积通常对应于更集中的注视和减少的视觉努力。但凸包面积对异常值敏感，因此常与其他度量（如扫描路径长度）结合使用。改进的指标包括“单位时间凸包面积”和“单位凸包面积注视数”，以整合时间和密度信息。

2.1.4 分形维数

分形维数用于量化扫描路径轨迹的复杂性和不规则性。传统的盒计数法应用于扫描路径的二维形状，但不考虑时间维度。新近的方法采用Higuchi分形维数（HFD）结合Hilbert曲线距离，将二维坐标映射到一维序列，从而捕捉包含时间维度的分形复杂性，有助于过滤不一致的扫描路径。

2.2 显著性图

2.2.1 注意力图

注意力图（或称热图）是注视点空间分布的可视化。通常通过将每个注视点与高斯核（标准差常设为1或2度视角）进行卷积生成，其平滑度直接影响图的粒度。除了简单的注视计数图，还有绝对注视持续时间图、相对注视持续时间图和参与者百分比图等变体，各有优缺点，需根据研究目标选择。注意力图直观易读，广泛应用于市场营销、人机交互等领域，但其本质是静态的，不直接提供时间动态信息。

2.2.2 显著性模型

显著性模型是计算框架，旨在预测图像中可能吸引视觉注意力的区域。早期模型（如Itti-Koch模型）整合颜色、强度、方向等低层特征。当前，基于全卷积神经网络（CNN）的深度学习模型在预测性能上领先。这些模型通常结合了自下而上和自上而下的信息。

2.3 递归量化分析（RQA）

RQA用于量化注视序列的时间组织，捕捉其重访、重复子序列等时间规律性。其核心是递归图，该图显示扫描路径轨迹在何时重返先前状态（即空间上接近的注视点）。从递归图中可提取多个量化特征：

•
递归率：注视对在空间阈值内出现的百分比。
•
确定性：形成对角线的递归点百分比，反映短子序列的重复，指示行为的可预测性。
•
层流性：形成垂直或水平线的递归点百分比，对应在特定区域的长时间停留或反复返回。
•
递归质量中心（CORM）：反映递归点的时间分布。
•
熵：描述对角线长度分布的复杂性。

RQA将分析重点从单纯的空间分布转向了时间动态结构。

2.4 字符串序列表示

该方法将视觉场离散化（如叠加网格或定义感兴趣区域AoIs），将每个注视点映射到对应的符号（如字母），从而将空间扫描路径转换为有序的符号字符串。这种表示法抽象了精细的空间细节，但保留了时间顺序，便于检测重复模式和执行序列分析。为了纳入时间信息，可根据注视持续时间对符号进行时间分箱（重复符号）。另一种方法是百分位数映射，使每个符号的出现频率大致相等，以减少空间偏移带来的偏差。字符串表示为后续的字符串比较算法（如下文所述）奠定了基础。

3 扫描路径间的相似性

量化扫描路径之间的差异或相似性对于理解任务、刺激和个体差异如何影响眼动至关重要。

3.1 直接比较

3.1.1 点映射度量

早期方法如Mannan双映射度量，计算一个扫描路径中每个注视点到另一个扫描路径中最近邻点的距离（或双向）。这类方法主要关注空间特性，而忽略了时间顺序，且可能产生不均衡的映射。

3.1.2 弹性对齐度量

•
动态时间规整（DTW）：通过动态编程寻找两个时间序列之间的最优非线性时间对齐，以最小化对齐点之间的累积距离。它能处理不同长度和局部时间伸缩的序列，但不满足三角不等式。
•
离散Fréchet距离：直观上可理解为连接两个路径上的点所需的最短“ leash”长度，要求点沿路径前进。它对时间错位更敏感，但对异常值也更敏感。

3.2 字符串编辑距离

在将扫描路径转换为字符串后，可使用字符串编辑距离进行比较。

•
Levenshtein距离：通过计算插入、删除和替换操作的最小成本来量化两个字符串的差异。改进版本引入了基于空间距离或语义相关性的可变替换成本。
•
Damerau-Levenshtein距离：增加了相邻元素转置操作。
•
最长公共子序列（LCS）：专注于寻找两个字符串中最长的共享子序列，忽略替换操作。

这些方法严重依赖于前期的空间离散化（分箱）质量。

3.3 显著性比较方法

3.3.1 参考显著性图与扫描路径比较

•
标准化扫描路径显著性（NSS）：计算注视点在参考显著性图上的Z-score值。
•
百分位数度量：计算注视点的显著性值在参考图中的百分位数排名。
•
信息增益（IG）：衡量显著性模型相对于基线模型（如中心先验）的预测能力提升。
•
基于位置的度量（AUC）：将显著性图视为二分类器，通过计算接收者操作特征曲线下面积（AUC）来评估其预测真实注视点的能力，有AUC-Judd, AUC-Borji, 打乱AUC（sAUC）等变体。

3.3.2 显著性图对比较

•
Kullback-Leibler散度（KL）：衡量两个概率分布之间的差异。
•
皮尔逊相关系数：衡量两个图之间的线性关系。
•
斯皮尔曼等级相关系数：衡量等级关系，对非线性更稳健。
•
推土机距离（EMD）：衡量将一个分布转换为另一个分布所需的最小“工作量”，考虑了空间位移。

3.4 交叉递归量化分析（CRQA）

CRQA将RQA扩展到两个扫描路径的比较，用于研究观察者之间或观察者与刺激之间的时间协调性。它生成一个交叉递归图，显示两个序列在何时处于相似状态（空间上接近）。可提取的度量包括交叉递归率、交叉确定性、交叉层流性和交叉熵，用于量化两个扫描路径在时空上的耦合程度。

3.5 特定比较算法

•
ScanMatch：基于Needleman-Wunsch算法进行序列对齐，其创新在于使用扫视着陆位置的变异性来定义替换矩阵，允许匹配在生理合理范围内的区域。
•
SubsMatch：通过滑动窗口计算扫描路径字符串中所有长度为n的子序列（n-gram）的频率分布，通过比较这些分布来评估相似性。SubsMatch 2.0引入了基于分类器的方法来加权判别性强的子序列。
•
MultiMatch：将扫描路径表示为连接的扫视向量，通过简化（合并共线短向量）和基于向量差矩阵的动态编程对齐后，从对齐的向量对中提取形状、长度、位置、方向和持续时间五个方面的相似性度量。

3.6 多扫描路径比较：迈向组水平分析

扫描路径相似性分数通常在比较中才有意义（如组内vs组间相似性）。基于成对距离矩阵，可进行聚类、多维缩放或监督分类。更高级的多扫描路径分析常基于符号化表示（如AoI序列），涉及共识序列构建、 motif 提取、图论分析等方法，这些与感兴趣区域（AoI）方法论紧密相关。

4 讨论

扫描路径分析领域方法丰富但略显零散，缺乏明确指导方法选择的统一框架。挑战在于平衡直观的可视化表示与抽象的量化度量，以及处理方法的参数敏感性和可扩展性。机器学习和深度学习（如CNN, RNN）为从眼动数据中推断复杂认知状态提供了新途径，但其性能受训练数据质量和多样性的限制。生成模型和迁移学习等进展有望缓解数据稀缺问题。未来的方向可能在于开发结合符号化方法可解释性和数据驱动模型表征能力的混合框架。

热点排行

新闻专题