
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在领域泛化的背景下探索群体定位中的尺度变换
【字体: 大 中 小 】 时间:2026年02月12日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3
编辑推荐:
人群定位中的域泛化问题受头规模分布差异(scale shift)影响显著,本文构建基准ScaleBench,系统分析scale shift对定位性能的影响机制,提出Catto算法通过因果特征分解和各向异性处理缓解该问题,并揭示四项关键结论。
人群定位在视觉场景理解中起着关键作用,它有助于预测人群中每个行人的位置,因此可应用于各种下游任务。然而,现有方法由于训练数据和测试数据之间的头部尺寸分布差异(尺寸偏移)而存在显著的性能下降问题,这一挑战被称为领域泛化(Domain Generalization,简称DG)。本文旨在理解尺寸偏移在人群定位模型领域泛化背景下的本质。为此,我们提出了四个关键问题:(i)尺寸偏移如何在领域泛化场景中影响人群定位?(ii)我们如何量化这种影响?(iii)是什么导致了这种影响?(iv)如何减轻这种影响?首先,我们对人群定位性能随不同尺寸偏移程度的变化进行了系统研究。然后,我们建立了一个基准测试平台ScaleBench,并复现了20种先进的领域泛化算法来量化这种影响。通过广泛的实验,我们展示了现有算法的局限性,并强调了尺寸偏移的重要性和复杂性——这是一个尚未得到充分研究的课题。为了加深理解,我们对尺寸偏移进行了严谨的理论分析。基于这些见解,我们进一步提出了一种名为“因果特征分解与各向异性处理”(Causal Feature Decomposition and Anisotropic Processing,简称Catto)的有效算法,以减轻领域泛化环境中的尺寸偏移影响。随后,我们还进行了大量的分析实验,为未来的研究提供了四个重要启示。我们的结果强调了这一新颖且具有应用价值的研究方向的重要性,我们将其称为“尺寸偏移领域泛化”(Scale Shift Domain Generalization)。所提出的新型数据集和算法将在https://github.com/wjc2830/ScaleBench.git上发布。
人群定位在视觉场景理解中起着关键作用,它有助于预测人群中每个行人的位置,因此可应用于各种下游任务。然而,现有方法由于训练数据和测试数据之间的头部尺寸分布差异(尺寸偏移)而存在显著的性能下降问题,这一挑战被称为领域泛化(Domain Generalization,简称DG)。本文旨在理解尺寸偏移在人群定位模型领域泛化背景下的本质。为此,我们提出了四个关键问题:(i)尺寸偏移如何在领域泛化场景中影响人群定位?(ii)我们如何量化这种影响?(iii)是什么导致了这种影响?(iv)如何减轻这种影响?首先,我们对人群定位性能随不同尺寸偏移程度的变化进行了系统研究。然后,我们建立了一个基准测试平台ScaleBench,并复现了20种先进的领域泛化算法来量化这种影响。通过广泛的实验,我们展示了现有算法的局限性,并强调了尺寸偏移的重要性和复杂性——这是一个尚未得到充分研究的课题。为了加深理解,我们对尺寸偏移进行了严谨的理论分析。基于这些见解,我们进一步提出了一种名为“因果特征分解与各向异性处理”(Causal Feature Decomposition and Anisotropic Processing,简称Catto)的有效算法,以减轻领域泛化环境中的尺寸偏移影响。随后,我们还进行了大量的分析实验,为未来的研究提供了四个重要启示。我们的结果强调了这一新颖且具有应用价值的研究方向的重要性,我们将其称为“尺寸偏移领域泛化”(Scale Shift Domain Generalization)。所提出的新型数据集和算法将在https://github.com/wjc2830/ScaleBench.git上发布。