从像素到感知:人类似对称性检测基准

《Virus Research》:From pixels to perception: A benchmark for human-like symmetry detection

【字体: 时间:2026年05月07日 来源:Virus Research 2.7

编辑推荐:

  摘要:对称性作为自然界、科学和艺术中的基本概念,因其存在形式多样且人类对称性感知可能偏离数学定义,一直对计算机视觉研究人员构成挑战。以往的对称性检测数据集受限于标注者数量,且缺失了人类感知的细微差别。研究人员引入了PIX2PER,这是一个针对自然场景和艺术作品

  
摘要:对称性作为自然界、科学和艺术中的基本概念,因其存在形式多样且人类对称性感知可能偏离数学定义,一直对计算机视觉研究人员构成挑战。以往的对称性检测数据集受限于标注者数量,且缺失了人类感知的细微差别。研究人员引入了PIX2PER,这是一个针对自然场景和艺术作品中反射对称性的新型数据集。同时,研究人员引入了WF1,这是一种广泛使用的F1检测性能评分的改进版本,通过为精确率(Precision)和召回率(Recall)添加权重以适应感知到的对称性强度。研究人员在该以人为本的数据集上对现有的对称性检测模型进行了比较分析。此外,研究人员还提出了一个完全合成的数据集用于对称性检测模型的预训练。当使用该人类数据对该预训练模型进行微调时,性能显著提升。本研究引入并评估了改进对称性检测的方法,有助于开发能更有效表征人类感知的计算机视觉模型。
论文解读:从像素到感知的对称性检测新基准
研究背景与问题提出
对称性作为一种基本的格式塔(Gestalt)原则,在物体识别、形状检测及图底分割中发挥着关键作用。尽管对称性在自然界和人类艺术中无处不在,但计算机视觉领域的对称性检测仍面临巨大挑战。核心问题在于现实图像中对称性的表现具有高度的变异性和模糊性,且人类的对称性感知往往偏离严格的数学定义,表现出对噪声、扭曲和非完美对称的容忍度。以往的研究主要依赖单一标注者或少量共识生成的二元标注,忽略了人类感知的强度差异。此外,现有数据集多集中于自然图像,对艺术作品的覆盖不足,且缺乏能够量化感知强度的评估指标。因此,开发能够更贴近人类感知的对称性检测基准和模型成为亟待解决的问题。本项研究成果由Gonzalo Muradás Odriozola、Lisa Ko?mann、Tinne Tuytelaars及Johan Wagemans共同完成,发表于《Vision Research》。
关键技术方法
研究人员通过在线行为学实验收集了超过900名参与者的数据,涵盖200幅自然场景图像和200幅艺术作品。参与者被要求在图像中框选出感知到的对称区域并标示对称轴,同时对感知显著性和对称强度进行评分。研究人员采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)密度聚类算法对多标注者数据进行聚合,生成具有权重(反映感知强度)的对称性实例。基于此,构建了新型基准数据集PIX2PER,并设计了加权F1分数(WF1)作为评价指标,该指标通过对高精度和高召回赋予不同权重来适配感知强度。为解决数据量不足的问题,研究人员开发了一种生成完全合成对称数据集的工具,并利用该数据集对U-Net模型进行预训练,随后在PIX2PER上进行微调。
研究结果
3.1 深度学习模型基准测试
研究人员在PIX2PER数据集上评估了多种最先进的深度学习模型。结果显示,所有模型在自然图像上的表现均略优于艺术作品子集,这归因于训练数据多以真实世界图像为主。其中,EquiSym模型表现最佳,在所有类别中超越了基线模型(Baseline)约5.57%。然而,即便是表现最好的模型,其WF1分数也显著低于人类表现(Human performance),这表明当前的模型在捕捉人类复杂的感知模式方面仍存在巨大差距。定性分析显示,模型预测与人类标注在热图分布上存在明显差异。
3.2 合成数据训练模型
利用开发的合成数据生成工具,研究人员首先预训练了一个U-Net模型。该模型在合成测试集上达到了99.16%的准确率和0.82652的Dice系数。随后,研究人员将该预训练模型在PIX2PER数据集上进行微调。结果表明,结合了合成数据预训练和人类数据微调的策略,其性能较之仅在人类数据上训练的模型有显著提升(约10%)。这一混合训练策略证明了利用抽象几何基元进行预训练,再适应具体感知任务的路径是可行的。
3.3 标注者数量分析
研究人员通过比较单标注者与多标注者(50人/图)数据集的训练效果,验证了多标注者共识的重要性。定性对比显示,依赖单标注者会导致标签不完整,模型会因为在单标注者未察觉的对称区域做出正确预测而被错误地惩罚(False Positives)。相比之下,PIX2PER通过聚合50名参与者的判断,有效过滤了个体主观偏差,构建了更具鲁棒性的“共识”真值(Ground Truth)。
讨论与结论
本研究通过整合人类感知数据,解决了现有对称性检测研究中标注多样性不足和感知细微差别缺失的问题。研究人员提出的PIX2PER数据集不仅包含了丰富的自然与艺术图像,还通过聚类算法保留了对称性感知的强度信息。配套的WF1评价指标则更公平地衡量了模型预测与人类感知的一致性。实验证明,尽管当前最先进的模型在特定数据集上表现良好,但在面对复杂的、以人为本的感知任务时仍显不足。通过引入完全合成的预训练数据,研究人员展示了一种可扩展的路径,即通过让网络首先学习底层感知“语法”,再将其适应于特定的人类标注数据,从而显著提升模型性能。这种方法论不仅适用于对称性检测,也为建模连续性、闭合性等其他格式塔原则提供了通用框架。研究最终表明,结合大规模合成预训练与高质量人类感知微调的混合策略,是推动计算机视觉模型向更接近人类感知迈进的有效途径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号