大脑对深度伪造图像和真实情感面部表情视频的反应表明,人们能够在无意识的情况下识别出这些差异

《Computers in Human Behavior》:Brain Responses to Deepfakes and Real Videos of Emotional Facial Expressions Reveal Detection Without Awareness

【字体: 时间:2026年01月23日 来源:Computers in Human Behavior 8.9

编辑推荐:

  AI生成的深伪可能影响生物视觉研究,需通过神经响应验证其真实性。研究发现动态形态与深伪在N400电位幅值上高于真实视频,LPP电位幅值最低,动态形态因不自然运动被感知为人工伪造。尽管深伪视觉逼真度较高,但N400电位差异表明大脑可隐式识别其人工特征。研究揭示了神经机制与感知的关联,为AI内容检测提供新思路。

  
凯西·贝克尔(Casey Becker)|拉塞尔·康杜伊特(Russell Conduit)|菲利普·A·舒伊纳德(Philippe A. Chouinard)|罗宾·莱科克(Robin Laycock)
皇家墨尔本理工大学(RMIT University)健康与生物医学科学学院,地址:澳大利亚维多利亚州邦杜拉(Bundoora)Plenty Rd 225-245,邮编3082

摘要

人工智能生成的深度伪造内容可能有助于生物视觉研究,但前提是它们能够引发与真实视频相似的神经反应。我们研究了参与者在不知情的情况下,对视频中快乐和恐惧面部表情、深度伪造内容以及动态变形图像的神经反应(通过脑电图EEG测量)。与预期违背相关的N400事件相关电位在动态变形图像和深度伪造内容中显示出更高的幅度,而在视频中则较低。与动机显著性相关的晚期正电位(LPP)在动态变形图像中最低。与刺激显著性广泛相关的δ振荡在不同显示类型下的地形有所不同:在视频中δ功率在前额电极处最高,而在动态变形图像中在后部电极处最高。对于深度伪造内容,前额和后部的δ功率都高于中部电极。δ相位锁定(衡量试验间的同步性)在视频中的前额区域比在动态变形图像中更高。实验后的访谈显示,参与者对深度伪造内容和视频的感知相似,而动态变形图像则被认为具有操纵性或令人不安。即使揭示了深度伪造内容的存在,参与者在明确的检测任务中仍难以识别它们。尽管深度伪造内容的逼真度很高,但我们的研究结果表明,人类大脑能够隐式地检测到细微的差异,这体现在深度伪造内容引起的N400幅度增加上。我们的研究为深度伪造内容的感知以及面部感知和情绪处理的神经机制提供了宝贵的见解。

引言

深度伪造技术已经出现,能够生成与真实视频难以区分的复杂动态面部图像(Seow等人,2022年)。这一能力引发了关于其伦理和安全影响的讨论,例如错误信息和身份盗窃(Vaccari和Chadwick,2020年)。尽管存在这些合理担忧,但这类人工智能生成的内容为研究生物视觉和面部感知提供了有希望的机会(Becker和Laycock,2023年)。例如,深度伪造技术使研究人员能够操纵身份(Tauscher等人,2021年)、情绪(Groth等人,2020年;Papantoniou等人,2022年;Solanki和Roussos,2021年;Vijay等人,2021年)、种族(Haut等人,2021年)、吸引力(Eberl等人,2022年)以及眼睛注视方向(Gupta等人,2020年)在动态面部图像中的表现。
动态面部图像对于研究情绪尤为重要,因为情绪会随时间变化,代表情绪的面部表情也是如此。面部表情由多个动作单元组成,这些单元异步展开并遵循非线性轨迹(Bartlett等人,2006年;Pantic和Patras,2006年),这些时间关系有助于区分相似的情绪,如恐惧和惊讶(Delis等人,2016年)。虽然视频记录可以捕捉到这种自然的时间变化,但在实验中很难对其进行标准化和操纵。传统上,神经影像学研究通常使用动态变形图像,通过逐渐将一张中性照片与一张富有表现力的照片混合来展示从中性到情绪的表情变化,这样可以控制实验刺激。然而,这种方法描绘的是线性且同步的运动,与非线性的自然面部运动不同(Cunningham和Wallraven,2009年;Krumhuber等人,2023年)。与原始记录相比,动态变形表情被认为强度较低且不够真实,参与者认为动态变形表情令人毛骨悚然或不自然(Becker等人,2024a;Korolkova,2018年)。
深度伪造内容的逼真度取决于模型生成面部图像的训练程度,不同类型的深度伪造内容在逼真度上有不同的用途和限制(见图1)。传统的面部交换深度伪造内容在面部运动、颜色和纹理与周围视频中的头发和头部不匹配时可能显得不自然(Waseem等人,2023年)。最近,研究人员创建了一组“木偶式”深度伪造内容,它们替换了身份的所有可见特征(而不仅仅是面部),这些特征来自一组经过验证的视频记录的中性到极致的表情,这可能为实验操作动态面部图像提供了更有效的工具。与动态变形图像不同,这些深度伪造内容被认为与原始视频一样具有强烈的真实感,而且在单独的检测任务中,受试者很难将它们区分开来(Becker等人,2023年)。尽管动态变形图像在神经反应中显示出明显的事件相关活动(Becker等人,2024b),但深度伪造内容的神经效应仍很大程度上未知。
一些脑电图(EEG)研究将真实照片与使用基于扩散算法的人工智能生成的合成面部进行了比较,后者创造了全新的、不存在的身份。机器学习分类器可以根据神经活动可靠地区分人工智能生成的面孔和真实面孔(Moshel等人,2022年;Khan等人,2024年);Tarchi等人(2023年)在深度伪造检测任务中报告了使用快乐、中性和悲伤表情时的频率特异性活动的地形差异。然而,这些研究检查的是静态的合成身份,而不是自动编码器深度伪造内容,后者将现有的身份和表情映射到视频的时间动态上。它们并不能直接说明自动编码器深度伪造内容的情况,后者保留了原始的身份、情绪和运动特征,因此可能更适用于研究自然面部感知和对真实与合成运动的神经反应。
迄今为止,只有一项神经影像学研究探讨了对动态自动编码器深度伪造内容的反应,重点关注熟悉度(Tauscher等人,2021年)。通过脑电图(EEG),作者发现对已知人物的深度伪造内容的感知存在差异,而对未知个体的反应在视频和深度伪造内容之间没有区别。由于他们的研究没有关注情绪感知,因此尚不清楚对情绪深度伪造内容的神经反应是否会与视频相似。此外,Tauscher和Castillo使用的是面部交换技术,即将合成面部放置到真实视频中人物的身体上。因此,目前尚不清楚观察到的神经效应是与真实和计算机生成图像的结合有关,还是与身份的结合有关。
N400是一种负向的事件相关电位(ERP)成分,当刺激违反预期时会被放大,包括不一致的面部(Hamm等人,2002年)、被操纵的面部(Balconi和Pozzoli,2005年)以及落入“恐怖谷”范围的面部(Mustafa等人,2017年;Urgen等人,2018年;Urgen等人,2013年)。“恐怖谷”是指类人物体与人类非常相似时会引起令人不安的感觉(Alexander等人,2009年;Marschner等人,2000年;Mori等人,2012年)。预期与观察到的面部表情动作之间的不匹配会触发负面情绪并增加恐怖感评分(Tinwell等人,2011年)。最近的研究表明,动态变形图像中描绘的情绪表情引发了比视频更高的N400反应,这可能是由于它们的不自然运动,参与者将其描述为“令人不安”(Becker等人,2023年)。
重要的是,深度伪造内容似乎能够绕过“恐怖谷”——虽然部分面部交换可能令人不安,但全脸深度伪造内容有时比原始视频更不令人不安(Welker等人,2020年)。基于此,我们预计动态变形图像将引发比视频和深度伪造内容更高的N400幅度,而两者之间没有差异。
晚期正电位(LPP)通常与刺激的动机显著性增加有关(Hajcak和Foti,2020年),在情绪激发的图像(Schupp等人,2003年;Werheid等人,2005年)和面部表情(Bublatzky等人,2014年;Mühlberger等人,2009年)中幅度更高,相比之下中性刺激则较低。与相同表情的动态变形图像相比,视频记录引发的LPP幅度更高(Becker等人,2024b),这与LPP对自然面部运动敏感的证据一致(Krakowski等人,2011年;Treal等人,2021年)。真实面部引发的LPP幅度高于合成面部(Schindler等人,2017年;Wheatley等人,2011年;Zhao等人,2019年),然而尚不清楚这是否包括更具说服力的人工智能生成面部。鉴于深度伪造内容保留了自然运动(Perov等人,2020年),且深度伪造内容的情绪与视频相似(强度、真实性、定性描述;Becker等人,2023年),我们预计视频和深度伪造内容将引发相似的LPP幅度。
传统的ERP分析可能会忽略那些在试验间不一致的动态特征的神经反应(Cohen,2014年),这对于动态刺激尤为重要。先前的研究表明,与前额区域相比,自然面部运动中的δ振荡(0.5-3 Hz)更高(Becker等人,2024b;Perdikis等人,2017年)。与视频记录的表情不同,动态变形图像在前额区域的δ没有增加(Becker等人,2024b)。由于这些视频和变形图像的第一个和最后一个帧是相同的,δ活动的差异可以归因于每种刺激类型所描绘的运动。因此,比较视频和深度伪造内容之间的前额δ活动可能有助于了解深度伪造内容是否准确捕捉了视频记录中的自然面部运动。
本研究关注深度伪造内容、动态变形图像和视频所表现的情绪引起的神经反应。我们旨在评估人类视觉系统对人工生成的动态媒体的敏感性。通过使用完全合成的“木偶式”深度伪造内容,我们排除了颜色转移、面部裁剪和身份组合的影响。因此,本研究关注深度伪造内容的外观和时间特征是否足够自然,以引发与真实面部相似的反应。通过将深度伪造内容与常用的动态变形图像进行比较,我们试图确定深度伪造内容是否可以为那些希望实验操作逼真动态面部图像的面部感知研究人员提供更符合生态学要求的替代方案。
先前的研究表明,与视频记录相比,动态变形图像引发了更高的N400和LPP幅度(Becker等人,2024b),我们在这里旨在复制这一发现。我们还检查了δ活动的地形,并添加了相位锁定分析,以补充先前关于视频相比变形表情具有更高前额δ功率的发现。鉴于对这些深度伪造情绪的行为反应与原始视频相似(Becker等人,2023年),我们预计它们将在所有领域引发类似的神经反应(N400、LPP、δ功率、δ相位锁定)。

部分摘录

参与者

根据Sollfrank等人(2021年)对视频和真实化身之间低频振荡的比较,得出的效应量为0.082,由此确定了达到95%功效所需的样本量为20人。我们通过校园和在线广告招募了21名参与者(15名女性,6名男性),年龄在19-40岁之间(平均值M=27.0,标准差SD=6.6)。参与者为澳大利亚居民,具有多种族背景:澳大利亚人(6人)、白人/高加索人(5人)、中国人(2人)、混合非洲人(2人)、德国人(1人)。

结果

我们在时域和时频统计分析中检查了性别、惯用手和临床诊断等潜在的混杂因素。作为组间因素的性别或临床诊断之间没有观察到差异(p’>0.06)。由于左撇子参与者数量有限,我们进行了单独的分析,排除了这些参与者。这些额外分析的结果与我们的主要发现基本一致,表明

讨论

目前的发现有助于理解大脑对视频记录中呈现的情绪与匹配的深度伪造内容和动态变形图像的反应。我们发现,在时间和时频领域,对每种刺激类型的神经反应存在显著差异。与预期违背(例如Kutas和Federmeier,2011年)和“恐怖谷”效应(例如Urgen等人,2013年)相关的N400在动态变形图像和深度伪造内容中增加。LPP

结论

动态变形图像引发了与视频不同的神经反应。N400的增加表明变形图像违反了预期,而LPP幅度的降低表明它们的动机显著性较低。变形图像显示了更后部的δ功率分布和减少的前额δ相位锁定,我们认为前额δ活动与感知自然面部运动有关。深度伪造内容与视频更为相似,但它们引发了更高的N400。鉴于我们的深度伪造内容

CRediT作者贡献声明

拉塞尔·康杜伊特(Russell Conduit):写作——审稿与编辑、监督、项目管理、方法论、调查、正式分析。凯西·贝克尔(Casey Becker):写作——审稿与编辑、初稿撰写、可视化、验证、监督、方法论、调查、正式分析、数据管理、概念化。罗宾·莱科克(Robin Laycock):写作——审稿与编辑、监督、资源管理、项目管理、方法论、调查、数据管理、概念化。菲利普·A·舒伊纳德(Philippe A Chouinard):写作——

未引用的参考文献

Brain Products GmbH;Curio等人,2006年。

利益冲突声明

? 作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号