深度伪造技术已经出现,能够生成与真实视频难以区分的复杂动态面部图像(Seow等人,2022年)。这一能力引发了关于其伦理和安全影响的讨论,例如错误信息和身份盗窃(Vaccari和Chadwick,2020年)。尽管存在这些合理担忧,但这类人工智能生成的内容为研究生物视觉和面部感知提供了有希望的机会(Becker和Laycock,2023年)。例如,深度伪造技术使研究人员能够操纵身份(Tauscher等人,2021年)、情绪(Groth等人,2020年;Papantoniou等人,2022年;Solanki和Roussos,2021年;Vijay等人,2021年)、种族(Haut等人,2021年)、吸引力(Eberl等人,2022年)以及眼睛注视方向(Gupta等人,2020年)在动态面部图像中的表现。
动态面部图像对于研究情绪尤为重要,因为情绪会随时间变化,代表情绪的面部表情也是如此。面部表情由多个动作单元组成,这些单元异步展开并遵循非线性轨迹(Bartlett等人,2006年;Pantic和Patras,2006年),这些时间关系有助于区分相似的情绪,如恐惧和惊讶(Delis等人,2016年)。虽然视频记录可以捕捉到这种自然的时间变化,但在实验中很难对其进行标准化和操纵。传统上,神经影像学研究通常使用动态变形图像,通过逐渐将一张中性照片与一张富有表现力的照片混合来展示从中性到情绪的表情变化,这样可以控制实验刺激。然而,这种方法描绘的是线性且同步的运动,与非线性的自然面部运动不同(Cunningham和Wallraven,2009年;Krumhuber等人,2023年)。与原始记录相比,动态变形表情被认为强度较低且不够真实,参与者认为动态变形表情令人毛骨悚然或不自然(Becker等人,2024a;Korolkova,2018年)。
深度伪造内容的逼真度取决于模型生成面部图像的训练程度,不同类型的深度伪造内容在逼真度上有不同的用途和限制(见图1)。传统的面部交换深度伪造内容在面部运动、颜色和纹理与周围视频中的头发和头部不匹配时可能显得不自然(Waseem等人,2023年)。最近,研究人员创建了一组“木偶式”深度伪造内容,它们替换了身份的所有可见特征(而不仅仅是面部),这些特征来自一组经过验证的视频记录的中性到极致的表情,这可能为实验操作动态面部图像提供了更有效的工具。与动态变形图像不同,这些深度伪造内容被认为与原始视频一样具有强烈的真实感,而且在单独的检测任务中,受试者很难将它们区分开来(Becker等人,2023年)。尽管动态变形图像在神经反应中显示出明显的事件相关活动(Becker等人,2024b),但深度伪造内容的神经效应仍很大程度上未知。
一些脑电图(EEG)研究将真实照片与使用基于扩散算法的人工智能生成的合成面部进行了比较,后者创造了全新的、不存在的身份。机器学习分类器可以根据神经活动可靠地区分人工智能生成的面孔和真实面孔(Moshel等人,2022年;Khan等人,2024年);Tarchi等人(2023年)在深度伪造检测任务中报告了使用快乐、中性和悲伤表情时的频率特异性活动的地形差异。然而,这些研究检查的是静态的合成身份,而不是自动编码器深度伪造内容,后者将现有的身份和表情映射到视频的时间动态上。它们并不能直接说明自动编码器深度伪造内容的情况,后者保留了原始的身份、情绪和运动特征,因此可能更适用于研究自然面部感知和对真实与合成运动的神经反应。
迄今为止,只有一项神经影像学研究探讨了对动态自动编码器深度伪造内容的反应,重点关注熟悉度(Tauscher等人,2021年)。通过脑电图(EEG),作者发现对已知人物的深度伪造内容的感知存在差异,而对未知个体的反应在视频和深度伪造内容之间没有区别。由于他们的研究没有关注情绪感知,因此尚不清楚对情绪深度伪造内容的神经反应是否会与视频相似。此外,Tauscher和Castillo使用的是面部交换技术,即将合成面部放置到真实视频中人物的身体上。因此,目前尚不清楚观察到的神经效应是与真实和计算机生成图像的结合有关,还是与身份的结合有关。
N400是一种负向的事件相关电位(ERP)成分,当刺激违反预期时会被放大,包括不一致的面部(Hamm等人,2002年)、被操纵的面部(Balconi和Pozzoli,2005年)以及落入“恐怖谷”范围的面部(Mustafa等人,2017年;Urgen等人,2018年;Urgen等人,2013年)。“恐怖谷”是指类人物体与人类非常相似时会引起令人不安的感觉(Alexander等人,2009年;Marschner等人,2000年;Mori等人,2012年)。预期与观察到的面部表情动作之间的不匹配会触发负面情绪并增加恐怖感评分(Tinwell等人,2011年)。最近的研究表明,动态变形图像中描绘的情绪表情引发了比视频更高的N400反应,这可能是由于它们的不自然运动,参与者将其描述为“令人不安”(Becker等人,2023年)。
重要的是,深度伪造内容似乎能够绕过“恐怖谷”——虽然部分面部交换可能令人不安,但全脸深度伪造内容有时比原始视频更不令人不安(Welker等人,2020年)。基于此,我们预计动态变形图像将引发比视频和深度伪造内容更高的N400幅度,而两者之间没有差异。
晚期正电位(LPP)通常与刺激的动机显著性增加有关(Hajcak和Foti,2020年),在情绪激发的图像(Schupp等人,2003年;Werheid等人,2005年)和面部表情(Bublatzky等人,2014年;Mühlberger等人,2009年)中幅度更高,相比之下中性刺激则较低。与相同表情的动态变形图像相比,视频记录引发的LPP幅度更高(Becker等人,2024b),这与LPP对自然面部运动敏感的证据一致(Krakowski等人,2011年;Treal等人,2021年)。真实面部引发的LPP幅度高于合成面部(Schindler等人,2017年;Wheatley等人,2011年;Zhao等人,2019年),然而尚不清楚这是否包括更具说服力的人工智能生成面部。鉴于深度伪造内容保留了自然运动(Perov等人,2020年),且深度伪造内容的情绪与视频相似(强度、真实性、定性描述;Becker等人,2023年),我们预计视频和深度伪造内容将引发相似的LPP幅度。
传统的ERP分析可能会忽略那些在试验间不一致的动态特征的神经反应(Cohen,2014年),这对于动态刺激尤为重要。先前的研究表明,与前额区域相比,自然面部运动中的δ振荡(0.5-3 Hz)更高(Becker等人,2024b;Perdikis等人,2017年)。与视频记录的表情不同,动态变形图像在前额区域的δ没有增加(Becker等人,2024b)。由于这些视频和变形图像的第一个和最后一个帧是相同的,δ活动的差异可以归因于每种刺激类型所描绘的运动。因此,比较视频和深度伪造内容之间的前额δ活动可能有助于了解深度伪造内容是否准确捕捉了视频记录中的自然面部运动。
本研究关注深度伪造内容、动态变形图像和视频所表现的情绪引起的神经反应。我们旨在评估人类视觉系统对人工生成的动态媒体的敏感性。通过使用完全合成的“木偶式”深度伪造内容,我们排除了颜色转移、面部裁剪和身份组合的影响。因此,本研究关注深度伪造内容的外观和时间特征是否足够自然,以引发与真实面部相似的反应。通过将深度伪造内容与常用的动态变形图像进行比较,我们试图确定深度伪造内容是否可以为那些希望实验操作逼真动态面部图像的面部感知研究人员提供更符合生态学要求的替代方案。
先前的研究表明,与视频记录相比,动态变形图像引发了更高的N400和LPP幅度(Becker等人,2024b),我们在这里旨在复制这一发现。我们还检查了δ活动的地形,并添加了相位锁定分析,以补充先前关于视频相比变形表情具有更高前额δ功率的发现。鉴于对这些深度伪造情绪的行为反应与原始视频相似(Becker等人,2023年),我们预计它们将在所有领域引发类似的神经反应(N400、LPP、δ功率、δ相位锁定)。