基于多模态大型语言模型的、具有个性识别的多模态欺骗检测技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Personality-aware Multimodal Deception Detection with multimodal large language model

【字体：大中小】 时间：2026年04月15日 来源：Pattern Recognition 7.6

编辑推荐：

　　多模态欺骗检测框架融合人格特性和强化学习，通过LLM将大五人格问卷转化为叙述性描述，作为可解释的上下文先验；采用GRPO和复合奖励函数微调多模态LLM，监督推理过程与预测准确性。在MDPE数据集上达到67.08%准确率，超越人类和现有模型。人格先验帮助校准行为线索解读，减少刻板印象，提升检测公平性。

Cong Cai|Zhengqi Wen|Xuefei Liu|Jianhua Tao|Bin Liu

北京工业大学，中国北京

摘要

在高风险场景中，检测欺骗行为仍然是一个重大挑战。尽管一些多模态机器学习方法提高了性能，但它们往往忽略了一个关键因素：个体性格与其欺骗行为之间的内在联系。为了实现个性化的欺骗检测，我们提出了一个新颖的两阶段框架，该框架通过强化学习将性格特征与多模态大型语言模型（LLM）相结合。首先，我们使用LLM将原始的大五人格问卷（Big Five Inventory Questionnaire）回答转化为丰富的叙述性性格描述，提供可解释的上下文先验。其次，我们利用群体相对策略优化（Group Relative Policy Optimization）和复合奖励函数对多模态LLM进行微调，该函数同时监督推理过程和最终预测的准确性。在MDPE数据集上进行评估，我们的方法取得了67.08%的先进性能，超过了人类判断者和先进的MLLMs。重要的是，我们的模型在不知道固定欺骗配额的情况下运行，显示出强大的信号检测能力。分析表明，性格描述使模型能够根据个体基线校准对行为线索的解释，减轻刻板印象偏见，并在多样化的心理特征中实现更公平和准确的检测。这项工作开创了计算心理学与多模态推理的整合，使得欺骗检测更加个性化和公平。

引言

在安全筛查、司法审讯和关键工作面试等高风险场景中，准确的欺骗检测至关重要。数十年的心理学研究表明，欺骗行为通过特定的言语和非言语线索表现出来，包括目光回避、音调升高和叙述复杂性降低[1]、[2]、[3]。基于这些基础，最近采用视觉、听觉和语言特征多模态融合的计算方法在受控环境中取得了显著的性能提升[4]、[5]、[6]。

尽管取得了这些进展，当前的方法仍面临两个关键限制。首先，它们主要采用通用检测模型，很大程度上忽略了个体差异的深远影响。人格心理学提供了有力的证据，表明大五人格特质、黑暗三特质（Dark Triad）和诚实-谦逊（Honesty-Humility）与欺骗倾向、动机和有效性之间存在系统性的关联[7]、[8]、[9]。例如，尽责性（Conscientiousness）较低的人可能更容易欺骗，因为他们的道德约束较弱[10]，而外向性（Extraversion）较高的人通常表现出更出色的社交技能，有助于掩盖欺骗[11]。其次，传统的分类模型作为不透明的黑箱运行，提供的预测没有透明的推理过程，这严重限制了它们在敏感领域的可信度和实用性[12]、[13]。

为了解决这些挑战，我们提出了一个基于强化学习的人格感知多模态欺骗检测框架。我们利用大型语言模型将BFI-2问卷的心理测量数据转化为丰富的叙述性性格描述，提供了模仿人类基于人格的真实性评估能力的计算环境。

我们的框架分为两个协同阶段：性格描述生成：LLM将受试者对60项BFI-2问卷的回答合成连贯的文本描述，突出关键特征和方面，这些描述基于我们数据集分析中识别的统计相关性。强化学习微调：我们使用群体相对策略优化（GRPO）[14]对先进的多模态LLM进行微调。一种新颖的复合奖励函数不仅激励正确的最终预测，还通过专门的奖励过程模型促进逻辑上连贯的逐步推理，明确地将性格先验与观察到的多模态行为线索（视觉、听觉、语言）相结合。

我们在带有性格注释的多模态欺骗语料库MDPE数据集[15]上进行了全面实验。我们的方法在所有模态组合中都取得了先进性能，全多模态输入（音频、视频、文本）的准确率为67.08%，超过了人类面试官的判断（61.04%）和领先的MLLMs。

我们的核心见解是，性格特征应作为上下文先验——一个校准多模态行为线索解释的参考框架。通过将大五人格问卷（BFI）得出的性格轮廓整合到多模态大型语言模型（MLLM）中，我们使系统能够进行个性化检测。

这项工作的主要贡献有三个方面：

•
我们提出了第一个明确将大五人格特质作为校准机制的多模态欺骗检测框架。通过将性格视为上下文先验，我们的模型有效地区分了基于特质的行为和基于状态的欺骗线索，减轻了传统方法常受到的行为偏见。
•
我们开发了一种新颖的两阶段训练范式，将基于LLM的性格轮廓生成与群体相对策略优化（GRPO）相结合。我们引入了一个复合奖励系统，该系统同时监督最终预测的准确性和推理过程，确保模型的判断基于心理证据而非虚假的相关性。
•
在MDPE数据集上的广泛实验表明，我们的方法达到了67.08%的先进准确率，显著优于人类判断者（61.04%）和强大的基线。我们的分析证实，人格感知建模在多样化的心理特征中提供了持续的性能提升，为欺骗检测提供了更公平的解决方案。

方法

我们的框架包括两个阶段：性格描述生成和强化学习。在第一阶段，我们使用大型语言模型提取受试者的性格描述，以便将其作为性格特征输入到后续的强化学习过程中。在第二阶段，我们使用细粒度数据集进行奖励计算和策略更新。图1显示了我们方法的整体训练过程。

MDPE数据集

为了研究不同性格特征下的欺骗行为差异，我们使用了具有性格和情感特征的多模态欺骗数据集（MDPE）[15]。该数据集包含193名参与者的数据，每位参与者都接受了由24个问题组成的标准化面试过程。实验协议要求参与者对9个随机选择的问题提供欺骗性回答，对剩余的15个问题提供真实回答。

实施细节

所有实验都在配备80 GB内存的NVIDIA A800 GPU上进行。模型使用批量大小为4进行训练，学习率设置为1e?5。训练过程最多进行20个周期。视频输入的采样率为2 FPS，最大序列长度为32帧。音频流从视频文件中以16 kHz的采样率提取。模型的最大输出令牌长度设置为2048。BFI-2问卷的回答包含60个项目，

结论

本文解决了自动化欺骗检测中的一个关键限制：忽视了个体差异。我们提出了一个将性格分析与多模态推理相结合的新框架，通过强化学习实现这一目标。通过将原始问卷回答转化为叙述性性格描述，我们为模型提供了可解释的上下文先验。然后使用GRPO和复合奖励系统对模型进行微调，该系统既重视准确结果，

CRediT作者贡献声明

Cong Cai：写作——审阅与编辑，撰写原始草案。Zhengqi Wen：监督。Xuefei Liu：监督。Jianhua Tao：监督，资金获取。Bin Liu：监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关研究

方法

MDPE数据集

实施细节

结论

CRediT作者贡献声明

利益冲突声明

热点排行