一种用于随机控制循环中可验证运行时保证的神经形态安全监控器
《Neurocomputing》:A neuromorphic safety monitor for verifiable runtime assurance in stochastic control loops
【字体:
大
中
小
】
时间:2026年03月18日
来源:Neurocomputing 6.5
编辑推荐:
针对多模态隐喻检测中存在的模态特定推理不足、解释多样性缺乏和反思性推理缺失三大问题,本文提出MAMMD多智能体协作框架,通过任务型、视角型和反思型协作机制提升隐喻理解能力,并在MET-MEME和MultiMM数据集上验证其有效性,显著优于现有基线方法。
张宇杰|陈志豪|郭青松|万静
北京化工大学,北京,100029,中国
摘要
在多模态背景下检测隐喻是一项基本而具有挑战性的任务,因为隐喻具有隐含性,且文本和图像之间存在复杂的相互作用。现有方法面临三个主要限制:缺乏针对特定模态的推理能力、解释多样性不足以及缺乏反思性推理。为了解决这些问题,我们提出了MAMMD,这是一个用于增强隐喻理解的新颖多智能体协作框架。我们的方法将智能体分为三种协作类型,即基于任务的协作、基于视角的协作和基于反思的协作,每种类型针对特定的推理缺陷。具体来说,检测过程被分解为三个由不同智能体团队处理的特定任务阶段:文本智能体团队关注语言线索,图像智能体团队分析视觉语义,合成智能体整合跨模态证据。除了任务层面的协作外,我们还引入了一种细粒度的辩论机制,在判断监督下,文本和图像智能体从对立的角度进行推理,从而提高解释的稳健性。此外,一个专门的反思智能体会在其他智能体的推理过程中与它们互动,不断评估中间结果,识别语义差距,并指导迭代改进,以提高语义的完整性和连贯性。据我们所知,这是第一个引入多智能体框架进行多模态隐喻检测的工作。在MET-MEME和MultiMM数据集上的广泛实验表明,MAMMD的性能显著优于现有的最佳方法。
引言
隐喻是人类认知和交流的重要机制,它允许通过生动和富有想象力的表达来传达抽象概念和复杂情感[29]。在自然语言处理中,理解隐喻对于更深层次的语义解释、情感分析和高级推理任务至关重要。随着社交媒体平台上多模态内容的迅速普及,隐喻不再局限于纯文本,而是越来越多地嵌入到文本和图像之间的复杂交互中,使得多模态隐喻检测成为一个新兴且具有挑战性的任务[37]。
与单一模态下的传统隐喻检测[3]、[19]、[20]相比,多模态环境引入了新的复杂性层次。它还使得抽象概念的交流更加直观。例如,“时间就是金钱”这样的文本隐喻依赖于两个抽象领域(时间和金钱)之间的直接概念映射。相比之下,多模态隐喻整合了跨模态和模内推理。如图1所示,这个多模态隐喻展示了这种推理过程。在模内层面,文本将“水流”映射到“电流”,将“水车”映射到“灯泡”。在跨模态层面,文本短语与视觉元素直接对应:图像中的水车对应于文本中的“水车”,电路图中的灯泡对应于文本中的“灯泡”。这种分层推理将文本和图像联系起来,并将看不见的电流过程转化为可观察的水流运动。这有助于阐明电流如何驱动灯泡,就像水流如何驱动水车一样。因此,多模态隐喻检测涉及跨模态和模内之间的相互交织的推理,使得抽象知识通过具体的跨模态映射变得更加易于理解。
有效的隐喻检测不仅需要从每种模态中提取语义信息,还需要对微妙的跨模态交互进行推理,隐喻意义往往源于视觉和文本线索之间的张力或互补性。此外,来自现实世界来源的多模态数据本质上存在噪声、不完整性和风格多样性,这对稳健和泛化的理解构成了重大障碍[34]。例如,如图2所示,隐喻意义源于多样的实际视觉-文本交互。图2(a)展示了“知识是人类进步的阶梯”这一隐喻:楼梯的视觉形象与文本中的“阶梯”相对应,说明了累积学习对人类发展的支撑作用——这是一个常见的教育隐喻,用于传达知识积累的价值。图2(b)使用“梵高的笔触是跳舞的火焰”:《星夜》中的旋涡状笔触在视觉上反映了火焰的运动,有助于在艺术教育背景下解释该作品的激情和动态特质。图2(c)体现了“时间悄然流逝”:沙漏中流动的沙子和撕碎的日历将抽象的时间流逝概念与具体的日常图像联系起来。这些案例展示了隐喻意义是如何嵌入到具有上下文意义的跨模态映射中的,突显了需要能够进行更深层次推理和灵活解释的模型的必要性。
人们对多模态隐喻检测的兴趣日益增长,但仍存在几个关键挑战。(1) 特定模态的推理限制:这项任务本质上是复合的,因为隐喻意义可能来自每种模态本身或它们的交互。然而,大多数方法采用一次性融合策略[28]、[39],限制了对特定模态线索的细粒度推理。(2) 解释多样性不足:人类的隐喻解释通常是主观的且依赖于视角,但现有模型应用统一的推理方法,忽略了解释多样性,特别是在模棱两可的情况下增加了误分类的风险[27]。(3) 缺乏反思性推理:隐喻理解需要抽象的多步骤推理,但当前系统缺乏反思机制来修正有缺陷或不完整的推理。这些挑战在图2中得到了体现,其中隐喻意义源于微妙的视觉-文本交互和抽象的符号对应关系。
受到大型模型驱动的多智能体系统在复杂任务中的自适应问题解决能力的启发[12]、[22]、[37],我们提出了一种名为MAMMD(多智能体多模态隐喻检测)的隐喻检测方法,该方法基于多层次的多智能体协作框架。该框架不仅旨在解决上述挑战,还自然符合隐喻理解的内在复杂性,其中意义源自异构线索、主观视角和迭代抽象。具体来说,(1) 为了解决特定模态的推理限制,我们采用了基于任务的协作机制,将隐喻理解过程分解为三个子任务——文本、视觉和跨模态,这些任务由专门的智能体处理,以实现模态感知的知识丰富。(2) 为了增强解释多样性,文本和图像智能体团队包含具有对立观点的子智能体,它们进行内部辩论,由一个判断智能体选择最合理的解释,从而模拟人类隐喻理解的主体性。(3) 为了支持反思性推理,一个反思智能体会在其他智能体的推理过程中与它们互动,识别语义差距并进行元级评估,以修正浅层或错误的初始推理,并迭代改进输出,以提高连贯性和完整性。通过这种多层次协作,系统不仅进行了深度的信息扩展,还在序列协作中传递了优化后的输出,形成了一个渐进的推理链,使得更多的隐喻线索能够被捕捉到。(4) 最后,丰富后的信息与原始输入结合进行多模态编码和融合,并训练了一个隐喻检测分类器。
我们的主要贡献总结如下:
•在这项工作中,我们提出了一种用于多模态隐喻检测的新颖多智能体系统,实现了文本和图像之间的互补和协作推理。
•我们提出了一个新颖的多层次多智能体协作框架,整合了基于任务的协作、基于视角的协作和基于反思的协作。它涉及文本、图像、合成、判断和反思智能体,以结构化和交互的方式工作,支持多样化和渐进的隐喻理解。
•我们在基准多模态隐喻数据集上进行了广泛的实验。结果表明,我们的方法显著优于现有的最佳方法,并突出了结构化智能体协作、深度信息扩展和反思性推理在隐喻理解中的优势。
部分摘录
隐喻检测
隐喻检测的最新进展主要利用了大型预训练语言模型(PLMs),结合语言理论和认知洞察来提高性能。例如,MelBERT [3] 将隐喻识别理论整合到BERT中,而FrameBERT [19] 利用FrameNet嵌入进行概念级隐喻检测。EmbodiedBERT [20] 引入了感觉运动信息来模拟隐喻理解中的认知过程。此外,类似模型
概述
任务定义。 从形式上讲,多模态隐喻检测任务可以定义为一种二元分类问题,旨在确定模态之间的交互是否传达了隐喻意义。设表示带有相关标签的图像-文本对数据集:其中表示文本输入,表示视觉输入,表示相应的标签,指示实例是否包含隐喻()或不包含隐喻(),目标是学习一个函数:
数据集和指标
我们在两个代表性的多模态隐喻检测基准数据集MET-MEME和MultiMM上评估了我们提出的框架。表1提供了这些数据集的统计概览,包括隐喻样本和字面样本的分布、中文和英文子集的划分,以及训练、验证和测试的分割,以及基本的语言特征。MET-MEME [34] 是一个广泛使用的多模态模因数据集,包含10,045个手动标注的文本-图像对
讨论
本节讨论了与提出的多智能体框架相关的关键考虑因素,包括训练特性、零样本能力、模型架构设计选择以及骨干模型选择对性能的影响。这些讨论旨在提供对框架设计理由和进一步优化潜力的更深入见解。
结论
在本文中,我们提出了MAMMD,这是一个基于多层次多智能体协作的隐喻检测框架。通过利用任务分解、辩论和反思,我们的方法解决了隐喻理解的复杂性和模糊性问题。在数据集上的实验表明,与现有方法相比有显著改进。这项工作强调了结构化智能体协作在多模态推理中的潜力,并暗示了其在更广泛语言任务中的应用前景。虽然MAMMD
CRediT作者贡献声明
张宇杰:写作——审阅与编辑,撰写原始草稿,可视化,验证,方法论,概念化。陈志豪:可视化,项目管理,数据管理。郭青松:写作——审阅与编辑,监督。万静:写作——审阅与编辑,监督。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
张宇杰是北京化工大学的计算机科学与技术专业的硕士研究生。他于2024年获得哈尔滨工业大学的学士学位。他的研究主要集中在自然语言处理领域,特别关注多模态隐喻检测和大型语言模型的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号