MADSC:基于方面的描述与校准对齐技术,用于统一的多模态基于方面的情感分析
《Pattern Recognition》:MADSC: Aspect-aware description and calibrated alignment for unified Multimodal Aspect-Based Sentiment Analysis
【字体:
大
中
小
】
时间:2026年04月15日
来源:Pattern Recognition 7.6
编辑推荐:
多模态细粒度情感分析在数据异构性场景中面临图像噪声干扰和模态对齐难题,本文提出MADSC框架,通过生成与方面强相关的描述(AADG)消除通用描述的噪声,结合视觉锚点定位和置信度校准动态抑制无关视觉信号,有效提升跨模态对齐精度。
赵天宇|孟凌昂|宋大伟
北京工业大学计算机科学与技术学院,中国北京
摘要
多模态基于方面的 sentiment 分析(MABSA)在数据异构环境中具有挑战性,因为图像只为文本方面提供较弱或嘈杂的上下文。现有的基于无条件融合或通用大语言模型(MLLM)字幕的方法通常存在粒度不匹配、幻觉以及无关视觉噪声的问题。我们提出了 MADSC(多模态感知方面的描述,具有相似性和校准),通过将通用字幕细化为以方面为中心的描述来增强方面感知的grounding。MADSC 使用双重相似性估计器通过基于 CLIP 的语义兼容性和框介导的视觉grounding来对齐方面和字幕对象,并在解码过程中使用置信度校准来过滤不可靠的视觉线索。在 Twitter-2015 和 Twitter-2017 上的实验表明,MADSC 在 MATE、MABSA 和 JMASA 上取得了最先进的结果,证实了方面感知细化和校准对齐的有效性。
引言
多模态基于方面的 sentiment 分析(MABSA)是一项细粒度的 sentiment 任务,需要将文本方面与视觉证据对齐以推断极性。与图像字幕或全局 sentiment 分类等粗粒度任务不同,MABSA 依赖于在嘈杂视觉背景下的方面级 grounding:即使某个方面在文本中明确提及(例如图 1 中的“亚伯拉罕·林肯”),图像也可能包含许多显著但无关的对象。因此,主要挑战不是简单的融合,而是在干扰因素下的 grounding,因为视觉上吸引人但与方面无关的线索可能会扭曲 sentiment 预测。
MABSA 的一个决定性特征是其数据异构性。如图 1 所示,数据同构任务(如视觉问答 VQA 和文本到图像生成)通常表现出强烈的图像-文本对应关系,其中视觉线索直接支持查询。相比之下,MABSA 本质上是数据异构的:伴随的图像通常只提供较弱或间接的上下文。在第一个例子中,文本提到了实体(亚伯拉罕·林肯、艾米·舒默、林肯中心),而图像描绘的是一场舞台首演的场景;跨模态关联较为松散,几乎无法为方面级的 sentiment 提供证据,使得简单的视觉融合容易受到“庆祝”背景线索的干扰。在第二个例子中,图像捕捉到了比赛中的某个瞬间,但目标方面是球队和联赛(例如斯旺西、利物浦、英超联赛);视觉框架传达了比赛的通用动态,但无法可靠地 ground 文本报告中暗示的方面特定 sentiment。这种语义不匹配挑战了传统的融合方法 [1]、[2],这些方法可能会将不一致的特征投影到一个共享空间中,而不会过滤掉无关的视觉噪声。更广泛地说,最近的研究强调了语义/内容感知先验在抑制噪声、处理模态缺失以及保持任务相关结构方面的有效性,这促使人们设计了可靠的多模态推理方法 [3]、[4]、[5]。
最近的研究采用多模态大语言模型(MLLM)作为 MABSA 的辅助工具,通过向文本中添加生成的字幕 [6] 或理由 [7] 来实现这一点。尽管这在原则上缩小了模态之间的差距,但对于方面级 sentiment 推理来说仍然有限。MLLM 的输出可能会产生幻觉对象或属性 [8],而通用字幕更倾向于关注场景级的显著性而非方面级的相关性。因此,像 GPT-4o 这样的模型往往总结全局上下文(例如用餐场景),同时忽略了细粒度线索(例如口味或服务),从而造成粒度不匹配,削弱了方面特定信号并放大了无关上下文 [9]。
基于 MLLM 的增强方法还受到其对多模态学习动态影响的限制:添加生成的文本会扩展文本流,并可能导致模型偏向于以文本为主导的解决方案,从而导致视觉证据的使用不足(多模态“懒惰”[10])。因此,通用的字幕并不能强制进行方面级的 grounding,反而可能引入类似文本的额外信号,使人们难以判断图像是否支持所查询的方面。因此,在数据异构环境中实现稳健的 MABSA 需要:(i) 基于方面的半透明语义桥接,而不是以场景为中心的描述;(ii) 具有置信度感知的对齐方法,该方法能够估计方面-图像之间的不确定性 [11],并在证据薄弱或无关时降低视觉特征的权重 [12]。
此外,当前的方法往往未能考虑视觉信号的可靠性。在许多 MABSA 任务中,图像没有任何证据价值(例如,附在关于服务质量评论上的自拍)。现有的流程方法(如执行多模态方面术语提取 MATE 然后进行 sentiment 分析的方法)通常缺乏量化跨模态对齐不确定性的机制。它们盲目地整合视觉特征,导致错误传播,其中视觉噪声会导致 sentiment 的错误变化。这突显了需要一个框架,该框架不仅能对齐不同模态,还能校准对齐的置信度,从而在视觉模态无信息时有效地“屏蔽”它。
这些观察结果提出了一个推进 MABSA 的核心问题:我们能否设计一个统一的框架,该框架能够 (i) 通过感知方面的描述而不是通用描述来弥合语义差距,同时 (ii) 校准视觉信号的可靠性,以抑制由语义不对称性引入的噪声?
为了解决这个问题,我们提出了 MADSC(多模态感知方面的描述,具有相似性和校准),这是一个具有置信度校准的统一框架,用于方面引导的对齐。MADSC 使用方面感知描述生成器(AADG)将通用字幕转换为基于方面的描述,并使用双重相似性和校准模块来评估方面与生成描述和已 ground 的视觉区域之间的对齐,然后在解码过程中重新加权视觉特征。我们的模型做出了以下贡献:
- •
我们展示了通用字幕增强对于 MABSA 来说并不理想,并提出了一个方面感知描述生成器(AADG)来生成基于方面的描述并减少语义噪声。
- •
我们提出了一种双重对齐方案,使用生成的描述作为中间锚点,并引入置信度校准来量化对齐的不确定性并降低不可靠的视觉线索的权重。
- •
我们设计了一种由置信度控制的门控机制,以调节视觉特征的使用,从而在数据异构环境中提高鲁棒性。
- •
在 MATE、MABSA 和 JMASA 上的实验验证了 MADSC 一致性地优于强大的基线方法,分析也确认了每个组件的贡献。
相关工作
多模态基于方面的 sentiment 分析
多模态基于方面的 sentiment 分析(MABSA)已经通过三个子任务进行了研究:MATE、MABSA 和 JMASA。对于 MATE,先前的工作探索了基于注意力的模型 [13]、[14]、Transformer 架构 [15]、[16] 以及基于提示的学习 [17]、[18]。对于 MABSA,代表性的方法使用了跨模态注意力 [1]、[19]、多模态融合 [20] 和辅助视觉描述 [21]、[22]。对于 JMASA,则使用了联合提取和分类模型
任务定义和问题表述
本研究考虑了三个紧密相关的多模态任务,这些任务整合了文本和视觉信息。它们的正式定义如下:
多模态方面术语提取(MATE): 给定一个文本序列 和一张伴随的图像 ,MATE 的目标是识别并分类所有与图像中的视觉证据相对应的方面术语 在 。输出是一组方面跨度 ,其中每个 是 的连续子序列。
多模态基于方面的 sentiment
数据集和评估指标
数据集。我们在两个广泛使用的数据集上进行实验:Twitter-2015 和 Twitter-2017 [1]。这两个数据集包含社交媒体帖子,每个样本都包含一张图片和一段文本,其中通常包含一个或多个带有相关 sentiment 的方面。
评估指标。对于 MABSA 任务,我们使用 Macro-F1 分数(Mac-F1)和准确性(Acc)来评估性能。对于 MATE 和 JMASA 任务,我们使用精确度(P)、召回率(R)和 Micro-F1 分数(F1)来进行评估。
结论
我们研究了在数据异构对应关系下的多模态基于方面的 sentiment 分析,其中图像通常与文本方面只有松散的关联,并可能引入虚假的线索。为了解决这个问题,我们提出了 MADSC,它结合了方面感知的描述细化、双路径对齐和置信度感知的模态控制。在 Twitter-2015/2017 上对 MATE、MABSA 和 JMASA 的实验表明,MADSC 在整体性能和类别平衡方面都有所改进,这一点得到了消融实验的支持。
CRediT 作者贡献声明
赵天宇:撰写——原始草稿、方法论、调查、概念化。孟凌昂:撰写——原始草稿、调查。宋大伟:撰写——审阅与编辑、资源。
利益冲突声明
作者声明以下可能的财务利益/个人关系可能被视为潜在的利益冲突:宋大伟报告称获得了国家自然科学基金会的财务支持。如果还有其他作者,他们声明没有已知的财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分由 国家自然科学基金会 资助
(资助编号:62376027)。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号