EmoRAct：一种神经符号框架，将声学信号与韵律语义相结合以实现情感识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：EmoRAct: A Neuro-Symbolic Framework Coupling Acoustic Tokens with Prosody Semantics for Emotion Recognition

【字体：大中小】 时间：2026年03月25日 来源：Pattern Recognition 7.6

编辑推荐：

　　DWSFusion提出一种轻量级红外可见图像融合框架，通过双权重监督和跨感知策略抑制冗余信息，频率自适应注意力机制优化特征融合，实验验证其在效率和性能上达到平衡，适用于边缘设备。

强振凯|沈宇|袁宇斌|裴冠祥

兰州交通大学电子与信息工程学院，中国兰州730070

摘要

红外与可见光图像融合（IVIF）将来自不同模态的互补信息整合为单一的、全面的表示。然而，大多数现有方法依赖于复杂的架构，这些架构不加区分地保留了源信息，往往忽视了冗余信息对融合性能的负面影响。为了解决这一限制，本文提出了DWSFusion，这是一个基于双重权重监督和跨感知策略的轻量级IVIF框架。具体来说，我们设计了一个基于频率自适应注意力的权重估计模块来捕获模态特定特征，然后通过跨感知策略增强这些特征以促进模态间的交互。随后，这些精炼的特征通过频率自适应特征融合模块被整合以生成融合图像。与传统的像素级约束不同，我们引入了一种新颖的特征级双重权重监督策略。该机制利用融合图像得到的权重图来反向监督源权重，建立了一个闭环反馈机制，有效抑制无效冗余并提升特征选择能力。此外，还采用了双重判别器框架结合多尺度结构相似性损失来确保结构保真度和真实纹理的保留。大量实验表明，DWSFusion在关键融合指标上取得了优异的结果，并在下游的高级视觉任务中保持了高度竞争力。值得注意的是，这些成果是在显著减少模型参数的情况下实现的，实现了性能与效率之间的最佳平衡。源代码可在https://github.com/Sunny-OpenLab/DWSFusion获取。

引言

由于环境和技术因素，单个传感器通常无法完全捕捉场景细节。热成像可以检测物体的热信号，生成对光照变化和遮挡具有鲁棒性的红外图像，有效突出行人、车辆等目标[1]。然而，它们的空间分辨率较低且缺乏细节纹理。相反，光学传感器能够捕捉具有丰富纹理和高分辨率的可见光图像，但更容易受到光照、天气、伪装和遮挡的影响[2]。红外与可见光图像融合（IVIF）旨在整合这两种模态的互补信息，同时抑制冗余[3]。这项技术增强了人类和机器对场景的感知，并提高了高级视觉任务（如物体检测和语义分割）的性能[4]。因此，它已被广泛应用于军事侦察、安全监控和自动驾驶等领域[5]。

传统的IVIF方法——如多尺度变换[6]、子空间[7]和稀疏表示[8]——严重依赖于手工设计的活动度量和启发式融合规则。这些手动设计的策略在复杂的成像条件下常常表现不佳，且可扩展性有限[9]。随着深度学习的快速发展，数据驱动的IVIF方法取得了显著进展[10]。基于CNN[11]、AE[12]、GAN[13]和Transformer[14]的架构显著提高了融合质量。尽管取得了这些进展，但仍存在一些关键挑战，这激发了我们的研究工作。

首先，大多数方法侧重于最大化信息传输，但忽略了冗余内容。标准的像素级L1/L2损失不加区分地保留了源信息，导致无效噪声的累积。相比之下，特征级监督能够实现选择性提取。此外，传统的前馈网络在提取过程中是“盲目的”；提取器无法预知融合模块会优先考虑哪些特征，导致冗余特征充斥有限的参数空间——这对轻量级模型来说是一个关键瓶颈。DWSFusion通过特征级监督和“闭环反馈”机制解决了这一问题，如图1所示，融合结果可以反向修正权重估计，从而提高信息纯度。

其次，现有方法难以平衡融合性能、模型复杂度和下游任务的有效性，如图2所示。基于Transformer的架构增强了特征提取并捕捉了长距离依赖性，而扩散模型提供了一种替代的生成范式。尽管这些方法提高了融合质量，但它们通常会导致过高的计算成本和大量的参数，限制了其在资源受限的边缘设备上的应用。正如最近的一项综合调查所强调的[15]，轻量级网络设计已成为实际IVIF应用的重要趋势，因为大多数现有融合模型仍然计算密集，难以在现实世界设备上部署。更重要的是，它们往往忽视了IVIF作为高级视觉任务预处理阶段的作用，在这个阶段效率同样至关重要。

为此，我们从高效和冗余感知的特征融合角度重新审视了IVIF的本质。我们认为，一个有效的融合框架不应仅仅不加区分地组合多模态信息，而应选择性地强调互补结构，同时主动抑制冗余内容。基于此，我们提出了DWSFusion，这是一个在融合质量和效率之间取得平衡的轻量级网络。该框架通过Wasserstein GAN与梯度惩罚（WGAN-GP）进行优化，采用自适应权重估计模块（AWEMs）进行频率自适应特征捕获，并通过跨感知策略增强模态间交互。与传统方法不同，我们的特征级双重权重监督建立了闭环反馈机制——利用融合图像和源图像之间的权重相关性来抑制冗余并优化特征选择。最后，双重判别器和多尺度结构相似性指数损失（MS-SSIM）确保了结构保真度和高质量的结果。本工作的主要贡献可以总结如下：

•
我们提出了DWSFusion，这是一个极其轻量级的（8.76K参数）IVIF框架。它表明，高效的融合依赖于精确的冗余抑制，而不是网络深度。
•
我们在统一的AWEM中设计了一种频率自适应注意力机制（FA2M）。通过将频率分析重新应用于空间注意力框架，网络动态调节权重以保留多频率纹理和结构。
•
反馈驱动的双重权重监督和跨感知机制建立了闭环机制。通过融合结果反向监督源权重，它过滤冗余信息，学习到更清晰、更具区分性的表示，超越了传统的模仿源信息的约束。

本文的其余部分结构如下：第2节回顾了图像融合、频率自适应扩张卷积（FADC）和WGAN-GP的相关工作。第3节详细介绍了所提出的架构和损失函数。第4节展示了全面的实验结果和分析，第5节对本文进行了总结。

提出的方法

本节详细介绍了所提出的DWSFusion网络。首先，我们介绍了模型的整体框架。接下来，我们介绍了每个模块的结构。最后，我们描述了损失函数的设计原则。

实验与分析

本节介绍了实验设置，将提出的方法与代表性方法进行了比较，分析了模型参数和消融实验，并展示了其在高级视觉任务中的泛化能力。

结论

在本文中，我们提出了DWSFusion，这是一种轻量级的红外与可见光图像融合方法，其核心创新在于双重权重监督策略和频率自适应注意力机制。这种方法解决了现有方法因忽略冗余信息而导致模型复杂性过高的问题。通过引入跨感知策略来增强模态间特征交互，并结合双重判别器对抗学习，DWSFusion有效地

CRediT作者贡献声明

强振凯：撰写——原始草稿、软件、方法论、概念化。沈宇：监督、项目管理、资金获取。袁宇斌：可视化、验证、形式分析。裴冠祥：撰写——审稿与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（项目编号62241106和61861025）、甘肃省重点研发计划（项目编号24YFGA037）、甘肃省科技 Commissioner计划（项目编号23CXGA0008）、智能铁路建设重大专项（项目编号2023QZzhtl1102）、兰州局集团有限公司科技研发计划（项目编号LZJKY2024079-1）以及中国国家铁路集团有限公司重点计划的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

提出的方法

实验与分析

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行