一种基于标签的变分框架，用于处理空气危机事件的多模态识别问题，特别是当某些模态数据缺失时

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：A label-anchored variational framework for air crisis event multi-modal recognition with missing modality

【字体：大中小】 时间：2026年03月06日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　航空危机事件多模态识别中缺失模态的补全与分类优化研究，提出标签锚定的变分自编码器框架UKC-VAE，通过跨模态语义对齐和分布对齐提升缺失模态补全效果，实现航空危机事件的精准分类。

张一山|杨阳|张胜杰|钱胜胜|徐燕|蔡开全

北京航空航天大学电子与信息工程学院，中国北京100191

摘要

从海量多模态社交媒体数据中识别航空危机事件为提高应急响应效率、降低危机管理成本以及揭示关键情况提供了有前景的途径。然而，不完整的文本-图像对带来了重大挑战，因为航空事故中典型的混乱和受损场景常常阻碍了全面信息的收集。为了解决这个问题，我们提出了一个基于标签的变分框架，将范式从以融合为中心的补偿转变为以完成为导向的判别。具体来说，我们提出了一种针对缺少模态的航空危机事件的一般多模态识别方案，该方案采用了单模态知识完成变分自编码器（UKC-VAE）模型。首先，我们提出了两个基于VAE的单模态并行编码器，通过特定主题的标签嵌入生成具有类别区分能力的潜在变量，这些标签嵌入作为轻量级的类别锚点。此外，我们还提出了一个基于对比学习的语义对齐模块和一个分布对齐模块，以增强跨模态知识转移并确保各模态之间的一致性。广泛的实验表明，与几种最先进的基线方法相比，所提出的UKC-VAE模型在AirCrisisMMD和CrisisMMD数据集上表现更优。AirCrisisMMD是一个即将发布的新专用多模态数据集。

引言

航空运输在紧急救援中起着关键作用，因为它寻求更有效的措施来调查航空危机事件。当前的危机响应在很大程度上依赖于对机载和地面传感器（如黑匣子飞行记录器、无线电通话、雷达、ADS-B监控系统等）的专家解读[1]。这项专门的任务通常速度慢、劳动强度高且成本高昂。此外，现有“安全网”的信息覆盖范围、细节和内容相当有限。目前，受到行业进步的启发[2]，关于航空危机事件信息处理的研究主要集中在民用航空危险识别任务上[3]、[4]。这些任务严重依赖于多年来由来自不同领域的专家共同编制的官方事故调查报告。据统计，完成一份全面的事故调查报告通常需要一年甚至几年的时间。然而，旨在加速事故调查过程的研究仍然有限。一方面，航空事故调查是一个高度程序化的工作流程驱动的过程，需要多个部门之间的紧密协调。另一方面，重大航空事故往往具有灾难性，从事故现场获得的信息在物理上受到限制。目前，调查主要依赖于解码飞行数据记录器（黑匣子）和重建事故现场，以便对事故原因进行全面分析。然而，这种方法耗时且面临重大挑战，特别是在灾难性事故中，物理传感器可能严重损坏或丢失，使得调查过程更加复杂和困难。

相比之下，智能手机和移动互联网的广泛使用使社交传感器成为调查航空安全事件的新视角。作为众包信息来源，社交媒体平台提供了航空危机事件的生动图像和个人化文本报告，通常捕捉到第一手的现场经验[5]、[6]。与传统物理传感器相比，社交传感器是获取数据的重要渠道。它们的特点是覆盖范围广、传播速度快、可追溯性强以及用户参与度高等，这使它们具有放大实时数据的优势[7]、[8]。近年来，航空事故越来越可能被目击者实时记录下来，每个人都是提供关于实时事件和实体的“传感器”[9]。这些内容随后会立即在社交平台上传播，生成大量的文本、图像和视频。例如，目击者拍摄的视频可能会揭示关于飞机在事故发生时的外部状况和飞行姿态的关键视觉线索。这些信息传统上需要几周甚至几个月才能获得。因此，这些基于互联网的数据源成为传统调查的重要补充，并为事故检测和情况评估提供了新的途径。利用大量的互联网数据是降低危机分析成本和扩大详细线索搜索范围的一种可能方式。然而，从大规模、多模态和非结构化的互联网数据中准确识别航空危机事件对于开发高效的决策辅助系统来说仍然是一个非平凡的挑战。

最近，当代人工智能（AI）在高效处理大型数据集方面变得越来越熟练。这些进步激发了学术界将AI技术应用于航空安全和事故调查的兴趣，特别是在提高信息处理的速度和准确性方面。与此同时，多模态危机事件识别也受到了广泛关注。在自然灾害的背景下，分析多模态社交媒体帖子方面取得了实质性进展。这些研究通常整合了各种数据模态（如图像、文本、位置和时间），以全面了解灾难的影响和公众反应[10]、[11]、[12]。一些努力将这种方法扩展到了交通领域[13]、[14]，并展示了多模态模型的有希望的性能。然而，致命的航空事故带来了独特的挑战。缺少模态是一个常见问题，缺乏完美匹配的图像-文本对。由于事件背景有限，目击者经常分享匆忙的单模态信息，而隐私问题限制了数据只能通过单一模态获取。现有方法在应用上有一个重大限制：它们通常假设在训练和测试期间可以获得完整的模态信息。然而，在现实世界场景中，这一假设往往不现实。因此，如何设计一种处理缺少模态的多模态识别方案是一个紧迫的需求。我们能否打破这一障碍？

为了解决这个问题，最近的研究人员[15]、[16]、[17]对缺失模态的多模态学习（MLMM）[18]表现出了极大的兴趣，旨在开发处理不完整信息的有效策略。Jing等人[16]和Zhou等人[19]都训练了多个自编码器来学习不同模态之间的潜在因素。以前的方法强调跨模态知识转移，主要关注跨模态检索任务，如零样本学习或文本到图像生成，如图1(a)所示。由于原始数据本身包含噪声，并不适合高精度分类，仅通过生成具有高视觉保真度的缺失模态通常是不足的。本文不是将缺失模态纯粹视为需要补偿的损失，而是将这一挑战重新定义为积极表示学习的机会。如图1(b)所示，我们引入了标签嵌入作为初始语义先验，它们在训练期间充当抽象标识符。在学习过程中，这些嵌入逐渐演变为具有区分能力的类别锚点，其角色从语义载体转变为潜在空间中的结构引导。关键在于它们的价值在于强烈的可区分性（唯一性），而不是可解释性，而是作为一种增强类别可分离性的属性。在这里，标签嵌入被视为固定的、轻量级的“类别锚点”。唯一性确保它们自然地封装了类别差异，因为语义本质上存在于多模态数据中。通过加强潜在空间中的内在特征，独特的嵌入即使在噪声输入下也能保持类别区分能力。这种优先考虑唯一性而非语义保真度的范式转变在数据丰富的跨模态学习中被证明是普遍有效的。这确保了生成的缺失模态不仅与可用数据对齐，还提高了整体分类准确性，这是一个在早期方法中几乎未被探索的新视角。

在本文中，我们提出了一个基于标签的变分框架——单模态知识完成变分自编码器（UKC-VAE）模型，如图2所示，用于处理缺少模态的航空危机事件的多模态识别。首先，我们使用了两个基于VAE的单模态并行编码器来学习具有清晰类别区分结构的潜在表示。这得益于每个类别内共享的可学习标签嵌入，它们充当语义先验，编码类别身份。在端到端训练过程中，这些嵌入逐渐在潜在空间中形成类别级别的锚点。接下来，我们提出了一个基于对比学习的语义对齐模块和一个分布对齐模块，以进一步增强跨模态知识转移，并在缺失模态条件下确保文本和图像表示之间的一致性。此外，为了充分利用有限的数据，我们使用Transformer编码器融合原始的多模态特征，并用编码器生成的潜在变量对其进行加权，以共同分类航空危机事件。总结来说，我们的主要贡献如下：

我们提出了一种通用的端到端多模态方案，用于解决从文本-图像非结构化数据中识别航空危机事件的问题，作为航空运输领域现有“安全网”的有用补充。
我们提出了一种基于标签的变分框架，它超越了仅依赖跨模态知识转移的方法，强调使用标签嵌入作为轻量级的“类别锚点”，作为一种将类别级语义纳入潜在空间的新方法，而无需额外的分类头或监督损失。
我们提出的方法在专用数据集AirCrisisMMD和公开可用的数据集CrisisMMD上优于相关最先进方法。具体来说，在四种不完整场景中，与CrisisMMD数据集上之前的最佳方法相比，我们的方法分别实现了1.36%、5.46%、4.81%和2.08%的准确率提升。

问题表述

多模态事件分类任务涉及为每个包含多种模态特征的输入样本分配一个类别标签。然而，在现实世界场景中，并不总是能保证所有模态都可用。在这项工作中，我们关注涉及图像和文本的不完整模态分类问题。在这种情况下，一些样本同时包含图像和文本模态，被称为完整模态数据。其他样本缺少其中一种模态；数据

方法论

在这个领域，我们提出了UKC-VAE，这是一个用于处理缺失模态的多模态识别端到端框架。如图3所示，我们方法的总体架构由四个主要部分组成：基本编码器、单模态知识完成、缺失模态的对齐以及航空危机事件分类器。基本编码器使用预训练的骨干模型提取图像和文本特征。

实验

结论

在本文中，我们提出了UKC-VAE，这是一种基于标签的变分自编码器框架，用于同时完成模态和分类事件。所提出的方法利用VAE获得潜在变量，不仅恢复了缺失的模态，还通过语义和分布层面的对齐减少了模态差距。具体来说，为了进一步提高区分能力，标签信息被嵌入为锚点，引导VAE生成具有类别区分能力的潜在变量

CRediT作者贡献声明

张一山：撰写——原始草稿、可视化、软件、方法论、形式分析、数据策划。杨阳：撰写——审阅与编辑、资源获取、形式分析、概念化。张胜杰：验证。钱胜胜：撰写——审阅与编辑、方法论、概念化。徐燕：撰写——审阅与编辑、监督、概念化。蔡开全：撰写——审阅与编辑、监督、资源获取。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（编号：52572349）和北京TravelSky科技有限公司研发中心的资金的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作