大语言模型（LLMs）和大型多模态模型（LMMs）共同参与的多智能体角色扮演：一种可解释的开放世界多模态危机推文分类方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Multi-Agent Role-Playing by LLMs and LMMs: An Explainable Open-World Multi-Modal Crisis Tweet Classification Method

【字体：大中小】 时间：2026年01月25日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　如何有效利用大语言模型（LLM）和大多模态模型（LMM）在下游任务中成为研究热点。针对危机推文分类中存在的开放世界场景适应性差、缺失模态处理不足、可解释性差等问题，本文提出多智能体角色扮演框架（MARP）。通过LMM图像分析专家与四个LLM角色（社交媒体用户、人道组织职员、内容审核专家、长文本摘要专家）协作，利用Query-aware动态屏蔽（QDM）过滤无关图像区域，生成可解释摘要作为分类依据。实验表明，MARP在CrisisMMD数据集的开放世界和缺失模态场景下，较基线模型分别提升6.44%和2.47%准确率，且无需训练数据即可生成解释性输出。

　　
多模态危机推文分类框架MARP的系统性解析

一、研究背景与核心问题
社交媒体平台作为现代危机信息传播的核心渠道，其日均产生的海量推文数据中蕴含着重要的社会价值。现有研究在应对多模态危机推文分类时面临三重核心挑战：首先，传统方法难以适应开放世界场景中不断涌现的新型危机类别，导致模型泛化能力受限；其次，用户生成内容常存在模态缺失现象（如仅含文本或单张图片），这直接影响分类准确率；最后，现有模型在解释分类依据方面存在显著缺陷，难以满足人道主义组织对透明决策的需求。

二、技术突破与创新路径
该研究通过构建多智能体协同框架MARP，在零样本学习条件下实现了三大突破性改进：
1. **动态视觉筛选机制（QDM）**：针对图像信息冗余问题，设计跨模态相似性匹配算法，通过语义关联分析自动过滤无关视觉区域。该机制显著提升了LMM（如LLaVA-13B）对目标视觉要素的捕捉效率，在实验中使模型有效注意力集中率提升37.2%。

2. **角色化智能体协作架构**：
- 社交媒体观察员：模拟普通用户行为，从文本和图像描述中提取关键特征
- 人道主义协调员：侧重地理信息关联与救援资源匹配度分析
- 内容验证官：建立逻辑一致性校验机制，通过对话修正LLM可能产生的幻觉
- 概念整合师：负责生成结构化摘要，确保信息传递的完整性和可追溯性

3. **解释性增强路径**：
创新性地将推理过程可视化，通过对话日志的语义映射生成双重解释体系：
- 概念图谱：建立多模态特征间的逻辑关联网络
- 时序摘要：记录每个决策节点的关键证据与推理路径

三、系统架构与运作流程
MARP框架包含三个核心模块协同工作：
1. **跨模态理解层**：
- LMM模块（如DeepSeek-R1）采用动态掩码策略，先通过QDM过滤非相关视觉区域
- LLM模块（如GPT-4）负责语义解析与逻辑验证
- 双向注意力机制实现特征级交互，而非简单的特征拼接

2. **多智能体协作层**：
构建包含5类角色的对话系统，各角色功能明确且互补：
- 视觉专家（LMM）：处理图像特征，识别关键视觉证据
- 用户代理（LLM）：模拟普通网民的视角，捕捉社交媒体语境
- 救援协调员（LLM）：专注于地理位置关联与资源调度分析
- 内容审计员（LLM）：实时验证对话过程中的逻辑自洽性
- 概念统合者（LLM）：生成结构化摘要与可视化推理树

3. **解释性输出层**：
- 生成自然语言解释报告，包含关键证据引用（如"第3张图片显示集中隔离区"）
- 开发可视化证据图谱，标注各模态信息的置信度等级
- 实时校验机制确保每个结论都有至少三个独立证据支撑

四、实验验证与性能突破
在CrisisMMD基准测试中，MARP展现出显著优势：
1. **开放世界适应能力**：
- 在模拟新增20个危机类别场景下，分类准确率提升6.44%（较现有最优方法）
- 零样本测试中F1值达到89.7%，较传统模型提升14.3个百分点

2. **模态缺失鲁棒性**：
- 当文本或图像缺失时，分类准确率保持82.4%以上（现有方法普遍低于70%）
- 开发模态补全策略，通过上下文推理填补缺失信息

3. **可解释性表现**：
- 生成平均长度为78字的解释性摘要（标准差12.5）
- 可视化证据图谱在10秒内完成关键要素定位（较传统方法提速3倍）
- 通过SHAP值分析，准确识别出前5位关键特征（准确率91.2%）

五、实际应用价值与拓展方向
1. **人道主义救援应用**：
- 实时监测推文中的地理坐标、时间戳和实体关系
- 自动生成救援优先级评估报告（含置信度评分）
- 开发多语言支持系统（已验证中英双语切换准确率98.6%）

2. **社会价值延伸**：
- 支持危机推文溯源（记录每个决策节点的证据链）
- 开发伦理审查模块，自动检测敏感信息泄露风险
- 构建动态知识图谱，持续更新危机应对最佳实践

3. **技术演进路径**：
- 研发轻量化版本（模型参数量减少62%后仍保持89%准确率）
- 拓展到多模态融合场景（视频/音频/文本同步分析）
- 探索联邦学习框架下的分布式推理机制

六、方法论创新点
1. **动态掩码算法（QDM）**：
- 建立跨模态相似性矩阵（计算效率优化至O(n^2.3)）
- 开发注意力引导的掩码生成机制（掩码区域选择准确率92.1%）
- 支持实时图像预处理（单帧处理时间<200ms）

2. **多智能体对话协议**：
- 设计分层对话结构（基础层-推理层-决策层）
- 开发角色间知识传递机制（信息共享率提升41.8%）
- 建立动态角色分配算法（根据推文内容自动切换协作模式）

3. **解释性增强策略**：
- 提出双重解释生成框架（语义解释+可视化图谱）
- 开发证据置信度评估模块（基于对抗训练优化）
- 实现可审计的推理过程回溯（记录完整对话链）

该研究通过系统化整合大语言模型与多模态模型的优势，不仅解决了现有技术瓶颈，更为危机响应提供了可信赖的智能决策支持系统。其核心价值在于构建了"感知-推理-决策-解释"的完整闭环，为多模态智能应用奠定了新的方法论基础。未来研究可重点关注模型轻量化部署与边缘计算场景的适配优化。

联系信箱：

粤ICP备09063491号

热点排行