基于大语言模型数据增强与多指标分析的阿拉伯语医疗假新闻检测优化研究

《Scientific Reports》:Enhancing Arabic healthcare fake news detection with data augmentation and multi-metric analysis using large language models

【字体: 时间:2026年02月10日 来源:Scientific Reports 3.9

编辑推荐:

  为解决阿拉伯语医疗假新闻检测中数据稀缺和语言复杂性的挑战,研究人员开展了一项结合数据增强(DA)和多指标分析的研究。该研究利用AraGPT-2等大语言模型生成合成数据,并通过余弦相似度、BERTScore等指标评估生成质量。实验表明,该方法使AraBERT模型的准确率提升12.1%,显著增强了分类性能。该成果为低资源语言的假新闻检测提供了可扩展的技术路径。

  
在数字化信息爆炸的时代,社交媒体已成为公众获取健康资讯的重要渠道。然而,医疗假新闻的泛滥可能引发公共卫生危机,尤其对于阿拉伯语这类全球使用人数众多的语言,其复杂的形态结构和稀缺的标注数据使得假新闻检测面临严峻挑战。阿拉伯语作为第五大使用广泛的闪族语言,其网络内容快速增长,但现有标注数据集规模远小于英语,且传统机器学习模型难以应对其丰富的词形变化和方言差异。
为突破数据瓶颈,研究者将目光投向数据增强(Data Augmentation, DA)技术。以往研究多聚焦英语文本,而阿拉伯语特有的语言特性(如屈折变化复杂、词根派生多样)要求开发针对性的增强策略。本研究创新性地融合大语言模型(如AraGPT-2)与多维度质量评估体系,通过生成合成数据并系统评估其标签保持性、语义一致性、新颖性和多样性,构建高效的阿拉伯医疗假新闻检测框架。
研究团队采用来自2019年9月至2020年的阿拉伯语COVID-19推文数据集,包含2365条人工标注样本。通过预处理(去除特殊符号、停用词等)后,应用五种数据增强技术:同义词替换(WordAntonym/WordNet)、回译(Backtranslation)、基于Transformer的上下文增强(如GPT-2)、流水线组合(Pipeline)和集成增强(Ensemble)。每种技术生成的文本需通过相似度阈值过滤(如BERTScore≥0.5),并以余弦相似度、Jaccard距离等指标量化质量。
实验分为四个关键部分:首先比较不同增强技术对随机森林(Random Forest, RF)和AraBERT分类器的影响,发现WordAntonym增强使AraBERT准确率提升至97.22%,优于基线模型。其次,通过调整相似度阈值发现,0.6-1.0的BERTScore范围能在保持语义相关性的同时引入足够多样性。第三,多指标评估表明,WordNet技术在标签保持方面表现最佳(精确度93%),而GPT-2生成的数据新颖性最高。最后,集成增强策略(如GPT-2+WordAntonym)虽略降低准确率(91.0%),但显著提升数据多样性。
在技术方法层面,研究主要依赖:1. 基于Transformer的大语言模型(如AraGPT-2)生成合成文本;2. 相似度度量(余弦相似度、BERTScore、Jaccard)过滤低质量数据;3. 传统机器学习(RF)与预训练语言模型(AraBERT)分类器对比;4. 多指标质量评估体系(包括类型标记比TTR、ROUGE分数等)。实验使用80%训练集与20%测试集划分,并通过5折交叉验证确保稳健性。
数据增强效果分析:所有增强技术均提升模型性能,其中WordAntonym结合AraBERT提升最显著(F1-score达92%),而上下文增强技术因短文本语境不足表现较弱。
相似度阈值影响:BERTScore过滤在0.5-1.0区间最优,既能控制语义偏移又保留增强效益,过度严格(阈值>0.8)反而削弱多样性。
数据质量评估:WordNet生成的文本在标签保持性上最可靠(精确度95%),而GPT-2生成的数据在Jaccard新颖性评分中最高,但需平衡语义一致性。
集成增强策略:组合多种增强技术可扩大数据规模,但可能引入噪声,如GPT-2+WordNet集成使准确率降至89.5%,说明需谨慎控制增强强度。
结论表明,基于大语言模型的数据增强能有效缓解阿拉伯语医疗文本的数据稀缺问题,多指标评估框架为增强质量提供量化标准。该研究不仅为低资源语言假新闻检测提供实践方案,更开创了数据增强质量控制的系统方法论。未来可探索GPT-4等先进模型的应用,并结合可解释性AI提升模型透明度。
(注:全文严格依据原文内容重构,未添加外部信息。技术术语如AraBERT、BERTScore等均保留原文表述,专业缩写首次出现时标注英文全称。)
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号