基于晚期融合(Late Fusion)技术的精神疾病文本分类:结合BERT与基于Apriori算法的图注意力网络(Graph Attention Network)
编辑推荐:
文本分类在精神疾病早期诊断中的应用及APRIORI-GAT-BERT融合模型研究。
Alicja Polowczyk | Agnieszka Polowczyk | Marcin Wo?niak
应用数学系,西里西亚工业大学,Kaszubska 23号,44100 Gliwice,波兰
摘要
互联网上的文本分类在医学和心理学领域是一个重要课题,有助于早期发现精神障碍。社交媒体上的帖子越来越受欢迎,用户可以在匿名状态下更自由地分享自己的想法和情绪。因此,自动分析互联网上的大量内容可以辅助专家进行诊断并监测患者的精神状态。然而,在检测精神障碍时,往往存在隐藏的语义和结构依赖性,传统的机器学习模型可能无法很好地处理这些问题。因此,在本文中,我们提出了一种新的精神障碍分类方法,将流行的BERT语言模型与我们的APRIORI-GAT神经网络相结合。该方法采用异构图的形式同时分析所有帖子,将单个单词替换为特定障碍中出现的频繁项集,并利用关联规则来确定它们之间的共现关系。此外,我们还应用了Late Fusion技术对最终预测结果进行融合,成功结合了两种独立模型得到的分类结果。我们在包含12种不同类型精神障碍的三个真实数据集上的实验表明,我们的方法优于传统的文本分类技术。我们的研究展示了图神经网络的高潜力,因为它们能够更好地捕捉其他模型难以捕捉的全局依赖关系。
引言
精神障碍和疾病是严重影响全球数百万人生活的严重健康问题。此外,精神健康问题在现代医学和社会中越来越受到关注。抑郁症、焦虑症、双相情感障碍或PTSD等障碍影响着广泛的社会群体,降低了他们的生活质量,使日常功能受到影响,并阻碍了社交关系的建立。现代医学和心理学研究致力于更深入地理解这些精神问题,并寻找新的诊断和治疗方法。社交媒体和互联网论坛为那些面临各种心理困扰的人提供了一个分享他们经历、情感和恐惧的场所。像Reddit和Twitter这样的平台是丰富的数据来源,用户通过描述症状和情绪提供了关于各种心理健康问题的宝贵信息。特别是在COVID-19大流行期间,由于社交隔离和随之而来的压力增加,出现更多心理问题的人。因此,许多人开始更频繁地使用互联网寻求支持并分享自己的感受。随着技术的发展,研究人员开始使用机器学习[1]和深度神经网络[2]等现代方法来对精神障碍患者进行分类和诊断。另一种有趣的方法是开发音乐推荐系统来改善心理健康,强调了音乐作为良好治疗工具的重要性[3]。研究人员还专注于基于脑电图(EEG)信号的压力分类研究,而不使用文本[4]。多模态数据(包括面部表情、声音、文本和心率等不同数据源)也可用于心理健康分类任务[5]。
文本分类是一项具有挑战性的任务,数据集的质量对于获得准确结果至关重要。[6]描述了如何从单个地名生成多种文本变体的数据集(GLWs),这种方法提高了自然语言处理(NLP)模型在识别地点和分类地理文本方面的效果。[7]提出了一个用于多任务仇恨言论分类的新语料库,并展示了多任务学习方法的有效性。[8]提出了一个支持从文本和语音中提取情感的多模态数据集。分析专业文本(如化学文本[9])是一项重大挑战,大型语言模型可以有效处理这类数据。
总体而言,当前的研究主要集中在基于情感分析[10]的文本分类,或将内容分类到特定主题[11],以及恶意内容和垃圾信息的检测[12]。标准的文本分析算法使用了支持向量机(SVM)、逻辑回归、朴素贝叶斯或K近邻(KNN)[13]等流行的机器学习技术。传统方法基于固定形式的文本分析,例如N-gram[14]、词频-逆文档频率(TF-IDF)[15]或词袋模型(BoW)[16]。这些方法无法揭示单词的额外语义上下文,因此提出了Word2vec[17]、GLoVe[18]或fastText[19]等技术。基本的文本分类器和情感分析方法在局部分析文本,因此研究人员开始扩展研究,使用循环层和卷积层进行文本分析。最初实现了循环神经网络(RNN)和卷积神经网络(CNN)[20]。然而,由于梯度消失或爆炸的问题,研究人员开始使用LSTM[21]和GRU[22]层进行单向或双向文本分析,有时也使用BiLSTM[23]层。此外,还有基于注意力模型的解决方案[24]。一个突破性的发现是Transformers中的双向编码表示(BERT)[25]模型,其后续版本是Robustly Optimized BERT Pretraining Approach(RoBERT)[26]。尽管如此,这些方法仍无法处理文档和单词之间的复杂关系。因此,研究人员最近开始使用图神经网络(GNN)来实现这一目标,图神经网络分为两种构建类型:语料库级和文档级。基于语料库级的图模型包含数据集中的所有文档和单词,而基于文档级的图仅包含定义文档内容的单词。对于基于整个语料库的图,我们创建了一个异构图,其中包含文档节点和单词节点。其中最受欢迎的方法是TextGCN[27],它基于异构图,使用TF-IDF和PMI方法识别特征和边。我们的方法避免了依赖传统的文档-单词编码方式,提出了一种基于Apriori算法的新图表示策略,用于生成频繁项集。这种方法减少了词汇量(降低了计算复杂度),并通过仅保留相关单词来构建更紧凑的图结构。为了模拟相关单词之间的重要共现关系,我们还在图中添加了基于关联规则的频繁项集之间的额外连接。此外,传统基于图的文本模型缺乏丰富的语义上下文,难以捕捉精神健康的复杂表现。为了解决这个问题,我们引入了一种多模态模型,利用Late Fusion将基于图的方法与高效的BERT语言模型结合,用于协作决策。我们通过加权插值技术结合了两种模型的优势,BERT模型基于单个文本提供了出色的语言分析能力,同时考虑了来自整个语料库的全局依赖关系。
此外,传统方法在模型可解释性和建模长距离依赖关系方面存在困难。因此,我们选择使用非标准的图网络——图注意力网络(GAT)[28]来进行信息传播和依赖关系学习。总结来说,本文的主要创新点包括:
- •
APRIORI-GAT表示方法强调其紧凑性,使用频繁项集而非单词级编码,这是本文的一个重要创新,
- •
一种独特的频繁项集图表示方法,利用Apriori算法减少数据稀疏性和维度,通过余弦相似性和关联规则编码文本和定义节点连接,
- •
构建了一个基于异构图的注意力神经网络(APRIORI-GAT),利用图注意力机制在语料库级图中建模全局依赖关系,
- •
采用晚期融合框架,结合BERT和APRIORI-GAT两种独立模型的语义和结构信息,使用加权插值进行局部和全局分析,
- •
对包含精神障碍和疾病相关帖子的三个公共数据集进行了详细分析,
- •
评估了测试数据结果,并将其与其他文本分类方法进行了比较。
方法论
在标准的文本分类方法中,大部分工作仅关注局部的情感分析,仅分析特定文档,而没有从整个训练集中获取关于文档相似性的更多信息,而这些信息实际上非常有用。目前的文本分类器仅将内容转换为向量格式,然后由AI模型进行处理以获得预测结果。有时,局部上下文可能不足以
实验
在本研究中,我们使用了三个数据集来训练和测试流行的文档分类模型,以及我们的独立APRIORI-GAT模型和APRIORI-GAT + BERT组合模型。我们展示了APRIORI-GAT + BERT方法的结果,该方法结合了流行的基于Transformer的语言模型和APRIORI-GAT图网络,能够同时处理整个文档语料库并进行分类
讨论
在这项工作中,我们研究了人工智能方法在检测和分类网络内容中的精神障碍(如ADHD、双相情感障碍、PTSD等)的应用。我们使用了机器学习和神经网络方法来研究哪种模型表现最佳。大多数模型在各个类别上都具有较高的分类效率,尤其是我们的APRIORI-GAT + BERT架构取得了最佳结果,表明将图模型和语言模型结合具有巨大潜力
结论
在这项工作中,我们提出了一个新颖的系统,该系统结合了BERT模型的预测和我们的APRIORI-GAT图模型,用于基于Reddit或Twitter等平台上的共享帖子对精神障碍进行分类。我们将语言处理与基于文档语料库和频繁项集的图分析得出的上下文依赖关系相结合,从而提高了精神障碍的分类效果
CRediT作者贡献声明
Alicja Polowczyk:撰写初稿、可视化、验证、软件开发、方法论研究、数据整理、概念化。
Agnieszka Polowczyk:撰写初稿、可视化、验证、软件开发、方法论研究、数据整理、概念化。
Marcin Wo?niak:撰写初稿、可视化、验证、软件开发、项目管理、资源协调、方法论研究、资金筹集、形式化分析、概念化。
利益冲突声明
作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究结果。