
-
生物通官微
陪你抓住生命科技
跳动的脉搏
针对阿拉伯语心理健康筛查的大型语言模型进行基准测试
《ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING》:Benchmarking Large Language Models for Arabic Mental Health Screening
【字体: 大 中 小 】 时间:2026年02月23日 来源:ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING 2.9
编辑推荐:
阿拉伯世界精神健康诊断中大语言模型的评估与应用研究,通过26个跨语言数据集评估8种LLMs的二元/多元分类、多选题及严重程度预测任务,发现结构化提示使多分类任务准确率提升14.5%,Phi-3.5 MoE在二元分类表现最佳,Mistral NeMo误差最低,少样本提示普遍有效(GPT-4o Mini提升1.58倍)。
心理健康障碍在阿拉伯世界日益成为公共卫生的一个重要问题,这凸显了开发易于使用的诊断和干预工具的必要性。大型语言模型(LLMs)提供了一种有前景的方法,但其在阿拉伯语环境中的应用面临诸多挑战,包括标记数据集的有限性和语言的复杂性。本研究全面评估了八种LLMs(包括通用多语言模型和双语模型),使用了从13个心理健康数据集交叉翻译中获得的26个评估文件:其中六个数据集为阿拉伯语社交媒体数据集,七个为英语社交媒体数据集,涵盖了二元分类和多类别分类、选择题以及严重程度评估等任务。性能评估采用了平衡准确率和标准化平均绝对误差(scale-normalized mean absolute error)作为指标。我们研究了提示设计、语言配置(阿拉伯语原生与翻译后的英语)以及少样本提示对诊断性能的影响。提示工程对LLMs的得分有显著影响,主要体现在提高了模型的指令遵循能力;在多类别任务中,我们的结构化提示相比非结构化提示平均提高了14.5%的平衡准确率。总体而言,语言因素的影响较为有限,但模型选择至关重要:Phi-3.5 MoE在平衡准确率方面表现优异,尤其是在二元分类任务中;而Mistral NeMo在严重程度预测方面的平均绝对误差最低。少样本提示能够持续提升模型性能,特别是GPT-4o Mini在多类别分类任务上的准确率提升了1.58倍。这些发现强调了提示优化、多语言分析以及少样本学习的重要性,我们提供了模型排名以及数据集难度分析,以指导为阿拉伯语使用者开发文化敏感的基于LLM的心理健康工具。
心理健康障碍在阿拉伯世界日益成为公共卫生的一个重要问题,这凸显了开发易于使用的诊断和干预工具的必要性。大型语言模型(LLMs)提供了一种有前景的方法,但其在阿拉伯语环境中的应用面临诸多挑战,包括标记数据集的有限性和语言的复杂性。本研究全面评估了八种LLMs(包括通用多语言模型和双语模型),使用了从13个心理健康数据集交叉翻译中获得的26个评估文件:其中六个数据集为阿拉伯语社交媒体数据集,七个为英语社交媒体数据集,涵盖了二元分类和多类别分类、选择题以及严重程度评估等任务。性能评估采用了平衡准确率和标准化平均绝对误差(scale-normalized mean absolute error)作为指标。我们研究了提示设计、语言配置(阿拉伯语原生与翻译后的英语)以及少样本提示对诊断性能的影响。提示工程对LLMs的得分有显著影响,主要体现在提高了模型的指令遵循能力;在多类别任务中,我们的结构化提示相比非结构化提示平均提高了14.5%的平衡准确率。总体而言,语言因素的影响较为有限,但模型选择至关重要:Phi-3.5 MoE在平衡准确率方面表现优异,尤其是在二元分类任务中;而Mistral NeMo在严重程度预测方面的平均绝对误差最低。少样本提示能够持续提升模型性能,特别是GPT-4o Mini在多类别分类任务上的准确率提升了1.58倍。这些发现强调了提示优化、多语言分析以及少样本学习的重要性,我们提供了模型排名以及数据集难度分析,以指导为阿拉伯语使用者开发文化敏感的基于LLM的心理健康工具。