针对阿拉伯语心理健康筛查的大型语言模型进行基准测试

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING》：Benchmarking Large Language Models for Arabic Mental Health Screening

【字体：大中小】 时间：2026年02月23日 来源：ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING 2.9

编辑推荐：

　　阿拉伯世界精神健康诊断中大语言模型的评估与应用研究，通过26个跨语言数据集评估8种LLMs的二元/多元分类、多选题及严重程度预测任务，发现结构化提示使多分类任务准确率提升14.5%，Phi-3.5 MoE在二元分类表现最佳，Mistral NeMo误差最低，少样本提示普遍有效（GPT-4o Mini提升1.58倍）。

摘要

心理健康障碍在阿拉伯世界日益成为公共卫生的一个重要问题，这凸显了开发易于使用的诊断和干预工具的必要性。大型语言模型（LLMs）提供了一种有前景的方法，但其在阿拉伯语环境中的应用面临诸多挑战，包括标记数据集的有限性和语言的复杂性。本研究全面评估了八种LLMs（包括通用多语言模型和双语模型），使用了从13个心理健康数据集交叉翻译中获得的26个评估文件：其中六个数据集为阿拉伯语社交媒体数据集，七个为英语社交媒体数据集，涵盖了二元分类和多类别分类、选择题以及严重程度评估等任务。性能评估采用了平衡准确率和标准化平均绝对误差（scale-normalized mean absolute error）作为指标。我们研究了提示设计、语言配置（阿拉伯语原生与翻译后的英语）以及少样本提示对诊断性能的影响。提示工程对LLMs的得分有显著影响，主要体现在提高了模型的指令遵循能力；在多类别任务中，我们的结构化提示相比非结构化提示平均提高了14.5%的平衡准确率。总体而言，语言因素的影响较为有限，但模型选择至关重要：Phi-3.5 MoE在平衡准确率方面表现优异，尤其是在二元分类任务中；而Mistral NeMo在严重程度预测方面的平均绝对误差最低。少样本提示能够持续提升模型性能，特别是GPT-4o Mini在多类别分类任务上的准确率提升了1.58倍。这些发现强调了提示优化、多语言分析以及少样本学习的重要性，我们提供了模型排名以及数据集难度分析，以指导为阿拉伯语使用者开发文化敏感的基于LLM的心理健康工具。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号