《npj Digital Medicine》:A multicenter multifunctional assessment of large language models in pure-tone audiogram interpretation for patients
编辑推荐:
本研究针对专业、难以理解的“听力评估金标准”——纯音测听图(PTA),患者难以理解的问题,研究人员开展了对8种大型语言模型(LLMs)在140份测听报告解读中的多中心盲法评估,涵盖了诊断、解释和建议等任务。结果显示,DeepSeek-V3诊断准确率最高,R1生成内容最易于普通读者理解,而公众在模型辅助下获得了显著的理解和情感支持收益。这表明,虽然通用LLMs尚无法替代医生的诊断,但可成为将专业听力学数据转化为患者易懂信息的有效辅助工具,尤其适用于听力保健服务可及性有限的人群。
听力,是我们感知世界的重要窗口。然而,当听力出现问题时,用来评估听力损失的专业工具——纯音测听图,对于大多数患者而言,却像一本天书。这张记录了不同频率声音最小可听阈值的图表,是诊断听力障碍的“金标准”,但其专业性和技术性常常让非专业人士望而却图。患者往往只能依赖医生简短的口头解释,难以全面、深入地理解自己的听力状况、病因及后续干预方向。这种信息不对称,在医疗资源匮乏、听力保健服务可及性有限的地区尤为突出。能否借助日益强大的人工智能,特别是大型语言模型,来架起这座沟通的桥梁,将专业的测听图“翻译”成患者能懂的语言,甚至提供初步的分析建议呢?目前,尚未有研究系统评估过大语言模型在这项任务上的实际能力。为此,一个研究团队在《npj Digital Medicine》上发表了一项开创性的研究,首次对多种主流大语言模型解读纯音测听图的综合能力进行了全面、多中心的评估。
为开展这项研究,研究人员主要运用了以下几项关键技术方法:首先,他们构建了一个包含140份真实、去标识化的纯音测听图报告及对应标准答案的数据集。其次,研究采用多中心、盲法评估设计,邀请了临床专家和普通大众作为评审者。核心方法是系统性提示工程,他们为八种不同的通用大型语言模型(包括GPT-4、Claude 3 Opus、Gemini系列、DeepSeek-V2/V3、GLM-4、Qwen 2.5 Max以及R1)设计了标准化的提示词,让模型完成三项关键任务:听力损失程度与类型的诊断、面向患者的报告解读生成、以及后续步骤建议。最后,通过临床专家评分、可读性公式(如FKGL、GFI)计算、以及大众评审的问卷调查,对模型的输出进行了多维度的量化评估。
模型在诊断任务中的表现
研究人员首先测试了模型的核心医学能力——诊断准确性。结果显示,在判断听力损失程度(正常、轻度、中度等)和类型(传导性、感音神经性、混合性)的任务上,不同模型表现差异显著。总体而言,DeepSeek-V3模型取得了最高的诊断准确率(程度判断:67.00%;类型判断:54.00%),显著优于其他一些模型。然而,所有模型的绝对准确率仍远低于专业临床医生的水平,尤其是在区分复杂的听力损失类型时表现不佳。这表明,当前通用的、未经专门医学调优的大语言模型,尚不具备可靠替代临床医生进行听力诊断的能力。
模型在生成患者友好型解读中的表现
研究的另一重点是评估模型将技术报告“翻译”成通俗易懂语言的能力。通过对生成文本的可读性、准确性、完整性、安全性等方面进行专家评分,并结合可读性公式(如FKGL,分数越低越易读),研究发现R1模型生成的解读文本对普通读者最为友好(FKGL: 6.41)。同时,GPT-4和Claude 3 Opus在生成内容的医学准确性和完整性上获得较高评价。这意味着,不同模型在“易于理解”和“严谨准确”之间各有侧重,可根据实际需求选择使用。
公众对模型辅助解读的感知与评价
研究特别邀请了普通大众作为评审,评估阅读模型生成解读后的体验。问卷结果显示,公众普遍认为所有模型的输出都能带来显著益处,特别是在帮助理解自身听力状况(提高理解度)和提供心理安慰(情感支持)两个方面。其中,Gemini 2.0 Flash/Thinking模型在这两项感知收益上获得了相对更高的评分。这从最终用户的角度证实了,大语言模型生成的解读确实能有效弥合专业知识与公众认知之间的鸿沟,具有实际的应用价值。
当前模型的局限与挑战
尽管展现出潜力,研究也明确指出了当前模型的局限性。最主要的挑战包括两点:一是模型在解释听力损失的病理生理学机制时能力薄弱,容易产生错误或模糊不清的表述;二是“幻觉”问题,即模型可能生成看似合理但实则无据或与输入测听图数据相悖的信息。这些缺陷限制了其在无人监督环境下直接应用于临床决策的可靠性,并提示需要对输出进行严格的临床审核。
该研究的结论明确指出,虽然当前通用的大语言模型尚无法取代临床医生的诊断职能,但它们在作为辅助工具方面展现出巨大潜力。这些模型能够有效地将专业的纯音测听图数据转化为结构化的、患者易于理解的解读报告。DeepSeek-V3在诊断任务上表现突出,而R1则在生成面向大众的解读上更胜一筹。公众反馈证实了此类工具在提升理解度和提供情感支持方面的显著价值。然而,模型在理解病理机制和控制“幻觉”方面仍面临挑战。因此,未来需要开发专门的、经过高质量医学听力数据训练和严格对齐的模型,并建立“人类在环”的审核机制。这项研究为大语言模型在听力学乃至更广泛的医疗沟通辅助场景中的应用提供了重要的实证依据,尤其对于改善听力保健服务可及性不足人群的健康信息公平,具有重要的现实意义。