自动语音识别与大语言模型在多语言病理报告生成中的应用:概念验证研究

《JMIR Formative Research》:Automatic Speech Recognition and Large Language Models for Multilingual Pathology Report Generation: Proof-of-Concept Study

【字体: 时间:2026年05月22日 来源:JMIR Formative Research 2.1

编辑推荐:

  背景:准确的病理大体检查口述转录对临床文书至关重要,但在临床医生混合使用中英双语、最终病理报告需用英文撰写的场景中,多语言口述仍具挑战性。目的:本研究旨在评估基于Whisper的自动语音识别(ASR)流程结合开源大语言模型(LLM;Qwen2:72b、Llam

  
背景:准确的病理大体检查口述转录对临床文书至关重要,但在临床医生混合使用中英双语、最终病理报告需用英文撰写的场景中,多语言口述仍具挑战性。目的:本研究旨在评估基于Whisper的自动语音识别(ASR)流程结合开源大语言模型(LLM;Qwen2:72b、Llama3.1:70b、Gemma2:27b),在引导性上下文系统消息辅助下,能否提升中英混合病理口述的转录准确性并生成符合临床规范的英文大体描述报告。方法:研究人员开展了一项对照概念验证研究,使用由医师或病理学家创建的125条模拟中英混合病理大体检查录音。分别采用带与不带上下文系统消息的Whisper ASR对录音进行转录,随后将转录文本输入三种开源LLM生成英文大体描述报告。评估指标包括字符错误率(CER)、双语评估替补(BLEU)、面向召回率的摘要评估(ROUGE)-1、ROUGE-2、ROUGE-L、显式排序翻译评估指标(METEOR)、病理学家胜-平-负排名、报告级错误分类、推理时间及评分者间一致性。结果:ASR上下文系统消息使平均CER从0.344(SD 0.176;95% CI 0.313–0.375)降至0.066(SD 0.100;95% CI 0.048–0.084;P<.001)。Qwen2:72b在所有自动化指标中表现最优,BLEU为0.644(SD 0.307)、ROUGE-1为0.866(SD 0.163)、ROUGE-2为0.771(SD 0.235)、ROUGE-L为0.842(SD 0.178)、METEOR为0.805(SD 0.214)。病理学家编码的总错误率为:Qwen2:72b 16.8%(21/125)、Llama3.1:70b 45.6%(57/125)、Gemma2:27b 92.8%(116/125)。两位病理学家的完全一致率为76.8%(96/125;Cohen κ=0.668),对排名第一模型或并列第一组的意见一致率为81.6%(102/125;Cohen κ=0.722)。结论:在本概念验证评估中,上下文提示提升了ASR转录准确性,Qwen2:72b生成的英文病理报告准确性最高。但研究采用模拟录音、本地词汇提示及报告级而非术语级临床标注,因此LLM生成报告应视为需病理学家核验的草稿文件,临床部署前需在真实临床工作流中开展前瞻性验证。
本研究发表于《JMIR Formative Research》,聚焦于病理科多语言口述转录与英文报告生成的技术可行性。研究背景指出,自动语音识别(ASR)技术已在医疗文书中逐步应用,可提升工作效率,但病理科场景对术语准确性要求极高,中英语码转换的口述模式进一步增加了转录难度——台湾地区临床医生常在口语中混合使用中文与英文,而正式病理报告需统一为英文,传统ASR系统在专业术语识别与跨语言转换上存在显著误差,且口语中的填充词、不完整表述无法直接转化为规范文书,现有解决方案尚未充分结合大语言模型(LLM)的语义理解与生成能力。
研究人员开展了一项对照概念验证研究,核心目标为评估“Whisper ASR+开源LLM”混合流程在中英混合病理口述转录与报告生成中的表现。关键技术方法包括:第一,构建由病理医师生成的125条模拟中英混合大体检查录音作为测试集,无真实患者数据;第二,采用带上下文系统消息的Whisper ASR进行转录,系统消息包含病理专科词汇引导;第三,选用三种开源LLM(Qwen2:72b、Llama3.1:70b、Gemma2:27b)将混合转录文本转换为标准英文大体描述报告,所有模型均使用统一输入与默认生成参数;第四,通过字符错误率(CER)、BLEU、ROUGE系列、METEOR等自动化指标,结合两位病理学家的胜-平-负排名与报告级错误分类开展多维度评估;第五,在相同算力环境(2张NVIDIA A100 40GB GPU)下测量推理速度。
研究结果部分,首先报告ASR转录准确性:带上下文系统消息的Whisper ASR平均CER为0.066,较无系统消息的0.344显著降低(P<.001),证明专科词汇引导可有效提升转录精度。其次为LLM自动化指标评估:Qwen2:72b在BLEU、ROUGE-1、ROUGE-2、ROUGE-L、METEOR五项指标中均取得最高分,显著优于其余两个模型(P均<.001),Llama3.1:70b表现居中,Gemma2:27b得分最低。第三为病理学家胜-平-负排名:两位病理学家对Qwen2:72b的偏好度最高,对Gemma2:27b的评价最低,两者在完整排名中的完全一致率达76.8%,Cohen κ为0.668,对最优模型的判断一致性达81.6%,Cohen κ为0.722,显示评估结果具有可靠性。第四为报告级错误分析:Qwen2:72b总错误率为16.8%,其中无关文本错误占1.6%、中文残留错误为0%、其他事实性错误占16.0%;Llama3.1:70b总错误率为45.6%;Gemma2:27b总错误率达92.8%,以无关文本与事实性错误为主。第五为推理速度比较:三种模型平均推理时间介于5.17至5.43秒之间,差异较小,但Qwen2:72b与Llama3.1:70b的最大延迟高于Gemma2:27b。
讨论部分指出,本研究首次将ASR与LLM结合用于多语言病理报告生成,验证了技术可行性,但也明确其局限性:模拟录音未涵盖真实场景的噪声、说话人差异与操作复杂性;仅采用报告级错误标注,缺乏术语级概念准确性评估;未优化LLM生成超参数,也未开展电子健康记录集成与实际工作流程验证。研究结论强调,上下文ASR提示与Qwen2:72b的组合在多语言病理文书中具有应用潜力,但生成报告必须作为草稿经病理学家核验,临床部署前需完成真实场景下的前瞻性验证,包括多中心样本、术语级标注及人机协作流程设计。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号