《IEEE Transactions on Big Data》:Towards Artificial Intelligence for Science: A Case Study of Using ChatGPT for Disease Causality Discovery from Biomedical Literature
编辑推荐:
本文探讨了如何利用生成式人工智能(GAI)驱动科学研究范式转变。为评估以ChatGPT为代表的大语言模型(LLM)在生物医学领域的知识发现能力,研究者开展了从大规模文献中自动提取疾病因果关系的案例研究。结果表明,在精心的提示工程引导下,ChatGPT的识别准确率极高(疾病-疾病组94.73%,化学-疾病组92.47%),可显著节省人力与时间成本。这有力支持了“AI for Science (AI4S)”的愿景,为加速生物医学研究提供了新思路。
在当今这个信息爆炸的时代,生物医学文献正以惊人的速度增长,其中蕴藏着无数关于疾病如何发生、发展的宝贵线索。然而,面对海量的文本数据,传统的研究方法常常显得力不从心。研究人员需要手动设计复杂的规则模式,或者依赖特定领域的机器学习模型,这不仅耗时费力,其适应性和扩展性也面临挑战。尤其是在疾病因果关系挖掘这个核心任务上,无论是疾病之间的相互诱发,还是化学物质导致的疾病,传统的知识发现过程都急需一场效率革命。正是在这样的背景下,生成式人工智能(Generative Artificial Intelligence, GAI)的崛起,特别是以ChatGPT为代表的大型语言模型(Large Language Models, LLM),为“人工智能赋能科学(AI for Science, AI4S)”这一新范式提供了强大动力。但一个关键问题随之而来:这些擅长理解和生成自然语言的通用模型,能否胜任从专业生物医学文献中精确提取因果知识这种高度专业化的任务?为了回答这一问题,来自中国医学科学院医学信息研究所的研究团队开展了一项开创性的案例研究,并将成果发表于《IEEE Transactions on Big Data》上。
这项研究旨在系统评估ChatGPT从生物医学文献中自动发现疾病因果关系的能力。研究人员首先从PubMed数据库中,基于关键词“causes”、“induce”等,收集了从1985年至2024年间超过1300万篇文献摘要,并将其自动解析为超过6500万个句子,构建了庞大的初始语料库。为了进行公正的评估,他们随机采样了句子,并由专业生物标注员人工识别并标注了1000条疾病因果关系,并将其分为两大类:疾病-疾病因果关系组和化学物质诱导的疾病(化学-疾病)因果关系组。同时,根据句子中涉及的疾病和化学实体数量,将句子的复杂度分为“一般(2个实体)”、“中等(3个实体)”和“高(至少4个实体)”三个等级,以测试模型在不同难度下的表现。研究的核心是设计有效的“提示”(Prompt),引导ChatGPT完成任务。他们精心设计了三种主流提示范式下的六种提示,包括无需示例的零样本提示、提供少量示例的小样本提示,以及要求模型展示推理链的长链思维提示。通过调用ChatGPT(gpt-4-turbo)的应用程序编程接口,让模型自动处理这些生物医学句子,提取出“因”和“果”。最后,将ChatGPT的输出结果与人工标注的“金标准”进行比对,从准确率、耗时等多个维度进行定量统计分析,并对错误案例进行深入剖析。
统计结果表明,ChatGPT在疾病因果关系发现任务上表现优异。总体来看,在两种因果关系组的平均准确率分别达到了94.73%(疾病-疾病)和92.47%(化学-疾病)。特别是在句子复杂度为“一般”的情况下,ChatGPT的回答与人工标注的一致率高达98.16%。即使在句子复杂度为“高”的困难案例中,其一致率仍能达到86.39%。在效率方面,ChatGPT展现出巨大优势:处理一条数据,人工标注平均需要1分钟,而ChatGPT在零样本和小样本提示下分别仅需约0.7秒和1.3秒,即使是在需要详细推理的长链思维提示下,平均也只需7.8秒,节约了87%的时间成本。
错误分析揭示了模型的主要失误类型。对于疾病-疾病因果关系,最主要的错误来源是命名实体识别错误,占60.72%;其次是将因果关系本身误认为医学实体,占28.57%;此外,约10.72%的错误源于句子中包含了疾病的并发症信息,导致模型错误地将并发症关系识别为直接的因果关系。对于化学诱导疾病的发现,错误同样主要源于句子中包含多个生物医学实体导致的命名实体识别错误(55%),以及复杂语境下对关系的混淆(45%)。
提示工程与ChatGPT的比较显示,在三种提示范式中,长链思维提示引导下的ChatGPT取得了最高的准确率。这得益于大语言模型内在的逐步推理和自我验证能力。研究还发现,提供示例的小样本提示表现优于零样本提示,但不同提示之间的性能差异不大,说明ChatGPT在理解清晰的自然语言指令方面已经具备良好能力。此外,研究还将ChatGPT与GPT-4.1版本进行了比较,后者在两项任务上的准确率分别有0.8%和1.2%的提升,表明随着模型训练数据的扩充和算法的迭代,其在该领域的泛化能力有望进一步增强。
与传统方法的对比突显了ChatGPT的优势。传统的基于规则的方法或特定设计的深度学习模型(如轻量化定制卷积神经网络)在类似任务上的准确率在61.9%到91.9%之间。而本研究采用基于大语言模型的通用、无需复杂定制的方法,取得了与之相当甚至更优的性能,展现了“开箱即用”的便捷性和强大潜力。
对生物医学知识库的贡献通过将ChatGPT发现的因果关系与现有权威知识库(如MedlinePlus和DrugBank)进行验证得到体现。许多被发现的因果关系,如“中风 -> 吞咽困难”、“糖尿病视网膜病变(DR) -> 失明”、“顺铂 -> 耳毒性”等,均与知识库中记录的信息一致。这表明,利用大语言模型可以有效地从海量文献中挖掘和验证知识,一方面能够与现有数据库信息相互印证,另一方面也能为构建更全面的知识库提供候选资源,有望加速生物医学知识库的更新与完善。
综上所述,本研究通过一个具体的案例,系统评估了ChatGPT在从生物医学文献中自动发现疾病因果关系方面的能力,为“人工智能赋能科学”提供了有力的实证支持。核心结论是,ChatGPT凭借其从海量语料中学习到的强大自然语言理解能力,在该任务上达到了接近人类专家的高准确率,并能大幅节省时间和人力成本。这种由提示工程驱动的、直接的端到端交互方式,极大地加速了大语言模型在生物医学知识发现乃至更广泛科学研究中的应用。研究证实,疾病因果关系发现作为生物医学领域的传统任务,ChatGPT能够出色胜任,这鼓励了未来开展更多AI4S相关研究。同时,将大语言模型与传统的知识库、知识图谱等结构化知识相结合,有望探索出人工智能时代知识利用的新范式。尽管研究存在一定局限,例如仅评估了ChatGPT一款模型、未使用真实世界的电子病历等数据、任务范围相对聚焦等,但其结果清晰地表明,人工智能的先进发展使得科学研究能够以更高的准确性和效率进行,为加速生物医学发现乃至整个科学探索进程开辟了新的道路。