种植修复学系统综述与大型语言模型(LLM)生成回答的一致性评价

《The Journal of Prosthetic Dentistry》：Alignment of artificial intelligence-generated responses with systematic reviews in implant prosthodontics

【字体：大中小】 时间：2026年06月06日 来源：The Journal of Prosthetic Dentistry 4.3

编辑推荐：

　　问题陈述（Statement of problem）：基于大语言模型（Large Language Model, LLM）的人工智能（Artificial Intelligence, AI）平台已成为牙科临床决策支持工具，但其生成的回答与种植修复学（impl

问题陈述（Statement of problem）：基于大语言模型（Large Language Model, LLM）的人工智能（Artificial Intelligence, AI）平台已成为牙科临床决策支持工具，但其生成的回答与种植修复学（implant prosthodontics）高等级证据——即系统综述（systematic reviews, SRs）——结论的一致性尚不清楚。目的（Purpose）：本研究旨在评估ChatGPT与Google Gemini生成的回答与已发表种植修复学系统综述结论之间的一致程度。材料与方法（Material and Methods）：纳入2023至2025年发表的涉及种植修复临床问题的系统综述，以其结论为参照标准并转化为预期答案陈述。采用评估系统综述方法学质量2（Assessing the Methodological Quality of Systematic Reviews 2, AMSTAR 2）工具评价纳入综述的方法学质量。使用相同的无上下文提示词将标准化的PICO（Population, Intervention, Comparison, Outcome）问题分别提交给ChatGPT和Google Gemini。由2名设盲评估者采用5级Likert量表对AI回答与综述结论的一致性评分，采用加权Cohen's kappa（κ）评估评估者间信度。平台间比较采用Wilcoxon配对符号秩检验，领域间分析采用Kruskal–Wallis检验及Dunn事后多重比较（α＝.05）。结果（Results）：共纳入74篇系统综述并分为5个修复学领域。ChatGPT与Google Gemini在各领域均显示高度一致性，平台间及各领域间差异均无统计学意义（P＞.05）。评估者间信度近乎完美（κ＝0.88–0.97）。尽管一致性相似，ChatGPT更多报告中等确定性（moderate certainty），而Google Gemini更频繁表达高确定性（high certainty）。结论（Conclusions）： ChatGPT和Google Gemini在种植修复学中对系统综述结论表现出高度一致性。确定性表达方式的差异凸显了需谨慎解读及进行专业监督的必要性。

论文解读：《种植修复学系统综述与AI生成回答的一致性评价》

该研究由Jo?o Vicente Calazans Neto、Juliana Dela Líbera、Jo?o Gabriel S. Souza、Bruna Egumi Nagay及Valentim A.R. Bar?o完成，发表于《The Journal of Prosthetic Dentistry》。

一、研究背景与立项依据

循证牙科（Evidence-based dentistry, EBD）要求将最高级别证据——即系统综述（Systematic Review, SR / Meta-analysis）——整合入临床决策。种植支持式修复（Implant-supported prostheses）是当代修复科核心治疗手段，其成功高度依赖修复设计与临床规程，然而研究设计异质性与随访差异使临床医生难以快速获取并批判性整合不断膨胀的科学证据。近期，基于大语言模型（Large Language Model, LLM）的AI平台（如ChatGPT、Google Gemini）因可快速组织与综合科学信息、支持临床推理而受关注，但LLM存在过程不透明、无系统检索策略及"幻觉"（hallucination，即自信地输出错误信息）风险，其与种植修复学SR结论的一致性尚不明晰。为此，研究人员开展此项方法学一致性研究，以SR结论为金标准，定量评估两款主流LLM生成回答与其的吻合程度。

二、主要关键技术方法

研究人员于2025年11月检索PubMed/MEDLINE，纳入2023–2025年发表、含明确临床问题与结论的种植修复学系统综述（排除叙述性、范围性和伞状综述），最终获74篇独立SR作为参照标准，并用AMSTAR 2（Assessing the Methodological Quality of Systematic Reviews 2）评估方法学质量。每篇SR结论转化为预期答案陈述，依据研究主题归入5个临床领域：修复体类型与修复方案（D1）、部件与连接（D2）、生物与机械并发症（D3）、临床规程（D4）、修复体固位方式（D5）。将PICO格式临床问题以完全相同的标准化提示（要求给出直接答案、简要依据及确定性等级）分别于2025年12月10日无上下文提交予ChatGPT（version 5.2; OpenAI）和Google Gemini（version 3.1; Google LLC）。两名设盲评估者独立采用5点Likert量表（1＝强烈不一致～5＝强烈一致）对AI直接答案与SR预期答案的一致性评分，分歧共识解决，加权Cohen's kappa（κ）计算评估者间可靠性。平台间比较用Wilcoxon配对符号秩检验，领域内比较用Kruskal–Wallis检验及Dunn事后比较，双尾α＝.05，用GraphPad Prism分析。

三、研究结果

Results（结果）

初检1168条记录，经标题摘要及全文筛选后纳入74篇SR。AMSTAR 2评级显示仅6篇（8.1%）为高置信度，多数因未评估发表偏倚、无预先注册方案及对纳入研究偏倚风险考量不足被评为低或极低置信度。74篇SR分布于D1(n=24)、D2(n=14)、D3(n=16)、D4(n=12)、D5(n=8)，产生74组配对观察值。评估者间加权κ为ChatGPT κ＝0.89–0.98，Gemini κ＝0.88–0.93，属几乎完全一致。整体中位一致性评分ChatGPT均为5（强一致），Gemini除D1与D3略低（中位数分别为3和4）外亦多数为5；各平台内不同领域一致性无显著差异（ChatGPT P＝.373；Gemini P＝.242，Kruskal–Wallis）。平台间配对比较各域均无统计学差异（所有P≥.052），D1域ChatGPT中位数高于Gemini但未达显著（P＝.052）。两平台确定性表达差异显著（χ²＝65.46, df＝2, P＜.001）：ChatGPT 89.2%答为中等确定性（moderate certainty），Gemini 67.6%答为高确定性（high certainty）。少数低分（1–2分）案例定性分析显示多为侧重偏移或部分解读偏差，个别误读可能影响临床决策。

四、讨论与结论翻译

Discussion（讨论）

不能拒绝零假设——两平台与SR结论的一致性程度无显著差异。LLM在种植修复各亚领域均表现跨内容稳定的一致性，提示其为通用系统，可进行可靠平台间比较。虽然实质内容一致性相近，但确定性表达风格不同：ChatGPT倾向保守（moderate certainty），Gemini倾向自信（high certainty）；此确定性反映模型呈现回答时的自信程度而非证据本身强度，不应等同于循证医学中经结构化评价的证据质量等级。部分Gemini高确定性回答含超出SR明示结论的推理解释，可能部分解释该差异。临床环境中LLM过度自信可能被误读为更高决策可靠性，强调需批判性解读并在循证临床流程中受专业监督。本研究局限含SR作参照可能部分被LLM训练数据涵盖（存在记忆而非推理可能）、仅评估特定版本模型、每个问题只提交一次未测重复运行稳定性等，未来应评估重复提问的响应变异及模型更新后表现。

Conclusions（结论）

研究人员得出如下结论：(1) ChatGPT与Google Gemini在种植修复学中对系统综述结论显示出高度一致性；(2) 两平台在确定性表达上存在差异——ChatGPT更多报告中等确定性，Google Gemini更多报告高确定性；(3) 这种解离现象强调在种植修复学应用中，除评估回答内容外还需评估信心等级的传达方式。临床意义为：LLM可用于帮助临床医生和学生对种植修复学证据快速综合，但因确定性表达变异及与高级别证据潜在不符，临床应用中必须经过批判性评价和专业人员监督。

热点排行