人工智能(Artificial Intelligence, AI)聊天机器人对牙外伤(Dental Trauma)案例咨询的应答表现：探讨提示词工程(Prompt Engineering)与内容工程(Content Engineering)的影响

《Journal of Endodontics》：Artificial Intelligence Chatbots’ Performance on Dental Trauma Case-based Queries: Examining the Effect of Prompt and Content Engineering

【字体：大中小】 时间：2026年05月31日 来源：Journal of Endodontics 3.6

编辑推荐：

　　摘要译文：引言(Introduction)：创伤性牙损伤(Traumatic Dental Injuries, TDIs)需及时准确的指导，但提示词(Prompt)如何影响人工智能(AI)聊天机器人在此类情境下响应质量尚不清楚。方法(Methods)：

摘要译文：引言(Introduction)：创伤性牙损伤(Traumatic Dental Injuries, TDIs)需及时准确的指导，但提示词(Prompt)如何影响人工智能(AI)聊天机器人在此类情境下响应质量尚不清楚。方法(Methods)：由牙髓病专家制定4个牙外伤场景。对每个场景，使用两种方法向4款AI聊天机器人(Claude Sonnet 3.5、Microsoft Copilot、GPT-4、Gemini Pro 2.5)提问：未加提示的普通患者措辞(n=10)及引用国际牙外伤学会(International Association of Dental Traumatology, IADT)指南的牙髓病专家提示词(n=10)。两名评分者采用5分等级量表独立评估响应的效度(validity)、完整性(completeness)及相关性(relevance)。结果(Results)：牙髓病专家提问的响应在三个维度均显著更易获高分：效度(比值比[Odds Ratio, OR]=1.82; 95%置信区间[Confidence Interval, CI]: 1.35–2.38; p<0.001)、完整性(OR=2.50; 95%CI: 1.85–3.33; p<0.001)及相关性(OR=2.94; 95%CI: 2.04–4.17; p<0.001)。以阈值(评分≥4)定义可接受性时，牙髓病专家查询的响应在各项标准及整体分析中具更高可接受率(p<0.05)。结论(Conclusions)： AI聊天机器人对TDIs的指导质量与提问方式显著相关。虽临床结构化提示词可产出更可靠响应，但多数遭遇牙外伤的患者难以如此提问。此差距凸显当前AI聊天机器人在TDIs应用中的重要局限，强调在无专业人员介入时依赖此类工具需谨慎。

论文解读：人工智能聊天机器人对牙外伤案例咨询的应答表现及提示词与内容工程影响的研究——《Journal of Endodontics》

一、研究背景与目的

随着互联网及大语言模型(Large Language Model, LLM)为基础的AI聊天机器人普及，越来越多公众（尤其年轻人）借此获取健康尤其是口腔急症建议。创伤性牙损伤(Traumatic Dental Injury, TDI)是高时间敏感性急症，延误就诊直接影响预后（如牙髓坏死pulp necrosis、牙根吸收root resorption、骨性粘连ankylosis）。然而公众及非专科医护人员常缺乏TDI应急处置知识，初诊决策多在院外完成。既往虽有研究评估聊天机器人对牙科问题的回答，但未探讨提问者的医学知识差异（即问题表述方式，含提示词工程Prompt Engineering及临床术语运用即内容工程Content Engineering）对回答质量的系统性影响。本研究由Ourang SAH等研究人员开展，旨在对比AI聊天机器人对"牙髓病专家按IADT指南结构化提问"与"普通患者用通俗语言提问"在四个标准化TDI场景下响应质量（效度、完整性、相关性）的差异，明确提问方式对AI临床指导产出的影响及现实意义，论文发表于《Journal of Endodontics》。

二、主要研究方法概要

研究人员依TRIPOD-LLM指南开展研究。选取4款公开LLM：Claude Sonnet 3.5(Anthropic)、Microsoft Copilot(Microsoft)、GPT-4(OpenAI)、Gemini Pro 2.5(Google DeepMind)。由两名牙髓病专家设计4个典型TDI场景（含冠折、根折、脱出再植avulsion-replantation等），分别编写对应"患者通俗问法（无提示词、口语化）"与"牙髓病专家问法（提示扮演资深牙髓病专家并按最新IADT指南作答，含专业术语及临床发现）"各10问，共20问/场景。每场景于单聊天会话中连续发问保持上下文，场景间及条件间换新会话，关闭图片/语音/联网搜索。两名熟悉IADT指南的牙髓病专家用预设5分Rubric（效度Validity：符合现行指南且无事实错误；完整性Completeness：覆盖所有相关问题点；相关性Relevance：紧扣提问意图无无关内容）盲态（知晓分组但独立）评分，以加权Cohen's κ和组内相关系数(Intraclass Correlation Coefficient, ICC)检验评分者一致性。统计学采用累积链接混合模型(Cumulative Link Mixed Model, CLMM)分析提问类型对评分等级的影响，并以评分≥4为可接受阈值做卡方检验，显著性水平双侧p<0.05。

三、研究结果

描述性统计与评分者一致性(Descriptive statistics & Inter-rater Agreement)：

共收集1920个评分(4病例×20问×4聊天机器人×3维度×2评分者)。整体相关性均值最高(4.60±0.73)，次为完整性(4.13±0.82)，效度均值最低(3.97±0.89)；效度与完整性变异性更大。评分者一致性良好，二次加权Cohen's κ=0.62(95%CI:0.57–0.67)，Gwet's AC=0.84(95%CI:0.81–0.86)，ICC个体评分0.62、平均评分0.77。

牙髓病专家与患者提问对比(Comparisons between endodontist and patient responses)：

合并所有聊天机器人数据后，牙髓病专家提问的响应获得高评分的几率显著更高——效度OR=1.82(95%CI:1.35–2.38, p<0.001)；完整性OR=2.50(95%CI:1.85–3.33, p<0.001)；相关性OR=2.94(95%CI:2.04–4.17, p<0.001)。表明经专业提示词及临床内容工程的提问可显著提升AI回答在临床三维度上的质量。

阈值可接受性分析(Threshold-based acceptability analyses)：

设定单项及三项均≥4分为可接受，牙髓病专家提问的可接受率(66.6%)显著高于患者提问(53.4%)(χ2=11.48, p=0.001)，各单项（效度、完整性、相关性）亦均具统计学显著差异(p<0.05)。

聊天机器人性能比较(Comparison of chatbot performance)：

•
效度(Validity)：对专家提问，GPT-4预测概率最高，与Gemini无显著差异(p=0.34)，均显著优于Claude(p<0.01)；对患者提问，GPT-4与Gemini效度显著高于Claude及Copilot(p<0.05)，Copilot表现最弱。
•
完整性(Completeness)：对专家提问，Gemini完整性最高，显著优于其余三者(p<0.001)；对患者提问，Gemini完整性显著高于Claude(p<0.001)，GPT-4完整性显著高于Claude(p<0.001)及Copilot(p=0.018)。
•
相关性(Relevance)：无论专家或患者提问，四款聊天机器人间相关性评分经Bonferroni校正后均无显著差异(均p>0.10)，整体相关性得分普遍较高(中位数=5)。
•
幻觉(Hallucinations)：主要出现于患者提问中，Copilot曾建议不当根管治疗(root canal treatment)、手术甚至正颌手术处理根折及替牙期修复；Gemini对患儿建议贴面(veneer)；GPT-4给脱位牙暴露牙髓碎片不恰当处置时限；Claude对再植后闭合根尖建议"观察3–6个月再决定根管治疗"，违背IADT推荐伤后7–10天行牙髓治疗以防炎症吸收，属潜在严重误导。仅1例幻觉出现于专家提问(Copilot误荐根管而非活髓切断术vital pulp therapy)。

四、讨论与结论总结

研究人员指出提问方式（提示词+内容工程）是AI聊天机器人TDI指导质量的关键决定因素。普通患者因缺乏临床术语及结构化提示无法自然产出高质量问法，致紧急时刻获较低质建议，可能延误恰当就医并影响预后。此知识不对称是真实世界特征而非方法学缺陷，仅以专家提示评估会高估大众使用效果。研究中维持对话上下文模拟真实咨询属方法学优势。三维独立评分框架较单一总分更能揭示聊天机器人"切题但不准"的特点（相关性高、效度波动大）。GPT-4与Gemini总体表现较优（GPT-4效度最强，Gemini完整性最强），Copilot较弱，Claude相关性高但效度偏低且出现最具临床危害的幻觉。即便最优模型，患者问法仍显著降质，说明模型选择不能弥补提问缺陷。局限含单次测试、场景数有限、未涵盖多牙复合伤、仅用免费版、书面输入未模拟语音/焦虑表达、评分者未完全盲法、患者问题为专家模拟非真实语料。未来应探索简化提示模板或界面改良以缩小质量差距。在临床落地前，医务人员应告知患者AI对牙外伤自助咨询的建议质量可能明显低于专业咨询，及时专科就诊仍是标准。

结论(Conclusions)译文：

AI聊天机器人对TDIs的指导质量与提问方式显著相关。虽然临床结构化提示词能产生更可靠的回答，但大多数遭遇牙外伤的患者不太可能以这种方式组织问题。这一差距凸显了当前AI聊天机器人在TDIs应用中的重要局限，并强调在无专业介入时依赖这些工具需谨慎。

热点排行