过度自信的危机:为何在临床人工智能领域,真正风险在于信心而非准确性

《BioData Mining》:A crisis of overconfidence: Why confidence, not accuracy, is the real risk in clinical AI

【字体: 时间:2026年02月22日 来源:BioData Mining 6.1

编辑推荐:

  语言模型在post-training过程中因对齐方法导致不确定性下降,过度自信问题在高风险领域尤为危险。现有方法如温度缩放、校准意识微调及内部探针可部分恢复可靠性。需将校准作为核心设计目标以确保可信AI。

  

摘要

如今的语言模型被训练得能够在其输出中展现出信心,无论这些输出是否正确。我们用来提高模型实用性的对齐方法也会使模型倾向于表现出不必要的确定性,更倾向于奖励明确的答案而非适当的谨慎表达。当这些基础模型应用于科学和医学等高风险领域时,模型听起来有多自信与实际准确度之间的这种脱节可能会变得危险。在本文中,我们探讨了为什么训练后会降低模型的不确定性感知,并回顾了一些技术,这些技术可以将模型表现出的信心与其实际可靠性重新对齐。通过这些研究,我们认为可信的AI意味着将校准视为一个核心设计目标。

如今的语言模型被训练得能够在其输出中展现出信心,无论这些输出是否正确。我们用来提高模型实用性的对齐方法也会使模型倾向于表现出不必要的确定性,更倾向于奖励明确的答案而非适当的谨慎表达。当这些基础模型应用于科学和医学等高风险领域时,模型听起来有多自信与实际准确度之间的这种脱节可能会变得危险。在本文中,我们探讨了为什么训练后会降低模型的不确定性感知,并回顾了一些技术,这些技术可以将模型表现出的信心与其实际可靠性重新对齐。通过这些研究,我们认为可信的AI意味着将校准视为一个核心设计目标。

引言

在最近的一项横断面评估中,一组临床医生对几个大型语言模型进行了测试,这些模型在评估集上的表现非常出色。它们能够流畅且正确地列出药物相互作用、绘制鉴别诊断图,并总结指南。但当临床医生要求这些模型评估自身的信心时,出现了一个更令人不安的现象:这些系统几乎总是对自己非常确信。无论答案是对还是错,它们的自信程度都差不多 [1]。

这种信心与正确性之间的不匹配就是我们所说的“校准”问题。一个声称有90%确定性的校准良好的模型,应该有10%的时间是错误的,而不是一半的时间。人类在这方面远非完美,但至少我们有办法表达出怀疑(例如停顿、谨慎表达或寻求同事的意见)。

研究人员注意到,在进行对齐处理之前,语言模型通常具有较好的校准能力 [2]。然而,这些预训练的模型本身并不直接实用,它们只是被训练来预测文本的延续部分,而不是回答问题或执行指令。训练后的对齐处理虽然提高了它们在对话中的实用性,但却降低了它们的校准能力 [3]。因此,我们得到了一代听起来雄辩、行为得体但系统性地过于自信的模型。

对齐如何夸大信心

为什么对齐会严重破坏模型的校准能力呢?答案在于我们如何设置训练后的损失函数以及人类反馈中隐含的偏好。

在预训练阶段,语言模型被训练来预测文本中的下一个词元。对于每个上下文,都有许多合理的延续可能性。模型学会了近似这些可能性的分布。这种目标自然为不确定性和多种可能性留出了空间。

训练后,目标发生了变化。在监督式微调中,我们给模型一个提示和一个参考答案,然后优化该序列的交叉熵损失。当模型几乎将所有概率都集中在参考答案上,而几乎不分配给其他可能性时,损失最小。在这种目标下,模型没有动力去考虑其他合理的答案或反映语言的模糊性。随着时间的推移,模型学会了最小化损失的最安全策略就是表现得极其自信。

基于偏好的方法,如来自人类反馈的强化学习(RLHF)和直接偏好优化(DPO),也朝着同样的方向发展。模型不是去匹配一个固定的答案,而是被更新为使其输出与奖励模型高度评价的答案一致。这往往会使得答案的分布更加集中,将概率集中在人类在训练过程中喜欢的少数“优选”延续上。

最近关于对齐模型的研究清楚地记录了这一效应。Xiao及其同事 [3] 表明,预训练的模型通常具有合理的校准能力,但对齐处理会使它们的概率变得不可靠,即使任务表现有所提高。一旦模型超过了这个阈值,仅仅针对这种类型的奖励进行进一步微调也无法恢复校准能力。

微调还会受到模型已有知识的影响。Wang及其合作者 [4

除了这些数值效应外,对齐还会引入风格上的偏见。人类评分者通常更喜欢清晰、果断的答案。谨慎或不确定的表达往往被认为帮助较小。模型学会了这种偏好,并认识到自信的语气会获得奖励。随着时间的推移,这种风格会渗透到概率分布中。高自信的语言和高自信的数字相互强化。

我们无意中训练出了过于自信的模型。

我们如何解决这个问题

温度缩放和其他事后校准方法

最简单的干预点是在模型生成逻辑值(logits)或原始分数之后的步骤。Guo及其同事 [5 提出的温度缩放方法,通过学习一个标量温度来重新调整逻辑值,使得预测的概率与保留数据集中的观察频率更加匹配。这种方法在视觉和表格处理中很受欢迎,因为它易于实现,且不会改变模型的准确性,只会影响概率的“锐度” [6]。

更灵活的方法,如Platt缩放 [7, 8] 和等渗回归 [9,则从原始分数学习到一个概率到概率的映射。在多类别问题中,这些方法通常按类别应用或采用一对多的方式,当标签空间较小且数据覆盖充分时,可以提供很好的校准效果。然而,对于词汇量达数万词的语言模型来说,很难收集足够的标记样本来为每个词元单独训练一个非参数校准器,而且计算和存储成本会迅速增加。实际上,当事情被简化为少数几个选项(例如是/否、几个选择题答案或一个可以一次训练并在多个模型中重复使用的标签集)时,事后校准效果最佳。

任务特定的微调和更好的奖励设计

事后校准方法是有帮助的,但它们并不能改变标准对齐目标会推动模型产生过度自信的事实。一些最近的研究在训练过程中就考虑了校准问题。Xiao及其合作者 [3

Wang及其合作者 [4 研究了先验知识如何影响微调。他们发现,当微调数据包含预训练中已有的知识时,模型往往会对此类数据产生过度自信。当模型在全新的信息上进行训练时,校准效果会更好。换句话说,先验知识使模型更加灵活,但预训练和微调之间的重叠可能会导致模型的信心远远超出其表现所应具备的范围。

除了这些数值效应外,对齐还会引入风格上的偏见。人类评分者通常更喜欢清晰、果断的答案。谨慎或不确定的表达往往得分较低。模型学会了这种偏好,并认识到自信的语气会获得奖励。随着时间的推移,这种风格会渗透到概率分布中。高自信的语言和高自信的数字相互强化。

我们无意中训练出了过于自信的模型。

我们如何修复这个问题

温度缩放和其他事后校准方法

最简单的干预点是在模型生成逻辑值或原始分数之后的步骤。Guo及其同事 [5 提出的温度缩放方法,通过学习一个标量温度来重新调整逻辑值,使得预测的概率与保留数据集中的观察频率更加匹配。这种方法在视觉和表格处理中很受欢迎,因为它易于实现,且不会改变模型的准确性,只会影响概率的“锐度”。

更灵活的方法,如Platt缩放 [7, 8] 和等渗回归 [9

任务特定的微调和更好的奖励设计

事后校准方法是有帮助的,但它们并不能改变标准对齐目标会推动模型产生过度自信的事实。一些最近的研究在训练过程中就考虑了校准问题。Xiao及其合作者 [3

Wang及其合作者 [4 研究了先验知识如何影响微调。他们发现,重复的“已知”数据会导致模型产生过度自信,并提出了一种认知感知框架(CogCalib),该框架对已知和未知的样本进行不同处理,在某些情况下校准效果提高了50%以上。

这些方法都指向同一个方向:在设计目标和奖励机制时,我们应该奖励适当的不确定性和谨慎表达,而不仅仅是正确性和流畅性。这意味着在对齐数据集中包含模糊和难以确定的示例,并将“我不知道”视为模型确实缺乏信息时的正确结果。

探索模型内部状态

另一种恢复校准的方法是完全忽略模型的生成部分。在我们最近的研究中,我们开发了PING [10,这是一个简单的探针框架,它将语言模型视为一个固定的特征提取器。一个简单的探针(例如一个浅层神经网络)在模型的隐藏状态上进行训练,以预测哪个答案选项是正确的以及其概率。由于探针只看到一组固定的标签(例如多项选择题中的四个选项),校准问题就从“所有可能的词元”缩小到了一个明确定义的标签空间。在多个基准测试中,PING的准确性与生成模型的准确率相当或略高,同时将预期的校准误差降低了96%,并且它可以恢复对齐处理在临床模型中隐藏的知识。

其他团队也使用了不同的探针获得了类似的改进效果。InternalInspector [11 聚合了各层的注意力、前向传播和激活状态,并使用对比学习来估计信心和检测幻觉,与仅关注最终层的方法相比,这两种方法在校准误差和幻觉检测方面都有所改进。CCPS [12 采取了不同的方法,它扰动了最终的隐藏状态,利用该状态的稳定性作为小型分类器的特征。其他研究表明,即使在生成答案之前,内部状态也可以指示幻觉风险,而且真实性信息往往集中在特定的词元表示中,这可以通过专门的探针来检测可能的错误 [13

这些探针的实际优势在于它们轻量级、可审计且具有任务特异性。它们可以针对给定流程中重要的少数决策进行训练,而底层模型保持不变。从这个意义上说,探针并不是温度缩放或更好奖励的替代品,而是补充性的机制,让我们能够利用模型已有的知识,而不会继承其所有的风格化过度自信。

结论

当我们将大型语言模型应用于诊所、实验室和其他高风险环境时,“在基准测试中表现良好但校准不佳”是不可接受的标准。一个对其产生的幻觉和事实都同样确信的AI系统是设计上的失败。

本文介绍的方法代表了重要的进展。温度缩放、考虑校准的训练和探针技术可以恢复更能反映模型所学知识的概率估计。对于有明确答案集的结构化任务,这些方法允许用户获取他们可以信任的校准后的概率。无论是临床医生决定是否根据模型的建议采取行动,还是研究人员将其输出与其他证据进行比较,了解系统在何时不确定都会带来很大帮助。

然而,这些方法仅作用于模型的内部表示。它们不会改变模型生成的文本。即使概率校准得非常准确,模型仍然可能产生断言性、不谨慎的表达,因为这是对齐训练所青睐的风格。用户在响应中遇到的信心是语言层面的,而表达出的确定性与内部概率之间的差距仍然很大程度上没有得到解决。

缩小这一差距应该是该领域的一个核心目标。有前景的方向包括训练模型以自然语言表达不确定性,反映它们的内部状态,并构建能够同时显示校准信息的界面。前者可能需要重新考虑目前倾向于鼓励断言性响应的奖励机制。如果AI要服务于公共利益,诚实的沟通就不能是事后才考虑的事情。作为该领域的研究人员,我们需要确保这一点成为核心设计目标。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号