
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型(LLM)推理链中关于准确性的词汇线索
《Scientific Reports》:Lexical hints of accuracy in LLM reasoning chains
【字体: 大 中 小 】 时间:2026年06月06日 来源:Scientific Reports 3.9
编辑推荐:
摘要通过强化学习对大型语言模型(LLMs)进行微调,以产生明确的思维链(Chain-of-Thought, CoT)推理,可以提高代码、数学和通用知识基准测试的性能。然而,在准确性仍然较低的任务中(例如“人类最后的考试”(HLE)中,模型尽管给出了错误答案,但往往表现出很高的自信
通过强化学习对大型语言模型(LLMs)进行微调,以产生明确的思维链(Chain-of-Thought, CoT)推理,可以提高代码、数学和通用知识基准测试的性能。然而,在准确性仍然较低的任务中(例如“人类最后的考试”(HLE)中,模型尽管给出了错误答案,但往往表现出很高的自信心,这表明模型的校准效果不佳。我们研究了思维链的哪些可测量属性能够提供可靠的、模型内部的信心信号。我们分析了三类特征:(i)思维链的长度;(ii)思维链内部情绪的波动性;(iii)词汇标记,包括对冲术语。使用DeepSeek-R1、Claude 3.7 Sonnet和Qwen-235B-Think,我们在HLE、Omni-MATH和GPQA-diamond任务上评估了这些特征。在各种基准测试中,词汇上的不确定性线索(例如猜测、卡住了、很难)是最有信息量的指标,而情绪变化虽然信号较弱,但可以起到补充作用。思维链的长度仅在Omni-MATH和GPQA任务中具有信息量(准确率约为70%),而在难度更高的HLE任务中则没有信息量(准确率约为9%),这表明思维链的长度只能在难度适中的基准测试中预测正确性,即在该模型已展示的能力范围内,但仍未达到最佳状态。最后,思维链中的不确定性信号比高信心标记更为显著,使得错误比正确答案更容易被检测出来。这些发现支持了一种轻量级的事后校准方法,可以补充不可靠的模型自报概率。
生物通微信公众号