大型语言模型（LLM）推理链中关于准确性的词汇线索

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Lexical hints of accuracy in LLM reasoning chains

【字体：大中小】 时间：2026年06月06日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要通过强化学习对大型语言模型（LLMs）进行微调，以产生明确的思维链（Chain-of-Thought, CoT）推理，可以提高代码、数学和通用知识基准测试的性能。然而，在准确性仍然较低的任务中（例如“人类最后的考试”（HLE）中，模型尽管给出了错误答案，但往往表现出很高的自信

摘要

通过强化学习对大型语言模型（LLMs）进行微调，以产生明确的思维链（Chain-of-Thought, CoT）推理，可以提高代码、数学和通用知识基准测试的性能。然而，在准确性仍然较低的任务中（例如“人类最后的考试”（HLE）中，模型尽管给出了错误答案，但往往表现出很高的自信心，这表明模型的校准效果不佳。我们研究了思维链的哪些可测量属性能够提供可靠的、模型内部的信心信号。我们分析了三类特征：（i）思维链的长度；（ii）思维链内部情绪的波动性；（iii）词汇标记，包括对冲术语。使用DeepSeek-R1、Claude 3.7 Sonnet和Qwen-235B-Think，我们在HLE、Omni-MATH和GPQA-diamond任务上评估了这些特征。在各种基准测试中，词汇上的不确定性线索（例如猜测、卡住了、很难）是最有信息量的指标，而情绪变化虽然信号较弱，但可以起到补充作用。思维链的长度仅在Omni-MATH和GPQA任务中具有信息量（准确率约为70%），而在难度更高的HLE任务中则没有信息量（准确率约为9%），这表明思维链的长度只能在难度适中的基准测试中预测正确性，即在该模型已展示的能力范围内，但仍未达到最佳状态。最后，思维链中的不确定性信号比高信心标记更为显著，使得错误比正确答案更容易被检测出来。这些发现支持了一种轻量级的事后校准方法，可以补充不可靠的模型自报概率。

联系信箱：

粤ICP备09063491号

摘要

热点排行