今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

大型语言模型(LLM)推理链中关于准确性的词汇线索

《Scientific Reports》:Lexical hints of accuracy in LLM reasoning chains

【字体: 大 中 小 】 时间:2026年06月06日 来源:Scientific Reports 3.9

编辑推荐:

  摘要通过强化学习对大型语言模型(LLMs)进行微调,以产生明确的思维链(Chain-of-Thought, CoT)推理,可以提高代码、数学和通用知识基准测试的性能。然而,在准确性仍然较低的任务中(例如“人类最后的考试”(HLE)中,模型尽管给出了错误答案,但往往表现出很高的自信

  

摘要

通过强化学习对大型语言模型(LLMs)进行微调,以产生明确的思维链(Chain-of-Thought, CoT)推理,可以提高代码、数学和通用知识基准测试的性能。然而,在准确性仍然较低的任务中(例如“人类最后的考试”(HLE)中,模型尽管给出了错误答案,但往往表现出很高的自信心,这表明模型的校准效果不佳。我们研究了思维链的哪些可测量属性能够提供可靠的、模型内部的信心信号。我们分析了三类特征:(i)思维链的长度;(ii)思维链内部情绪的波动性;(iii)词汇标记,包括对冲术语。使用DeepSeek-R1、Claude 3.7 Sonnet和Qwen-235B-Think,我们在HLE、Omni-MATH和GPQA-diamond任务上评估了这些特征。在各种基准测试中,词汇上的不确定性线索(例如猜测、卡住了、很难)是最有信息量的指标,而情绪变化虽然信号较弱,但可以起到补充作用。思维链的长度仅在Omni-MATH和GPQA任务中具有信息量(准确率约为70%),而在难度更高的HLE任务中则没有信息量(准确率约为9%),这表明思维链的长度只能在难度适中的基准测试中预测正确性,即在该模型已展示的能力范围内,但仍未达到最佳状态。最后,思维链中的不确定性信号比高信心标记更为显著,使得错误比正确答案更容易被检测出来。这些发现支持了一种轻量级的事后校准方法,可以补充不可靠的模型自报概率。

相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:深度强化学习语言模型或思维链校准|情绪波动分析|不确定性信号|词汇标记特征|思维链长度评估|奖励模型推理

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号