少即是多:自适应提示压缩与示例选择在高效少样本情感分析中的应用

《Expert Systems with Applications》:Less is More: Adaptive Prompt Compression and Exemplar Selection for Efficient Few-Shot Sentiment Analysis

【字体: 时间:2026年03月24日 来源:Expert Systems with Applications 7.5

编辑推荐:

  SR-C3框架通过语义嵌入聚类、奖励引导的示例记忆和确定性压缩实现闭环优化,有效平衡情感分类准确率与计算效率,在六个基准数据集上验证其优于现有方法的性能-效率权衡。

  
中国电子科技大学计算机科学与工程学院,中国成都西苑大道2006号,611731

摘要

由于标记数据有限以及针对大型语言模型(LLMs)的提示设计效率低下,少样本情感分析仍然具有挑战性。现有的提示方法通常依赖于静态示例和冗长的输入,导致不必要的标记使用、较高的推理成本以及有限的泛化能力。此外,以往的研究通常单独改进示例选择或提示压缩,而没有在资源受限的情况下明确平衡预测准确性和标记效率。本研究解决了两个关键问题:(1)如何自适应地选择语义多样且与任务相关的示例;(2)如何在现实资源限制下压缩提示同时保留对情感分析至关重要的信息。我们提出了SR-C3,这是一个统一的闭环提示优化框架,它将语义嵌入聚类基于奖励的适应性示例记忆清晰度压缩提示整合到一个考虑成本的推理时策略中,适用于黑盒LLMs。语义聚类模块通过重新加权嵌入来选择多样化的示例,同时考虑不确定性和新颖性。基于奖励的示例机制通过时间平滑的反馈来更新示例的效用。< />应用基于TF-IDF的确定性压缩方法来保留与情感分析相关的线索,并显示出可测量的压缩比,该压缩比被纳入到基于强化学习的成本感知目标中。这种耦合形成了一个反馈循环,将示例多样性、压缩控制和奖励优化联系在一起。在六个基准情感数据集上的实验表明,SR-C3在提高准确性的同时降低了延迟和标记成本,实现了比现有提示方法更优的性能-效率平衡。

引言

情感分析是自然语言处理(NLP)中的一个基本任务,它涉及将文本观点分类为预定义的类别,如正面、负面或中性(Rodríguez-Ibá?ez, Casa?ez-Ventura, Castejón-Mateos, & Cuenca-Jiménez, 2023)。尽管传统的深度学习模型在这一领域取得了显著的成功,但它们对大规模标记数据集的依赖限制了其在资源匮乏和特定领域中的应用(Bansal, Sharma, & Kathuria, 2022)。
因此,少样本学习作为一种有前景的替代方案应运而生。少样本学习使模型能够仅从少量标记实例中有效地进行泛化(Brown et al., 2020; Izacard et al., 2023)。大型语言模型(LLMs)的出现进一步推动了这一范式的发展,其中任务被表述为带有少量示例的自然语言指令,通过与LLMs的预训练目标更紧密地对齐,取得了令人印象深刻的结果(Gao, Fisch, & Chen, 2021; Liu et al., 2021b; Schick & Schütze, 2021b; Tam, Menon, Bansal, Srivastava, & Raffel, 2021a)。这一范式在广泛的自然语言理解(NLU)基准测试中证明了其高效性,即使在最小监督的情况下也是如此(Lester, Al-Rfou, & Constant, 2021; Li & Liang, 2021; Wang et al., 2022)。
尽管在少样本学习方面取得了进展,但仍存在几个阻碍其更广泛应用的挑战。主要问题之一是提示设计的效率低下。当前的提示技术通常依赖于冗长、静态或结构不良的示例,这可能导致标记使用量增加和推理准确性降低(Liu et al., 2023; Zhao, Wallace, Feng, Klein, & Singh, 2021)。此外,现代基于Transformer的LLMs使用多头自注意力来模拟文本中标记和实体之间的复杂关系,尤其是在社交媒体环境中(Shukla et al., 2025)。因此,示例选择和提示压缩必须保留多样化的与情感分析相关的线索,而不是随意剔除它们。此外,这样的静态少样本示例通常缺乏在各种情感分布下进行稳健泛化所需的多样性,从而限制了它们在异构领域中的应用效果(Lu, Bartolo, Moore, Riedel, & Stenetorp, 2022; Robert L. Logan et al., 2022)。
为应对这些挑战,最近的研究尝试引入适应性提示工程策略,以提高效率和灵活性(Gao et al., 2022; Li et al., 2021; Mao, Liu, He, Li, & Cambria, 2023; Ping, Sang, Liu, & Zhang, 2024; Wu & Shi, 2022; Zhang, Zhang, Huang, & Yu, 2022)。虽然这些进展是一个重要的进步,但仍有几个根本性挑战尚未解决。
首先,代表性少样本示例的选择通常基于启发式方法,导致对多样化语言模式的覆盖不足以及跨领域的泛化能力有限。大多数工作采用随机或基于相似性的采样方法(Gao et al., 2021; Robert L. Logan et al., 2022),这忽略了示例的组成和语义多样性。研究表明,示例选择显著影响模型行为(Min et al., 2022; Zhao et al., 2021),启发式选择往往会导致模型过度拟合于虚假的词汇线索,而不是学习可泛化的情感模式。如果没有原则性的示例选择,模型可能会过度拟合于特定的语言线索,并难以有效地泛化到新的领域或数据集。
其次,虽然提出了提示压缩技术来解决效率问题(Jiang, Wu, Lin, Yang, & Qiu, 2023b; Jiang et al., 2024; Mu, Li, & Goodman, 2023; Pan et al., 2024),但在压缩和语义丰富性之间找到合适的平衡仍然是一个未解决的问题。过于激进的压缩可能会丢弃上下文线索,从而降低分类准确性(Jiang et al., 2024; Kong et al., 2025)。这种标记效率与语义表达能力之间的持续权衡突显了可扩展和可解释的少样本推理的核心挑战。
第三,许多方法忽略了动态适应性少样本缓冲区的需求。实际上,情感分布和语言模式会随时间演变(Chen, Chen, Zhu, & Zhou, 2023; Wang et al., 2024b)。关于持续性和增量提示的最新研究(Chen et al., 2023; Zhao et al., 2023; Zhou, Sun, Ning, Ye, & Zhan, 2024)强调了基于奖励的示例重新加权和对记忆适应的重要性,以在数据分布演变的情况下保持模型的稳健性。然而,大多数基于提示的流程中缺乏这样的适应机制,导致性能随着时间的推移变得脆弱和不一致,因为示例变得过时或与新语言趋势不匹配。这种僵化极大地限制了当前少样本提示方法在动态或不断变化环境中的实用性。
这些挑战共同指出了现有工作的一个更广泛的局限性:虽然个别技术改进了示例选择、压缩或适应能力,但它们通常是孤立应用的。目前缺乏一个统一的推理时控制策略,该策略能够在现实资源限制下结合示例多样性、压缩规范和奖励反馈,特别是在模型参数固定且标记成本重要的黑盒LLM环境中。与之前将示例选择、压缩和适应独立处理的提示工程方法不同,SR-C3将少样本提示构建为一个闭环优化过程,明确结合了示例多样性、标记效率和基于奖励的记忆更新。
在本文中,我们介绍了SR-C3,这是一个为少样本情感分析设计的统一框架,作为一个闭环提示优化策略。SR-C3不是提出独立的模块,而是将示例选择、奖励-记忆适应和压缩控制整合到一个连贯的推理时机制中。
具体来说,SR-C3结合了语义自适应嵌入聚类基于奖励的缓冲示例记忆清晰度压缩提示,以提高在资源匮乏环境中的效率和稳健性。
首先,语义嵌入聚类通过重新加权嵌入来发现代表性的语义原型并选择多样化的示例,同时结合奖励记忆信号,形成一个自适应的示例策略。其次,基于奖励的适应性示例记忆策略通过时间平滑和反馈动态更新示例的效用,从而在演变的数据分布下稳定选择。第三,< />执行确定性的、无需训练的压缩,同时显示出一个可测量的压缩比,从而能够明确控制标记的使用。
最终的提示结构将任务特定的指令、聚类的示例对和用户输入整合到一个统一且标记效率高的序列中。为了将预测性能与标记效率结合起来,我们引入了一个基于强化学习的成本感知奖励函数,该函数直接将分类正确性与压缩比联系起来。这种耦合创建了一个反馈循环:压缩影响奖励,奖励更新示例记忆,示例选择又影响后续提示。结果是一个实用的推理时控制框架,适用于资源受限的黑盒LLM部署。
我们的贡献总结如下:
• 我们提出了SR-C3,一个闭环提示优化框架,它将语义聚类、基于奖励的示例记忆和确定性提示压缩结合到一个统一的推理时策略中,用于少样本情感分析。
• 我们引入了一个成本感知的奖励目标,明确地在预测准确性和标记效率之间进行权衡,实现了可控且在资源受限情况下的提示优化,而无需修改模型权重。
• 我们在六个真实世界的情感分析数据集上进行了广泛的实验,证明了SR-C3在文档级、句子级和方面级情感任务中一致地提高了准确性、效率和稳健性。
本文的其余部分组织如下:第2节回顾了元学习情感分析、情感分析的提示压缩、指令调整、领域适应和情感特定模型的相关工作。第3节介绍了所提出的SR-C3模型的方法论。第4节描述了实验设置并报告了比较结果。第5节总结了关键发现和未来研究的方向。

相关工作

相关工作

最近在少样本情感分析方面的进展主要由两个互补的研究方向推动:元学习和提示压缩。每个方向都针对在数据和资源受限环境下利用LLMs时面临的独特但相互关联的挑战。同时,循环中的优化范式——包括自动超参数调整和提示优化——越来越多地影响着现代AI系统如何平衡性能和效率。此外,新兴的研究工作

方法论

我们提出的框架由五个紧密耦合的模块组成,如图1所示。首先,语义嵌入聚类模块根据不确定性和语义新颖性重新加权句子嵌入,将文本输入组织成连贯且多样化的簇,从而促进有原则的示例选择。其次,基于奖励的示例记忆机制使用在线奖励反馈动态维护和更新有界的候选记忆,确保持续适应

实验与分析

本节介绍了实验设置、评估策略和分析讨论,旨在验证所提出的SR-C3框架。为了指导我们的实证研究,我们提出了四个研究问题(RQs),这些问题结构化了分析并突出了我们研究的关键方面。
  • RQ1:我们的SR-C3与当前基线的竞争力如何?
  • RQ2:语义嵌入聚类、基于奖励的示例记忆和ClarityCore压缩如何影响模型性能?
  • 结论与未来工作

    在本文中,我们提出了SR-C3模型,用于增强情感分析中的少样本学习。SR-C3模型采用语义嵌入聚类和基于奖励的示例记忆以及ClarityCore压缩提示。它基于模型反馈动态细化少样本示例,实现自适应学习和改进的泛化能力。自适应压缩机制在保持关键上下文信息的同时缩短了提示长度,提高了效率,而不会

    CRediT作者贡献声明

    Peter Atandoh:概念化、数据整理、方法论、软件、撰写——原始草稿、可视化。Yongkang Li:撰写——审阅与编辑、形式分析、可视化、调查、验证。Weikang Guo:撰写——审阅与编辑、形式分析、调查。Jinyu Guo:撰写——审阅与编辑、形式分析。Jie Zou:方法论、撰写——审阅与编辑、监督、软件、调查、验证、资源获取。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号