SDGT:基于GPT-4数据扩展的种子驱动生长技术对大型语言模型(LLMs)进行微调
《Neurocomputing》:SDGT: LLMs fine-tuning with seed-driven growth technology based on GPT-4 data expansion
【字体:
大
中
小
】
时间:2026年01月26日
来源:Neurocomputing 6.5
编辑推荐:
提出Seed-Driven Growth Technique(SDGT)用于自监督微调数据生成,通过种子数据选择、占位符增强多样性、整体生成确保一致性,减少人工标注成本至约10个样本,数据质量达人工标注数据的88%-114%。
高德宏|戴家毅|刘森|金林波|江文|于善清|宣琪|蔡晓燕|杨立斌
中国西安西北工业大学
摘要
在快速发展的自然语言处理领域,自监督微调(SFT)技术显著提升了模型的效率和适应性。用于SFT的数据集对微调模型的性能起着决定性作用。目前流行的利用大型语言模型(LLMs)生成SFT数据的技术在一定程度上缓解了传统手动注释的高劳动成本问题。然而,在数据多样性、准确性、生成效率以及成本方面仍存在挑战。在本文中,我们提出了种子驱动增长技术(SDGT),这是一种生成SFT数据集的新方法,包括三个关键组成部分:种子数据选择、多样性控制和一致性控制。该方法大幅减少了所需种子数据的数量,提高了数据生成效率,并确保了数据的多样性和高质量。通过将占位符技术与提示工程相结合,我们在扩展数据集的同时保持了数据多样性;通过创新的一致性管理策略,我们显著提高了数据生成效率,并增强了数据的逻辑连贯性。我们通过总结生成、阅读理解和推理等经典NLP任务进行了实证评估,发现SDGT生成的数据的性能指标平均可达高质量手动标注数据的88%,最高可达114%。
引言
在自然语言处理(NLP)领域,自监督微调(SFT)是目前最流行的方法之一[9]、[29]、[37]、[44]。它通过对特定任务定制的数据集对预训练的语言模型进行精细微调来发挥作用。这一过程使模型具备了前所未有的效率和洞察力,使其能够处理和执行各种复杂的语言任务[12]、[46]、[47]。在这一策略中,除了预训练的大型语言模型外,用于微调的数据集在决定SFT方法的有效性方面也起着关键作用[16]、[51]。传统的语言模型训练数据集通常依赖于大量的人工注释和标记工作,这往往成本高昂且不适用于现实世界中的大规模应用。鉴于此,研究人员开始探索基于语言模型自身自动生成训练数据的策略[50]、[53]。
常用的SFT数据由指令、输入和输出组成。生成SFT数据集的通用框架包括三个部分:(1)种子选择,即选择符合特定标准的初始数据,这些数据通常是高质量的人工标注数据;(2)多样性控制,通过增加指令或输入的多样性来提高数据质量;(3)一致性控制,从LLMs中收集与给定指令和输入一致的答案。这些方法在一定程度上减少了了对人工劳动的依赖,从而降低了成本和时间消耗。然而,这一领域仍面临一些挑战。首先,如图1(a.Top)所示,尽管该方案的初始数据量已减少到数百个技术单元,但仍然不可避免地需要人工成本。其次,如图1(b.Top)所示,在多样性控制阶段,使用循环过程(即后续模型生成的数据作为输入)可能会导致错误累积,从而逐渐降低数据质量。最重要的是,如图1(c.Top)所示,在一致性控制阶段,当前的做法通常需要分别独立执行指令、输入和输出的生成过程。这意味着每个数据集的生成都需要调用模型三次。这不仅增加了数据生成的成本并降低了效率,还带来了更严重的问题:输入与输出之间以及输入与指令之间的一致性完全依赖于模型的性能。因此,迫切需要开发一种自动构建数据集(即SFT数据集)的高效流程,以在尽可能减少对人工和模型资源依赖的同时确保数据质量。
因此,我们引入了种子驱动增长技术(SDGT):一种能够从最少样本自动生成多样化数据集的方法。如图1(a.Bottom)所示,在劳动力成本方面,我们将初始数据样本数量从数百个减少到大约十个,从而显著降低了人工成本。如图1(b.Bottom)所示,在增强数据多样性方面,我们不再依赖于修改种子数据,而是引入了占位符集(如图2所示)。在多样性控制阶段,占位符集提供的关键词可以有针对性地替换精心设计的提示模板中的元素,从而生成内容多样但质量相当的数据。这种方法避免了循环使用模型生成的数据所带来的累积错误。最重要的是,如图1(c.Bottom)所示,在一致性控制阶段,我们放弃了依次生成不同数据组件的做法,而是整体生成指令+输入+输出。这不仅显著提高了数据生成效率,还确保了这些组件之间的逻辑一致性。
为了全面验证我们提出的SDGT,我们设计了一系列涵盖六项广泛认可的NLP任务的实验。这些任务包括总结生成、阅读理解和推理判断。我们使用SDGT方法生成的数据集对六个广泛采用的开源LLMs进行了微调,然后将这些模型的性能与在六个由人类精心标注的高质量数据集上训练的模型进行了比较和分析(见第4节)。
总之,我们的贡献包括:
•我们提出了种子驱动增长技术(SDGT),它大大降低了人工成本,提高了数据生成效率,同时确保了数据的多样性和高质量。
•我们提出了一种结合占位符技术和提示工程的新方法来进行多样性控制,并引入了一种新的一致性控制机制。这种方法在扩展数据集的同时保持了数据多样性,增强了数据内部的逻辑连贯性,并显著提高了数据生成效率。
•在一系列NLP任务和模型上的实验验证表明,通过SDGT数据微调的模型在性能上可以达到高质量人工标注数据的88%,最高可达114%。
小节片段
NLP中的数据增强
数据增强技术在NLP领域至关重要[1]、[6]、[7]、[8]、[20]、[39],尤其在资源匮乏的情况下显得尤为宝贵。传统方法包括同义词替换[28]、回译[45]、改写[48]以及各种扰动策略来人工扩大数据集[4]、[38]。这些方法在文本分类等任务中显示出显著改进,通过改写或扰动来扩展数据可以减轻过拟合问题
方法
在本节中,我们将详细阐述所提出的SDGT。该框架主要包括三个模块:种子选择、数据增长和后处理。这些组件的详细信息将在第3.2节中介绍。此外,指令微调方法将在第3.3节中描述。完整的框架如图3所示。
实验设置
数据集 为了全面验证SDGT的可行性,我们为五个广泛使用的NLP任务生成了SFT数据,涵盖总结生成、阅读理解和推理等领域。选择这些任务是因为它们代表了文本生成和理解方面的多个公认基准,它们在数据生成效率、输出多样性和语义一致性方面具有挑战性。通过在这些任务上进行评估,我们的实验可以系统地
结论与未来工作
本文提出了一种基于大型模型生成数据的一般框架,并在此基础上提出了SDGT,这是一种创新的数据增强方法,它能够利用极少的种子数据生成多样化的高质量数据集。实验表明,在NLP环境中应用SDGT可以显著减轻手动数据注释的负担,从而大幅提高各种任务的模型性能,数据质量可达88%
CRediT作者贡献声明
高德宏:概念化、方法论、写作 - 原稿撰写。戴家毅:软件开发、形式分析、可视化、写作 - 原稿撰写。刘森:软件开发、形式分析、可视化、数据管理、写作 - 审稿与编辑。金林波:软件开发、形式分析、可视化、数据管理、写作 - 审稿与编辑。江文:数据管理、概念化、写作 - 原稿撰写。于善清:形式分析、资源管理、写作 - 审稿与编辑。宣琪:
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作部分得到了中国国家自然科学基金(项目编号U20B2065、U22B2036、62372380、62103374和U21B2001)、国家重点研发计划(项目编号2022YFB3104005和2022C01018)、陕西省自然科学基础研究计划(项目编号2024JC-YBMS-513)以及浙江省重点研发计划(项目编号2024C01025)的支持。
局限性
我们的方法存在一些局限性:(1)生成数据的质量和多样性
高德宏是西北工业大学网络安全学院的副教授。他于2014年在中国香港理工大学获得博士学位。2014年至2022年间,他在阿里巴巴集团担任高级算法专家。他的研究兴趣包括大型语言建模、多模态研究、信息检索、自然语言处理和机器学习
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号