需求与代码可追溯性的协同增强：一个结合了基于大型语言模型的数据增强技术和先进编码器的框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information and Software Technology》：Synergistic enhancement of requirement-to-code traceability: A framework combining large language model based data augmentation and an advanced encoder

【字体：大中小】 时间：2026年02月02日 来源：Information and Software Technology 4.3

编辑推荐：

　　需求可追溯性（RTLR）数据稀缺问题，提出LLM驱动数据增强与扩展编码器协同框架，实验验证其在F1（23.13%）和跨项目召回（50.70%）上显著优于基线。

张建章|周家龙|牛楠|华金平|刘创

中国浙江省杭州市杭州师范大学管理科学与工程系

摘要

背景：

自动化需求到代码的可追溯性链接恢复对于工业系统的质量和安全至关重要，但由于标记数据的稀缺，尤其是对于依赖监督微调的方法来说，这一过程受到了严重阻碍。

目标：

为了解决这一瓶颈，本文提出并验证了一个协同框架，该框架将大型语言模型（LLM）驱动的数据增强与先进的编码器相结合。

方法：

首先，我们通过对双向和零/少样本提示策略的系统性评估来优化数据增强。在增强数据的基础上，我们通过引入一个具有更广泛预训练语料库和扩展上下文窗口的编码器，改进了一种现有的预训练语言模型方法。我们在四个公共数据集上进行了实验，并进行了严格的有效性检查和跨项目评估，以量化我们框架各组分的独特贡献。

结果：

我们证明了在主要LLM之间的选择并不是一个重要的性能因素，而提示策略是有效的。单独使用数据增强可以持续提高基线方法的性能，平均提升幅度高达26.66%；将其应用于先进的编码器后，召回率进一步提高了10.00%。这种协同作用最终形成了一个完全优化的框架，在

F_{2}

得分上相比十个现有基线方法提高了23.13%，在

F_{1}

得分上提高了21.37%，并且在严格的跨项目评估中，召回率达到了50.70%，显著超过了最先进的RAG方法的21.82%。

结论：

这项工作提出了一种实用且可扩展的方法来克服数据稀缺的瓶颈，为数据驱动的需求到代码可追溯性在工业领域的广泛应用铺平了道路。

引言

需求可追溯性（RT），即能够将需求与源代码等工件联系起来[1]，对于复杂系统的质量和安全至关重要[2]，确保最终产品满足客户需求[3]。然而，这些链接经常丢失或过时，因此需要系统地恢复它们，这一任务被称为需求可追溯性链接恢复（RTLR）。未能恢复链接可能导致严重的质量下降和安全风险[4]，[5]。因此，有效的RTLR是影响分析[6]，[7]等任务的关键支持，并且通常受到监管标准的强制要求[8]，[9]。

由于自然语言需求和源代码之间存在显著的概念差距[10]，[11]，恢复它们之间的链接一直是一个重要且持续的挑战。本研究特别关注推进需求到代码的RTLR。考虑一个典型的维护场景，其中现有的需求被修改，从而产生了一个新版本。在这种情况下，原始的可追溯性链接可能不再有效，必须从现有的代码库中恢复新的、正确的链接。

自动化的RTLR遵循了两种主要范式：信息检索（IR）和机器学习（ML）。基于IR的方法[11]，如向量空间模型[12]，[13]，[14]，[15]，计算文本相似性，但受到词汇不匹配问题的限制。同样，在代码克隆检测等相关任务中，捕捉深度代码语义仍然是一个持续的挑战[16]。ML范式通过将RTLR重新定义为预测建模任务[3]来克服这一问题。通过利用嵌入技术（这些技术在分析其他领域（如签名网络[17]）中的复杂关系结构时表现出了强大的性能），这些模型从标记数据中学习潜在的语义模式以弥合语义差距。ML技术已经从概率模型[18]发展到深度学习架构[19]，以及最近的预训练语言模型（PLMs）[20]，[21]。尽管这些模型具有潜力，但其性能受到高质量标记训练数据稀缺的严重限制[22]，[23]，[24]，[25]。

在工业实践中，手动策划可追溯性链接非常耗时且成本高昂[5]，导致足够的训练数据普遍稀缺。这一以数据为中心的瓶颈成为在工业可追溯性场景中应用监督微调技术的主要障碍，从而形成了一个需要创新解决方案的关键研究空白。

为了解决这一数据稀缺的瓶颈，本文提出并验证了一个协同框架，用于需求到代码的可追溯性，该框架将LLM驱动的数据增强与先进的、对齐的编码器相结合。本工作的主要贡献如下：

首先，我们为RTLR中的LLM驱动数据增强建立了一种系统的方法论。我们的全面评估表明，提示工程策略是主导性能的因素，而不是特定LLM的选择，为在此背景下利用LLM提供了实用指南。
•
其次，我们量化了数据增强与模型架构之间的强大协同作用。我们证明了数据增强本身可以为现有的、最先进的基于PLM的方法提供显著的性能提升。此外，我们展示了将其应用于更先进和对齐的编码器后，召回率可以进一步提高10%。
•
最后，我们提供了一个新的高性能需求到代码可追溯性基准。完全优化的框架在 $F_{1}$
得分上相比现有基线提高了23.13%，在 $F_{2}$ 得分上提高了21.37%。此外，在严格的跨项目评估中，它展示了卓越的鲁棒性，召回率达到50.70%，有效地使候选生成覆盖率超过了最先进的零样本检索增强生成（RAG）方法的两倍。

本文的其余部分组织如下。第2节回顾了相关工作。第3节详细介绍了我们提出的框架。第4节描述了实验设置。第5节展示并分析了实验结果。第6节讨论了发现。最后，第7节总结了本文并概述了未来的研究方向。

章节片段

传统和基于深度学习的RTLR

早期的自动化RTLR方法包括信息检索（IR）方法，这些方法将任务视为基于文本相似性的搜索问题[13]。VSM [26]，[27]，LSI [28]，[29]和LDA [12]，[30]等技术很常见，但基本上受到“词汇不匹配问题”的限制[11]。传统的机器学习（ML）方法[31]将RTLR重新定义为分类任务，使用SVM [32]，[33]，KNN [31]，[34]，LR [35]和随机森林[7]，[23]等模型。

方法论

为了解决需求到代码可追溯性中的数据稀缺这一关键挑战，我们提出了一个综合框架，将LLM驱动的数据增强与增强的可追溯性模型架构相结合。如图1所示，我们的方法论包括三个主要阶段：数据增强、数据集丰富和构建以及模型微调。

在第一阶段，我们系统地增强了原始数据集，该数据集由人工验证的数据组成

实验设置

本节详细介绍了为严格评估我们提出的框架而建立的实验设计，并系统地回答了指导我们在第5节中分析的研究问题。我们描述了基准数据集、编码器的选择、基线方法、我们的训练和实施细节以及用于性能评估的指标。所有实验材料，包括源代码、数据集和完整结果，都已公开提供

结果与分析

本节对我们的提出的框架进行了系统评估，采用逐步验证的方式。我们首先优化了框架的核心组件，分离了数据增强策略（RQ1）和LLM选择（RQ2）的效果，然后严格分析了先进编码器的内在和协同贡献（RQ3）。在这些优化组件的基础上，我们验证了整个框架的累积效果

主要发现的意义

我们的发现为需求可追溯性提供了实用的指导。首先，我们的分析揭示了有效可追溯性的明确因素层次结构（RQ1和RQ2）。数据增强对于克服数据稀缺至关重要。在增强过程中，提示策略是决定数据质量的主要因素，其影响远远超过了在主要LLM之间进行具体选择的影响。因此，实践者应优先考虑提示工程而不是昂贵的模型

结论与未来工作

本研究通过提出并验证了一个协同框架，解决了需求可追溯性中的数据稀缺这一关键瓶颈，该框架将LLM驱动的数据增强与先进的、对齐的编码器相结合。完全优化的框架展示了显著的进步，在

F_{1}

得分上提高了23.13%，在召回率敏感的

F_{2}

得分上提高了21.37%。此外，我们在模拟中的评估

CRediT作者贡献声明

张建章：撰写 – 审稿与编辑，撰写 – 原始草稿，软件，方法论，数据管理，概念化。周家龙：撰写 – 原始草稿，软件，方法论，数据管理。牛楠：方法论，概念化。华金平：调查，数据管理。刘创：监督，方法论，资金获取，概念化。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了国家自然科学基金（项目编号：62473123）、浙江省自然科学基金（项目编号：LQN26F020071）、浙江省教育厅科研基金（项目编号：Y202455967）、浙江省市场监督管理局科技计划项目（项目编号：LY2026025）和移动健康管理工程研究中心的支持

联系信箱：

粤ICP备09063491号

摘要

背景：

目标：

方法：

结果：

结论：

引言