蜂窝网络基站软件的回归测试优化:基于语言的方法

《Expert Systems with Applications》:Regression test optimization for software of the cellular network base stations: a language-based approach

【字体: 时间:2026年01月28日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文提出LMLDA方法,结合LDA的语义分析与逻辑回归的轻量模型,优化CI/CD环境下的测试套件,减少64%规模同时保持88%缺陷检测精度,显著提升工业级漏洞发现效率。

  
Sebastian Zar?bski | Krzysztof Rusek | Piotr Cho?da
NOKIA,克拉科夫,波兰

摘要

本文介绍了线性潜在狄利克雷分配模型(LMLDA),这是一种用于软件测试优化的新方法,它直接解决了计算成本高昂的大型语言模型(LLMs)与语义浅层启发式方法之间的差距。我们的主要贡献是一个轻量级、可解释且成本效益高的模型,专为高风险的工业持续集成和持续开发(CI/CD)环境设计,在这些环境中安全性和可追溯性至关重要。LMLDA的创新之处在于它将潜在狄利克雷分配(LDA)用于代码修改和测试内容的语义分析,并结合基于逻辑回归的分类器进行训练阶段,同时提供与线性回归计算简单性相匹配的预测能力。这种方法能够根据语义交互独特地预测测试失败的概率,从而实现精确的、以错误为中心的优先级排序,而不是依赖于间接的多样性指标。在NOKIA进行的大规模工业案例研究中,LMLDA展示了其实际效果:在保持88%的错误检测精度的同时,平均将测试套件规模减少了64%,并将关键错误的发现时间平均加快了8小时。

引言

在动态的软件开发世界中,客户期望推动了对新功能的持续需求,这需要严格的质量保证。一种称为持续集成(CI)和持续部署(CD)的过程依赖于强大的自动化回归检查来确保软件的质量。随着测试用例数量的增加,这对质量保证团队带来了重大挑战。测试用例的积累导致了一个越来越难以管理的复杂过程,最终影响了软件的质量。为了解决这个问题,需要优化策略来减少工作量同时保持代码覆盖率。然而,CI/CD环境的方法存在两极分化:一方面,计算要求高的模型(特别是大型语言模型(LLMs)提供了深度的语义理解,但在安全的工业环境中面临巨大困难;另一方面,简单的启发式方法虽然有效,但缺乏检测复杂和新颖错误的深度。这就需要一个既具有深刻语义理解又实际可行的解决方案。
我们提出了线性潜在狄利克雷分配模型(LMLDA),该方法通过将潜在狄利克雷分配(LDA)与逻辑回归结合在一个线性框架中来弥合这一差距。我们提出的方法的新颖之处在于其组件的组合,每个组件都是为了应对特定的工业和技术挑战而选择的:
  • 首先,我们使用潜在LDA自动从代码修改和测试描述中发现语义特征。这避免了其他方法中常见的特征工程(例如代码变化、复杂性指标)的需求。与计算成本高昂的LLMs不同,LDA是一个轻量级的概率模型,擅长发现潜在的、特定领域的语义主题,提供了简单启发式方法所缺乏的深度上下文理解。
  • 其次,这种基于主题的表示被输入到一个基于逻辑回归原理的分类器中,我们特意选择了这种模型而不是其他浅层模型。我们的核心假设是,软件错误的风险在于代码变更主题与测试主题之间的交互,而LMLDA被明确设计为学习这些交互权重。
  • 使用逻辑回归是一个自然的选择,因为其概率框架与LDA的输出完全匹配。因此,作为一个(对数)线性模型,其系数是可解释的,满足了工业环境中需要人工参与验证的要求,而黑盒模型无法提供这一点。
  • 我们在NOKIA的一个RAN产品上验证了我们的方法。实验结果显示,错误检测覆盖率为88%,测试套件规模减少了64%。这意味着错误检测能力比原始套件快大约8小时,节省了一个工作日以上的时间。
    本文的结构如下:第2节探讨了利用机器学习进行测试优化的背景;第3节通过一个案例研究突出了工业软件测试中的问题;第4节提供了我们LMLDA方法的概述和正式定义;第5节分析了实验结果;第6节总结了我们的提案,并提出了最后的思考和研究方向。

    章节摘录

    文献综述

    本节回顾了现有的测试套件优化研究。讨论全面概述了当前的研究环境,并指出了工业和应用中的差距,特别是与LLM相关的差距。
    尽管文献中存在监督学习和非监督学习方法,但监督学习技术吸引了大量研究关注。例如,Dejaeger、Verbraken和Baesens(2013)使用了朴素贝叶斯

    问题陈述和背景

    在本节中,我们正式概述了在工业CI/CD环境中优化回归测试的挑战。我们描述了涉及的过程和关键要素,并阐明了测试套件减少(TSR)和测试用例优先级排序(TCP)的正式目标。表1总结了该问题及其背景的关键数学符号和定义。
    软件测试是一种质量保证过程,通过识别错误来评估系统的性能,正如Myers和Sandler所述,

    提出的方法

    本节概述了我们提出的LMLDA方法,该方法结合了主题建模和概率分类来预测由于软件变更导致的测试失败。我们通过分词、嵌入和基于LDA的编码将代码差异和测试用例转换为具有上下文意识的向量化形式,然后使用双线性分类器来评估测试差异与主题之间的交互以预测失败。该方法包括六个主要步骤:对源代码和测试文件进行分词、基于频率的嵌入、主题

    实证发现

    在本节中,我们使用来自NOKIA CI/CD管道的大规模专有数据集对LMLDA模型进行了实证验证。由于数据集和源代码是专有的,我们通过详细说明滚动窗口评估、基线比较和评估指标来保持方法论的透明度和可重复性。
  • 数据:数据集来自NOKIA 5G开发分支内的Jenkins CI构建日志和Git提交历史(2023年1月至2024年12月)。
  • 结论

    本研究介绍了一种新的回归测试优化方法LMLDA,该方法将基于LDA的数据编码与逻辑回归结合在一个线性框架中。
    从机器学习的角度来看,主要贡献是一个新颖的、以错误为中心的模型,它被明确设计为轻量级、可解释且成本效益高,在语义深度和高安全工业环境的实际限制之间取得了关键平衡。

    作者贡献声明

    作者对工作的贡献如下:
  • Sebastian Zar?bski负责概念化、数据整理、形式分析、调查、方法论、项目管理、资源、软件、验证、可视化、初稿撰写以及审阅和编辑。
  • Krzysztof Rusek参与了概念化、形式分析、调查、方法论、监督、验证、初稿撰写以及审阅和编辑。
  • Piotr
  • CRediT作者贡献声明

    Sebastian Zar?bski:概念化、方法论、软件。
    Krzysztof Rusek:概念化、方法论。
    Piotr Cho?da:概念化、方法论。

    利益冲突声明作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号