基于生成对抗网络的小样本软件开发工作量估算模型研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific African》：Generative Adversarial Networks-based Software Development Effort Estimation for Small Datasets

【字体：大中小】 时间：2026年01月02日 来源：Scientific African 3.3

编辑推荐：

　　为解决小样本数据下软件开发工作量估算(SDEE)精度不足的问题，研究人员开展了生成对抗网络(GAN)与前向反馈反向传播神经网络(FBNN)的融合模型研究。通过对比三种数据缩放方法(Min-Max/Robust/Standard Scaler)在六个数据集上的表现，发现GAN-FBNN模型显著优于传统FBNN，其中Min-Max缩放法在多数数据集上表现最优。该研究为小样本场景下的软件工程估算提供了可泛化的增强学习框架。

在软件工程领域，精准预估开发工作量始终是项目管理者的核心挑战。低估会导致项目延期和预算超支，高估则造成资源浪费和竞争力下降。传统参数化模型和机器学习方法虽被广泛应用，但面对行业普遍存在的小样本数据困境时，神经网络模型的性能往往受限——数据量不足导致模型难以捕捉复杂特征关系，且对缺失值、异常值敏感。尤其当采用前向反馈反向传播神经网络(FBNN)这类需要大量训练数据的模型时，其预测准确性更易受数据集规模制约。

为突破这一瓶颈，摩洛哥伊本·佐赫尔大学的研究团队在《Scientific African》发表创新研究，将生成对抗网络(GAN)这一数据增强利器引入软件开发工作量估算(SDEE)领域。研究团队设计了一种名为GAN-FBNN的混合架构，通过GAN生成高质量合成数据以扩充小样本数据集，并结合三种特征缩放技术(Min-Max Scaler、Standard Scaler、Robust Scaler)优化数据分布。该研究首次系统探讨了数据缩放策略与GAN增强技术在FBNN模型中的协同效应，通过六组具有不同特征的经典数据集(COCOMO81、NASA93、Desharnais、Kitchenham、ISBSG、Maxwell)进行验证。

关键技术方法层面，研究采用GAN生成1000个合成样本与原始数据融合，使用PyTorch实现张量转换，通过Scikit-learn库实施三种特征缩放。采用留出法(Holdout)和刀切法(Jackknife)两种评估策略，以标准化准确率(SA)、Pred25、平均绝对误差(MAE)等指标评估性能，并运用Mann-Whitney U检验和Scott-Knott聚类分析进行统计验证。

GAN-FBNN模型评估

实验数据显示，GAN数据增强策略显著提升了模型性能。在Jackknife评估中，所有GAN-FBNN变体的SA值均超过81.4%，最高达到98.27%，明显优于传统FBNN模型(34.68%-88.27%)。效应量|Δ|多数超过0.8，达到Cohen标准中的大效应水平，证实预测结果非随机产生。Pred25指标在GAN-FBNN-MM模型上最高达96.98%，远超传统FBNN的20.96%。

与传统FBNN的对比分析

Win-Tie-Loss统计表明，三种GAN-FBNN模型在36次对比中均显著胜出。其中GAN-FBNN-MM模型在留出评估中取得28胜8负的战绩，而传统FBNN仅获1胜35负。Mann-Whitney U检验p值均小于0.05，证明性能差异具有统计显著性。

缩放方法性能比较

Scott-Knott测试揭示了不同缩放技术的最佳适用场景：Min-Max缩放在COCOMO81等四个数据集中表现最优，其将特征约束在[0,1]区间的特性有利于GAN生成更稳定的合成数据；Standard缩放则在Desharnais等数据集中展现优势；Robust缩放对含异常值的数据集具有独特适应性。

研究结论表明，GAN与FBNN的融合架构有效缓解了小样本数据的学习瓶颈，其中Min-Max缩放法在多数场景下能提供最稳定的预测性能。该框架不仅为软件工程估算提供了新范式，更开创了生成式模型与传统神经网络在回归任务中的协同应用先例。值得注意的是，模型性能仍受数据集特性、评估方法等因素影响，未来需在更多现实场景中验证其泛化能力。这项研究为数据稀缺领域的机器学习应用提供了重要技术参考，特别是在医疗健康、金融风控等同样面临小样本挑战的跨学科领域具有推广价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号