《Food Control》:Conditional Generation of Near-Infrared Spectra Using a Transformer-Based GAN for Spectral Data Augmentation in Milk Composition.
编辑推荐:
准确建模牛奶的化学成分对质量控制至关重要,但数据稀缺、类别不平衡和光谱数据的复杂依赖性限制了预测模型的性能。本研究提出光谱变换生成对抗网络(ST-GAN),通过多头自注意力机制、位置编码和领域特异性损失函数(包括相关性和均方误差)捕捉长程光谱依赖。实验表明,ST-GAN生成的合成光谱与真实数据高度相关(Pearson≥0.998),MMD值低至0.0019,且能显著提升乳糖、SCC的预测R2(分别为0.89和0.91),但对尿素预测效果有限(R2=0.58),但仍优于五类基线模型。
Yinka Sikiru|Ben Aernouts|Chyngyz Erkinbaev
曼尼托巴大学生物系统工程系,E2-376,EITC,75A Chancellor’s Circle,温尼伯,R3T 5V6,曼尼托巴省,加拿大
摘要
准确建模牛奶的化学成分对于有效的质量控制、消费者安全和法规遵从性至关重要。然而,预测模型的性能往往受到数据稀缺、类别不平衡以及光谱数据内部复杂依赖关系的限制。在牛奶质量监测中,尿素和体细胞计数尤其受到这些限制的影响。为了解决这些问题,提出并开发了一种基于Transformer的生成模型——光谱变换器生成对抗网络(ST-GAN),该模型专为条件生成光谱数据而设计。ST-GAN结合了多头自注意力机制、位置编码以及特定领域的损失函数(包括相关性和均方误差),以有效捕捉长距离的光谱依赖关系。通过使用农场采集的原始牛奶样本的近红外(NIR)光谱数据及其参考生化成分进行训练,ST-GAN生成的合成数据保留了原始数据的结构和统计特征。真实光谱与生成光谱之间的定量评估显示,皮尔逊相关性很高(≥0.998),最大均值差异(MMD)值低至0.0019。当用于增强真实数据时,生成的光谱提高了所有生化成分的预测性能。然而,对于尿素来说,改进效果较为有限,其预测R2值仅为0.58。与五种基线生成模型相比,ST-GAN始终表现出更优越的预测准确性。
引言
乳制品的质量和化学成分是影响消费者健康、市场价值和法规遵从性的关键因素(Duan等人,2025;Mensching等人,2025)。确保牛奶及其衍生物的一致性和安全性对生产者和消费者都至关重要。传统的分析方法(如化学分析)可以提供准确的牛奶成分测量结果(Mensching等人,2025;Soyeurt,2023)。然而,这些方法通常劳动密集、耗时且需要专门知识,因此不太适用于高通量或实时质量控制(Said等人,2022)。相比之下,近红外(NIR)光谱技术提供了一种快速、无损的牛奶评估方法,能够实现高效的实时监测和改进的校准策略(Said等人,2022)。
尽管有这些优势,但获取大规模、多样化且高质量的光谱数据集仍然具有挑战性。数据收集资源密集,并且容易受到季节变化、饲养方案、动物健康、农场位置等因素的影响。此外,光谱数据集经常存在类别不平衡的问题,即某些特征(如脂肪含量)被过度代表,而其他特征(如尿素和体细胞计数(SCC)则被低估。这种不平衡会降低模型性能,导致预测偏差和泛化能力差,尤其是在其他牛奶质量属性方面。这些挑战在其他领域也很常见,包括欺诈检测、医学诊断和文本分类(Antwi等人,2024;Gracia Moises等人,2025;Haixiang等人,2017;Pothapragada & Sujatha,2025)。为了解决这些限制,研究人员越来越多地采用深度生成模型来学习复杂的数据分布并生成逼真的合成样本。常见的方法包括变分自编码器(VAEs)、生成对抗网络(GANs)和扩散模型(Goodfellow等人,2014;Ho等人,2020;Kingma & Welling,2022)。其中,VAEs应用广泛,但在高维领域中往往会产生过于平滑或模糊的输出(Larsen等人,2016)。相比之下,基于GAN的方法能够生成清晰逼真的输出,适用于数据量有限或存在类别不平衡的情况(Cao等人,2025;Engelmann & Lessmann,2021;Goodfellow等人,2014)。然而,普通的GAN缺乏显式控制生成数据属性的机制,这限制了它们在需要条件生成任务中的实用性(Goodfellow等人,2014)。为了解决这个问题,条件GAN(cGANs)及其扩展(如辅助分类器GANs(ACGANs)在训练过程中加入了类别标签,从而实现了基于指定特征的引导生成(Mirza和Osindero,2014;Odena等人,2017)。
一些研究已将cGANs应用于结构化数据的生成。例如,Engelmann和Lessmann(2021)引入了一种条件Wasserstein GAN,用于生成具有数值和分类特征的表格数据,在信用评分应用中表现出色。同样,Shafqat和Byun(2022)提出了一种混合架构,将条件Wasserstein GAN与梯度惩罚和打包(PacGAN)策略结合,以解决推荐系统中的模式崩溃问题。尽管取得了这些进展,大多数现有的条件GAN模型仍然依赖于卷积神经网络(CNN)架构(Isola等人,2018;Odena等人,2017;Radford等人,2016)。不幸的是,由于CNN的感受野本质上是局部的,它们在模拟长距离依赖关系方面能力有限(Luo等人,2017)。虽然堆叠更多层可以扩展感受野,但对于捕捉结构化、高维领域中的全局特征关系来说往往不够。在NIR光谱数据中,这一限制尤为关键,因为相关模式可能分布在较宽的波长范围内。在这种情况下,准确的建模需要能够捕捉整个光谱输入中的长距离相互作用和上下文依赖关系的架构(Zhao等人,2025)。Jiang等人(2021)提出了一种完全基于Transformer的GAN(TransGAN),用自注意力机制替换了卷积层,以在图像生成任务中捕捉这些依赖关系。然而,TransGAN是为无条件图像合成开发的,不支持条件生成或结构化输入格式(如光谱数据)。为了克服这些架构和功能上的限制,本研究提出了一种基于光谱变换器的新架构——光谱变换器GAN(ST-GAN),专门用于条件生成合成光谱数据。ST-GAN结合了自注意力机制、位置编码和特定领域的损失函数,以提高生成光谱的质量和多样性。通过显式建模长距离光谱依赖关系,该架构解决了光谱数据生成中的关键问题,包括模式崩溃、过拟合和泛化能力差。
因此,本研究的主要目标是开发和评估ST-GAN作为一种生成框架,能够生成逼真的牛奶NIR光谱数据,同时解决类别不平衡问题并提高预测模型的性能。具体而言,本研究旨在:(i)通过整合Transformer模块和光谱特定损失函数来开发ST-GAN架构;(ii)将其生成性能与基线模型进行比较;(iii)使用定量指标和定性可视化技术评估生成的光谱;(iv)使用机器学习算法(如偏最小二乘回归(PLSR)、支持向量回归(SVR)、随机森林回归(RFR)和梯度提升回归(GBR)在真实数据和增强数据集上进行评估,以评估合成光谱对预测建模任务的影响。通过合成增强来解决数据稀缺和不平衡问题,本研究旨在提供一种更准确的牛奶质量参数预测模型工具。
实验设计
本研究提出了ST-GAN用于条件生成合成光谱数据,并将其性能与几种生成模型进行了比较。实验包括数据预处理、模型训练、合成样本生成和性能评估。ST-GAN旨在根据连续的生化输入特征(即脂肪、蛋白质、乳糖、尿素和SCC)以及分类变量(测量周)生成逼真的光谱。
合成光谱数据质量的评估
ST-GAN的性能从样本质量和多样性两个方面进行了评估和优化。这些指标共同决定了生成数据在多大程度上接近真实数据分布,并在考虑不同光谱区域固有变异性的同时代表了其独特模式。如图3所示,KDE图展示了所有周的真实数据和生成数据的光谱分布。
结论
本研究介绍了光谱变换器GAN(ST-GAN),这是一种专门为乳制品应用中的条件生成光谱数据而开发的基于Transformer的生成模型。通过结合多头自注意力机制、位置编码以及特定领域的损失函数(包括相关性和基于MSE的正则化),ST-GAN有效地捕捉了光谱数据中存在的复杂高维依赖关系。结果表明,ST-GAN不仅
CRediT作者贡献声明
Yinka Sikiru:写作 – 审稿与编辑,撰写初稿,可视化,验证,软件,方法论,调查,形式分析。Ben Aernouts:写作 – 审稿与编辑,撰写初稿,监督,调查,数据管理。Chyngyz Erkinbaev:写作 – 审稿与编辑,撰写初稿,验证,监督,资源管理,项目协调,方法论,调查,资金获取,概念化
未引用的参考文献
Gracia Moisés等人,2025;Isola等人,2017;Kingma和Ba,2014;Loshchilov和Hutter,2017;Luo等人,2016;Vaswani等人,2017。
利益冲突声明
?作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:Yinka Sikiru先生