一种基于均匀对比学习的风力涡轮机不平衡SCADA数据故障诊断方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Soft Computing》：A fault diagnosis approach for unbalanced SCADA data of wind turbines based on uniform contrastive learning

【字体：大中小】 时间：2026年03月08日 来源：Applied Soft Computing 6.6

编辑推荐：

　　风电SCADA数据故障诊断中，针对极端类别不平衡问题提出UCL框架，通过多任务学习整合分类与对比学习，创新性引入困难样本挖掘、类别平衡加权及自适应中心引导策略，有效优化特征空间分布，显著提升少数类故障识别准确率，宏观F1值和G均值优于传统方法。

黄瑞豪|马良宇|高海天|杨曦云

华北电力大学控制与计算机工程学院，北京，102206，中国

摘要

风力涡轮机在复杂环境中的长期运行导致了多种类型的故障和数据分布的不平衡，这严重限制了传统深度学习方法对这些数据集的诊断能力。为了解决这个问题，本文提出了一种基于均匀对比学习（UCL）框架的故障诊断方法。该方法将多任务学习与对比学习相结合，并引入了三种策略：困难样本挖掘、类别平衡权重和自适应类别中心引导，从而优化了特征空间中的类内紧凑性和类间可分性。在来自多个地区的真实SCADA数据集上进行验证后，我们的UCL框架在宏观F1分数和G均值方面显著优于现有的主流方法。它在识别少数类故障和提高整体诊断准确性方面表现出色。这种方法不仅为风力涡轮机故障诊断提供了高效稳定的解决方案，还为其他不平衡数据分类任务提供了有价值的见解。

引言

随着全球能源系统向低碳路径转型，风能在过去几十年中经历了快速发展。在实际运行中，风力涡轮机不断受到波动负荷和复杂环境条件的影响，这增加了故障的概率，降低了发电效率，并提高了运营和维护成本以及安全风险[1]。因此，开发具有主动预警功能的故障诊断和健康监测系统对于确保风电场的稳定运行具有重要意义。现代涡轮机通常配备有监控控制和数据采集（SCADA）系统，这些系统持续记录运行和环境变量，从而为数据驱动的诊断提供了基础。然而，基于SCADA的故障诊断仍然具有挑战性，主要是由于故障样本极度稀缺，导致严重的类别不平衡，运行条件和环境变化引起的分布偏移，以及长期现场监测中存在的噪声和缺失数据[2]，[3]。

除了诊断之外，SCADA数据还支持条件监测任务，如预测和预警。近年来，一些研究将学习模型与智能优化相结合，以提高基于SCADA的风能和能源产量预测，例如将模糊GMDH神经网络与灰狼优化器结合的方法[4]，以及将ELM-BiLSTM与改进的爬虫搜索算法结合的双尺度预测模型[5]。从系统级的角度来看，风力涡轮机故障诊断是旋转机械多故障诊断的一个重要应用场景。相关调查总结了多故障条件下的长期挑战，包括故障耦合、不平衡和分布偏移[6]，而更一般的多故障诊断研究进一步强调了在异构传感器模式和不同数据质量下的鲁棒性要求[7]。尽管这些研究推进了SCADA分析和旋转机械诊断，但风力涡轮机SCADA数据往往表现出更极端的分布特征：头部类别占据了绝大多数样本，而许多高风险尾部故障的样本非常少。因此，在减少误报的同时提高少数类召回率仍然是一个关键且未解决的问题。

为了解决类别不平衡问题，现有的研究可以大致分为数据级方法和算法级方法[8]。数据级方法主要包括重采样和成本敏感学习[9]，通过过采样和欠采样来调整类别比例[10]。例如，合成少数样本过采样技术（SMOTE）已被用于增加少数类故障样本[11]，进一步的工作探索了更自适应的采样或加权策略[12]，[13]，[14]，[15]。然而，在基于SCADA的诊断等场景中，由于故障样本极其稀缺，过采样倾向于过度拟合重复模式，而欠采样可能会丢弃多数类的关键信息，从而降低泛化能力。算法级方法通常通过模型结构改进或生成建模来增强少数类学习。例如，生成对抗网络（GANs）已被用于合成故障数据或利用未标记样本[16]，[17]，[18]，[19]，[20]；然而，关于合成数据的真实性和训练不稳定性的担忧，包括模式崩溃，仍然是实际障碍[21]。因此，对于极度不平衡的SCADA诊断，仅在样本数量级别进行调整往往是不够的。更重要的是，需要在偏斜分布和漂移扰动下学习具有区分性和结构良好形成的表示。

对比学习（CL）为表示学习提供了一条可行的途径。通过构建正样本和负样本对并优化对比目标，它明确限制了嵌入空间的结构，从而增强了类内紧凑性和类间可分性[22]。CL已经从早期的无监督和自我监督视觉设置扩展到计算机视觉[23]、自然语言处理[24]和知识追踪[25]的广泛应用。特别是在涉及大量噪声并需要细粒度区分的复杂非视觉任务中，采用了对比目标，例如通过跨语言CL进行无监督的词对齐[26]和用于跨模态检索的高效适应的自监督双重约束CL[27]。代表性框架，包括SimCLR[28]、MoCo[23]、BYOL[29]和MoCo v3[30]（基于MoCo v2[31]），也表明正样本对构建和负样本选择是影响性能的关键因素。例如，通过不同的增强视图构建正样本对[32]，以及从批次内部实例或内存队列中采样负样本[33]。在工业故障诊断中，CL已被应用于在不同运行条件下的表示学习、未标记的初始故障预训练[34]和分布外故障检测。同时，长尾识别激发了关于重新平衡的监督对比学习（SCL）[35]和解耦CL[36]的研究，SCL在有限注释下特别有助于增强类内聚合和类间可比性[37]。然而，在风力涡轮机SCADA数据的极端长尾偏斜、漂移和噪声的综合影响下，尾部故障的表示可能仍然由头部类别主导，导致嵌入空间结构不均匀，少数类故障的误报风险增加。

为了解决对比学习在处理极端SCADA数据不平衡下的不均匀特征空间分布时的上述限制，本文提出了一种均匀对比学习（UCL）框架，旨在改善不平衡条件下的故障诊断准确性。所提出的UCL采用多任务学习范式，以端到端的方式共同优化分类任务和CL任务：分类任务确保准确的类别预测，而对比学习任务增强特征表示和提取能力。这种联合训练策略使模型能够更好地捕捉样本之间的内在关系，从而实现更均匀的特征分布、改进的特征空间组织和更优越的诊断性能。为此，我们引入了基于监督对比损失函数的三个针对性增强。

1.

困难样本挖掘策略：识别并加强难以分类的边界样本，增强类内紧凑性并扩展类间区分边界。

2.

类别平衡权重：减轻多数类损失在梯度更新中的主导作用，使特征空间分布更加平衡。

3.

自适应类别中心引导：使用logit层权重向量作为自适应特征中心，引导样本特征到相应的类别中心，进一步均匀化特征分布。

本文的其余部分组织如下：第2节介绍了对比学习、多任务学习和角度边际学习的理论基础。第3节详细介绍了基于UCL的故障诊断框架，包括模型设计和损失函数增强。第4节进行了实验验证并分析了方法性能。第5节总结了本文并讨论了未来的研究方向。

部分摘录

对比学习

CL在特征空间中将语义相似的样本拉近，将不相似的样本分开，产生紧凑的类内表示和大致均匀的类间分布；这改善了类别不平衡下的可分性。其核心组成部分是样本对的构建和对比损失的设计。在自我监督对比学习（SSCL）[28]中，每个样本被增强以生成两个视图，形成一个正样本对，而其他

整体框架

为了解决风力涡轮机SCADA数据中的严重类别不平衡问题，本研究提出了一个端到端同步的UCL框架，该框架受到了AML和MTL原理的启发。该框架将分类训练与CL结合起来，共同提高故障诊断模型的性能。如图1所示，所提出的UCL框架包括三个关键组成部分。

1.

数据预处理模块：首先输入原始SCADA历史数据

x \in R^{N F}

数据描述

本节使用了来自中国北方一个风电场中1.5 MW风力涡轮机的SCADA数据，该涡轮机被称为单元A。采样间隔为10分钟，观测期从2017年2月持续到2018年2月。原始记录包括时间戳、发电机有功功率以及94个传感器和运行变量，还包括故障日志和报警记录。表1使用该涡轮机的一部分SCADA变量展示了数据格式。

每个时间步被视为一个样本，

结论

本研究提出了一个基于UCL的框架，以解决风力涡轮机SCADA数据中的严重类别不平衡问题。通过整合MTL和CL，该框架结合了困难样本挖掘、类别平衡权重和自适应类别中心调整。这些设计增强了少数类故障的识别，并在极端不平衡情况下提高了整体诊断能力。特别是，该框架促进了特征空间中的类内紧凑性和类间可分性，从而实现了更稳健的表示

CRediT作者贡献声明

黄瑞豪：撰写——原始草稿，软件开发，调查，数据管理，概念化。马良宇：撰写——审阅与编辑，可视化，监督，资源管理，项目管理，方法论，资金获取。高海天：可视化，验证，调查。杨曦云：验证，调查，形式分析，数据管理。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

马良宇报告称得到了中央政府指导的地方科技发展基金项目的支持。如果有其他作者，他们声明没有已知的可能会影响本文所述工作的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言