用于识别重大错误的回归器集合：一种优化方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月11日 来源：Journal of Industrial Information Integration 11.6

编辑推荐：

　　化工过程测量中重大误差的集成机器学习检测方法研究。通过构建51种不同回归模型的集成系统，结合遗传算法、粒子群优化和差分进化优化算法选择最优子集，在10个基准数据集上验证，该方法显著优于传统统计检验和单一模型方法，有效提升工业数据对齐与可靠性保障。

Daniel Dobos|Tien Thanh Nguyen|Truong Dang|Eyad Elyan

罗伯特·戈登大学计算、工程与技术学院，英国阿伯丁

摘要

在化工行业中，准确的测量对于可靠的过程监控和控制至关重要。然而，测量系统经常受到传感器故障、泄漏或传输问题等严重误差的影响。这些误差会严重降低数据协调性和决策质量，因此开发出强大的检测方法对于确保工业生产的可靠性至关重要。在本文中，我们提出了一种使用机器学习回归器集成进行严重误差检测的新方法。该方法结合了51种不同回归模型的预测结果，并通过优化算法选择最有效的子集。我们探索了三种受自然界启发的优化算法——遗传算法（GA）、粒子群优化（PSO）和差分进化（DE）——来找到最佳的模型组合。然后使用选定的集成模型来预测过程测量中的严重误差幅度。我们使用包含人为注入误差的十个基准数据集对这种方法进行了评估。结果表明，在使用优化算法进行集成选择时，所提出的方法优于传统技术和单个回归器。这些发现突显了优化后的异构集成在工业应用中改进严重误差检测方面的实际潜力。

引言

测量精度在化工行业中至关重要，它是保证工艺和最终产品完整性、安全性和效率的基础。准确量化化学品、反应参数以及温度、压力和流速等操作条件对于维持配方的一致性和优化运营性能至关重要。此外，精确的测量还有助于确保符合严格的监管标准，并支持可靠的实时决策。不准确的测量可能导致产品缺陷、安全风险、成本增加以及环境违规。

不幸的是，没有任何测量是完全无误差的。最常见的误差是随机误差，它们本质上是不可预测的，由测量环境的变化引起。这些误差包括温度波动、电气噪声、机械振动、传感器漂移和采样不一致性[1]。这类误差通常被建模为均值为零、方差已知的正态分布，这反映了它们随时间趋于平均的特性，尽管它们仍然可能影响单个读数。

为了解决这些问题，采用了数据协调（DR）技术。DR是一种数学优化方法，通过强制执行物理和化学过程约束（如质量和能量平衡）来改进测量值。假设只有随机误差存在，DR可以产生统计上最优的真实过程变量估计值，同时保持与守恒定律的一致性[1]。DR在过程工业中得到广泛应用，提高了过程监控、故障检测、控制优化和性能评估等任务的数据可靠性。

然而，当测量不仅受到随机误差的影响，还受到严重误差（GEs）的影响时，数据协调（DR）的基本假设就会受到破坏。严重误差会导致较大的系统偏差，使统计推断失效并扭曲协调结果。因此，在应用任何协调程序之前，检测和去除受严重误差污染的数据是一个关键前提。为此，已经开发了几种统计假设检验方法，包括全局测试[2]和节点测试[3]，这些方法根据假设的噪声分布将观察到的偏差与统计阈值进行比较。

尽管这些统计测试在工业中得到了广泛应用，但它们存在明显的局限性。首先，它们基于一个假设，即通常基于稳态质量和能量平衡的过程模型是完美准确的[1]。实际上，模型结构误差和参数不确定性可能会通过协调框架传播，从而影响严重误差的检测。其次，传统的统计测试本质上是基于快照的，仅在某一时间点分析测量数据，而没有考虑系统的时间行为。这忽略了可能表明传感器退化、过程漂移或设备磨损的趋势和演变异常。因此，为了提高严重误差检测（GED）的能力，人们越来越关注能够处理模型缺陷和数据模式的方法。

近年来，机器学习（ML）已经从理论概念发展为实际应用，对包括能源和化学工程在内的众多行业产生了重大影响。尽管ML起源于20世纪中叶，但其广泛应用得益于计算能力的进步和大规模工业数据的可用性。在化学和化学工程领域，ML已被用于解决复杂的过程挑战并优化系统性能。例如，ML模型被广泛用于通过识别生产数据中的模式和异常来进行预测性维护和质量控制[4]。

文献中也有多种方法采用数据驱动的方法来处理严重误差问题[5,6]。神经网络[7]、基于回归的方法和集成回归技术[8]都已被用来直接从数据中估计偏差和泄漏。虽然统计方法被广泛使用，但它们没有利用历史信息，且在测量不确定性较高时性能会下降。相比之下，基于ML的方法提供了一个有前景的替代方案，可以利用化学行业中不断增加的数字数据而无需先验知识。

在本文中，我们提出了一种基于集成学习和集成选择技术的流量测量系统中严重误差检测（GED）的新方法。我们的主要贡献如下：

•

用于GED的回归器集成：我们设计了一个由多种回归模型组成的集成，用于检测测量数据中的偏差，专注于识别严重误差。

•

优化的集成选择：为了提高集成的准确性和效率，我们引入了一种集成选择策略，用于识别最有效的回归器子集。每个候选集成都使用二进制编码表示，指示是否包含单个模型。我们评估并比较了三种受自然界启发的优化算法，即遗传算法（GA）、粒子群优化（PSO）和差分进化（DE），以选择最佳的集成配置。

•

基准评估：我们的方法使用专门为GED研究设计的公开可用基准数据集进行评估[9]，该数据集包括10个标准的稳态过程问题。这确保了我们结果的可比性和可重复性，为该领域的未来研究奠定了坚实的基础。

•

增强的误差检测性能：我们证明了集成学习显著提高了实验数据集中严重误差的检测能力。通过结合多个模型的预测能力，我们的方法在识别严重误差方面实现了更高的准确性，支持了更可靠和数据驱动的过程监控和控制决策。

本文的结构如下。第2节介绍了严重误差检测和识别的方法，以及回归方法、集成学习和集成选择技术。第3节描述了基于回归器集成的检测方法。第4节展示了实验结果；在这里，我们将所提方法与从文献中收集的10个系统生成的数据集进行比较，展示了所提方法和几种现有方法的结果。最后，我们在第5节提出了结论。

部分摘录

严重误差及其检测与识别

严重误差（GE）的检测可以追溯到数据协调（DR）技术的引入，因为这类误差会破坏过程的统计基础。DR技术的精确性和可用性在很大程度上依赖于只有已知不确定性的随机误差存在的假设。如果这一假设不成立，即存在非随机误差，那么协调结果的准确性就会降低。这表明拥有有效的严重误差检测方法的重要性

提出的方法

图中展示了用于检测流量系统测量中严重误差（GEs）的集成模型。它由三个主要部分组成：(i) 流量测量生成：用于在每个流中引入严重误差的系统模型和仿真设置；(ii) 机器学习集成工作流程：一组多样化的学习算法，在T折交叉验证方案中运行，以及一个用于识别最佳集成的集成选择模块

实验设置

为了评估性能，我们使用了两个主要指标：平均绝对误差（MAE）和均方误差（MSE）。为了公平比较不同系统的结果，我们使用了Friedman检验来检查所有方法是否表现相同。如果检验拒绝了这一假设，我们接着使用Nemenyi事后检验来成对比较方法并对它们进行排名。我们选择Nemenyi检验而不是平均MSE值，因为数据集的测量尺度差异很大

结论

本文提出了一种使用回归模型集成检测流量测量系统中严重误差的新方法。我们的方法结合了51种不同的回归器，包括基于树的模型、支持向量机、神经网络等。为了提高集成的准确性和效率，我们应用了一种基于优化的集成选择策略。我们测试了三种知名的受自然界启发的优化算法，即差分进化（DE）、粒子群优化

资助

本研究没有获得公共部门、商业部门或非营利部门的任何特定资助。

写作过程中使用生成式AI的声明

ChatGPT-4o（OpenAI）被用来重新表述文本并提高写作清晰度。该工具未用于数据分析或生成科学内容，所有输出都经过了作者的审查和验证。

CRediT作者贡献声明

Daniel Dobos：撰写——原始草稿、方法论、概念化。Tien Thanh Nguyen：撰写——审阅与编辑、形式分析、数据整理。Truong Dang：撰写——审阅与编辑、可视化、验证、软件。Eyad Elyan：撰写——审阅与编辑、监督、资源协调。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言