面向鲁棒机器学习的表格与图表示方法研究：噪声与缺失数据下的性能评估

《Array》：Tabular and graph-based representations for noise and missing data in robust machine learning

【字体：大中小】 时间：2026年01月28日 来源：Array 4.5

编辑推荐：

　　本研究针对工业数据中普遍存在的噪声和缺失值问题，系统比较了表格与图表示在机器学习模型鲁棒性上的差异。通过钢铁工业能耗数据集，评估了六种模型在四种数据场景下的表现。结果表明，基于图的模型（如GraphSAGE、GAT）平均准确率下降幅度比表格模型低30.8%，展现出显著优越的鲁棒性，为复杂工业环境下部署更稳健的人工智能系统提供了新思路。

在智能制造和工业4.0时代，机器学习模型已成为优化生产流程、提升能源效率的关键工具。然而，现实工业环境中的数据往往存在各种质量问题——传感器可能发生故障导致数据缺失，电磁干扰可能引入噪声，传输延迟可能造成数据失真。这些数据缺陷严重制约了机器学习模型在实际应用中的可靠性和稳定性。特别是在钢铁生产这类连续流程工业中，能源消耗数据的准确性直接关系到生产成本控制和排放管理，因此开发能够抵抗数据退化的鲁棒机器学习方法显得尤为重要。

传统上，大多数工业数据分析采用表格数据表示形式，将每个样本视为独立且同分布的特征向量。虽然随机森林(Random Forest)、XGBoost和多层感知机(Multi-Layer Perceptron, MLP)等模型在这种表示下表现出色，但它们对数据质量下降的敏感性限制了其在真实工业场景中的应用潜力。近年来，图神经网络(Graph Neural Networks, GNNs)的兴起为处理复杂关系数据提供了新思路，但其在工业表格数据上的鲁棒性优势尚未得到系统评估。

为解决这一问题，由Golam Imran领导的研究团队在《Array》期刊上发表了一项创新性研究，系统比较了表格与图表示在应对数据损坏时的鲁棒性差异。研究人员设计了一个严谨的实验框架，通过在真实工业数据上模拟不同程度的损坏场景，评估了六种主流机器学习模型的性能表现。

研究采用了几个关键技术方法：首先，使用来自韩国光阳DAEWOO钢铁公司的钢铁工业能源消耗数据集（包含35,040条多变量时间序列记录）和UCI机器学习仓库中的混凝土抗压强度数据集进行验证；其次，设计了四种数据质量场景（清洁、缺失、噪声及组合损坏）并采用k近邻(k-NN)算法将表格数据转换为图结构；最后，系统评估了三种表格模型（随机森林、XGBoost、MLP）和三种图模型（图卷积网络GCN、GraphSAGE、图注意力网络GAT）的性能，并引入了平均准确率下降(Average Accuracy Drop, AAD)、表示级下降(Representation-Level Drop, RLD)和相对增益(Relative Gain, RG)等量化指标来评估鲁棒性。

3.4. 数据表示

研究比较了两种数据表示方法：传统的表格表示和创新的图表示。表格表示将数据组织为n×d矩阵，其中每行代表一个实例，每列代表一个特征。这种表示简单直观，但与模型对数据质量高度敏感。图表示则将每个数据点映射为图中的节点，通过k-NN算法（k=5）基于特征相似性构建边，形成图结构G=(V,E)。这种表示允许模型通过邻居节点的信息聚合来补偿局部数据损坏，从而增强鲁棒性。

3.5. 模型选择与训练

研究选取了六种有监督分类模型，包括三种传统表格模型和三种图基础模型。所有模型均在清洁数据上训练，然后在四种损坏场景下评估。这种设计使得能够公平比较不同表示策略对模型鲁棒性的影响。

3.7. 可视化模型健康状态

通过雷达图直观展示了各模型在不同损坏场景下的分类准确率。结果显示，图基础模型（尤其是GraphSAGE和GAT）形成的封闭区域更大更对称，表明其在数据损坏条件下能保持更稳定的性能。相比之下，表格模型虽然清洁数据准确率高，但在损坏场景下性能下降明显。

4.1. 鲁棒性汇总表

实验结果明确显示，图神经网络在所有损坏场景下均表现出较小的准确率下降。GraphSAGE在清洁、缺失、噪声和组合损坏场景下的准确率分别为0.7833、0.7417、0.7839和0.7456，平均下降仅0.0262，排名第一。GAT和GCN紧随其后，平均下降分别为0.0294和0.0306。而表格模型中表现最好的MLP平均下降为0.0388，XGBoost和随机森林则分别下降0.0420和0.0438。

4.2. 鲁棒性图

通过条形图进一步验证了图基础模型的优势，其平均准确率下降明显小于表格模型。研究还探讨了不同的图构建策略，包括高斯相似度权重和可学习边权重，发现这些高级加权策略能在一定程度上进一步提升模型鲁棒性，特别是在高度损坏场景下。

4.3. 组级洞察与相对增益表

在表示级别，图基础模型的平均RLD显著低于表格模型。相对增益分析显示，GraphSAGE相比随机森林基线有31.5%的鲁棒性提升，GAT和GCN分别提升18.9%和14.2%。这一结果表明，图表示本身赋予了模型更强的抗损坏能力。

4.4. 可视化相对增益

通过可视化方式强化了图基础模型的鲁棒性优势，特别是在组合损坏场景下，其相对增益最为明显。

5. 讨论

研究结果揭示了不同模型家族在准确率与鲁棒性之间的权衡关系：表格模型在清洁数据上表现优异但鲁棒性较差；图基础模型准确率稍低但稳定性更强。这种权衡关系对工业应用中的模型选择具有重要指导意义。

与先前研究相比，本工作的创新点在于系统评估了图表示在转换后的工业表格数据上的鲁棒性，并同时考虑了缺失值和噪声的联合影响，更贴近实际应用场景。此外，研究证明即使通过简单的k-NN构建图结构，也能显著提升模型鲁棒性，降低了GNN在无原生图结构领域中的应用门槛。

实践意义上，在数据质量无法保证的工业环境中，图基础模型提供了一种可靠的解决方案。特别是在实时监控、能源管理和预测性维护等场景中，模型鲁棒性往往比峰值性能更为重要。

5.4. 替代性发现

为验证结果的普适性，研究还在混凝土抗压强度数据集上进行了验证实验。结果与钢铁行业数据集一致，图基础模型（尤其是GraphSAGE）再次表现出最优的鲁棒性，确认了图表示在不同工业数据集上的有效性。

6. 结论

本研究通过系统实验证明，图基础数据表示能显著提升机器学习模型在噪声和缺失数据条件下的鲁棒性。图神经网络通过邻居信息聚合机制，有效补偿了局部数据损坏带来的影响，为工业人工智能系统在面对真实世界数据缺陷时提供了更可靠的解决方案。研究成果不仅为工业环境中的模型选择提供了实证依据，也为鲁棒机器学习研究开辟了新方向。未来工作可探索动态图构建、对抗鲁棒性以及混合架构等方向，进一步推动鲁棒机器学习在工业应用中的发展。