CTGAN-MNLIME：一种基于CTGAN增强的多维非线性LIME方法，用于企业环境指标预测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：CTGAN-MNLIME: A CTGAN-boosted Multidimensional Nonlinear LIME Method for Corporate Environmental Indicators Prediction

【字体：大中小】 时间：2026年03月11日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　企业环境指标预测中，传统LIME方法在高维稀疏数据下存在分布偏差大、稳定性差、无法揭示多维非线性关系等问题。本研究提出CTGAN-增强的多维非线性LIME方法，通过CTGAN生成符合分布的扰动样本，结合多项式特征映射构建局部可解释模型，在电力、电子设备制造、化工三个行业实验中，显著提升解释精度（+63-72%）、可信度（+45-54%）和充分性（+7-12%），同时保持计算效率。

胡恒佳|彭珍

中国地质大学经济管理学院，北京，100083，中国

摘要

对企业环境指标的可解释性预测是评估环境绩效的重要要求。高维度、稀疏的企业环境数据给经典的解释方法（如LIME）带来了挑战：扰动样本表现出分布偏差和稳定性有限，而这些方法无法揭示多维指标之间的复杂关系，然而解释这些关系对于决策至关重要。本研究提出了一种基于CTGAN的提升的多维非线性LIME方法（CTGAN-MNLIME），该方法引入了基于CTGAN的采样技术来生成符合分布的扰动样本，并采用多项式特征映射进行多维非线性局部建模，从而实现了对多维企业环境指标的高精度预测和可靠的解释。在三个中国行业的实验中，该方法的表现始终优于经典的LIME方法，其忠实度提高了63-72%，充分性提高了45-54%，同时保持了合理的稳定性和可接受的计算效率，为企业环境管理决策提供了一个更可靠和可解释的工具。

引言

随着国际社会对可持续性的关注日益增加，仅基于经济和财务维度的企业评估方法已无法满足利益相关者对评估企业可持续性的需求（Escrig-Olmedo, Mu?oz-Torres, Fernández-Izquierdo, & Rivera-Lirio, 2017）。近年来，随着ISO 14001等标准的实施，环境责任逐渐成为企业实现经济、社会和环境目标的关键驱动力，同时也建立了监测和改进环境绩效的机制（Sheehy, & Farneti, Tsalis, Nikolaou, Konstantakopoulou, Zhang, & Evangelinos）。这些标准通过PDCA循环实现环境管理，强调可审计的指标、透明的目标设定和可追溯的纠正措施。越来越多的研究开始关注企业层面的环境绩效，因此提出了多维的企业环境指标框架（Azzone, Noci, Manzini, Welford, Young, 1996, Herva, Franco, Carrasco, Roca, 2011）。在这种背景下，企业环境指标逐渐成为投资决策、政策制定和风险评估的重要参考（Escrig-Olmedo, Mu?oz-Torres, Fernández-Izquierdo, Rivera-Lirio, 2017, Tsalis, Nikolaou, Konstantakopoulou, Zhang, & Evangelinos）。最近的研究表明，企业环境指标涵盖了环境、社会和经济维度，涉及碳排放和能源效率等多个指标（Do?ekalová, Kocmanová, 2016, Hristov, & Chirico）。这些指标相互关联并相互作用，共同反映了企业的环境管理水平（Do?ekalová & Kocmanová, 2016）。在实际应用中，投资者和决策者倾向于将这些指标的优异表现与卓越的环境管理能力联系起来（Escrig-Olmedo et al., 2017），并利用它们作为预测企业未来环境绩效的重要依据（Delmas & Blass, 2010）。

然而，这些指标主要来源于企业可持续性报告。这些报告本质上是回顾性的，遵循年度周期；漫长的数据收集和验证过程影响了时效性（Rusu, Odagiu, Pop, & Paulette, 2024）。管理者和监管机构往往需要提前预见潜在风险并在不良后果发生之前采取干预措施。预测建模通过实现早期问题检测和将短期决策与中长期结果联系起来，补充了这些指标的作用（Ncube, Ngulube, 2024, Pereira, Kuiper, Selomane, Aguiar, Asrar, Bennett, Biggs, Calvin, Hedden, Hsu, Jabbour, King, K?berle, Lucas, Nel, Norstr?m, Peterson, Sitas, Trisos, van Vuuren, Vervoort, Ward, 2021）。为了确保这种前瞻性判断的可靠性，准确预测企业环境指标并分析影响它们的因素至关重要。在这种治理背景下，预测工具必须既准确又可解释，以便揭示特定企业案例中的因素贡献和跨维度相互作用。因此，开发结合预测准确性和可解释性的方法对于企业环境治理决策至关重要。

近年来，机器学习作为一种探索复杂系统和研究潜在机制的新范式应运而生。它已被证明在处理非线性关系和多维预测任务方面具有巨大潜力，并已广泛应用于企业环境指标预测。研究人员经常采用复杂的模型，包括集成学习和深度神经网络，以及结合统计和深度学习组件的混合模型（Alkattan, Al-Nuaimi, Subhi, & Turyasingura, 2024）。这些方法捕捉了复杂的非线性关系和相互作用，从而实现了更强的预测性能。然而，大多数这些关系和相互作用隐藏在模型内部（Dasilas & Rigani, 2024），因此它们通常被称为“黑箱”。尽管这些模型在预测方面表现优异，但其预测背后的推理过程难以理解，难以提供清晰的机制解释（Abusitta, Li, & Fung, 2024）。在需要决策过程透明度的环境政策等领域，模型不可解释性引发了利益相关者的担忧，限制了其实际效用（Dasilas & Rigani, 2024）。引入解释方法（如LIME（Ribeiro, Singh, & Guestrin, 2016）和SHAP（Lundberg & Lee, 2017）为解决这一问题提供了途径。这些方法基于特征影响提供了直观且用户友好的解释（Wiangkham & Vongvit, 2025），并且与模型无关，因此在不同场景中具有通用性。这些方法的应用非常广泛，例如在医学诊断（Ahsan, Uddin, Ali, Islam, Farjana, Sakib, Momin, Luna, 2023, Asif, Wang, Wang, Xu, 2025, Sreekala, Sahoo, 2025）、股票预测（Wu, Wang, & Wu, 2022）、教育（Wiangkham & Vongvit, 2025）、信用评估（Shi, Siebes, & Mehrkanoon, 2025）和物联网（Sharma, Sharma, Lal, & Roy, 2024）等领域。在企业政策领域，这些解释方法的应用有助于开发针对特定情况的解决方案，从而确保问题得到妥善解决（Wiangkham & Vongvit, 2025）。

然而，企业环境指标预测具有高维和稀疏数据的特征，这使得提供准确可靠的局部解释成为一个重大挑战。就数据来源而言，与有规范披露要求的标准化财务指标不同，企业环境信息披露仍然不完整且不标准化，难以全面获取定量环境指标数据。即使专业的环境机构也常常因数据不完整而难以进行有效评估（Delmas & Blass, 2010）。此外，不同行业和规模的企业在环境指标的关注点和应用上存在显著差异，这也增加了准确测量企业环境指标的难度（Hourneaux, Hrdlicka, Gomes, Kruglianskas, 2014, Yip, & Yu）。关于企业环境指标的固有特征，很明显，滞后性和累积性特征表征了许多环境影响。指标的固有复杂性以及它们之间的复杂关系进一步增加了解释的难度。在现有的解释方法中，LIME可以在有效的时间范围内依赖较少的计算资源产生简洁的局部解释结果（Antwarg, Miller, Shapira, & Rokach, 2021）。然而，必须指出LIME仍存在多个缺陷。首先，LIME对数据集中的噪声非常敏感（Antwarg, 2021）。在高维稀疏数据的背景下，其采样策略倾向于生成不符合真实分布的样本，导致解释的忠实度和稳定性不足。其次，LIME的线性假设可能导致忽略特征之间的相互作用和复杂关系，特别是变量之间的非线性和非单调关系（Doumard et al., 2023）。由于这些缺陷，该领域的大多数可解释方法仍然是单维和线性的，从而忽略了环境指标之间的非线性和多维相互作用。

为了解决上述挑战，本研究提出了一种基于CTGAN的提升的多维非线性LIME方法（CTGAN-MNLIME），用于企业环境指标预测。该方法的核心思想是将生成对抗网络的分布学习能力与多项式回归的非线性建模优势结合起来，保持高预测精度并扩展解释范围。具体来说，本研究使用CTGAN（条件表格GAN）来学习企业环境数据的真实分布特征，利用条件向量来约束生成与待解释样本相同类别的高质量扰动样本；同时，它采用多项式特征映射构建一个捕捉企业环境指标之间非线性交互关系的局部可解释模型。使用来自三个中国行业（电力、热生产和供应；计算机、通信和电子设备制造；化学原材料和产品）的企业数据，本研究构建了分为四个维度的输入特征——财务和运营、治理、技术创新以及政策和制度环境——并以三个环境指标（CO₂排放、能源效率和碳生产力）作为预测目标来评估所提出的方法。

本文的结构如下：第2节系统地回顾了当前关于企业环境指标预测和LIME局部解释方法的相关研究；第3节详细阐述了所提出的CTGAN-MNLIME方法，包括CTGAN采样模型的构建和MNLIME可解释模型的开发过程；第4节通过对中国三个行业（电力、热生产和供应；计算机、通信和其他电子设备制造；化学原材料和化学产品的制造）的企业数据实验验证了该方法，展示了该方法在识别关键特征交互效应和揭示企业异质性方面的应用潜力；第5节总结了研究结果并指出了未来研究的方向。

部分摘录

CTGAN-MNLIME的研究框架

如图1所示，本文提出的CTGAN-MNLIME研究框架包括两部分：CTGAN采样模型训练和MNLIME可解释模型训练。

(1) 基于多维企业环境训练数据集，训练CTGAN作为采样模型：生成器G根据噪声数据z和从离散特征构建的条件向量m合成样本G(z, m)；判别器D评估合成样本与真实样本之间的匹配程度，

数据来源和预处理

为了评估所提出的方法，我们使用了2010-2019年间中国三个行业的上市公司的面板数据：(i) 电力、热生产和供应（n=327），(ii) 计算机、通信和其他电子设备制造（n=1,335），以及(iii) 化学原材料和化学产品的制造（n=899）。数据来源于中国股票市场和会计研究（CSMAR）数据库。每个行业数据集包含18个维度的样本

结论

本研究提出了CTGAN-MNLIME方法，以解决企业环境指标可解释性预测中的关键问题，包括性能不足和无法识别多维指标之间复杂关系的问题。在三个中国行业的实验验证中——电力、热生产和供应（n=327）、计算机、通信和其他电子设备制造（n=1,335）以及化学原材料和化学产品的制造

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了DeepL和Grammarly来辅助翻译和语言改进。使用这些工具/服务后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

ORCID信息

第一作者：胡恒佳 0009-0000-6771-5762

通讯作者：彭珍 0000-0003-3907-7200

作者贡献声明

胡恒佳：写作、原始草稿、验证、可视化、软件开发，

彭珍：方法论、写作、审稿与编辑、资金获取、监督

未引用参考文献

图6。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言