随着国际社会对可持续性的关注日益增加,仅基于经济和财务维度的企业评估方法已无法满足利益相关者对评估企业可持续性的需求(Escrig-Olmedo, Mu?oz-Torres, Fernández-Izquierdo, & Rivera-Lirio, 2017)。近年来,随着ISO 14001等标准的实施,环境责任逐渐成为企业实现经济、社会和环境目标的关键驱动力,同时也建立了监测和改进环境绩效的机制(Sheehy, & Farneti, Tsalis, Nikolaou, Konstantakopoulou, Zhang, & Evangelinos)。这些标准通过PDCA循环实现环境管理,强调可审计的指标、透明的目标设定和可追溯的纠正措施。越来越多的研究开始关注企业层面的环境绩效,因此提出了多维的企业环境指标框架(Azzone, Noci, Manzini, Welford, Young, 1996, Herva, Franco, Carrasco, Roca, 2011)。在这种背景下,企业环境指标逐渐成为投资决策、政策制定和风险评估的重要参考(Escrig-Olmedo, Mu?oz-Torres, Fernández-Izquierdo, Rivera-Lirio, 2017, Tsalis, Nikolaou, Konstantakopoulou, Zhang, & Evangelinos)。最近的研究表明,企业环境指标涵盖了环境、社会和经济维度,涉及碳排放和能源效率等多个指标(Do?ekalová, Kocmanová, 2016, Hristov, & Chirico)。这些指标相互关联并相互作用,共同反映了企业的环境管理水平(Do?ekalová & Kocmanová, 2016)。在实际应用中,投资者和决策者倾向于将这些指标的优异表现与卓越的环境管理能力联系起来(Escrig-Olmedo et al., 2017),并利用它们作为预测企业未来环境绩效的重要依据(Delmas & Blass, 2010)。
然而,这些指标主要来源于企业可持续性报告。这些报告本质上是回顾性的,遵循年度周期;漫长的数据收集和验证过程影响了时效性(Rusu, Odagiu, Pop, & Paulette, 2024)。管理者和监管机构往往需要提前预见潜在风险并在不良后果发生之前采取干预措施。预测建模通过实现早期问题检测和将短期决策与中长期结果联系起来,补充了这些指标的作用(Ncube, Ngulube, 2024, Pereira, Kuiper, Selomane, Aguiar, Asrar, Bennett, Biggs, Calvin, Hedden, Hsu, Jabbour, King, K?berle, Lucas, Nel, Norstr?m, Peterson, Sitas, Trisos, van Vuuren, Vervoort, Ward, 2021)。为了确保这种前瞻性判断的可靠性,准确预测企业环境指标并分析影响它们的因素至关重要。在这种治理背景下,预测工具必须既准确又可解释,以便揭示特定企业案例中的因素贡献和跨维度相互作用。因此,开发结合预测准确性和可解释性的方法对于企业环境治理决策至关重要。
近年来,机器学习作为一种探索复杂系统和研究潜在机制的新范式应运而生。它已被证明在处理非线性关系和多维预测任务方面具有巨大潜力,并已广泛应用于企业环境指标预测。研究人员经常采用复杂的模型,包括集成学习和深度神经网络,以及结合统计和深度学习组件的混合模型(Alkattan, Al-Nuaimi, Subhi, & Turyasingura, 2024)。这些方法捕捉了复杂的非线性关系和相互作用,从而实现了更强的预测性能。然而,大多数这些关系和相互作用隐藏在模型内部(Dasilas & Rigani, 2024),因此它们通常被称为“黑箱”。尽管这些模型在预测方面表现优异,但其预测背后的推理过程难以理解,难以提供清晰的机制解释(Abusitta, Li, & Fung, 2024)。在需要决策过程透明度的环境政策等领域,模型不可解释性引发了利益相关者的担忧,限制了其实际效用(Dasilas & Rigani, 2024)。引入解释方法(如LIME(Ribeiro, Singh, & Guestrin, 2016)和SHAP(Lundberg & Lee, 2017)为解决这一问题提供了途径。这些方法基于特征影响提供了直观且用户友好的解释(Wiangkham & Vongvit, 2025),并且与模型无关,因此在不同场景中具有通用性。这些方法的应用非常广泛,例如在医学诊断(Ahsan, Uddin, Ali, Islam, Farjana, Sakib, Momin, Luna, 2023, Asif, Wang, Wang, Xu, 2025, Sreekala, Sahoo, 2025)、股票预测(Wu, Wang, & Wu, 2022)、教育(Wiangkham & Vongvit, 2025)、信用评估(Shi, Siebes, & Mehrkanoon, 2025)和物联网(Sharma, Sharma, Lal, & Roy, 2024)等领域。在企业政策领域,这些解释方法的应用有助于开发针对特定情况的解决方案,从而确保问题得到妥善解决(Wiangkham & Vongvit, 2025)。
然而,企业环境指标预测具有高维和稀疏数据的特征,这使得提供准确可靠的局部解释成为一个重大挑战。就数据来源而言,与有规范披露要求的标准化财务指标不同,企业环境信息披露仍然不完整且不标准化,难以全面获取定量环境指标数据。即使专业的环境机构也常常因数据不完整而难以进行有效评估(Delmas & Blass, 2010)。此外,不同行业和规模的企业在环境指标的关注点和应用上存在显著差异,这也增加了准确测量企业环境指标的难度(Hourneaux, Hrdlicka, Gomes, Kruglianskas, 2014, Yip, & Yu)。关于企业环境指标的固有特征,很明显,滞后性和累积性特征表征了许多环境影响。指标的固有复杂性以及它们之间的复杂关系进一步增加了解释的难度。在现有的解释方法中,LIME可以在有效的时间范围内依赖较少的计算资源产生简洁的局部解释结果(Antwarg, Miller, Shapira, & Rokach, 2021)。然而,必须指出LIME仍存在多个缺陷。首先,LIME对数据集中的噪声非常敏感(Antwarg, 2021)。在高维稀疏数据的背景下,其采样策略倾向于生成不符合真实分布的样本,导致解释的忠实度和稳定性不足。其次,LIME的线性假设可能导致忽略特征之间的相互作用和复杂关系,特别是变量之间的非线性和非单调关系(Doumard et al., 2023)。由于这些缺陷,该领域的大多数可解释方法仍然是单维和线性的,从而忽略了环境指标之间的非线性和多维相互作用。
为了解决上述挑战,本研究提出了一种基于CTGAN的提升的多维非线性LIME方法(CTGAN-MNLIME),用于企业环境指标预测。该方法的核心思想是将生成对抗网络的分布学习能力与多项式回归的非线性建模优势结合起来,保持高预测精度并扩展解释范围。具体来说,本研究使用CTGAN(条件表格GAN)来学习企业环境数据的真实分布特征,利用条件向量来约束生成与待解释样本相同类别的高质量扰动样本;同时,它采用多项式特征映射构建一个捕捉企业环境指标之间非线性交互关系的局部可解释模型。使用来自三个中国行业(电力、热生产和供应;计算机、通信和电子设备制造;化学原材料和产品)的企业数据,本研究构建了分为四个维度的输入特征——财务和运营、治理、技术创新以及政策和制度环境——并以三个环境指标(CO2排放、能源效率和碳生产力)作为预测目标来评估所提出的方法。
本文的结构如下:第2节系统地回顾了当前关于企业环境指标预测和LIME局部解释方法的相关研究;第3节详细阐述了所提出的CTGAN-MNLIME方法,包括CTGAN采样模型的构建和MNLIME可解释模型的开发过程;第4节通过对中国三个行业(电力、热生产和供应;计算机、通信和其他电子设备制造;化学原材料和化学产品的制造)的企业数据实验验证了该方法,展示了该方法在识别关键特征交互效应和揭示企业异质性方面的应用潜力;第5节总结了研究结果并指出了未来研究的方向。