用于大规模非线性建模的分布式复合期望回归神经网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Distributed composite expectile regression neural network for large-scale nonlinear modeling

【字体：大中小】 时间：2026年05月04日 来源：Neurocomputing 6.5

编辑推荐：

　　俊进|英晨|马铁峰|刘双哲中国扬州大学数学学院，扬州225002 **摘要** 本文提出了复合期望回归神经网络（CERNN），这是一种基于前馈神经网络的统一非线性回归框架，能够同时估计多个期望水平下的响应。通过联合优化多个期望水平上的非对称平方损失函数，CERNN

　　俊进|英晨|马铁峰|刘双哲
中国扬州大学数学学院，扬州225002

**摘要**
本文提出了复合期望回归神经网络（CERNN），这是一种基于前馈神经网络的统一非线性回归框架，能够同时估计多个期望水平下的响应。通过联合优化多个期望水平上的非对称平方损失函数，CERNN能够更全面地描述响应的条件分布，捕捉中心趋势、非对称行为和尾部相关风险。与传统期望回归神经网络（ERNN）相比，CERNN框架具有更高的建模灵活性，并结合了基于贝叶斯信息准则（BIC）的模型选择机制，以控制模型复杂性并提升估计的稳定性和泛化能力。为了解决大规模数据集和分布式存储带来的计算挑战，我们进一步开发了分布式扩展版本——分布式复合期望回归神经网络（DCERNN）。DCERNN利用主从架构和多轮梯度通信，实现了跨计算节点的可扩展并行训练，同时保持了与集中式CERNN几乎相同的统计精度。广泛的蒙特卡洛实验表明，CERNN在预测准确性和鲁棒性方面优于ERNN和传统的平方损失人工神经网络（ANN），尤其是在存在复杂非线性结构和重尾误差分布的情况下。实际应用到BostonHousing和CaliforniaHousing数据集的结果进一步证实了这些框架在非线性回归和基于风险的房价建模中的有效性和实用性。

**引言**
近年来，在数据呈现异质性、非对称性或重尾误差分布的应用场景中（如金融、经济和环境科学领域），普通最小二乘（OLS）回归的局限性日益明显。由于OLS仅针对近似对称和轻尾误差分布进行优化，因此对异常值非常敏感，当这些条件被违反时可能导致有偏或统计效率低下的估计结果。这些挑战凸显了需要既对分布偏差具有更强鲁棒性，又能灵活捕捉复杂数据结构的回归框架的必要性。Koenker和Bassett提出的分位数回归（QR）是一种著名的替代方法，它通过建模不同的分位数水平而非仅关注均值，提供了更详细的条件分布视图。Aigner等人基于类似思想引入了期望值的概念，期望值是基于非对称平方损失而非绝对损失的非对称最小二乘问题的解。后续研究（包括Efron [3]、Jones [4]、Yao和Tong [5]以及Taylor [6]）阐明了在适当条件下分位数与期望值之间的一一对应关系，从而将Newey和Powell提出的期望回归（ER）模型视为QR的自然补充。与QR不同，ER基于对回归参数平滑且可微的损失函数，便于高效估计和优化。此外，ER在处理分布非对称性和极端结果方面比均值回归更为有效，因此在金融风险管理和环境监测等领域特别有价值。

然而，传统的参数化期望回归模型通常依赖于线性或低阶规格，在处理高度非线性关系时灵活性有限。为了解决这一问题，更广泛的回归文献中发展出了多种非参数方法。Nadaraya和Watson独立提出的核回归提供了一种无需预先确定函数形式的灵活非参数估计器；Wahba等人开发的基于样条的方法通过惩罚样条表示实现平滑函数估计；Rasmussen和Williams形式化的高斯过程回归提供了能够捕捉复杂平滑非线性结构的完全概率框架。然而，它们对维度灾难（curse of dimensionality）敏感，Stone的研究表明随着协变量维度的增加，非参数估计器的收敛速度会急剧下降。此外，非参数模型通常缺乏可解释性，因为它们不提供明确的参数形式，这在需要理解变量间结构关系与实现高预测精度同样重要的应用中可能是个问题。

为了解决这些限制，近年来出现了两个主要的非线性和分布鲁棒期望回归研究方向。第一种是将期望回归扩展到非线性框架中，通过引入灵活的半参数和非参数函数逼近器（如样条、核和加性结构）。例如，Sobotka和Kneib开发了广义加性期望模型，通过平滑函数捕捉非线性协变量效应；Schnabel和Eilers引入了带惩罚的基于样条的期望回归；Waltrup等人在GAMLSS框架内进一步推广了期望回归，支持复杂的非线性依赖性和异方差结构。第二种研究将期望回归的鲁棒性与神经网络的表示能力结合起来。神经网络经过多代架构和训练范式的演变，提供了高度灵活的非线性函数逼近器，能够捕捉复杂的分布模式。Gomes和Ludermir的案例展示了神经网络在处理非对称损失结构和非对称激活函数回归问题上的成功应用。这些结果突显了神经架构在基于期望值的建模中的适用性。在此基础上，多项研究开发了期望回归神经网络（ERNN）。Jiang等人提出了最早的ERNN框架之一，使用非对称平方损失来建模给定水平的条件期望值；Yin和Zou通过正则化技术改进了ERNN的估计能力，提高了高维环境下的鲁棒性和泛化能力。Zhang和Lin等人的最新工作扩展了ERNN架构，以适应复杂的非线性结构和分布异质性。通过训练神经网络来逼近条件期望值，基于ERNN的方法为需要精细风险评估、详细分布特征描述和高预测准确性的应用提供了灵活强大的建模工具。

与这些基于期望值的发展并行，分布回归神经网络领域也取得了显著进展，特别是在分位数回归框架内。最近的研究提出了针对截断分位数回归神经网络（QRNN）的数据增强技术，例如Hao等人的截断QRNN模型及其复合版本，使得在截断和复杂分布形状下能够进行稳健估计。进一步的扩展包括单调复合QRNN估计和Cannon总结的实际QRNN建模指南。尽管这些研究侧重于基于分位数的学习而非期望值，但它们共同反映了将分布回归目标与神经网络架构结合的广泛趋势。随着对数据更细致洞察的需求增长，也需要能够在统一框架内捕捉多个期望水平的模型。例如Wang等人在分位数回归文献中系统研究的复合估计策略表明，联合估计多个分布水平可以显著提高统计效率并缓解分位数交叉问题。Xu等人展示了复合分位数回归神经网络（CQRNN）可以通过神经架构同时有效学习多个分位数。除了基于分位数的复合方法外，复合期望回归也被探索为同时捕捉多个分布水平的有效替代方案。Yu等人开发了用于部分函数线性回归的复合期望估计框架，并证明结合多个期望水平可以获得比单一期望值方法更稳定和高效的估计结果。受这些发展的启发，我们提出了复合期望回归神经网络（CERNN），它在单个神经架构内同时建模多个期望水平。通过在一个神经网络中集成多个非对称损失函数，CERNN提供了对中心、中等和极端区域条件分布的丰富连贯描述。这种多级框架不仅提高了预测准确性，还增强了可解释性，因为它揭示了在单一期望值建模中无法看到的结构模式和风险行为。为了提高CERNN的稳定性和鲁棒性，我们首先引入了正则化技术来控制联合估计多个期望水平时的模型复杂性。正则化通过限制网络参数的幅度来防止过拟合，从而在高维非线性环境中增强CERNN的可靠性。在此基础上，我们使用贝叶斯信息准则（BIC）以数据驱动的方式确定隐藏单元的最佳数量和适当的正则化强度。BIC在模型拟合和复杂性之间提供了原则性的平衡，通过惩罚过度参数并指导选择简洁而表达力强的网络架构。通过将基于BIC的超参数选择与网格搜索策略相结合，CERNN在保持计算效率的同时实现了强大的预测准确性。

除了非线性结构和非对称分布带来的建模挑战外，数据规模的快速增长也给神经网络训练带来了新的限制。随着数据集的不断扩大，单机学习框架在计算和内存方面面临越来越大的约束，特别是对于那些参数优化依赖于迭代梯度更新的神经网络模型。这些挑战推动了分布式学习作为可扩展模型估计重要范式的开发。分布式统计估计方法大致可分为两类：一次性通信和多轮梯度通信方法。一次性通信方法只需要在各个工作节点之间进行一次聚合。在这种框架中，每个工作节点根据自己的数据子集计算局部估计器，然后由中央主节点聚合这些估计器形成全局解。代表性的例子包括Lee等人提出的通信效率高的稀疏回归方法，以及Zhang等人分析的分布式M-估计策略，证明在独立同分布（i.i.d.）数据分割下平均局部M-估计器可以实现统计最优收敛。此外，Zhu等人开发了一种基于最小二乘的一次性近似方法，为分布式回归提供了强有力的理论保证。Wang等人开发了一种适用于大规模数据集的鲁棒分布式模态回归框架，证明一次性聚合可以在某些非参数问题上实现统计效率。关于这种方法的相关结果，可参考Battey等人、Fan等人、Chen和Zhou等人、Chen和Xie等人以及Zhang、Duchi和Wainwright等人的研究。这些方法提供了强有力的理论保证和极低的通信成本，使其在凸问题和基本上非迭代估计中非常有效。然而，一次性方法在应用于深度神经网络时存在根本性局限，因为深度神经网络的优化依赖于迭代、随机和非凸的梯度更新。单次通信无法充分捕捉不断演变的优化轨迹，可能导致训练不稳定或预测性能下降。因此，现代大规模神经网络训练主要依赖于多轮梯度通信策略。在这种框架中，工作节点在每次迭代或几次局部步骤后与全局主节点同步计算局部梯度。McMahan等人提出的联邦平均算法以及Li等人提出的分布式扩展，展示了这类方法的有效性和分布式深度学习中的稳定收敛性。最近在联邦学习方面的进展进一步丰富了这一研究方向。特别是Dai等人提出的联邦随机配置网络，为分布式数据分析提供了高效的多轮通信框架，使得神经网络能够在分散的客户端之间协作训练，同时保持通信效率和统计鲁棒性。这些发展强调了迭代通信策略在可扩展分布式神经网络估计中的有效性。受这些考虑的启发，本研究通过多轮梯度通信框架将CERNN扩展到分布式环境，形成了分布式复合期望回归神经网络（DCERNN）。这种设计使CERNN能够高效扩展到大规模数据集，同时保持其预测准确性和建模灵活性。通过将梯度计算并行化到多个工作者上，并迭代地同步参数，DCERNN 实现了加速训练，同时最大限度地保持了准确性，使其非常适合处理涉及大量数据的非线性期望回归任务。总之，本研究的主要贡献有三个方面。首先，我们提出了 CERNN，它通过在一个统一的神经架构中联合建模多个期望水平，将期望回归扩展到了一个灵活的非线性环境中。该模型结合了正则化和基于 BIC 的超参数选择策略，在灵活性、鲁棒性和计算效率之间实现了原则性的平衡。其次，我们通过广泛的蒙特卡洛实验和实际数据应用，为 CERNN 建立了一个全面的评估框架。结果表明，CERNN 在各种非线性和异方差场景下提供了准确、稳定且具有分布信息的预测，性能优于现有的 ERNN 和传统神经网络模型。第三，我们通过开发基于多轮梯度通信策略的 DCERNN，将 CERNN 扩展到了大规模学习环境中。这种分布式架构显著加快了训练速度，同时保持了估计精度，使 CERNN 适用于现代的大规模数据集和可扩展的机器学习流程。据我们所知，这是首次系统地将复合期望回归与现代分布式神经网络训练结合起来，用于大规模非线性建模的工作。

本文的其余部分结构如下：第 2 节回顾了 ER 和 ERNN 的相关文献，并将 CERNN 放置在更广泛的先进回归技术框架中。第 3 节详细介绍了 CERNN 模型的架构和估计过程，阐述了如何在统一的神经网络框架中整合多个期望水平。第 4 节介绍了分布式学习策略，并详细阐述了 DCERNN 中使用的多轮梯度通信机制。第 5 节报告了数值实验的结果，包括在各种模拟设置下 CERNN、ERNN、ANN 和 DCERNN 之间的比较。第 6 节展示了使用真实世界数据集的实证应用。最后，第 7 节总结了本文并讨论了未来研究的潜在方向。

**期望回归及其神经网络扩展**

在开发复合期望回归神经网络（CERNN）时，首先理解期望回归及其如何集成到神经网络模型中是至关重要的。本节提供了期望回归的概述，并介绍了期望回归神经网络（ERNN），它是 CERNN 的理论基础。

**复合期望回归神经网络**

复合期望回归神经网络（CERNN）通过在一个单一的神经架构中联合学习多个期望水平，扩展了传统的均值回归和单期望回归模型（包括标准的 ER 和 ERNN），从而增强了建模的灵活性。期望回归作为分位数回归的自然补充，有助于估计各种期望水平，从而提供了对条件分布中不对称效应的洞察。

**分布式复合期望回归神经网络**

虽然 CERNN 模型为同时估计多个期望水平提供了一个灵活且强大的框架，但其计算和内存成本会随着数据集的大小和期望水平的数量而迅速增加。由于现代应用越来越多地涉及大规模数据，单机器训练由于内存容量和计算吞吐量的限制而变得效率低下。为了克服这些挑战，本节将 CERNN 扩展到了数据并行处理环境中。

**模拟研究**

本节通过模拟研究来评估所提出的 CERNN 及其分布式扩展 DCERNN 的性能。这些实验旨在评估模型在不同配置和计算框架下的鲁棒性、预测准确性和可扩展性。我们首先研究了在不同期望水平数量下的 CERNN 模型表现，并将其与两个参考模型（ANN 和单水平 ERNN）进行了基准测试。

**CERNN 和 DCERNN 的实际数据应用**

在本节中，我们将提出的 CERNN 应用于两个真实世界的回归数据集，并进一步评估了其在大规模 CaliforniaHousing 数据上的分布式变体 DCERNN。这些实验旨在进一步展示 CERNN 的实际适用性和预测性能，以及 DCERNN 在实际数据场景中的计算优势。

**结论**

本研究介绍了 CERNN，这是一个将神经网络与复合期望回归思想相结合的新框架，能够实现条件分布的鲁棒和灵活建模。通过联合估计多个期望水平，CERNN 提供了对响应变量条件分布的更丰富的近似，而不仅仅是关注条件均值。这种多期望表示增强了模型处理异方差性的能力。

**作者贡献声明**

金俊：撰写——原始草稿、方法论；陈颖：撰写——原始草稿、软件；马铁峰：撰写——审阅与编辑、验证、概念化；刘双哲：撰写——审阅与编辑、监督、概念化。

**利益冲突声明**

作者声明他们没有已知的竞争性财务利益或个人关系，这些利益或关系可能会影响本文报告的工作。

**致谢**

本研究得到了中国国家自然科学基金（项目编号 12401380 和 12501357）、中国博士后研究基金会（项目编号 2024M752706）、江苏省基础研究计划（项目编号 BK20250904）、江苏省高等教育机构自然科学研究（项目编号 24KJB110030）以及江苏省高校哲学与社会科学研究一般项目（项目编号 2024SJYB1531）的资助。金俊于 2022 年在中国成都西南财经大学统计与数据科学学院获得统计学博士学位，目前担任中国扬州大学数学学院的助理教授。他的研究兴趣包括统计学习、半参数建模和大规模数据分析。

联系信箱：

粤ICP备09063491号

热点排行