CL4DEE:一种基于专家混合模型的文档级事件提取持续学习框架

《Expert Systems with Applications》:CL4DEE: A Continual Learning Framework for Document-Level Event Extraction with Mixture-of-Experts

【字体: 时间:2026年02月20日 来源:Expert Systems with Applications 7.5

编辑推荐:

  建筑能源精准预测对可持续发展至关重要,但联邦学习框架中存在新建筑冷启动问题。本文提出变分贝叶斯正则化(VBR)结合联邦期望最大化(FedEM)方法,通过隐式对齐源域与目标域特征分布实现域泛化,有效缓解冷启动问题并提升未知建筑预测性能。

  
作者:袁石、周顺、徐先泽、徐凤秋
武汉大学电子信息学院,中国武汉,430072

摘要

准确预测建筑能耗对于高效能源生产和管理至关重要,有助于实现能源可持续发展。联邦学习(FL)作为一种先进的、保护隐私的机器学习范式,在分布式场景中表现出色,尤其在建筑能耗预测方面取得了成功。现有研究主要关注提升参与训练的客户端模型的性能,而忽略了没有历史数据的新建建筑的有效性。这一问题被称为“冷启动问题”。在本文中,我们将领域泛化(Domain Generalization)纳入FL框架以解决这一问题。然而,现有的领域泛化方法需要跨领域共享数据,这违背了FL的原则。为此,我们提出了一种基于变分贝叶斯正则化(VBR)的表示学习模型,该模型符合隐私保护原则。具体而言,这种正则化项可以隐式地对表示分布进行对齐,从而提高模型对未知建筑的泛化性能。此外,我们提出了一种新的FL算法——联邦期望最大化(FedEM),以加快模型收敛速度并增强其鲁棒性。大量仿真结果表明,VBR-FedEM在多个预测时段内的性能均优于联邦学习和集中式学习方法,平均平方误差(MSE)降低了67.9%,平均绝对百分比误差(MAPE)降低了35.9%,有效解决了冷启动问题,并通过增强的表示对齐展示了强大的泛化能力。

引言

建筑能耗占全球总能耗的40%以上(Shi, Gao, Xu, Xu, & Jiang, 2024)。精确和实时的建筑能耗预测对于制定科学的能源生产和管理方案至关重要(Deb, Zhang, Yang, Lee, & Shah, 2017)。先进的计量基础设施(AMI)已在各种高能耗建筑中得到广泛应用。AMI收集了大量用于能源分析和预测的数据。因此,基于数据的方法,特别是利用神经网络的方法(Agga, Abbou, Labbadi, & Houm, 2021),已成为主流的预测模型。然而,这些方法严重依赖于可用数据的数量和质量。近年来,隐私保护法规的实施(如欧盟的通用数据保护条例(GDPR)(McKenna, Richardson, & Thomson, 2012)对数据利用提出了重大限制,给这些方法的实际应用带来了挑战。
数据加密(El-Latif, Abd-El-Atty, Mazurczyk, Fung, & Venegas-Andraca, 2020)技术可以缓解数据可用性问题,但它们需要在数据效用和隐私保护之间进行权衡(Chen, Li, Cheng, & Liu, 2023)。在建筑能耗预测的分布式多任务场景中,仅依赖数据加密可能不是明智的选择。为了解决这一挑战,联邦学习(FL)(Kone?ny et al., 2017)提供了一种有前景的解决方案。FL可以利用参与客户的本地模型信息来训练强大的模型,同时不侵犯隐私。在(Badr, Mahmoud, Fang, Abdulaal, Aljohani, Alasmary, Ibrahem, 2023b, Fernández, Menci, Lee, Rieger, Fridgen, 2022, Shi, Xu, 2022)的研究中,FL在建筑能耗预测领域展示了其成功。然而,FL在这一领域的应用面临一个主要挑战,即冷启动问题(如图1所示)。这个问题源于新建建筑的数据有限,导致这些建筑的预测性能下降。在FL框架内,这可以被视为少样本或零样本学习场景。具体来说,训练好的全局预测模型无法适应新建筑数据的分布变化。在数据受限的情况下,研究人员通常会采用迁移学习(TL)(Tang, Zhang, & Zhang, 2024; Tang, Xie, Wang, & Bie, 2023a),通过在FL框架中训练一个保护隐私的全局模型,然后对其进行微调以提高数据稀缺建筑的预测性能。然而,对于缺乏历史数据的新建建筑,TL的效果会减弱。因此,使用FL框架中的现有数据训练能够适应未知建筑数据分布变化的模型对于解决冷启动问题非常重要。这一努力需要提高模型的泛化性能,这就是所谓的领域泛化(DG)问题(Wang et al., 2021)。
然而,将现有的DG技术整合到FL框架中并不简单。例如,领域不变表示学习方法(Li, Gong, Tian, Liu, Tao, 2018, Nguyen, Tran, Gal, Baydin, 2021, Sun, Saenko, 2016)通常依赖于集中式训练环境,其中数据或其表示需要在各个领域之间共享。同样,基于元学习的方法(Balaji, Sankaranarayanan, & Chellappa, 2018)也需要访问来自多个源领域的数据,这些数据通常存储在中央服务器上(Nguyen, Torr, & Lim, 2022)。除了违反FL的分布式特性外,这些方法还存在隐私泄露的风险。已有研究尝试在FL环境中应用DG(Liu, Chen, Qin, Dou, & Heng, 2021)。在(Liu, Chen, Qin, Dou, & Heng, 2021)中,一种定制的医学图像分割方法从不同医院数据的共享连续频率空间中学习领域不变性。联邦领域泛化(FedADG)(Zhang, Lei, Shi, Huang, & Chen, 2021)通过对抗学习来提高泛化性能,该方法通过将每个分布与参考分布匹配来测量和对齐各个源领域的分布。尽管这种方法完全防止了隐私泄露,但它过于复杂,其在建筑能耗管理领域的适用性仍需验证。
在本文中,我们提出了一种与模型无关但有效的DG方法,用于FL环境中的建筑能耗预测,以解决冷启动问题。具体来说,我们提出了一种基于变分贝叶斯正则化(VBR)的表示学习方法,通过将生成的表示与参考分布对齐来学习领域不变表示,从而防止表示学习过多的领域特定知识而不泄露数据。需要强调的是,我们的工作是首次在FL环境中应用变分贝叶斯机制来实现DG,尽管这种机制在深度学习中并不罕见。为此,我们证明了VBR可以隐式地调整表示的条件分布,并建立了其与条件互信息的理论联系。这些理论基础确保了VBR的有效性。此外,我们提出了FedEM,这是一种用于FL环境中训练基于VBR的网络的交替优化方法。FedEM将优化过程分为期望步骤(专注于学习表示网络)和最大化步骤(用于优化预测网络),确保优化过程中的单调性并提高模型收敛速度。
我们工作的主要贡献如下:
  • 提出了一种基于VBR的表示学习方法,用于FL框架中的DG,以提高模型对未知建筑的预测性能,从而解决建筑能耗预测的冷启动问题。
  • 我们证明了VBR可以對表示分布进行对齐,并从DG理论的角度解释了VBR的有效性。
  • 我们提出了一种替代的优化算法(FedEM),用于FL环境中学习基于VBR的模型,提高了训练稳定性并加速了模型参数的收敛速度。
  • 在真实世界的建筑能耗数据集上验证了所提出方法(VBR-FedEM)的有效性。仿真结果表明,VBR-FedEM显著提高了对未知建筑的预测性能,有效缓解了冷启动问题。
  • 本文的其余部分组织如下:第2节介绍相关工作,第3节介绍所提出的方法,第4节进行仿真,第5节总结本文。

    章节摘录

    利用联邦学习进行分布式能源预测

    鉴于分布式工作负载的特点以及对隐私和安全的日益关注,近年来FL在能源预测领域受到了更多关注。在(Fernández et al., 2022)的研究中,对大规模住宅负载数据进行的广泛仿真表明,FL在高预测准确性和近乎完全的隐私保护之间取得了显著平衡。在(Venkataramanan, Kaza, & Annaswamy, 2023)中,提出了一种基于FL的方法用于分布式能源资源

    问题定义

    图1展示了FL环境中的建筑能耗预测概览。在这种环境中,每栋建筑都作为一个独立的客户端。建筑内的AMI收集的数据被本地存储,用于训练本地模型。每个客户端利用AMI与中央服务器通信,以下载、更新和上传模型信息。FL训练过程通过迭代执行以下步骤:
  • 1.
    每个客户端从中央服务器获取全局模型。
  • 2.
    选定的

    数据集

    通过在校际和能源研究领域广泛使用的两个数据集(Fernández et al., 2022)进行的仿真评估了VBR-FedEM的有效性。数据集概览见表2。
    Smart London(2022年伦敦家庭智能电表能耗数据)该数据集包含了2011年11月至2014年2月期间伦敦代表性家庭样本的电力消耗记录。

    主要结果

    为了评估VBR和FedEM对模型性能的影响,本研究采用了三种不同的方法来训练预测模型,随后在测试建筑上进行了消融研究。使用的方法包括FedAVG算法(结合贝叶斯正则化和标准联邦平均策略的变体VBR-FedAVG),以及VBR-FedEM。为了证明VBR-FedEM的模型无关性,使用了两种不同的预测模型架构。

    局限性讨论

    VBR-FedEM通过引入贝叶斯正则化项来隐式提高模型泛化能力。这种方法的潜在局限性在于它依赖于领域不变性的假设,这在某些目标领域可能不成立。由于不变特征是从源领域学习的,它们可能无法有效泛化到任意未见的目标领域。然而,这一局限性并非VBR-FedEM所特有,而是普遍存在的。

    未来工作

    实际上,所提出的方法是模型无关的,因此可以应用于其他需要DG的FL研究领域,例如各种分布式能源系统的预测和异常检测。研究人员可以选择适当的预测模型作为VBR-FedEM的骨干。此外,DG是一个快速发展的领域,在联邦建筑能耗预测的背景下仍有很大的研究潜力。

    结论

    本研究提出了VBR-FedEM,这是一种旨在解决建筑能耗预测中冷启动问题的表示学习框架。通过应用VBR,该框架鼓励编码特征近似高斯分布,从而实现领域不变表示学习,而无需客户端间数据共享。理论分析表明,最小化VBR损失等同于减少条件互信息,从而提高泛化能力。

    CRediT作者贡献声明

    袁石:概念化、方法论、软件开发、验证、形式分析、研究、资源管理、数据整理、初稿撰写、审稿与编辑、可视化;周顺:验证、研究、数据整理;徐先泽:资金获取;徐凤秋:撰写、审稿与编辑、监督、项目管理、资金获取

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号