通过基于大语言模型（LLM）的多智能体强化学习实现个性化动态照明：从用户意图到光度控制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Personalized Dynamic Lighting via LLM-Empowered Multi-Agent Reinforcement Learning: From User Intent to Photometric Control

【字体：大中小】 时间：2026年02月12日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　智能照明系统通过融合大语言模型（LLM）与多智能体强化学习（MARL），构建三层框架实现用户语义意图与物理控制的精准映射，解决传统方法在动态场景中的适应性不足、模型驱动鲁棒性差及多智能体协作语义鸿沟问题。实验表明其能耗降低22.7%，任务成功率高达98.2%，同时有效控制眩光。

叶涛|段家国|杜永杰|李慧|徐宇|王晓妮

青岛科技大学信息科学与技术学院，中国青岛266061

摘要

在智能家居环境中，实现个性化视觉舒适度与能源效率之间的最佳平衡仍然是智能照明系统面临的重大挑战。传统方法通常依赖于人工干预或静态预设，无法有效处理多目标权衡问题，也无法适应动态的实时场景。为克服这些限制，本文提出了LLM-AMMARL这一新型混合框架，它将大型语言模型（LLMs）与多智能体强化学习（MARL）相结合。该框架通过三个阶段进行运作：（1）偏好提取：挖掘历史照明数据以确定用户特定的舒适区间；（2）语义推理：利用LLMs融合上下文信息，生成自适应控制策略、多目标奖励函数和特定场景的先验；（3）策略优化：将LLM生成的奖励和先验整合到并行MARL训练框架中，以增强高级语义意图与精确控制动作之间的映射。在多种住宅场景的高保真模拟实验中，该框架的表现优于传统算法。LLM-AMMARL在满足舒适度、效率和安全性等多维目标时，任务成功率从91.1%（客厅的困难模式）提高到98.2%（卧室的简单模式）。此外，它还实现了22.7%的能耗降低，同时保持眩光发生率低于2.1%，有效验证了其在协调冲突性能指标方面的有效性。

引言

作为智能家居生态系统的核心，智能照明系统已从基本的开关和调光功能发展为复杂、以用户为中心且能适应不同场景的服务（Sharma等人，2025年）。这些系统的根本目标是通过主动调整照度和色温来满足用户的个性化照明需求，同时优化视觉舒适度、能源效率和眩光安全性。然而，当前解决方案在现实住宅环境中难以满足这些动态需求，主要受到三个关键限制的阻碍：（1）基于规则的个性化缺乏灵活性：传统的基于规则的方法严重依赖静态场景模板。这些固定预设无法捕捉到用户的细致偏好或适应动态变化，从而导致用户体验僵硬单调（Turgunbaev等人，2025年）；（2）模型驱动控制的鲁棒性受损：模型预测控制（MPC）策略依赖于对照明系统和环境的精确物理建模，因此容易受到现实世界不确定性和建模误差的影响，导致实际控制偏差和可靠性降低（Urrutia等人，2025年）；（3）智能体可扩展性和语义整合的瓶颈：传统多智能体强化学习（MARL）在协调多个光源时面临可扩展性和奖励公式化的挑战（Prasad，2025年）。此外，目前缺乏有效的方法来弥合大型语言模型（LLMs）与MARL之间的语义差距，导致高级用户意图与低级物理执行之间的脱节（Li等人，2025b年）。

为了解决这些相互关联的问题，本文提出了LLM-AMMARL框架及其支持技术，旨在实现真正以用户为中心的智能照明。具体贡献如下：

•

提出了一种分层控制框架（LLM-AMMARL），以解决长期存在的“语义差距”和整合障碍。如图1所示，该框架将LLMs的高级语义推理能力与MARL的低级物理约束策略优化相结合，直接解决了抽象用户意图（例如“阅读时避免眩光”）与智能照明中的低级光度执行之间的不匹配问题。与仅将LLMs用作奖励生成器或提示解析器的现有LLM-RL集成方法不同，该框架创新性地采用了结构化提示（CoT推理）和KL散度正则化，将LLM生成的策略转化为符合物理要求的控制动作。这种设计确保了模糊的用户意图能够系统地转化为可执行的、安全的照明调整，填补了当前智能照明系统中语义意图与物理执行之间的关键空白。

•

建立了一种基于高保真模拟的系统评估方法，以解决缺乏严格现实世界可靠性验证的问题。为了克服现有单一场景验证方案的局限性（这些方案无法反映现实世界的复杂性），我们构建了能够准确复制真实住宅布局、符合CIE 175-2005和CIE 121-1994标准的照明特性以及多样化用户活动的模拟室内环境。通过多智能体协调测试、动态扰动实验和跨环境拓扑验证，从四个核心维度（任务成功率、能源效率、眩光安全性、泛化能力）评估性能。这种方法为实际应用提供了全面的可靠性保障，解决了智能照明研究中“仿真与现实不匹配”的关键问题。

•

引入了一种数据驱动的偏好预测机制，以克服传统个性化控制的刚性

。该机制结合了DBSCAN密度聚类（使用融合照度、色温和时间的复合距离度量）和基于指数衰减的动态加权机制，通过挖掘历史交互数据来准确捕捉用户的多模态和时变光度偏好（照度/色温）。它直接解决了传统基于规则的系统和静态数据驱动方法（如滑动窗口、通用KDE）无法适应用户动态偏好变化或特定场景需求的难题。通过根据用户近期行为动态更新偏好区间，该机制克服了传统方法的固有刚性，为真正以用户为中心的自适应控制奠定了坚实基础。

章节摘录

传统智能照明控制

作为智能生活环境的感知和执行核心，智能照明系统的控制策略经历了从静态环境调节向动态、以用户为中心的个性化服务的转变（Aliparast，2024年；Chew, Karunatilaka, Tan, & Kalavally，2017年）。它们的核心目标是在包含视觉舒适度、个人偏好满足度和能源效率的多维目标空间内寻找动态最优解。

方法

如图2所示，所提出的智能照明控制框架由三个核心组件构成，它们协同工作以确保系统性能最佳。工作流程分为三个阶段：首先，系统通过应用DBSCAN聚类算法（Schubert, Sander, Ester, Kriegel, & Xu，2017年）分析历史照明和色温数据，从而准确识别用户的个性化照明偏好

结果与讨论

本章重点验证了基于LLM辅助的MARL智能照明控制系统的性能。通过多维实验和定量分析，评估了该方法的有效性、各组件的必要性及其适用性。首先明确了环境设置（包括场景、照明参数、用户偏好和多维评估指标），以建立基准。随后，基准比较表明

结论

本文提出了LLM-AMMARL，这是一种分层控制框架，旨在解决智能照明系统中高级人类语义意图与低级物理执行之间的关键不匹配问题。通过将LLMs与受限MARL相结合，我们成功地将建筑自动化从基于规则的刚性执行方式转变为直观的、以意图为导向的模式。本工作的理论创新在于其架构分解

CRediT作者贡献声明

叶涛：概念化、方法论、软件开发、初稿撰写、审稿与编辑、研究。段家国：初稿撰写、审稿与编辑、监督、项目管理。杜永杰：形式分析、数据管理、审稿与编辑、验证、资源协调。李慧：资金筹集、可视化。徐宇：资源协调、研究、监督。王晓妮：验证、审稿与编辑、监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

传统智能照明控制

方法

结果与讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行