SimGPT：通过Simio与大型语言模型（LLM）的集成，在仿真领域释放生成式AI的潜力

《Computers & Graphics》：SimGPT: Unlocking potentials of generative AI in simulation via Simio and LLM integration

【字体：大中小】 时间：2026年05月11日 来源：Computers & Graphics 2.8

编辑推荐：

　　** Mohammad Dehghani ** **机械与工业工程系，东北大学，波士顿，马萨诸塞州，美国** **摘要** 生成式人工智能（GenAI）通过自动化、优化和分析能力，正在改变决策支持系统，特别是在仿真建模领域。本文介绍了SimGPT框架，该框架将Gen

　　** Mohammad Dehghani **
**机械与工业工程系，东北大学，波士顿，马萨诸塞州，美国**

**摘要**
生成式人工智能（GenAI）通过自动化、优化和分析能力，正在改变决策支持系统，特别是在仿真建模领域。本文介绍了SimGPT框架，该框架将GenAI应用于离散事件仿真的生成、执行和分析阶段。SimGPT将Simio仿真环境与大型语言模型（如ChatGPT和Gemini）集成在一起，使得在仿真模型内实现实时的人工智能驱动决策支持。案例研究展示了该框架的多样性，包括：（1）实时任务调度，其中基于LLM的决策优于传统的启发式方法；（2）提示工程，揭示了有效集成LLM的关键设计因素；（3）LLM模型及其版本的比较分析；（4）急诊室仿真的合成数据生成，包括患者到达、特征和住院时间的预测。这些发现展示了GenAI在增强仿真方法方面的潜力。这项工作开创了GenAI在仿真领域的应用，开辟了新的研究方向。

**1. 引言**
人工智能（AI）已成为技术进步的焦点，而自近年来大型语言模型（LLM）引入以来，生成式人工智能（GenAI）经历了前所未有的增长（García-Pe?alvo & Vázquez-Ingelmo, 2023）。虽然LLM重塑了文本生成和编程，但GenAI生态系统现已扩展到图像生成（MidJourney）、视频创作（Sora）和语音合成（ElevenLabs）等领域，这些平台“改变了做事的方式”。生成式AI的快速发展带来了创新浪潮，新公司、新产品和技术以前所未有的速度涌现（Basole等人，2023）。

由于LLM提供的能力和创新方法，研究人员和实践者越来越倾向于探索将这些模型应用于传统问题解决方法的新途径。尽管关于LLM的认识论问题（LLM是否真正“理解”语言？）、伦理问题（LLM可能如何传播有害的刻板印象和社会偏见？）以及数据隐私问题（LLM是否有效保护用户数据？）仍然存在争议（Burton等人，2024），但这些模型支持决策制定的潜力仍处于起步阶段，尚未得到充分探索。

人们对LLM的兴趣自然延伸到其在仿真建模中的应用，尤其是离散事件仿真（DES），这是分析复杂过程和支持决策制定的关键工具。仿真环境旨在详细表示系统的行为，捕捉线性和非线性交互。作为决策支持系统（Sharda & Vazquez, 2009），仿真模型使用户能够探索复杂场景并评估潜在结果，以确定现实世界系统的理想配置。虽然有大量关于将仿真模型与各种优化系统（Amaran等人，2016；Figueira和Almada-Lobo, 2014）和AI驱动功能（Hussain等人，2024；Krause, 2020）结合的文献，但很少有研究探讨GenAI在仿真环境中的适用性。

将GenAI集成到仿真环境中面临重大技术挑战。与传统可以通过内置功能直接调用的分析工具不同，LLM集成需要开发定制的API连接，而这些在商用仿真软件中并不容易获得。这要求在仿真平台架构和Web服务编程方面具备专业知识，以实现仿真引擎与外部LLM提供者之间的实时通信，包括处理异步API调用、管理认证协议和解析结构化响应。

本研究是首次将LLM直接嵌入DES环境中的尝试，使仿真模型在执行过程中能够动态与生成式AI交互。与之前仅在外部使用LLM生成仿真代码或事后分析结果的方法不同，这项工作将LLM引入仿真逻辑本身，允许在运行中的模型内进行智能决策。通过初步案例研究，为未来在仿真和生成式AI交叉领域的扩展奠定了基础。本研究的主要目的是证明将LLM与仿真平台结合的可行性，而不是声称其优于现有的决策方法。所展示的实验作为概念验证，探索这些技术结合时的可能性。根据这一范围，本文的贡献在于集成机制及其设计原则；实验模型故意保持代表性的规模，而非工业规模，以便将机制的行为与特定应用的干扰因素隔离开来。SimGPT步骤本身的规模不变性意味着，一旦证明该机制在受控模型上可行，其扩展到更大问题将直接源于架构。因此，本文的主要贡献如下：
- 拓展了一个新的AI辅助仿真时代，其中LLM在整个仿真生命周期中作为推理引擎，从设计到执行再到实验；
- 介绍了SimGPT（Simulation Generative Pretrained Transformer）框架，该框架将生成式AI与仿真相结合，用于多种应用；
- 开发了SimGPT API，将仿真与LLM连接起来，实现先进的建模和决策制定；
- 通过案例研究展示了SimGPT的可行性，包括任务调度、数据生成和预测分析。

为了实现这些目标，SimGPT框架涵盖了仿真建模的多个方面，包括模型生成（创建仿真模型）、执行（仿真运行中的决策制定）和分析（理解仿真结果并生成或优化场景）。该框架引入了一种集成方式，将DES环境（Simio）与OpenAI的ChatGPT和Google的Gemini等LLM平台连接起来。如图1所示，这种集成通过实现与LLM的无缝交互，促进了仿真模型内多项任务的提示和响应交换。

本文的其余部分组织如下：第2节回顾了智能仿真模型和GenAI应用的相关文献；第3节介绍了SimGPT框架；第4节详细描述了API的设计和开发；第5节展示了任务调度、数据生成和预测分析的案例研究；第6节总结了讨论和未来研究方向。

**下载：**下载高分辨率图像（107KB）
**下载：**下载全尺寸图像

**图1. SimGPT API架构。**

**2. 文献综述**
仿真模型与AI的集成是一种自然的协同组合。AI模型以数据量大为特点，需要大量的高质量训练数据才能达到可靠的性能，而仿真模型在受控环境中擅长生成干净、标记明确且以过程为导向的数据。这种互补关系为两个领域的发展创造了巨大潜力，使AI能够从仿真场景中学习，而仿真则受益于智能决策能力。本节概述了智能仿真模型的发展历程，从早期与外部计算工具的集成到机器学习和生成式AI应用的最新进展。

**2.1. 智能仿真模型**
随着仿真模型复杂性的增加，研究人员寻求通过将其与外部计算工具结合来扩展其功能。这种集成使仿真环境能够利用专门的算法进行优化、统计分析和高级分析，这些超出了仿真软件的固有能力。
例如，Dehghanimohammadabadi和Keyser（2017）开发的框架将Simio与MATLAB集成，用户可以通过自定义的“CallMATLAB”步骤在仿真环境中部署决策支持系统。这种集成允许在MATLAB中开发的复杂优化算法和分析方法在运行时与仿真模型交互，这在制造和医疗保健应用中得到了验证。
类似的其他集成努力也出现在其他仿真平台上。FlexSim引入了Python连接性，使用户能够在仿真模型中使用Python的广泛库进行机器学习、优化和数据分析（Leon等人，2022）。Leon等人（2022）提供了将FlexSim与Python结合开发离散事件仿真的教程，通过仓库产品分配优化展示了这种方法。最近，Simio 19版本引入了原生Python集成，允许建模者在仿真过程中直接执行Python代码，并访问NumPy、Pandas、TensorFlow和scikit-learn等库进行实时决策制定（Simio LLC, 2025a）。这些发展表明，通过外部工具集成，仿真平台正变得更加可扩展和智能化。

**2.2. 仿真中的人工智能**
在过去几十年中，AI技术在仿真环境中的应用取得了显著进展。从早期的人工神经网络（ANN）元模型到现代的深度学习方法，AI已被用于增强DES模型中的预测、优化和决策制定。
ANN与仿真建模的集成已应用于多个领域，如供应链管理（Badakhshan等人，2024；Sharifnia等人，2021）、医疗保健（Kilmer等人，1997；Mizan和Taghipour，2022）和制造（Hussain等人，2024），以解决与优化、预测和决策支持相关的问题。这些研究利用在仿真输出上训练的ANN作为元模型，近似复杂系统行为，从而加快场景评估并提高不确定性下的优化性能。Simio成为首批内置神经网络支持的DES软件包之一，使用户能够在模型逻辑中运用ANN进行推理并简化训练数据捕获（Dehghani & Carney, 2024）。

**2.3. 仿真中的生成式AI**
生成式AI的出现，尤其是LLM，代表了仿真AI集成的最新前沿。与传统需要大量特定领域数据训练的AI方法不同，LLM能够理解自然语言描述并生成仿真工件，且几乎不需要特定任务的训练。Gao等人（2024）对基于LLM的代理建模和仿真进行了全面调查，分析了在网络、物理、社会和混合领域中的挑战。一个关键见解是，基于LLM的代理可以在没有预定义指令的情况下自主反应和适应仿真环境，在执行过程中形成新的想法和解决方案。

多项研究探索了使用LLM从自然语言描述自动生成仿真模型的方法。Jackson等人（2024）证明GPT-3 Codex可以从口头描述生成功能有效的排队和库存管理系统仿真，标志着自然语言处理在自动化物流仿真建模中的首次应用。更近期，Diamantopoulos等人（2024）探索了用于区块链系统的LLM增强DES，展示了其应用范围超出了传统制造和服务领域。

除了模型生成外，LLM还被集成到仿真代理中，以增强其决策能力。Ghaffarzadegan等人（2024）引入了基于生成代理的模型（GABMs），将人类交互的机械模型与ChatGPM等LLM相结合，以表示社交环境中的决策制定。他们的流行病建模实验表明，生成代理可以根据病例数量的变化模仿现实世界的行为，如隔离病人和自我隔离，共同产生类似大流行波后进入地方性流行期的模式。

这些发展表明，生成式AI可以在多个层面为仿真做出贡献：从自然语言自动化模型创建，提高代理智能，到在执行过程中支持实时适应。

如表1所示，现有研究可以根据两个维度进行分类：仿真类型和集成方法。大多数先前工作采用设计时集成，即LLM帮助代码生成、模型创建或仿真后分析等任务。相比之下，运行时集成将LLM直接嵌入仿真执行循环中，实现实时决策制定。在DES应用中，本研究是第一个实现运行时LLM集成的，将其独特地定位在DES和实时AI驱动决策支持的交叉点。这种方法为智能、适应性强的仿真系统开辟了新的可能性，这些系统在执行过程中可以利用大语言模型（LLM）的推理能力。表1总结了生成式AI在仿真建模中的应用。

| 参考领域 | 仿真类型 | 集成方法 |
| --- | --- | --- |
| DES | 离散事件仿真（DES） | 设计阶段使用LLM/运行阶段使用LLM |
| ABS | 基于代理的仿真（ABS） | 设计阶段使用LLM/运行阶段使用LLM |
| SD | 系统动力学（SD） | 无 |
| DEVS | 离散事件系统规范（DEVS） | 无 |

**研究示例：**
- Gao等人（2024年）：研究涵盖了网络、物理、社会等领域。
- Jackson等人（2024年）：研究物流领域。
- Diamantopoulos等人（2024年）：研究区块链领域。
- Ghaffarzadegan等人（2024年）：研究流行病学领域。
- 本研究：通用研究。

**SimGPT框架：**
LLM是一种在大量互联网数据上训练的语言模型。虽然最初设计用于生成文本，但LLM已经能够捕捉文本的含义并进行推理，为知识密集型任务提供了有希望的替代方案（Burton等人，2024年）。这使得LLM成为多个决策支持领域的革命性工具，例如金融（例如FinGPT，专为金融文本处理而设计（Yang等人，2023年））、制药（例如TwinGPT，用于创建患者的个性化数字孪生体以增强临床试验结果预测（Wang等人，2024年）和医疗保健（例如Med-PaLM，由Google Research开发，用于解决医疗和医学问题（Singhal等人，2023年））。将LLM与仿真环境集成提供了前所未有的机会，以提高仿真建模的有效性和实用性。

**SimGPT框架的作用：**
SimGPT框架将仿真建模与生成式AI的贡献分为三个阶段：
1. **生成**：涉及模型设计和输入准备；
2. **执行**：仿真动态运行，适应不同场景；
3. **分析**：专注于解释输出和支持决策。

该框架还将生成式AI的贡献分为三个层次：
- **基础任务支持**：使基础任务成为可能；
- **效率与适应性提升**：提高效率和适应性；
- **通过自动化和创新改变工作流程**：利用自动化和创新改变工作流程。

这些元素共同构成了将生成式AI集成到仿真工作流程中的结构化方法。

**下载：**
- 下载高分辨率图片（260KB）
- 下载全尺寸图片

**图2. SimGPT框架：将生成式AI集成到仿真建模的不同阶段和贡献层次。**

### 3.1 第1阶段：生成
生成阶段专注于创建仿真模型和基础结构。生成式AI通过自动化传统上需要人工完成的任务来支持这一阶段，例如在视频游戏内容创建（Ray，2024年）和制造设计工具（例如Autodesk Dreamcatcher（Hyunjin，2020年）中的应用。

多项研究强调了生成式AI在仿真建模中的潜力。Obinwanne和Feng（2025年）展示了LLM如何生成Python中的排队模型，而Jackson等人（2024年）提出了一个使用GPT-3 Codex从自然语言描述生成物流系统模型的框架。这些例子突显了生成式AI简化仿真创建的能力，尽管人类专业知识仍然至关重要（Obinwanne & Feng，2025年）。

生成式AI还通过提供模板设计（如串联、并行和U形布局）来帮助进行设施规划（图3）。例如，生成式AI系统可以根据用户输入生成简化的制造车间布局，有助于有效研究系统行为（Hu等人，2025年）。虽然这些模板简化了初始设计，但它们通常需要进一步细化才能应用于实际场景。

在提升效率的层面上，生成式AI用于生成输入数据。输入数据建模是开发仿真模型的关键步骤，但往往受到缺乏实际数据、数据收集困难或准确性问题的限制。对于包含大量对象（如服务器、运输工具、实体）的系统，生成式AI可以生成反映真实世界情况的随机数据，从而替代传统依赖专家意见的方法来估计分布。通过加入随机元素，生成式AI可以为同一请求生成不同的结果，使其成为在仿真环境中复制现实随机性的优秀工具（Mondal等人，2023年）。例如，生成式AI可以估计急诊室患者的到达时间、CNC机床的处理时间或供应链交付的交货时间。此外，尽管LLM通常是针对广泛用例进行训练的，但也可以针对特定需求（如随机数生成）进行微调（第5.8.1节）。第5.8.1节展示了一个使用生成式AI进行输入建模的案例，并讨论了改进过程的提示工程设计策略。

### 3.2 第2阶段：执行
执行阶段是仿真主动运行的阶段，允许实时调整以提高性能和适应性。大量文献强调了使用各种决策工具来使仿真环境更加智能。这些工具包括简单的但有效的交互控件（如按钮），允许用户在模型执行过程中修改变量（例如，更改资源容量或实体到达率（AnyLogic，2024年））。此外，还经常集成优化器等高级功能以优化仿真运行中的决策（Dehghanimohammadabadi & Keyser，2017年）。除了传统方法外，神经网络也被用来提供预测分析，从而增强模型内的决策（Simio LLC，2024年）。

虽然这些技术改进了仿真模型，但也带来了挑战。交互控件是手动的，洞察力有限；优化需要针对具体案例进行定制，并且计算量较大，因为优化器需要制定和解决问题（Dehghanimohammadabadi & Keyser，2017年）。尽管神经网络在训练后非常有效，但需要选择适当的输入变量并对架构和超参数进行迭代微调（Dehghani & Carney，2024年）。一旦训练完成，神经网络可以提供高效可靠的性能（Hussain等人，2024年）。

生成式AI可以以独特的方式运行所有这些决策支持任务。由于生成式AI在仿真环境中的集成仍处于早期阶段，上述许多任务很可能可以由生成式AI以某种方式处理。以下部分将讨论生成式AI在仿真模型执行中的一些潜在用途。

在基础任务支持层面上，生成式AI可以用作仿真过程的监督工具。这可以通过分析仿真模型生成的跟踪日志并提供洞察来实现，例如解释仿真运行中的主要事件或提供关于仿真界面错误的反馈。许多仿真软件包包括动画和检查点分解功能，允许用户逐步跟踪仿真变化。然而，由生成式AI辅助的模型可以提供对这些变化的描述性解释，并分享系统运行方式的见解。这种功能可以根据特定触发器设置，用户可以指定何时显示分析信息。

为了提高生成式AI在仿真运行期间的适用性，它可以支持实时适应。如果实现得当，这可能是一个游戏规则的改变者，因为它可以包含许多传统上使用启发式处理的逻辑。关于在仿真运行中使用启发式的文献很多，生成式AI可以利用这些规则来做出合理的决策。例如，已经开发了多种启发式规则用于并行制造环境中的任务调度（如SPT：最短处理时间、FIFO：先进先出、SSPT：最短设置和处理时间、EDD：最早到期日期、SQL：最短队列长度等）来辅助决策模型。如果设计得当，生成式AI可以结合这些规则并作为启用了AI的调度规则。第5.1节中展示了这种方法的实施方面。

生成式AI的适用性可以超越这一点，达到改变工作流程的层次，充当一个预测模型，类似于神经网络。例如，一个生成式AI系统可以跟踪模型变化并预测机器故障以促进预防性维护。或者，想象一个生成式AI预测模型可以预测供应链系统中的需求增长，并修改供应链配置，或者预测医疗机构中的患者出院情况，以帮助决策者有效地管理门诊诊所和医院入院。

### 3.3 第3阶段：分析
仿真模型的最终目标是提供洞察并使用户能够运行实验，以确定模型在现实应用中的最佳或接近最佳配置。这可以在分析阶段实现，该阶段侧重于仿真后的活动，包括“假设情景”和实验、结果可视化、仪表板创建或模型优化。本节探讨了生成式AI在这一阶段协助的潜在能力。

作为基础任务支持层，生成式AI在从仿真模型中提取洞察方面提供了显著的好处。仿真模型以生成干净、处理过的数据和带有各种统计信息的组织良好的报告而闻名。生成式AI可以通过将它们转化为带有解释和理由的叙述来增强这些报告，为仿真输出增加可解释性。这可以通过文本分析实现，生成式AI提供描述性总结，解释关键结果，例如识别系统瓶颈或建议改进系统时间、队列长度、资源利用和平衡等方面的问题。这使得仿真结果分析更加直观，并关注用户最感兴趣的见解。此外，生成式AI可以利用其推理能力有效解释结果，下一代推理模型（如OpenAI o1）就是一个例子，它可以在高度数据高效的训练过程中提供逻辑思维链（OpenAI，2024年）。这一突破性进展为仿真软件包提供了利用生成式AI功能的重大机会。

在效率提升层面，生成式AI可以作为创建场景的强大工具。运行“假设情景”可以说是仿真模型最关键的用例之一，允许用户通过更改参数（称为控制）来测试不同系统配置对目标函数（称为响应）的影响。情景创建通常是手动的，用户定义一组有限的情景并进行比较以找到最佳选项。更先进的方法使用实验设计（DOE）等技术来开发全面的情景集。现在，想象生成式AI根据用户规格提供各种设置来协助情景生成。此外，由于LLM促进了创新探索（Chen等人，2024年），这可能导致生成超出人类考虑范围的情景。如果有效扩展，这种能力可以达到改变工作流程的层次，生成式AI不仅可以生成情景，还可以根据实验结果迭代地改进它们，逐渐优化情景输入，类似于仿真优化模型中的优化器。

基于强化学习的生成式AI设计使其能够利用试错策略并通过思维链改进其决策过程（OpenAI，2024年）。这种固有的性质可以使仿真情景逐渐进化，随着时间的推移达到理想解决方案。这种机制可能会成为下一代仿真优化工具的基础，超越现有的优化器（如OptQuest）。

这些例子展示了生成式AI的潜力，尽管特定领域的决策可能需要微调LLM或特定的提示工程设计。尽管如此，这些挑战不应阻止我们将生成式AI视为未来仿真软件不可或缺的一部分。

### 4. SimGPT API：设计与开发
为了实现第2节讨论的运行时LLM集成，需要在仿真环境和生成式AI平台之间创建一个自定义接口。本节介绍了SimGPT Step，这是一个新颖的用户定义步骤，它将Simio与OpenAI ChatGPT和Google Gemini等大型语言模型连接起来。与使用LLM进行外部代码生成或事后分析的现有方法不同，SimGPT Step在仿真运行期间操作，从而实现了动态的AI驱动决策。该步骤作为Sora（GitHub）公开发布，任何Simio用户都可以通过将DLL复制到UserExtensions文件夹并获取LLM API密钥来部署它。开发SimGPT API时，使用了DES环境Simio。Simio是用C#编写的，这允许创建软件的定制扩展。SimGPT步骤是使用Simio API库开发的。如图4所示，实现涉及几个技术组件：（1）创建一个继承自Simio基础步骤架构的自定义用户定义步骤类；（2）实现与OpenAI和Google Gemini REST API的HTTP客户端连接，并进行适当的身份验证处理；（3）在Simio的同步过程执行上下文中管理异步API调用；（4）解析JSON响应并提取相关信息；（5）处理异常和超时情况以确保模拟的稳定性。然后将编译后的动态链接库（DLL）作为扩展加载到Simio中，使SimGPT步骤可以与原生Simio步骤一起在过程逻辑工具箱中使用。这种开发方法表明，虽然将大型语言模型（LLM）与模拟平台集成在技术上是可行的，但它需要的编程专业知识超出了典型的模拟建模技能。

如图5所示，SimGPT步骤通过三个主要组件运作：

1. **提示**：相关的模拟上下文、数据和任务特定信息被处理并构建成一个清晰的提示，用于GenAI平台。提示包括确保清晰度和与GenAI平台一致的关鍵组件。上下文概述了决策问题和系统结构，但不包含数值。任务描述定义了目标和方法，以获得精确的结果。模拟数据提供时间、实体或服务器负载等相关细节作为状态变量。最后，结果规范定义了所需的结果和格式，以确保与模拟需求的一致性。
2. **SimGPT API**：提示通过SimGPT API传输给像ChatGPT或Gemini这样的GenAI模型，确保兼容性和安全通信。
3. **响应**：GenAI处理提示并生成响应，然后通过API返回给模拟平台。响应被重新整合到模拟中，实现参数的动态更新和实时决策制定。模块化的SimGPT步骤允许用户自定义提示并选择AI模型，同时能够扩展到具有多个提示和响应的复杂场景。

图A.19展示了SimGPT步骤的完整属性面板。该步骤暴露了六组属性：核心属性（角色、提示、响应、响应格式、模型和类别选项）；API密钥（OpenAI、Google和Anthropic的多提供者凭据）；高级设置（温度、最大令牌数、超时和跟踪日志）；分析（调用历史和记录到SimGPT_Log.csv）；实体上下文（在文本、JSON或CSV中自动插入实体状态变量）；以及模拟上下文（静态和动态系统级别状态，如队列长度、资源利用率和吞吐量）。

为了展示SimGPT的实现方面，进行了一组实验以展示其在模拟与GenAI集成方面的可行性。为了进行这些实验，在Simio中创建了示例模型，以分析此类集成的实际影响并了解这些模型可以处理的决策复杂性水平。如前所述，这些实验的目的是展示可行性，而不是进行比较分析。还努力讨论了提示工程作为这项工作的关键方面，以了解其对结果的影响。所有实验都在Simio离散事件模拟平台内执行。SimGPT框架与Simio集成，使得GenAI提供决策逻辑（例如服务器选择），而Simio处理所有模拟机制，包括实体处理、队列管理、资源分配和性能指标计算。报告的结果（例如系统中时间（TIS）是真实的Simio输出统计数据，确保在不同决策方法（随机 vs. 基于GenAI）之间的比较能够独立于决策逻辑的影响，同时保持相同的模拟执行环境。表B.6.5.1报告了每个实验中使用的所有LLM生成参数。

**实时适应性与GenAI**：如图2所示，实时适应是GenAI在模拟环境中的关键用例之一。考虑图6中所示的模拟环境，其中三个服务器处理到达系统的实体，如订单或作业。实体的到达间隔时间设置为Exponential(1.5)分钟，服务器处理时间设置为Triangular(1, 5, 7)分钟。主要决策是在实体到达时如何将它们分配到服务器。经典解决方案包括启发式方法、优化方法或预测模型。最常见的分配启发式方法包括：

- **最短队列长度（SQL/JSQ）**：将传入的实体分配给队列长度最小的服务器，如公式（1）所示：\(Server^* = \arg_{\text{min}} \in \{1,\ldots,n\} Q_i(t)\)。
- **利用率最低的服务器（LUS）**：将实体分配给利用率最低的服务器，公式（2）表示为：\(Server^* = \arg_{\text{min}} \in \{1,\ldots,n\} U_i(t)\)。
- **轮询（RR）**：以循环顺序将实体分配到服务器，公式（3）表示为：\(Server^* = ((k-1) \mod n) + 1\)，其中 \(Q_i(t)\) 是时间t时的队列长度，\(U_i(t)\) 是时间t时服务器i的利用率，k是实体到达编号，n是服务器总数。

为了实现这一点，定义了一个Simio过程，该过程（Source1_CreatedEntity）（i）通过整合模拟数据、任务描述和所需输出来动态生成提示；（ii）使用SimGPT用户定义的步骤将提示发送给LLM模型；（iii）根据AI生成的响应将实体分配给服务器。当创建实体时，会触发此过程，从而实现建议的服务器分配。图7详细展示了逐步过程，说明了如何使用上下文、模拟数据、任务信息和最终提示详情来构建提示。一旦确定，提示将通过SimGPT步骤发送给LLM模型，其中提示指导确保LLM响应格式化为单个整数（1、2或3），对应于选定的服务器。图8显示了初始模型处理50个实体的结果。图表比较了三种情况下的系统平均时间（以小时为单位）及其对应的95%置信区间：随机（随机服务器选择）、Gemini（gemini-1.5-flash-8b模型）和ChatGPT（gpt-4o-mini模型）。在这三种情况中，ChatGPT显示出最短的系统平均时间，表明其处理效率更高，而随机选择的时间最长。实验重复了n=30次以确保统计可靠性。ChatGPT和随机选择之间的非重叠95%置信区间在0.05显著性水平上显示出统计学上的显著差异，表明基于GenAI的分配提供了有意义的改进。

**提示工程**：提示工程涉及设计和优化对LLM的查询，以获得所需的响应，从而提高模拟建模的生产力和决策质量。为了扩展SimGPT模型的能力，在系统中增加了一个新的复杂性层，其中服务器可能会根据定义的分布函数（表2）发生故障。目标是确定LLM模型是否能够处理更复杂的场景并做出明智的决策。图C.20展示了为生成急诊室（ER）场景中的患者数据和支持模拟任务而设计的三个结构化提示。这些提示之间的主要区别在于它们的复杂性和提供的数据类型。提示1关注基本的服务器利用率、队列长度和资源状态，允许模型基于简单的指标做出决策。提示2引入了可靠性分布，如故障之间的时间和修复时间，以及当前的模拟时间，要求模型考虑动态服务器可靠性。提示3在提示2的基础上增加了预测层，要求模型预测潜在的服务器故障并避免将作业分配给即将发生故障的服务器。这种进展突显了每个提示如何增加模型决策过程的复杂性。

**测试不同LLM模型的性能**：在本节中，SimGPT框架评估了各种LLM的性能。随着LLM领域的发展，领先的人工智能公司如OpenAI和Google继续改进他们的模型，以满足特定需求，如文本生成、翻译、视频创建和音频生成。模型之间的关键区别包括它们的能力、每模型的响应时间（RPM）和延迟，这些都是选择特定任务的LLM时需要考虑的关键因素。开发的SimGPT框架的一个关键特性是能够配置和测试不同的LLM模型。此实验使用提示3对模型进行了测试，该提示要求预测服务器故障并避免将作业分配给可能很快失败的服务器。这项任务突显了决策的复杂性，因为模型不仅必须选择适当的服务器，还必须通过减轻潜在故障来优化整体系统性能。表3中的结果表明，Gemini模型（gemini-1.5-flash-8b）表现最好，实现了最低的系统时间（0.2048小时）。总体而言，双子座（Gemini）模型在这项实验中展示了卓越的性能，因为决策过程需要高级的推理和预测分析来优化结果。这些发现突显了基于推理的机器学习模型（LLMs）在处理复杂决策场景中的潜力，支持了最近关于如何评估LLMs的认知能力和推理能力的研究（Ivanova, 2025）。需要注意的是，这项研究只是尝试将LLMs应用于模拟环境中的复杂决策的初步尝试。虽然分析了数值性能指标，但了解每个决策点背后的“原因”和合理性可以提供对模型思维过程的更深入见解。尽管这种分析超出了本文的范围，但在更复杂的场景中探索LLMs的推理路径可能有助于了解它们在模拟建模中的整合及其在现实世界决策背景下的更广泛适用性。下载：下载高分辨率图像（88KB）下载：下载全尺寸图像表3. 各种LLM模型在“TIS（小时）”任务中的性能指标（n=30）。LLM模型平均最小最大半宽标准差ChatGPTgpt-4-turbo0.32530.23020.43730.12100.0975Geminigemini-1.5-flash-8b0.20480.13910.31360.08650.0697ChatGPTgpt-4o-mini0.34130.25690.44340.09070.0730Geminigemini-1.5-pro0.21350.10370.33440.11320.09125.4. 与现有的启发式和元启发式方法的比较为了严格评估基于LLM的调度决策能力，将ChatGPT（gpt-4o-mini）与两个现有的基线方法进行了比较。第一个是排队系统中常用的三种经典启发式方法（公式（1）–（3）：SQL、LUS和RR。第二个是两种先进的元启发式优化器，粒子群优化（PSO）和NSGA-II，它们调整一个线性加权分数调度策略，根据队列长度、利用率和故障风险对每个服务器进行评分，并将到达的实体分配给评分最高的服务器，如公式（4）所示：（4）Server?=argmaxi∈{1,…,n}si(t),si(t)=wqQi(t)+wuUi(t)+wfFi(t)，其中Fi(t)∈[0,1]是服务器i的预测故障风险，（wq,wu,wf）∈R3是可调的策略权重。PSO和NSGA-II在Simio的相同场景副本上运行，并且在Simio参考实现中进行了验证，然后使用相同的随机数在Simio环境中评估它们找到的最佳权重向量。实验处理了50个实体，共进行了30次重复，使用了Prompt 3（包括服务器故障预测）。图10(a)显示了所有七种方法的平均TIS（小时），范围条表示每次重复的最小和最大值。ChatGPT实现了最低的平均TIS（0.146小时），优于所有基线方法。Gemini紧随其后（0.178小时），而SQL（0.234小时）和循环调度（0.270小时）表现中等。值得注意的是，LUS表现出最高的变异性和最差的平均性能（0.542小时），这可能是因为基于利用率的决策没有考虑队列动态或预测的故障。这两种元启发式优化器收敛到的策略接近SQL（PSO =0.241小时和NSGA-II =0.244小时），但仍比ChatGPT高出约39%，比Gemini高出约26%。即使元启发式方法优化了权重，固定的加权分数策略也无法匹配LLM，后者在每次到达时都会综合考虑队列长度、利用率和故障风险。基于LLM的调度的卓越性能源于其通过自然语言推理同时考虑多个决策因素（队列长度、服务器利用率、处理状态和预测故障）的能力。传统的启发式方法仅针对单一标准进行优化，无法适应可靠性信息。例如，当服务器1接近其平均故障间隔时，ChatGPT可以预先将任务路由到服务器2，而SQL仍然会将其分配给队列最短的服务器1。公式（4）中的元启发式策略确实将故障风险Fi(t)作为输入，但它们在设计时固定了一个权重向量，因此无法根据当前系统状况不同地权衡这三个因素，而LLM在每次到达时都能有效地做到这一点。图10的(b)部分比较了ChatGPT（805毫秒）和Gemini（1666毫秒）之间的平均API响应时间。ChatGPT的响应时间快了51.7%，这在实际应用中具有重要意义。由于每个实体的到达都会触发一次LLM调用，因此响应延迟直接影响了模拟的执行时间。对于高频到达的场景或大规模模型，这种延迟会显著累积。此外，API使用会产生成本（每个提示平均需要1100-3200个令牌，具体取决于模拟数据），而重复实验会大幅增加费用。为了处理速率限制，SimGPT框架实现了重试逻辑。当检测到429（速率限制）错误时，系统会等待可配置的RetryDelay（默认3000毫秒）后才进行重试，并在尝试最多MaxRetries次（默认3次）后终止模拟。这些考虑对于LLM集成模拟的生产部署至关重要。下载：下载高分辨率图像（191KB）下载：下载全尺寸图像图10. 调度方法比较：(a) 各启发式方法、LLM以及PSO和NSGA-II元启发式基线的平均TIS；(b) ChatGPT和Gemini的平均API响应时间。三种互补策略可以减少每次调用的延迟：(1) 基于状态等价的响应缓存，因为呈现给LLM的状态（队列长度、利用率、故障风险）来自一个有限的桶空间，粗略的桶缓存可以达到35%到55%的命中率；(2) 批量调度，大约50毫秒的短收集窗口允许单个LLM调用处理多个同时到达的请求，进一步将实时调用率降低2到3倍；(3) 本地部署开放权重模型，这消除了每个令牌的成本和速率限制问题，并将每次调用的延迟降低到100毫秒以内。结合使用这些策略，可以在零边际API成本的情况下，将每个实体的有效成本从大约800毫秒降低到20毫秒范围。本地部署是工业部署的主要推荐路径，将在未来的工作中进一步讨论。下载：下载高分辨率图像（157KB）下载：下载全尺寸图像5.5. ChatGPT模型版本比较对于部署LLM集成模拟的组织来说，一个实际问题是是否应不断升级到最新模型版本以保持最佳性能。随着LLM提供商发布具有改进功能的更新版本，评估这些升级是否对基于模拟的决策任务带来有意义的性能提升非常重要。这个实验比较了三个ChatGPT模型版本：Model 4.1（gpt-4.1-mini，2025年4月发布）、Model 5.1（gpt-5.1，2025年11月发布）和Model 5.2（gpt-5.2，2025年12月发布）。所有实验都使用了Prompt 3（包括故障预测），并且每种模型重复了n=10次。如图11所示，三个模型版本的性能非常相似，平均TIS值分别为0.240小时、0.240小时和0.245小时。图12中的服务器利用率分解进一步证实了这一一致性：服务器2（无故障）保持大约81%–94%的高处理利用率，而服务器1和3（有故障）在所有模型版本中显示出相似的模式。这些结果表明，对于当前的调度任务复杂性，较新的ChatGPT模型版本并没有提供显著的性能改进。实际上，组织可以放心使用稳定且经过充分测试的模型版本，而不必担心错过最新版本的显著性能提升。然而，对于需要增强能力的更复杂推理任务或场景，较新的模型可能仍然具有值得评估的优势。为了正式确认这一观察结果，对每个版本的重复实验进行了Welch单因素方差分析（ANOVA），每种模型运行n=10次，得到了平均TIS值分别为0.2400小时、0.2395小时和0.2446小时。检验返回FW(2,17.9)=0.012，p=0.988，因此零假设（均值相等）得到了广泛的保留。相应的效应大小基本上为零（η2=0.0008），这表明三个模型版本之间的任何差异在这个调度任务上都没有实际意义。下载：下载高分辨率图像（99KB）下载：下载全尺寸图像下载：下载高分辨率图像（102KB）下载：下载全尺寸图像图11. ChatGPT模型版本比较：平均TIS及其范围条显示最小–最大值。下载：下载高分辨率图像（117KB）下载：下载全尺寸图像图12. 显示每个ChatGPT模型版本中服务器的处理、故障和空闲百分比。5.6. 在不同系统负载下的鲁棒性为了评估基于LLM的调度的鲁棒性和可扩展性，进行了一种完全因子设计的实验（DOE），使用了六种调度方法：ChatGPT（gpt-4.1-mini）、Gemini（gemini-2.5-flash）、SQL、循环调度（Round-Robin）和随机调度，以及三个系统负载水平：高（λ= Exp(1.5)分钟，约96%利用率）、中（λ= Exp(2.5)分钟，约58%）和低（λ= Exp(4.0)分钟，约36%）。这产生了18个场景，每个场景重复了n=10次，总共进行了180次模拟运行。所有场景都使用了Prompt 3和相同的系统配置（三个服务器，Triangular(1,5,7)分钟处理时间，服务器1和3发生故障）。有两个关键发现。首先，LLM在所有负载水平上都一致性地优于所有启发式方法。在高负载下，ChatGPT的平均TIS为0.238小时，而最佳启发式方法的平均TIS为0.356小时，提高了33%。这种优势在中等（提高44%）和低（提高33%）负载下仍然存在，表明LLM的优势不仅限于单一运行条件。其次，三种确定性启发式方法（SQL、LUS和RR）在所有负载水平上产生了几乎相同的结果。这对于具有三个相同服务器的对称系统是预期的，因为基于队列、基于利用率和循环调度的方法会得出相似的路由决策。相比之下，LLM通过同时考虑队列长度、利用率和预测故障的多因素推理实现了差异化。所有18个DOE场景的完整单元平均值、标准差、F统计量和p值都在表D.7中列出。图13显示了所有18个场景的TIS箱形图；F检验确认随机调度（F=2.64）和所有三种启发式方法（F=1.93）的方差显著高于ChatGPT（α=0.05），而Gemini和ChatGPT的表现相当（F=1.45，不显著）。下载：下载高分辨率图像（94KB）下载：下载全尺寸图像下载：下载高分辨率图像（163KB）下载：下载全尺寸图像图13. 不同调度方法和负载水平的TIS箱形图。5.7. LLM调度的温度敏感性在大型语言模型中，温度会重新调整用于抽样的下一个令牌概率分布。在T=0时，模型完全确定（总是概率最高的令牌），而更高的温度会使分布变平并产生更多变异的输出。对于每次模拟运行中调用相同LLM的决策用例，温度控制了LLM在基础模拟随机性之上的随机性贡献程度。为了表征这种效应，本章前面描述的DOE（三个负载水平，服务器1和3启用故障，每个n=10次重复）在四个温度设置T∈{0.0,0.3,0.7,1.0}下重新运行，针对ChatGPT（gpt-4.1-mini）和Gemini（gemini-2.5-flash）。选择这种故障配置是因为它是一个更难的决策问题，LLM必须同时考虑队列长度、利用率和即将发生的故障风险，因此任何温度效应对决策质量的影响都应该最明显。表4报告了结果的平均TIS（以小时为单位），图14可视化了不同负载水平下的敏感性曲线。有两个观察结果。首先，ChatGPT在故障情况下对温度具有鲁棒性。其平均TIS在所有四种温度和所有三种负载条件下变化最多约为4%，并且负载顺序（低< /><高）保持一致。其次，gemini在t=0.3以下保持稳定，但在更高温度下性能下降，其中最大的影响集中在决策最重要的地方。tis在t=0.0到t=0.3之间基本不变，在t=0.7时增加了11%到19%，在t=1.0时仍然升高，尤其是在高负载下下降最为明显。综合这些结果，解释了在主要实验中选择t=0.7的原因（对于chatgpt来说完全在鲁棒范围内，对于gemini来说在低到中等负载下相当），并表明对于未来的工业部署，t=0.0是更可取的，因为它为两种llm提供了最佳或统计上等效的调度性能，同时最小化了有故障情况下的响应方差。下载：下载高分辨率图像（88kb）下载：下载全尺寸图像表4. 在服务器1和3发生故障的doe中，按llm、负载和温度的平均tis（每小时，每个单元n=10）。tchatgptgemini空单元高中低高中低0.00.23550.12680.10140.22720.12310.10720.30.23800.12220.10250.22630.11790.10080.70.23810.12330.10030.26950.13870.11141.00.23810.12400.10160.25380.13870.1051下载：下载高分辨率图像（167kb）下载：下载全尺寸图像图14. 在高、中和低负载下，chatgpt（左）和gemini（右）的平均tis与温度的关系（每个单元n=10）。5.8. 使用simgpt生成和预测输入数据如第3节所讨论的，genai的一个潜在应用是为模拟模型生成数据。在许多情况下，收集真实数据是一个繁琐、耗时且成本高昂的过程。此外，数据的准确性也可能是一个问题。在服务器1和3发生故障的doe中，按llm、负载和温度的平均tis（每小时，每个单元n=10）。tChatGPTGemini空单元高中低高中低0.00.23550.12680.10140.22720.12310.10720.30.23800.12220.10250.22630.11790.10080.70.23810.12330.10030.26950.13870.11141.00.23810.12400.10160.25380.13870.1051下载：下载高分辨率图像（167KB）下载：下载全尺寸图像图14. 在高、中和低负载下，chatgpt（左）和gemini（右）的平均tis与温度的关系（每个单元n=10）。5.8.>数据生成涉及创建新的、合成数据，以模拟现实世界的数据集（Borisov等人，2023年）。GenerAI已被有效地用作生成各种应用程序数据的工具，例如临床试验（Wang等人，2024年）和患者数据模拟（Li等人，2024年）。本节通过一个实验来演示如何利用GenerAI生成数据的能力，以SimGPT为例。为了进行这个实验，考虑了一个简化的急诊科系统，在该系统中，患者以随机模式到达，接受服务，然后离开急诊室（图15）。由于重点是从大语言模型（LLM）中利用数据生成，因此将急诊室的操作简化为一个单一过程。GenerAI在该模型中从多个方面应用，包括生成患者到达时间、服务持续时间以及其他相关数据。这使得模拟更加灵活和高效，同时捕捉到了系统中固有的随机性和变异性。以下三个模型中使用的所有提示都在图E.21–E.23中再现。下载：下载高分辨率图像（46KB）下载：下载全尺寸图像图15. 模拟急诊室模型。5.8.1. 输入数据生成在新模型中，应用SimGPT步骤来协助生成各种用例的数据。下面提供的示例提供了生成不同类型数据的见解，包括患者到达间隔时间和患者属性。I. 患者到达模式：医院的到达模式各不相同，某些工作日和特定时间会出现高峰，而其他时间的患者到达率较低。为了对这种情况进行建模，而不是仅依赖传统的分布函数（例如，随机指数分布），使用SimGPT步骤来估计患者到达急诊室的时间间隔。该模型利用真实世界场景和数据来模拟系统行为和拥堵情况，区分快速和较不频繁的到达间隔时间。这种方法引入了一种在模拟环境中部署分布和生成实体（例如患者）的创新方法。传统方法通常使用基于函数的分布或历史数据。相比之下，GenerAI方法利用LLM来创建更加动态和情境相关的数据。这种基于LLM的数据生成方法相比传统的基于随机抽样的方法有几个优势：•未知的分布参数：当从业者无法获取实时数据时，他们通常会“猜测”参数。LLM可以根据其训练数据中编码的领域知识提供合理的估计。•复杂的相关性：LLM可以生成相关属性（例如患者年龄、严重程度、分诊类别），这些属性可以在不需要显式联合概率规格的情况下保持现实关系。•情境推理：LLM可以结合情境因素（例如“周二上午到达”或“冬季流感季节”），而无需显式的条件概率规格。•快速原型设计：在早期建模阶段，当精确的分布数据不可用时，LLM可以快速探索不同的场景。基于LLM的生成方法补充而不是替代传统方法，从业者应将其生成的数据与其设施的历史模式进行验证，以供实际使用。图16中的热图显示了一周内患者到达的模式，突出了患者流量高和低的时期。生成的数据与典型的急诊室趋势一致，如周二和周三通常会有更高的患者流量。此外，急诊室通常在上午10点到下午6点之间看到患者到达的高峰，这一趋势也反映在生成的数据中。未来的实验可以专注于提示工程，以增强模型的真实性。提供样例数据将进一步展示这种方法的实用价值。II. 患者特征：由于LLM是在庞大的数据集上训练的，因此它们可以从用户人口统计和健康知识中生成见解。在Kim等人（2024年）进行的一项研究中，开发了一个健康LLM，该模型利用情境信息和领域特定的提示生成了用户人口统计和健康知识。生成患者信息是另一个重要应用SimGPT步骤的案例。在患者到达系统（模型的来源 - 图15）的过程中，使用图E.22中显示的提示生成患者特征，如性别、年龄、严重程度、入院时间（小时）、入院时的心率、血压（收缩压/舒张压）、氧饱和度水平（%）和分诊类别。这些特征对于建模真实的患者档案和模拟各种患者护理需求及资源需求至关重要。特别是在数据稀缺的情况下，这种方法可以帮助创建特定领域的信息，使模型更符合现实生活场景。下载：下载高分辨率图像（130KB）下载：下载全尺寸图像图16. 由SimGPT API生成的一周内患者到达模式的热图。图17展示了生成的患者数据的两个方面。子图（a）显示了生成患者的性别分布，而子图（b）则以堆积图的形式展示了血压类别、氧饱和度水平和分诊类别之间的关系。这些图表共同提供了对生成患者属性及其关系的见解，有助于有效模拟复杂的医疗系统。这种数据输入生成技术可以扩展到医疗保健领域之外。例如，同样的方法可以应用于供应链管理中，以模拟库存水平和需求模式；在制造业中，用于模拟机器故障和运营性能；或在制药行业中，用于模拟患者依从性和药物交付时间线。这些示例展示了GenerAI在丰富各种领域模拟模型方面的多功能性和强大能力。下载：下载高分辨率图像（169KB）下载：下载全尺寸图像图17. （a）性别分布，（b）生成的患者类别数据。5.8.2. 预测分析最近的研究强调了LLM在增强预测（Schoenegger等人，2025年）和执行机器学习任务（如预测和分类，Kim等人，2024年）方面的潜力，通过处理复杂模式、提供指导并适应不同的数据结构。在5.2节早些部分讨论了用于预测服务器故障发生以避免将任务分配给故障服务器的提示工程技术。这个实验展示了使用LLM根据人口统计和医学信息预测患者在急诊室的停留时间（LOS）。预测患者停留时间：如5.8.1节所讨论的，患者通过人口统计和医学特征进行特征化。使用训练有素的预测模型，可以利用这些患者特征来预测他们的LOS。为此，在200个假设数据点上训练了一个线性回归模型，其中包含了各种患者细节及其相应的LOS。训练后，将拟合的回归系数（表5）和患者特征值作为提示的一部分提供给LLM，LLM返回每个到达患者的预测LOS。这个预测估计了患者在处理或服务后的出院时间（以分钟为单位）。线性回归模型中使用的特征和系数在表5中总结，并用于预测急诊室中的LOS。图18可视化了按性别分组的预测LOS分布；密度图表明，男性的平均LOS略高于女性。这展示了LLM在支持模拟创建的输入建模方面的另一个应用。虽然传统上使用随机分布函数（例如均匀分布、三角形分布）来定义模拟中的处理时间，但这个示例利用LLM和患者特征来进行预测。值得注意的是，这种预测能力可以在不失去一般性的情况下使用任何机器学习算法实现。选择线性回归是因为其简单性和计算方便；然而，也可以使用其他预测模型，如决策树或神经网络来支持决策制定。表5. 线性回归模型的特征系数。特征系数特征系数性别?14.199入院时间（小时）?1.644年龄4.421入院时的心率3.892严重程度12.020血压（收缩压）4.100血压（舒张压）?7.763氧饱和度水平（%）?3.204分诊类别25.340下载：下载高分辨率图像（130KB）下载：下载全尺寸图像图18. 按性别分组的SimGPT API预测的LOS密度图。尽管这个示例使用了预训练模型，但在模拟模型中应用预测能力可以进一步扩展。未来的发展可能会使LLM能够同时训练机器学习模型并进行预测。虽然这项任务目前可能超出了现有LLM的范围，但模型能力和API功能的进步可能会在模拟平台中的决策制定方面带来革命性的变化，特别是在拥有丰富数据的数字孪生模型中。下载：下载高分辨率图像（90KB）下载：下载全尺寸图像6. 结论本文介绍了SimGPT框架，展示了GenerAI在生成、执行和分析阶段在模拟中的作用。一个新的API使用户能够与LLM进行实时交互，以进行数据生成和预测。案例研究展示了实际应用，并强调了在离散事件模拟（DES）中的变革机会，为将GenerAI整合到传统模拟任务中铺平了道路。除了技术贡献之外，本文还旨在在模拟社区内引发更广泛的讨论：LLM在未来模拟中可以扮演什么角色？这里提供的例子只是一个更大讨论的开始。6.1. 未来的研究方向未来的工作可以解决自动模型创建、场景生成和基于GenerAI的优化问题，为商业模拟工具提供颠覆性的解决方案。从这项工作中出现了几个有前途的研究方向。首先，SimGPT步骤可以改进为自动将所有服务器、实体和系统状态信息汇总到提示中，而不需要手动构建提示。虽然这种方法会因为包含的全面模拟数据而增加令牌成本，但它将显著加速建模过程并降低实现复杂性。其次，将反馈机制纳入LLM的决策制定是一个重要的机会。目前，LLM根据当前系统状态做出决策，而不会收到关于先前决策是否有效的反馈。实施强化式反馈，其中调度决策的结果可以 inform 后续推理，可以显著提高模拟中的决策质量。第三，检索增强生成（RAG）提供了一个有趣改进的途径。RAG使LLM在推理过程中能够访问外部知识库，用检索到的信息补充其参数知识。对于调度场景，向LLM提供历史决策数据及其后果的访问权限可以通过在类似情况下识别模式来提高性能。最后，一个有吸引力的比较将评估基于LLM的调度与先进的优化技术或基于神经网络的方法。最近在AI支持的模拟方面的发展，包括用于实时决策支持的神经网络元模型（Dehghani & Carney，2024年），为这样的比较提供了既定的基准。了解LLM相对于训练有素的机器学习模型的表现将明确它们在模拟决策制定中的适当角色。这些研究方向（自动状态汇总、反馈驱动的学习、检索增强生成和比较基准测试）代表了通往更智能模拟系统的补充路径。随着LLM能力的不断进步和设备AI能够在标准计算硬件上进行本地部署，将GenerAI集成到模拟工作流程中的障碍将继续减少。未来的研究将集中在提示工程、领域特定微调和结合LLM与传统优化方法的混合方法上，进一步释放AI支持的模拟的潜力。除了已经提到的方向之外，这次修订还提出了几个额外的后续研究方向。这里介绍的集成机制是在受控模型上评估的，以隔离决策逻辑的效果，将这些实验扩展到具有数千个并发实体的生产规模制造和医疗模拟模型是一个自然的下一步。在那个规模上，API延迟成为主要的实际问题，需要通过缓存重复状态提示、批量调度同时到达的实体以及本地部署开放权重LLM（如Llama和Mistral系列）来进行缓解。第二个方向是扩大框架测试的基线和分布范围。目前的工作将LLM调度与经典排队启发式方法（SQL、LUS、Round-Robin）以及第5.4节中新添加的元启发式优化器（PSO、NSGA-II）进行了比较；与深度强化学习调度器（例如在模拟器上训练的PPO、DQN）和神经网络元模型（Dehghani & Carney，2024）进行全面对比是一个不同的研究方向，并且是一个重要的进一步步骤。同样，本文中的实验使用了对称的参数族（三角形服务时间、指数到达间隔）来隔离决策逻辑与分布效应，并表征了SimGPT在lognormal服务持续时间、Weibull到达间隔及一天中不同时期的行为。最后，关于LLM本身的两个澄清事项值得明确说明。在 LOS 示例中，大型语言模型（LLM）目前会直接返回数值预测结果，这存在理论上的“算术幻觉”风险（即预测结果与实际情况之间存在显著差异）。更合理的做法是利用 LLM 进行表达选择、参数估计或定性推理，而将确定性的数值评估任务留给 Simio 的原生表达引擎来完成。在数据方面，第 5.8 节中生成的合成患者特征已在定性上进行了验证；下一步重要的是利用 Kolmogorov–Smirnov 检验、Wasserstein 距离以及基于协方差的比较方法，对这些合成特征与真实的 patient 数据集（例如 MIMIC-IV）进行定量保真度验证。

热点排行