当前全球正在发生的数据革命推动了数据分析新方法的进步。这得益于新型数据集的广泛可用性,以及学术界和工业界对创新机器学习和深度学习算法发展的兴趣。
大量收集的语言数据促进了大型语言模型(LLMs)的发展。这些方法在生活的几乎所有方面找到了无数应用场景,彻底改变了计算行业。LLMs是基于Transformer的神经网络,它们在2017年引入的注意力机制中发挥了重要作用[1]。第一个广泛使用的LLM是Google的BERT[2],一年后发布并在许多自然语言处理任务中得到应用。然而,真正的变革始于2022年,当时OpenAI发布了ChatGPT。
尽管LLMs有很多积极方面,但必须谨慎使用。当模型在某个领域缺乏知识时,它们往往会编造内容,这种现象称为“幻觉”[3]。另一个不应轻视LLM答案的原因是,它们可能会传播刻板印象、分享不道德的内容或表现出种族偏见[4]——这些都是在现代LLMs中嵌入的广泛输出过滤的理由。
大型语言模型的应用包括高级聊天机器人、内容创作、代码编写、摘要生成等[5]。对LLMs的关注程度是前所未有的。公司、研究人员甚至政府都在积极开发自己的大型语言模型。
不断增长的数据量和新的算法为开发新的元启发式算法(MHAs)提供了绝佳的舞台。许多领域的优化仍然是一个未解决的问题,因为寻找更快、计算成本更低的方法始终是科学家的研究热点。因此,元启发式算法的数量仍在增加,很难跟上所有新发展的步伐。最近的启发式优化器分类包含了超过500种不同的方法[6][7]。
每种元启发式算法都有其独特的参数值、推荐的应用场景和额外信息,这些信息定义了该算法的特点。因此,掌握和记住所有关于MHAs的细节变得非常繁琐。需要一个能够提供算法选择建议的指南,尤其是适合特定问题的参数设置,这将是一个重大突破,可以降低元启发式算法的入门难度。
这种指南的需求为大型语言模型的发展提供了机会。它们理解自然语言和代码的能力可以用于指导启发式优化器的调整。这种可能性可以比默认设置带来更大的优势,并将计算方向引向更理想的方向。
本文的研究是对[8]的扩展,通过分析更多问题及其实例来深化研究。所采用的方法论相同,但涉及三个组合问题的多个实例,并使用了扩展的大型语言模型列表和经典的参数搜索技术(包括随机搜索和网格搜索)。上述方法使用LLMs在对该问题领域知之甚少的情况下选择优化任务的参数值。在用建议的设置解决问题后,再次要求LLMs根据初始结果调整参数。然后收集并分析基于反馈的轮次的性能。此外,本研究还评估了计算成本,并寻找计算费用与所获得结果质量之间的相关性。这项工作有两个贡献:首先,通过彻底的实验验证了当前最先进的大型语言模型是否可以在组合优化的背景下调整元启发式算法的参数;其次,围绕提示工程进行了有效调整。此外,这项工作还突出了LLMs的新应用。
为了评估LLM引导的参数调整的有效性,本研究重点关注三个经典的组合优化问题:图着色(GCP)、作业车间调度(JSSP)和旅行商问题(TSP)。这些问题在文献中已有广泛研究,以其计算复杂性和实际应用的相关性而闻名。它们在结构和解空间上的多样性使其成为评估LLMs在不同优化场景下泛化能力的理想测试平台。
除了实验评估外,该工作还专注于开发命令工程技术,以实现LLMs在启发式优化中的有效使用。这包括创建详细的、配置好的查询,帮助语言模型生成有用的输出。
元启发式算法复杂性的不断增加使得参数调整成为一项关键但成本高昂的任务。传统的网格搜索、随机搜索或贝叶斯搜索等方法计算密集且特定于问题。相比之下,大型语言模型凭借其推理和语言理解能力,为分析算法描述和提出合适的参数配置提供了新的范式。尽管潜力巨大,但LLMs在启发式优化中的使用仍然很大程度上未被探索。
本文的结构如下:首先简要介绍和动机,第2节解释了理解研究中进行的实验所需的概念。第3节介绍了LLMs和元启发式算法(MHAs)交叉领域的相关工作。第4节详细描述了本研究采用的方法论。第5节提供了运行计算的实用细节。第6节包含了结果及其分析。最后,第7节提出了结论和进一步改进的可能性。