利用大型语言模型(LLMs)生成特定领域的SQL语句:一个结合知识图谱和检索增强技术的混合框架

【字体: 时间:2026年03月10日 来源:International Journal of Production Economics 10

编辑推荐:

  文本到SQL转换的混合框架在市政排水资产管理中的应用研究。摘要:针对非SQL专家依赖IT支持导致决策延迟的问题,提出整合知识图谱和检索增强生成(RAG)的schema-guided RAG框架,通过结构化 schema 知识与语境检索结合提升复杂SQL生成准确率,实验显示在多表连接和嵌套逻辑场景下效果显著。

  
Ifeoluwa Awotunde|Dharmendra Reddy Chitte|Yongwei Shan|Weihua Sheng|Hossein Khaleghian
俄克拉荷马州立大学土木与环境工程学院,Stillwater,74078,OK,美国

摘要

没有SQL专业知识的市政污水资产管理人员通常依赖额外的IT支持来从组织数据库中检索所需信息,这阻碍了及时决策。本研究提出了一种基于模式的RAG(Retrieval-Augmented Generation)框架,这是一种混合型的文本到SQL的框架,它结合了结构化知识图谱(KGs)来进行显式的连接路径和关系推理,并利用检索增强生成(RAG)技术进行上下文关联。该框架专为特定领域和多关系数据库设计,使大型语言模型(LLMs)能够在处理复杂关系结构的同时,通过语义检索缓解数据稀缺问题。通过使用专有和开源的LLMs对该框架进行了评估,并将其应用于污水资产管理领域。结果显示,在执行准确性、逻辑形式准确性和精确匹配方面都有显著提升,尤其是在需要多表连接和嵌套逻辑的查询中效果更为明显。基于模式的RAG为自然语言查询提供了一种可解释的方法,支持高效、准确且可解释的基础设施数据访问。

引言

美国的废水基础设施状况十分严峻,许多系统的运行寿命已经超过预期。美国土木工程师协会(ASCE)在其2025年的报告中将全国废水基础设施评为D+等级,指出了诸如管道老化、容量不足以及频繁发生的污水溢出(SSOs)等问题[1]。环境保护署(EPA)估计每年会发生23,000至75,000起污水溢出事件,对公共健康和环境构成重大风险[2]。这些挑战凸显了数据驱动的资产管理方法的重要性,这种方法能够实现监控、明智的决策、优化维护并延长资产使用寿命。
市政部门越来越多地采用闭路电视(CCTV)、声纳和污水管线快速评估工具(SL-RAT)等技术来收集设施状况数据,同时维护地理信息系统(GIS)和工作订单记录。然而,随着数据量和复杂性的增加,提取可操作的信息变得更加困难,特别是对于没有结构化查询语言(SQL)或数据库管理经验的决策者而言。生成正确的查询通常需要连接多个表并导航复杂的关系结构,这迫切需要开发出能够让非SQL专家直接访问和分析数据库信息的工具。本研究提出的基于模式的RAG框架正是为解决这一问题而设计的。
这些挑战,尤其是对复杂多表连接的需求,凸显了为专业领域自动生成SQL的复杂性。此类环境下的查询常常涉及多个表、许多专业术语、相似的实体名称以及实体之间的语义关系。Vaswani等人开发的基于Transformer的大型语言模型(LLMs)为文本理解和生成提供了强大工具,为普及关系数据库的访问提供了有希望的解决方案。然而,现成的LLMs在处理特定领域的SQL生成时往往遇到困难,尤其是在具有复杂多表架构的情况下。这些挑战源于它们对关系模式语义(如外键、连接路径和层次关系)缺乏深入理解。
尽管经过微调的模型可以部分解决这些问题,但许多市政系统在资源受限的环境中运行,其中标记数据稀缺且技术专长有限。此外,当前的LLM方法通常仅依赖文本上下文,无法访问结构化模式表示或先前的查询示例来辅助复杂推理。因此,需要一个既支持模式级理解又能检索上下文知识的框架,以提高领域专业人员的准确性、可解释性和可用性。
为了解决从复杂多关系数据库生成SQL查询的挑战,我们提出了一种基于模式的RAG框架,该框架将结构化知识与RAG相结合来指导LLMs。与现有的结合RAG和知识图谱的方法不同,基于模式的RAG通过知识图谱显式地进行模式级推理,并结合相关查询示例的上下文检索来改进多表SQL的生成。本文的主要贡献如下:
  • 1.
    我们设计了一种基于模式的RAG框架,系统地将知识图谱中的模式知识与检索增强的上下文相结合,以提高SQL生成的准确性。
  • 2.
    我们开发了一个污水资产管理知识图谱,其中编码了实体类型、外键和连接路径等模式级语义,以支持可解释的SQL生成。
  • 3.
    我们证明了基于模式的RAG在多种LLMs上的通用性,在资源受限的环境中通过结合结构化知识和上下文检索显著提升了语义解析性能。
本文的其余部分结构如下:第2节回顾了文本到SQL生成和知识增强语言模型的相关工作。第3节描述了基于模式的RAG框架,包括LLM微调、知识图谱构建、检索机制和提示策略。第4节介绍了实验设置和评估结果。第5节讨论了研究结果、局限性及未来工作的机会。最后,第6节总结了本文。

章节片段

文本到SQL方法的演变

早期的文本到SQL系统采用基于规则和启发式的技术,利用手工编写的语法和语法模板将自然语言转换为结构化的SQL查询[4]、[5]、[6]、[7]。这些方法依赖于关键词匹配、模板填充和语法解析来生成有效的SQL。虽然在特定领域内有效,但基于规则的方法在可扩展性方面有限,在面对语言变化时不够灵活,并且需要大量手动工作来适应不断发展的需求

方法论

本研究提出的框架如图1所示,是一个基于模式的RAG系统,包括预处理、微调、检索增强生成以及为提示提供知识图谱上下文,然后自动生成SQL查询以准确查询自定义数据库中的信息。
虽然RAG和KG组件在各自的检索机制上并行运行,但RAG模块提供了基于向量的示例和模式

数据收集与处理

在本节中,评估了所提出框架在提高LLMs处理特定领域查询准确性方面的有效性。为此,我们使用了一个污水资产管理数据库和一个由工程师和其他利益相关者提出的代表性问题集进行了案例研究。该数据库包含51个表和1114列,其中有一些表和列名称重复或相似。这种复杂性引入了显著的

讨论

本研究提出了一种混合框架,通过知识图谱(KGs)整合结构化领域知识,并通过检索增强生成(RAG)实现上下文检索,从而提高大型语言模型(LLMs)在针对特定数据库的文本到SQL生成方面的性能。该框架由三个组件组成(KG构建、语义检索和知识增强提示),解决了传统基于LLM的语义解析中的核心局限性。

结论

本研究提出了基于模式的RAG框架,该框架通过知识图谱(KGs)整合结构化模式表示,并通过检索增强生成(RAG)实现上下文检索,从而提高了针对复杂、特定领域关系数据库的文本到SQL生成能力。通过结合模式知识与大型语言模型(LLM)的推理,基于模式的RAG解决了语义解析中的挑战,包括准确的连接推理、有限的训练数据等问题

CRediT作者贡献声明

Ifeoluwa Awotunde:撰写——原始草稿,方法论。Dharmendra Reddy Chitte:软件开发。Yongwei Shan:撰写——审稿与编辑,资金获取,概念构思。Weihua Sheng:撰写——审稿与编辑,资金获取,概念构思。Hossein Khaleghian:监督,资金获取,数据整理。

写作过程中生成式AI和AI辅助技术的声明

在准备本工作时,作者使用了ChatGPT(OpenAI,旧金山,CA)来提高手稿的可读性和清晰度。使用该工具后,作者根据需要审查和编辑了内容,并对出版物的准确性和内容负全责。

资金支持

本研究由俄克拉荷马州科学技术促进中心(OCAST)(授权号:AR24-003)资助。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号