将微调技术和检索增强生成技术相结合,以应对污染控制指南在应用方面所面临的挑战

《Journal of Environmental Management》:Integrating fine-tuning and retrieval-augmented generation to address the application challenges of pollution control guidelines

【字体: 时间:2026年02月04日 来源:Journal of Environmental Management 8.4

编辑推荐:

  环境政策文本的智能解析与生成:研究提出RAG+FT混合模型处理长文本、结构化数据,通过检索增强与领域微调提升污染控制指南的准确性和适用性,专家评估显示其综合表现优于单一策略模型,为智能环境治理提供技术支持。

  
周竹涵|姜婷婷|金强
上海工业大学经济与管理学院,上海,200235,中国

摘要

环境污染问题日益复杂,促使政府机构发布了大量关于污染控制的详细技术指南。尽管这些文件包含了大量的领域专业知识,但其复杂性往往阻碍了有效实施和公众的广泛理解。本研究首次系统地将检索增强生成(RAG)与微调(FT)技术应用于环境领域,旨在提升污染控制文本的解释和生成能力。所提出的混合系统通过本地环保机构的文档进行了评估,采用了自动化指标(如ROUGE、BLEU和BERTScore)以及初步的专家评估。结果表明,该混合模型在自动化指标和专家评估中均优于其他模型。这表明它能够有效地解释并连贯地生成与污染控制相关的技术指导。这些发现展示了该模型在支持环境管理中更可靠的政策理解和实施方面的潜力,有助于智能解读环境政策并推动数据驱动的环境治理。

引言

随着全球工业化和城市化的加速,环境污染问题日益严重,对可持续发展构成了重大挑战(Liu等人,2020年)。最近的科学证据进一步表明了当代污染情景的复杂性。例如,Zhang等人(2025年)揭示了亲脂性和亲蛋白质性污染物之间的显著交互毒性效应,强调了现代环境污染过程中复杂的化学相互作用和高密度的技术知识。在这种背景下,污染预防和控制策略已成为各国政策制定和科学研究的重点。尽管这些政策框架的全面性不断提高,但其实际实施仍受到多种因素的限制——尤其是污染控制技术指南的复杂性和适用性有限(Lo等人,2020年)。
以中国为例,生态环境部最近发布了大量关于工业废气、废水处理和土壤修复等方面的技术文件(Liu等人,2020年)。这些文件通常包含专业术语,逻辑结构清晰,层次分明。然而,它们的实际推广和现场实施经常遇到信息过载、认知障碍以及适应能力差等问题(Liu等人,2020年;Liu等人,2023年)。许多地方环保管理人员、企业技术人员甚至公众都难以准确理解这些政策的意图。因此,技术措施与其实际实施标准之间的脱节削弱了政策部署和治理效果(Bartholomew等人,2008年)。
与此同时,尽管污染控制技术持续发展,智能管理和数据驱动的决策成为主流趋势(Bhupendra和Sangle,2015年),但一线环境管理仍主要依赖经验判断和手动知识传递(Wang等人,2023年)。缺乏对政策相关文本的结构化处理和深入的语义理解已成为推进智能和精确环境治理的关键瓶颈。缺乏标准化的解读可能阻碍政策文件的一致实施,并对系统化、基于证据的环境治理框架的发展构成挑战。
近年来,人工智能——特别是大型语言模型(LLMs)在自然语言理解和生成任务方面取得了显著进展(Wang等人,2025a;Tian等人,2025年)。这些模型已成功应用于医疗保健(Haltaufderheide和Ranisch,2024年)、法律(Adhikary等人,2024年)、教育(Shen,2024年)等高度专业化的领域,展示了强大的知识建模和语义表示能力(Chen等人,2025年)。然而,在将LLMs应用于污染控制领域时仍存在若干困难。先前的研究表明,法律和监管文本由于其极长的长度、嵌套的层次结构、频繁的交叉引用和复杂的文档布局(如表格、排放限制、监管阈值)(Katz等人,2023年),对NLP系统构成了独特挑战。标准的预训练LLMs或通用微调模型在这些文档上的表现往往不佳,尤其是在需要精确事实依据和长上下文推理的任务中(Khatri等人,2025年)。此外,当文档结合非结构化文本和密集的表格/结构化数据时,即使是事实验证也对NLP模型来说也具有挑战性(Chen等人,2019年)。
为了解决这些挑战,一些研究提出了检索增强生成(RAG)和微调(FT)方法的整合。虽然混合LLM架构在法律和医学等相邻领域越来越被采用——这些领域的任务通常集中在简短问题回答或基于案例的推理上——但将其应用于环境政策文本则面临独特且研究不足的挑战。与这些领域不同,污染控制指南具有独特的特点,包括长而结构化的文档、相互关联的监管引用和关键表格数据。这些特点要求对“RAG + FT”混合架构进行专门优化,以适应环境语义理解。具体而言,我们的框架采用了一个顺序的RAG到生成流程,其中从长篇监管文档中提取的结构化信息为领域特定的微调生成器提供必要的证据,而不是将检索和微调视为松散耦合的组件。
本研究做出了三项关键贡献。首先,我们开发并评估了结合了RAG和FT的混合LLMs,这些模型针对环境监管文本的技术和法律复杂性进行了定制。其次,我们使用自动化指标和初步专家评估对其性能进行了基准测试,提供了更全面的领域理解评估。第三,我们展示了此类系统在支持政策解释、合规性和数据驱动的环境治理方面的实际价值。总体而言,这些贡献提供了实证证据,表明混合LLMs可以作为智能环境政策管理的可扩展和有效工具。

章节片段

文献综述

本节系统回顾了大型语言模型(LLMs)在领域特定文本处理方面的最新进展,特别关注了检索增强生成(RAG)和领域特定微调(FT)这两种关键技术,这些技术对于理解复杂、结构化的文本至关重要。对现有成就和研究差距的回顾为后续工作奠定了理论基础

方法论

本研究提出了一个集成框架,结合了检索增强生成(RAG)和领域特定微调(FT)来处理与污染控制相关的技术文本。该框架包括四个核心组成部分:数据处理、模型构建、混合推理和性能评估。由于本研究的所有训练和评估数据集均为中文,因此选择了Qwen3-8B(阿里巴巴,2024年)作为基础模型。除了语言兼容性外,这一选择还考虑了其他因素

实际任务模拟和输出比较

表2总结了五种大型语言模型对以下问题的回答:“在拆解过程中,使用过的铅酸电池的哪些组件需要单独回收和处理以防止污染?”参考答案来源于权威政策文件,基于环境法规,强调了回收塑料外壳、铅板、含铅塑料和废酸的必要性。该答案明确要求

主要发现和意义

本研究提出了一种混合大型语言模型(LLM)框架,该框架结合了检索增强生成(RAG)和领域特定微调(FT),以改进污染控制指南的解释和应用。结果表明,所提出的RAG + FT方法在正确性、完整性、合规性和清晰度等多个维度上均优于基线和单一策略模型。
专家评估结果(表4)表明

结论

本研究提出了一种混合大型语言模型框架,该框架结合了检索增强生成(RAG)和领域特定微调(FT),以提升复杂污染控制指南的解释能力。结果表明,这种混合方法有效地结合了事实检索和上下文适应,相较于单一策略模型,在正确性、合规性和清晰度方面表现更优。除了方法论上的进步外,该框架还提供了

CRediT作者贡献声明

周竹涵:撰写——初稿、方法论、形式分析、数据整理、概念化。姜婷婷:撰写——审稿与编辑、监督、方法论。金强:撰写——审稿与编辑、资源获取、调查、资金筹集。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究工作。

致谢

本研究得到了国家自然科学基金(22478243)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号