揭示领域知识与数据规模对开源大型语言模型在厌氧消化领域专用化的影响

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Bioresource Technology》：Unveiling impact of domain knowledge and data scale on open-source large language model specialization in anaerobic digestion

【字体：大中小】 时间：2026年02月14日 来源：Bioresource Technology 9

编辑推荐：

　　开放源大语言模型（LLM）通过领域知识整合与微调可显著提升厌氧消化（AD）专业问答能力。实验表明，基于完整训练数据的Llama3.1-8B-AD模型在专业领域表现接近GPT-4（0.67 vs 0.68），尤其在添加剂和微生物代谢方面具有优势。研究证实数据完整性对消除模型幻觉至关重要，且中等难度问题解析能力随数据量增加呈非线性提升。该成果为生物能源领域专用LLM开发提供了新范式。

张毅|王芳云|冯一静|刘艳婉静|梁正浩|张佳月|李叶青|文宗国

清华大学环境学院，北京100084，中国

摘要

探索领域知识与其数据规模的整合对于利用开源大型语言模型（LLMs）加深对厌氧消化（AD）的理解具有关键价值。本研究开发了一个自动化代理系统，从文献中提取高质量的AD问答对，并对三个开源LLMs进行了微调。专家评估表明，经过微调的Llama3.1-8B-AD（LAD）在专门的AD领域表现出显著的专业竞争力，在某些任务中的知识理解水平接近GPT-4（0.67 vs. 0.68）。值得注意的是，LAD在添加剂和微生物知识等高级领域表现出竞争性或更优的性能。此外，使用完整的训练数据集进行微调显著提高了专业理解能力（从0.60提高到0.67），尤其是在中高难度问题上。相比之下，仅使用50%的数据进行训练会导致基础知识的混乱，这凸显了全面领域数据对于深入理解和推理AD的必要性。总体而言，本研究为未来在生物能源领域开发用于厌氧消化的大型模型提供了一个参考范例，并为构建智能生物能源系统提供了新的视角。

引言

厌氧消化（AD）是一项关键的生物能源技术，在可持续能源回收和废水处理方面具有重要应用（Jun等人，2023年；Monroy等人，2000年）。AD包括水解、酸生成、乙酸生成和甲烷生成等多个反应阶段，受到底物组成、环境参数和复杂微生物等因素的显著影响（Devi和Eskicioglu，2024年；Wang等人，2022年；Wu等人，2019年）。这些生化机制的复杂性限制了见解的全面性和深度，而观点的多样性和快速的研究更新阻碍了知识的有效整合。因此，开发一个高效的知识辅助工具对于促进AD研究和优化生物能源生产过程至关重要。

虽然基于数据的方法（如基于树的模型）可以利用结构化输入有效预测AD结果（Yao等人，2024年；Zhang等人，2023年），但它们仍然未能充分利用研究出版物中的大量非结构化知识。大型语言模型（LLMs）通过直接从基于文本的领域知识中学习，提供了更为全面的工具（Goodswen等人，2022年；Min等人，2023年；Zhang等人，2024b年）。

大型语言模型可以通过广泛的预训练、微调和提示工程有效地分解和从大规模文本数据中学习，执行信息检索、知识整合和问答等任务（Ding等人，2023年；Koubaa，2023年；Scialom等人，2022年；Xu等人，2025年）。实际上，GPT 4.0在专业和学术基准测试中展现了人类水平的性能（Katz等人，2024年；Yao等人，2024年）。LLMs现已成为跨学科研究的焦点，其应用范围扩展到了化学和材料科学等领域（Castro Nascimento和Pimentel，2023年；Pan，2023年）。研究人员还利用LLMs解决环境研究中的专家级环境工程问题（Zhu等人，2024年）。

尽管LLMs在一般对话中表现出色，但它们在知识密集型和复杂的AD特定领域的应用仍面临挑战。大多数现有的LLMs是偏向于泛化的商业模型。尽管这些基础模型可能在预训练期间接触过AD文献，但它们往往缺乏专家咨询所需的结构性推理能力，导致在处理基本原理、代谢途径和外源添加剂等专门主题时出现“知识混乱”。此外，依赖商业API（例如OpenAI）引发了关于工业配方数据隐私、高昂的长期成本以及由于其“黑箱”性质而缺乏可解释性的担忧。相比之下，开源LLMs提供了更大的透明度、可部署性和适应性，使它们更适合开发用于能源应用的安全、特定领域的工具。在将微调后的开源LLMs应用于实现AD领域的专家级理解方面存在明显差距。本研究通过有针对性的微调来弥合这一差距，旨在打造一个高度专业化的助手，而不是替代通用的高参数模型。

本研究旨在构建第一个专门用于高效厌氧消化领域的大型语言模型系统（LAD），该系统基于AD相关知识的收集、整合和理解。这里的“领域知识”具体涵盖了关于反应动力学、微生物群落功能和过程控制参数的非结构化信息。通过开发这一系统，本研究将探索并定义该领域的一个新研究范例。本研究的目标是设计方法和程序，以微调和评估LLMs理解和学习基于开源AD文献的问答能力。它首次揭示了厌氧消化领域专家级能力演变中的非线性阈值效应，开发出了第一个具备该领域专家级知识理解能力的特定领域LLM。通过评估微调模型在多领域问答任务中的表现，并将其与超大型商业模型进行比较，本研究探讨了在不同数据比例下的知识理解差异，以确定专门推理所需的数据规模阈值。

本研究的核心目标是验证专门用于厌氧消化的微调后的开源大型语言模型是否能够实现专业级的知识理解和生成能力，从而提取进一步优化和发展的模式和见解。本研究为未来生物能源领域大型厌氧消化模型的优化建立了范例，为增强智能生物能源系统开辟了新途径，并为特定领域专家模型的专门研究提供了新的方法论参考。

数据集准备与构建

为了更深入地了解LLMs在AD研究中的知识提取和理解能力，本研究构建了两个问答数据集。

对于问答训练数据集，训练数据的全面性、领域特异性和多样性显著影响了LLMs在训练阶段的微调效果。因此，设计了一个名为AD-Extract的自动化代理问答系统，用于提取高质量的AD问答对（基础知识）

微调模型训练和整体性能评估

为了更深入地了解LLMs的知识提取和理解能力，本研究构建了两个问答数据集：用于模型微调的Q&A-Training和用于评估微调后LLMs性能的Q&A-Evaluation。

为了全面分析LLMs的训练过程和性能，我们首先比较了四个常用于评估深度学习模型训练效率和效果的指标：Training_loss、Train_runtime、Train_samples_per_second等

结论

本研究表明，使用高质量、特定领域的数据集对开源大型语言模型进行微调可以建立生物能源领域的专家级工具。我们微调后的Llama3.1-8B-AD模型在性能上可与GPT-4相媲美（0.67–0.68），甚至在添加剂和微生物代谢等专门子领域甚至超过了GPT-4。至关重要的是，微调不仅对知识回忆至关重要，而且对于对齐模型的理解也至关重要

张毅：方法论、调查、数据整理、概念化。王芳云：数据整理、概念化。冯一静：方法论、调查。刘艳婉静：软件、资源。梁正浩：数据整理。张佳月：项目管理、方法论。李叶青：监督。文宗国：监督、资金获取、数据整理、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本工作得到了“十四五”国家关键研发计划（2023YFC3905805）、国家自然科学基金（NSFC）和澳门科学技术发展基金（FDCT）（72261160655）以及福建省科学技术计划项目（编号2023Y3004）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

热点排行