探索稀疏数据中的连续性信息:基于机制理解的数据增强策略,以提高厌氧氨氧化(Anammox)过程模型的预测精度

《Bioresource Technology》:Exploring continuity information in sparse Data: Mechanism-Informed data augmentation strategy to enhance prediction accuracy of Anammox process models

【字体: 时间:2026年02月16日 来源:Bioresource Technology 9

编辑推荐:

  厌氧氨氧化(Anammox)过程稳定性依赖硝rite浓度精准控制,但实际数据稀缺导致机器学习模型训练困难。本研究提出机制指导的数据增强框架(MIDA),通过结合过程时间常数和奈奎斯特采样定理评估采样充分性,采用三次样条插值生成虚拟样本。实验表明,MIDA将六种机器学习模型的平均均方误差降低95%,R2值从0.45提升至0.97,且框架具有跨数据集的迁移能力,适用于其他微生物过程的数据稀缺问题。

  
作者:毕彦楠、王月琦、范雅芳、马斌
中国海南省海口市海南大学环境科学与工程学院,海南省农林环境过程与生态调控重点实验室,邮编570228

摘要

厌氧氨氧化(Anammox)过程的稳定性对于低碳废水处理至关重要,其依赖于对亚硝酸盐水平及其他条件的有效控制。准确预测出水中的亚硝酸盐及相关指标对于过程控制是必不可少的,然而数据稀缺使得训练机器学习(ML)模型变得困难。本研究引入了一种基于机制的数据增强(MIDA)框架来解决数据不足的问题。MIDA通过考虑过程时间常数和奈奎斯特准则来评估采样充分性,然后利用三次样条插值来扩展数据集。应用于我们的Anammox反应器数据后,MIDA将六个ML模型的均方误差降低了5%,R平方值从0.45提高到了0.97。通过在四个不同反应器的独立数据集上的验证,证明了该框架的通用性。噪声注入分析表明,改进效果主要源于增强数据中的连续趋势信息,而不仅仅是样本量的增加。MIDA可以为小样本问题提供解决方案,从而实现Anammox过程及其他生物过程的实时控制。

引言

厌氧氨氧化(Anammox)是一种创新且可持续的生物脱氮工艺,在污水处理厂中发挥着重要作用,有助于实现能源自给自足和碳中和。该技术具有无需曝气和外部碳源的优点,同时产生的污泥量较少(Brok等人,2020年;Tang等人,2024年;Zhang等人,2022a年;Li等人,2022年;Wang等人,2026年;Zhou等人,2026年)。
然而,由于Anammox过程对温度、pH值和底物浓度等操作条件具有极高的敏感性(Cai等人,2023年;Zhang等人,2022b年;Lackner等人,2014年;Li等人,2023年),其稳定运行仍面临挑战。其中,作为核心中间产物的亚硝酸盐(NO2?-N)浓度是一把“双刃剑”:过低浓度会限制氮去除速率,而过高浓度则会强烈抑制Anammox细菌,甚至导致整个系统崩溃(Wang等人,2023年;Kouba等人,2022年)。因此,Anammox系统对其底物浓度非常敏感。因此,准确、实时地预测出水中的NO2?-N浓度是实现精确控制并确保Anammox过程长期稳定运行的前提。
基于生化反应原理的传统模型能够描述Anammox过程的基本生化反应。然而,它们复杂的结构以及需要根据环境变化频繁重新校准参数的特点,使得实际应用面临困难(Izadi等人,2022年;Deng等人,2021年)。近年来,数据驱动模型,尤其是利用机器学习(ML)的模型,由于具有强大的非线性拟合能力,在预测复杂生物过程方面展现出巨大潜力(Fu等人,2024年;Balogun和Tella,2022年;Guven和Kayalica,2023年;Miky等人,2021年)。理论上,只要有足够的历史运行数据,这些模型可以学习进水水质、操作参数和出水指标之间的映射关系。然而,在研究和工程实践中,获取高频、连续且准确的Anammox数据是一个耗时且昂贵的过程,难以生成大规模样本集(Abdullah All等人,2023年;Sun等人,2023年)。这种固有的“小样本”特性使得传统ML模型容易过拟合,泛化能力较差,从而影响其对过程动态变化的准确描述(Yu等人,2021年;Liang等人,2024年;Aghaeipoor和Javidi,2020年)。尽管已有研究报道了针对小数据集的数据增强技术,但仍需进一步系统探索,以评估此类数据集能否充分反映系统运行状态、评估增强数据的质量,并充分利用现有信息为ML模型提供更深入的过程洞察。这些挑战仍是推进Anammox过程精确控制的关键技术问题(Adams等人,2025年)。
为了解决上述问题,本研究提出并验证了一种基于机制的数据增强(MIDA)框架。其主要思想是将先前的过程知识系统地转化为高质量增强数据。具体而言,MIDA创新地将捕捉系统动态响应时间的过程时间常数与奈奎斯特采样定理相结合,以定量评估采样充分性(Huang等人,2022年),为数据增强提供了有效的基础。其次,采用三次样条插值等方法在原始数据点之间生成“虚拟样本”,这些样本遵循过程的固有连续性和规律(He等人,2021年)。这些增强数据不仅解决了实际采样的稀疏性问题,更重要的是,使模型能够了解现实世界中发生的但原始数据未能完全捕捉到的过程动态,从而学习到更加稳健和泛化的映射关系(Chen等人,2021年;Freire等人,2025年)。
在本研究中,我们进行了大量研究,以系统评估MIDA框架在多源数据集上的有效性和通用性。为此,首先通过比较应用MIDA策略前后模型的性能,验证了其在自主运行Anammox系统上的增强效果。随后,在包含不同操作条件的四个独立数据集上确认了该框架的通用性。尽管本研究使用的基于插值的数据增强方法可能较为基础,但它证明了“通过机制引导的数据增强”这一核心思想的可行性。该框架可以直接应用于其他面临类似挑战的复杂微生物过程,如好氧颗粒污泥和厌氧消化。

实验设置与操作

本研究使用了一个总有效工作体积为100升的圆柱形反应器作为完全混合式膜生物反应器(CSTR-MBR)Anammox反应器。反应器的内径为60厘米,高度约为110厘米,如图1所示。为防止光合微生物的生长,反应器外包裹了锡箔以阻挡光线。模拟废水通过进水泵引入反应器。

结果与讨论

本章首先探讨实验数据是否准确反映了变量趋势以及数据增强是否可行。随后通过插值扩展数据集,并评估这种数据增强对六个不同ML模型性能的影响。进一步分析了数据增强提高模型预测准确性的原因。最后,通过应用相同的数据验证了该方法的实用性。

结论

本研究提出了一种MIDA框架,用于解决ML模型中数据稀缺的问题。MIDA通过过程时间常数和奈奎斯特准则评估采样充分性,然后应用插值来提高预测准确性。在我们的反应器数据上,它将六个ML模型的平均均方误差降低了95%,R平方值从0.45提高到了0.97,捕捉到了内在趋势。该框架展示了通用性,在四个独立数据集上的性能得到了提升。

科学写作中关于生成式AI的声明

在准备本工作时,作者使用了百度的Yiyan工具来提高可读性和语言表达。使用该工具后,作者根据需要审阅和编辑了内容,并对出版物的内容负全责。

CRediT作者贡献声明

毕彦楠:撰写——初稿、方法论、数据分析、概念构建。王月琦:软件开发、方法论。范雅芳:数据可视化、验证。马斌:撰写——审稿与编辑、监督、资源获取、资金申请。

利益冲突声明

作者声明没有已知的财务利益冲突或个人关系可能影响本文所述的工作。

致谢

本研究得到了中国海南省自然科学基金(编号:425RC681)和国家自然科学基金(编号:U23A20675、52260003)的财政支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号