冷粪便,热数据:利用机器学习预测嗜冷性乳品粪便消化过程中甲烷的产生与排放
《Energy Conversion and Management-X》:Cold manure, hot data: Machine learning prediction of methane production and emissions from psychrophilic dairy manure digestion
【字体:
大
中
小
】
时间:2026年05月10日
来源:Energy Conversion and Management-X 7.6
编辑推荐:
安贾莉·保罗(Anjaly Paul)| 阿伊迈提·艾克雷武(Aimaiti Aikeremu)| 雷斯米·皮拉伊(Resmi Pillai)| 伯纳德·戈耶特(Bernard Goyette)| 伊达雷西斯·埃卡埃特(Idaresit Ekaette)| 拉吉尼坎特·拉贾戈帕尔
安贾莉·保罗(Anjaly Paul)| 阿伊迈提·艾克雷武(Aimaiti Aikeremu)| 雷斯米·皮拉伊(Resmi Pillai)| 伯纳德·戈耶特(Bernard Goyette)| 伊达雷西斯·埃卡埃特(Idaresit Ekaette)| 拉吉尼坎特·拉贾戈帕尔(Rajinikanth Rajagopal)
加拿大农业与农业食品部舍布鲁克研究与发展中心,2000 College Street,舍布鲁克,QC J1M 0C8,加拿大
**摘要**
在寒冷气候下,乳品粪便的厌氧消化(AD)受到特定区域甲烷产量数据有限以及适用于低温条件的预测工具不足的限制。本研究结合了多农场实验数据与可解释的机器学习(ML)方法,建立了甲烷基准,并为魁北克地区的乳品系统开发了在20°C条件下的预测模型。通过对六个商业农场的粪便进行38天的批次消化和超过90天的储存实验,研究了原始粪便和消化物的甲烷产生与排放情况。
尽管基质特性存在差异,但特定的甲烷产量仍维持在相对狭窄的范围内(0.07–0.136 L CH4 g?1 VS),这定义了一个稳定且现实的温度适应性设计区间。仅基于理化参数训练的监督式ML模型能够准确预测不同农场的甲烷产量(R2 = 0.809–0.925),并通过留一法验证策略展现了强大的跨农场泛化能力。可解释性分析指出乙酸和可溶性COD是主要预测因子,这与醋酸裂解型甲烷生成及基质可用性一致。随机森林模型在有观测数据的情况下表现出稳定且可靠的消化物排放预测性能。
总体而言,这一结合实验与ML的方法为寒冷气候下的乳品系统提供了区域特定的甲烷基准和经过验证的预测工具,有助于改进厌氧消化器设计、排放因子估算以及温室气体核算。
**1. 引言**
乳品生产是加拿大农业的支柱,但同时也是甲烷(CH4)的重要来源,甲烷的全球变暖潜能值是二氧化碳的27–30倍[1]。在乳品系统中,粪便管理是与肠道发酵并列的最可行减排途径之一[2]。为保持养分并减少径流风险,粪便通常被储存在坑中或罐中[3];然而,这种厌氧富碳环境促进了CH4的形成。随着温度从15°C升至25°C,排放量会急剧增加约70–80%,并且排放量受到储存时间、系统配置和气候条件的影响[4],[5]。
全球范围内,粪便管理约占人为甲烷排放量的6%[6],传统开放式或仅部分覆盖的系统的年甲烷排放量为16–84 kg CH4 t?1粪便[7]。在加拿大等寒冷气候地区,排放量主要集中在温暖季节的亚中温储存期间(约19–31°C),而大多数排放因子和消化器设计参数是基于中温系统和温暖气候条件得出的,这限制了其在寒冷地区乳品生产中的适用性[4]。厌氧消化(AD)通过将粪便转化为可再生能源,可将甲烷排放量减少60–85%,同时产生用于供热、发电或可再生天然气(RNG)的沼气[8]。此外,消化物还提供了一种稳定且养分丰富的肥料,支持循环养分管理[9]。然而,AD的效果强烈依赖于粪便成分和农场管理实践[10],在低温或亚中温条件下,由于微生物活动减缓,甲烷产量通常会下降[11],[12]。
尽管技术在理论上具有潜力,但加拿大采用AD的比例仍然较低,仅有40–50个农业消化器服务于约9,000–9,300个乳品农场。这一差距在魁北克尤为明显,该省拥有超过4,000个农场,并计划到2030年生物能源产量增加约50%,RNG供应增加约10%[13],[14]。表1总结了近期关于低温厌氧消化和甲烷排放的研究,强调了不同基质、接种剂和操作条件下的变异性。虽然高固体含量和共消化系统可以提高甲烷产量,但产量仍受基质特性和实验条件的影响。大多数排放研究基于单个农场或受控环境,限制了其在多样化乳品系统中的普遍适用性。因此,亟需多农场、区域特定的数据集来更好地捕捉变异性,并改进低温条件下的甲烷产量估算和排放评估。本研究评估了多个农场系统的甲烷排放情况,提供了更具有代表性的低温条件下的见解。
**表1. 近10年关于低温或常温厌氧消化器及甲烷排放的研究**
| 基质/系统 | 操作条件 | 反应器 | 甲烷产量 |
|--------|--------|------|--------|
| 牛粪 + 小麦秸秆(16% TS)| 20°C;21天周期;ORL 2.44 g VS kg?1 | Pseudo SBR | 152 ± 6 L CH4 kg?1 VS | 显示了低温高固体含量AD的可行性 | 魁北克舍布鲁克[33] |
| 未经稀释的牛粪(35% TS) | 20°C;21天周期;ORL 9–12 g CODt kg?1 | SBR | 116–154 NL CH4 kg?1 VS | 水解过程被确定为限制步骤 | 魁北克舍布鲁克[36] |
| 奶酪乳清 + 牛粪(70:30 VS) | 17.7°C;75天HRT;ORL 0.72 kg VS m?3 d?1 | 农场规模管式消化器 | 0.42 m3 CH4 kg?1 VS | 强烈的共消化协同效应 | 哥伦比亚卡奇拉[43] |
| 多基质粪便系统(鸡粪 + 乳粪 + 玉米青贮 + 猪粪) | 20 ± 1°C;68天周期;ORL 4.6–5.1 g VS L?1 | 两阶段液固系统 | 0.233–0.262 L CH4 g?1 VS | 循环利用提高了废物与微生物的接触 | 魁北克舍布鲁克[12] |
| 牛粪 + 羊粪(50:50 VS) | 16.6°C;80天HRT;ORL 0.44 kg VS m?3 d?1 | 未加热的管式消化器 | 0.152 m3 CH4 kg-1 VS | 共消化使甲烷产量翻倍 | 玻利维亚维阿查[44] |
| 乳粪 + 生物炭(10 g/L) | 20°C;35天批次处理 | 分批血清瓶 | 368 mL g?1 VS | 生物炭缩短了滞后期并提高了产量 | 美国德克萨斯[45] |
| 食物垃圾 + 固体乳粪 | 20–25°C;14–16天周期;ORL 1.6–2.1 kg VS kg?1 | 中试规模HSAD | 0.40–0.52 L CH4 kg?1 VS | 共消化改善了C/N平衡和缓冲能力 | 魁北克舍布鲁克[34] |
| 固体乳粪 + 秸草垫料 | 20–28°C;28–30天HRT | 干式AD批次反应器 | 0.11–0.14(20°C);0.23–0.29(28°C) | 28°C下的产量与中性温度系统相当 | 魁北克舍布鲁克[37] |
| 鸡粪 + 牛粪(1:1) | 20°C;78–112天周期;ORL 3.7–4.7 g VS L?1 | 两阶段闭环系统 | 0.35 ± 0.11 L CH4 kg?1 VS | 改善了C:N比例并减少了氨抑制 | 魁北克舍布鲁克[47] |
| 牛粪 | 20°C;38天HRT;ISR 60:40 | 分批1 L瓶装 | 0.07–0.136 L CH4 g?1 VS | 不同农场之间的SMY变化较小 | 魁北克舍布鲁克[37] |
**2. 材料与方法**
2.1. 粪便收集与接种剂
乳品粪便从魁北克的六个商业农场收集(Estrie地区三个,Saguenay地区三个),这些农场具有不同的畜群规模、垫料类型和管理方式(见表2)。样本在采集后24小时内运送到实验室,并在4°C下储存1–2周后再进行分析。接种剂来自舍布鲁克研究与发展中心(加拿大农业与农业食品部)的低温适应型消化物(20 ± 1°C)。由于瓶子数量限制,使用了两批接种剂(见表3)。实验前,接种剂在20°C下驯化≥10天,期间不添加营养物质以减少残留沼气的产生。
2.2. 实验设计
在20°C条件下进行了两个系列的实验:(i) 批量厌氧消化(AD)试验以确定特定甲烷产量(SMY);(ii) 原始粪便和消化物的储存试验(>90天),以量化亚中温条件下的甲烷排放。批量AD和原始粪便储存同时进行,以便在相同条件下直接比较。
2.2.1. 批量AD试验
批次试验在1 L玻璃瓶(工作体积700 mL)中进行,温度为20 ± 0.5°C。接种剂与基质的比率为60:40(体积比),每个农场重复三次(三次用于连续气体监测,三次用于定期采样)。实验包括仅接种剂的对照组。瓶子用N2冲洗后密封,并每天手动混合。实验持续37–38天,直到总挥发性脂肪酸(TVFA)浓度稳定在150 mg L?1附近,这代表了低温系统的实际停留时间。
2.2.2. 储存试验
所有六个农场的原始粪便以及Farm 4–6的消化物在20°C下密封储存超过90天。由于瓶子数量限制,仅对Farm 4–6的消化物进行了储存试验。收集初始和最终样品,分析其理化参数。
2.2.3. 生物气监测与甲烷产量测定
使用ANKOM RF气体监测系统(ANKOM Technology, USA)连续监测生物气产量。每周使用气密注射器采集三次气体样本(10 mL),并及时使用配备热导率检测器和氦气作为载气的Micro GC 490(Agilent Technologies, USA)进行分析。注射器和烤箱的温度分别保持在110°C和180°C。数据分析时,将气体产量和组成数据转换为每日时间尺度,并通过线性插值法估算短时间缺失的数据(≤1–2天)。计算20°C下的38天内的特定甲烷产量(SMY20,38d),校正了仅接种剂的空白试验结果,并以标准温度和压力表示,然后除以最初添加的挥发性固体(VS)的质量。累积甲烷产量是每日甲烷产量的总和,根据测量的沼气体积和甲烷比例计算得出。
**物理化学分析**
在批次消化过程中,于第0天、第2天和第4天监测了物理化学参数,并在此之后每周进行一次监测。对于储存实验,在90天储存期开始和结束时收集了样品。总固体(TS)和挥发性固体(VS)通过分别在105°C下干燥和550°C下燃烧来确定。可溶性化学需氧量(CODs)使用封闭回流比色法进行测定[3]。由于异质粪便和消化物样品的分析变异性较大,导致重复性较差,因此未保留总COD(CODt),后续分析仅使用CODs。pH值使用校准的pH计(Mettler Toledo SevenMulti,瑞士)进行测量,碱度通过自动滴定(Hach Titralab AT1000,瑞士)确定。总凯氏氮(TKN)和总氨氮(TAN)使用Kjeltec 2460系统(FOSS,瑞典)进行定量。个别挥发性脂肪酸(乙酸、丙酸、异丁酸、正丁酸、异戊酸和己酸)通过配备DB-FFAP柱的气相色谱法(Perkin Elmer Clarus 580,美国)进行分析,该方法基于Massé [10]的方案进行修改。总VFA(TVFA)计算为各酸分量的总和。
**2.4 机器学习框架**
**2.4.1 数据集构建和特征 selec**
从实验程序中得到了三个结构化数据集:(i)来自批次厌氧消化试验的SMY20,38d;(ii)储存粪便的甲烷排放数据;(iii)储存消化物的甲烷排放数据。38天消化实验和大约100天储存试验的时间序列测量结果以每天为分辨率进行了编译。最初评估了25个候选变量,包括固体含量、氮组分、CODs、个别和总VFA、碱度以及气体产生指标。为了避免循环预测和数据泄露,在使用批次AD(SMY20,38d)数据集预测SMY或甲烷排放时,排除了由气体产生衍生的变量(每日或累积的沼气和甲烷体积及甲烷比例)。最终模型输入仅包含独立的物理化学描述符(VS、CODs、VFAs、TAN、TKN、碱度和pH)。对于储存粪便和消化物数据集,保留了气体产生变量作为输入特征,因为它们直接反映了动态过程指标而非目标泄露。因此,模型输入是数据集特定的:对于基于SVR的SMY预测使用物理化学描述符,而ANN和XGBoost模型结合了物理化学和气体产生变量以捕捉时间过程动态。
**2.4.2 模型开发和验证策略**
在Python(v3.10.17)中实现了四种监督机器学习算法:支持向量回归(SVR)、人工神经网络(ANN)、极端梯度提升(XGBoost)和随机森林(RF)。建模使用scikit-learn [26]、TensorFlow/Keras(通过SciKeras)[29]和xgboost库[30]进行。超参数通过网格搜索进行优化。为了评估跨农场的一般化能力并避免伪重复,采用了留一法(LOFO)验证策略。在每次迭代中,将一个农场的所有观测值从训练集中排除并专门用于测试。这确保了针对独立生物系统的评估,而不是来自同一粪便来源的时间相关样本。模型性能使用决定系数(R2)、平均绝对误差(MAE)和均方根误差(RMSE)进行评估。模型配置(包括输入特征、输出变量、数据频率、训练数据集和验证策略)在表7中总结。简而言之,SVR应用于BMP数据集,使用离散(约每周一次)间隔测量的物理化学变量来预测SMY20,38d,同时排除了气体产生变量以避免数据泄露。ANN应用于储存粪便和消化物数据集,使用每日气体产生变量(每日和累积的沼气和甲烷,%CH4)以及操作变量(VS、温度)来预测SMY。XGBoost用于消化物数据集(农场4-6)的时间序列预测,结合了滞后气体产生特征(例如3天滞后)来捕捉时间依赖性,并预测每日甲烷排放、累积甲烷、每日沼气和SMY。随机森林用于消化物数据集(农场4-6)的排放建模,使用物理化学描述符。模型性能在留一法验证下进行评估。所有模型的时间分辨率都与底层数据结构保持一致(BMP基于事件,储存数据集基于每天),并在有观测数据时应用留一法(LOFO)验证以确保跨系统的稳健泛化。SVR [31]、ANN优化 [32]、XGBoost目标函数 [30]、随机森林回归和SHAP分析 [28]的数学公式在补充信息(S1部分)中提供。
**2.4.3 模型架构和预测**
开发了前馈ANN模型来预测储存粪便和储存消化物的SMY。最终架构包括八个隐藏层(四个具有64个神经元,四个具有32个神经元,ReLU激活函数)、0.01的丢弃率和一个线性输出神经元。模型使用Adam优化器进行训练,损失函数为均方误差。实施了提前停止和模型检查点以防止过拟合。在SMY20,38d数据集上训练了带有径向基函数核的SVR模型,超参数(C、ε、γ)通过网格搜索进行优化。XGBoost模型用于预测累积甲烷、累积沼气、每日沼气和SMY。为了捕捉时间依赖性,在训练期间使用了3天滞后特征,并进行了滚动窗口时间序列交叉验证。
**2.4.4 在留一法验证下的消化物排放建模**
使用来自农场4-6的消化物储存数据训练了随机森林回归(500棵树),其中包含了每日观测到的甲烷排放数据。使用物理化学描述符作为输入特征,并采用留一法(LOFO)验证策略来评估独立农场系统之间的泛化能力。性能指标(R2、RMSE)仅从观测数据中计算。
**2.4.5 模型可解释性**
使用SHapley加性解释(SHAP)[28]评估了模型可解释性。针对ANN、SVR和XGBoost模型应用了特定于模型的解释器。SHAP分析仅针对独立的物理化学输入进行,以确保特征重要性反映了底物化学性质而非与结果相关的气体产生变量。
**2.5 统计分析**
所有批次AD和储存实验在每个农场和条件下均进行了三次重复。结果以平均值报告,并在适当的情况下提供标准偏差。当需要时,使用单因素方差分析(ANOVA)后跟Tukey的事后检验(α = 0.05)来评估不同农场之间的SMY和去除效率差异。所有统计分析均在SPSS或Python中完成。
**3 结果和讨论**
**3.1 原始粪便和消化物的物理化学特性**
六个农场的原始粪便特性存在显著差异(表3),反映了垫料材料、喂养实践和粪便处理的差异。总固体(TS)范围从6.1%(农场2)到16.5%(农场3),挥发性固体(VS)从4.9%到14.0%。农场3的TS和VS较高,这归因于使用了木屑作为垫料,增加了纤维有机含量并改变了固体的可降解部分。相比之下,农场2的TS、VS、CODs和TVFA浓度较低,表明在实验室培养前经历了显著降解,可能与酶辅助的粪便管理有关。初始pH值范围从7.1到8.3,碱度超过9,000 mg CaCO3 L?1,表明具有适合低温消化的强缓冲能力。TAN和TKN浓度在农场间有适度变化,反映了饮食和粪便年龄的差异,但仍处于低温操作的非抑制范围内。CODs和TVFA浓度在农场3、5和6最高,与其较高的VS含量一致,表明有更多的易发酵底物。乙酸在所有农场中占VFA成分的主导地位,丙酸和丁酸浓度较低,表明在培养前有活跃的酸生成,而没有过度酸积累的迹象。经过20°C下的38天厌氧消化后,消化物的TS、VS、CODs和TVFA相对于相应的原始粪便显著降低(表3)。TVFA减少了92-97%,所有反应器中的最终浓度低于150 mg L?1,证实了在低温条件下中间酸的有效转化。氮组分仅略有变化,这与密封批次系统中的氮保存一致。总体而言,这些组成变化表明在低温下有效降解了可溶和可发酵组分,同时保持了农场间底物化学的显著变异性。
**3.2 低温甲烷产量和过程稳定性**
在批次AD测试期间,各农场的累积沼气产量差异显著(图1a)。农场5的产量最高(每瓶7.74 ± 0.5 L,p < 0.05),其次是农场3和6,而农场2的产量最低,这与其较低的CODs和VS含量以及预降解的底物一致。每日沼气产量在前2-3周达到峰值,然后在第30-35天降至0.08-0.11 L bottle?1 d?1(图1b),表明易降解底物几乎完全转化。甲烷含量从农场1的59.04 ± 0.30%到农场5的67.83 ± 0.80%不等,累积甲烷产量也表现出类似趋势;农场1和2的产量显著较低(p < 0.05;表4)。
**下载:下载高分辨率图片(430KB)**
**下载:下载全尺寸图片**
图1. (a-c):比较(a)批次厌氧消化试验期间各农场的(a)累积沼气产量,(b)每日沼气产量,以及(c)特定甲烷产量(SMY20,38d)。
表4. 各农场之间的甲烷产量和有机物去除效率比较。
| 农场 | 累积沼气(L) | 甲烷质量(%) | 累积甲烷(L) | SMY20,38d | 挥发性固体去除(%) | CODs去除(%) | 储存粪便甲烷排放(L) | 消化物甲烷排放(L) |
| -------------- | -------- | --------- | -------- | --------- | -------------- | ------------ | ---------- |
| 农场1 | 5.89 ± 0.17 | c | 59.04 ± 0.30 | a | 3.77 ± 0.10 | b | 0.11 | 6 ± 0.00 | 3 |
| 农场2 | 2.03 ± 0.46 | a | 64.43 ± 0.30 | c | 1.42 ± 0.32 | a | 0.10 | 4 | ab |
| 农场3 | 7.13 ± 0.27 | c | 62.21 ± 0.54 | b | 4.13 ± 0.24 | a | 0.10 | 5 | ab |
| 农场4 | 3.46 ± 0.91 | b | 64.65 ± 0.66 | c | 2.16 ± 0.74 | a | 0.07 | 2 | ab |
| 农场5 | 7.74 ± 0.11 | d | 67.83 ± 0.80 | d | 4.59 ± 0.12 | b | 0.13 | 6 | ab |
| 农场6 | 5.82 ± 0.23 | c | 65.68 ± 0.05 | c | 3.71 ± 0.14 | b | 0.11 | 5 | ab |
| 农场7 | 7.13 ± 0.27 | c | 62.21 ± 0.54 | b | 4.13 ± 0.24 | a | 0.10 | 7 | ab |
| 农场8 | 3.46 ± 0.91 | b | 64.65 ± 0.66 | c | 2.16 ± 0.74 | a | 0.07 | 2 | ab |
| 农场9 | 3.46 ± 0.91 | b | 64.65 ± 0.66 | c | 2.16 ± 0.74 | a | 0.07 | 2 | ab |
| 农场10 | 3.46 ± 0.91 | b | 64.65 ± 0.66 | c | 2.16 ± 0.74 | a | 0.07 | 2 | ab |
| 农场11 | 3.46 ± 0.91 | b | 64.65 ± 0.66 | c | 2.16 ± 0.74 | a | 0.07 | 2 | ab |
| 农场12 | 3.46 ± 0.91 | b | 64.65 ± 0.66 | c | 2.16 ± 0.74 | a | 0.07 | 2 | ab |
| 农场13 | 3.46 ± 0.91 | b | 64.65 ± 0.66 | c | 2.16 ± 0.74 | a | 0.07 | 2 | ab |在长期嗜冷储存研究中也报告了类似的模式,其中复杂固体的溶解增加了可溶性成分的比例[39]。总体而言,这些结果表明,在消化过程中最容易生物降解的物质被去除,而消化残渣的降解性仍然低于未经处理的粪便。储存期间的累积甲烷排放量显示出明显的农场特异性差异(图2c)。农场2的原始粪便排放量最高(2.721 ± 0.282升),超过了批次消化过程中产生的甲烷量(表4),这可能与农场中添加的酶有关,这些酶增强了储存后的生物降解性。对于农场4和5,消化残渣排放的甲烷量(约1.3-1.5升/瓶)高于原始粪便(约0.2-0.25升),而在农场6,原始粪便的排放量(约1.6升)超过了消化残渣的排放量(约1.0升)。这些趋势可能反映了粪便成分的差异以及消化后剩余的缓慢降解有机物的比例。富含纤维的基质可能会留下更多的可降解残留物,而消化残渣中的活跃甲烷生成菌群可以促进储存期间的持续甲烷形成。Baldé等人[40]也报告称,消化残渣的储存排放量大约占消化器年度产生的甲烷总量的12%。尽管存在这种变异性,但储存期间的甲烷排放量相对于厌氧消化过程中回收的甲烷量来说仍然很小,表明消化过程捕获了粪便的大部分能量潜力。虽然在某些情况下,消化残渣在20℃时排放的甲烷量可能与原始粪便相当或略高,但已有充分文献记载在适度的负荷和停留时间内甲烷的潜在产量[8]、[40]。在田间条件下,甲烷产量大约每升高5℃就会翻倍[5]、[7],这意味着在较高夏季温度(例如约35℃)下储存的原始粪便会产生更多的甲烷排放。总体而言,虽然消化残渣仍然具有相当 residual的甲烷潜力,但在类似条件下,其排放量仍低于未经处理的粪便。这些发现强调了优化消化残渣管理的重要性,包括覆盖储存或缩短储存时间,并建议通过消化后处理(如消化残渣酸化或营养回收(例如,鸟粪石沉淀或氨去除)进一步减少排放量,同时回收有价值的营养物质[41]、[42]。
在长期嗜冷储存研究中也报告了类似的模式,其中复杂固体的溶解增加了可溶性成分的比例[39]。总体而言,这些结果表明,在消化过程中最容易生物降解的物质被去除,而消化残渣的降解性仍低于未经处理的粪便。储存期间的累积甲烷排放量显示出明显的农场特异性差异(图2c)。农场2的原始粪便排放量最高(2.721 ± 0.282升),超过了批次消化过程中产生的甲烷量(表4),这可能与农场中添加的酶有关,这些酶增强了储存后的生物降解性。对于农场4和5,消化残渣排放的甲烷量(约1.3–1.5升/瓶)高于原始粪便(约0.2–0.25升),而在农场6,原始粪便的排放量(约1.6升)超过了消化残渣的排放量(约1.0升)。这些趋势可能反映了粪便成分的差异以及消化后剩余的缓慢降解有机物的比例。富含纤维的基质可能会留下更多的可降解残留物,而消化残渣中的活跃甲烷生成菌群可以促进储存期间的持续甲烷形成。Baldé等人[40]也报告称,消化残渣的储存排放量约占消化器年度产生的甲烷总量的12%。尽管存在这种变异性,但储存期间的甲烷排放量相对于厌氧消化过程中回收的甲烷量来说仍然很小,表明消化过程捕获了粪便的大部分能量潜力。虽然在某些情况下,消化残渣在20℃时排放的甲烷量可能与原始粪便相当或略高,但已有充分文献记载在适度的负荷和停留时间内甲烷的潜在产量[8]、[40]。在田间条件下,甲烷产量大约每升高5℃就会翻倍[5]、[7],这意味着在较高夏季温度(例如约35℃)下储存的原始粪便会产生更多的甲烷排放。总体而言,虽然消化残渣仍然具有相当 residual的甲烷潜力,但在类似条件下,其排放量仍低于未经处理的粪便。这些发现强调了优化消化残渣管理的重要性,包括覆盖储存或缩短储存时间,并建议通过消化后处理(如消化残渣酸化或营养回收(例如,鸟粪石沉淀或氨去除)进一步减少排放量,同时回收有价值的营养物质[41]、[42]。
为了预测SMY20、38d、预测运营指标并模拟消化残渣的甲烷排放,开发了机器学习(ML)模型。根据它们的结构优势和计算特性,应用了支持向量回归(SVR)、人工神经网络(ANN)、极端梯度提升(XGBoost)和随机森林(RF)模型。
3.4.1 SMY预测性能
支持向量回归(SVR)在SMY20、38d数据集上的训练显示出从物理化学特征预测SMY的出色能力。对于农场4-6,SVR的R2值分别为0.809–0.925,预测的SMY值与观测值在对比图中非常吻合(图3a;表5)。这种强大的性能可能反映了批次厌氧消化测试的结构化特性,其中实验条件受到严格控制,变异主要来自基质属性。
3.4.2 特征重要性
支持向量回归(SVR)在SMY20、38d数据集上的训练表明它能够从物理化学特征中很好地预测SMY。对于农场4-6,SVR的R2值分别为0.809–0.925,预测的SMY值与观测值在对比图中非常吻合(图3a;表5)。这种强大的性能可能反映了批次厌氧消化测试的结构化特性,其中实验条件受到严格控制,变异主要来自基质属性。机器学习框架的模型规格概述,包括输入特征、输出变量、数据频率、训练数据和验证策略。
| Model | Task | Input Features | Output Variable(s) | Data Frequency | Training Data | Validation Strategy |
|--------|----------------。|--------------------------------------|------------------|-------------------|----------------------------------|-------------------------|
| SVR | SYM Prediction | Physicochemical variables: VFAs (ACET, PROP, ISOB, BUTY, ISOV, VALE, CAPR), Total-VFAs, pH, alkalinity, VFA/Alk ratio, CODs, TS, VS (%), VS (g), TAN, TKN, temperature | ~Weekly (per measurement event) | All farms (multi-farm BMP dataset) | Leave-one-farm-out (LOFO) across all farms |
| ANN | SYM Prediction | Daily gas production variables: daily biogas, accumulated biogas, methane fraction (%CH4), daily methane, accumulated methane; + operational variables (VS, temperature) | SMY(mL CH4 g?1 VS) | Stored manure & digestate datasets (all farms) | LOFO across farms |
| XGBoost | Time-series forecasting | Daily gas production variables with lag features (e.g., 3-day lags): daily biogas, accumulated biogas, %CH4, daily methane, accumulated methane; + VS, temperature | Daily methane emission, accumulated methane, daily biogas, SMY | Daily (time-series) Digestate dataset (Farms 4–6) | LOFO across Farms 4–6 |
| Random Forest | Digestate methane emission modeling | Physicochemical variables (VFAs, pH, alkalinity, VFA/Alk ratio, CODs, TS, VS, TAN, TKN, temperature) | Daily methane emission(mL day?1) | Digestate dataset (Farms 4–6) | LOFO across Farms 4–6 |
这些特征的方向性在不同农场之间有所不同,并提供了重要的机制洞察。对于农场6,高CODs值(图5a中的红色点)始终产生强烈的正SHAP贡献(平均+17.6 mL g?1 VS;约70%为正),表明这是一个受底物限制的机制,在这种情况下,可溶性有机物的可用性直接决定了甲烷产量。相比之下,对于农场5,CODs表现出轻微的负平均贡献(?2.4 mL g?1 VS;约46%为正),这表明可溶性有机物的增加并不总是转化为更高的甲烷产量,可能是由于部分转化或系统失衡。同样,ACET在农场6显示出正贡献(平均+4.9),与有效的乙酸裂解产甲烷过程一致,但在农场5表现出负贡献(平均?1.8),表明在转化不完全的条件下乙酸盐的积累增加。对于农场4,CODs和ACET都显示出主要为正的贡献,反映了更平衡的底物利用和产甲烷活动。TAN也表现出变化的行为,在农场4和5中为正,在农场6中为负,表明根据系统条件,其影响从非抑制性转变为抑制性。
SHAP决策图(图5b)进一步在群体层面上支持了这些观察结果,显示预测轨迹在CODs层上分歧最大,然后通过次要特征收敛,确认CODs是预测变异性的主要驱动因素。在单个样本层面,最佳预测样本的瀑布图(图5c,f(x) = 100.5 mL g?1 VS)显示CODs贡献了+37.2 mL g?1 VS——代表了相对于基值(E[f(x)] = 58.7 mL g?1 VS)的最大偏差——其次是ACET(+9.7)、总VFAs(+5.1)和VFA/alkalinity比率(+5.0)的贡献,这与高底物、平衡的操作条件一致。相比之下,最差预测样本(图5d,f(x) = 56.0 mL g?1 VS)显示CODs的正贡献减少(+10.3),TAN(?4.1)、VS(?3.2)和VFA/alkalinity比率(?2.2)的负贡献增加,表明底物限制和抑制性约束之间的竞争效应。这些结果表明,在嗜冷条件下,甲烷的产生不是由单个变量单独控制的,而是由底物供应、中间酸转化和抑制性反馈之间的受限平衡决定的。重要的是,在不同的农场观察到了相同的结构,表明预测行为反映了独立粪便系统之间一致的生化模式,而不是特定地点的相关性。这为将机器学习预测与生化过程机制联系起来提供了一个通用框架,并用于诊断在复杂微生物系统中预测准确性何时以及为何会下降。
3.4.3 预测操作指标
使用3天延迟特征,XGBoost模型被用来预测未来200天的累计甲烷、累计沼气、每日沼气和SMY。选择这个时间窗口是在测试了3-7天延迟后得出的,因为3天的时间窗口在捕捉时间依赖性和防止过拟合之间提供了最佳平衡。
在批量厌氧消化(batch AD)、储存粪便和消化物数据集中,预测轨迹紧密跟踪了农场4-6的观测时间序列(图6a-c;表5)。性能指标显示出高预测准确性:R2值始终超过0.90,对于SMY20,38d和储存粪便数据集,对于消化物数据集甚至超过了0.96,并且在整个预测范围内伴随着低MAE和RMSE。超出实验观测窗口的扩展预测(图6a-c)显示累计甲烷和沼气产量逐渐趋于平稳。这反映了厌氧消化的基本生化动态,其中易生物降解的底物(特别是CODs和挥发性脂肪酸)的耗尽导致每日沼气产量逐渐下降至接近零。因此,累计产量接近一个渐近极限,这与已建立的批量消化动力学一致。XGBoost模型通过学习与底物耗尽相关的时间模式来捕捉这一转变。随着延迟的沼气产生输入特征在消化后期接近稳态值,模型相应地预测了最小的增量产量,从而导致观察到的平稳状态。这种行为表明模型反映了过程驱动的动态,而不是在扩展预测期间默认为恒定值。尽管如此,对实验观测时间范围之外的预测应谨慎解释。虽然模型在底物限制条件下再现了渐近系统行为,但过程解释仍集中在实验支持的窗口内(批量测试为38天,储存约为90天)。
下载:下载高分辨率图像(353KB)
下载:下载全尺寸图像
下载:下载高分辨率图像(379KB)
下载:下载全尺寸图像
下载:下载高分辨率图像(361KB)
下载:下载全尺寸图像
图6. (a-c). 使用XGBoost对操作性沼气特征进行200天预测。(a):基于VS的农场6的批量AD数据集的累计甲烷、累计沼气、每日沼气产量和SMY的预测值与实际值。(b):农场6的储存粪便数据集的预测结果。(c):农场6的消化物数据集的预测结果。每个子图包括比较已知数据和XGBoost预测轨迹的时间序列图。在后期时间点预测到的平稳状态反映了在底物限制条件下AD系统的预期渐近行为,其中易生物降解组分的耗尽导致累积沼气产量几乎为零。
强大的预测性能表明XGBoost捕捉了在嗜冷条件和不同底物下甲烷产生的时间依赖性。这与先前的研究结果一致,其中梯度提升方法已经预测了沼气产量并检测到了全尺寸消化器中的异常[24],同时将这些结果扩展到了多农场寒冷气候粪便系统。结合SHAP得出的特征重要性,这些预测为情景分析提供了实用工具,使操作员能够评估饲料特性或操作条件的变化如何影响中期甲烷产量。
3.4.4 基于数据的消化物甲烷排放扩展
由于长期储存实验相关的物流和成本限制,很少有系统跨所有农场监测消化物储存甲烷排放。在这项研究中,仅基于农场4-6的每日消化物甲烷排放数据训练了随机森林(RF)模型,这些数据的完整储存测量结果是可用的。
在评估的强大模型集合中,随机森林(RF)模型因其更好的稳定性和更高的预测准确性(R2 = 0.878,RMSE ≈ 2.8 mL day?1)而被选为主要部署模型。该模型仅使用来自农场4-6的数据进行训练,输入变量包括一系列全面的物理化学描述符,如VS、TS、CODs、TAN、TKN、碱度、pH和VFAs,输出变量为每日甲烷排放(mL day?1)。
如图7所示,RF模型在LOFO验证策略下准确再现了每个保留农场的观察到的每日甲烷排放动态,确保预测针对独立农场系统进行了测试。预测轨迹紧密跟随观察到的时间序列,捕捉到了初始排放峰值以及随后与底物耗尽相关的逐步下降。模型在所有三个农场的性能都很强,R2 = 0.878,RMSE ≈ 2.8 mL day?1(表5)。这些结果证实RF模型在独立奶牛场系统中具有良好的泛化能力,并在嗜冷储存条件下提供了生物学上真实的消化物甲烷排放动态表示。为了验证生物变异性的保持,对变异系数(CV)进行了基准测试。RF模型成功再现了每日排放中的高时间变异性(CV:0.62–0.80)和累积轨迹的稳定、单调积累(CV:0.37–0.42),确认模型捕捉到了内在的代谢波动。总体而言,这个基于数据的框架提供了在嗜冷储存条件下消化物甲烷排放动态的生物学上真实且统计上经过验证的预测,支持了寒冷气候奶牛系统的温室气体评估。
3.5 模型选择和计算考虑
模型选择是基于数据集结构和预测目标,而不是通用算法排名。比较评估了多个模型,最终选择基于在一致验证框架下的经验性能。SVR被保留用于BMP(SMY20,38d)数据集,因为它在样本有限条件下展示了强大且一致的预测性能。尽管像RF这样的集成方法在数据有限条件下也具有很好的泛化能力,但对于这个特定任务,SVR提供了更稳定的结果。ANN被选用于储存粪便和消化物数据集,因为它在捕捉更大、更高分辨率数据集中的非线性关系方面具有更好的预测性能。对于时间序列预测任务,使用延迟特征和滚动窗口交叉验证实现了XGBoost,以将时间依赖性纳入特征空间。这种方法与将梯度提升应用于时间预测任务的既定做法一致。对于消化物排放建模(农场4-6),由于其稳定的性能和在留一法验证期间的鲁棒性,选择了随机森林。总体而言,所有任务的模型选择都是基于性能和数据集的具体情况,而不是基于假设的算法优越性。
3.5 对寒冷气候奶牛场厌氧消化(AD)的综合影响
结合实验和机器学习(ML)的结果为设计和操作寒冷气候下的奶牛场AD系统提供了重要见解。首先,嗜冷AD测试表明,尽管由于VS含量、降解前状态和添加剂的差异,不同农场的累计气体产量和CODs去除量差异很大,但SMY20,38d仍保持在0.07–0.136 L CH4 g?1 VS的狭窄范围内。这为魁北克奶牛场的粪便定义了一个现实的具体设计区间,与其他低温研究一致,并适合作为估计能量产量和嗜冷消化器温室气体减排的保守基础。对于消化物排放建模(第3.4.4节),图7展示了农场4-6的LOFO验证预测结果,其中观察数据是可用的。随机森林模型在这些系统中表现出稳定可靠的性能,准确捕捉了在不同底物和储存条件下的甲烷排放动态。
其次,储存实验表明,AD显著降低了CODs和VFA浓度,从而降低了储存消化物的剩余甲烷潜力相对于原始粪便。消化物排放是非零的,必须在生命周期评估中考虑,但在20°C的受控储存条件下,甲烷排放相对于AD过程中回收的甲烷来说仍然很小,表明消化捕获了粪便的大部分能量潜力。鉴于储存排放对温度的强烈敏感性,预计在较温暖的季节条件或较温和的气候条件下,AD的相对减排效益将会增加[7]。
第三,基于多农场嗜冷数据集训练的ML模型,特别是SVR用于SMY20,38d和ANN用于消化物行为,准确地预测了甲烷产量,并且使用XGBoost预测了包括累计甲烷、累计沼气和每日沼气在内的关键指标(表5)。SHAP分析表明,预测主要由物理上有意义的变量驱动——特别是累计和每日气体产量以及甲烷分数——其次是基本化学因素的次要贡献,证实了模型提供了可解释的过程洞察,而不是黑箱预测。与早期专注于中温单点系统的AD-ML研究[23]、[24]、[25]相比,这项工作表明即使数据集相对较小,也可以为多个农场的嗜冷奶牛场开发出可解释的高保真模型。
从工程角度来看,该框架为寒冷气候奶牛场的消化器设计提供了定量输入和预测工具。区域和农场特定的SMY范围可以支持反应器尺寸和经济评估,而基于ML的预测和预测可以协助操作监督和情景评估。本研究中开发的ML框架提供了嗜冷批量消化和储存动态的高保真表示。使用强大的留一法(LOFO)验证策略,这些模型在这一寒冷气候背景下在独立农场系统中表现出强大的泛化能力。尽管针对嗜冷批量和储存条件进行了优化,但该框架为扩展到连续的全规模操作和多样化的管理方案奠定了可扩展的基础。随着实证数据集的不断扩大,这种方法为提高预测的可靠性和支持更广泛的厌氧消化应用提供了灵活的平台。本研究建立了一个高分辨率的、涵盖多个农场的数据集,用于在受控实验室条件下预测嗜冷菌的甲烷生成情况,弥补了寒冷气候地区 dairy 系统缺乏详细、特定区域数据的不足。尽管机器学习模型是基于实验室规模的数据开发的,但实验设计中包含了来自六个商业农场的粪便样本,这些农场具有不同的基质组成、管理实践和地理条件,从而能够捕捉到与实际应用相关的变异性。为确保模型具有很好的泛化能力,采用了“留一法”(Leave-One-Farm-Out, LOFO)验证策略,将每个农场视为一个独立的测试系统。这种方法提供了严格的跨系统评估,并在受控实验数据与实际变异性之间架起了一座桥梁。
**4. 结论**
在 20°C 的温度下,对六个代表性魁北克 dairy 农场的粪便进行了嗜冷厌氧消化实验,确定了该地区的甲烷生成基准值,具体甲烷产量为 0.07–0.136 L CH4/g 在 38 天的消化测试期间。扩展存储实验(>90 天)在受控的亚中温条件下量化了原始粪便和消化产物的甲烷排放量,结果显示消化过程显著降低了残留甲烷潜力,但排放量仍受农场自身条件的影响。通过将多农场寒冷气候实验与可解释的机器学习技术相结合,可以从独立的物理化学参数准确预测甲烷产量和产生动态。采用“留一法”验证后,模型在独立农场系统间表现出良好的泛化能力,SHAP 分析进一步确认了这些预测变量的机制性意义。总体而言,这种实验-机器学习框架提供了针对特定区域的设计数据,并验证了预测工具,降低了寒冷气候地区 dairy 系统中嗜冷菌消化器设计、排放因子确定以及温室气体核算的不确定性。
**未引用参考文献** [48]
**CRediT 作者贡献声明**
Anjaly Paul:写作 - 审稿与编辑、撰写初稿、数据可视化、形式化分析、数据管理。
Aimaiti Aikeremu:写作 - 审稿与编辑、撰写初稿、软件开发、方法论研究、形式化分析、数据管理。
Resmi Pillai:写作 - 审稿与编辑、形式化分析、数据管理。
Bernard Goyette:写作 - 审稿与编辑、项目监督、资源协调、项目管理。
Idaresit Ekaette:写作 - 审稿与编辑、项目监督、资源协调。
Rajinikanth Rajagopal:写作 - 审稿与编辑、撰写初稿、项目监督、资源协调、方法论研究、资金申请、概念化工作。