《Smart Agricultural Technology》:SEBASTIEN - A smarter livestock breeding through advanced services tailoring innovative and multi-source data to users’ needs
编辑推荐:
本研究介绍了SEBASTIEN,一种数据驱动的决策支持系统(Decision Support System, DSS),旨在通过将卫星观测、物联网(Internet of Things, IoT)传感器数据、气候再分析与预测整合至统一且可扩展的数据平台,以支持
本研究介绍了SEBASTIEN,一种数据驱动的决策支持系统(Decision Support System, DSS),旨在通过将卫星观测、物联网(Internet of Things, IoT)传感器数据、气候再分析与预测整合至统一且可扩展的数据平台,以支持智能化家畜管理。该系统将多源数据流集成于数据湖(Data Lake)架构之中,并部署了通过自动机器学习(AutoML)工作流开发的机器学习(Machine Learning, ML)与统计模型,包括梯度提升机(Gradient Boosting Machines, GBM)和线性混合模型(linear mixed models, LMM)。SEBASTIEN提供四项主要运营服务:(i)用于动物福利评估的温湿指数(Temperature-Humidity Index, THI)短期与长期预测;(ii)热应激条件下产奶量与乳品质量变化的估算;(iii)基于卫星数据的牧场生物量评估;以及(iv)基于气候与环境驱动因素的疾病风险制图。模型在大型数据集上训练,表明其在真实养殖条件下具有稳健性与适用性。预测性能显示高准确度(例如,THI预测均方根误差RMSE = 2.59,决定系数R2 = 0.95),支持可靠的决策制定。输出结果通过交互式仪表板、地理空间地图和可互操作的应用程序编程接口(Application Programming Interface, API)提供,既可实现农场层面的管理,也可进行区域尺度的监测。该决策支持系统支持热应激早期预警、饲喂与放牧策略优化、气候情景下的品种选择以及主动性疾病风险缓解等关键应用。这些结果表明,SEBASTIEN是一种有前景的运营型决策支持系统,可通过集成化、数据驱动的决策制定来增强家畜适应性、改善动物福利并支持气候适应策略。
**研究背景与问题提出**
欧洲联盟的家畜生产是重要的经济部门,动物产品占欧盟农业总产值的45%,每年达1680亿欧元。意大利的家畜活动主要集中在北部,其产值约占农业总产量的36%。然而,家畜产业面临严峻挑战:过去50年,产业主要致力于通过改良遗传、改造养殖环境和改善营养管理来提高生产力,但这也增加了动物对异常环境条件(尤其是高温)的敏感性。家畜对热应激的响应包括减少反刍时间和采食量,同时增加基础代谢能量需求,其中采食量减少可量化约为奶产量下降的35%。此外,高温结合极端湿度会加剧动物的感知温度或干旱条件,而极端寒冷、异常风况和改变辐射制度同样对动物和饲草有害。环境变化可影响动物健康、生长发育与繁殖,疾病发生及其流行病学,以及谷物、牧场和饲料作物的产量与品质。尽管已有若干决策支持系统被提出,但现有平台常呈现碎片化实施、数据整合有限、侧重于特定应用而非整体农场管理等局限,尤其缺乏整合实时IoT数据与环境气候信息的能力,且往往无法提供统一的跨领域服务。
**SEBASTIEN平台架构与核心技术**
研究人员开发了SEBASTIEN平台,其核心技术架构包括:基于数据湖架构的多源数据集成系统,采用Docker容器化部署和Kubernetes编排的本地云集群,确保可扩展性与近实时数据处理;数据存储采用MinIO对象存储与GPFS并行高性能存储文件系统相结合;通过定制连接器实现Copernicus服务、DIAS平台、开放数据门户及IoT系统的数据协调访问;采用H2O.ai AutoML和scikit-learn模块进行机器学习算法的自动训练与比较,涵盖GBM、XGBoost、分布式随机森林(Distributed Random Forest, DRF)、极端随机树(Extremely Randomized Trees, XRT)、深度学习(Deep Learning, DL)及广义线性模型(Generalized Linear Models, GLM)等;以及用于解释模型输出的SHAP(SHapley Additive exPlanations)分析方法。IoT传感器管理方面,动物传感器为佩戴式项圈,采集加速度、环境温度与相对湿度、全球导航卫星系统(Global Navigation Satellite System, GNSS)位置及心率数据;环境传感器平台测量CO
2、H
2S、NH
3、CH
4浓度及PM1、PM
2.5、PM
10颗粒物,同时监测环境温湿度用于THI计算。
**研究结果**
**服务1:温湿指数评估**
该服务包含两个子服务。服务1a旨在预测未来两天畜舍内THI的小时变化。研究使用2022年11月至2023年9月期间分布于意大利的658个畜舍数据,共计450,000条记录。输入参数包括畜舍纬度、经度、海拔、测量月份及最近位置的外部THI。采用GBM_4算法获得最佳准确度,RMSE为2.587,R
2为0.950。按THI严重度分层分析显示,预测误差随THI严重程度增加而降低:舒适条件下平均绝对误差(Mean Absolute Error, MAE)为2.580,中度热应激下降至1.320,严重热应激进一步降至1.110,表明模型在最关键环境条件下保持甚至提高了预测可靠性。服务1b扩展至长期气候情景,基于VHR-PRO_IT(意大利超高分辨率预测数据,分辨率约2.2 km,1981-2070年)在IPCC-RCP4.5和RCP8.5情景下评估畜舍THI变化,与1981-2010年基线相比,提供未来数十年热应激变化洞察,包括夏季热应激天数的增加。
**服务2:产奶量、乳蛋白率和乳脂率变化百分比**
服务2a开发机器学习模型预测热应激对牲畜的影响,适用于短期天气预报和长期气候预测。研究采用1990-2020年弗留利-威尼斯朱利亚地区意大利红白花牛(Pezzata Rossa Italiana)的产奶量和奶质数据,包含2,511,947条功能控制(Functional Control, FC)记录、1,115个农场和101,595头动物。首先应用线性混合模型校正固定效应(泌乳天数、月龄、胎次、估计育种值EBV)和随机效应(动物ID、农场ID),获得残差作为目标变量。气候变量经相关性分析处理后,采用GBM模型确定最优算法。SHAP分析识别出关键预测变量,如产奶量预测中,此前1-5天最低温度"avg_T_min_1-5"在数值较高时对预测产生负面影响,而数值较低时则产生正面影响。最终产奶量、乳脂率和乳蛋白率的预测分别使用4、6、7个特征变量。
服务2b整合外部(牧场)和内部(畜舍)THI数据预测与品种特异性耐热信息,帮助农民在THI上升背景下做出知情品种选择。基于文献综述,研究人员建立了涵盖奶牛和肉牛用途及具体品种(荷斯坦牛、娟珊牛、瑞士褐牛等)的THI耐受阈值表,采用从绿色到红色的颜色编码系统指示从无应激到严重热应激的状态。
服务2c与ANAPRI合作,通过将THI作为协变量纳入模型,估计应激适应性估计育种值(EBV)。模型在常规IDAS(可持续双用途指数)基础上,增加畜舍内前5天平均THI作为协变量,使农民和育种中心能够获得动物在平均条件和应激条件下的互补遗传潜力信息。
**服务3:牧场生物量评估**
该服务利用卫星数据检测植被状态,评估用户自定义区域内鲜重和干重生物量。研究在意大利中部拉齐奥地区两个农场采集数据,共33个采样日,297个采样点。采用"理性放牧"管理系统,在每次采样日从低、中、高归一化植被指数(Normalized Difference Vegetation Index, NDVI)的3个区域采集样本。使用Sentinel-2卫星数据,包括B2、B3、B4、B5、B6、B7、B8、B8A波段及NDVI、NDWI(归一化水体指数)、EVI(增强型植被指数)、GLI(绿叶指数)、SAVI(土壤调节植被指数)、GCI(绿色叶绿素植被指数)、RGR(红绿比率)、SIPI(结构不敏感色素指数)、ARVI(大气阻抗植被指数)、NBRI(归一化燃烧比率指数)等指数。经多元线性回归测试,鲜重最优模型(波段B2、B3、B8;指数NDVI、NDWI、GLI、GCI、RGR)R
2为0.47;干重最优模型(波段B2、B4、B6、B8A;指数NDVI、GLI、GCI、SIPI、ARVI)R
2为0.25。研究指出结果低于既往分析,可能源于现场样本数量有限及不同牧场、不同季节采样的变异,未来计划纳入气候和地形数据作为固定效应或机器学习特征。
**服务4:寄生虫与疾病传播风险**
服务4a聚焦于预测意大利撒丁岛绵羊蓝舌病感染风险概率。研究人员采用逻辑多层混合模型,整合来自5,600个农场的数据,包括农场信息(纬度、经度、动物数量、确诊病例日期、疫苗接种日期)、气候数据(来自Highlander DDS的NetCDF文件,包括平均/最低/最高温度、相对湿度、云量、降水、风速、太阳辐射,采集确诊病例前60天数据,以5天间隔平均)和环境数据(来自撒丁岛地理门户网站)。经皮尔逊相关系数和方差膨胀因子处理共线性后,通过AutoML比较多种算法,最终选择GBM模型(验证集MAE最优),采用43个变量中的67个初始变量,经5折交叉验证,以75%数据训练、15%测试、10%验证。模型输出0-100的定量指数,用于静态和动态预测。
服务4b研究体细胞计数(Somatic Cell Count, SCC)变化作为乳腺健康状况的代理指标。利用与服务2a相同的数据集和流程,采用GBM机器学习模型。特征重要性分析识别风速为最关键气候变量,而非通常出现的温度,这可能由于该表型聚焦于 cattle健康而非生产。模型提供短期和长期效应的SCC变化三色指数。
**讨论与结论总结**
SEBASTIEN通过整合异构数据源于统一可扩展架构,支持家畜养殖中的短期运营决策和长期气候适应策略。服务1a在450,000条记录的大型数据集上实现了高准确度的内部THI预测,尤其在严重热应激条件下预测可靠性提升;服务1b扩展至长期气候情景预测;服务2a基于超过250万条表型记录开发了产奶量和奶质预测模型,通过SHAP分析识别关键气候驱动因素;服务2b和2c分别提供品种选择和遗传改良工具;服务3初步验证了卫星数据支持牧场生物量评估的可行性;服务4a建立了蓝舌病风险预测模型,服务4b探索了SCC作为乳腺炎风险指标的应用。
然而,研究也存在若干局限:部分服务依赖特定区域或品种数据,可能限制其可推广性;跨不同农场情境的外部验证尚待进行;平台规模化运营效果需进一步评估。为最大化解决方案影响,需要更大程度的利益相关者参与、与农场决策流程的更紧密整合以及持续的技术更新。可持续家畜养殖的未来将日益依赖于采用能够应对气候变化和不断演变的市场需求所带来的挑战的数据驱动解决方案的能力。