一种用于精准家禽监测的纵向多模态大数据基础设施

《Frontiers in Big Data》：A longitudinal multimodal big data infrastructure for precision poultry monitoring

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Big Data 2.3

编辑推荐：

　　摘要随着牲畜系统越来越多地配备各种传感器，所产生的数据仍然分散、寿命短暂，并且很少被作为集成基础设施进行记录。这一差距限制了在实际生产条件下发展出强大的多模态人工智能。本文介绍了一个用于家禽监测的纵向多模态数据基础设施，该基础设施涵盖了五个商业风格鸡舍连续22周的数据。该数据

　　摘要

随着牲畜系统越来越多地配备各种传感器，所产生的数据仍然分散、寿命短暂，并且很少被作为集成基础设施进行记录。这一差距限制了在实际生产条件下发展出强大的多模态人工智能。本文介绍了一个用于家禽监测的纵向多模态数据基础设施，该基础设施涵盖了五个商业风格鸡舍连续22周的数据。该数据集结合了连续的RGB视频（1080p，30 fps）、连续音频（48 kHz）、定期的辐射热成像以及每日两次的环境测量，共产生了10.2TB的时间异构数据。这项研究并非专注于特定的预测任务，而是解决了基础的数据工程挑战：如何在生产规模上获取、同步、存储和预处理多模态数据流。我们详细描述了一个可复制的系统架构，包括分布式感知、本地缓冲、安全传输和基于云的组织方式，以及标准化的预处理流程，如光照校正、声学去噪和辐射温度提取。通过基于时间戳的归一化实现了不同模态之间的时间对齐，并明确指出了在实际约束下的对齐精度和缺失数据问题。这项工作将多模态牲畜感知视为一个数据系统问题。所得数据集支持纵向分析、跨模态查询以及在适当的时间尺度上开发和评估机器学习和多模态融合方法。通过发布数据和相关工作流程，我们为构建和评估精准农业中的AI系统提供了透明且可扩展的基础。

1 引言

牲畜系统的日益数字化加速了机器学习在监测动物健康、福利和生产力方面的应用。在家禽系统中，已经应用了多种传感方法来检测福利状态和生理异常，例如声学分析（Manikandan和Neethirajan，2025年；Qiao等人，2026年）、计算机视觉（Nasiri等人，2024年）、红外热成像（Solis等人，2024年）和环境感测。尽管这些单模态系统在有限的环境中可以实现强大的预测性能，但它们只能捕捉到复杂的生物和环境过程的部分信息。多模态集成通过数据融合架构结合互补的传感器流，提供了一种更全面的监测方式。然而，尽管对动物系统的多模态学习兴趣日益增长，但大多数已发表的研究仅整合了有限的模态，并且在短期或严格控制的环境条件下进行（Sun等人，2025年）。因此，可重复性、跨研究可比性和实际部署仍然受到限制。除了算法开发之外，数据基础设施层面还存在更根本的瓶颈。

适合商业农业环境中纵向分析的大规模多模态数据集仍然很少。现有的与动物相关的数据集，如COCO Animal（Lin等人，2015年）、Animal-POSE（Cao等人，2019年）和AP-10K，虽然推动了计算机视觉研究的发展，但主要关注在不受控制的室外环境中收集的静态RGB图像。最近的一些尝试引入了多模态数据集，如MMCows（Choi等人，2024年），它将可穿戴传感器与多视角视频同步；以及MetaWild（Li等人，2025年），它将视觉数据与环境元数据配对以进行重新识别。然而，我们的数据集以其22周的纵向范围和更广泛的模态组合而区别开来，包括连续的高分辨率音频和辐射热图像。特定领域的数据集（如牛（Choi等人，2024年；Zia等人，2023年）、猪（Chae等人，2025年）和肉鸡）通常仅限于单一模态或短期记录。很少有数据集同时解决时间连续性、异构传感器集成和在扩展生产周期内的可重复记录问题。

从大数据系统的角度来看，多模态牲畜监测引入了超出模型性能范围的挑战。视频、音频、热成像和环境通道的连续感测产生了具有不同采样率、文件格式和存储需求的异构数据流。这些数据流必须在时间上进行同步、安全传输、大规模存档，并为下游分析做好准备，同时保持数据真实性。实际的农业环境还引入了真实性约束，包括噪声、遮挡、光照变化和手动记录的干扰（Essien和Neethirajan，2025年；Panagi等人，2025年）。缺乏公开记录的采集框架和纵向数据集限制了可扩展的、适用于农业的AI系统的进展。

为了解决这些基础设施上的差距，我们提出了一个纵向多模态数据采集框架，并公开发布了在五个商业风格家禽鸡舍中连续22周收集的大量数据集。该数据集整合了四种互补的模态：1080p分辨率的连续RGB视频、连续48 kHz音频记录、定期的辐射热成像以及每日两次的温度和相对湿度测量。原始数据集总共包含10.2TB的同步多模态数据，涵盖了从早期到成熟生产阶段的整个过程。

本文提出了四个主要贡献。首先，我们设计并实现了一个可扩展的多模态采集架构，能够在商业鸡舍条件下管理连续的异构传感器流。其次，我们通过开放存储库发布了完整的数据集和相关预处理流程，以支持可重复性和重用。第三，我们记录了针对光照校正、声学去噪和辐射温度提取的模态特定预处理工作流程，实现了标准化的下游分析。第四，我们从大数据属性的角度提供了数据集的系统级特征描述，包括体积、多样性、速度、真实性和价值，并明确考虑了与SDG 9相一致的可扩展性和部署约束。总体而言，这项工作为精准畜牧业中的多模态机器学习建立了一个可重复的数据基础设施。我们的重点不是推进特定的预测模型，而是实现强大的集成、时间对齐和生产规模上的可重复数据管理。通过记录采集、同步和存储策略以及开放数据发布，本研究为未来的传感器融合、纵向建模和AI驱动的农业研究提供了基础基础设施。

本文的其余部分结构如下：第2节描述了实验环境和数据收集协议；第3节详细介绍了多模态采集架构和部署配置；第4节概述了预处理和数据管理流程；第5节通过大数据属性和描述性统计特征对数据集进行了描述；第6节讨论了基础设施挑战、可扩展性考虑和限制；第7节总结了精准农业中多模态数据系统的意义。

2 实验设计和数据收集协议

2.1 研究地点和鸡舍配置

数据收集在加拿大新斯科舍省特鲁罗的达尔豪斯大学农业校区的大西洋家禽研究中心进行。该设施包括五个封闭的研究鸡舍，设计旨在反映商业风格的家禽饲养条件。每个鸡舍都采用单室布局，设有喂食、饮水、休息和一般移动等功能区。鸟类被放置在铺有木屑垫料的地面上，以允许其自由活动并表现出自然的群体行为。每个鸡舍大约为3米×3.5米。图1展示了鸡舍内的传感器空间布局，包括上方摄像机的位置、麦克风的位置、热成像区域和环境监测点，以确保全面的空间覆盖和跨模态同步。

2.2 动物群体

共有150只Lohmann LSL Lite产蛋鸡在五个鸡舍中进行了监测，每个鸡舍饲养30只鸟。选择Lohmann LSL Lite品种是因为它在鸡蛋生产系统中的广泛应用。这些鸟于2025年6月5日被放入设施中，并连续监测了22周。数据收集的延长时长旨在生成涵盖整个22周纵向采集窗口的多模态记录。本研究的重点在于数据采集框架和基础设施，因此仅提及生物发育轨迹以定义数据集的时间覆盖范围。

2.3 伦理批准

所有动物程序均经过达尔豪斯大学动物护理和使用委员会（Dalhousie ACUC）的审查和批准（协议批准编号2025-012），符合加拿大动物护理委员会的规定。该研究属于非侵入性观察研究，未引入任何超出标准饲养实践的实验性操作。所有传感设备都安装得避免与鸟类直接接触，数据收集程序设计得尽量减少对常规鸡舍操作的干扰。

3 多模态数据采集框架

多模态数据采集框架旨在实现商业风格鸡舍条件下异构传感器流的同步捕获、结构化存储和可重复处理。该系统基于四个指导原则进行设计：非侵入性部署、时间同步、可扩展存储和下游计算的兼容性。图2展示了采集架构，显示了从传感器捕获到本地缓冲、计划传输和集中存储的数据流。该框架整合了四种互补的模态：RGB视频、音频、热成像和环境感测。每种模态以不同的采样频率运行，并产生不同格式的数据，需要在基础设施层面进行明确的协调。表1总结了五个鸡舍中的传感器配置。所有采集组件的部署都尽量减少对常规鸡舍操作的干扰，同时保持一致的空间覆盖和时间戳完整性。

3.1 热数据采集

3.1.1 硬件规格

使用FLIR Cx5热成像相机获取辐射热图像，该相机能够以辐射JPEG格式捕获每像素的温度信息。rJPEG格式保留了嵌入的温度元数据，便于在后期处理中定量提取感兴趣区域的统计信息。热图像以原始辐射格式和标准JPEG格式存储，以兼容下游工作流程。辐射数据随后使用平台特定的提取工具进行处理，以获取感兴趣区域的温度值。

3.1.2 采集协议

热成像每两天进行一次，以平衡时间分辨率和手动采集的限制。由于采用每两天采样一次的安排，热图像旨在提供粗略的纵向生理背景，而不是与30 fps视频帧同步的输入。图像在大约50厘米的距离处以一致的角度拍摄，以减少几何变化。每张图像都标有日期和鸡舍标识符，并组织到结构化目录中以保持可追溯性。由于热成像是手动采集的，因此应用了严格的质量控制标准。受到运动模糊、遮挡或不完整帧率影响的图像被排除在外。虽然手动采集降低了时间粒度，但它实现了高保真的辐射捕获，而不会给鸡舍环境带来额外的硬件负担。因此，热成像不适用于与视频流的帧级融合，但它提供了RGB或音频模态无法捕获的补充生理背景，特别是用于热应激和环境负荷的纵向评估。

3.1.3 基础设施限制

热数据收集面临三个主要基础设施问题：手动采集限制了采样频率；遮挡和聚类导致可用图像的变异；辐射文件格式需要专门的软件来提取元数据。这些限制影响了预处理流程的设计，并突出了标准化文件组织和文档记录在多模态农业数据集中的重要性。

3.2 视频数据采集

3.2.1 相机配置

使用安装在上方的GoPro Hero 13相机捕捉连续RGB视频，分辨率为1920 × 1080，帧率为30 fps，采用HEVC压缩。视频文件以MP4格式记录，并在计划传输前存储在SD卡上。选择1080p分辨率是在空间细节和存储负担之间的权衡。在五个鸡舍中，视频占数据集的最大部分，约为10.2TB总大小的6TB。人工照明在所有房间中保持一致，以维持均匀的照明条件。然而，为了保持鸡的自然昼夜模式，夜间会关闭灯光。所有30只鸡都位于摄像机的视野范围内，允许全面观察群体行为和个体行为。图3展示了多模态同步框架，突出了不同模态之间的异构采样频率以及时间戳归一化和固定对齐窗口的发生情况。

3.3 环境条件

每个鸡舍内的环境条件通过设施的自动气候控制系统进行调节。温度和相对湿度根据适合母鸡发育阶段的既定饲养指南进行维护（Ferreira等人，2024年；Kim等人，2020年）。环境参数被持续记录，以提供多模态数据流的上下文元数据，并确保采集期间的稳定基线操作条件。异构采样频率在视频（30 fps）、音频（48 kHz）、周期性热成像和每日两次的环境记录中的示意图，以及时间戳标准化和固定对齐窗口如何为下游多模态分析提供统一的时间索引。

3.2.2 部署策略
摄像机被安装在上方以最大化空间覆盖范围，同时最小化遮挡。每个设备都被固定在稳定位置上，以确保在22周的采集期间帧率一致。照明条件遵循标准的畜舍时间表。尽管能见度较低，夜间记录仍然被保留，以保持跨模态的时间连续性。这一决定支持纵向一致性，即使某些段落在预处理期间需要照明校正。

3.2.3 运营限制
视频采集引入了几项基础设施层面的挑战：
- 24小时连续供电管理。
- 早期部署阶段的间歇性过热问题。
- 高存储需求和文件传输调度问题。
- 照明变化影响下游计算机视觉任务。

为了缓解过热问题，分辨率被标准化为1080p。视频文件定期传输到外部硬盘，随后上传到加密的云存储中。除了HEVC编码外，没有应用实时压缩技术来保持数据保真度。

3.3 音频数据采集
3.3.1 录制系统
音频流使用Zoom H4N Pro录音机、Zoom F6现场录音机和Wildlife Acoustic Song Meter SM4单元捕获。这些设备配置为以48 kHz的采样率和24位深度录制未压缩的WAV格式。表2提供了每个录制系统的技术规格，包括频率响应和麦克风指向模式。如图4所示，使用多种录音机反映了在实际部署中的考虑，同时保持一致的采样参数。

表2
房间ID | 录制设备 | 频率响应 | 最大声压级 | 幻影功率 | 指向模式
1 | Zoom H4N Pro + Rode NTG 2 | 20 Hz–20 kHz | 131 db SPL | +48 V | 超心形
2 | Wildlife Acoustic Song Meter SM 4 | 6 dB SPL | 全向
3 | Zoom F6 Recorder + Sennheiser MKH 416 | 40 Hz–20 kHz | 130 db SPL | +48 V | 超心形/枪形
4 | Zoom H4N Pro + Rode NTG 2 | 20 Hz–20 kHz | 131 db SPL | +48 V | 超心形

图4 显示了现场部署的音频录制仪器：(a) Zoom H4 Pro便携式录音机，(b) Rode NTG 2麦克风，(c) Wildlife Acoustic Song Meter SM4自主录音机，(d) Zoom F6多轨道现场录音机。
Zoom F6现场录音机（图4d）是一种专业现场录音机，能够以32位浮点格式录制，并配备双AD转换器。选择它是因为它能够以全音频质量捕捉微妙和强烈的声音。此外，其坚固的设计使其能够承受像家禽畜舍这样的动态环境。在数据收集过程中，我们将Sennheiser MKH 416麦克风连接到录音机上。Sennheiser MKH 416是一种短枪形麦克风，具有出色的指向性和紧凑的设计。由于其RF电容式设计，它对湿度具有很强的抵抗力，能够承受家禽畜舍这样的动态条件。这种配置使得家禽的叫声能够被清晰地捕捉到。
Wildlife Acoustics Songmeter SM4（图4c）是一种自主的生物声学录音机，具有防风雨外壳，配备两个第二代内置麦克风，可以生成高质量的鸟类录音。其双通道功能确保即使一个麦克风被野生动物干扰，录制也能继续进行。

3.3.2 安装和采样策略
麦克风被安装在距地面约2米的高度，以减少物理干扰和地面级别的声学伪影。整个22周的过程中，录音是连续进行的。每个2.5小时的音频片段大约产生2GB的数据，总音频量约为4.2TB。这种连续采集模型保留了昼夜周期和罕见的声学事件，使得下游的时间分析成为可能。

3.3.3 数据工程考虑
音频采集引入了不同畜舍之间麦克风响应特性的变化。环境噪声源，包括通风系统和喂食器互动，增加了背景信号的复杂性。所有录音在捕获时都添加了时间戳，以便与视频和环境流对齐。后处理流程旨在减少噪声，同时保留机器学习任务所需的频谱信息。

3.4 环境数据采集
3.4.1 传感器规格
环境数据使用Simbow CF-20多参数监测器记录，如图5所示。尽管该监测器能够测量其他变量（如VOCs和颗粒物），但在整个采集期间只有一致记录了温度和相对湿度，并包含在当前数据集中。环境测量每天进行两次，并以带有时间戳元数据的结构化电子表格格式存储。因此，每天两次的环境测量作为畜舍级别的低频上下文协变量，而不是用于即时帧对帧融合的连续信号。

图5 Simbow CF-20环境传感器的部署。壁挂式配置旨在最小化气流偏差，确保环境测量的一致性。环境记录支持结构化的上下文元数据捕获，以实现22周采集期间的时间同步和多模态数据集对齐。
CF-20可以实时数字测量，并通过其大屏幕显示，方便观察者一目了然地获得准确读数。此外，显示的参数对家禽福利、呼吸健康和行为反应至关重要。这种角色分离反映了层次化的多模态设计，其中高频行为模态由低频生理和环境上下文信号补充。

3.4.2 部署和记录
传感器被安装在距地面约2米的高度，以减少物理干扰和地面级别的声学伪影。整个22周的过程中，录音是连续进行的。每个2.5小时的音频片段产生大约2GB的数据，总音频量约为4.2TB。这种连续采集模型保留了昼夜周期和罕见的声学事件，使得下游的时间分析成为可能。

3.3.3 数据工程考虑
音频采集引入了不同畜舍之间麦克风响应特性的变化。环境噪声源，包括通风系统和喂食器互动，增加了背景信号的复杂性。所有录音在捕获时都添加了时间戳，以便与视频和环境流对齐。后处理流程旨在减少噪声，同时保留机器学习任务所需的频谱信息。

3.4.1 传感器规格
环境数据使用Simbow CF-20多参数监测器记录，如图5所示。尽管该监测器能够测量其他变量（如VOCs和颗粒物），但在整个采集期间只有一致记录了温度和相对湿度，并包含在当前数据集中。环境测量每天进行两次，并以带有时间戳元数据的结构化电子表格格式存储。因此，每天两次的环境测量作为畜舍级别的低频上下文协变量，而不是用于即时帧对帧融合的连续信号。

图5 Simbow CF-20环境传感器的部署。壁挂式配置旨在最小化气流偏差，确保环境测量的一致性。环境记录支持结构化的上下文元数据捕获，以实现22周采集期间的时间同步和多模态数据集对齐。
CF-20可以实时数字测量，并通过其大屏幕显示，方便观察者一目了然地获得准确读数。此外，显示的参数对家禽福利、呼吸健康和行为反应至关重要。这种角色分离反映了层次化的多模态设计，其中高频行为模态由低频生理和环境上下文信号补充。

3.4.2 部署和记录
传感器被安装在壁面上，以避免气流扭曲，并在整个研究期间保持固定位置。环境读数被手动记录，随后数字化为标准化格式。虽然手动记录限制了时间分辨率，但它减少了系统复杂性，并支持一致的纵向覆盖，而不会引入额外的自动化硬件依赖。

3.5 数据完整性和存储架构
通过将文件定期从本地存储介质传输到集中式存储库，保持了数据完整性。原始文件在整个采集期间以原始格式保存。
存储流程分为三个阶段：
i. 本地捕获和缓冲
ii. 计划传输到外部硬盘
iii. 加密后上传到云存储库

在采集期间没有进行任何预处理。所有转换步骤都分别记录下来，以确保完全的可重复性。这种结构化的采集和存储策略实现了跨模态的一致同步，并支持大规模异构农业数据流的扩展性下游分析。

3.6 时间同步和对齐
所有传感设备都使用独立的内部时钟运行，并且没有通过共享的硬件触发器或集中式计时系统进行连接。在每个记录期开始时，GoPro摄像机和音频录音机的内部时钟被手动同步到一个共同的畜舍参考时间。热成像和环境测量在采集时由操作员添加时间戳。因此，跨模态对齐是使用记录的时间戳进行的，而不是通过硬件级别的时钟锁定。
四种模态在不同的时间分辨率下运行：连续的RGB视频以每秒30帧的速度记录，音频以48 kHz的速度记录，而热图像每两天记录一次，环境测量每天记录两次。时间对齐是使用适合每种模态的固定时间窗口进行的，视频-音频流在第二级分辨率上对齐，热和环境流在每小时到每天的分辨率上对齐。视频和音频流使用帧级时间戳对齐，而热数据对齐到最近的记录日，环境数据对齐到预定义的上午和下午窗口。
由于使用了独立的设备，预计视频和音频流之间存在残余的时钟漂移。根据定期手动验证，视频和音频流之间的时间错位在每天时间尺度上大约为几秒。根据经验，视频和音频流之间的时间错位在每天记录期间保持在±1–2秒的范围内，这对于行为和活动级别的分析是可以接受的，但对于细粒度的多模态融合则不适用。因此，该数据集旨在用于粗略和中等时间尺度的分析、纵向建模和上下文多模态融合。它不适用于需要跨模态亚帧或微秒级同步的应用。这种设计反映了商业风格农业环境中的实际部署限制，在这些环境中，分布式传感系统通常是独立运行的。

虽然没有实施硬件级别的同步，但基于时间戳的对齐反映了分布式农业物联网系统的运行现实，其中独立的传感设备在没有集中触发的情况下进行部署。类似的对齐策略在基于现场的监测环境中被广泛采用，足以支持秒到分钟时间尺度上的行为、上下文和纵向分析。因此，该数据集明确设计用于多时间尺度分析，而不是需要亚帧精度的高级传感器融合。这种同步策略反映了农业物联网系统中的实际部署条件，其中硬件级别的时钟锁定很少可行，并支持在操作时间尺度上的可靠行为和上下文多模态分析。

4. 多模态数据预处理流程
4.1 环境数据预处理
环境数据在结构化的预处理步骤之后被整合为标准化的电子表格格式，重点是组织、协调和元数据一致性，而不是转换。原始Excel文件最初按房间和月份单独存储。这些文件被系统地检查，以确保变量命名惯例的一致性、时间戳格式的一致性以及所有畜舍之间测量单位的对齐。随后，每月的文件被合并成一个针对每个房间的单一纵向数据集，以便于时间连续性和跨模态同步。缺失或未定义的值被明确编码为NA或NAN条目，以保持透明性并防止插补偏差。为了保留原始采集特性，没有对环境测量进行平滑、过滤、标准化或统计转换。

4.2 热数据预处理
热图像以辐射度JPEG格式记录，保留了嵌入的每个像素的温度元数据。热数据的预处理主要涉及文件组织、质量控制和从感兴趣区域结构化提取温度值。原始rJPEG文件被上传到FLIR Ignite平台，以实现辐射度温度提取。由于直接rJPEG解析的开源支持有限，采用了结合供应商支持的提取和结构化制表的混合工作流程。
图6展示了用于区域标注和温度提取的分割工作流程。在处理之前，图像会先进行清晰度和无遮挡的筛查。选定的图像按周和畜舍分组，以保持时间顺序。使用平台工具手动划分头部和脚部区域，并在结构化电子表格中记录最小值、最大值和平均值。对于早期某些区域不可靠可见的星期，值被适当编码为NAN或零。这种明确的编码保持了数据集的完整性，并防止了纵向分析中的人为连续性。在此阶段没有进行插值或温度标准化。

4.3 视频数据处理
视频预处理的目的是标准化照明条件，同时保持原始的空间和时间分辨率。原始MP4文件在整个采集期间以1080p、30 fps的格式保存。初始参数调整是通过视觉检查进行的，以确定适合低光照畜舍环境的亮度、对比度和色调调整。一旦确定，所有最终参数就通过使用OpenCV构建的定制Python管道程序化实现，从而实现大规模视频文件的自动批量处理。这种统一的脚本化流程确保了可重复性，并避免了每次剪辑的单独调整。
亮度通过线性缩放增加了25%，而对比度和色调分别调整了10%和20%。这些值的选择是为了提高可见性，同时不引入过度曝光或颜色失真。图7展示了预处理前后的代表性帧。处理后的视频保持了原始分辨率、帧率和压缩格式。没有应用帧插值、裁剪或几何变换。视频预处理将平均帧强度从41.96提高到了64.48，反映了整体可见性的明显改善。自动化的批量方法最小化了人工干预，并确保了大约6TB视频数据中参数的一致应用。所有预处理步骤都是使用基于开源库（包括OpenCV和librosa）的完全可复制的脚本化管道实现的，最终数据集中没有包含任何专有或手动处理。定量验证显示，预处理将平均帧强度从41.96提高到了64.48，并改善了对比度，同时没有改变与运动相关的特征，这证实了信号增强是在不扭曲行为相关信息的情况下实现的。图7展示了视频数据处理前后的对比，突出了亮度校正的重要性，以确保能够可靠地跟踪母鸡的活动。

4.4 音频数据处理
音频预处理的目的是在保留对后续分析有用的频谱特征的同时减少背景噪声。所有录音都以48 kHz的采样率和24位深度存储在未压缩的WAV格式中。初始的降噪参数是通过观察频谱图和听觉验证使用Audacity来校准的。选定的参数包括12 dB的降噪幅度、12的灵敏度级别，以及在四个频带上的频率平滑处理。这些参数是使用基于Python的工作流程序实现的，其中包含了noisereduce库（Sainburg和Zorea，2025年）和librosa（Mcfee等人，2015年）。批量处理使得可以自动去除大量音频中的噪声，同时保持波形的完整性。图8展示了降噪前后的代表性频谱图。降噪参数的选择旨在保留已知发声频段的频谱结构，同时减弱静态背景噪声；相同的配置被应用到所有录音中，以保持不同鸡舍和时间段之间的可比性。验证步骤包括波形幅度分布和频谱连续性的比较。在预处理过程中没有进行压缩、下采样或特征提取，以保持原始信号的真实性，以便于后续的分析。

我们评估了我们的音频预处理流程对样本音频片段的影响，如表3所示。尽管由于降噪处理，绝对信噪比（SNR）值发生了变化，但与发声分析相关的频谱特征得到了保留。频谱分析显示，频谱中心位置的变化很小（+39 Hz），峰值频率保持不变，这表明我们的预处理流程在降低背景噪声的同时没有改变关键的发声特征。

5 数据集管理和初步数据探索
5.1 环境数据探索
5.1.1 房间级别的上午和下午（AM和PM）温度总结
为了描述昼夜结构和房间间的一致性，我们计算了每个鸡舍的早晨（AM）和下午（PM）的平均温度和相对湿度值，如表3所示。所有房间的平均温度在AM和PM时间段内相对稳定，范围在24.6°C到25.4°C之间。相比之下，相对湿度的变化较大，平均值在43%到55%之间。AM和PM的测量结果表明，环境记录捕捉到了一致的日常模式，同时保持了不同鸡舍之间的可比性。虽然AM与PM之间的差异不大，但这些时间标记为多模态对齐和探索性分析提供了结构化的参考点。
5.1.2 按房间划分的描述性统计
为了进一步描述分布特性，我们为每个鸡舍计算了描述性统计信息，包括温度和相对湿度的平均值、标准差、最小值和最大值，如表4所示。房间间的温度变化适中，标准差在2.1°C到3.0°C之间。相对湿度的变化较大，标准差大约在9.75%到15.43%之间。最小值和最大值表明，在22周的时间范围内，环境条件处于一个现实的操作范围内。

表5汇总了所有鸡舍的这些统计数据，提供了环境稳定性的整体概览。房间间观察到的一致性支持了环境记录的完整性，以及其与其它模态的匹配适用性。

表5还展示了降噪前后的音频质量指标对比。观测到的信噪比降低反映了静态背景噪声成分的去除，而不是相关信号的丢失，这一点从峰值频率的保留和频谱中心位置的最小变化中可以得到验证。

5 数据集管理和初步数据探索
5.2 热数据探索
5.2.1 热测量的描述性统计
在22周的采集期间，每两天进行一次热成像，共获得了大约3,200张适合定量分析的辐射度图像。图像在大约50厘米的标准距离处拍摄，以保持几何一致性。温度测量集中在头部和脚部感兴趣的区域。在整个数据集中，头部表面温度范围在30°C到33°C之间，而脚部表面温度范围在25°C到30°C之间。头部和脚部测量值之间的一致性差异通常为3-5°C，这表明辐射度数据集中存在一致的中间和边缘测量差异。这些汇总统计为热测量提供了基线分布背景，而没有引入转换或标准化处理，从而保留了用于后续建模的原始采集特征。此外，这些模式表明，尽管采样频率较低，热成像仍然能够捕捉到表面温度的平滑纵向变化，这可以在分析行为或声音变化时作为生理学背景。

5.2.3 辐射度数据的时间结构
图9展示了提取的温度值的周汇总，反映了采集期间的结构化时间连续性。早期几周的变化较大，随后在后期阶段逐渐稳定下来。从数据系统的角度来看，这种时间连续性证实了长时间内的持续辐射度捕获和注释。随时间观察到的方差减少反映了结构化的纵向信号，而不是采集或提取工作流程中的不连续性。头部和脚部测量的平行轨迹进一步表明整个数据集中感兴趣区域的稳定提取和一致的辐射度处理。

5.3 音频数据探索
在22周的期间，四个鸡舍进行了连续的音频记录，生成了大约12,000小时的音频数据。麦克风安装在距地面大约2米的高度，以确保一致的捕获几何形状并减少物理干扰。对音频流的描述性检查显示了明显的昼夜模式：在黑暗周期活动较少，而在白天的操作期间声音密度较高。数据集包含了广泛的发声特征，包括基线环境声音、社交发声和事件驱动的声学信号。经过第4.4节描述的降噪处理后，信号质量仍然适合进行频谱分析和机器学习工作流。扩展的时间覆盖范围支持与同步的视频、热数据和环境数据的交叉模态实验，无需额外的重新格式化。

5.4 视频数据探索
视频采集在所有五个鸡舍中都是连续的，由于夜间光线较低的时间段，共生成了大约15,600小时的可用镜头。头顶摄像机的位置确保了每个围栏内功能区域的连续空间覆盖。描述性检查确认了常见的鸡舍活动，包括进食、休息、移动和栖息。早期几周显示出更高的聚集密度，而后期几周则显示出更分散的空间模式。从基础设施的角度来看，主要的重要性在于在长时间内持续、不间断地捕获高分辨率视频流。数据集保留了原始帧结构和时间连续性，使得下游的计算机视觉分析、行为建模和事件检测流程得以进行，而不会丢失保真度。从音频流中得出的每小时发声密度在早晨进食和白天活动期间达到峰值，这与从视频中计算出的基于运动的活动指数相吻合。这两种模态在22周的时间范围内显示出一致的共变，表明热成像在粗略的时间尺度上捕捉到了对环境条件有生理意义的反应。

5.5 数据集的大数据特性
该数据集在体积、多样性、速度、真实性和价值等方面具备大数据的特征（Ugochukwu和Phillips，2024年）。这些特性在表6中进行了总结，并在下面进行了讨论。

表6展示了所有房间环境变量的汇总描述性统计。

5.5.1 体积
22周的采集过程生成了大约10.2 TB的原始多模态数据。视频占最大份额，约为6 TB，相当于15,600小时的视频，分辨率为1080p和30 fps。音频流大约占4.2 TB，代表12,000小时的连续录音，采样率为48 kHz。热成像大约包含3,200张辐射度JPEG文件，环境记录大约包含3,000条结构化条目。这种规模需要结构化的存储策略、定期的传输计划和批量预处理流程。数据集的大小支持大规模训练实验，同时保持了时间连续性。

5.5.2 多样性
数据集整合了四种不同的模态，具有不同的采样频率和文件格式。视频以压缩的MP4/HEVC格式存储，分辨率为30 fps。音频以未压缩的WAV格式存储，采样率为48 kHz。热图像以辐射度JPEG格式保存。环境数据以结构化的CSV和XLSX格式存储。这种多样性要求明确的同步和特定于模态的预处理工作流。数据类型的多样性使得多模态融合研究成为可能，同时也增加了对齐的复杂性。

5.5.3 速度
视频和音频流被连续记录，生成了五个鸡舍不间断的时间数据流。环境测量每天进行两次，热成像每两天获取一次。22周的连续采集时间捕捉到了长时间的变化、昼夜循环和罕见事件。连续的采集确保了时间建模方法可以在不进行人工分割或合成插值的情况下运作。

5.5.4 真实性
真实世界的鸡舍环境引入了结构化的噪声、遮挡、光照变化和手动记录的伪影。视频流在黑暗周期包含低光照段落。音频记录包括通风噪声和重叠的发声。热图像偶尔会因为鸡群的密度而出现遮挡。环境记录涉及手动转录步骤。数据集保留了这些约束，而不是在采集时过滤它们，从而增强了生态学的有效性，并支持了抗噪声AI系统的开发。在22周的时间窗口内，有效的视频覆盖率大约为计划记录小时的98%，主要是由于早期过热和电源中断。在3,200张捕获的热图像中，约87%通过了质量过滤。环境日志在各个鸡舍中的完整性达到了98%。所有丢失的观测值在发布的文件中都明确编码为NA/NAN。

表7总结了数据集的各种特性及其对AI研究的影响。这些特性共同将此数据集定性为生产规模的多模态资源，并强调了农业人工智能系统必须应对的实际运营难题。6 讨论 6.1 研究意义和贡献精准养殖业的迅速扩张加剧了人们对能够在商业规模上运行的传感器驱动监测框架的兴趣（Fan等人，2025年；He等人，2025年；Neethirajan，2020年）。然而，目前的许多文献仍然局限于特定模态，强调在受限数据环境中的算法性能。视频分析、声学分类器、热成像和环境传感通常都是独立开发的。这种碎片化限制了所部署系统捕捉实际生产环境中复杂且随时间演变的条件的能力。本研究在基础设施层面做出了贡献，而非仅优化模型。通过设计和记录一个集成RGB视频、音频、热成像和环境传感的同步采集框架，持续22周，我们解决了多模态数据工程中的基础问题。管理10.2 TB的异构数据需要明确协调存储架构、时间戳完整性、特定模态的预处理以及长时间数据传输调度。技术挑战不仅在于数据采集，还在于保持异步流的一致性并确保大规模的可重复性。该框架表明，在有结构的预处理流程和系统的质量控制支持下，在商业风格的畜舍中进行持续的多模态采集是可行的。每种模态都捕获了不同的信号特征，其价值在于互补性而非冗余性。然而，主要的贡献在于基础设施。该数据集作为一个可重复使用的骨架，可以在此基础上构建各种分析策略。它支持多模态时间表示学习、跨模态对齐研究、缺失模态的鲁棒性实验以及在真实噪声条件下的无监督异常检测。从多模态人工智能的角度来看，这四种流式数据具有互补作用：RGB视频解决了空间分布和群体级运动模式的问题；音频捕获了与社交互动和压力相关的语音特征；热成像提供了表面温度梯度形式的低频生理背景信息；环境传感提供了关于畜舍级别的结构化上下文元数据。因此，该基础设施旨在将视频和音频视为快速通道，而将热成像和环境测量视为较慢的上下文通道。重要的是，这项工作将重点从狭隘的预测性基准转移到可持续的数据生态系统。通过发布原始的多模态流式数据以及详细的预处理工作流程，该研究促进了方法论的透明度，并降低了后续机器学习研究的障碍。该数据集不绑定于单一假设或分类器，而是一个适用于多种人工智能架构的探索性和假设驱动的建模平台。更广泛的含义是，多模态数据基础设施而非单个传感设备，是下一代农业人工智能系统的限制因素。纵向一致性、存储弹性和同步逻辑决定了多模态学习能否从实验室原型转变为生产规模的应用。6.2 实际挑战和生态有效性在农业环境中的数据采集无法与运营现实脱钩。为动物管理优化的照明条件限制了视频的可见性。畜群密度引入了遮挡和可变的空间分辨率。通风系统产生了持续的声音背景噪声。手动记录环境变量引入了依赖人类的延迟。这些条件并非异常现象，而是商业系统的固有特征。从系统的角度来看，在数据集中保留这些条件增强了生态有效性。人为净化噪声、遮挡或变化性虽然可以产生更干净的信号，但会牺牲真实性。相反，数据集保留了这些复杂性，要求下游模型面对真实的部署限制。音频采集清楚地体现了这种张力：重叠的声音和环境噪声使得信号分离变得复杂。尽管去噪流程提高了清晰度，但完全区分单一声源的问题仍未解决。这表明多模态融合不仅仅是简单的叠加，而是具有消歧作用。视频流可以为声音事件提供空间背景，而环境数据可以为信号变化提供上下文。因此，集成可以缓解任何单一模态的固有限制。这种互补性使下游模型能够整合高速行为信息与较慢的上下文变量，这与大数据和人工智能系统中的典型多模态融合范式一致。类似地，光照变化需要视频流进行后处理调整。这些调整不应被视为单纯的纠正措施，而是传感器部署与计算精炼之间迭代关系的体现。基础设施和分析是共同发展的。因此，预处理不是辅助性的，而是多模态系统设计的核心部分。6.3 与可持续发展目标和数字基础设施的一致性该研究通过推动农业生产系统中的数字基础设施发展，直接促进了可持续发展目标9的实现。畜牧业的可持续创新不仅依赖于传感硬件，还依赖于互操作的数据架构、透明的工作流程和可扩展的存储策略。通过优先考虑可部署的非侵入式传感器并记录端到端的采集协议，这项工作强调了可重复性而非专有优化。通过Zenodo和GitHub的公开发布，该数据集从一个本地实验转变为共享的研究资源。公开可访问的多模态数据集减少了重复工作，并促进了不同建模策略之间的比较基准测试。它们还支持跨机构合作和复制，这对于将精准农业发展为一个成熟的科学领域至关重要。包含同步的环境元数据进一步将数据集置于气候感知的农业分析框架中。随着气候变化的加剧，建模方法必须结合环境背景与行为和生理信号。支持这种整合的基础设施是实现弹性食品生产系统的前提条件。6.4 局限性和未来方向在农业环境中进行数据采集不能脱离运营现实。为动物管理优化的照明条件限制了视频的可见性。畜群密度引入了遮挡和可变的空间分辨率。通风系统产生了持续的声音背景噪声。手动记录环境变量引入了人为依赖的延迟。这些条件并非异常现象，而是商业系统的固有特征。从系统的角度来看，在数据集中保留这些条件增强了生态有效性。在采集过程中人为净化噪声、遮挡或变化性会以牺牲真实性的代价产生更干净的信号。相反，数据集保留了这些复杂性，要求下游模型面对真实的部署限制。音频采集清楚地体现了这一点：重叠的声音和环境噪声使得信号分离变得复杂。虽然去噪流程提高了清晰度，但完全分离单个声源的问题仍未解决。这表明多模态融合不仅仅是简单的叠加，还具有消歧作用。视频流可以为声音事件提供空间背景，而环境数据可以为信号变化提供上下文。因此，集成可以缓解任何单一模态的固有限制。这种互补性使下游模型能够将高速度的行为信息与较慢的上下文变量结合起来，这与大数据和人工智能系统中的典型多模态融合范式一致。同样，光照变化也要求对视频流进行后处理调整。这些调整不应被视为单纯的纠正措施，而是传感器部署与计算精炼之间迭代关系的体现。基础设施和分析是共同发展的。在这个意义上，预处理不是辅助性的，而是多模态系统设计的核心部分。6.3 与可持续发展和数字基础设施的一致性该研究通过推进农业生产系统中的数字基础设施，直接促进了可持续发展目标9的实现。畜牧业的可持续创新不仅依赖于传感硬件，还依赖于互操作的数据架构、透明的工作流程和可扩展的存储策略。通过优先考虑可部署的非侵入式传感器并记录端到端的采集协议，这项工作强调了可重复性而非专有优化。通过Zenodo和GitHub的公开发布，该数据集从一个本地实验转变为共享的研究资源。公开可访问的多模态数据集减少了重复工作，并促进了不同建模策略之间的比较基准测试。它们还支持跨机构合作和复制，这对于将精准农业发展为一个成熟的科学领域至关重要。包含同步的环境元数据进一步将该数据集置于气候感知的农业分析框架中。随着气候变化的加剧，建模方法必须结合环境背景与行为和生理信号。支持这种整合的基础设施是实现弹性食品生产系统的前提条件。6.4 局限性和未来方向本研究的局限性源于在商业风格农业环境中部署多模态传感系统的实际约束，这些限制定义了下游使用的适当范围。时间同步是通过独立运行的设备之间的时间戳对齐实现的，没有使用硬件级别的时钟锁定。虽然进行了手动同步到共同参考时间，但残留的漂移无法完全消除。因此，像视频和音频这样的连续模态之间的对齐在秒级别是可靠的，而与热成像和环境测量之间的对齐则相对粗糙，通常在几小时或几天范围内。因此，该数据集适用于纵向分析和上下文多模态融合，而不是帧级或微秒级的传感器融合。第二个限制来自不同模态之间的采样频率差异。连续的视频和音频捕获高分辨率的行为动态，而热成像（每两天一次）和环境测量（每天两次）提供低频的生理和上下文信号。这些较慢的模态最适合被视为时间聚合的协变量，特别是在分层或基于序列的建模框架中。在一个3米×3.5米的围栏内饲养30只鸡反映了机构的动物护理要求和控制研究条件，以确保稳定的传感部署。尽管更高密度的商业系统可能表现出更多的遮挡和更复杂的互动动态，但多模态传感架构、数据采集框架和同步策略独立于饲养密度，并且可以转移到商业环境中。因此，该数据集应被视为系统设计和多模态整合的方法论基准，而不是高密度生产环境的直接行为代理。该数据集发布时没有手动标注行为、健康或福利状态。这种设计优先考虑了原始信号的保真度和灵活性，适用于多种分析任务，但限制了立即用于监督学习的用途。相反，该数据集非常适合用于自监督学习、表示学习和探索性多模态分析。未来的工作将集中在通过自动化环境记录、硬件同步的时间机制以及增强型低光或红外成像来扩展基础设施。额外的努力将针对可扩展的标注策略，包括专家标记的子集、事件驱动的弱监督以及基于学习表示的半自动化标注。这些发展将有助于从通用多模态数据基础设施过渡到特定任务的基准测试资源。更广泛地说，这项工作强调了农业人工智能从以模型为中心的发展向以数据为中心的系统设计的转变。只有当多模态传感得到连贯、纵向且文档齐全的数据基础设施的支持时，才能真正发挥作用。通过在实际条件下展示这样的基础设施，这项研究为精准养殖业中开发 robust 的、具有上下文感知能力的人工智能系统奠定了基础。因此，这项工作的主要贡献不是在子帧级别进行细粒度的多模态融合，而是在农业运营约束下设计和验证可扩展的现实世界多模态数据基础设施。这一区别至关重要，因为它将数据集定位为在现实部署条件下实现强大多模态人工智能发展的基础，而不仅仅是理想化的实验室环境。7 结论在畜牧系统中，多模态传感通常只是在概念上讨论，但实际部署仍然受到数据工程现实的限制。在异构模态之间持续采集不仅需要传感器安装，还需要结构化的同步、可扩展的存储、规范的预处理以及能够支持可重复下游分析的透明文档。这里介绍的框架证明了在商业风格畜舍条件下，可以持续进行RGB视频、音频、热成像和环境传感的多模态采集。生成的10.2 TB数据集不仅反映了信号多样性，还反映了真实农业环境中的运营限制。照明变化、声学干扰、遮挡、手动记录和异步采样率都被保留为真实的系统特征，而不是人为抑制的不自然现象。这种保留是故意的。强大的人工智能系统最终必须在这样的不完美条件下运行。除了原始数据量之外，主要贡献在于阐述了一个可扩展的采集和预处理架构。该数据集及相关流程旨在作为社区共享的基础设施，用于在真实农场条件下开发和基准测试多模态人工智能方法。通过记录文件格式、同步策略、批量处理流程和存储工作流程，这项工作推进了精准农业中的方法论透明度。基础设施，而非孤立模型性能，越来越定义了多模态人工智能进步的上限。没有纵向的、异构的、公开可访问的数据集，传感器融合仍然只是一个理论目标。同步多模态流式数据和可复制的预处理代码的公开发布为多样化的分析范式奠定了基础。研究人员可以在不受预定义结果标签限制的情况下进行多模态表示学习、跨模态对齐、异常检测或鲁棒性测试。这样，数据集作为一个共享基础设施，而不仅仅是一个单一用途的基准。尽管存在局限性，但这些局限性具有指导意义。手动环境记录限制了时间粒度。低光照条件影响了某些视频片段。热成像依赖于周期性采集而非连续自动化。这些限制为未来的系统改进指明了明确的方向，包括硬件同步的时间戳、自动环境记录和增强的低光成像策略。这一更广泛的含义超出了家禽系统。随着农业向数据密集型管理的转变，挑战从传感可行性转移到了基础设施的完整性。可扩展的多模态框架必须在真实性与可重复性、异构性与连贯性、开放性与运营实用性之间找到平衡。这里描述的架构通过证明可以生成、管理和共享纵向的高容量多模态数据集，为这一转变做出了贡献，而不牺牲生态有效性。精准养殖业的可持续进步将依赖于能够支持适应性人工智能系统的互操作数据生态系统。建立这样的生态系统需要仔细关注采集设计、预处理的严谨性和开放传播。这里介绍的框架和数据集代表了朝这一目标迈出的一步，为未来的多模态分析和部署就绪的人工智能系统提供了持久的基础设施。

热点排行