综述：用于实时食品安全与质量的多模态人工智能：从传感器到基础模型、边缘部署与监管

《Food Science & Nutrition》：Multimodal AI for Real-Time Food Safety and Quality: From Sensors to Foundation Models, Edge Deployment, and Regulation

【字体：大中小】 时间：2026年02月21日 来源：Food Science & Nutrition 3.8

编辑推荐：

　　这篇综述深入探讨了融合多种传感信号（视觉、光谱、电子鼻、生物传感、过程遥测）的多模态人工智能（AI），如何实现对食品从农田到零售的全程、秒级实时监测与决策。文章系统梳理了感知技术、数据工程、融合架构、边缘部署及法规（如中国国家食品安全标准（GB））等关键环节，旨在推动构建可信、可审计的AI系统，以补充现有控制措施，减少浪费并保护消费者。

食品的安全与质量是相互关联但不同的概念。质量涉及营养、新鲜度、外观和口感等满足消费者期望的属性，而安全则关注是否存在可能危害消费者的生物、化学或物理危害。传统检测方法（如人工采样和实验室测试）存在耗时长、易出错等问题。随着技术的进步，该领域经历了从人工检查、早期机器视觉和单传感器自动化（20世纪90年代至2000年代），到2010年代深度学习被广泛采用的历程，显著提高了基于图像和传感器的检测精度。例如，现代深度学习不仅能检测水果表面缺陷，还能从细微外部线索推断内部腐烂或病害。

尽管取得了进展，但单模态系统存在固有的“盲点”：没有一种传感器能够洞察一切。这推动了多模态人工智能系统的兴起，该系统融合来自多种传感器类型的数据，以提供更全面和稳健的评估。不同的感知原理具有互补的优势和失效模式。例如，光学成像擅长捕捉可见缺陷或异物，而光谱学可以检测相机无法看到的分子组成变化；电子鼻可以嗅出光学或光谱传感器可能遗漏的腐败挥发物等。通过组合模态，可以减少错误：一个传感器遗漏的可能被另一个传感器捕获。

然而，设计有效的多模态食品监测系统面临重大挑战。不同数据类型（如图像、光谱、化学传感器读数等）具有不同的格式和采样率，使数据对齐和融合变得复杂。模型在部署时可能会遭受协变量偏移：例如，在一个季节的收成或特定加工厂训练的模型，在作物条件不同或新设施中可能会表现不佳。域漂移也很常见：传感器本身可能漂移（例如气味传感器的基线会随时间变化），食品特征也会演变（如新的变体、供应商或配方）。确保跨地点和跨季节的泛化需要大量代表性数据集，并且通常需要适应策略。此外，数据的异构性和体量带来了工程难题：将高速视觉数据与较慢的化学传感器数据同步并过滤噪声需要稳健的数据管道。在实践中，食品行业还面临着与隐私和数据共享相关的限制，因为生产数据可能是专有的；多模态人工智能系统必须通过联邦学习解决方案来应对这一问题。

这篇综述的目标是调查用于实时食品安全与质量保证的多模态传感和人工智能的最新进展。在接下来的内容中，我们将首先讨论从农田到餐桌链条上可用的传感模态范围，然后阐述如何为AI模型开发处理和策划这些异质来源的数据。我们还将分别介绍多模态模型架构、边缘部署以及监管展望。

传感与数据模态贯穿食品链

现代食品质量/安全监测采用了一系列传感模态，每种针对特定属性。

光学与成像传感器

光学成像涵盖常规的红绿蓝（RGB）相机、多光谱/高光谱成像仪、激光扫描仪（包括X射线成像）、荧光成像和热成像相机。这些传感器检测可见或空间缺陷，并广泛用于加工线上的自动视觉检测。常见应用包括检测异物、表面损伤或碰伤、颜色和形状分选（包括成熟度或大小分级），以及污染的间接迹象，如真菌生长或粪便污染点。光学系统因其快速和非接触而备受青睐。高速线扫描相机每秒可以检查数十个物品。例如，一个使用YOLOv5深度学习模型的最新系统以98.3%的准确度和每幅图像仅2.6毫秒的推理时间识别鲜切蔬菜上的外来碎片。

高光谱成像（HSI）在光学检测中增加了化学维度。高光谱成像可以无损地绘制成分图（如水分或脂肪），并检测RGB中不可见的缺陷，如谷物内部的早期腐烂或霉菌毒素感染。例如，一个鉴别真菌感染谷物籽粒的高光谱成像系统在对感染进行分类时实现了>90%的准确度，在对特定霉菌毒素污染水平进行分类时实现了>80%的准确度。荧光成像是另一种光学工具：许多细菌、霉菌和残留物在紫外光下会发出荧光，因此具有适当激发光的相机可以实时通过荧光特征揭示微生物污染或碰伤。热成像相机虽然较少用于质量分级，但用于监测烹饪或冷却过程，例如确保均匀烘烤或检查过热点。

光学传感器通常安装在生产线（如传送带上方）上，用于对产品进行100%的在线检查，或用于分级设施（用于农产品）和屠宰场（用于胴体检查）。 它们提供即时的通过/失败或分选决策。异物X射线/激光系统可以以>95%的准确度检测肉中的骨碎片等污染物。基于视觉的水果分选在许多情况下可以以90%–95%的准确度对水果进行分级。成像的优势在于高速和直观的结果（图像），但局限性主要在于其表面性（除非使用穿透性辐射如X射线，否则对内部组成的洞察有限）以及易受遮挡影响（例如泥土掩盖缺陷）。多光谱和高光谱设备也往往比普通RGB相机更昂贵且体积更大，尽管价格持续下降。

光谱传感器

近红外（NIR）、中红外（傅里叶变换红外，FTIR）和拉曼光谱等光谱方法提供食品的分子指纹。它们检测特定的化学键和组成，使其在评估营养成分（例如糖、蛋白质、水分）、检测掺杂物或污染物以及验证真实性（品种或地理来源）方面非常强大。与成像不同，光谱学不形成空间图像，而是给出样品的平均光谱，甚至是点测量（除非在高光谱系统中与成像结合）。

一个经典用例是快速成分分析：例如，便携式近红外仪器可以在校准后几秒钟内预测肉和乳制品中的脂肪或水分等特性，误差通常在±0.5%以内。对于掺假检测，近红外或拉曼光谱可能非常灵敏。一项使用近红外光谱的研究检测牛奶中的三聚氰胺掺假，通过应用偏最小二乘判别分析（PLS-DA）模型，在掺假牛奶与纯牛奶的分类上达到了100%的准确度。通常，化学计量学方法（偏最小二乘法、主成分分析等）一直是定量光谱分析的主力军，它们设定了强大的基线性能，新的机器学习模型旨在超越这一基线。拉曼光谱，特别是当与基底增强拉曼散射（SERS）结合时，甚至可以检测痕量污染物，如农药或非法染料，检测限在ppm到ppb水平。例如，一个具有纳米结构基底的SERS传感器以数十ppb范围的检测限识别了农药残留；另一份报告通过将SERS与优化提取相结合，在水果表面上实现了亚ppb（对于福美双为0.258 ppb）的检测。这些例子强调了可能的极端灵敏度：通过放大微弱的拉曼信号，基于SERS的方法可以接近监管残留限值。

预处理在光谱学中至关重要；通常应用标准正态变量（SNV）或乘法散射校正等方法以去除噪声和基线漂移。这些步骤以及化学计量学建模（例如构建偏最小二乘校准曲线）通常需要使光谱数据达到可分析状态——实际上，传统化学计量学构成了新型深度学习模型必须超越的初始人工智能。

光谱仪在实验室（用于确证分析的台式设备）和在线或旁线（用于现场检查的光纤探头、手持式近红外枪或微型傅里叶变换红外设备）中使用。 响应几乎是即时的（通常每次扫描几秒钟）。它可以直接洞察化学成分，通常无需样品制备（对于近红外/拉曼）。但它需要对每种产品基质进行校准；如果仪器或环境发生变化，性能可能会下降（需要进行校准转移或模型更新），并且光谱可能受到样品异质性的影响。尽管如此，光谱学提供了宝贵的信息层，补充了成像——能够捕获不可见的掺杂物或预测成像单独无法测量的质量指数（如通过可溶性固形物含量预测甜度）。

挥发性/气相传感器（电子鼻）

许多腐败和污染过程会释放特征性挥发性化合物。电子鼻是传感器阵列，通过检测食品释放的挥发性有机化合物（VOC）来模拟人类的嗅觉。典型的电子鼻采用一组非特异性气体传感器，例如金属氧化物半导体（MOS）或导电聚合物传感器，每种对不同的挥发物具有部分敏感性；通过机器学习分析集体响应模式，以识别气味或估计腐败水平。电子鼻在监测肉类、鱼类、水果的新鲜度/腐败以及检测异味或污染物（如鱼类腐败产生的胺类或发霉谷物的真菌气味）方面显示出特别的潜力。它们还用于真实性测试，包括区分饮料中的品种香气，甚至用于包装泄漏检测。

一个主要优势是速度——电子鼻通常在不到一分钟内嗅闻并返回结果。一项研究结合电子鼻和机器学习分类器预测储存肉的新鲜度，在区分新鲜与腐败样品方面达到了超过90%的准确度。另一份报告指出，便携式电子鼻在受控测试中对大多数质量评估案例的准确度超过了90%。事实上，一个为肉类开发的人工智能驱动电子鼻在测试包装样品时，对牛肉、鸡肉和鱼的新鲜度等级分类显示出约98%–99%的准确度，突显了在实验室条件下，气味可以是腐败进展非常具体的指标。

尽管取得了这些成功，传感器漂移和校准仍然是电子鼻面临的著名挑战。金属氧化物传感器的基线会随时间变化，传感器响应可能受到湿度、温度或传感器老化的影响。如果不进行补偿，电子鼻模型的准确度在长时间使用或在新的环境中应用后会显著下降。研究人员正在积极开发漂移补偿算法——例如，已经提出了半监督域适应方法以定期重新校准电子鼻数据流。另一个问题是选择性：与专用的化学分析仪不同，电子鼻产生复合信号（如气味），可能会被混合物混淆。这意味着需要对已知的香气进行广泛的训练，并且如果存在意外的挥发物，则存在干扰的风险。

尽管如此，现代电子鼻结合模式识别已在许多应用中实现了令人印象深刻的稳健性。它们通常用于接收或储存阶段——例如，嗅闻牛奶储罐、肉类冷藏室或农产品储存处的顶空气体，以便在人类感官检测到之前给出腐败的早期预警。它们也出现在包装线上（嗅闻密封包装的完整性），甚至出现在田间（嗅闻作物的病害标志物）。由于需要挥发物扩散和传感器平衡，响应时间通常在秒到一分钟的量级。许多电子鼻设备包括内部参考净化，并且需要定期用清洁空气调零。

电子鼻增加了至关重要的感官模态（“嗅觉”），可以捕捉到眼睛和光谱仪可能遗漏的信息。 它们对痕量气体的高灵敏度甚至可以在早期腐败检测中优于微生物平板计数。但代价是保持校准和一致性并非易事——在工业实践中，电子鼻可能需要频繁重新校准或更换以确保可靠性。研究仍在继续，以开发更稳定的传感器和减轻漂移的机器学习方法。

生物传感器与微流控检测

生物传感器是结合了生物识别元件（如抗体、酶、适配体或DNA探针）的分析设备，用于选择性检测特定目标，如病原体、过敏原或化学残留物。当目标物结合时，它们通常输出电信号或光信号。在食品安全领域，生物传感器旨在提供传统实验室测试（如培养平板或酶联免疫吸附试验）的快速、现场替代方案。现代生物传感器，包括侧向流免疫检测、酶基测试条和芯片实验室微流控技术，可以显著缩短病原体和毒素的检测时间。例如，用于像沙门氏菌这样的病原体的侧向流设备——有些可以在15分钟内提供结果，检测限在每毫升10⁴菌落形成单位（CFU）的数量级。将检测时间延长至1小时，该研究的灵敏度提高了十倍，达到约10³CFU/mL。这些时间范围相对于经典的培养（需要1–3天的孵育时间）来说是一个巨大的改进。同样，微流控聚合酶链式反应（PCR）设备已被证明可以在1小时内检测病原体，包括样品制备。许多生物传感器也针对过敏原和残留物：例如，用于花生或麸质等过敏原的免疫传感器通常可以在几分钟内检测到低ppm水平的污染。一个基于纳米颗粒的电化学传感器报告称，在食品提取物中检测到低至0.2 mg/kg的花生过敏原，这远低于典型的监管阈值，展示了通过纳米材料和信号放大如何不断提高灵敏度。在极端情况下，研究人员甚至实现了单细菌检测：一种先进的纳米材料生物传感器能够检测到样品中低至1个大肠杆菌细胞。这些成就虽然是在实验室环境中展示的，但突显了生物传感器在灵敏度上媲美实验室方法的潜力。

样品到结果的时间是一个关键指标。许多生物传感器集成了样品制备，如过滤或预浓缩样品，以加快分析速度。“直接”生物传感器有时可以应用于食品拭子或液体而无需富集，在<30分钟内产生结果，但通常代价是检测限较高。相反，如果可以等待几个小时，结合短暂的培养富集或DNA扩增步骤可以显著降低检测限。

生物传感器和微流控试剂盒经常用于旁线或现场测试；例如，质量控制技术员可以从生产线上取拭子或滴样，将其应用于测试盒，在批次完成前获得结果。一些生物传感器也被集成到加工设备中。其优势在于无与伦比的特异性，以及日益用户友好的便携式格式。许多需要消耗品，并且保质期有限；它们通常一次处理一种分析物，基质效应（如食物颗粒堵塞微流控通道）可能会干扰，因此有时需要样品制备。尽管如此，趋势是朝着更快、更多重化的生物传感器发展。在监管背景下，生物传感器的结果通常仍需要通过标准方法确认，但其实时警报允许加工者在等待确认期间更快地采取行动（扣留批次、启动清洁）。

过程与物流遥测

除了直接的产品传感器外，在整个食品生产和分销过程中收集了大量间接与安全和质量相关的“背景”数据。这包括过程遥测（机器设置、生产线速度、压力等）、环境传感器（温度、湿度、振动、储存中的气体水平）以及数字可追溯性数据（时间戳、通过射频识别（RFID）或条形码的位置、供应链记录）。虽然这些本身不是食品传感器，但它们对于多模态方法至关重要——当与产品观测相结合时，它们能够实现预测分析和可追溯性。

研究已经表明，使用动态温度数据来调整保质期预测（而不是假设理想条件）可以显著提高保质期标注的准确性。一项关于肉类运输的基于RFID温度记录仪的现场试验证明，实时温度数据能够实现比静态食用截止日期精确得多的动态保质期估计，允许生产商动态延长或缩短保质期，并可能减少浪费。类似地，运输过程中的湿度和振动传感器可以指示农产品压力——过度振动可能碰伤水果，或低湿度可能导致萎蔫。如果遥测标记出偏差，基于云的分析可以预测腐败风险增加，或触发警报以在接收时检查产品质量。现代供应链也使用全球定位系统（GPS）和RFID跟踪货物；当发生污染事件时，这些数据允许快速追踪受影响批次。在制造中，生产线传感器和可编程逻辑控制器（PLC）数据可以被人工智能模型利用以预测结果——例如，将蒸煮器温度曲线与最终产品微生物测试相结合，以构建一个基于蒸煮器性能异常预测污染风险的模型。管理数据，如清洁计划、操作员日志和配料来源，可以进一步丰富这一图景。

这些遥测和可追溯性数据流的一个关键作用是在多模态人工智能模型中作为预测因子。与直接测量危害的传感器不同，这些数据反映了与危害相关的条件。例如，运输过程中轻微温度滥用史可能不会显示立即的腐败标志物，但机器学习模型可以结合该历史记录来预测腐败发作的概率，比正常情况早2天。同样，将加工参数与产品传感器数据相结合，可以通过考虑过程的预期减少量来改进污染物检测。

在实践中，过程和遥测数据已经被广泛收集；挑战在于以有意义的方式将它们与传感器输出集成。许多食品公司正在开发其供应链的数字孪生体——用传感器和过程数据持续更新的虚拟模型——以运行模拟和风险预测。

这些传感器和数据系统在后台持续运行。 它们提供预防性洞察并增强可追溯性。但单独来看，这些数据并不能确认危害——它们指示风险。此外，还存在互操作性和数据过载问题：聚合来自数千个标签和传感器的读数需要强大的物联网基础设施和分析。尽管如此，当与直接测量结合时，过程遥测构成了多模态食品监测系统的“粘合剂”，将传感器发现与产品历史的何时/何地/如何背景化。

数据工程与策划

收集来自多个传感器的数据只是第一步；将这些原始流转化为可用于分析的数据集对于构建稳健的多模态人工智能模型至关重要。

统一异质数据流

在多模态设置中，对于同一个样本或批次，我们可能拥有相机图像、光谱读数、电子鼻的时间序列和标量过程参数。时间同步和数据对齐是一项基本任务：所有数据模态必须参考一个共同的时间线或事件。对于高吞吐量应用，这可能具有挑战性——相机可能每100毫秒拍摄一幅图像，而电子鼻可能需要10秒的采样周期。解决方案包括同时触发传感器或在离散事件之间插值较慢的传感器数据。在实践中，工业系统通常使用可编程逻辑控制器向所有传感器发送触发信号，以确保数据对应。当传感器以不同速率运行时，缓冲和时间戳允许软件随后通过最近时间戳或产品ID合并数据流。

除了时间同步，可能还需要空间配准。如果RGB相机和高光谱相机观察同一物体，它们的图像必须在空间上对齐。对于电子鼻或整体光谱数据，空间对齐不那么直接——这些可能对应于整个物体而非局部像素。在这些情况下，一种常见方法是将数据视为每个样本的独立特征。

数据标准化是另一个关键步骤。不同的传感器以截然不同的尺度和格式输出数据。将特征归一化到可比较的尺度是必不可少的，以防止在模型训练中某一模态占据主导地位。对于光谱数据，可以在与其他特征合并之前降低维度，以避免数百个波长导致的极高特征数量淹没少数图像特征。类似地，如果采用后期融合方法，图像数据可以被预处理为摘要特征，或者在使用集成深度模型时保留原始数据。

标签与地面真值对齐

监督学习需要地面真值标签或参考值，这对于多模态数据可能难以获取和对齐。通常，地面真值来自传统的分析方法，如微生物负载的平板计数、化学污染物的色谱法，以及质量评分的感官小组。对于主观质量指标，如外观可接受性、香气强度、质地、风味，标准的感官程序通常遵循已建立的感官科学协议和国际指南。在实践中，这通常包括：预定义的属性和商定的产品术语，使用锚定的类别量表，受控的测试条件，盲法、编码的样品和随机的呈送顺序，以及在可行的情况下重复评估以提高可靠性。重要的是，对于人工智能数据集，报告和存储感官协议的详细信息可以提高“地面真值”质量标签的透明度和可重复性。

确保这些参考测量与传感器数据对应于相同的样本或时间至关重要。这可能需要仔细的样品处理——分割样品，使一部分进入传感器阵列，另一部分进入实验室进行确证分析。在许多情况下，必须考虑跨模态的标签配准。例如，对齐鸡柳的X射线图像和可见光图像需要校准，以确保X射线中看到的骨头对应于可见光图像中鸡柳上的相同位置，然后才能将其标记为“存在骨头”用于模型训练。当不同模态看到产品的不同“方面”时，定义地面真值可能需要复合测量。

评价者间的变异性可能使标签复杂化，特别是对于主观质量指标。为了在实践中最大限度地减少这种变异性，感官协议通常包括评价者的选择和培训、一致的属性定义和锚定、受控的测试条件，以及对小组和个体评价者表现的持续检查。使用多个专家并取平均值或计算共识可以提高标签质量。无论何时使用主观标签，捕获谁进行了评分是很重要的。

数据集设计与采样策略

为了训练能够泛化食品产品自然变异的模型，必须精心设计数据收集活动。关键考虑因素包括捕捉多地点和多季节的变异性、代表产品变异的全部范围、确保包含罕见但重要的情况，以及管理类别不平衡，以便模型不会产生偏差。

跨产品变异的采样也至关重要。确保良好分布可以通过实验设计完成。在安全环境中，负采样值得关注——模型需要大量干净、可接受的产品以及危险产品的例子。由于危险污染很罕见，可能会使用大量来自各种来源的“好”产品作为代理负样本，以及合理数量的正样本，可能通过加标或富集产生。

类别不平衡是许多食品数据集中固有的。几种策略被使用：对少数类进行过采样、对多数类进行欠采样，以及算法方法，如成本敏感学习。另一种方法是对少数类进行数据增强。

覆盖危害的长尾是挑战性的，但很重要。在其他情况下，使用异常检测逻辑，例如，如果传感器读数看起来与训练中的任何数据都不同，则标记为人工审查。

另一个考虑是确保独立的评估集能够真正测试泛化能力。例如，一个模型可能会无意中学习到特定地点的线索。为了测试泛化能力，应该按地点或时间进行保留。

处理偏移、漂移与稳健性

食品系统是动态的：成分变化、传感器老化、过程偏差。因此，模型面临训练数据和实际部署数据之间的分布偏移。主动解决这一问题对于稳定的性能至关重要。

协变量偏移的一个例子是传感器漂移。一个实际的缓解措施是使用已知参考样本进行定期重新校准。更高级的方法使用机器学习域适应——可以在时间间隔内收集少量样本，并对模型进行“微调”或应用漂移校正算法。另一种方法是迁移学习。2023年，郭等人针对不同水果类型和仪器的近红外光谱研究了这个问题，表明应用校准转移程序可以跨领域保持预测准确性。

协变量偏移也来自原材料的变化。一种提高稳健性的方法是在训练中尽可能包含已知的变异。但对于未知的未知情况，可以结合自适应学习管道。一些工厂实施持续的模型重新训练或重新校准。为了检测模型何时超出其知识范围，可以采用分布外检测。系统可以监控某些特征或模型的置信度；如果样本看起来与训练数据非常不同，系统可以拒绝预测或升级到人工检查。

值得注意的是，为了正确测量稳健性，数据集应该以模拟偏移的方式进行分割。如果只进行随机分割，可能会得到过于乐观的结果。因此，研究人员经常进行留一组出验证，以查看模型是否能处理新条件。如果性能急剧下降，则表明需要域适应技术。

在某些情况下，数据增强可以人为地扩展稳健性。对于传感器如光谱，在训练光谱中添加合成噪声或轻微偏移可以教导模型对小的漂移保持不变。对于图像，增强可以帮助模型不依赖于训练中独特的光照条件。

最后，现实是食品人工智能模型可能需要定期重新验证。如果检测到偏移，系统应触发重新训练或重新校准。一些现代系统正在整合在线学习，模型使用新的标记数据（如果可用）进行增量更新。

简而言之，确保多模态管道中的稳健性是一个检测变化并对其做出响应的持续过程。通过设计，多模态融合本身可以提供一定的稳健性——如果一个模态由于漂移而失效，其他模态可能会补偿。设计融合模型以自适应地权衡输入是一个活跃的研究领域。正如萨尼斯拉夫等人在他们对电子鼻的综述中所观察到的，实现长期可靠性可能需要将电子鼻数据与其他传感器结合，并使用算法漂移校正，因为没有一个单传感器系统是完美稳定的。

多模态学习与融合架构

多模态机器学习结合来自多个传感器模态的数据，以改进食品安全和质量预测，超越单模态所能达到的水平。在食品系统中，这通常意味着融合视觉光谱、化学光谱、电子鼻/舌信号以及温度或其他传感器的时间序列。

融合分类与设计模式

在早期（特征级）融合中，来自每个模态的原始或预处理数据被连接并共同输入到一个模型中。这很早就捕获了跨模态交互，但需要数据对齐。在后期（决策级）融合中，每个模态由自己的模型处理，输出被组合。中期（混合）融合是指在最终预测之前，将每个模态的中间特征组合成联合表示。更高级的设计模式使用学习的门控或注意力机制来上下文化地加权模态。交叉注意力模块允许一个模态的特征通知另一个模态的特征选择。在标记数据有限的情况下，协同训练可以训练单独的模态特定模型，通过强制对未标记数据做出一致的预测来相互教导。集成方案也可以通过利用不同传感器输入的多样性来组合模态。每种融合方法都有权衡：早期融合可以利用低级别的相关性，但可能容易受到数据缺失的影响；后期融合更加模块化，对模态失效更稳健，但无法学习跨模态特征交互；中后期和基于注意力的融合提供了一种平衡，但代价是增加了模型复杂性。

跨光谱、图像与挥发物的表征

一个活跃的研究领域是学习联合嵌入空间，以在共同的特征空间中表示不同的数据类型。例如，已经学习了农产品的光谱-图像嵌入，其中每个水果的高光谱签名和其RGB图像补丁被映射到模型用于分类的统一特征向量。对比学习可以在这里使用：训练模型使匹配的多模态观测的嵌入比不匹配的更相似。这种技术使得例如将气相色谱-质谱（GC-MS）气味特征与微生物腐败图谱对齐成为可能，从而便于仅从气味中跨模态检索可能的腐败原因。

像高光谱成像这样的模态会产生三维数据，将这些数据与二维图像或一维信号融合具有挑战性。一种设计是在融合之前降低维度。另一种是三维卷积网络，从高光谱成像中提取光谱-空间特征，然后与二维图像特征连接。对于与图像或光谱结合的时间序列信号，可以通过时间对齐窗口或序列到序列模型来处理异步融合，这些模型对每个模态的序列进行编码，然后在决策阶段融合。

用于图像/高光谱成像的基于卷积神经网络的编码器很常见，而光谱数据和电子鼻信号可能使用一维卷积神经网络或长短期记忆网络编码器。最近的多模态食品研究探索了接受多个模态令牌序列的变换器——例如，将一系列光谱波段视为一个序列，将图像块视为另一个序列，并在它们之间进行交叉注意力。这在咖啡烘焙感官预测器中得到了演示：“跨通道”变换器融合了挥发性化合物数据和光谱指纹，通过捕获香气化合物和烘焙程度之间的相互作用，改善了风味属性预测。选择能够保留重要模态特定结构的表示对于下游性能至关重要。

实时应用中的时空建模

食品安全监测通常涉及流数据：来自生产线的视频、连续的传感器读数等。

多模态模型必须处理不同的采样率和潜在的延迟。方法包括缓冲较慢的传感器读数并进行插值或在更新之间保持其值，以便融合模型可以定期摄取所有模态的同步快照。例如，在实时鱼类加工线上，一种架构缓冲pH传感器值（每分钟更新一次）和相机帧（每秒30帧），以1Hz的频率向融合模型提供最新的图像帧和最后已知的pH值，以实时预测腐败。

建模腐败或成熟通常受益于序列模型或时间卷积网络，这些网络捕捉特征如何演变。一个多模态保质期预测平台结合了时间序列传感器数据和农产品的周

热点排行

新闻专题