基于YOLO的驾驶舱外部环境感兴趣区域分割方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：YOLO-based region of interest segmentation method for cockpit external environment

【字体：大中小】 时间：2026年03月11日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　提升飞行安全视觉辅助系统的ROI分割精度研究

刘海波|司海清|王海波|尚雷|李一轩|李根|杨长江|鲍振中

南京航空航天大学民航学院，中国南京210016

摘要

准确分割驾驶舱感兴趣区域（ROIs）对于飞行员视觉辅助系统至关重要，但目前的方法难以应对环境变化和驾驶舱信息的高复杂性。为了解决这些挑战，本研究提出了YOLO-EES，这是一种专为动态飞行环境中的稳健感知设计的增强型语义分割网络。具体来说，我们在主干网络中引入了wConv和EMA来减轻视觉噪声引起的特征退化。此外，C2f模块使用多阶门控聚合（MOGA）进行重构，并与颈部架构中的CPCA结合，以优化多尺度特征融合，从而提高对小型或被遮挡仪器的检测能力。为了验证该方法，我们基于在不同条件（白天、雾天和夜间）下收集的飞行员眼动数据构建了一个专门的数据集。实验结果表明，YOLO-EES取得了显著的性能提升——精度提高了2.75%，mAP50-95提高了3.75%——同时模型复杂度保持在一个可管理的范围内。这些发现证实了所提出的计算框架在恶劣工程场景中实现可靠驾驶舱监控的有效性。

引言

模拟飞行是飞行员培养飞行技能和研究人为因素的关键方法[1]、[2]、[3]。其核心目的是提供一个高度真实的飞行环境，包括三个关键组成部分：驾驶舱仪表板、外部环境和控制界面。仪表板为飞行员提供高度、速度和姿态等重要参数；外部环境提供包括跑道和地标在内的关键参考信息，在低空飞行阶段尤为重要。同时，控制界面是飞行员操纵飞机姿态以完成任务目标的操作媒介。

低空飞行阶段，特别是起飞-爬升和降落-进近阶段，在任何飞行任务中都承担着最高的风险[4]、[5]。一个主要因素是在这些阶段需要监控的大量关键信息，加上人类注意力资源的有限性[6]、[7]。注意力分配不当会显著影响飞行安全。眼动技术目前是研究飞行员注意力分布的主要工具，因为它能够精确记录眼球运动[8]、[9]。然而，航空领域现有的眼动研究受到设备限制：眼动追踪器通常要求被试头部和视觉刺激之间有固定的相对位置，主要是为了便于感兴趣区域（ROI）的分析。在模拟飞行研究中，ROI通常通过信息类别来定义——例如，将仪表板与外部环境分开——使用静态图像作为参考模板。这种方法需要严格的头部稳定，以确保眼动数据与静态参考框架之间的准确对齐。然而，在实际飞行操作中，头部固定是不切实际的；飞行员经常调整他们的姿势和头部位置以优化信息获取。这些动作会导致记录的视频中ROI动态移动，使得基于静态的ROI方法在眼动分析中非常不准确。

当代的语义分割模型能够实现像素级别的图像分割，许多研究利用这些算法进行目标分割任务[10]、[11]、[12]。深度学习方法在各种复杂的工程环境中表现出显著的适应性，特别是在遥感和海洋监测领域。这些领域面临与航空类似的关键挑战——例如目标尺度的极端变化和背景干扰。为了解决边缘设备上的计算限制，HyperLi-Net[13]提出了一种用于合成孔径雷达（SAR）图像中高速船舶检测的超轻量级架构。针对数据分布问题，平衡学习网络（BL-Net）[14]引入了一个专用框架来在不平衡条件下提高性能。此外，还开发了高级策略，如极化融合与几何嵌入[15]和渐进式检测范式[16]，以应对杂乱场景中的识别复杂性。最近，在高分辨率遥感语义分割领域，研究重点转向了背景噪声的抑制。包括频率引导去噪网络[17]、位置感知差分去噪Transformer[18]和欧几里得亲和增强双曲神经网络[19]在内的新方法，在保持模型效率的同时成功提高了分割精度。这些处理噪声、尺度和效率的方法创新为开发可靠的驾驶舱内感兴趣区域分割系统提供了宝贵的见解。

然而，驾驶舱外部环境的分割面临独特的挑战：首先，场景包含多样化的semantic元素（地标、机场区域、跑道），导致复杂的纹理和颜色分布；其次，视觉内容在飞行阶段不断变化（例如，滑行和巡航视图之间的显著差异）；第三，环境条件（日光、夜晚、低能见度）产生截然不同的视觉输入；最后，飞行操作的时效性要求实时处理能力。这些综合因素使得开发驾驶舱外部环境的ROI分割模型特别具有挑战性。

本文重点关注眼动记录的模拟飞行场景的ROI分割方法。我们设计了一个涉及学生飞行员的模拟飞行实验，从记录的视频中提取了帧数据，并构建了一个专门的驾驶舱外部场景ROI数据集。为了提高分割性能，我们优化了YOLOv8n-seg模型。后续部分详细介绍了模型优化策略、实验程序和性能改进的比较分析。

部分摘录

YOLOv8模型

YOLOv8模型是由Ultralytics团队和许多贡献者[20]提出的实时多任务模型，它在YOLOv5模型的基础上整合了多种高级模块并优化了多个结构组件。这进一步提升了模型的性能和多功能性，使其在边缘设备部署和工业应用中优于其他模型。YOLOv8根据架构差异分为五个级别（n、s、m、l和x）

实验设备

实验装置包括一个模拟飞行平台（集成方向舵、油门踏板、显示器、键盘、鼠标和桌面主机）、一台笔记本电脑、一台台式电脑以及一个头戴式眼动追踪器。

笔记本电脑配置为在整个实验过程中记录眼动数据，运行在Windows 10 64位系统上。台式电脑专门用于实现图像识别算法，运行在Windows 11 64位操作系统上

模拟飞行外部环境数据集

实验中收集了9组场景视频数据。对场景视频数据的分析显示，场景视频数据的帧率为每秒25帧，即每秒记录25帧图像。从实验视频中，每隔一秒提取一帧图像用于外部场景数据集。最终，用于模型训练的图像涵盖了三种实验条件：白天、雾天和夜间。

结果

为了满足复杂环境中外部环境分割任务的要求，对YOLO模型的训练过程进行了调整。基本框架采用了AdamW优化器，结合了余弦退火学习率策略（cos_lr = True）、学习率热身（warmup_epochs = 3）和权重衰减（weight_decay = 0.05），以平衡训练稳定性和泛化能力。训练设置为运行100个周期，在后期阶段

讨论

作为基线框架，YOLOv8n-seg模型提供了一个基础架构；然而，其外部环境的分割性能仍然不够理想，需要进一步改进。因此，采用了五种优化策略。

将wConv集成到模型中，在所有分割性能指标上取得了全面的改进。通过利用一种为卷积内核中不同位置的像素分配不同权重的机制，wConv

结论

为了提高驾驶舱外部环境模型的分割性能，对YOLOv8n-seg模型进行了优化，从而开发出了YOLO-EES模型。在测试集上的测试结果表明，尽管YOLO-EES模型的TNP和SMWF有所增加，但其整体分割精度得到了提高——mAP50和mAP50-95分别提高了3.38%和3.75%。

手稿准备过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了Google Gemini进行语言润色。使用该工具/服务后，作者根据需要审查和编辑了内容，并对发表文章的内容负全责。

CRediT作者贡献声明

刘海波：撰写——原始草稿、验证、方法论、概念化。司海清：撰写——审阅与编辑、监督、资金获取。王海波：软件、形式分析。尚雷：资源。李一轩：调查。李根：项目管理。杨长江：可视化。鲍振中：数据整理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国航空科学基金会[2024Z071052007]、教育部脑机智能技术重点实验室[南京航空航天大学][Grant NJ2024029]、民用飞机驾驶舱人机智能交互安全风险评估技术和方法研究[Grant U2033202]以及[中央高校基本科研业务费][Grant NS2022094]的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号