《International Journal of Human-Computer Studies》:Voice Interaction Under Cognitive Load: Non-Verbal Auditory Inputs for Automated Vehicles
编辑推荐:
在自动化驾驶环境中,驾驶员需同时承担系统监督与非驾驶相关活动(NDRA)的双重角色,导致认知资源竞争。为优化人机交互效率与安全性,本研究系统评估了非言语听觉输入(NVAI)与语音结合的混合机制。通过三项实验(分别聚焦激活可行性、单任务性能及双任务认知干扰),研究发现:传统唤醒词在可靠性上占优,而响指等NVAI在控制精度和响应速度上表现突出,尤其在双任务场景下能有效降低对主监督任务的干扰。该研究为开发高效、低认知负荷的车载语音系统提供了关键设计依据。
随着人工智能技术的飞速发展,自动驾驶汽车(AV)正逐步重塑人类的出行方式。在这一变革中,驾驶员的角色从主动操作者转变为系统监督者,虽然体力负荷减轻,但新的认知挑战随之而来——他们需要在监控车辆运行状态的同时,随时准备接管控制权。更复杂的是,在高度自动化的驾驶场景下(如SAE L3级及以上),用户往往会从事各种非驾驶相关活动(Non-Driving Related Activities, NDRAs),如娱乐、办公或社交。这些活动会分散其注意力,可能导致驾驶员陷入“脱环”(Out-of-the-Loop)状态,从而在需要紧急接管时反应迟缓,危及安全。
语音交互因其能减少视觉和手动分心,被视为车载环境下理想的交互方式。近年来,自动语音识别(ASR)和大型语言模型(LLMs)的进步极大地提升了系统对自然语言语义的理解能力。然而,一个长期被忽视的关键环节是交互的“机制”本身——即用户如何启动、维持和终止一个语音命令。现有系统多依赖传统的唤醒词(Wake-Up Word, WUW),这种方式虽然可靠,但存在启动延迟、需要精确发音等问题,在认知资源本就紧张的驾驶监督任务中可能带来额外负担。
为破解这一难题,本研究独辟蹊径,将目光投向了“非言语听觉输入”(Non-Verbal Auditory Inputs, NVAIs)。这类输入不依赖于具体的词汇,而是利用人类发出的声音,如拍手、响指、哼鸣或音调变化等,作为控制信号。NVAIs在游戏、辅助技术等领域已证明其有效性,但将其应用于自动驾驶车辆进行主动控制,尤其是与语音命令结合的混合机制,仍是一个未知领域。这项发表在《International Journal of Human-Computer Studies》上的研究,通过一套严谨的三阶段实验框架,系统深入地探讨了不同的声音输入机制在自动化驾驶这一特定场景下的性能、用户体验和认知影响。
研究人员采用了多项关键技术方法来确保研究的科学性和有效性。实验在一个模拟自动驾驶舱的实验室环境中进行,使用驾驶模拟器(CARLA平台)呈现高速公路场景。研究核心采用了双任务范式,其中事件响应任务(Event Response Task, ERT) 作为主任务,模拟驾驶员对系统关键警报的监控与响应能力;而非驾驶相关活动(NDRA) 控制任务(如精确调节音量或滚动新闻页面)作为次任务。通过比较参与者在仅执行主任务(基线)与同时执行主次任务(双任务)下的表现差异,计算双任务成本(Dual-Task Cost, DTC),从而量化不同语音交互机制对监督任务的认知干扰。此外,研究综合运用了美国国家航空航天局任务负荷指数量表(NASA-TLX) 和用户体验问卷简版(UEQ-S) 来采集主观工作量与用户体验数据,并尝试通过皮肤电活动(Electrodermal Activity, EDA) 监测生理唤醒水平。对于非言语声音(如响指、拍手)的识别,研究采用了经微调的YAMNet模型进行处理。
1. 激活阶段(实验1):可靠性与用户体验的权衡
实验1重点评估了系统激活机制。结果表明,传统的唤醒词(如“Alex”)在可靠性和用户偏好上得分最高,因为它能给予用户明确的控制感。然而,非言语听觉输入(NVAIs),如双击掌和响指,在“愉悦度”上获得了更高评分,意味着用户觉得它们更有趣、更新颖。不过,NVAIs也引发了关于可访问性的担忧,例如,并非所有人都能轻松发出清脆的响指。
2. 单任务控制性能(实验2):效率与精度的差异
实验2在无干扰环境下评估了连续控制机制。对于短时、精细的任务(如音量调节),纯语音连续控制(说“音量增大”后再说“停止”)精度最高。而对于耗时较长的任务(如滚动长文章),混合机制(如发出语音指令后通过响指终止)展现出高效率,其任务完成时间显著短于需要多次重复离散命令的纯语音离散控制。
3. 双任务下的认知干扰(实验3):混合响指机制的平衡优势
实验3是研究的核心,它在模拟真实驾驶监督的双任务环境下进行。结果揭示了关键性的发现:在需要持续监督的场景下,混合响指(Hybrid Snapping) 机制表现最为均衡。它不仅在次任务(NDRA控制)上达到了与纯语音连续控制相近甚至更高的精度,更重要的是,它对主监督任务(ERT)产生的双任务成本(DTC) 与纯语音连续控制无显著差异,且其NASA-TLX主观工作量评分也相对较低。这意味着,使用响指来终止命令,既能快速精确地完成NDRA操作,又不会对驾驶员监控道路、响应突发情况的关键能力造成过多干扰。相比之下,混合元音延长(Hybrid Vowel Extension) 机制(通过拖长元音如“音量增——大”来控制)因其显著的启动延迟和需要持续发声带来的生理、认知负担,导致了最高的DTC和主观工作量,被认为最不适合在监督驾驶中使用。
综上所述,本研究通过系列实验证实,在自动驾驶的监督语境下,不存在一种“万能”的最佳语音交互机制。混合响指作为一种非言语听觉输入,在效率、精度和认知负荷之间取得了最佳平衡,特别适合作为连续控制的终止信号。该研究强调,未来的车载语音交互系统设计应摒弃单一模式思维,转向自适应、多模态冗余的框架,根据具体任务类型、用户状态和上下文环境,智能地推荐或切换最合适的交互机制(如语音、手势、非言语声音等),从而在保障安全的前提下,最大化交互的自然性和效率。这一研究为构建下一代“以人为中心”的自动驾驶座舱交互体验提供了重要的理论依据和实践指导。