《Biomedical Signal Processing and Control》:Predicting smoking status from short voice recordings under small-sample constraints: A calibrated leave-one-speaker-out study
编辑推荐:
吸烟状态可通过短语音记录推断,本研究对比手工艺品谱系特征与预训练嵌入模型在小样本、独立说话人条件下的性能。手工艺品谱系(PS_ENet)结合弹性网络和逻辑回归,在严格LOSO验证下AUC达0.885,优于YAMNet、wav2vec 2.0和WavLM嵌入模型。决策曲线分析显示阈值0.05-0.30具有净收益优势。考虑人口统计学混杂因素,PS_ENet在年龄性别分层后仍保持增量诊断性能。研究确立了独立说话人评估框架,为后续生化验证研究提供样本量规划建议。
作者:Yi?it Aydo?an、O?uzhan Duygun、?smail Cantürk
所属机构:土耳其伊斯坦布尔博阿齐奇大学生物医学工程研究所
摘要
本研究在样本量有限且不受说话者影响的条件下,探讨了通过短语音记录推断吸烟状态的可行性,重点关注了用于筛查的校准概率和决策效用。研究分析了来自64位不同说话者(30名吸烟者,34名非吸烟者;吸烟率为0.469;每位说话者有一段录音)的持续/a/音发音(采样率为44.1 kHz,单声道)。比较了两种表示方法:
(i) 基于生理学原理的手工制作的韵律-频谱特征集(208个变量),用于捕捉发音扰动、谐波结构、频谱能量分布和共振峰特征;
(ii) 预训练的嵌入模型(YAMNet、wav2vec 2.0、WavLM),将其聚合为话语向量后使用偏最小二乘法结合逻辑回归进行分类。
模型评估采用了严格的一人留出法(leave-one-speaker-out, LOSO)验证、嵌套超参数选择、分批预处理以及分批内的Platt缩放技术。手工制作的弹性网络逻辑模型(PS_ENet)表现出最强的区分能力(AUC = 0.885),其准确率为0.844,F1值为0.828,平均精度为0.894,布里尔分数(Brier score)为0.193。而基于嵌入模型的方法表现较差(AUC分别为YAM_PLS 0.475、W2V2_PLS 0.561、WAVLM_PLS 0.525)。概率平均集成方法在敏感性方面表现较好(召回率0.833,AUC为0.797)。仅通过人口统计信息也有一定的预测能力(年龄+性别的LOSO AUC = 0.708),但在年龄×性别分层限制下,PS_ENet的区分能力仍有提升。通过说话者级别的自助法(bootstrapping)验证,PS_ENet的AUC达到0.886(95%置信区间为0.790–0.962),全流程排列测试的结果也表明其区分能力显著高于随机水平(p值约为0.005)。决策曲线分析显示,当阈值介于0.05–0.30之间时,该方法具有明显的净收益(尤其是对于阈值大于0.15的情况)。根据预测能力计算,需要约44位说话者的样本量才能在当前吸烟率下以80%的置信度检测出吸烟状态。
引言
吸烟仍然是导致疾病和死亡的主要可预防因素[1]。从声学角度来看,烟雾暴露会刺激并使喉部组织脱水[2],改变声带振动模式[3],并增加语音信号中的噪声成分[4]。多项研究证据表明,吸烟会导致基本频率、发音扰动(如抖动和闪烁)以及谐波与噪声比例等声学指标发生可测量的变化[5]。这些现象为使用短语音记录作为吸烟状态的非侵入性生物标志物提供了理论依据。
基于语音的筛查方法具有优势,因为它可以使用常见的麦克风进行,对用户的要求较低,且可以远程实施[6]。然而,早期的声学生物标志物研究通常受到样本量有限的限制,此时验证设计和数据泄露控制直接决定了评估结果的普适性。在语音任务中,训练集和测试集中的说话者重叠可能导致评估结果因利用说话者身份而非目标特征而显得更为准确,这是计算语言学中的一个常见问题[7]。因此,像一人留出法(LOSO)这样的独立于说话者的评估协议逐渐成为评估有限样本群体的基本标准[8]。
对于筛查和分诊而言,仅凭区分能力是不够的,模型输出必须具有概率意义,以便根据实际操作需求和成本选择合适的阈值。许多分类器可能存在校准误差[9],因此需要采用分批预处理方法(如Platt缩放[10]或等效的非参数校准方法[11])。决策曲线分析(DCA)通过量化不同阈值下的净收益来提供基于效用的评估[12, 13]。结合校准概率和DCA,可以更透明地理解模型在阈值之外的行为。
基于此背景,本研究将吸烟状态推断视为一个独立于说话者、基于智能手机记录的短持续/a/音发音的小样本分类问题。研究对比了两种表示方法:
(i) 一种紧凑的、基于生理学原理的手工制作的韵律-频谱特征集(208个变量),用于捕捉与烟雾引起的喉部变化相关的扰动、谐波性和频谱形状特征;
(ii) 高维预训练的嵌入模型(YAMNet、wav2vec 2.0、WavLM),将其聚合为固定长度的向量并用于低维学习。在严格的分批预处理和概率校准条件下,评估了多种分类器的性能,并通过区分度、校准效果和决策效用指标进行了总结。由于人口统计特征同时影响吸烟率和语音声学特性,研究还包含了针对性的混杂因素控制(仅使用人口统计信息的基线数据、年龄×性别分层内的标签排列限制以及倾向得分匹配分析),以及不确定性量化(自助法)和非参数显著性检验(排列法)。最后,报告了样本量规划和预测能力的分析结果,以评估小样本研究的可行性,并为更大规模的、经过生物化学验证的后续研究提供参考。
生理与声学关联
吸烟与呼吸道刺激[14]、黏膜脱水[15]以及声带振动模式改变有关,这些都会在持续发音中产生可测量的声学偏差[16]。元分析显示,吸烟会对基本频率及相关语音指标产生显著的中等程度影响,证实了吸烟者振动稳定性下降和噪声成分增加的现象[4]。
从语音中推断吸烟状态
除了群体比较外,还直接从语音数据中建模了吸烟状态。最近的研究表明……(此处内容未完整提供)。
研究设计与目标
本研究旨在探讨是否可以通过校准概率模型从短语音记录中推断吸烟状态,重点关注独立于说话者的分类能力。主要目标是评估模型的区分能力;次要目标包括校准质量的评估、针对敏感性和特异性需求的操作点分析、决策效用的量化等。
队列特征
研究队列包含64位独特的说话者,每位说话者有一段持续/a/音发音(30名吸烟者,34名非吸烟者;吸烟率为0.469)。队列中女性和男性比例接近,多数类别的基线准确率为0.531。平均年龄为21.39岁(标准差1.53岁,中位数21岁,范围19–26岁)。吸烟者的平均年龄高于非吸烟者(22.17岁 vs 20.71岁;Welch’s t检验结果p值=0.00012)。
主要发现
研究在严格独立于说话者的条件下,通过短持续/a/音发音验证了吸烟状态的推断能力,重点关注了校准概率和筛查相关的决策效用。在64位说话者的样本上,手工制作的弹性网络逻辑模型(PS_ENet)表现出最强的区分能力(AUC = 0.885),具有较高的准确率(0.844)、F1值(0.828)和平均精度(0.894)。
结论
本研究建立并评估了一种独立于说话者、基于小样本的语音吸烟状态推断框架,使用校准概率模型和决策效用分析进行了验证。在严格的一人留出法验证下,手工制作的韵律-频谱弹性网络模型(PS_ENet)表现出最强的区分能力(AUC = 0.885),同时具有较高的分类准确率和F1值。
CRediT作者贡献声明
Yi?it Aydo?an:撰写、审稿与编辑、原始稿撰写、数据可视化、验证、软件开发、方法论设计、概念构思。
O?uzhan Duygun:撰写、审稿与编辑、方法论设计、数据管理、概念构思。
?smail Cantürk:撰写、审稿与编辑、项目监督、数据管理、概念构思。
致谢与伦理审批
本研究获得了Y?ld?z技术大学伦理委员会的批准(批准编号:2023.05)。录音数据来自年轻志愿者,且已进行去标识化处理,未处理任何可识别患者身份的信息,也未进行任何干预操作。
出版同意
本手稿不包含任何个人数据(包括图像或视频)。
代码获取
完整的分析脚本(特征提取、LOSO评估、校准、自助法/排列法、决策曲线分析、图表生成)可向相应作者请求获取。
资金支持
本研究未获得任何公共机构、商业机构或非营利组织的资助。
利益冲突声明
作者声明不存在可能影响本研究结果的已知财务利益或个人关系。