通过一种具有运动感知能力的联邦扩散模型实现个性化连续手语生成
《Neurocomputing》:Personalized continuous sign language production via a motion-aware federated diffusion model
【字体:
大
中
小
】
时间:2026年02月22日
来源:Neurocomputing 6.5
编辑推荐:
本文提出一种融合联邦学习与扩散模型的连续手语生成框架,通过潜在运动感知聚类和自适应损失函数,实现隐私保护下的多风格手语合成,在PHOENIX14-T、How2Sign和PSLS数据集上验证了关键点精度、分布相似性和序列自然性均优于现有方法。
本文提出了一种融合联邦学习与扩散模型的创新性连续手语生成框架(CSLP),旨在突破现有技术在隐私保护、风格适应性和运动自然性方面的局限。研究首先基于全球听障人群的统计数据(WHO估算4300万现存听障患者,预计2050年达7000万),强调手语生成技术作为实现沟通公平的关键基础设施。现有视觉驱动的手语识别(SLR)技术存在三大瓶颈:依赖文本输入的局限性(仅5%听障者具备书面读写能力)、骨架表征的语义丢失(无法捕捉面部表情、躯干姿态等细粒度特征)、集中训练模式带来的隐私泄露风险。
在技术演进方面,研究系统梳理了手语生成技术的三个阶段:1)早期基于动画库的规则驱动系统(缺乏灵活性);2)基于运动捕捉的物理建模阶段(设备依赖性强);3)深度学习时代的端到端生成(语义对齐不足)。特别指出当前扩散模型在CSLP中的应用存在两个关键缺陷:一是未有效整合多源生物特征数据,二是缺乏动态联邦协同机制。
提出的核心框架包含四个创新模块:首先,设计了基于设备异构性的联邦学习架构,通过加密的梯度聚合和差分隐私技术,实现跨地域、多设备(包括移动端与服务器端)的无感协同训练。这种分布式训练模式使全球分散的手语者数据无需集中处理,在伊朗Semnan大学实验中,客户端更新频率达传统联邦学习的2.3倍,模型收敛速度提升40%。
其次,开发了Latent Motion-Aware Signer Clustering(L-MASC)机制,通过构建三维动态骨架空间(包含关节位置、运动速度、加速度三个维度),采用自注意力增强的对比学习算法,将不同手语者的风格特征映射到低维潜空间。实验证明该聚类方法能将风格相似度提升至89.7%(对比传统K-means的72.3%),特别是成功捕捉到东亚(如JSL的快速手势)与中东(如PSL的凝视配合)手语体系的12种显著运动模式差异。
在生成模型层面,创新性地将扩散过程解耦为语义编码器(处理文本输入)和运动解码器(输出骨骼序列)两部分。通过引入时序卷积残差网络(TCRNN)捕捉手势的长程依赖性,在PHOENIX14-T数据集上,生成序列的F1值达到92.4%,较SOTA方法提升7.2个百分点。特别设计的风格自适应模块,可根据聚类结果动态调整生成时的噪声注入策略,使输出风格与输入文本的语境匹配度提高35%。
自适应损失函数是另一个突破点,该函数通过三个动态权重系数(ω1,ω2,ω3)实时平衡三个核心目标:1)骨架关键点重建精度(采用改进的Proximal Policy Optimization算法);2)运动轨迹平滑性(引入基于物理的刚体动力学约束);3)风格分布一致性(通过变分自编码器实现)。在How2Sign测试中,这种动态调整机制使平均帧误差(MAE)降低至1.2mm,较静态权重方案改善21.7%。
实验验证部分展示了三个关键数据集的综合对比:在PHOENIX14-T(包含152种基础手势)上,系统在关键帧同步准确率(94.6% vs 87.2%)和时序连贯性(BLEU-4提升18.3%)方面显著领先;针对How2Sign的短句生成任务,生成序列的自然度评分(由语言学专家打分)达到4.8/5,较基线模型提高31%;在PSLS数据集的复杂场景测试中,系统成功处理了涉及文化特定手势(如伊朗的手势敬礼)的语义歧义问题,跨文化理解准确率达91.4%。
消融实验揭示了各组件的关键作用:单独使用联邦学习时,生成多样性下降37%;仅采用L-MASC聚类可使风格一致性提升29%,但跨区域泛化能力下降18%;当移除自适应损失函数后,关键帧准确率从92.4%骤降至76.8%,同时运动平滑度指标(SSIM)降低42.3%。特别值得注意的是,在联邦学习环境中,客户端的模型更新频率与数据质量呈指数关系,通过设计渐进式联邦更新算法,使边缘设备(如手机端)的生成效果接近中央服务器(PC端)的98.6%。
研究还创新性地引入了生物特征脱敏机制,在保护手语者身份的同时,通过生成对抗网络(GAN)构建虚拟运动代理,在PSLS数据集上成功将隐私泄露风险降低至0.03%(传统方法为0.21%)。这种技术平衡解决了现有方案中隐私保护与模型性能的悖论。
未来工作计划扩展到多语言手语生成(已启动中英日手语对照项目),并探索实时生成场景。技术团队正在开发轻量化客户端模块,目标是将移动端生成延迟压缩至120ms以内,同时保持95%以上的风格一致性。该框架的模块化设计允许在不影响联邦学习特性的前提下,集成眼动追踪和微表情捕捉等生物特征输入,进一步提升生成质量。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号