将语音克隆技术融入辅助交流(AAC)系统,以服务于患有肌萎缩侧索硬化症(ALS)的患者:一个动态的指导原则框架
《Evidence-Based Communication Assessment and Intervention》:Ethical integration of voice cloning into AAC for people living with ALS: a living guiding-principles framework
【字体:
大
中
小
】
时间:2026年05月11日
来源:Evidence-Based Communication Assessment and Intervention 1.6
编辑推荐:
摘要
人工智能的进步使得高保真语音克隆技术对于患有肌萎缩侧索硬化症(ALS)的人来说越来越易于获取。由AI驱动的系统可以从有限的语音样本中生成新颖且高度逼真的语音表达,为在辅助和替代沟通(AAC)中保持身份、关系和情感细微差别提供了新的机会。然而,这也引入了超出传统信息保存和语音
摘要
人工智能的进步使得高保真语音克隆技术对于患有肌萎缩侧索硬化症(ALS)的人来说越来越易于获取。由AI驱动的系统可以从有限的语音样本中生成新颖且高度逼真的语音表达,为在辅助和替代沟通(AAC)中保持身份、关系和情感细微差别提供了新的机会。然而,这也引入了超出传统信息保存和语音银行服务范围的风险,包括身份盗用、控制丧失、语音作为可信标识符的削弱以及在死者之后仍然存在的个人“声学指纹”。因此,ALS患者及其家人对自主权、隐私、代理权以及克隆语音的长期管理提出了疑问。本文描述了一个基于实践、以患者为中心的AI驱动语音克隆框架的开发和实施过程。该框架是通过长期的临床互动逐步制定的,并通过一份《指导原则》文件和规划辅助工具来具体化,以应对疾病、技术和优先事项的变化,确保知情同意、患者偏好以及持续审查。该框架关注自主权问题,并包含了与访问控制、所有权、专业责任以及死后使用相关的全方位保护措施。该框架的概念与国际数据保护及AI治理原则保持一致,包括欧盟的《通用数据保护条例》,从而为在AAC实践中实现伦理整合提供了一种方法,同时保护患者的身份、自主权和长期利益。
关键词:人工智能;语音克隆;AI伦理;语音保存
语音保存已成为ALS患者辅助和替代沟通(AAC)干预的核心要素,不仅因为它支持信息传递,还因为它能够保留身份、关系、幽默感和情感细微差别这些难以用标准合成语音复现的方面。在过去二十年里,临床实践主要依赖信息保存和语音银行服务来实现这些目标。波士顿儿童医院(BCH)的信息保存方法明确将其定义为一种以患者为中心的价值驱动的临床过程,并通过患者的长期反馈不断改进;该方法还提到了“双重利用”的概念,即存储的信息可以用于后续开发个性化的合成语音(Costello & Smith, 2021),现在也可用于创建高质量的个人语音克隆。
由于过去几年人工智能尤其是神经网络架构(如基于Transformer的模型)的进步,现在可以用更少的录音输入来实现高保真语音克隆,从而提高了那些因病情晚期而需要语音保存、出现快速延髓功能下降或无法承受传统语音银行录音负担的患者的使用机会。然而,这一技术变革也带来了新的风险——这些风险与早期的语音保存方法显著不同,因为语音克隆能够生成与患者自然语音无法区分的新语音,并且这种能力可能在该患者的能力、护理安排或死亡后仍然存在,形成一种“遗产声学指纹”。这些问题并非理论上的假设。消费者保护机构和执法部门多次强调语音克隆的双重用途性质以及由此产生的实际危害,包括身份盗用、欺诈和对语音作为证据的可信度的削弱。美国联邦贸易委员会(FTC)在2020年举办的研讨会上列举了可预见的滥用场景,并指出,没有专业工具的帮助,普通听众可能无法察觉到逼真的语音克隆。在研讨会上,Costello还提出了语音克隆对那些面临失去自然语音风险的人的积极用途和好处,同时建议建立音频认证系统(Wiggers, 2020)。美国监管机构对此作出了回应,例如联邦通信委员会(FCC)发布了一条声明性裁决,明确指出在电话营销中使用AI生成的语音属于“人工或预录内容”,未经接收者明确同意是违法的(Federal Communications Commission, 2024)。
在这种背景下,ALS患者及其家人向AAC诊所提出的问题已不仅仅是“我能否听起来像自己?”那么简单,还包括“如果我使用语音克隆技术,如何保护自己和家人?”这些问题常常涉及所有权和控制权、护理人员及家庭成员之间的访问权限、死后使用的可能性,以及语音克隆被滥用作身份盗用的风险。因此,临床需求有两个方面:(a)将语音克隆作为一种潜在的强大工具来提升参与度和生活质量;(b)在医疗保健环境中建立保障自主权、隐私和专业责任的机制。
在波士顿儿童医院的Jay S. Fishman ALS辅助沟通项目中,语音保存一直是为预计语音会恶化的患者制定AAC计划时的一项重要组成部分。过去两年中,除了现有的信息保存和语音银行服务外,该项目还通过与ElevenLabs的合作及该公司的慷慨支持,开展了语音克隆工作(ElevenLabs, n.d.)。随着语音克隆技术进入常规临床应用,患者和家属提出了越来越多关于自我保护、身份连续性、自主权、隐私、代理权和遗产等方面的详细问题。这些问题既出现在早期规划阶段,也出现在语音能力下降后的补充讨论中。这些患者提出问题的积累促使我们制定了一个结构化的《指导原则》文件,以便所有考虑使用语音克隆的患者都能进行一致审查,患者的偏好会被记录在医疗记录中,并根据情况的变化进行更新。该文件的核心宗旨是在保护患者自主权的同时,提升患者沟通效果,同时维护诊所和医院的声誉。这些指导原则被视为一份动态文件,认识到患者的持续反馈、问题和优先事项会随着时间推移逐步塑造和完善这份文件。
方法
本研究描述了一个基于实践的伦理和临床框架的开发和临床实施过程。Fishman ALS辅助沟通项目每年为大约130名新患者和350名复诊患者提供评估服务。值得注意的是,最初并没有制定正式的指导原则框架的计划。相反,《指导原则》文件(见框1)是在大约六个月的时间内,通过多次临床接触自然形成的,期间ALS患者及其家属反复提出关于语音克隆、身份、自主权、隐私和长期管理等方面的问题。这些问题在每周的团队会议以及作者与其他项目临床医生的持续个案讨论中经常被讨论。随着这些问题频率和一致性的增加,作者起草了一份初步文件,并与整个临床团队分享了该文件以进行审查,确保其准确反映了他们的共同经验。所有临床医生都确认文件反映了患者和家属的许多关切,同时也认识到没有一位医生遇到过所有表达的需求。值得注意的是,没有发现额外的问题。随后,临床团队同意将《指导原则》框架纳入实际应用,并系统地记录患者和家属的反馈,以评估新出现的趋势或未被涵盖的考虑因素。到目前为止,患者和家属的反馈一直支持该框架的全面性,没有发现新的补充领域。随着主题和子主题的出现,它们被整合成一份面向患者的结构化文件,该文件(a)规范了知情同意和临床决策过程中必须审查的最低内容;(b)明确了管理决策,包括死后考虑;(c)创建了在医疗记录中记录患者偏好并定期回顾的流程。
结果
本研究描述了两份互补的临床文件的迭代开发过程,这两份文件旨在支持将基于AI的语音克隆技术伦理地整合到ALS患者的辅助和替代沟通实践中:(A)《语音克隆及融入辅助沟通技术的指导原则》[见框1],以及(B)《以患者为中心的语音克隆规划指南》[见框2],以支持个体偏好的讨论和记录。该临床框架通过临床应用、跨学科讨论以及对不断变化的法规、技术和伦理指南的回顾进行了逐步完善。《语音克隆规划指南》是作为该框架的实用扩展而开发的,它并非静态的检查清单,而是一种灵活的、基于讨论的工具,用于支持长期的临床对话。初步版本在临床实践中进行了非正式测试,并根据患者、家属和临床医生的反馈进行了迭代修改。修改重点关注语言的清晰度、情感表达的便利性以及在疾病进展和决策准备阶段的适用性。
在临床实施中,规划指南作为从患者以往经历和常见问题中提炼出的考虑事项集合而被引入。患者会被明确告知,该指南并非一次性完成,而是随着观点的发展逐步完善。鼓励患者如有需要可以与可信赖的沟通伙伴讨论这些提示;然而,临床医生始终强调决策权仍属于患者。该框架及相关规划指南被明确定义为“动态”临床工具,会定期根据AI技术的进步、监管环境的变化以及新发现的患者需求或风险进行审查和更新。实施流程包括向患者提供书面材料、使用结构化提示来引导讨论,以及在大致的临床记录系统中正式记录患者的偏好、同意参数和代理决策。
伦理监督通过确保被克隆语音的所有者保留对其语音模型的唯一所有权、访问权限和控制权来实现。与以往的研究(Costello & O’Brien, 2025)一致,临床保护措施强调防止滥用、明确使用场景的同意要求,以及根据患者定义的权限进行清晰的遗产管理规划。
讨论
为什么文件内容在临床实践中具有重要意义
《指导原则》中的几个要素需要特别强调,因为它们将广泛的伦理愿景转化为具体的临床保护措施。首先,该文件将自主权定义为积极的治理行为,要求对访问权限、使用方式和死后管理做出明确决策,这与美国言语-语言-听力协会(ASHA)《伦理准则》(Citation2023)中的伦理期望一致,该准则提供了优先考虑服务对象福祉、专业责任和临床实践中负责任行为的框架。其次,“隐私和数据保护”原则包含了一个独特的操作限制:该项目不会支持将语音克隆整合到非患者所有或无法完全控制的技术中。这一条款直接回应了现实情况,即AAC临床试验经常涉及借用的设备、共享设备或第三方平台,这些设备可能比特定护理阶段持续更长时间。通过将临床支持条件定义为设备归还和移除的程序,该框架试图防止“孤儿化”的克隆内容滞留在患者控制之外的设备或平台上。第三,《指导原则》可作为数字化身份的预先规划菜单,其中区分了无行为能力和死亡情况,指定了主要监护人,并要求明确决定是否允许他人生成新语音或仅播放已录制的内容,并鼓励定期审查疾病状况和关系的变化。这种区分在FTC对语音克隆风险的框架中也得到了体现:即保存的记录与可重新用途的生成性模仿能力之间的区别。在ALS护理中,由于家庭成员常参与沟通访问和技术管理(Beukelman et al., 2007),这些区别有助于减少 ambiguity、降低冲突、误用或意外伤害的风险。
更广泛的关切和滥用案例促使临床管理
《指导原则》是在一个滥用行为被反复记录和公开讨论的国家和国际背景下制定的。FTC的“You Don’t Say”研讨会强调,语音克隆可能导致大规模的身份盗用,降低语音作为身份证明的可靠性,并给公众和机构带来检测负担。美国联邦通信委员会(FCC)随后针对机器人呼叫中由人工智能生成的语音所作出的裁决表明,监管机构已经意识到语音克隆技术正被用于欺诈和伤害行为。最近发生的国内外案例强调了这一现象对肌萎缩侧索硬化症(ALS)患者的影响。基于身份冒充的攻击可以通过常见的通信渠道进行,它们利用人们的紧迫感和信任心理,针对弱势个人或机构。路透社报道了意大利的一起案件:诈骗分子利用人工智能模仿国防部长Guido Crosetto的声音,以虚假借口索要资金;警方随后冻结了一笔与诈骗相关的重大转账(路透社,引用2025年)。在香港也报道了大规模的深度伪造欺诈事件(Milmo,引用2024年),一名员工在与视频会议中的合成图像“同事”互动后被诱导转移了大量资金——这显示了语音克隆如何与其他合成媒体结合,突破直观的“验证”手段。美国执法部门明确警告称,攻击者正在利用人工智能制作令人信服的语音和视频信息以实施欺诈和其他危害,并强调仅靠身份验证并不能解决社会工程学和身份冒充的风险(联邦调查局,互联网犯罪投诉中心,引用2024年)。这些例子有助于解释为什么ALS患者会关注自主性、隐私问题以及死后控制权,以及为什么临床项目需要假设滥用行为是可能发生的,而不仅仅是罕见的情况。
**临床辅助沟通(AAC)实践中语音克隆的风险分类**
ALS患者及其家人就语音克隆的创建、使用和管理提供了许多意见和观点,其中许多观点与联邦贸易委员会(FTC)的You Don’t Say研讨会以及后续的监管和执法交流中的内容相呼应。该风险分类并不预设滥用行为,但假设在缺乏保护措施的情况下,这种行为有可能造成伤害。
**主要风险类别:**
1. **身份冒充与虚假陈述**:语音克隆技术可以生成与个人真实声音难以区分的语音。在临床环境中,这引发了患者对其声音可能被用来传递他们未授权信息的担忧,无论是故意还是无意中的。患者经常表达对他人“以我的名义发言”或“代表我发言”的不安。例如,一位ALS患者或其家属表示:“我不希望用我的声音创建我从未说过的话;这感觉很诡异。”
2. **身份验证削弱与数字安全减弱**:随着旧有的身份验证方法(如简单密码或水印识别)无法应对现代威胁,语音逐渐被用作金融机构、医疗系统和消费技术中的生物特征识别手段。即使语音克隆是为了合法的临床目的而创建的,也存在被用于不当场景的可能性,例如在假设语音认证能代表生者的情况下被重新播放或合成。在ALS患者中,这一问题更加突出,因为他们可能依赖护理人员来管理账户和设备,从而增加了能够访问语音数据的人数。
3. **社会工程学与胁迫**:在ALS护理过程中,患者家庭已经面临压力、预期的悲痛和复杂的护理需求,若熟悉的声音被滥用,可能会产生巨大的心理影响。因此,该框架强调明确的访问控制和监护决策。
4. **死后持续影响**:与保存特定时刻的录音不同,语音克隆创建了一种可能无限期持续的持续能力,除非被主动停用。患者对死后使用自己声音的态度各异,从支持纪念用途到强烈反对都有。如果没有明确的规划,平台的默认行为可能与患者的价值观不符,导致家庭和医护人员之间的伦理冲突。
**与欧盟数据保护原则的整合**
Jay S. Fishman ALS辅助沟通项目制定的伦理框架是基于与患者及其家庭的沟通。在建立该框架并将其应用于临床活动后,研究发现它与欧盟提出的国际数据保护和AI治理原则高度一致,特别是《通用数据保护条例》(GDPR,引用2016年)。
**表格1. Fishman指导原则与美国和欧洲监管框架的比较**
尽管GDPR不直接适用于作者在美国的临床实践,但其基于权利的个人信息和生物特征数据保护方法为评估医疗领域中的语音克隆实践提供了严谨的比较视角。根据GDPR,语音记录及其衍生的语音模型被视为个人信息,并在用于身份识别或认证时被视为需要加强保护的特殊类别生物特征数据。Fishman项目强调保护ALS患者“声学指纹”的做法,体现了即使出于治疗目的,语音也应被视为生物特征标识符的共识。
**结论**
通过明确阐述这些风险类别,Guiding Principles文件将抽象的政策关切转化为患者和家庭能够理解的、具有实际操作意义的保护措施,促进了医疗伦理与法规的结合。
总体而言,Fishman的指导原则体现了全球在生物特征数据、AI生成的身份表示以及以患者为中心的治理方面的共识,增强了其可信度和适用范围,超出了单一临床环境的限制。同时,该框架也响应了语音银行技术中的伦理问题,确保语音克隆不被用于不当目的,并强调了临床护理中知情、具体和可修订的决策过程的重要性。因此,该工具并不能像经过心理测量测试的工具那样获得权威性的认可,也尚未对患者的结果(如决策冲突、满意度、感知到的自主性或后续的不良事件)进行量化评估。其普遍适用性可能受到当地机构政策、法律要求、供应商能力以及支持长期评估和记录所需资源的限制。此外,供应商的服务条款和数据处理方式可能会随时间发生变化,这既强调了“动态文档”管理方式的必要性,也使得对风险缓解措施的静态描述变得复杂。最后,由于语音克隆技术发展迅速,可能会出现新的滥用方式和新的保护机制(如水印技术、认证标准、平台层面的限制),这需要不断进行修订,而任何单一机构都无法 anticipating all 这些变化。
未来的发展方向如下:首先,需要多机构合作,确定一套最低共识标准的临床治理领域(自主性、权力委托、隐私保护、遗骸管理、设备/生态系统控制),并开发一种在各种环境中都能使用的通用语言。其次,评估应纳入以患者和家庭为中心的结果指标,例如结构化的治理讨论是否能够减轻患者的痛苦、增加他们的控制感,或在疾病进展过程中支持更清晰的决策制定。第三,临床项目应考虑与机构伦理资源和法律顾问进行正式合作,以应对与语音克隆相关的遗骸使用的法律问题,特别是在该领域的政策和法规不断完善的背景下。美国联邦贸易委员会(FTC)的研讨会、联邦通信委员会(FCC)的行动以及执法部门的建议表明,医疗系统应认为语音克隆领域仍然存在较高的冒名顶替和欺诈风险;因此,保守性的安全措施应被视为核心临床基础设施,而非可选的附加功能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号