美国监管路径下大型语言模型在医疗保健领域的专家视角

《npj Digital Medicine》:Expert perspectives on US regulatory approaches to large language models in healthcare

【字体: 时间:2026年05月20日 来源:npj Digital Medicine 15.1

编辑推荐:

  医疗人工智能(AI)的监管争议广泛存在,学界观点分化显著。极端立场中,一方主张暂停AI开发以避免人类生存风险,另一方则反对任何可能限制创新的监管措施。监管机构内部立场相对温和,普遍认同需采用基于风险(risk-based)的监管框架,并针对日益先进系统的涌现行

  
医疗人工智能(AI)的监管争议广泛存在,学界观点分化显著。极端立场中,一方主张暂停AI开发以避免人类生存风险,另一方则反对任何可能限制创新的监管措施。监管机构内部立场相对温和,普遍认同需采用基于风险(risk-based)的监管框架,并针对日益先进系统的涌现行为(emergent behaviours)制定新方法——尤其当通用AI聊天机器人提供健康建议时,其已超出传统医疗器械边界。美国食品药品监督管理局(FDA)采取主动策略,以监管创新应对技术创新。本次访谈中,Shantanu Nundy博士阐述了该机构在大型语言模型(LLM)时代如何界定健康工具(wellness tools)与受监管医疗器械的边界。他特别提出一个二维框架(临床严重性×工具自主性),为判断哪些LLM应用需接受监管审查提供了实践视角,该框架可为未来指南制定提供参考。
本研究发表于《npj Digital Medicine》,聚焦美国对医疗领域大型语言模型(LLM)的监管路径争议。当前医疗AI监管存在极端分化:部分学者呼吁暂停AI开发以应对生存风险,另一派则抵制任何可能制约创新的监管。监管机构虽普遍认可需基于风险(risk-based regulation)的框架,但对监管边界划定及监管创新程度存在分歧——尤其当通用AI聊天机器人提供健康建议时,其已超越传统医疗器械定义。在此背景下,FDA采取主动策略,亟需厘清LLM赋能的健康技术监管逻辑。研究人员通过对FDA专员办公室AI事务顾问Shantanu Nundy博士的深度访谈,结合2024-2026年FDA数字健康咨询委员会会议、指南更新及公开征求意见等官方动态,系统解析了LLM医疗应用的监管判定标准、证据要求及未来政策方向。研究首次提出"功能监管优先于技术类型"的核心原则,并通过二维风险评估框架为开发者提供明确指引,对平衡医疗AI创新与患者安全具有重要意义。
研究人员采用定性访谈与政策文本分析相结合的方法。访谈对象为FDA合同制顾问Shantanu Nundy博士(非联邦雇员,观点不代表官方立场),访谈时间为2026年2月初。政策分析覆盖FDA 2025年生成式AI精神健康设备咨询委员会会议记录、2026年1月重新发布的《通用健康设备指南》与《临床决策支持软件(CDS)指南》、2025年AI设备真实世界性能评估公开征求意见文件,以及相关行业动态报道。所有结论均基于访谈内容与官方政策文本的归纳提炼,未涉及实验操作或队列数据。
研究结果分为三部分:
Introduction to Dr Shantanu Nundy:介绍受访者身份为执业初级保健医生、连续创新者及FDA专员办公室AI事务顾问,明确其观点属个人立场,不反映FDA官方政策。
The wellness-medical device interface for wearables and LLMs:阐明FDA监管核心逻辑为"功能导向"而非"技术类型导向"。2026年更新的CDS与通用健康指南明确:仅当产品功能属于医疗器械范畴时才受监管,例如可穿戴设备测量血压若用于低风险健康管理则无需纳入监管,仅输出单一推荐的临床决策支持(CDS)软件也不自动归类为受监管设备。研究指出健康工具与临床系统将逐步融合(如患者家庭血压数据共享至临床端),监管关键在于按风险拆解平台功能——计步等低风险功能无需审查,高风险功能则需FDA评估。
Summary:提炼Nundy提出的二维风险评估框架:临床风险(错误导致的危害严重程度与可逆性)与工具自主性(信息呈现→行动建议→自主执行及临床监督强度)。该框架明确:若通用LLM实际引导用户进行高风险医疗决策(如指导疑似卒中患者服用阿司匹林),则可能被认定为医疗设备。FDA对生成式AI与传统预测性AI采取差异化证据要求:前者侧重模型漂移(drift)、失效模式(failure modes)与真实世界验证,后者侧重训练数据、验证流程与更新计划,实现"准入门槛技术中立,证据标准技术特定"的监管策略。
讨论部分强调,通用LLM提供医疗建议的边界仍是未解决的前沿问题。FDA虽暂不按制造商宣称用途监管,但通过设计逻辑、工作流程与真实行为综合判定"预期用途(intended use)"。研究人员指出,随着LLM医疗应用激增,需通过TEMPO试点等适应性实践积累实时数据,逐步完善监管框架。研究结论表明:医疗LLM监管应坚持功能与预期用途导向,二维框架可有效区分风险层级;FDA正通过咨询委员会与公开征求意见构建动态政策体系,未来需重点关注通用模型在高风险场景的实际影响及针对性证据标准制定。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号