欧盟人工智能法案与通用数据保护条例的交叉解析:EDPB第28/2024号意见对AI模型数据保护合规的澄清与挑战

《Computer Law & Security Review》:Data from the Sky: The oversight of police drones in England and Wales

【字体: 时间:2026年03月21日 来源:Computer Law & Security Review 3.2

编辑推荐:

  本项研究针对人工智能(AI)与数据保护法规(特别是欧盟《通用数据保护条例》(GDPR))交互日益复杂、欧盟《人工智能法案》(AI Act)引入后不确定性加剧的现实困境,旨在对欧洲数据保护委员会(EDPB)发布的Opinion 28/2024(关于AI模型中的数据保护问题)进行背景梳理与批判性分析。研究人员在GDPR核心原则框架下,系统阐释了该意见如何为AI模型开发与部署中数据处理的法律依据、合规性及后果提供澄清,并指出了意见中存在的模糊性、不完整性及监管机构(SAs)潜在的角色冲突。该研究厘清了AI生命周期的数据保护责任,为相关合规实践与后续立法提供了关键参考。

  
在数字化浪潮席卷全球的今天,人工智能(AI)技术正以前所未有的速度重塑各行各业,从智能客服到自动驾驶,从医疗诊断到金融风控,其身影无处不在。然而,这股强大的技术驱动力也带来了复杂的法律与伦理挑战,尤其在个人数据保护领域。欧盟的《通用数据保护条例》(General Data Protection Regulation, GDPR)自2018年生效以来,一直是全球数据隐私保护的标杆,但其与日新月异的AI技术,特别是能够处理和生成个人信息的大型语言模型(Large Language Models, LLMs)和生成式AI(Generative AI)之间的“联姻”,却充满了张力与不确定性。Meta/Facebook曾用“复杂”(‘complicated’)一词来形容这种关系,而2024年正式通过的欧盟《人工智能法案》(AI Act)又为这一本就错综复杂的图景增添了新的规则层面。AI模型“训练”和“部署”的各个阶段如何处理海量个人数据?企业能否以“合法利益”(Legitimate Interests)为由使用网络抓取(Web Scraping)得来的数据训练AI?如果一个AI模型是基于非法获取的数据训练的,其后续使用会面临何种后果?训练完成的AI模型内部是否仍在“处理”个人数据?这些问题不仅困扰着AI开发者和部署者,也让监管机构感到棘手。为此,欧洲数据保护委员会(European Data Protection Board, EDPB)应爱尔兰数据保护委员会(Irish Data Protection Commission, DPC)的请求,于2024年发布了具有指导意义的Opinion 28/2024。葡萄牙NOVA大学法学院的Vera Lúcia Raposo撰写的这篇论文,正是对这份意见书进行深度解读与批判性分析的力作,旨在拨开迷雾,阐明AI时代数据保护的合规路径与未解难题。该文发表于《Computer Law 》期刊。
为开展这项研究,作者主要采用了文献分析与法律解释学的方法。研究核心是基于对EDPB Opinion 28/2024原文的细致文本分析,同时广泛参照了GDPR、AI Act的条款、欧洲法院(Court of Justice of the European Union, CJEU)的相关判例(如C-413/23 P案),以及欧盟其他数据保护机构(如法国国家信息与自由委员会(CNIL)、德国汉堡数据保护机构等)发布的指南、报告和意见。此外,研究还结合了计算机科学领域关于AI隐私攻击(如模型反演、成员推理)和隐私保护技术(如差分隐私、联邦学习)的现有知识,以评估意见中技术性论断的合理性与完备性。论文没有涉及具体的实验数据队列或生物样本分析。
研究结果
1. AI模型与数据:复杂的关系
研究指出,AI生命周期通常分为开发(含训练)和部署两阶段。生成式AI和LLMs等模型被设计来处理或输出与训练数据中个体相关的信息,因此其处理的数据无法被视为匿名数据。即便模型目的不是生成个人信息,训练数据的“残余”仍可能以数学形式嵌入模型内部,存在被提取或推断的风险。意大利数据保护机构对OpenAI的处罚案例,凸显了AI处理个人数据面临的严峻合规挑战。
2. GDPR的一般原则与AI模型
EDPB意见确认GDPR的核心原则完全适用于AI模型。这意味着AI处理个人数据必须满足合法性、公平性与透明性(需有GDPR第6条的法律依据,并履行第12-14条的信息告知义务)、目的限制(处理目的需明确)、数据最小化(仅处理必要数据)、准确性存储限制(需制定数据保留策略)以及完整性与保密性(防范数据投毒、对抗性攻击等)原则。此外,问责制原则要求控制者必须能证明其合规性。
3. Opinion 28/2024的核心内容
3.1. GDPR对AI的适用性
意见认为,如果能够从AI模型中提取或重建可识别数据,则该模型不能被视为匿名。这与德国汉堡数据保护机构等持有的不同观点形成对比。EDPB主张进行个案评估,并将解释权很大程度上留给了各国监管机构(SAs)。
3.2. 训练AI:“合法利益”作为法律依据
EDPB承认“合法利益”(GDPR第6(1)(f)条)可作为AI开发与部署中处理数据的法律依据,但必须通过严格的三步测试:(1) 利益合法、明确、真实;(2) 处理为实现该利益所必需(需评估是否存在侵入性更小的替代方案,如使用匿名化或合成数据);(3) 进行利益平衡测试,确保控制者的利益未凌驾于数据主体的基本权利与自由之上。意见对网络抓取持相对灵活立场,认为在满足严格条件(如尊重网站政策、排除敏感数据、实施额外保障措施)下可能被证明是合理的,这不同于荷兰数据保护机构的绝对反对态度。
3.3. 非法训练AI系统的后果
如果AI模型基于非法处理的数据训练,其后续使用的合法性将受影响。EDPB区分了三种情景:(1) 同一控制者继续使用留存个人数据的模型:初始非法性可能影响后续使用的合法性;(2) 不同控制者使用该模型:后续控制者负有尽职调查责任,不能完全免除责任;(3) 模型在后续使用前被有效匿名化:则GDPR可能不再适用。监管机构有权责令重新训练甚至销毁非法训练的模型。
3.4. 训练后的数据处理与GDPR的适用
关键在于判断训练后的模型是否仍包含“个人数据”。这需要客观评估,依据模型特性、使用环境、额外信息的可获取性、所需成本与技术手段等因素。意见强调,即使信息以机器可读的非人类直接可理解格式(如模型参数)存在,只要能通过合理方式识别个人,就构成个人数据。欧洲法院在C-413/23 P案中的判决为伪匿名化数据的认定提供了更情境化的思路。
4. 在GDPR下确立AI模型的匿名性
这是一个极高的标准。根据GDPR序言第26条,需证明不存在任何“合理可能使用”的手段来重新识别个体。模型反演攻击和成员推理攻击的存在使得这一证明极具挑战性。采用差分隐私、联邦学习、安全多方计算等隐私增强技术,并结合全面的风险评估与独立审计,有助于趋近这一目标,但控制者承担沉重的举证责任。
5. 监督机构(SAs)的角色
EDPB意见赋予了SAs广泛的审查与执行权力。SAs需评估控制者是否进行了充分的风险评估与记录,有权要求提供详尽文档,甚至可命令对模型进行重新训练或彻底销毁。文章指出,EDPB通过扩大SAs在AI治理中的角色,也在 strategically positioning 其自身及成员国DPAs,以期在由AI Act催生的、管辖权尚存竞争的新监管格局中占据主导地位。
6. 意见的缺失之处
文章批评意见忽视了AI生命周期中同样关键的验证、后期市场监控和停用阶段。这些阶段同样涉及个人数据处理,并引发关于目的限制、数据最小化、重新同意等GDPR合规问题,但未在意见中得到充分探讨。
研究结论与讨论
Vera Lúcia Raposo的研究系统性地解读并批判了EDPB Opinion 28/2024。该意见为AI模型,特别是基于“合法利益”进行数据处理的模型,提供了急需的 GDPR 合规框架,尤其是在法律依据评估、网络抓取的限定条件以及非法训练后果方面提供了重要指引。它确认了GDPR原则对AI的普适性,并强调了控制者的核心责任与SAs的强势监管角色。
然而,该意见也存在显著局限。其表述有时模糊不清、结构略显混乱,且留下了大量需个案判断的空间,这可能导致欧盟内部监管实践的不一致。意见对验证、监控等关键生命周期阶段的忽视是一个重大疏漏。此外,文章敏锐地指出,EDPB在强化SAs(其自身成员)权力的同时,也隐含了在AI治理这一新兴监管领域扩张自身影响力的潜在意图。
综上所述,EDPB Opinion 28/2024是调和AI创新与数据保护的关键一步,但远非终点。它勾勒出了一条充满挑战的合规路径,要求AI开发者与部署者进行细致入微的风险评估、采用隐私增强技术并保持全面记录。同时,它也预示着一个由数据保护机构深度介入的、动态发展的AI监管新时代。未来,如何在保障个人基本权利与促进技术创新之间找到可持续的平衡点,仍需立法者、监管机构、业界与学术界的持续对话与共同努力。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号