通过机器反学习来减轻大型语言模型（LLMs）中的敏感信息泄露问题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Mitigating sensitive information leakage in LLMs4Code through machine unlearning

【字体：大中小】 时间：2026年01月24日 来源：Neural Networks 6.3

编辑推荐：

　　针对LLMs4Code模型中存在的敏感信息泄露问题，本研究通过构建专用基准，评估了三种机器忘却算法在AIXCoder、CodeLlama和CodeQwen模型上的效果，发现泄露率降低超50%的同时保持91%以上的代码生成性能，并揭示间接泄露的新挑战。

关善志|邱朝阳|耿若彤|耿明阳|王尚文|徐传福|王浩天|林志鹏|董德尊

国防科技大学计算机科学与技术学院，中国湖南长沙410073

摘要

用于代码的大型语言模型（LLMs4Code）在代码生成方面取得了优异的性能，但最近的研究表明，它们可能会记住并泄露训练数据中包含的敏感信息，从而带来严重的隐私风险。为了解决这一问题，本研究首次进行了全面的实证研究，探讨了如何应用机器去学习技术来减轻LLMs4Code中的敏感信息泄露。我们首先构建了一个专门的基准测试集，包括：（i）包含多种形式个人信息的合成遗忘集，以及（ii）用于评估去学习后代码生成能力是否得以保留的保留集。利用这个基准测试集，我们系统地评估了三种代表性的去学习算法（GA、GA+GD、GA+KL）在三个广泛使用的开源LLMs4Code模型（AIXCoder-7B、CodeLlama-7B、CodeQwen-7B）上的效果。实验结果表明，机器去学习可以显著减少基于直接记忆的泄露：平均而言，直接泄露率下降了超过50%，同时保留了大约91%的原始代码生成性能。此外，通过分析去学习后的输出，我们发现泄露方式从直接转向了间接，揭示了一个即使目标数据已被成功遗忘仍存在的未被充分探索的漏洞。我们的研究结果表明，机器去学习是提高LLMs4Code隐私保护的一种可行且有效的方法，同时也强调了未来需要开发能够同时减轻直接和间接泄露的技术。

引言

近年来，大型语言模型（LLMs）在各种自然语言处理任务中取得了显著的成功（Brown, Qiu, Xu, Fang, Zhang, Deng, Dai, Ding, Wang, Han, Che等人，2025；Xu, Qiu, Deng, Zhang, Gao, Fang, Wang, Ding, Wang, Han等人，2025），这些模型已被专门用于软件工程领域，形成了所谓的用于代码的大型语言模型（LLMs4Code），例如CodeLlama和Stable Code（Xu等人，2022）。通过在编程语言数据集上进行广泛的预训练，这些模型在代码相关任务上表现出色（Deng, Xia, Yang, Zhang, Yang, Zhang, 2024；Geng, Wang, Dong, Wang, Li, Jin, Mao, Liao, 2024；Qin, Wang, Lou, Dong, Wang, Li, & Mao, 2024）。例如，Geng等人（2024）展示了LLMs4Code在生成代码摘要方面的能力，这些摘要不仅质量高，而且能够通过上下文学习满足人类程序员的多样化需求（Geng等人，2024）。

然而，LLMs4Code也是一把双刃剑，最近的研究已经指出了其中存在敏感信息泄露的风险，包括个人身份信息（PII）、私人数据或机密秘密（Jahanshahi, Mockus, Yang, Sun, Yue, Devanbu, & Lo）。从模型攻击的角度来看（Dong, Zhou, Yang, Shao, & Qiao, Yao, Duan, Xu, Cai, Sun, Zhang, 2024），实证证据表明，特定的提示可能导致相应敏感信息的泄露（Carlini, Tramer, Wallace, Jagielski, Herbert-Voss, Lee, Roberts, Brown, Song, Erlingsson等人，2021；Huang, Li, Wu, Zhang, Lyu, 2024）。更正式地，这种在利用LLMs4Code时发生的隐私泄露风险通常被称为记忆问题（Al-Kaswan, Izadi, 2023；Lukas, Salem, Sim, Tople, Wutschitz, Zanella-Béguelin, 2023）。由于记忆问题普遍存在于各种与代码相关的任务中，例如代码生成（Svyatkovskiy, Deng, Fu, Sundaresan, 2020；Wang, Le, Gotmare, Bui, Li, Hoi, 2023a），并且对开发者的日常开发活动构成了不可避免的风险，我们认为：在LLMs4Code的时代，有效解决潜在的敏感数据泄露问题对于维护用户隐私和建立信任至关重要。

然而，据我们所知，目前的相关工作很少提供针对这一重要但具有挑战性问题的解决方案，仅提供了关于记忆问题的实证发现（Kiyomaru, Sugiura, Kawahara, Kurohashi, 2024；Leybzon, Kervadec, 2024）。我们还注意到，一种潜在的方法是在训练数据预处理阶段加入专门的数据清洗步骤，但这会导致灵活性和可扩展性的不足，因为需要投入大量的工程努力来制定合适的规则和启发式方法。

幸运的是，机器去学习（MU）作为一种技术应运而生，旨在帮助目标模型“忘记”初始训练集中的数据点，提供了一种轻量且有效的方法来保护敏感信息（Liu, Dou, Tan, Tian, & Jiang, Nguyen, Huynh, Nguyen, Liew, Yin, & Nguyen）。具体来说，MU提出了一个“辅助”的净化数据集（不含敏感信息），从而可能比重新训练模型节省大量的开发成本。基于这一直觉，多项研究验证了MU在使LLMs忘记训练期间遇到的特定内容方面的有效性（Chen, Yang, 2023；Chundawat, Tarun, Mandal, Kankanhalli, 2023）。尽管如此，我们 also 注意到，现有文献缺乏对现有MU技术在LLMs4Code背景下的优势和劣势的全面理解，包括它们在减轻代码生成过程中隐私泄露方面的有效性，以及最先进的MU技术在LLMs4Code上的表现。虽然一些先前的工作（例如Chen和Yang（2023）；Chundawat等人（2023）已经探索了通用LLMs上的机器去学习技术，但将这些方法直接应用于LLMs4Code并非易事。代码生成模型与自然语言模型有显著不同，因为代码更具重复性、更容易被记住，并且在功能上更为精确。这些特性使得在LLMs4中进行去学习在技术上更具挑战性，在实际应用中后果也更严重。此外，通常用于评估去学习效果的方法依赖于分类准确性或困惑度，而这些指标并不适用于代码生成任务，因为在代码生成任务中，通过率（pass@1）和功能正确性是主要的评估指标。我们的工作通过使用隐私泄露和代码生成指标系统地评估LLMs4Code上的去学习策略，填补了这一空白。

为了填补这一空白，本文对LLMs4Code中的敏感数据泄露进行了广泛的实证研究，同时验证了它们生成的代码的正确性。借助最先进的GPT-4和成熟的代码生成数据集，我们首先构建了一个基准测试集，包括：（a）包含5K条与隐私相关的个人数据的遗忘集，用于评估去学习的有效性；（b）包含5K条代码生成数据的保留集，用于评估LLMs4Code的基本能力。随后，我们在三个广泛使用的LLMs4Code模型（AIXCoder、CodeLlama和CodeQwen）上评估了三种最先进的、易于部署的MU技术。除了研究这些MU技术的有效性外，我们还分析了去学习过程后的隐私保护和泄露形式，以及未来需要解决的潜在挑战。总体而言，我们的贡献总结如下：

1.

MU是一种有前景的方法，可以同时减轻LLMs4Code的隐私问题，同时保持其代码生成能力。具体来说，去学习可以将AIXCoder的泄露率降低超过50%，同时对代码生成的副作用可以忽略不计。

2.

去学习后，LLMs4Code学会了采用多种形式来防止敏感信息的泄露，其中最常用的一种是用变量名和缩写替换敏感字段。

3.

去学习后，LLMs4Code更有可能间接泄露隐私，这意味着它们倾向于泄露未明确查询的信息。这表明未来的工作还应考虑间接隐私泄露，以实现更强大的去学习过程。

4.

本研究中的所有代码和数据均可在https://doi.org/10.5281/zenodo.14729266公开获取。

研究片段

LLMs与LLMs4Code

LLMs和LLMs4Code是自然语言处理和编程领域的重大创新。像ChatGPT这样的模型通过在庞大的文本数据集上进行训练，能够以惊人的准确性和流畅性理解和生成人类语言。这些模型在各种与语言相关的任务中展示了能力，从翻译和摘要到对话生成和内容创作（Feng, Zhang, Li, Liu, Lang, Feng, Wu, & Liu, Ugare, Suresh,

研究设计

图1展示了本研究的工作流程。假设LLMs4Code在代码生成方面最初表现良好（给定一般查询），但在给定特定代码完成提示（即隐私查询）时会泄露隐私信息。我们的目标是研究将各种机器去学习技术应用于这些模型是否可以（1）防止对隐私相关查询的敏感信息泄露，以及（2）保持通用查询的代码生成能力。

RQ1：去学习的影响

表1展示了应用于不同规模LLMs4Code（从紧凑型（1.5B）到大型（34B）模型的各种去学习技术的评估结果。零样本设置表示在没有任何去学习干预的情况下，直接向原始模型提出隐私相关查询时的基准泄露水平。

我们首先观察到，初始模型容易发生严重的隐私泄露。例如，尽管CodeLlama-34B具有强大的生成能力，

结论

本研究揭示了三个关键结论。首先，LLMs4Code中的隐私泄露是一个紧迫的问题，需要更多的关注来减少代码生成过程中的无意泄露。尽管之前的研究已经探讨了通用LLMs中的记忆问题，但据我们所知，这是首个系统研究LLMs4Code中的隐私风险和机器去学习。我们希望我们的工作能够开启一个新的研究方向，以理解和减轻训练时的隐私问题

结论

在本文中，我们针对LLMs4Code中的隐私泄露这一关键问题进行了研究，并探讨了利用现有的机器去学习技术来解决这一问题的有效性。通过在我们精心设计的基准测试上的广泛实验，我们证明了诸如梯度上升和KL散度计算之类的去学习算法可以有效地将敏感信息泄露减少约80%，而不影响模型的核心代码生成能力。

CRediT作者贡献声明

关善志：软件、方法论。邱朝阳：方法论。耿若彤：撰写——原始草稿、监督、资源、调查。耿明阳：撰写——原始草稿、项目管理。王尚文：撰写——审阅与编辑、软件。徐传福：撰写——审阅与编辑、可视化、方法论。王浩天：撰写——审阅与编辑、监督。林志鹏：验证。董德尊：撰写——审阅与编辑、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号