大语言模型对抗性输出溯源的理论与实证研究：挑战与监管启示

《PLOS Complex Systems》：Can adversarial attacks by large language models be attributed?

【字体：大中小】 时间：2026年02月26日 来源：PLOS Complex Systems

编辑推荐：

　　本文系统性地探讨了大语言模型（LLM）在对抗性攻击（如网络攻击和虚假信息传播）背景下，其生成内容溯源（Attribution）这一核心挑战。作者从形式语言理论（极限辨识）和LLM生态系统数据分析的双重视角，论证了溯源在多数理论框架下（尤其是无限模型类或有限概率模型类）存在根本性不可能性。研究量化了近年来候选模型数量的爆炸式增长（约每0.5年翻一番），结合计算成本分析，揭示了穷举式溯源在实际中的不可行性。文章指出，这一理论极限对网络安全、信息治理和AI监管政策（如欧盟《人工智能法案》）构成了严峻挑战，并呼吁发展事前安全保障策略（如模型指纹、启发式筛选等）而非依赖事后溯源。

1 引言

在大语言模型（LLM）日益普及并被用于对抗性攻击或虚假信息活动的背景下，将其生成的有害或误导性内容追溯至特定源头模型（即“溯源”）的需求日益迫切。这不仅对调查、限制模型使用及防范未来风险至关重要，也是确保LLM代理部署问责制的基础。欧盟《人工智能法案》和美国行政命令14110等新兴治理举措，要求实现模型级的透明度与风险缓释工具（如水印、事件报告），其隐含前提是能够识别特定输出的生成模型。然而，在实践中将一段内容可靠地关联到特定LLM已被证明极具挑战。本研究将溯源任务置于形式语言理论（特别是“极限辨识”框架）下进行考察。我们将LLM所有可能的输出集视为一种形式语言，探究有限文本样本能否唯一确定其源头模型。我们的核心发现是：在模型能力存在重叠这一温和假设下，某些类别的LLM仅凭其输出本身在理论上就是“不可辨识”的。

2 无限离散LLM类：辨识的不可能性

我们首先考察了Gold的经典框架：观察来自LLM的无限输出流，且潜在模型类是无限的。在此部分，我们假设每个模型M生成一个离散语言L(M)。辨识意味着学习算法在获得足够数据后，最终能推断出正确的语言（从而确定模型）。根据Gold的形式化定义和Angluin的“可辨识集”理论，如果语言类足够丰富（例如，包含所有有限语言和至少一个无限语言），则仅从正面数据无法实现极限辨识。其推论是，如果一个无限语言可以被类中的其他语言任意逼近（即在每个有限样本上都匹配，但最终发散），那么学习者永远无法确定哪个语言是真实目标。将这一理论映射到LLM世界，这意味着在一个模型可被持续微调（产生无穷尽的、输出能力相互嵌套的变体）的生态系统中，即使拥有无限数据，溯源的算法也无法可靠地区分无界的基础模型与海量的微调变体。这表明，在考虑无限可能的LLM类别时，极限辨识在理论上是不可能的，为溯源的可行性设定了一个理论上限。

3 无限概率LLM类

在实践中，LLM本质上是概率性的。人们可能期望纳入概率信息有助于区分仅凭语言成员资格无法区分的模型。然而，在标准的极限辨识设定下，学习者通常只能访问哪些输出会出现，而非其潜在的真正概率分布。任何无限确定性语言类的不可辨识性都会延续到包含这些（作为0/1特例的）概率语言类中。因此，我们得出结论：如果候选LLM的类别是无界的（无限多个可能的模型/语言），那么即使模型是概率性的，也不存在通用的溯源算法能在确定性下识别源头模型。这表明，为了获得理论上的可辨识性，必须大幅限制假设空间——例如，假定只有有限（且可管理）的候选模型集合。

4 有限离散LLM类：可辨识性

当候选模型（及其对应语言）的数量有限时，情况则有利得多。根据Angluin的理论，任何有限的语言集合都可以从正面数据实现极限辨识。在这种情况下，由于只有有限种可能，最终可以为每种语言找到一个有限的可辨识集。因此，理论上，只要有足够的数据，学习算法就能收敛到正确的模型。这对应着实践中只有少量特定模型被怀疑（例如，一组已知的可能生成给定文本的机器人或生成器）的场景。若这些模型差异足够显著，通过将观察到的输出与每个模型的已知输出进行交叉核对，定向溯源是可能成功的。

5 有限概率LLM类：一个反例

然而，即使候选模型集合有限，概率分布也可能引入确定性语言中不存在的模糊性。具体而言，不同的模型可以拥有相同的支持集（即它们能生成完全相同的字符串集合，但概率不同）。如果两个模型的支持集完全相同，那么在仅提供输出字符串（而非似然信息）的极限辨识框架下，任何数据序列都无法区分它们——因为无论出现什么字符串，它都可能来自任一模型。我们构建了一个简单的反例来证明这一点：考虑一个仅包含单符号的字母表，定义两个支持集相同（所有非空字符串）但概率分布略有差异的概率语言。在对抗性的数据呈现顺序下（仅保证每个可能字符串最终出现，而非按其真实分布抽样），任何辨识算法都无法保证在有限步后输出正确的模型。这一反例首次证明了即使对于有限（仅两个）概率模型集合，极限辨识也并不总是成立。这从理论层面揭示了当模型具有高度重叠的输出能力，仅存在风格或概率倾向的细微差异时，仅凭单次或有限次观察到的输出进行溯源是根本不可能的。

6 LLM假设空间的快速扩张

理论分析表明，除非候选模型集非常有限，否则在最坏情况下无法可靠溯源。而现实中，LLM生态系统正在快速增长。基于斯坦福大学“生态系统图谱”项目的数据，我们对公开的模型和数据集进行了分析，以估算潜在微调变体的数量。我们定义了保守估计：每个开源模型最多在一个新数据集上微调，此时可区分的模型起源数量N(t)下限为N(t) = C(t) + O(t) × (1 + D(t))。数据显示，即使在这一保守假设下，假设空间也从2019年的约10¹个变体激增至2023年的10⁴个，并在2025年超过10⁵个。最小二乘指数拟合显示增长率约为每年1.39，对应倍增时间τ ≈ 0.50年（约六个月）。若允许在最多两个或三个数据集组合上进行微调，假设空间的膨胀更为惊人：在k=2时，N(t)在2025年达到约10⁶量级（倍增时间τ ≈ 0.37年）；k=3时接近10⁷（倍增时间τ ≈ 0.28年）。任何穷举式的溯源或指纹识别系统都将难以跟上如此快速的倍增速度。

按模型模态和开发者地区的细分趋势分析进一步揭示了问题的复杂性：虽然纯文本模型在绝对数量上仍占主导，但增长最快的模态是多模态模型，其次是视觉和音频模型，这表明非文本领域的溯源将很快面临与语言模型相同的组合爆炸挑战。在地域分布上，北美早期领先，但亚洲组织（特别是开源贡献者）在2024年底已赶上或超过北美数量，欧洲和其他地区也在稳步贡献。这要求溯源框架必须为全球范围内的可疑生成器做好准备。

7 穷举溯源的计算可行性

溯源的挑战不仅在于假设空间的组合爆炸，还在于原始计算成本。一个直接的穷举方法——针对每个已知模型评估给定输出的似然——会随着模型数量和规模的增加而迅速变得不可行。我们提取了截至2025年所有可用模型的参数量进行估算：累计参数量从2019年的约1.3×10¹⁰激增至2025年的约2.2×10¹³。以一个包含10万个token的可疑内容为例，在极其乐观的假设下（每个参数每个token执行一次浮点运算），针对2025年的所有已知模型进行一次归因就需要约2.2×10¹⁸次浮点运算。使用Frontier超级计算机（峰值性能约1.7×10¹⁸FLOP/s），单次归因也需要约1.3秒。

然而，实际场景更为严苛。假设每天需要检查1万条各10万token的可疑输出，在2025年的模型集合下，每日工作量将高达2.2×10²²FLOP，这需要Frontier超算约3.6小时的全负荷运行。若将规模扩大到全国范围的监测（假设美国有2.5亿成年人每天使用生成式AI产生1万个token），则年生成量高达约9.1×10¹⁷个token。对此进行穷举式归因将需要约2.0×10³¹FLOP，即使使用Frontier，也需要约3.7×10⁵年的连续峰值计算。这凸显了穷举式溯源在计算上的不可行性，即便是假设能访问所有模型内部状态且计算能力不受限的理想情况。在实践中，由于许多模型是闭源的、内容可能被加密或受隐私保护，难度将进一步加大。

8 更广泛的挑战与讨论

除了理论不可能性和计算爆炸之外，其他因素也使LLM溯源复杂化：

•
社交网络动态的规避：在现实攻击中，恶意内容在到达受害者之前会通过社交网络传播。攻击者通过将操作分散到众多小片段内容中，或通过代理账户和受感染节点注入内容，使得防御者永远无法获得足够丰富的分析数据集。社交网络的小世界属性和重尾连接性使得内容在无明显起源的情况下广泛扩散。
•
生成式军备竞赛：有趣的是，近期理论研究显示，智能体可以在不实际识别目标语言的情况下，无限期地生成符合目标语言分布的新字符串。这意味着攻击者和防御者都可以产生风格相似的内容，导致溯源变得无关紧要，真实性在模仿的海洋中丧失。
•
面向缓解的策略：鉴于严峻的前景，可以探讨几种有限的方法：水印与指纹识别（如果开发者自愿或依法在生成内容中嵌入可检测模式）、模型认证基础设施（如加密签名）、以及通过政策限制假设空间（减少流通中的模型数量）。我们的研究结果强烈表明，纯粹的技术性事后溯源并非万能药。面对模型能力和可用性的快速扩展，我们应假设一个恶意AI输出溯源困难甚至不可能的世界，并转向主动措施：例如，在模型中嵌入保护机制、限制对高能力模型的访问、教育公众识别AI生成的虚假信息，以及构建对虚假内容的抵御能力。

9 结论

我们通过学习理论的不可能性和当前模型生态的实证现实，全面探讨了LLM溯源的前景。基于Gold和Angluin的极限辨识结果，我们证明，除非候选集人为地保持小规模且互斥，否则即使在拥有无限、未标记数据的情况下，通常也无法推断出真正的源头模型。我们的新定理表明，两个输出分布完全重叠的概率语言模型在原则上是无法区分的。这一否定性结果不是有限样本的偶然现象，而是一个在无限数据状态下依然成立的信息论极限。

实证图景放大了这一限制。微调、检查点重组和自动化架构搜索导致可能的生成器池每几个月就翻一番，而穷举式溯源对于任何超出玩具语料库的范围，其计算成本早已超出百亿亿次规模。因此，穷举搜索并不可行，而统计上的“最佳猜测”方法同样继承了已确立的不可能性边界。

这些发现与日益依赖模型级可追溯性的政策环境产生了冲突。欧盟《人工智能法案》、美国行政命令14110以及英国和OECD的类似草案，都将义务（事件报告、水印保留、红队记录）明确施加于提供者或模型层面。没有可靠的溯源，监管机构就缺乏执行罚款或强制召回的技术基础，开发者也无法证明许多安全港条款中嵌入的“尽职调查”。信息链调查也面临类似的僵局。

由于不可能性边界是信息论的，这暗示我们需要从事后识别转向事前保障。诸如加密签名、鲁棒水印或许可密钥托管等技术缓解措施，可以注入额外信息位来缩小不可区分类。可审计的使用日志和基于风险分级的发布实践，则能在事件发生前就收窄假设空间。换言之，前进的道路在于设计可追溯性，而非事后推断。若无此类措施，文本的真实作者——无论是人还是AI（以及是哪个AI）——将常常成谜，从而影响我们信息生态系统中的信任、执法和民主监督。正如网络安全的早期理论研究对后续现实事件具有预见性一样，我们旨在在LLM溯源挑战变得无法管理之前预见它们。主动把握这些限制，可以指导我们今天设计更安全的AI系统。

热点排行