Prompt-Hacking：新型的p-Hacking吗？

《Communications of the ACM》：Prompt-Hacking: The New p-Hacking?

【字体：大中小】 时间：2026年02月28日 来源：Communications of the ACM

编辑推荐：

　　LLMs在科研中的使用可能威胁研究诚信，存在prompt-hacking风险，其固有偏见、输出不稳定及易被操纵的特性使其不适合大多数数据分析任务，需严格监管。

大型语言模型（LLMs）是在帮助还是损害研究的完整性？随着它们能力的提升，在研究中使用这些模型的风险也日益明显。研究人员不应将LLMs视为公正或可靠的工具，而必须批判性地评估其使用的适当性。我们认为，LLMs固有的偏见、变异性以及易被操纵的特性使它们不适合大多数数据分析任务。这种观点与“提示黑客攻击”（prompt-hacking）的做法类似，而“p-hacking”是当今严重影响科学诚信的最严重和广为人知的做法之一。这为强调所有计算领域及更广泛范围内有问题的LLM实践和提示黑客攻击所带来的风险提供了有力的参考和依据。这为我们进一步讨论是否应该信任LLMs作为公正的数据分析师奠定了基础。我们的答案是否定的，并敦促在使用基于LLM的数据分析时制定更严格的使用标准。

实证研究中的数据分析

计算机科学中的实证研究依赖于定量和定性方法来从数据收集中评估假设。定量研究通常利用统计工具通过数值数据来验证结果，而定性研究则通过观察、访谈和案例研究来生成研究领域的初步见解。¹⁰研究人员在通过研究评估假设或研究问题之前，会先提出这些假设或问题。完成数据收集并分析结果后，研究人员会将结果与他们的假设进行对比，以验证结果是否支持这些假设。定量和定性研究要求严格的数据收集、分析和解释过程，以维护研究结果的有效性、可靠性和可重复性。然而，这一谨慎的过程可能会受到有意识或无意识的数据操纵技术的影响，无论是通过变量选择、选择性报告，还是分析工具本身所固有的偏见。

利用p-Hacking操纵研究结果

在实证研究中，p-Hacking对科学诚信构成了重大威胁。当研究人员调整实验数据或统计分析以获得显著的p值（一种常用于确认或拒绝假设的统计指标）时，就会发生p-Hacking。⁷这种调整可能包括选择性报告变量、增加样本量，或在获得结果后修改假设，从而使结果偏向显著性，可能导致解释和结论的误导。其后果会影响依赖实证证据的领域，削弱人们对研究结果的信任，加剧复制危机，甚至导致流行p-Hacking策略的记录。⁸随着LLMs作为研究分析工具的重要性增加，通过提示黑客攻击进行类似操纵的可能性也在增加。我们担心LLMs可能不是值得信赖的实证数据分析工具。

提示黑客攻击：使用LLMs进行p-Hacking

LLMs越来越多地被提议作为传统数据分析工具的替代品。然而，它们固有的偏见、幻觉和变异性使得它们在需要公正性和可重复性的任务中根本不可靠。³与可以验证和复制的统计方法不同，LLMs的输出高度依赖于它们的训练数据和提示措辞，因此不适合用于关键的研究过程。尽管它们的便利性可能会吸引研究人员，但我们强烈建议在大多数情况下不要使用LLMs进行数据分析，因为这样做可能会损害研究结果的有效性和完整性。LLMs从其训练数据集中继承了偏见和局限性，⁴这些偏见和局限性可能导致误解并损害研究的有效性。虽然LLMs可能看起来提供了结构化且可靠的结果，但它们并非像人类研究人员那样能够理解和评估数据背景。风险包括产生幻觉、看似合理但实际上错误的输出，以及强化根深蒂固的文化或制度偏见。研究人员必须认识到，如果不进行批判性的监督和验证就依赖LLMs进行公正分析，可能会放大错误并损害科学诚信。LLMs不是无偏见的分析师，而是需要额外审查的“鹦鹉”。

我们指出，“提示黑客攻击”与“p-Hacking”非常相似，后者是一种在数据分析中的问题行为，研究人员通过调整变量、数据和统计测试来获得显著的p值。提示黑客攻击现象是最近才出现的：⁴^,⁵与p-Hacking类似，提示黑客攻击也可能无意识地鼓励选择性数据操纵。例如，研究人员可能会不断修改提示以获得支持所需结论的输出。Morris在一篇相关观点文章中表示：“提示机制对LLMs来说是一个糟糕的用户界面，应尽快淘汰。”⁵尤其是非LLM专家的研究人员可能不了解如何正确使用提示，以及提示与自然语言交互之间的细微差异如何产生不同的研究结果。与传统研究方法不同，LLMs的输出会根据提示的措辞和风格而有很大差异。这种伪自然语言的变异性对可重复性构成了挑战。即使只是轻微的提示修改，也可能产生不同的结果，使得结果无法可靠地复制。正如Morris所指出的，未能透明记录提示的变化、验证过程以及最终提示的选择偏差会损害实证研究的科学诚信。先前的研究探索了使用LLMs进行数据分析 ⁹，甚至用于模拟人类受试者实验。¹然而，提示的空间是无限的，微妙的语义或句法变化可能会产生不同的研究结果。Morris强调，如果不报告失败提示的数量和历史，以及成功提示的任何特征，不测试轻微提示变化是否会影响结果，不验证不同模型、模型版本或同一模型重复使用时的提示一致性，都将对研究的可重复性造成重大疏忽。

类似地，新的问题如“PARKing”（为了达到预期结果而调整提示）也可能出现，给科学诚信带来额外风险。与HARKing（在已知结果后提出假设）²类似，我们将PARKing定义为系统地修改提示，直到它们产生与预先存在的假设一致的结果，从而可能创建一个误导性的数据图景，实际上并不支持该假设。通过鼓励仅为了支持预期结果而调整提示，PARKing损害了输出的有效性并降低了研究结果的可信度。

LLMs是否适合用于数据分析？

虽然结构化的指南可以减轻一些风险，但研究人员必须谨慎对待在需要公正性的任务中过度依赖LLMs的情况。这些模型不同于人类判断和传统的定性或定量分析。重要的是要理解，即使透明度有所提高和文档记录更加完善，LLMs的根本局限性意味着它们应该谨慎使用，主要作为人类分析的补充，而不是替代品。LLMs将会继续存在，而且很可能研究人员已经在将它们作为研究工具。⁶^,⁹我们敦促未来的研究方向要倡导谨慎使用LLMs。尽管新颖的科学见解可以降低提示黑客攻击的风险，但研究人员必须时刻警惕LLMs的根本局限性。与p-Hacking不同，p-Hacking的滥用可以通过可重复的方法被发现，而将LLMs作为数据分析师使用则本质上会引入偏见和不准确性，即使遵循了指南也是如此，因为它们的输出是非确定性的。我们建议，在LLMs的使用带来不必要的风险或可能取代成熟方法的情况下，研究人员应采取谨慎的态度。只有在LLMs的好处超过其风险的有限且合理的场景下，才应考虑将其作为分析工具。

评估LLMs的必要性。研究人员应该问：为什么选择LLMs来进行这项分析？如果传统方法可以在不引入LLM特定风险的情况下实现相同的目标，那么就不应该使用LLMs。

评估任务兼容性。确定分析任务是否与LLMs的能力相匹配。LLMs不适合需要深度情境理解、公正解释或高度专业化领域知识的任务。

规范提示在数据生成和分析中的使用。应明确指导LLMs在数据生成和分析中的适用范围以及不适用的情况。建立标准可以减少研究中不适当使用LLMs的情况。然而，随着LLMs的发展和更新，这些指南必须定期审查和调整，以反映LLMs能力和局限性的变化。

审查伦理影响。研究人员必须确保使用LLMs不会损害伦理标准，包括避免可能扭曲研究结果的文化或系统偏见。

考虑可重复性和有效性。可重复、稳定和可靠的输出是确保数据分析可重复性的重要组成部分。为了验证一致性，研究人员应定期重复提示并评估生成结果的稳定性。研究人员还应记录完整的提示创建过程，包括步骤、决策以及用于开发最终提示序列的具体模型。任何显著的提示变化或所需的调整都应透明记录和报告。这一过程使研究人员能够解释LLMs输出的潜在波动，从而更清楚地了解其结果的稳定性和可靠性，并使其他研究人员能够更准确地复制和在此基础上进行进一步研究。如果LLMs的输出无法一致地得到验证或复制，则应避免使用它们。

提示的预先注册和记录：基于提示的稳定性，研究人员应预先注册提示和实验方案以确保透明度。这包括记录提示的顺序及其与预先注册后的修改情况，有助于防止选择性地披露有利于特定假设的提示。虽然预先注册和记录有助于减少PARKing现象，但核心问题仍然是决定是否应该使用LLMs。研究人员必须抵制为了使结果符合假设而反复调整提示的诱惑。相反，他们应该批判性地评估任务是否确实需要LLMs。通常答案是LLMs是不必要的，甚至可能是有害的。这些建议适用于研究人员、出版机构、资助机构和研究基础设施提供商。基础设施提供商，包括Zenodo和开放科学中心（Center for Open Science），必须扩展其功能，以捕获预先注册的提示和目标LLMs及其精确版本的相关元数据。

朝着伦理和可靠地使用LLMs进行研究的方向前进

是否信任LLMs作为公正的数据分析师需要一个明确和谨慎的态度：不，只有在严格监督下才能信任它们。尽管它们在加速特定研究过程方面的效用是不可否认的，但它们的固有偏见和变异性表明需要采取克制的态度，并在这一领域进行更多研究。研究人员必须将科学过程的完整性置于便利性之上，积极质疑LLMs在实证研究中的作用和局限性。虽然与p-Hacking的比较突显了操纵风险的相似性，但重要的是要强调一个关键区别：LLMs的输出从根本上受到其设计和训练的影响，因此不如统计工具客观。与经常被误用但本质上是中性的统计方法不同，提示黑客攻击利用的是设计上就不公正的工具。因此，即使“正确”地使用LLMs进行分析也不能保证结果的有效性，这需要谨慎和严格的监督。核心问题不是如何负责任地使用LLMs，而是是否应该使用它们。对于大多数数据分析任务来说，答案是明确的：除非使用LLMs是必要且合理的，否则应避免使用它们。科学界必须抵制将基于LLMs的分析常态化的诱惑，而是维护传统方法的严谨性和完整性。

Thomas Kosch（thomas.kosch@hu-berlin.de）是德国柏林洪堡大学（HU Berlin）的教授。

Sebastian Feger（sebastian.feger@th-rosenheim.de）是德国罗森海姆工业大学（TH Rosenheim）的教授。

这项工作得到了德国研究基金会（DFG）的支持，项目编号为CRC 1404：FONDA：大规模科学数据分析工作流的基础（项目ID 414984028）。

实证研究中的数据分析

利用p-Hacking操纵研究结果

提示黑客攻击：使用LLMs进行p-Hacking

LLMs是否适合用于数据分析？

朝着伦理和可靠地使用LLMs进行研究的方向前进

热点排行

新闻专题