编辑推荐:
LLMs在科研中的使用可能威胁研究诚信,存在prompt-hacking风险,其固有偏见、输出不稳定及易被操纵的特性使其不适合大多数数据分析任务,需严格监管。
大型语言模型(LLMs)是在帮助还是损害研究的完整性?随着它们能力的提升,在研究中使用这些模型的风险也日益明显。研究人员不应将LLMs视为公正或可靠的工具,而必须批判性地评估其使用的适当性。我们认为,LLMs固有的偏见、变异性以及易被操纵的特性使它们不适合大多数数据分析任务。这种观点与“提示黑客攻击”(prompt-hacking)的做法类似,而“p-hacking”是当今严重影响科学诚信的最严重和广为人知的做法之一。这为强调所有计算领域及更广泛范围内有问题的LLM实践和提示黑客攻击所带来的风险提供了有力的参考和依据。这为我们进一步讨论是否应该信任LLMs作为公正的数据分析师奠定了基础。我们的答案是否定的,并敦促在使用基于LLM的数据分析时制定更严格的使用标准。
实证研究中的数据分析
利用p-Hacking操纵研究结果
提示黑客攻击:使用LLMs进行p-Hacking
LLMs是否适合用于数据分析?
评估LLMs的必要性。研究人员应该问:为什么选择LLMs来进行这项分析?如果传统方法可以在不引入LLM特定风险的情况下实现相同的目标,那么就不应该使用LLMs。
评估任务兼容性。确定分析任务是否与LLMs的能力相匹配。LLMs不适合需要深度情境理解、公正解释或高度专业化领域知识的任务。
规范提示在数据生成和分析中的使用。应明确指导LLMs在数据生成和分析中的适用范围以及不适用的情况。建立标准可以减少研究中不适当使用LLMs的情况。然而,随着LLMs的发展和更新,这些指南必须定期审查和调整,以反映LLMs能力和局限性的变化。
审查伦理影响。研究人员必须确保使用LLMs不会损害伦理标准,包括避免可能扭曲研究结果的文化或系统偏见。
考虑可重复性和有效性。可重复、稳定和可靠的输出是确保数据分析可重复性的重要组成部分。为了验证一致性,研究人员应定期重复提示并评估生成结果的稳定性。研究人员还应记录完整的提示创建过程,包括步骤、决策以及用于开发最终提示序列的具体模型。任何显著的提示变化或所需的调整都应透明记录和报告。这一过程使研究人员能够解释LLMs输出的潜在波动,从而更清楚地了解其结果的稳定性和可靠性,并使其他研究人员能够更准确地复制和在此基础上进行进一步研究。如果LLMs的输出无法一致地得到验证或复制,则应避免使用它们。
提示的预先注册和记录:基于提示的稳定性,研究人员应预先注册提示和实验方案以确保透明度。这包括记录提示的顺序及其与预先注册后的修改情况,有助于防止选择性地披露有利于特定假设的提示。虽然预先注册和记录有助于减少PARKing现象,但核心问题仍然是决定是否应该使用LLMs。研究人员必须抵制为了使结果符合假设而反复调整提示的诱惑。相反,他们应该批判性地评估任务是否确实需要LLMs。通常答案是LLMs是不必要的,甚至可能是有害的。这些建议适用于研究人员、出版机构、资助机构和研究基础设施提供商。基础设施提供商,包括Zenodo和开放科学中心(Center for Open Science),必须扩展其功能,以捕获预先注册的提示和目标LLMs及其精确版本的相关元数据。
朝着伦理和可靠地使用LLMs进行研究的方向前进
是否信任LLMs作为公正的数据分析师需要一个明确和谨慎的态度:不,只有在严格监督下才能信任它们。尽管它们在加速特定研究过程方面的效用是不可否认的,但它们的固有偏见和变异性表明需要采取克制的态度,并在这一领域进行更多研究。研究人员必须将科学过程的完整性置于便利性之上,积极质疑LLMs在实证研究中的作用和局限性。虽然与p-Hacking的比较突显了操纵风险的相似性,但重要的是要强调一个关键区别:LLMs的输出从根本上受到其设计和训练的影响,因此不如统计工具客观。与经常被误用但本质上是中性的统计方法不同,提示黑客攻击利用的是设计上就不公正的工具。因此,即使“正确”地使用LLMs进行分析也不能保证结果的有效性,这需要谨慎和严格的监督。核心问题不是如何负责任地使用LLMs,而是是否应该使用它们。对于大多数数据分析任务来说,答案是明确的:除非使用LLMs是必要且合理的,否则应避免使用它们。科学界必须抵制将基于LLMs的分析常态化的诱惑,而是维护传统方法的严谨性和完整性。
这项工作得到了德国研究基金会(DFG)的支持,项目编号为CRC 1404:FONDA:大规模科学数据分析工作流的基础(项目ID 414984028)。