
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能在学术出版中的使用如何威胁研究诚信、降低信任度,并导致错误信息的传播
【字体: 大 中 小 】 时间:2026年03月13日 来源:Bulletin of the Atomic Scientists 2.3
编辑推荐:
AI工具在学术出版中的滥用引发诚信危机,包括伪造引用、生成虚假研究及篡改信息检索,可能被恶意利用,导致学术系统脆弱性增加。
自2023年以来,大量已发表的学术论文显示出使用人工智能(AI)工具进行编辑的迹象。其中许多论文可能是通过AI进行文字编辑或翻译的,但有些论文则完全或部分由大型语言模型生成——读者很难区分两者。与此同时,AI工具也被用于论文评审,以及作为搜索和发现工具的中介,但其使用方式并不总是被充分理解。学术数据库也开始受到AI生成虚假研究的影响。这些工具给学术出版系统的完整性带来了额外的压力,可能使其更容易受到有组织、有目的的虚假信息传播活动的攻击。
科学研究是我们一切活动的基础。我们在技术发展上投入了大量资金;政府声明其政策将基于学术证据;医生决定为患者选择治疗方案。但这一切的背后都有一个前提:我们相信已发表的研究能够公平地反映现实情况——即这些研究是真实的、客观的,并且是由专家研究人员完成的。然而,这一基础正在动摇。
ChatGPT发布后不久,人们就发现它开始影响学术研究。已发表的论文更倾向于深入探讨复杂问题,并且表现得异常热情(Stokel-Walker 2024)。大型语言模型(LLM)的独特写作风格在某些领域(如计算机科学或工程学)迅速流行起来,随后传播到其他学科。据估计,2024年PubMed索引的论文中有13.5%使用了LLM处理,约20万篇论文受到影响(Kobak等人2025)。在预印本(未经评审的在线论文)中,这一比例更高:到2024年底,超过20%的计算机科学预印本显示出LLM的参与痕迹(Liang等人2025)。
回想起来,这并不意外。对于许多受学术惯例束缚、必须用外语发表论文的研究人员来说,能够辅助流畅翻译的工具无疑是一大福音。几十年来,研究人员一直面临发表更多论文的压力;任何能加快写作流程的工具都具有吸引力。事实上,使用LLM的研究人员产生的预印本数量确实比不使用LLM的同事多出约三分之一(Kusumegi等人2025)。
但过度使用AI工具也有可能带来问题。一些研究人员单纯依赖LLM生成论文内容,或大幅修改草稿,从而无意中改变论文含义(Conroy 2023)。最终产生的结果看似是经过研究得出的,写作流畅、令人信服,但实际上可能只是虚假信息。在极端情况下,LLM甚至可以完全凭空捏造论文。难怪研究发现,经过LLM编辑的论文被撤回的频率是普通论文的两倍(Kousha和Thelwall 2025)。
然而,对于读者而言,很难区分经过LLM编辑和生成的论文。有时可以察觉到AI工具的使用,但很难判断具体使用程度。调查显示,28%的研究人员表示使用LLM进行文字编辑,8%用于生成新文本,但这两组中有一半以上的人并未在论文中披露这一事实(Kwon 2025)。
除了不愿公开使用AI外,许多研究人员还试图掩盖其使用痕迹。当AI写作在论文中的特征首次被注意到时,这些特征在新论文中的使用率暂时下降,但随后又逐渐增加(Geng和Trotta 2025)。这强烈表明许多作者并不希望他人知道他们使用了这些工具。
AI不仅在论文写作中发挥作用。大多数论文需要经过同行评审,这有助于确保研究的可靠性和合法性。但这一过程耗时且费力,而LLM已经开始介入其中。尽管大多数出版机构都明确警告禁止使用LLM评审论文,但这种情况仍时有发生。有些不负责任的作者甚至在草稿中留下隐蔽的指示,让AI直接跳过评审环节(Sugiyama和Eguchi 2025)。这项技术无疑引发了新的学术诚信问题!
这些工具还影响我们查找研究的方式。主要学术数据库都提供了某种形式的“AI辅助搜索”功能,利用LLM解析用户查询并返回结果——要么是推荐论文列表,要么是对结果的总结和分析。当这些功能运行良好时,确实能提供有用信息。但它们能否提供你真正需要的内容(即正确或最好的论文)仍不确定。
这里存在一个重大风险:LLM常被视为“黑箱”;其运作中的任何异常或偏见都会被直接反映在结果中,且难以发现。虽然学术数据库不太可能故意偏袒某些结果,但在如此复杂的系统中,偏见或审查不严的情况仍可能发生(Tay 2025)。
对非学术人士来说,最知名的学术数据库是Google Scholar。它通过索引Google搜索到的所有内容来提供服务,结果看起来像传统的学术论文。与传统数据库不同,Google Scholar涵盖了更广泛的资料,包括预印本和工作论文。但这也使其更容易受到LLM的干扰或操纵(Haider等人2024)。由于涵盖了更多未经评审的资料,其中包含更多可能包含LLM生成内容的信息。由于完全自动化,它无法有效过滤低质量的内容。
这种自动化方法也会引发其他问题。Google Scholar通过分析论文的参考文献列表来发现新论文,即使这些论文没有数字副本也能被索引。对于一些鲜为人知的资料来说,这很有帮助。然而,LLM的一个问题在于它们常常会生成不存在的引用——这些引用听起来很真实,但实际并不存在。Google Scholar无法区分真实引用和虚假引用(其开发者显然没有预料到这种情况),因此会错误地将其记录下来。人们验证这些引用时,发现它们存在于数据库中,便误以为它们是真实的。
大多数研究人员不会承认引用过未读过的论文……但当AI生成的引用看似能完美解答问题时,他们可能会使用这些工具。因此,大量虚假引用被混入真实论文中。这种方式可能创造出整个虚构的学术体系(Klee 2025)。
这对学术出版系统的完整性构成了严重威胁。AI生成的内容数量不断增加,且被大量“AI优化”的论文所掩盖,这些论文在表面上看似真实。读者很难区分真实研究和虚假信息,也难以判断论文中哪些部分是AI生成的。
同时,LLM的使用给系统带来了额外负担。虽然论文更容易生成,但评估和同行评审的难度却增加了。2025年底,预印本平台arXiv宣布将收紧规则,不再接受计算机科学领域的论文提交——这些论文数量过多,审核人员难以处理(Castelvecchi 2025)。随着系统压力增大,更多机构将面临两难选择:是限制提交量,还是降低审核标准,从而让问题论文通过?
我们需要思考这些问题的根源。目前,大部分AI生成的论文来自试图提升自身发表记录的学者。它们可能并无恶意,但可能符合某些学术欺诈模式(Richardson等人2025)。这些论文充斥着不确定的信息、结论和建议,可能具有误导性。这些AI编辑的论文会给未来的研究人员带来负担。
不过,并非所有AI使用的案例都是无恶意的。学术论文的权威性和可靠性使其成为虚假信息传播的目标(Bergstrom和West 2023;Haider等人2024)。如果有人想通过发布大量虚假论文来推广某种观点(例如新药物的有效性或某个政策的积极影响),他们找到了便捷的工具。虽然目前尚不确定这种情况是否正在发生,但利用AI的难度和成本都在降低。
我们获取研究的方式也在变化。基于LLM的信息检索技术使得第三方有机会控制研究访问,这可能隐藏在表面之下。历史学家Kevin Baker将这一现象比作科学的免疫系统:免疫系统会排斥有害因素,虽不能完美拦截所有威胁,但足以维持系统的正常运行。然而,当免疫系统受损时,我们更容易受到轻微感染的侵袭(Baker 2025)。
学术出版系统确实面临诸多挑战。虽然仍在运作,但已显露疲态。AI在加速研究流程方面的积极作用可能反而加剧了系统的脆弱性,为虚假信息的传播创造了条件。