同行评审中的人工智能:编辑部中的房间里的大象

《Evidence-Based Dentistry》:AI in peer review: the elephant in the editorial room

【字体: 时间:2026年06月06日 来源:Evidence-Based Dentistry 2.3

编辑推荐:

  目前,超过一半的研究人员在稿件同行评审过程中使用人工智能(AI)。这并非预测,而是科学出版的当前现实。Frontiers在111个国家对1600余名学者开展的一项全球调查发现,53%的同行评审人员曾在工作中使用AI工具,其中接近四分之一的人报告过去一年中使用频

  
目前,超过一半的研究人员在稿件同行评审过程中使用人工智能(AI)。这并非预测,而是科学出版的当前现实。Frontiers在111个国家对1600余名学者开展的一项全球调查发现,53%的同行评审人员曾在工作中使用AI工具,其中接近四分之一的人报告过去一年中使用频率有所增加。针对主要AI会议所提交同行评审报告的计算分析估计,6.5%至16.9%的评审意见包含由大语言模型(LLMs)实质性修改的文本。在那些于同行评审中使用人工智能的人员中,59%将其用于辅助撰写评审报告本身。由此可见,这一问题并非正在逼近编辑部,而是已经真实存在于其中。

出版方的表态

若干大型出版集团已就生成式人工智能(generative AI)在同行评审中的使用发布正式政策,且以下所列并非穷尽。它们的立场具有共同核心:出于保密性与知识产权考量,评审人员不得将未发表稿件上传至公共大语言模型(LLM)平台。差异主要体现在适用范围与细节层面。Elsevier禁止生成式AI参与评审流程的任何环节,包括评审报告撰写本身。Springer Nature要求,只要AI以任何方式支持了评审工作,就必须进行披露。Wiley允许将AI用于评审反馈的语言润色,但禁止上传稿件,并要求强制披露。Taylor & Francis明确指出,评审人员不得使用AI生成评审报告。SAGE区分辅助性AI与生成式AI,前者指改善研究人员自身表述的工具,并豁免其披露要求。

这些政策体现了为建立标准所作出的真实努力。然而,它们具有共同的结构性局限:没有任何一项政策明确说明如何验证合规性,何种情形构成可检测的违规,或不遵守规定将产生何种后果。声明已经存在,治理机制却尚未建立。

政策与实践之间的鸿沟

出版方禁止的内容与评审人员实际行为之间的差距,并不仅仅是个体不合规的问题。编辑群体中的非正式讨论越来越多地表明,部分编辑可能会因怀疑存在AI参与而拒收评审报告,某些情况下甚至拒稿,尽管目前缺乏稳健的证据标准或可靠的检测工具。这本质上是一个系统性且尚未解决的检测问题。目前尚无任何可用软件能够可靠识别AI生成或AI修改的文本。检测工具会产生较高比例的假阳性与假阴性,而且AI使用越复杂,就越难以检测。因此,建立在“违规行为能够被发现”这一假设上的合规体系,并不能构成真正的保障。相反,规则不清还可能无意中导致对某些评审人员和作者采取不一致、甚至具有歧视性的处理。

另一方面,尽管尚不存在完全可靠的工具,一些反复出现的AI生成文本模式仍然可以被识别,这提示相关工具的使用往往并未被披露。在《Journal of Food Science》对同行评审人员进行的一项非正式评估中,绝大多数人(超过95%)声明未使用AI工具,而少数承认使用者也仅表示将其用于润色自身评论的语法。结合Liang等人的语言学证据以及Frontiers调查数据,这种差异无法仅用抽样差别解释。尽管Liang等人识别出的部分结果可能属于假阳性,不同调查之间的显著不一致仍提示,结构性不愿披露可能导致了相当程度的低报。评审人员可能避免在同行评审过程中报告AI使用情况,因为披露被视为具有声誉成本,且尚未获得规范层面的认可。在缺乏清晰且非评判性承认框架的情况下,沉默便成为最理性的回应。

这就产生了同行评审中AI的“透明性悖论”:禁止越严格,隐瞒的激励越强;而在不改变规范语境的前提下依赖自愿申报,并不能减少未披露的AI使用,只会使其变得不可见。

真正需要的是什么

更严格的限制性政策并非答案。更重要的是,这样做会有封堵负责任整合AI所带来真实机会的风险。LLMs在同行评审中的局限性已有充分记录:恰恰在最依赖专家判断的领域,其表现会下降,包括评估创新性、评价方法学严谨性以及解释特定领域研究发现。在临床与健康科学中,已有研究显示,LLMs可能误读医学写作中具有代表性的审慎语气,将适当的认识论克制混同于科学薄弱。LLMs不会取代人工同行评审。真正的风险在于,禁令阻碍了建立安全、透明、可问责AI使用机制所需的制度结构。此外,缺乏非评判性的LLM使用承认框架,也限制了对研究人员为何依赖这些工具的理解。这种使用未必反映不端行为或能力不足,也可能是学术体系结构性压力的应对结果:研究人员被期待承担不断扩展的角色并维持更高生产力,但可用资源更少、时间更有限。

真正需要的是范式转变:从“禁止”转向“治理下的承认”。这要求在四个层面采取行动。

第一是规范层面。只要披露AI使用仍被视为承认不端行为,披露要求就始终无法真正执行。编辑必须积极重塑这一观念:有限、透明的AI辅助并非对评审者诚信的破坏,而是一种可以被承认、记录并明确边界的实践。规范变革必须先于正式要求,否则披露政策只会复制它原本试图弥合的鸿沟。

第二是基础设施层面。出版方应为评审人员开发安全的内部AI环境,即封闭平台,在保护稿件内容的同时,允许AI辅助执行语言编辑和结构化反馈支持等任务。Frontiers已经试点了这一模式,在封闭环境中运行基于GPT的平台,并具备审计能力。这一方法将“无法验证的使用问题”转化为“可验证且边界明确的辅助系统”。

第三是教育层面。当前编辑实践中,针对AI的评审指导基本缺失。评审邀请应附带实用建议:哪些工具适合使用、适用于哪些任务,以及应如何记录使用过程。在线培训模块与由编辑整理的核对清单,可以为评审人员提供当前所缺乏的框架,从而减少因不了解而产生的误用与不必要隐瞒。这一点在循证临床期刊中尤为关键,因为评审人员需要批判性评价研究设计、评估偏倚风险、判断结局指标的临床相关性并解释统计结果,而这些正是LLMs表现最差且未被察觉的AI介入风险最大的任务。

第四是集体层面。任何单一期刊或出版机构都无法独自解决这一问题。不同学科和出版体系的编辑应协同制定关于同行评审中AI使用的共享型、循证型指南,并建立持续监测其实施情况的机制。一项协调性的观察平台若能追踪不同领域AI使用的演变,并评估披露实践在现实中的采用情况,就能为当前政策制定所欠缺的经验基础提供支撑。相关讨论应发生在各编辑委员会之间,而不是局限于单个委员会内部。

政策与披露框架应保持动态且可适应。学术界很可能面临一场代际转变,未来研究人员将在学术训练和职业发展的大部分环节中整合LLMs。从这一意义上说,LLMs可能逐渐成为一种范式,根本性重塑科学实践中信息的获取、处理、综合与传播方式。

关于诚信的问题

同行评审体系正承受真实压力。投稿量不断上升,评审资源持续下降,而快速完成评审的压力十分显著。AI工具正在填补这一缺口,且这一过程可以被测量到,却在很大程度上未得到承认。在循证临床期刊中,相关风险尤其突出。若一篇系统综述的同行评审部分或全部被委托给AI工具,就可能无法识别方法学缺陷、盲法不足、临床上无关的结局指标,或不恰当的统计比较。其下游影响不仅是论文质量减弱,更可能形成传递给临床实践者并最终影响患者的指导信息。假装这一现实并不存在,并不能维护同行评审的完整性;相反,它通过维持“表面合规”的虚构而侵蚀了真实存在的、未受监管且不可见的实践。编辑与出版方的责任,不是发布更强硬的禁令,而是建立使AI使用能够实现诚实、知情与可问责的条件。问题已经摆在眼前,现在需要做的是承认它、理解它并对其实施治理。
本文发表于《Evidence-Based Dentistry》,是一篇围绕同行评审中人工智能(AI)使用治理问题展开的评论性文章。文章并非原始实验研究,也未报告传统意义上的实验材料、样本招募或干预结果,而是基于已有调查、计算分析、出版政策文件及编辑实践观察,对当前学术出版生态中AI介入同行评审的现实处境进行了系统梳理与规范性分析。研究背景在于,生成式人工智能,尤其是大语言模型(LLMs),已经迅速进入科研工作流,同行评审环节也不例外。然而,当前主要出版机构虽然已出台若干限制或披露政策,但这些政策大多集中于禁止将未发表稿件上传至公共平台,以及限制AI直接生成评审意见,却普遍缺乏可执行的核验机制、明确的违规判定标准与后续治理措施。研究人员指出,现实中AI使用已经广泛存在,但制度设计仍停留在“声明性治理”层面,导致政策与实践之间形成明显断裂。

当前存在的核心问题包括:第一,同行评审中AI使用比例已达到不可忽视的程度,但披露机制并未形成稳定规范,实际使用状况与自我报告之间存在显著偏差;第二,现有AI检测工具无法可靠识别AI生成或修改文本,假阳性和假阴性问题突出,使基于“可检测违规”的治理模式缺乏现实基础;第三,过度强调禁止可能诱发“透明性悖论”,即规定越严格,评审人员越倾向于隐瞒AI使用;第四,在临床和健康科学领域,LLMs在创新性判断、方法学严谨性评估、领域特异性解释以及统计结果解读等方面存在已知局限,因此不受监管的隐性使用会对循证实践造成更高风险。正因为上述问题交织存在,研究人员认为,有必要重新思考同行评审中的AI治理逻辑,从单纯禁止转向可承认、可记录、可问责的制度框架。

研究人员围绕这一问题开展了四方面的论证:首先,通过引用跨国调查和会议评审文本计算分析,说明AI已在同行评审中被大规模使用,且部分使用直接涉及评审报告撰写;其次,通过比较Elsevier、Springer Nature、Wiley、Taylor & Francis、SAGE等出版方政策,揭示各机构在披露要求和允许范围上的差异,同时指出这些政策共同缺乏执行与核验支撑;再次,结合编辑共同体中的非正式实践观察与已有文献,指出在缺少可靠检测工具的情况下,编辑可能基于怀疑采取处置,从而带来不一致甚至潜在歧视性后果;最后,文章提出从规范、基础设施、教育和跨机构协作四个层面构建新的治理范式,以实现有限、透明且有边界的AI辅助。

文章的核心结论是,同行评审中的AI问题不应继续被理解为单纯的违规与禁止问题,而应被视为一个需要制度化治理的现实转型问题。研究人员强调,LLMs不会替代人工同行评审,但也不应在缺乏透明规则和支持结构的情况下被默许为隐蔽实践。真正重要的是建立一种非评判性的披露文化、安全的封闭式技术环境、针对评审任务特点的教育框架,以及跨期刊和跨出版机构的共同治理机制。文章的重要意义在于,它把AI介入同行评审从单纯技术使用争议提升为科研诚信、出版治理与临床证据质量保障问题,特别指出在循证临床期刊中,若AI被不透明地用于系统综述等关键稿件的评审,可能导致方法学缺陷、偏倚风险与统计问题未被识别,并最终影响临床决策与患者利益。

主要关键技术方法概括:本文主要采用政策分析、文献整合与论证性评论方法。研究人员综合使用了Frontiers覆盖111个国家、1600余名学者的全球调查数据,主要AI会议评审文本的计算分析结果,以及不同出版集团关于生成式AI用于同行评审的正式政策文件;同时结合《Journal of Food Science》评审人员非正式评估结果与临床、健康科学领域有关LLMs局限性的既有研究,对当前制度缺口、披露困境和治理路径进行了综合评述。本文不涉及实验性样本队列或干预设计。

研究结果

What publishers say

在这一部分,研究人员通过比较主要出版机构现行政策,得出当前学术出版界已普遍承认同行评审中AI使用涉及保密性与知识产权风险这一结论。通过对Elsevier、Springer Nature、Wiley、Taylor & Francis与SAGE相关规定的梳理,文章显示各机构虽然都强调不得将未发表稿件上传至公共LLM平台,但在是否允许AI润色评审意见、是否要求披露、是否允许任何形式的生成式AI参与等方面存在差异。由此得出的关键判断是:标准设定正在形成,但治理结构尚未同步建立,因为这些政策并未说明如何验证合规、如何界定可检测违规以及违规后的处理后果。

The gap between policy and practice

这一部分通过整合调查结果、编辑共同体观察和AI文本识别研究,说明当前同行评审中的AI使用已经超出正式披露框架的覆盖范围。研究人员指出,一方面,部分编辑可能基于AI介入的怀疑拒收评审意见甚至稿件,但这种做法缺乏可靠证据基础,因为目前不存在能够稳定识别AI生成或AI修改文本的软件工具;另一方面,Frontiers调查、AI会议评审计算分析以及《Journal of Food Science》自我报告之间存在明显差距,这提示同行评审中的AI使用存在低报现象。由此,研究人员提出“透明性悖论”:禁止越严格,评审者越可能隐瞒,单纯依赖自愿披露并不能提升透明度,反而会使AI使用转入不可见状态。

What is actually needed

在这一部分,研究人员首先依据既有研究指出,LLMs在评估创新性、方法学严谨性、领域特异性发现以及临床与健康科学中的审慎表述时存在显著局限,因此AI不能替代人类专家判断。但研究人员并未据此主张加强禁令,而是认为禁令会阻碍安全整合AI所必需的制度建设。在此基础上,文章提出四层治理方案。其一是规范层面,要求将有限且透明的AI辅助重新界定为可被承认和记录的实践,而非当然的不端行为。其二是基础设施层面,建议出版方建立封闭式、内部可审计的AI平台,用于语言编辑和结构化反馈支持,从而把不可验证的使用转化为可验证的有边界辅助。其三是教育层面,主张在评审邀请、培训模块和核对清单中明确哪些工具可用、适用于何种任务、应如何记录使用情况,尤其要提醒在偏倚风险评估、临床相关性判断和统计解释等关键任务中慎用LLMs。其四是集体层面,强调不同期刊和出版机构需要共同制定循证指南,并通过持续监测掌握AI使用实践的演变。该部分最终说明,政策与披露框架必须保持动态可调,以回应未来研究人员在训练与职业发展中日益深度整合LLMs的趋势。

A question of integrity

这一部分从科研诚信和临床后果角度强化全文主张。研究人员指出,同行评审系统正面临投稿量上升、审稿人不足和时效压力加剧等结构性困境,AI工具事实上正在填补这一空缺,但多在缺乏承认与监管的情况下发生。对于循证临床期刊而言,如果系统综述等稿件的同行评审被部分或全部交由AI处理,可能导致方法学缺陷、盲法不足、临床无关结局或不恰当统计比较未被发现。由此带来的后果并非仅是论文质量下降,而是可能影响临床实践建议并进一步波及患者。研究人员据此认为,假装严格禁令足以维护同行评审完整性,只会以表面合规掩盖无监管且不可见的现实实践,反而侵蚀制度诚信。

讨论总结

文章讨论部分的重点在于重新界定同行评审中AI使用的制度问题。研究人员并未淡化LLMs的风险,而是明确指出其能力边界恰恰位于同行评审最关键的判断环节,因此无约束使用不可接受。但同时,文章也强调,单纯依赖禁止与道德谴责不能解决现实问题,因为这既无法阻止AI继续进入评审流程,也会削弱披露意愿,形成治理盲区。研究人员主张,真正可行的路径是把AI使用纳入一种有边界、可记录、可审计、可教育的治理体系中,使评审者能够在明确规则下对有限辅助进行诚实披露,并使编辑和出版方拥有现实可操作的管理工具。文章还指出,随着LLMs逐步融入科研训练与知识生产方式,相关治理框架必须具备动态调整能力,否则将无法应对学术实践范式变化带来的长期挑战。

研究结论翻译

同行评审体系正承受真实压力。投稿量正在上升,评审人员可获得性正在下降,而快速完成评审的压力十分显著。AI工具正在填补这一缺口,这一现象既可测量,也在很大程度上未被承认。在循证临床期刊中,风险尤其高。若一篇系统综述的同行评审部分或全部被委托给AI工具,则可能无法识别方法学缺陷、盲法不足、临床无关结局或不恰当的统计学比较。其下游影响并不仅仅是论文质量较弱,而是会形成传递给临床实践者并最终影响患者的指导信息。假装事实并非如此,并不能保护同行评审的完整性。相反,这会通过维持一种关于合规性的虚构,侵蚀同行评审完整性,而现实却是实践未受监管且不可见。编辑和出版方的责任,不是发布更强硬的禁令,而是构建使AI使用能够实现诚实、知情和可问责的条件。问题已经摆在眼前,现在应当正视它、理解它并对其加以治理。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号