同行评审中的人工智能：编辑部中的房间里的大象

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Evidence-Based Dentistry》：AI in peer review: the elephant in the editorial room

【字体：大中小】 时间：2026年06月06日 来源：Evidence-Based Dentistry 2.3

编辑推荐：

　　目前，超过一半的研究人员在稿件同行评审过程中使用人工智能（AI）。这并非预测，而是科学出版的当前现实。Frontiers在111个国家对1600余名学者开展的一项全球调查发现，53%的同行评审人员曾在工作中使用AI工具，其中接近四分之一的人报告过去一年中使用频

目前，超过一半的研究人员在稿件同行评审过程中使用人工智能（AI）。这并非预测，而是科学出版的当前现实。Frontiers在111个国家对1600余名学者开展的一项全球调查发现，53%的同行评审人员曾在工作中使用AI工具，其中接近四分之一的人报告过去一年中使用频率有所增加。针对主要AI会议所提交同行评审报告的计算分析估计，6.5%至16.9%的评审意见包含由大语言模型（LLMs）实质性修改的文本。在那些于同行评审中使用人工智能的人员中，59%将其用于辅助撰写评审报告本身。由此可见，这一问题并非正在逼近编辑部，而是已经真实存在于其中。

出版方的表态

若干大型出版集团已就生成式人工智能（generative AI）在同行评审中的使用发布正式政策，且以下所列并非穷尽。它们的立场具有共同核心：出于保密性与知识产权考量，评审人员不得将未发表稿件上传至公共大语言模型（LLM）平台。差异主要体现在适用范围与细节层面。Elsevier禁止生成式AI参与评审流程的任何环节，包括评审报告撰写本身。Springer Nature要求，只要AI以任何方式支持了评审工作，就必须进行披露。Wiley允许将AI用于评审反馈的语言润色，但禁止上传稿件，并要求强制披露。Taylor & Francis明确指出，评审人员不得使用AI生成评审报告。SAGE区分辅助性AI与生成式AI，前者指改善研究人员自身表述的工具，并豁免其披露要求。

这些政策体现了为建立标准所作出的真实努力。然而，它们具有共同的结构性局限：没有任何一项政策明确说明如何验证合规性，何种情形构成可检测的违规，或不遵守规定将产生何种后果。声明已经存在，治理机制却尚未建立。

政策与实践之间的鸿沟

出版方禁止的内容与评审人员实际行为之间的差距，并不仅仅是个体不合规的问题。编辑群体中的非正式讨论越来越多地表明，部分编辑可能会因怀疑存在AI参与而拒收评审报告，某些情况下甚至拒稿，尽管目前缺乏稳健的证据标准或可靠的检测工具。这本质上是一个系统性且尚未解决的检测问题。目前尚无任何可用软件能够可靠识别AI生成或AI修改的文本。检测工具会产生较高比例的假阳性与假阴性，而且AI使用越复杂，就越难以检测。因此，建立在“违规行为能够被发现”这一假设上的合规体系，并不能构成真正的保障。相反，规则不清还可能无意中导致对某些评审人员和作者采取不一致、甚至具有歧视性的处理。

另一方面，尽管尚不存在完全可靠的工具，一些反复出现的AI生成文本模式仍然可以被识别，这提示相关工具的使用往往并未被披露。在《Journal of Food Science》对同行评审人员进行的一项非正式评估中，绝大多数人（超过95%）声明未使用AI工具，而少数承认使用者也仅表示将其用于润色自身评论的语法。结合Liang等人的语言学证据以及Frontiers调查数据，这种差异无法仅用抽样差别解释。尽管Liang等人识别出的部分结果可能属于假阳性，不同调查之间的显著不一致仍提示，结构性不愿披露可能导致了相当程度的低报。评审人员可能避免在同行评审过程中报告AI使用情况，因为披露被视为具有声誉成本，且尚未获得规范层面的认可。在缺乏清晰且非评判性承认框架的情况下，沉默便成为最理性的回应。

这就产生了同行评审中AI的“透明性悖论”：禁止越严格，隐瞒的激励越强；而在不改变规范语境的前提下依赖自愿申报，并不能减少未披露的AI使用，只会使其变得不可见。

真正需要的是什么

更严格的限制性政策并非答案。更重要的是，这样做会有封堵负责任整合AI所带来真实机会的风险。LLMs在同行评审中的局限性已有充分记录：恰恰在最依赖专家判断的领域，其表现会下降，包括评估创新性、评价方法学严谨性以及解释特定领域研究发现。在临床与健康科学中，已有研究显示，LLMs可能误读医学写作中具有代表性的审慎语气，将适当的认识论克制混同于科学薄弱。LLMs不会取代人工同行评审。真正的风险在于，禁令阻碍了建立安全、透明、可问责AI使用机制所需的制度结构。此外，缺乏非评判性的LLM使用承认框架，也限制了对研究人员为何依赖这些工具的理解。这种使用未必反映不端行为或能力不足，也可能是学术体系结构性压力的应对结果：研究人员被期待承担不断扩展的角色并维持更高生产力，但可用资源更少、时间更有限。

真正需要的是范式转变：从“禁止”转向“治理下的承认”。这要求在四个层面采取行动。

第一是规范层面。只要披露AI使用仍被视为承认不端行为，披露要求就始终无法真正执行。编辑必须积极重塑这一观念：有限、透明的AI辅助并非对评审者诚信的破坏，而是一种可以被承认、记录并明确边界的实践。规范变革必须先于正式要求，否则披露政策只会复制它原本试图弥合的鸿沟。

第二是基础设施层面。出版方应为评审人员开发安全的内部AI环境，即封闭平台，在保护稿件内容的同时，允许AI辅助执行语言编辑和结构化反馈支持等任务。Frontiers已经试点了这一模式，在封闭环境中运行基于GPT的平台，并具备审计能力。这一方法将“无法验证的使用问题”转化为“可验证且边界明确的辅助系统”。

第三是教育层面。当前编辑实践中，针对AI的评审指导基本缺失。评审邀请应附带实用建议：哪些工具适合使用、适用于哪些任务，以及应如何记录使用过程。在线培训模块与由编辑整理的核对清单，可以为评审人员提供当前所缺乏的框架，从而减少因不了解而产生的误用与不必要隐瞒。这一点在循证临床期刊中尤为关键，因为评审人员需要批判性评价研究设计、评估偏倚风险、判断结局指标的临床相关性并解释统计结果，而这些正是LLMs表现最差且未被察觉的AI介入风险最大的任务。

第四是集体层面。任何单一期刊或出版机构都无法独自解决这一问题。不同学科和出版体系的编辑应协同制定关于同行评审中AI使用的共享型、循证型指南，并建立持续监测其实施情况的机制。一项协调性的观察平台若能追踪不同领域AI使用的演变，并评估披露实践在现实中的采用情况，就能为当前政策制定所欠缺的经验基础提供支撑。相关讨论应发生在各编辑委员会之间，而不是局限于单个委员会内部。

政策与披露框架应保持动态且可适应。学术界很可能面临一场代际转变，未来研究人员将在学术训练和职业发展的大部分环节中整合LLMs。从这一意义上说，LLMs可能逐渐成为一种范式，根本性重塑科学实践中信息的获取、处理、综合与传播方式。

关于诚信的问题

同行评审体系正承受真实压力。投稿量不断上升，评审资源持续下降，而快速完成评审的压力十分显著。AI工具正在填补这一缺口，且这一过程可以被测量到，却在很大程度上未得到承认。在循证临床期刊中，相关风险尤其突出。若一篇系统综述的同行评审部分或全部被委托给AI工具，就可能无法识别方法学缺陷、盲法不足、临床上无关的结局指标，或不恰当的统计比较。其下游影响不仅是论文质量减弱，更可能形成传递给临床实践者并最终影响患者的指导信息。假装这一现实并不存在，并不能维护同行评审的完整性；相反，它通过维持“表面合规”的虚构而侵蚀了真实存在的、未受监管且不可见的实践。编辑与出版方的责任，不是发布更强硬的禁令，而是建立使AI使用能够实现诚实、知情与可问责的条件。问题已经摆在眼前，现在需要做的是承认它、理解它并对其实施治理。

本文发表于《Evidence-Based Dentistry》，是一篇围绕同行评审中人工智能（AI）使用治理问题展开的评论性文章。文章并非原始实验研究，也未报告传统意义上的实验材料、样本招募或干预结果，而是基于已有调查、计算分析、出版政策文件及编辑实践观察，对当前学术出版生态中AI介入同行评审的现实处境进行了系统梳理与规范性分析。研究背景在于，生成式人工智能，尤其是大语言模型（LLMs），已经迅速进入科研工作流，同行评审环节也不例外。然而，当前主要出版机构虽然已出台若干限制或披露政策，但这些政策大多集中于禁止将未发表稿件上传至公共平台，以及限制AI直接生成评审意见，却普遍缺乏可执行的核验机制、明确的违规判定标准与后续治理措施。研究人员指出，现实中AI使用已经广泛存在，但制度设计仍停留在“声明性治理”层面，导致政策与实践之间形成明显断裂。

当前存在的核心问题包括：第一，同行评审中AI使用比例已达到不可忽视的程度，但披露机制并未形成稳定规范，实际使用状况与自我报告之间存在显著偏差；第二，现有AI检测工具无法可靠识别AI生成或修改文本，假阳性和假阴性问题突出，使基于“可检测违规”的治理模式缺乏现实基础；第三，过度强调禁止可能诱发“透明性悖论”，即规定越严格，评审人员越倾向于隐瞒AI使用；第四，在临床和健康科学领域，LLMs在创新性判断、方法学严谨性评估、领域特异性解释以及统计结果解读等方面存在已知局限，因此不受监管的隐性使用会对循证实践造成更高风险。正因为上述问题交织存在，研究人员认为，有必要重新思考同行评审中的AI治理逻辑，从单纯禁止转向可承认、可记录、可问责的制度框架。

研究人员围绕这一问题开展了四方面的论证：首先，通过引用跨国调查和会议评审文本计算分析，说明AI已在同行评审中被大规模使用，且部分使用直接涉及评审报告撰写；其次，通过比较Elsevier、Springer Nature、Wiley、Taylor & Francis、SAGE等出版方政策，揭示各机构在披露要求和允许范围上的差异，同时指出这些政策共同缺乏执行与核验支撑；再次，结合编辑共同体中的非正式实践观察与已有文献，指出在缺少可靠检测工具的情况下，编辑可能基于怀疑采取处置，从而带来不一致甚至潜在歧视性后果；最后，文章提出从规范、基础设施、教育和跨机构协作四个层面构建新的治理范式，以实现有限、透明且有边界的AI辅助。

文章的核心结论是，同行评审中的AI问题不应继续被理解为单纯的违规与禁止问题，而应被视为一个需要制度化治理的现实转型问题。研究人员强调，LLMs不会替代人工同行评审，但也不应在缺乏透明规则和支持结构的情况下被默许为隐蔽实践。真正重要的是建立一种非评判性的披露文化、安全的封闭式技术环境、针对评审任务特点的教育框架，以及跨期刊和跨出版机构的共同治理机制。文章的重要意义在于，它把AI介入同行评审从单纯技术使用争议提升为科研诚信、出版治理与临床证据质量保障问题，特别指出在循证临床期刊中，若AI被不透明地用于系统综述等关键稿件的评审，可能导致方法学缺陷、偏倚风险与统计问题未被识别，并最终影响临床决策与患者利益。

主要关键技术方法概括：本文主要采用政策分析、文献整合与论证性评论方法。研究人员综合使用了Frontiers覆盖111个国家、1600余名学者的全球调查数据，主要AI会议评审文本的计算分析结果，以及不同出版集团关于生成式AI用于同行评审的正式政策文件；同时结合《Journal of Food Science》评审人员非正式评估结果与临床、健康科学领域有关LLMs局限性的既有研究，对当前制度缺口、披露困境和治理路径进行了综合评述。本文不涉及实验性样本队列或干预设计。

研究结果

What publishers say

在这一部分，研究人员通过比较主要出版机构现行政策，得出当前学术出版界已普遍承认同行评审中AI使用涉及保密性与知识产权风险这一结论。通过对Elsevier、Springer Nature、Wiley、Taylor & Francis与SAGE相关规定的梳理，文章显示各机构虽然都强调不得将未发表稿件上传至公共LLM平台，但在是否允许AI润色评审意见、是否要求披露、是否允许任何形式的生成式AI参与等方面存在差异。由此得出的关键判断是：标准设定正在形成，但治理结构尚未同步建立，因为这些政策并未说明如何验证合规、如何界定可检测违规以及违规后的处理后果。

The gap between policy and practice

这一部分通过整合调查结果、编辑共同体观察和AI文本识别研究，说明当前同行评审中的AI使用已经超出正式披露框架的覆盖范围。研究人员指出，一方面，部分编辑可能基于AI介入的怀疑拒收评审意见甚至稿件，但这种做法缺乏可靠证据基础，因为目前不存在能够稳定识别AI生成或AI修改文本的软件工具；另一方面，Frontiers调查、AI会议评审计算分析以及《Journal of Food Science》自我报告之间存在明显差距，这提示同行评审中的AI使用存在低报现象。由此，研究人员提出“透明性悖论”：禁止越严格，评审者越可能隐瞒，单纯依赖自愿披露并不能提升透明度，反而会使AI使用转入不可见状态。

What is actually needed

在这一部分，研究人员首先依据既有研究指出，LLMs在评估创新性、方法学严谨性、领域特异性发现以及临床与健康科学中的审慎表述时存在显著局限，因此AI不能替代人类专家判断。但研究人员并未据此主张加强禁令，而是认为禁令会阻碍安全整合AI所必需的制度建设。在此基础上，文章提出四层治理方案。其一是规范层面，要求将有限且透明的AI辅助重新界定为可被承认和记录的实践，而非当然的不端行为。其二是基础设施层面，建议出版方建立封闭式、内部可审计的AI平台，用于语言编辑和结构化反馈支持，从而把不可验证的使用转化为可验证的有边界辅助。其三是教育层面，主张在评审邀请、培训模块和核对清单中明确哪些工具可用、适用于何种任务、应如何记录使用情况，尤其要提醒在偏倚风险评估、临床相关性判断和统计解释等关键任务中慎用LLMs。其四是集体层面，强调不同期刊和出版机构需要共同制定循证指南，并通过持续监测掌握AI使用实践的演变。该部分最终说明，政策与披露框架必须保持动态可调，以回应未来研究人员在训练与职业发展中日益深度整合LLMs的趋势。

A question of integrity

这一部分从科研诚信和临床后果角度强化全文主张。研究人员指出，同行评审系统正面临投稿量上升、审稿人不足和时效压力加剧等结构性困境，AI工具事实上正在填补这一空缺，但多在缺乏承认与监管的情况下发生。对于循证临床期刊而言，如果系统综述等稿件的同行评审被部分或全部交由AI处理，可能导致方法学缺陷、盲法不足、临床无关结局或不恰当统计比较未被发现。由此带来的后果并非仅是论文质量下降，而是可能影响临床实践建议并进一步波及患者。研究人员据此认为，假装严格禁令足以维护同行评审完整性，只会以表面合规掩盖无监管且不可见的现实实践，反而侵蚀制度诚信。

讨论总结

文章讨论部分的重点在于重新界定同行评审中AI使用的制度问题。研究人员并未淡化LLMs的风险，而是明确指出其能力边界恰恰位于同行评审最关键的判断环节，因此无约束使用不可接受。但同时，文章也强调，单纯依赖禁止与道德谴责不能解决现实问题，因为这既无法阻止AI继续进入评审流程，也会削弱披露意愿，形成治理盲区。研究人员主张，真正可行的路径是把AI使用纳入一种有边界、可记录、可审计、可教育的治理体系中，使评审者能够在明确规则下对有限辅助进行诚实披露，并使编辑和出版方拥有现实可操作的管理工具。文章还指出，随着LLMs逐步融入科研训练与知识生产方式，相关治理框架必须具备动态调整能力，否则将无法应对学术实践范式变化带来的长期挑战。

研究结论翻译

同行评审体系正承受真实压力。投稿量正在上升，评审人员可获得性正在下降，而快速完成评审的压力十分显著。AI工具正在填补这一缺口，这一现象既可测量，也在很大程度上未被承认。在循证临床期刊中，风险尤其高。若一篇系统综述的同行评审部分或全部被委托给AI工具，则可能无法识别方法学缺陷、盲法不足、临床无关结局或不恰当的统计学比较。其下游影响并不仅仅是论文质量较弱，而是会形成传递给临床实践者并最终影响患者的指导信息。假装事实并非如此，并不能保护同行评审的完整性。相反，这会通过维持一种关于合规性的虚构，侵蚀同行评审完整性，而现实却是实践未受监管且不可见。编辑和出版方的责任，不是发布更强硬的禁令，而是构建使AI使用能够实现诚实、知情和可问责的条件。问题已经摆在眼前，现在应当正视它、理解它并对其加以治理。

联系信箱：

粤ICP备09063491号

热点排行