《PLOS Biology》:Screening, sorting, and the feedback cycles that imperil peer review
编辑推荐:
作为编辑,推荐这篇综述。它通过数学模型揭示了同行评议(peer review)正陷入一个恶性循环:日益增长的稿件量压垮了合格的评审专家库,导致评审准确性下降,进而鼓励了更多作者向高端期刊“碰运气”,进一步加剧了评审负担。文章精准地剖析了期刊、作者和读者之间的复杂互动,并探讨了提高审稿桌面拒稿率(desk rejection)、支付审稿薪酬等可能逆转这一“同行评议熔毁(peer-review meltdown)”的干预措施,为危机重重的学术发表体系提供了深刻的理论洞见和解决方案。
引言
学术期刊依赖同行评议来遴选最值得发表的科研成果。然而,找到愿意且合格的审稿人来评估稿件正变得越来越困难,这可能威胁到同行评议作为一项制度的长期存续。为了挽救它,我们能或应该做些什么?本文通过建立数学模型,揭示了作者、审稿人和读者在甄别最佳科学成果过程中所面临的激励之间错综复杂的相互作用。其中两个层面尤为突出。首先,同行评议通过作者决定将稿件投向何处的决策,部分地揭示了作者对自己作品质量的私人认知。其次,期刊对传统上无酬且基本未获认可的审稿劳动的依赖,剥夺了它们在审稿劳动力短缺时,利用工资这一标准市场机制来招募更多审稿人的能力。
模型与福利
本文模型建立在Adda与Ottaviani模型(下文简称AO模型)的基础上,旨在研究科学出版问题。考虑一个由两个期刊服务的科学界:一个旨在发表顶尖稿件的精英期刊,以及一个发表其他所有稿件的大型期刊。我们假设精英期刊有能力发表该领域产出的稿件中的一定比例 k(即期刊容量)。模型假定存在一个单位质量的作者群体,每位作者持有一篇质量为θ的稿件。作者能获得关于其稿件质量X的私人感知,该感知服从以θ为均值、σx2为方差的正态分布。作者可以选择向精英期刊投稿(付出成本 c > 0)或不投稿。稿件被发表的作者将获得价值 v > c 的声望和专业回报等奖励。
由于期刊无法直接观测稿件质量θ,它会按常规方式寻求审稿。假设审稿分数Y服从以θ为均值、σy2为方差的正态分布,期刊则理性地接受那些审稿分数超过某个接受阈值 y 的论文。模型均衡由两个条件决定:作者理性条件(AR)——作者仅当投稿的期望收益为正时才投稿;以及容量填充条件(CF)——期刊恰好发表 k 比例的稿件。AO模型证明了均衡的存在性、唯一性和稳定性。
该模型服务于三个不同的群体:作者、读者和审稿人。作者福利 Wa衡量了作者从发表中获得的净收益。读者福利(也代表期刊的收益)由已发表稿件的平均质量θ来衡量,这反映了期刊发表最佳科学的能力。审稿人福利的负担则与审稿负荷 L(即送审稿件的总量)成正比。
分析
单个期刊
AO模型的一个核心结论是,当审稿准确性下降时(即σy2增加),会有更多作者投稿,反之亦然。其直觉是,准确性较低的同行评议在期刊的分选过程中引入了更多随机性。这削弱了作者接受概率与其类型(即对自己质量的评估)之间的联系,从而鼓励了更多作者投稿,并放松了作者自我筛选(screening)。因此,审稿准确性降低通过增加审稿负荷 L 使作者和审稿人的境况都变得更糟。对读者福利的影响则是模糊的。
如果审稿负荷的增加同时导致同行评议准确性下降,那么作者筛选和期刊分选就会陷入一个负反馈循环。当审稿负荷增加时,编辑要么要求他们偏好的审稿人承担更多工作,要么必须从审稿人库的更深处寻找人选。无论哪种情况,同行评议都会变得不那么准确,使得期刊的分选精度降低。因此,审稿噪音σy2和审稿负荷 L 相互强化:更准确的期刊分选迫使作者进行更严格的自筛选,而更严格的自筛选导致投稿减少,从而带来更准确的同行评议。反之亦然。
这种筛选与分选之间的反馈循环影响了环境扰动时均衡的变化。例如,近年来,在顶级期刊发表文章所带来的职业回报大幅增加,即 v/c 增加。这导致更多作者“碰运气”,审稿负荷 L 也随之增加。而由于审稿负荷增加会降低审稿准确性,这种反馈循环加剧了因回报增加而导致的审稿负荷上升。
多个竞争性期刊
实际学术出版环境远比单一精英期刊模型复杂。随着科学的发展,期刊数量在增加,而单个期刊发表的产出比例在下降。本文进一步研究了从几个大期刊转变为多个小期刊对科学家福利的影响。
我们扩展模型,考虑存在 J 个完全相同的精英期刊,每个期刊容量为 k/J。模型引入了一个隐含的时间维度,作者在被拒绝少于 J 次的情况下,可以将稿件重新投递给另一家期刊。由于期刊是等效的,作者随机选择投稿顺序。每次投稿,作者付出成本 c;若稿件被发表,则获得奖励 v。每次被拒,作者会理性地更新对自己稿件在其他未尝试期刊成功概率的信念。为简化数学处理,假设作者仅根据被拒次数更新信念,而不根据实际收到的审稿分数 Y 更新。
分析表明,期刊数量的增加会形成一个强化循环:更多期刊为作者提供了更多“从头开始”被考虑的机会。更多的机会增加了稿件再循环的量,这反过来迫使期刊变得更加挑剔。更高的拒稿率又增加了再循环稿件的数量,如此循环。因此,给作者更多尝试机会,一方面强化了筛选(即更少的作者认为首次投稿值得,边际作者 q1*上升),但另一方面,由于这些作者可以多次投稿,分选负担加剧,总的投稿(和被拒)稿件量上升。此外,当审稿本身存在噪音时,期刊数量增加对审稿负荷的影响更大。因为作者从期刊决定中学到的关于稿件质量的信息更少,导致更多作者理性地继续提交已被拒绝过的稿件。这又与筛选-分选的反馈循环结合,形成了另一个恶性循环:期刊数量激增增加了审稿社区的负荷;负荷增加导致审稿准确性下降;准确性下降削弱了作者的学习能力,导致更多作者回收被拒稿件,进一步增加负荷。
在作者完全知晓稿件质量(σx2= 0)的极端情况下,当期刊数量 J 趋于无穷时,任何值得投稿的稿件最终都会被发表。此时,同行评议的全部功能就是通过极高的拒稿率,将边际作者的接受概率压低至 c/v,从而阻止其他作者投稿。其分选功能变成了必要的浪费,因为所有最终提交的稿件都会被发表。在这种极限情况下,如果发表回报 v/c 上升,接受阈值 y*必须被推得更高,导致顶级稿件更多不必要的拒稿和重投;如果审稿噪音σy2增加,所有高于边际作者的作者的接受概率都会降低,迫使他们需要投稿更多次才能最终被接受。
桌面拒稿
当筛选和分选被削弱时,期刊最终收到的稿件可能超出其审阅能力。此时,期刊可以通过桌面拒稿来应对投稿激增,从而为最有希望的稿件保留可用的审稿人力。然而,预测桌面拒稿的净效应是复杂的,因为作者会根据预期的后续分选过程来决定是否投稿。
我们在单期刊模型中加入了桌面拒稿。假设期刊编辑能观测到稿件质量的一个噪音信号 D(服从以θ为均值、σd2为方差的正态分布)。期刊理性地使用阈值规则决定哪些稿件立即拒稿,哪些送外审(即若 D ≥ d 则送审)。模型均衡由作者理性条件(AR)、容量填充条件(CF)和期刊理性条件(JR,即期刊选择桌面拒稿阈值 d*以最大化其发表稿件的平均质量)共同决定。
分析表明,至少在所探讨的参数设置下,审慎的桌面拒稿对所有相关方都有益。读者(和期刊)受益,因为期刊最终发表了质量更高的论文。作者经历了更少的稿件被拒,从而获得了更多可用剩余。审稿人需要评审的稿件数量减少。当然,这些益处的程度取决于编辑决策的准确性(即σd2)。随着桌面审阅准确性下降,其效用相应减弱。
对于多个竞争性期刊的正式模型超出了本文范围,但直觉表明,当竞争期刊依赖一个共同的审稿人库时,会发生“审稿人公地悲剧”,使得桌面拒稿在管理审稿负荷方面效果减弱。逻辑在于,依赖共享审稿人库的期刊无法完全内化请求审稿的成本(因为消耗可用审稿人力的成本由所有期刊共同承担),却能获得审稿带来的全部收益。因此,这些期刊将设定一个比社会最优水平更少使用桌面拒稿的政策。
讨论
同行评议危机的部分驱动因素是直接且无需赘述的,如科学出版物数量的持续增长超过大学教职工的增长,以及短期合同制研究人员比例上升导致其难以投入时间进行无酬审稿等。同时,审稿的内在回报和拒绝审稿邀请的成本也发生了变化。
本文重点论证了同行评议危机部分是由一个恶性的反馈循环驱动的:日益增长的审稿人社区负担导致审稿准确性下降,这反过来又促使作者在选择投稿目标时采取更多冒险行为,从而进一步加剧了审稿人社区的负担。此外,科学出版的分散性以及期刊在争夺作者、读者和审稿人方面的竞争,阻断了遏制或逆转这一循环的许多最显而易见的路径。
如果当代科学已达到审稿人力需求超过可用供应的地步,期刊(除了增加桌面拒稿)还能做些什么来调和两者?期刊可能考虑通过增加稿件准备成本 c 来加强筛选,从而阻止更多作者投稿。但金钱费用更可能筛选出有机构资源支付的作者,而繁琐的投稿要求所产生的成本则会延迟成果传播。此外,对作者的竞争迫使期刊保持较低的作者成本。
如果提高投稿成本不可行,期刊可以尝试增加高质量审稿人力的供给。但依赖志愿者传统的期刊缺乏通过提高工资来吸引更多人力的基本市场机制。如果出版商能够通过支付适当工资招募到更多高质量的审稿人力,他们就可以在面对投稿量增加时保持恒定的审稿质量,从而打破筛选与分选之间的反馈循环。当然,支付审稿人也有风险,可能导致审稿劳动商品化,并可能适得其反地减少高质量审稿人力的供给。
还有其他选择可以挽救(志愿)同行评议制度吗?首先,期刊可以减少对修改稿的重新审阅。目前重新审阅很普遍,但这只会进一步加重审稿人社区的负担。其次,科学界可以继续探索共享被拒稿件审稿意见的方式,以使相关的审稿努力不被浪费。我们的多期刊模型表明,当稿件被投递给新期刊时,对已被拒绝稿件的连续重新审阅造成了审稿负担的很大部分。级联合审稿和开放审稿平台代表了这一方向的有前景的举措。
最后,本文模型提示的挽救同行评议的最后一个杠杆是降低 v,即作者在选择性期刊发表所获得的回报。在这个模型中,我们认为 v 是由科学界外生设定的,并且不能像我们考虑的其他解决方案那样由任何单一参与者单方面改变。此外,决定 v 的力量是多样且复杂的。或许,如果减少对发表成果的回报,科学事业会更好。但答案尚不清楚。无论如何,科学是否会因降低发表回报而变得更好,以及科学界如何协调改变与发表相关的声望,似乎都是亟待深入思考的丰富而紧迫的话题。