语言极性与基于大规模语言模型（LLM）的系统性评价摘要筛选中的决策架构作者：Amir M. Behrouzian, Marco Meleti, Maria Teresa Colangelo, Elena Calciolari, Carlo Galli

《Information》：Linguistic Polarity and Decision Architecture in LLM-Based Abstract Screening for Systematic Reviews Amir M. Behrouzian, Marco Meleti, Maria Teresa Colangelo, Elena Calciolari and Carlo Galli

【字体：大中小】 时间：2026年05月10日 来源：Information 2.9

编辑推荐：

　　摘要大型语言模型（LLMs）越来越多地被用于系统评价中的摘要筛选，然而目前尚不清楚由于语言复杂性导致的筛选错误是源于内在的语义敏感性，还是源于其与决策架构的相互作用。我们研究了五种逻辑等价的资格标准极性变体——肯定性包含、反义排除、谓词否定、动词级否定和双重否定——在一个受控的

　　摘要
大型语言模型（LLMs）越来越多地被用于系统评价中的摘要筛选，然而目前尚不清楚由于语言复杂性导致的筛选错误是源于内在的语义敏感性，还是源于其与决策架构的相互作用。我们研究了五种逻辑等价的资格标准极性变体——肯定性包含、反义排除、谓词否定、动词级否定和双重否定——在一个受控的生物医学任务中如何影响筛选结果。使用来自重构的Cochrane评价语料库的1000篇摘要（50篇目标文章；950篇非目标文章），我们在一个顺序的硬门控管道中实施了四个摘要可见标准，其中任何一步的失败都会触发不可逆的排除。在硬门控下，仅语言极性就产生了显著且统计上显著的可检索性变化。对于GPT-5.1，尽管逻辑谓语和输入数据完全相同，可检索率从0.72变化到0.32。使用GPT-3.5 Turbo进行的复制也显示出类似的分歧（0.92–0.18），这证实了跨模型代际的普适性。目标文章的损失集中在通常得到满足但在摘要中不一致报告的标准上，表明在证据规格不足的情况下存在保守的排除。为了评估这种效应是语义上的还是架构上的，我们使用了一个基于评分的证据积累框架重新实施了筛选，其中每个标准都提供了分级支持，并且包含性由一个可调的阈值决定。在评分下，所有变体的可检索率都有所提高，并在高敏感度范围内趋于一致，而残留的极性效应虽然减弱但仍可检测到。语言差异从结构性的可检索率崩溃转变为可控的精确度-可检索率权衡。这些发现表明，否定敏感性在很大程度上是由决策架构介导的。不可逆的门控会将局部不确定性放大为假阴性排除，而累积评分则保留了不确定性，并使操作阈值可以控制。

1. 引言
系统评价依赖于严格的标题和摘要筛选，然而这一阶段仍然是证据合成的最具劳动强度和认知要求的部分[1]。审稿人必须在时间有限的条件下根据多个资格标准评估成千上万的记录[2]。即使有标准化的协议，筛选决策也容易受到疲劳、解释变异性和不一致性的影响，特别是当资格规则涉及细微的方法学或临床区别时[3]。因此，人们通过监督机器学习、基于规则的自然语言处理和混合方法追求自动化[4]，少数系统也已经超越了实验阶段[5,6,7]。虽然这些方法可以减少筛选工作量，但它们通常需要标记的训练语料库，并依赖于从标题和摘要中提取的特征表示。这样的系统主要基于表面词汇信息运作。当资格决策依赖于隐含的假设、上下文解释或摘要中未明确说明的信息时，它们可能会遇到困难[8]。
大型语言模型（LLMs）提供了一个质量上不同的范式[9]。它们可以直接从自然语言指令中应用资格标准，从而可能实现灵活的、领域适应性的筛选而无需重新训练[10]。早期在系统评价工作流中的应用已经展示了有希望的敏感性，但也揭示了在不同提示表述和决策设置下的显著变异性[11,12,13,14,15]。这种变异性提出了一个核心的方法论问题：当LLM筛选失败时，错误主要是语义上的——反映了处理诸如否定之类的逻辑结构的难度——还是由执行决策的程序框架所塑造的？
否定提供了一个自然的测试案例。在生物医学写作中，否定经常以对人类审稿人来说直观但对自动化系统来说具有挑战性的方式改变真相条件[16]。诸如“排除未包括成人参与者的研究”或“不包括随访时间少于6个月的试验”之类的资格标准引入了范围敏感的转换。这些改变了标准的逻辑解释。先前的工作主要将此类结构视为语言问题。然而，筛选不仅仅是句子解释的问题；它也是一个决策过程。
在典型的系统评价工作流中，标准是按顺序以硬门控的方式实施的：任何一步的失败都会导致立即且不可逆的排除[17]。这种架构在不确定性下强加了早期承诺。当摘要省略了通常得到满足但没有明确报告的信息——例如，参与者年龄或方法学细节——LLM必须从不完整的证据中推断资格[18]。在失败关闭的机制下，缺乏明确的确认可能被视为不合格的证据。小的语言不对称性，如否定的范围或表述差异，因此可能导致显著的可检索率损失。这种效应被管道的不可逆性放大了。最近关于LLM基准测试的工作强调了系统评估框架的重要性。这些框架有助于识别AI系统中的结构漏洞，包括模型行为和评估设计之间的相互作用[19]。本研究通过展示语言表述和决策架构如何共同决定高可检索率过滤任务中的筛选结果，为此做出了贡献。
先前关于LLM辅助筛选的工作一致地显示出在提示表述上的显著绩效变异性，词句、结构和指令设计的不同导致了可检索率和精确度的明显变化[20]。这些研究通常将这种变异性解释为指令设计的属性，并专注于优化提示或模型-提示组合以实现理想的操作特性[21]。在这个框架下，筛选性能主要被理解为表面表述的函数。
本研究通过展示提示敏感性不仅仅是语言现象，而且关键是由模型输出的决策架构所介导的，从而扩展了这一文献。我们证明了不可逆的硬门控管道会将局部解释不对称性放大为大规模的可检索率损失，而基于评分的证据积累则减弱了这些效应，并将它们转化为可控的精确度-可检索率权衡。因此，这项工作的关键贡献是识别架构中介作为筛选行为的中心决定因素，并表明观察到的性能变异性反映了语言形式和决策结构之间的相互作用，而不仅仅是模型的纯语义限制。
先前的工作一致显示，大型语言模型（LLM）在系统评价筛选中的性能对提示表述非常敏感。实证研究表明，资格标准词句的微小变化就会导致可检索率和精确度的显著变化，这促使人们努力设计对语言变化具有鲁棒性的提示[22]。更近期的大规模评估进一步证实，筛选性能强烈依赖于提示设计、模型选择和任务表述之间的相互作用，不同的提示策略在模型之间产生了显著不同的精确度-可检索率权衡[20]。在这些文献中，提示引起的变异性通常被解释为提示设计的局限性，因此已经投入了大量努力来开发提示策略——如结构化推理、思路链提示和指令优化——以稳定模型行为并提高筛选性能[21]。
本研究既确认又扩展了这一系列工作。与先前的发现一致，我们观察到在逻辑等价的资格标准表述之间存在显著的性能变化。然而，尽管之前的研究主要将这种变异性归因于提示设计或模型敏感性，我们的结果表明，它不能仅用那个层面来完全解释。相反，我们展示了提示引起的变异性是由模型输出的决策架构所关键介导的。在顺序的硬门控管道下，小的语言不对称性由于不可逆的排除而被放大为大规模的可检索率损失。相比之下，在基于评分的证据积累下，相同的变异性作为分级不确定性被保留，并转化为可控的精确度-可检索率权衡。
这些发现表明，提示敏感性不应仅仅被解释为提示设计的缺陷，而应被视为一种其实际后果取决于决策结构如何构建的现象。在这个意义上，我们的结果将提示引起的变异性重新定义为语言形式和决策架构之间的相互作用，扩展了以前主要将其视为提示级别现象的先前的工作。
本研究探讨了用不同极性表达的逻辑等价资格标准——肯定性包含、排除框架、谓词否定、动词级否定和双重否定——是否会产生系统不同的筛选结果，以及当消除不可逆性时这些极性效应是否仍然存在。使用来自已发布的Cochrane评价[23]的重构语料库，我们比较了两种架构。第一种是传统的顺序硬门控管道，反映了传统的筛选逻辑。第二种是一个基于评分的证据积累框架，其中每个标准提供分级支持（YES/NO/UNCLEAR），并且包含性由一个可调的阈值决定。
通过保持逻辑内容不变，同时改变表面表述和决策架构，这种设计将语言敏感性与程序放大分开。它还澄清了架构选择如何影响筛选的可靠性。

2. 材料与方法
2.1. 参考系统评价和语料库的重建
本研究评估了资格标准的具体肯定性与否定性表述——如何影响大型语言模型（LLMs）在摘要筛选期间的性能。为了将评估置于一个现实的筛选环境中，我们选择了关于辅助抗菌光动力疗法治疗牙周和种植体周围疾病的2024篇Cochrane评价作为参考标准，其中包括50项随机对照试验（RCTs），构成了最终符合资格的研究集[23]。这50项RCTs被指定为所有后续分析的目标文章（表A1）。这些目标文章构成了评估筛选性能的真实参考集。
为了重现已发布评价的初始决策空间，我们复制了Cochrane方法部分中描述的原始搜索策略，尽管搜索仅限于Medline数据库。因此，复制的Medline搜索并没有完全再现原始Cochrane在去重之前的结果，因为原始评价采用了多数据库策略和补充搜索方法。这种重建旨在近似而不是复制原始搜索空间。所有检索的引用都被去重并合并到一个主语料库中。然后根据标题、作者和元数据验证，每条记录被分配了一个二进制标签——1表示包含在Cochrane评价中的目标文章，0表示所有其他记录——因此重构的语料库包含了评价作者原本筛选的所有非目标文章，以及50篇已知的目标研究。

2.2. 构建实验控制的筛选数据集
考虑到重构语料库的大小（大约6000条非目标引用），我们创建了每个包含1000篇摘要的较小、实验控制的数据集——包括相同的50篇目标文章和从完整语料库中抽样的950篇非目标文章——以便于进行可行的自动化筛选。非目标文章是从重构的语料库中使用随机抽样无放回的方式抽样的。对于每个数据集，从完整的非目标引用池中抽取了950条非目标条目，而50篇目标文章在所有数据集中保持不变。
对于硬门控筛选实验，使用单个数据集配置来评估在相同条件下的语言极性效应。对于基于评分的实验，通过重复随机抽样非目标文章生成了独立的数据集（开发、验证和测试），确保数据集之间没有重叠。随机抽样使用了一个固定的伪随机种子来确保可重复性。这些分割被用作开发、验证和测试集，用于在可检索率约束下选择和评估分数阈值。这种分离允许独立于结果集进行阈值选择，防止操作点的循环优化。

2.3. 选择和重新表述摘要可见的资格标准
Cochrane评价指定了一组广泛的资格标准，其中许多涉及方法学或临床细节，在文章摘要中并不总是可靠地报告[24]。为了避免惩罚语言模型，我们将筛选规则限制在（i）对确定资格至关重要，以及（ii）合理地预期会出现在生物医学出版物的摘要中的条件。这种限制是为了确保实验控制，并不限制所提出的筛选框架的适用性，该框架可以扩展到任何一组独立评估的资格标准。
因此选择了四个摘要可见规则：
（1）随机对照试验设计，
（2）成人参与者（≥18岁），
（3）随访持续时间≥1个月，
（4）牙周炎或种植体周围疾病的诊断。
每个标准都被重新表述为五种仅在极性和否定范围上不同的语言变体：
AI—肯定性包含
AE—反义排除
PN—谓词否定
VN—动词否定
DN—双重否定
这五种表述构成了实验提示条件。所有其他提示组件——包括指令结构、响应格式和模型参数——保持不变，以隔离语言极性对筛选决策的影响。谓词的形式表示和极性变体的构建在附录B中提供。

2.4. 通过硬门控的迭代LLM筛选和性能评估
为了模拟传统的系统评价工作流，我们实现了一个顺序的硬门控筛选管道。对于每种语言变体（肯定性包含、反义排除、谓词否定、动词否定和双重否定），LLM根据单个资格标准评估每篇摘要，并返回一个二进制决策（“包含”或“排除”）。通过提示设计对响应进行了限制，以生成这些标准化标签，并通过编程解析用于下游分析。标准是按顺序应用的：第一个标准在完整数据集上进行评估，只有在该阶段未被排除的摘要才会被传递到后续标准。这个过程一直持续到所有强制标准都被评估完毕。因为流程是严格筛选的，所以在任何一步中的排除都会导致无法逆转地从后续轮次中移除。对于每种语言表述和数据集配置，我们记录了每个标准后保留的TARGET摘要的数量。将这些计数绘制在筛选轮次中，得到了保留曲线，说明了符合条件的研究被快速淘汰的情况。在最后的筛选步骤之后，将模型决策与从参考Cochrane评审中得出的真实TARGET标签进行了比较。计算了混淆矩阵，并得出了标准性能指标——准确性、精确度、召回率和F1分数。由于摘要筛选优先考虑敏感性，因此召回率被视为主要的安全指标[25]。

2.5. 基于分数的筛选程序
为了将语言极性的影响与不可逆的布尔过滤的影响区分开来，我们实施了一种基于分数的筛选架构。与严格筛选不同——任何单一标准的失败都会导致立即排除——分数框架独立评估所有标准，并在做出包含决策之前汇总它们的证据贡献（图1）。图1. 筛选架构的示意图。（左）：严格筛选的顺序筛选，其中资格标准依次应用，任何一步的失败都会导致立即且不可逆的排除。（右）：基于分数的筛选，所有标准都独立评估并贡献于累积分数，最终包含决策由一个阈值决定。这两种框架在处理不确定性方面有所不同：严格筛选在部分信息下就强制执行决策，而分数则推迟决策并保留不确定性，直到全局汇总。对于每个标准，大型语言模型（LLM）返回三个标签之一：YES（标准明显满足）、NO（标准明显不满足）或UNCLEAR（信息不足）。这些标签被映射成数值（YES = 2，UNCLEAR = 1，NO = 0），并在四个强制标准上求和，产生一个从0到8的总分。这种表述将资格从一个严格的合取布尔规则转换为证据积累过程。不确定性不是触发自动排除，而是降低了累积分数，允许通过可调阈值来确定包含。证据积累决策模型认为，信息会被整合，直到达到决策边界，为基于阈值的决策提供了一个通用框架[26]。在这种情况下，4的截止值对应于与没有明确排除相容的最低累积支持水平（即，没有标准被标记为NO）。虽然多种响应组合可以产生这个分数，但它代表了没有任何单个标准与资格相矛盾的最低决策边界。这定义了一个保守的运作点，与摘要筛选的高敏感性原则一致，其中不确定的情况更倾向于被保留，以最小化假阴性。

为了进行实证评估，在开发数据集上选择了召回率≥0.90的预定义约束下的阈值。这反映了系统评价筛选中普遍接受的敏感性优先级，其中遗漏的符合条件研究比可以在后期阶段过滤的假阳性更为重要。使用召回率约束的阈值与最近的研究一致，这些研究表明，基于LLM的筛选系统可以通过阈值选择来达到目标召回率水平[27]。然后，选定的截止值被不变地应用于独立验证和测试数据集，以评估在不同摘要混合物中的泛化能力。在这种情况下使用开发数据集是一种实验性校准程序，而不是直接可部署的策略。在现实世界的筛选场景中，没有可用的真实标签，在部署期间无法估计召回率。因此，这里使用的召回率约束阈值描述了在高敏感性操作条件下分数框架的行为，而不是规定了一个实用的阈值选择方法。

2.6. 模型配置和评估指标
所有实验都是使用GPT-5.1通过OpenAI API在固定的提示模板和无状态调用下进行的。每次调用都针对一个资格标准评估单个摘要，确保决策之间的独立性。为了评估在严格筛选下观察到的极性效应是否特定于某个模型生成，使用GPT-3.5 Turbo重复了完整的严格筛选实验。对于GPT-3.5 Turbo，使用了相同的数据集、资格标准、语言变体、提示结构、决策流程和评估指标。没有进行模型微调。这种复制使我们能够将极性和架构效应与模型特定的校准差异分离。

提示如下：“
您正在协助进行一项系统评价。您必须应用下面列出的一个资格标准，以决定是否应包含或排除一篇文章。
标准：{criterion}
说明：
- 阅读标题和摘要。
- 根据摘要中的信息，判断文章是否满足该标准。
- 如果文章明确满足标准，请回答：包括
- 如果文章明显不满足标准，请回答：排除
- 如果摘要信息不足而无法判断，请根据您的最佳判断回答，但仍选择包含或排除（不要回答“不确定”）。
标题：{title}
摘要：{abstract}
请用恰好一个词回答：包括或排除”

基于分数的筛选实验仅使用GPT-5.1进行。与严格筛选不同——严格筛选每个语言变体产生一个二进制操作点——分数框架允许探索由分数阈值定义的连续决策表面。提示如下：“
您正在协助进行一项系统评价。对下面的文章应用恰好一个资格标准。
标准：{criterion}
决定摘要是否表明文章满足该标准。
返回以下标签之一：
- YES（明确满足标准）
- NO（明显不满足标准）
- UNCLEAR（摘要信息不足）
标题：{title}
摘要：{abstract}
请仅用一个标签回答：YES、NO或UNCLEAR。”

将UNCLEAR映射到一个中间分数（YES = 2，UNCLEAR = 1，NO = 0）明确编码了对证据不足的容忍度。缺乏明确确认的摘要相对于明显符合条件的研究会受到惩罚，但不会被自动排除。尽管不同的编码（例如，不同的权重分配或UNCLEAR的处理方式）会改变决策边界的几何形状和由此产生的精确度-召回率权衡，但它们不会消除累积证据积累和不可逆布尔过滤之间的基本区别，这是观察到的效果的基础。对于最终测试集的性能，使用精确的二项式（Clopper–Pearson）方法计算了召回率和精确率的95%置信区间。F1分数的置信区间是通过非参数Bootstrap重采样观察到的测试集预测结果来估计的。

2.7. 计算环境和软件工具
所有实验都在Google Colab [28]上作为主要执行平台进行，运行Python 3.12.12。自动化筛选流程、数据集处理和评估程序是在与OpenAI API交互的Python脚本中实现的，用于模型推理。数据操作和数据集构建是使用Pandas库版本3.0完成的，包括数据集的组装和标记（例如，通过merge、concat和布尔索引合并和过滤记录），通过条件更新跟踪连续筛选轮次中的包含/排除状态，并使用groupby、agg等聚合操作对模型输出进行性能评估[29]，而数值操作和分数聚合则是使用NumPy 2.4 [30]处理的。筛选动态和模型性能的可视化——包括保留曲线、阈值-召回率图和精确度-召回率曲线——是使用Matplotlib 3.10 [31]生成的。这些图表随后被导出以包含在手稿图中。

所有实验都是以无状态方式执行的，每次模型调用都针对一个资格标准评估单个摘要。用于生成数据集、运行筛选流程、计算性能指标和生成图表的代码库确保了报告结果的完全可重复性。

3. 结果
本节报告了严格筛选、顺序筛选流程（第4轮最终决策和中间轮次）的结果，以及随后使用证据积累分数框架的结果，以评估在不同决策架构下观察到的效果是否持续存在。

3.1. 在严格筛选下的最终分类性能（GPT-5.1）
在完成所有四轮筛选后，尽管逻辑谓词和输入数据相同，各种语言变体之间的性能差异仍然显著。总体准确率保持统一较高（0.948–0.959），反映了语料库的强烈类别不平衡（1000篇文章中有50篇符合条件；5%的 prevalence），并且对变体级别的差异不敏感。在这种情况下，考虑类别不平衡的指标——如Matthews相关系数[32]或精确度-召回率分析——提供了对模型行为的更有信息量的描述。因此，召回率被报告为主要的安全指标，因为它直接反映了在高召回率筛选任务中错过符合条件研究的风险。如表1所示，召回率在不同表述中有所差异。肯定包含（AI）变体实现了最高的召回率（0.72），而所有以排除为导向或基于否定的表述都表现出较低的保留率，其值范围从0.52（PN）到0.32（VN）。

表1. 在五种逻辑等效的资格标准下的严格顺序筛选的最终摘要级性能。结果针对GPT-5.1在1000篇摘要上报告（50篇符合条件；950篇不符合条件）。指标反映了应用所有四个标准后的最终决策（第4轮）。在不同变体中，仅改变逻辑等效标准的表面极性就导致召回率有40个百分点的差异（0.72 vs 0.32），相当于在最倾向于排除的表述下失去了20篇额外的符合条件研究。这种差异发生时，总体准确率仅变化了0.011，强调了类别不平衡如何在不可逆筛选下掩盖了显著的筛选敏感性差异。召回率、精确率和F1分数的置信区间（表1）确认了这些差异的稳健性。

为了评估召回率差异是否反映了统计上可靠的效果，我们对目标级别的包含结果进行了配对分析。因为每个变体都是在相同的50篇符合条件摘要集上评估的，所以使用Cochran的Q检验随后进行了事后McNemar比较。综合测试确认了语言变体对召回率的显著影响（Cochran’s Q = 27.95，p < 0.001）。成对比较显示，肯定包含表述与其他所有变体有显著差异，而基于否定的变体之间的差异较小且不一致显著。这些结果表明，召回率的分歧是系统性的，并且是由不可逆决策下的语言表述驱动的。

3.2. 目标保留的逐轮动态
为了确定符合条件的研究在哪里丢失，我们在严格筛选架构下计算了每次顺序筛选轮次后的召回率。图2展示了五种语言变体（AI、AE、PN、VN）在四个标准下的累积目标保留情况。图2. 在五种逻辑等效的资格标准（AI、AE、PN、VN、DN）下，连续严格筛选轮次中的目标保留情况。在大多数表述的前两个标准中，损耗是适度的，但在第三个筛选步骤（垂直虚线）变得集中，此时变体之间的差异显现出来。基于否定的表述（AE、PN、VN、DN）显示出比肯定表述（AI）更大的目标损失，说明语言极性如何在不可逆的顺序决策架构中放大召回率的下降。符合条件研究的保留遵循了一致的结构模式：在前两个筛选轮次中保持相对稳定，然后在第3轮显著下降，在第4轮只有轻微的额外损耗。这表明最终召回率的分歧主要来自一个单一的中间决策步骤，而不是跨标准的逐渐下降。对于肯定包含（AI），召回率从第1轮的0.90下降到第2轮的0.88，然后在第3轮下降到0.74，并在第4轮稳定在0.72。因此，最大的单步损失发生在第2轮和第3轮之间（Δ召回率 = ?0.14）。所有基于否定的变体都表现出同样的不连续性，但第3轮的损失显著更大。反义词排除（AE）从第2轮的0.84下降到第3轮的0.42（Δ = ?0.42），谓语否定（PN）从0.90下降到0.54（Δ = ?0.36），动词否定（VN）从0.76下降到0.34（Δ = ?0.42），双重否定（DN）从0.90下降到0.46（Δ = ?0.44）。在每种情况下，第3轮的下降超过了所有其他转换的总损失。这种模式表明，召回率的崩溃并不是均匀分布在各个标准之间，而是在某个特定的筛选步骤中集中的。在不可逆的严格筛选下，该步骤的极性差异被放大为最终保留的显著差异。

3.3. 标准级别的目标排除分析
为了确定哪些谓词导致严格筛选下的召回率损失，我们分析了目标摘要的排除日志。如表2所示，排除主要集中在单个主导谓词上。“参与者≥18岁”这一标准导致了所有变体中大多数TARGET损失的产生，并且是第三轮几乎所有排除的原因，这与第3.2节中识别出的不连续性相对应。另一个次要贡献来自“随机对照试验”标准，它导致了较少数量的排除，主要发生在第一轮。相比之下，“随访≥1个月”和诊断这两个标准几乎没有或没有导致TARGET损失。表2显示了在五种语言变体下，每个资格标准排除的TARGET摘要的分布。计数表示在某个标准失败时被排除的符合条件的研究数量。这些发现表明，召回率的下降并不是在所有标准中均匀分布的，而是由单个决策点上的集中排除所驱动的。“成人参与者”这一条件编码了一个通常被满足但在摘要中往往没有明确报告的属性。在不可逆的严格筛选下，这样的遗漏会被保守地解读，并导致立即排除。这种效应的大小随着语言表达方式的系统变化而变化，表明极性敏感的解释与证据规定的不足之间存在相互作用。对假阴性TARGET摘要的定性检查（补充文件S1和S2）支持了这一解释。大多数失败是由于信息缺失而不是纯粹的语义问题：尽管摘要描述了典型的成人群体，但它们经常省略了明确的年龄信息。还有一些情况涉及研究设计或诊断的间接或简化表达，这些表达暗示了资格标准但并未明确说明。在一个较小的子集中，问题似乎是模型驱动的，即存在足够的证据但没有被正确整合。

在模型版本之间观察到了类似的模式，这表明第三轮的崩溃反映了摘要报告不完整、表述敏感的解释以及不可逆过滤之间的普遍相互作用。在严格筛选下，这些局部不确定性被转化为明确的排除。

3.4. 在严格筛选下的跨模型复制（GPT-3.5 Turbo）为了评估GPT-5.1观察到的极性驱动的召回率差异是特定于模型的效应，还是语言表达方式与决策架构之间更普遍的相互作用，我们使用GPT-3.5 Turbo在相同的提示和数据集下重复了严格筛选实验。如表3和图A1所示，GPT-3.5 Turbo表现出不同的整体性能特征，其在各种变体上的精确度明显较低。然而，定性的极性模式得到了保留。在严格筛选下，召回率在不同表述方式之间有显著差异，从0.92（AI）到0.18（AE）不等，这表明尽管逻辑谓词和输入数据相同，但对表面极性仍然非常敏感。表3显示了使用GPT-3.5 Turbo（1000篇摘要；50个TARGET）进行严格顺序筛选后的最终摘要级筛选性能。数值以点估计的形式报告，并附有召回率和精确度的95%置信区间。结果反映了在所有四个资格标准之后的最终结果。尽管逻辑谓词相同，召回率在不同极性变体之间仍有显著差异，这表明在不可逆的决策筛选下对语言表达方式非常敏感。按照轮次划分的保留动态（图A1）再现了GPT-5.1观察到的相同结构模式：早期损失有限，随后在第三轮筛选步骤中出现了极性敏感的崩溃。虽然GPT-3.5 Turbo在肯定表述下显示出更包容的包含倾向，但以排除为导向的变体会以大幅的TARGET损失为代价减少误报，这与GPT-5.1观察到的权衡相呼应。尽管绝对性能存在差异，但两种模型都表现出相同的行为模式：在顺序严格筛选下，语言极性强烈调节召回率，以否定为主的表述方式放大了假阴性的比率。这种跨模型复制表明，观察到的召回率崩溃并非特定于某个模型版本，而是反映了否定敏感解释与不可逆决策架构之间的普遍相互作用。

3.5. 基于评分的筛选和架构中介为了评估在严格筛选下观察到的极性驱动的召回率崩溃是否反映了模型的内在语义限制或不可逆决策机制的属性，我们使用基于评分的架构重新评估了相同的数据集。重要的是，逻辑谓词和输入摘要都没有修改；只有决策聚合规则被更改。在这种替代框架下，所有四个资格标准都独立应用于每个摘要。当某个谓词失败时，不会立即触发排除，而是每个标准都会对整个谓词累积的证据贡献一个分数，然后根据这个总分应用一个阈值来决定是否包含。这种设计去除了不可逆性，同时保持了逻辑结构。如果在评分下召回率差异仍然存在，这将表明语言极性本身足以产生性能差异。相反，如果差异减弱，则表明决策架构起到了中介和放大极性效应的作用。因此，评分实验作为一个架构中介测试，隔离了决策结构和语言表达方式的贡献。

3.5.1. 基于阈值的TARGET保留图3显示了在基于评分的筛选下，针对五种语言变体（AI、AE、PN、VN、DN）的TARGET保留率作为分数阈值的函数。与将每种变体固定在一个操作点的严格筛选不同，评分产生了一个由包含阈值参数化的连续操作点家族。图3显示了在基于评分的筛选下（实线）保留的TARGET摘要作为分数阈值的函数，而相同变体的严格筛选保留率则以虚线水平参考线显示。评分将筛选转变为一个依赖于阈值的操作连续体，而严格筛选则将每种变体固定在一个不可恢复的操作点上。AI：肯定包含；AE：反义排除；PN：谓词否定；VN：动词否定；DN：双重否定。随着阈值的降低，跨各种变体的TARGET保留率单调增加，在宽容的截止点接近全额保留。关键的是，在严格的顺序筛选下观察到的突然召回率崩溃在评分下没有被再现。尽管在中间阈值下仍然可以看到变体之间的差异，但这些差异显著减弱，并表现为平滑的、受阈值控制的权衡，而不是灾难性的、逐步的减少。这表明证据聚合通过不可逆的排除机制减轻了局部极性效应的放大，将召回率损失转化为明确的策略选择。

3.5.2. 基于评分的筛选下的精确度-召回率行为在基于评分的筛选下，语言变体不再对应于固定的操作点，而是生成了连续的精确度-召回率曲线。图4展示了五种表述（AI、AE、PN、VN、DN）在保留的测试数据集上的精确度-召回率曲线。与严格筛选不同，严格筛选每种变体只产生一个精确度-召回率坐标，而评分暴露了由阈值选择定义的完整操作表面。图4显示了在基于评分的筛选下五种具有相同资格标准的极性变体的精确度-召回率曲线。与将每种变体固定在一个操作点的严格筛选不同，评分产生了一个依赖于阈值的精确度-召回率谱。各种变体主要在工作负载轮廓上有所不同，而在所有表述下都可以实现高召回率。AI：肯定包含；AE：反义排除；PN：谓词否定；VN：动词否定；DN：双重否定。精确度-召回率曲线下的近似面积分别为0.495（AI）、0.059（AE）、0.448（PN）、0.065（VN）和0.477（DN）。AI、PN和DN变体在中等到高召回率水平上保持了相对有利的精确度，并分别在精确度-召回率曲线（AP）下实现了大约0.495、0.448和0.477的面积。相比之下，AE和VN在大部分召回率范围内表现出较低的精确度，对应的AP值约为0.059和0.065。因此，这些变体在相当的召回率水平下需要更高的工作负载。然而，所有变体在足够宽容的阈值下都可以实现高召回率。在严格的顺序筛选下观察到的灾难性召回率崩溃并非标准的语义内容所固有的；相反，它源于不可逆的排除。在评分下，极性驱动的差异表现为曲线几何形状和工作负载轮廓的变化，而不是高灵敏度操作的结构性障碍。

3.5.3. 与严格筛选的直接比较图5提供了GPT-5.1在五种语言变体（AI、AE、PN、VN、DN）下，严格筛选（HG）和基于评分的筛选（SC）架构下的召回率直接比较。在严格筛选下，召回率差异很大——从0.72（AI）到0.32（VN）不等——表明在不可逆决策规则下对表面极性非常敏感。相比之下，基于评分的筛选提高了所有变体的召回率，并大幅减少了不同表述方式之间的差异。图5显示了在严格筛选和基于评分的筛选架构之间的召回率比较。条形图显示了五种具有相同资格标准的五种语言变体的召回率（AI—肯定包含，AE—反义排除，PN—谓词否定，VN—动词否定，DN—双重否定）。在顺序严格筛选下，由于任何步骤的排除都是不可逆的，召回率在不同的表述方式之间有很大差异。在基于评分的筛选下，随着召回率限制阈值的设置，召回率增加并在各种变体之间趋于一致，表明证据积累架构减轻了极性驱动的TARGET损失。如表4所示，当在召回率限制下选择阈值时，评分下的召回率在各种变体之间趋于一致：所有表述都实现了≥0.86的召回率，其中有四个超过了0.90。虽然措辞继续影响局部证据的解释，但这些差异的影响不再放大为大量的假阴性计数。相反，评分将极性敏感性转化为可控的权衡：通过调整包含阈值，可以在不同表述方式之间保持召回率，尽管代价是精确度的降低，特别是对于以排除为导向的变体（AE、VN）。表4显示了在测试数据集上，五种具有相同资格逻辑的语言变体（AI、AE、PN、VN、DN）的严格筛选（HG）和基于评分的筛选（SC）的直接比较。值以点估计的形式报告，并附有召回率、精确度和F1分数的95%置信区间。在严格筛选下，召回率在不同变体之间有很大差异，反映了在不可逆排除下的强烈极性敏感性。在基于评分的筛选下，随着召回率限制阈值的设置，召回率增加并在各种变体之间趋于一致，而差异主要体现在精确度和工作负载上。为了评估在基于评分的筛选下召回率差异是否仍然存在，我们使用带阈值的测试集决策对TARGET级别的包含结果进行了配对分析。总体测试表明语言变体之间存在统计学上显著但减弱的效应（Cochran’s Q = 10.95，p = 0.027）。与严格筛选相比，成对的差异有限且大多不显著，只有谓词否定和双重否定之间的比较达到了显著性（p = 0.031）。综合这些结果表明，极性诱导的召回率崩溃主要由决策架构中介。在严格筛选下，语言变化导致召回率的显著和系统性差异。在评分下，这些差异大大减小，并表现为高召回率操作范围内的微小变化。

3.6. 跨数据集的阈值稳定性由于基于评分的筛选通过可调阈值来确定包含，因此在选择开发数据集上的操作点时设定了一个预定义的召回率约束（召回率≥0.90），并将该阈值不变地应用于独立重采样的验证和测试数据集。如图5所示，虽然在非目标成分上存在差异，但在开发数据集上选择的阈值在验证和测试数据集上产生了可比的召回率值。召回率的变化通常很小，表明所选的操作点在干扰项组合变化下是稳定的。表5显示了在独立采样的数据集上，满足召回率≥0.90约束的阈值的选择结果。在开发数据集上选择的阈值在包含不同非目标摘要混合物的验证和测试数据集上保持不变。结果表明，基于评分的筛选策略可以跨来自同一语料库的独立采样数据集进行推广。这与严格筛选管道不同，在严格筛选管道中，结果是由顺序排除固定的。

4. 讨论大语言模型（LLMs）越来越多地用于系统评价工作流程，特别是在筛选和数据提取方面[33]。最近在牙科应用中的研究主要集中在任务级别的性能上，包括问答和工作流程自动化。例如，Chau等人评估了聊天机器人在修复牙科和Prosthodontic dentistry中对多项选择题的回答，并报告了模型之间的准确性和推理质量的显著差异[34]。同样，Rokhshad等人评估了聊天机器人在儿科牙科系统评价中的使用情况，发现尽管 Large Language Models（LLMs）可以支持评价过程的多个阶段，但为了确保准确性和完整性，仍需要人工监督[35]。这些研究展示了这些模型在牙科领域中的潜力和局限性，但它们主要评估的是任务成果层面的表现。相比之下，当前的研究重点关注筛选行为背后的决策机制，特别是语言表述和决策架构在证据信息不足的条件下如何相互作用。LLM辅助的引用筛选显示出了与手动筛选相比具有较高的敏感性和显著的时间节省[36]，尽管报告的性能因任务设计和评估框架而异[14]。最近对这些模型的大规模评估也表明，模型性能对提示语的措辞非常敏感。在多个LLM和提示语表述之间的实验中，仅根据筛选指令的表述方式，召回率和精确度就存在显著差异，提示语倾向于包容性的表述会系统性地提高敏感性，但以牺牲精确度为代价[37,38]。本研究探讨了语言极性和决策架构如何共同塑造大型语言模型在摘要级别筛选时的行为。基于评分的框架并非提出作为一种最终的筛选方法，而是一种实验性构建，旨在隔离决策聚合的效果。在两个模型版本（GPT-5.1和GPT-3.5 Turbo）中，措辞并非中立。在顺序式硬门控筛选下，它产生了召回率、错误集中度和排除动态的显著差异。然而，大多数现有研究主要将提示语视为优化模型性能的手段。当前的结果表明，这种变异性可能部分源于语言形式与用于执行筛选规则的决策架构之间的交互作用。

在硬门控范式下，语言等价的变体在两个模型中产生了明显不同的筛选轨迹。肯定的包容性（AI）保留了最大比例的符合条件的研究，而以排除为导向和否定含量高的表述——特别是反义排除（AE）和动词否定（VN）——导致了明显的且不可逆的TAGET损失。尽管GPT-5.1和GPT-3.5 Turbo之间的绝对校准有所不同，但定性的极性模式在模型之间是一致的。这种跨模型的consistency表明，观察到的召回率差异并非特定LLM版本的特有现象，而是反映了语言极性和不可逆决策结构之间的一般性交互作用。尽管当前分析仅限于生物医学语料库，但背后的机制并不特定于某一领域。观察到的行为源于三个一般性特性：（i）在证据信息不足条件下的决策，（ii）对否定和极性的敏感性，以及（iii）顺序性的不可逆决策流程。这些条件并非系统评价所独有，而是文档分类、信息检索和基于规则的分类任务中的常见现象。从这个角度看，硬门控筛选下极性效应的放大反映了决策过程的结构性特征，而不是特定临床内容的特性，因此预计可以推广到具有类似决策约束的其他场景。

标准级别的分析阐明了这种效应背后的机制。TAGET损失高度集中在一个单一方剂——参与者年龄——这在实践中经常得到满足，但在摘要级别却报告不一致。对被排除的TAGET摘要的定性检查（补充文件S1和S2）确认，大多数假阴性源自摘要中通常隐含或简略的信息——特别是参与者年龄和随机设计的明确标注——这说明了证据信息不足如何与硬门控排除规则相互作用。

人工的标题和摘要筛选本身也不完美，即使在双评审者工作流程下，报告的敏感性通常也在90-97%的范围内[25]。遗漏的符合条件研究通常归因于摘要中的信息不完整或模糊，需要在不确定性下进行推理决策[39]。因此，当前研究中观察到的召回率损失应该在这种背景下进行解释：它并不代表LLMs的独特失败，而是反映在证据信息不足条件下摘要级别筛选的已知局限性的放大。当缺乏明确确认时，否定含量高的提示似乎会引导一种保守的、失败即终止的决策策略。几种相互作用的机制可能导致了这种行为。首先，LLMs优化了遵循指令的能力，倾向于以字面方式解释以排除为导向的表述（例如，“如果不满足X，则排除”），这反映了它们对提示结构和指令信号的强烈敏感性[40]。其次，否定引入了额外的解释复杂性，要求模型解决范围并反转谓词含义；先前的工作已经表明，大型语言模型在处理否定表述时存在系统性限制，往往依赖表面线索而不是稳健的逻辑推理[41]。此外，最近的研究发现了二元决策任务中的可测量负面偏差，模型在不确定性下倾向于选择类似排除的响应[42]。第三，因为筛选决策是在每个步骤中局部做出的，这种保守的偏见被硬门控架构放大了：一旦在不确定性下排除了一个摘要，它就不能在后续阶段恢复。因此，回收率的崩溃不是由单一的失败模式引起的，而是遵循指令的行为、对否定的敏感解释和不可逆决策结构之间的交互作用的结果。在硬门控管道中，这种局部偏见被架构的不可逆性放大：一旦在中间步骤被排除，摘要就不能恢复。因此，这种崩溃不是由于统一的语义失败，而是由于证据信息不足和早期承诺之间的交互作用。

这些结果可以在不确定性的顺序决策框架内进行解释。在摘要级别，必须在不完整的信息下评估是否符合条件[43]。因此，筛选决策是在部分证据的基础上做出的。在硬门控管道中，每个标准都作为一个局部应用的二元决策阈值。当不完整的信息被保守地处理时——特别是在否定情况下——这种阈值机制将局部模糊性转化为明确的排除。由于决策是顺序和不可逆的，这种局部错误会向前传播并累积，导致一种顺序错误放大，其中早期阶段的不确定性导致了符合条件的研究的不成比例损失，这与最近的研究结果一致，表明多步骤LLM决策过程中的不确定性包含了一个从先前决策继承的传播成分[44]。相比之下，基于评分的架构实现了一种延迟阈值机制：证据信号在各个标准之间累积，只有在评估了累积证据之后才会做出最终的包含决策。这种结构保留了不确定性，并将排除从局部模糊性的直接后果转变为由明确操作阈值控制的全局决策，与顺序证据累积决策模型一致[45]。从这个角度看，观察到的极性效应不仅来自语言敏感性，还来自不确定性在决策架构内的传播和解决方式。当前的评分公式（YES = 2, UNCLEAR = 1, NO = 0）代表了一种最小的线性聚合方案，旨在测试去除不可逆性是否改变筛选行为。它并非旨在作为证据聚合的最佳或详尽表示。其他公式——包括非对称加权、非线性聚合或标准特定重要性——将修改各个标准的相对影响，并改变最终的精确度-召回率权衡。更一般地说，满足两个最低条件的聚合函数——（i）相对于证据支持的单调性，以及（ii）对部分不确定性的容忍度（即，在信息不完整的情况下不立即排除）——将减少在硬门控下观察到的局部决策错误的放大。在这样的条件下，不确定性会被传播而不是崩溃，语言敏感性表现为分级变化而不是不可逆的排除。因此，中心结果反映了证据累积的结构性特性，而不是特定评分方案的人为特征。

结果表明，在某些条件下，应优先选择基于评分的筛选而非硬门控管道。在高召回率任务中——如系统评价筛选——错过符合条件的研究比包括额外的非目标记录更具成本时，延迟排除的架构是有利的。当资格标准在摘要中明确且一致报告时，或者当优先考虑特异性而非敏感性时，硬门控管道可能是适当的。然而，在以信息不完整为特征的领域中，基于评分的方法通过保留不确定性和避免过早排除提供了更安全的替代方案。这种行为依赖于不确定性的明确表示。在硬门控下，缺乏证据实际上被视为负面证据，导致立即排除。相比之下，评分框架允许不确定的标准提供部分支持，使信息不完整的记录在进一步评估前仍有可能被包括。这将决策从失败即终止的模式转变为更为宽容的、基于证据累积的模式，这在摘要级别筛选中特别适用，因为报告往往是不完整的。在实际部署中，阈值选择直接决定了召回率和工作量之间的权衡。较低的阈值提高了召回率，但允许更多的非目标摘要通过，增加了评审者的负担。较高的阈值减少了工作量，但可能会排除符合条件的研究。在当前的评分方案中，4的阈值代表了一个保守的操作点，在这个点上没有任何标准被明确失败，这与以包含为导向的摘要筛选理念一致。更宽松的阈值可用于初始分类，而更严格的阈值可以在后期阶段或资源受限时使用。这种框架允许根据可接受的风险水平和可用的评审能力来明确调整筛选工作流程。

基于评分的架构表明，这种崩溃强烈受到决策结构的调节[33]。当资格被视为证据累积问题时，召回率成为阈值选择的连续且可控的函数。在不同的语言变体中，评分显著减少了假阴性计数并减弱了极性驱动的差异。尽管不同表述之间的差异仍然存在——主要在于精确度和工作量概况——但在硬门控下观察到的严重召回率崩溃在很大程度上被消除。在否定情况下，主要的失败模式是在不确定性下的过早承诺，而不是对标准的误解。这种架构调节在硬门控和基于评分的筛选之间的直接比较中显而易见（图5），一旦证据累积取代了不可逆的过滤，召回率在各种极性变体中趋于一致。评分使政策决策变得明确。在实验设置中，阈值是在召回率约束下使用标记的开发数据选择的，以便与硬门控进行对照比较。在现实世界的筛选场景中，真实世界的召回率是未知的，阈值选择必须依赖于原则性的部署策略。一种是规范阈值法：在当前的评分方案中，4的阈值对应于没有任何标准被明确失败且每个谓词至少是不确定的最小条件。这与摘要筛选的保守理念一致，即缺乏明确确认不应自动触发排除[46]。这种方法反映了之前关于LLM辅助筛选管道的工作，其中提示策略故意倾向于包容性，以最小化假阴性，反映了广泛接受的原则，即错过符合条件的研究比将额外记录传递给下游评审更有害[37]。另一种是基于排名的工作流程，其中摘要按累积证据排序并逐步筛选，将阈值选择转化为操作工作量决策，而不是语义推断，与最近排名研究并仅将最高比例分类为包含的筛选框架一致[47]。第三种实用策略是轻量级自适应校准，其中手动审查一小部分摘要以估计一个可接受的操作点，之后可以将选定的阈值应用于剩余的语料库。这与最近的研究一致，表明基于LLM的筛选系统可以使用有限的校准信号而不是完整的监督训练来实现目标召回率[27]。与硬门控不同，评分下的阈值选择不会在中间阶段施加不可逆的排除。这些策略也都涉及权衡：规范阈值法可能导致由于保守的包含而增加下游工作量，基于排名的工作流程需要主观的停止标准，而自适应校准可能对初始子集中的抽样变异性敏感。

这些发现突显了一个更广泛的方法论区别。硬门控隐含地编码了一个极端的阈值策略——要求每个谓词都获得最大支持——并将证据解释和决策承诺合并为一个步骤。这一观察与最近关于LLM评估框架的工作一致，这些工作表明评估标准本身在检查模型输出时经常演变，这种现象被称为标准漂移[48]。在这样的设置中，归因于模型的行为可能部分反映了用于测量它的评估管道的结构。我们的结果扩展了这一视角，通过证明筛选工作流程中的架构选择——如不可逆门控与累积评分——即使潜在的逻辑标准保持不变，也可以系统地塑造观察到的模型性能。证据累积架构将这些组件分开，允许保留和管理不确定性，而不是立即解决。在不可逆的管道中，表面形式的小变化可以产生质量不同的筛选结果。在累积式架构中，相同的语言敏感性表现为沿着精确度-召回率谱的偏移，而不是灾难性的排除。未来的工作应该评估不同的聚合方案和包含标准的不同表述，以评估这些发现的普遍性和实际意义。本研究有几个局限性。首先，数据集仅限于一个领域。尽管如此，观察到的效果源自语言解释和顺序决策的结构特性，因此预计在具有类似证据不足规格的领域中也能普遍适用。其他领域可能在报告风格、术语或信息密度上有所不同，这可能会影响观察到的效果的大小。目前的方法假设摘要是可用且可访问的。实际上，一些记录可能没有摘要，或者只能用模型不支持的语言提供，这需要手动筛选或预处理步骤，例如翻译。此外，即使摘要可用，相关资格信息也可能报告不完整，引入证据不足的规格，从而影响筛选决策。更复杂的资格结构、交互式审稿人-模型工作流程或替代编码可能会改变观察到的权衡的大小或方向。尽管如此，不可逆门控和累积评分之间的架构对比与领域内容无关，反映了在语言不确定性下运行的顺序决策系统的一个普遍特性[36]，尽管性能会根据任务设计和评估框架而变化[14]。大规模评估表明，模型行为对提示措辞非常敏感，召回率和精确度的显著变化仅由措辞的差异引起[37,38]。错过研究通常归因于报告不完整或含糊不清，需要在不确定性的情况下进行推断[39]。因此，这里观察到的召回率损失应该在这种背景下解释：它不是LLM特有的失败，而是极性驱动的排除放大了摘要级筛选的一个已知限制。

在以否定为主的表述下，主要的失败模式似乎是在不确定性下采取保守的、失败即关闭的决策策略。这可能反映了多种因素的结合：对指令框架的敏感性、否定带来的解释复杂性增加，以及在证据不完整时倾向于排除[40,41,42]。在硬门控流程中，这种局部偏见由于不可逆性而被放大：一旦摘要被排除，就无法恢复。结果，早期的不确定性会向前传播并累积，产生一种顺序错误放大的形式。这种行为可以在不确定性下的顺序决策框架内理解[43]。在硬门控流程中，每个标准都作为一个局部二元阈值，将模糊性转化为立即排除。相比之下，基于评分的架构实施延迟阈值化：证据在多个标准之间进行聚合，最终决策仅在累积评估后做出。这保留了不确定性，并将排除转化为由明确操作阈值控制的全局决策，与证据积累的决策模型一致[44,45]。这些发现突出了一个更广泛的方法论区别。硬门控隐含地编码了一个极端的阈值策略——在每一步都需要最大支持——并将解释和决策承诺合并为一个操作。这与之前的评估框架研究结果一致，表明观察到的模型行为可能部分反映了评估流程本身的结构[48]。我们的结果通过证明即使逻辑标准保持不变，架构选择也可以系统地影响筛选结果，扩展了这一观点。在不可逆流程下，表面形式的小变化会产生质量不同的结果；在累积式架构中，同样的变异性表现为沿着精确度-召回率谱的受控偏移。

本研究有几个局限性。首先，分析仅限于生物医学领域，其他领域的报告实践可能会导致不同的效果。其次，筛选决策基于摘要，而摘要本质上是不完整的，可能无法反映全文信息。第三，不同的评分方案或交互式审稿人-模型工作流程可能会改变观察到的权衡。尽管有这些局限性，这里识别的架构对比反映了在语言不确定性下运行的顺序决策系统的一个普遍特性，并可能扩展到具有类似特征的其他设置。5. 结论

本研究表明，语言极性对基于LLM的摘要筛选的影响不仅仅是语义上的，而是受到决策架构的强烈影响。在两代模型（GPT-5.1和GPT-3.5 Turbo）中，以否定为主和以排除为导向的表述在顺序硬门控流程中产生了显著和系统性的召回率差异。尽管逻辑谓词和输入数据相同，不可逆的布尔过滤将证据不足的规格放大为假阴性排除，导致保留的符合资格的研究数量有显著变化。当在基于评分的证据积累框架内评估相同的标准时，这种差异明显减弱。所有变体的召回率都有所提高，并在高敏感性操作范围内趋于一致，剩余的差异在统计上较弱且基本不显著。在评分下，极性效应没有消失，而是转化为精确度和工作量的受控差异，而不是妨碍高回忆率的结构性障碍。这些发现表明，在否定下的主要失败模式是在不可逆过滤下的过早承诺，而不是模型解释逻辑结构的内在能力不足。更广泛地说，结果表明，基于LLM的工作流程中的筛选性能是由语言表述和决策架构共同决定的。硬门控流程隐含地编码了极端的阈值策略，并放大了局部解释不对称性，而累积评分将证据评估与决策承诺分开，并在最终聚合之前保留不确定性。因此，即使提示、数据集和逻辑标准保持不变，架构选择也可以显著影响筛选敏感性。

这些发现对高召回率筛选工作流程的设计有直接影响。语言形式不能被视为与逻辑规则的中立接口：其效果取决于决策的实现方式。因此，可靠地部署LLM进行系统审查筛选不仅需要注意提示的表述，还需要注意决策流程的结构。延迟排除并明确操作阈值的架构为管理不确定性和避免过早丢失符合资格的研究提供了更稳健的框架。

补充材料
以下支持信息可以从以下链接下载：
https://www.mdpi.com/article/10.3390/info17050449/s1
补充文件S1：在硬门控筛选过程中，根据肯定包含表述错误排除的TARGET摘要的定性分析。该文件报告了14个假阴性摘要以及解释哪些资格谓词触发了排除和摘要级不足如何导致筛选失败的准则级注释。
补充文件S2：在使用GPT-3.5 Turbo进行硬门控筛选过程中，根据肯定包含表述错误排除的TARGET摘要的定性分析。该文件报告了假阴性摘要以及识别哪些资格谓词触发了排除和摘要级不足如何导致筛选失败的准则级注释。

热点排行