综述：利用顺序采样模型提升药物选择中的转化研究洞察力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Psychopharmacology》：Improving translational insight using sequential sampling models in drug choice

【字体：大中小】 时间：2026年06月07日 来源：Psychopharmacology 3.3

编辑推荐：

　　尽管神经科学与分子科学的发展带来了前所未有的分析手段，酒精使用障碍（AUD)的药理学治疗转化仍面临挑战。研究人员提出，利用人类决策模型对临床前离散选择程序进行形式化表征，可为这一难题提供解决途径。本文综述了支持选择程序在药理学治疗筛选中应用性的证据，以及顺序采

尽管神经科学与分子科学的发展带来了前所未有的分析手段，酒精使用障碍（AUD)的药理学治疗转化仍面临挑战。研究人员提出，利用人类决策模型对临床前离散选择程序进行形式化表征，可为这一难题提供解决途径。本文综述了支持选择程序在药理学治疗筛选中应用性的证据，以及顺序采样模型（sequential sampling models)在解释跨任务、跨物种决策行为方面取得的显著成功。这一成功意味着存在可共享的决策认知规律，能够被用来提升转化研究洞察力。这些形式化方法能够整合多源数据集以阐明其在治疗效应中的作用，且易于实施——研究人员通过开源软件提供了一个简要实用的教程予以演示。

**引言**

酒精使用障碍（Alcohol Use Disorder, AUD)是全球重大健康负担，每年导致近300万人死亡，也是胃肠道癌症、心脏及肝脏疾病等多种疾病的主要风险因素。目前已获批的AUD药物包括纳曲酮（Naltrexone)、阿坎酸（Acamprosate)和双硫仑（Disulfiram)，但其疗效参差不齐，存在显著的药理学治疗缺口。过去20年间，尚无超越一线治疗的AUD新药物获批用于临床。

日益认识到，新 pharmacotherapies 的匮乏部分源于对传统临床前行为检测方法的依赖，这些方法未能充分捕捉人类AUD的复杂性。传统检测包括操作式与巴甫洛夫实验程序，如药物自身给药（drug self-administration)、复吸模型（reinstatement models)和条件性位置偏爱（conditioned place preference)。尽管这些检测揭示了药物寻求与复吸的神经机制，但存在明显局限：相当一部分在经典模型中表现出药物摄入和行为升级的动物，在提供选择时反而偏好其他生物相关性奖赏。这挑战了这些程序作为物质使用障碍（Substance Use Disorders, SUDs)模型的有效性。此外，这些模型的预测效度有限，制约了其在药理学化合物筛选和开发中的效用，导致药物研发管线中的多次失败。

**选择模型**

因此，研究范式已转向能够捕捉SUDs诊断标准独特方面的临床前模型。其中值得关注的是包含成瘾物质与至少一种替代奖赏同时可及性的程序。替代奖赏通常为食物、糖精颗粒或社会互动，但也可以是其他奖赏性刺激。本文区分了两种类型的选择程序：自由操作选择（free-operant choice)和离散选择（discrete choice)。在自由操作选择程序中，操作物持续可及；而在离散选择程序中，操作物仅在具有规定时长的离散试次中可及，且选择具有排他性——选择一种奖赏将排除在下一试次开始前选择另一种奖赏的可能性。本文重点关注离散选择程序，因其能够产生关键的反应时指标，且已被广泛应用于跨物种（非人灵长类、啮齿类和人类)和跨成瘾物质（精神兴奋剂、阿片类药物、酒精)的研究中。

**选择程序的优势**

使用药物选择程序筛选SUDs药物具有多方面优势。《精神障碍诊断与统计手册》第五版（DSM-5)将11项诊断标准中的6项归于对药物寻求和摄取行为的适应性不良分配，而忽视了其他重要的非药物行为（金钱、食物、社会互动)。与此一致，多种理论认为SUDs本质上是决策障碍。尽管这些理论在精确机制上存在分歧，选择程序非常适合检测药理学干预对这一标准的有效性。通过指标化行为分配，选择检测对驱动SUDs成功药理学和行为治疗的决策变化敏感。事实上，这种敏感性已促成有效行为治疗方法的开发（如应急管理和基于就业的强化)，这些方法直接受基于选择的SUDs建模方法的启发。

多项证据表明，选择模型可能是筛选和开发AUD药物的有价值预测工具。首先，选择程序通常与现有SUDs药物治疗表现出一致性。研究表明，美沙酮和丁丙诺啡治疗可减弱戒断引起的海洛因选择；d-安非他明（单胺转运体抑制剂)可减少可卡因与食物的选择，该效应在双盲安慰剂对照临床试验和人类实验室试验中也得到验证，支持临床前选择与临床结果之间的一致性。重要的是，选择程序还能标记经典临床前模型中的假阳性。

**顺序采样模型在知觉决策中的应用**

当前证据支持选择模型在检测药物疗法中的应用前景。研究人员认为，离散药物选择模型的潜力可通过利用形式化决策方法得到显著增强。本文首先描述顺序采样过程——一类源自人类决策任务的形式化决策模型，介绍其在知觉决策中的初始应用及随后的价值导向任务应用，进而倡导将这些模型反向转化至临床前离散药物选择。这些形式化方法可提供关于药理学治疗对药物相关决策架构效应的洞察，并提升转化研究洞察力。

**什么是顺序采样模型？**

长期以来，行为分配和执行反应的时间被认为是完整理解决策架构所必需的。据此，多个数学模型被开发出来，将反应时分布和选择概率分解为关于潜在因果心理过程的有信息量的潜在认知参数。这些顺序采样模型主张，决策相关的刺激信息片段从环境中被采样，信息偏向于一种或另一种选择选项，这一过程顺序进行直至达到"阈值"，即存在充分信息来指导选择输出。该过程自然预测了选择结果（证据更多的选项)和反应时（证据累积所需的时间)。以知觉决策领域中常用的运动辨别任务为例，参与者从点阵中采样方向信息，该过程持续进行直至参与者对运动方向达到充分信心（即达到证据阈值)，从而做出反应。

**用LBA和DDM建模反应时分布**

顺序采样框架涵盖大量不同的数学模型，均利用相同的基本原理。本文聚焦两个流行且成功的模型：线性弹道累积模型（Linear Ballistic Accumulator, LBA)和漂移扩散模型（Drift Diffusion Model, DDM)。这两个模型产生三个共同的潜在参数：累积速率（accumulation rate)、反应谨慎度（response caution)和非决策过程时间（non-decision time)。在知觉决策中，证据累积速率是信息采样的速度；反应谨慎度是主体做出反应时表现出的冲动程度；非决策时间涵盖所有与实际决策无关的过程（如运动反应)。尽管各模型中心理构念的表征相似，但数学处理方式不同。

在LBA中，两个反应之间存在类竞赛过程，具有独立的证据累积器。证据累积过程无噪声（弹道式)且线性。证据从随机采样的起点区间开始累积，一旦开始，累积器"竞赛"至边界阈值，哪个累积器首先达到边界即做出相应反应。在DDM中，证据在两边界阈值之间进行噪声式（随机)累积，使用单一证据累积器。证据从某一起始点开始累积，哪个阈值被达到即做出相应反应。重要的是，尽管存在这些区别，从这些模型中得出的心理学推断是相似的，这为整体顺序采样框架提供了支持。

LBA和DDM在捕捉和解释多种知觉决策现象方面取得了显著成功。它们为反应比例与反应时分布特征之间的关系提供了准确而详细的解释。由这些模型生成的潜在认知变量为决策架构提供了宝贵洞察。例如，与传统理论相反，研究表明老年人在知觉任务中表现更慢是由于更大的反应谨慎度和更慢的非决策时间，而非更慢的处理速度。这一结论若无对决策认知架构的敏感性将难以得出——研究人员认为这一理念适用于临床前选择数据集。支持这一观点，这些模型为超越知觉领域的决策提供了一般性解决方案，包括涉及学习、记忆、语言处理和价值导向决策的任务。

**顺序采样模型在价值导向决策中的应用**

价值导向决策任务从顺序采样模型的应用中获益良多。这一成功令人惊讶，因为价值导向任务与这些模型旨在解释的知觉任务存在根本差异。不同于具有客观正确答案的知觉任务，价值导向任务依赖主观偏好和目标，植根于情感评估，常涉及对多重内隐属性的考量。这种差异导致了顺序采样过程解释中的关键区别：在价值导向决策中，证据累积是情感性的，结果价值从 precision 不足的脑表征中采样以评估行动方案。因此，证据累积速率通常被解释为奖赏价值而非信息处理速度。特别是类竞赛模型如LBA非常有用，因为它们为每种选择选项生成独特的心理奖赏价值表征。值得注意的是，有证据表明价值导向和知觉决策受共享的决策规律支配，可被顺序采样模型捕捉和预测。

在广泛的任务中，价值导向决策的操控已被证明系统地变化DDM和LBA中的三个潜在变量，这些变化通常与任务特定文献的预期一致，意味着超越知觉领域的决策解释效度。关键的是，其效用超越二元决策，扩展至多选项（多于两种选择)价值导向选择。这些决策因受情境效应（相似性、吸引、妥协)影响而复杂化，标准经济模型难以解释。然而，高度特化的顺序采样模型已被开发，首次完整解释了决策中的情境效应，捕捉多选项选择的动态。除了解释复杂自然决策动态的实用效用外，这还表明该框架是可推广的通用工具，可针对特定应用进行特化。

**联合建模方法整合多源数据类型**

多选项模型是联合建模（joint-modelling)方法的一个有前景的实例，该方法在单一框架内整合多数据源。方法形式多样，从估计模型参数与其他数据的相关性，到使用任务特定模型约束参数估计（"前端模型")。例如，强化学习模型可作为更新主观价值（Q值)内部表征的学习规则，以应对决策变化，桥接这些相互影响的认知过程。该方法的多功能性在于能够整合从神经科学、遗传学、心理测量到生理学测量的多样数据类型。这种多维方法可增强对这些系统如何塑造决策过程的理解。

**顺序采样模型也解释非人类决策**

这些决策过程在物种间是保守的。非人灵长类、鸟类和啮齿类中的研究表明，知觉和价值导向领域存在类似机制。首次在非人灵长类中观察到，外侧顶叶区额眼野神经元网络在达到不可观测阈值前持续增加活动，随后产生行为反应。最近研究表明，该框架广泛适用于跨行为任务和感觉模态。动物研究中丰富的神经科学工具已被用来开发跨物种顺序采样的神经框架。在小鼠中，研究首次证明了内侧前额叶皮层至室旁丘脑通路在决策谨慎度/选择冲动性中的因果作用；研究进一步证明了前背侧纹状体（anterior dorsal striatum, ADS)在知觉证据累积中的因果作用。

**离散药物选择中的顺序采样**

临床前离散选择是满足顺序采样模型可检验预测的价值导向任务。这些模型有两项一般性预测：第一，在顺序遭遇中（即仅一种选项可及时)对某选项反应更快，预测该选项在遇选择试次中应被更频繁地选择。这在啮齿类和鸟类中已得到证实。第二，选择遭遇中的反应时应短于顺序遭遇中的反应时，这是由于选择时反应时分布的统计交叉审查效应，该效应在顺序遭遇中不可能发生。这些预测大多在文献中得到支持，但存在值得注意的例外，需要进一步审查以确定其是否推广至不同成瘾物质和行为范式。

**应用顺序采样模型的优势**

虽然顺序采样模型尚未被反向转化至临床前离散选择模型，它们为化合物筛选提供了有前景的概念框架。该方法将临床前物质使用研究与跨任务、研究领域和物种的广泛文献对齐，为超越标准行为分析的选择程序药物筛选提供了复杂的转化基础。鉴于物质使用可被理解为决策障碍的趋同证据以及转化失败的增加，这种计算框架至关重要。

与强化学习模型相比，顺序采样模型提供了对决策过程更精细的解释性说明。强化学习模型将决策稀释为 largely 描述性的soft-max概率映射函数，重点在于 agent 学习；而顺序采样模型中，学习被稀释为噪声参数，重点在于决策架构。因此，当研究人员关注学习潜在变化时，强化学习模型更有用；而顺序采样模型解释决策为何及如何变化。两者的联合模型具有阐明学习和决策表现变化的潜力。

顺序采样模型可通过计算参数提供转化连接，指示决策架构的变化。具体而言，累积速率的变化通常指示奖赏价值的改变，而决策谨慎度的变化通常指示决策冲动性的改变。这些参数的纳入使选择检测对支撑行为分配和反应时变化的决策认知基质敏感。重要的是，这些推断是具体且可检验的。纳入认知维度可重塑对药物选择检测的解释。例如，总体反应速率降低通常指示治疗的镇静运动效应，但也可能是由 heightened 决策谨慎度（即降低的冲动性)或累积速率的一般性降低（即价值)所驱动，后者产生相似的反应时和速率效应。只有用顺序采样模型形式化分析的离散选择任务能够解析这些不同的解释，因为这些模型联合解释了行为分配和反应时分布，而非单独解释平均反应时和行为分配。

分析非决策时间变量可指示非预期效应，如运动功能变化，这通常需要额外运行物种特异性的行为范式。然而，参数解释可能存在困难，特别是当解析密切相关的心理构念时。例如，价值、动机和显著性过程可能影响决策中的累积速率；唤醒等其他过程可能影响多个参数。历史上，这些混淆性解释通过人类实验室环境中的精心实验操控来解析。相比之下，临床前环境中的药理学操控通常引发广泛的生理效应，可能影响多个潜在心理过程。这种控制缺失使顺序采样模型参数的解读复杂化。尽管如此，纳入这些形式分析扩展了超越传统方法的解释。

这些临床前认知推断可直接转化至临床研究。通过利用已建立的临床价值导向决策任务（这些任务已成功与顺序采样模型结合以表征物质使用和恢复的认知特征)，可解决治疗缺口。这为将预期药物与物质相关决策的认知基质相连接提供了基础，使通过形式建模作为计算桥梁，实现从临床前测试到临床试验的阶梯式转化。

顺序采样还可通过联合建模方法为解释多样测量与决策的关系提供框架。在行为层面，选择执行前个体行为和序列的机器分析可用于约束认知参数估计。神经生物学测量如多巴胺结合的纤维光度法可与顺序采样参数使用分层协方差结构进行联合估计，以稳定两种测量的估计并提取脑-行为关系的无偏估计。联合方法可通过提供药理学效应与药物相关决策之间的计算连接来改善转化洞察力。

**实施顺序采样模型**

这些方法可应用于现有和未来的选择数据集。拟合顺序采样模型需要选择结果（至少两种选择选项)和反应时测量，这由离散选择任务自然生成。标准离散选择协议存在两个固有局限：通常试次数量有限（约15试次)；动物通常表现出对非药物选项的强烈且近乎独一的偏好。主要局限在于，这共同约束了对较不偏好选项的观察。

对于现有数据集，如果选择一致，跨阶段聚合试次是有效的，或可对形式建模程序进行改变以减少所需试次数。对于无法跨阶段合并的现有研究或具有独一选择的动物，应用这些形式程序不切实际。对于 upcoming 研究，可考虑改变离散设计，如平衡选择偏好的操控（状态操控、奖赏延迟、诱导依赖)或增加每阶段试次数。大量努力已致力于将形式建模过程适应更广泛应用。开发了数学和计算上更简单的多种模型变体，使实施无需深入的编码知识或数学训练。还开发了R和Python编程语言中的开源、良好支持软件包。

**实施顺序采样模型指南**

本文提供了从原始数据可视化到贝叶斯参数估计比较的建模过程简要概念概述。行为数据可视化的第一步涉及观察选择结果和反应时分布的特征负相关关系——这通常意味着顺序采样模型能够准确捕捉选择的时间动态。反应时分布的形状还指导模型选择：更平坦的峰值通常指示更慢的累积速率，而右移且更宽的分布提示谨慎度增加。

模型指定时，重要的是生成竞争模型以在替代解释背景下进行推断。这包括使用先验假设和反应时分布特征观察的组合来生成合理模型。模型拟合常用贝叶斯框架，生成个体和群体水平参数，通常导致更精确准确的估计。贝叶斯估计始于指定先验分布，其为观察数据前关于参数的信息。

有两个主要检查评估后验样本质量：第一是检查样本间自相关，量化为有效样本量（Effective Sample Size, ESS)，ESS>100通常被认为满意；第二是检查链收敛性，使用Gelman-Rubin诊断（R?<1.1表示收敛)。这些指标应与迹线图可视化结合使用。模型比较可使用信息准则（如DIC、WAIC、BPIC)或更稳健的贝叶斯因子（Bayes factor)。贝叶斯因子是边际似然的比率，为模型选择提供了显著更好的指标。

下一步使用后验预测检查评估模型的绝对拟合度，即从联合后验分布抽取样本模拟数据，将"预测"数据集与"观察"生成数据集比较。若匹配良好，则模型拟合良好。最后，对最佳拟合模型内的参数估计进行推断，在DMC框架中可通过生成贝叶斯95%可信区间和后验概率值（贝叶斯p值)实现。小的贝叶斯p值表示可靠差异（贝叶斯p<0.025对应双尾p<0.05标准）。

**结语**

药物选择程序为解决AUD药物转化问题提供了潜在方案。它们在理论上优于经典检测，并在药物检测中展现出有前景的转化效用。离散选择任务尤其允许人类决策模型——顺序采样模型的反向转化，该模型在跨物种和决策领域展现了显著成功。将这些方法应用于动物离散药物选择具有理论基础，因为这些检测符合顺序采样框架的可检验预测。结合这些方法具有多方面优势：（1)对决策架构变化的敏感性；（2)检测非预期的非决策效应；（3)通过联合建模方法整合和解释额外测量；（4)通过与现有临床选择程序的计算对齐，为化合物测试提供转化基础。关键的是，实施简单，使具有基本编程技能的研究人员能够将这些模型应用于现有和未来的药物选择数据集。

联系信箱：

粤ICP备09063491号

热点排行