模型、检测与生物标志物评估方法（MEMTAB）：第7届国际会议（MEMTAB 2025）摘要集

《Diagnostic and Prognostic Research》：Methods for Evaluating Models, Tests And Biomarkers (MEMTAB): Abstracts from the 7th International Conference, MEMTAB 2025

【字体：大中小】 时间：2026年05月22日 来源：Diagnostic and Prognostic Research 2.6

编辑推荐：

　　模型、检测与生物标志物评估方法（MEMTAB）是专注于改进医疗领域模型、检测及生物标志物研究、评估与实施方法的国际领先会议，面向所有类型的研究者、方法学家及政策制定者、患者等利益相关方，旨在提升临床实践中患者筛查、诊断、预后、监测及治疗相关方法的认知、优化与传

模型、检测与生物标志物评估方法（MEMTAB）是专注于改进医疗领域模型、检测及生物标志物研究、评估与实施方法的国际领先会议，面向所有类型的研究者、方法学家及政策制定者、患者等利益相关方，旨在提升临床实践中患者筛查、诊断、预后、监测及治疗相关方法的认知、优化与传播。2025年第7届会议回归伯明翰大学，主题为“经得起检验的方法学”。会议呼吁参与者共同推进可可靠认可、传播及落地的模型、检测与生物标志物的相关方法与证据体系构建。本次会议吸引超200名参会者，设置特邀报告、口头汇报及海报展示环节，并配套会前课程。涵盖议题包括研究设计（样本量、数据来源、报告规范、开放科学）、实验室检测分析性能的早期研究、临床实践与患者结局影响评估、评估与质量评价（偏倚风险）、监管与实施、临床预测模型创新方法（机器学习、生成式人工智能、大语言模型、反事实预测及不确定性量化）、证据传播与沟通（面向政策制定者、监管机构、患者及公众）、筛查与早期诊断、新兴技术（多病种检测、自测工具）、算法公平性与泛化能力提升、诊断/预后/监测临床路径、系统评价与荟萃分析（尤其个体参与者数据研究）、卫生经济学与决策分析、患者与公众参与（PPIE）等。本增刊收录MEMTAB 2025会议录用摘要，包含特邀报告（标注S）、口头报告（标注O）及海报展示（标注P），均为提交者授权发表于《Diagnostic and Prognostic Research》的内容。

本次MEMTAB 2025会议聚焦诊断与预后研究领域的方法学创新，针对当前医疗检测工具、临床预测模型及生物标志物从研发到落地全流程中存在的评估标准不统一、证据转化效率低、监管适配性不足等核心问题，汇聚全球方法学家、临床专家及产业代表，系统探讨覆盖研究设计、验证实施到卫生技术评估的全链条解决方案。《Diagnostic and Prognostic Research》作为该领域的权威期刊，出版本次会议摘要集，集中呈现了诊断准确性研究偏倚评价工具更新、临床预测模型样本量计算新方法、真实世界诊断证据评价、人工智能医疗应用的公平性校准等前沿进展，对推动医疗决策工具的规范化开发与临床转化具有重要指导意义。

研究人员采用多中心协作的研究模式，依托英国国家健康与护理研究院（NIHR）伯明翰生物医学研究中心等平台，整合方法学研究、临床队列数据与产业实践需求，关键技术方法包括：第一，基于系统评价与德尔菲共识法更新诊断试验偏倚风险评估工具QUADAS-3及临床预测模型报告规范PROBAST+AI，覆盖传统统计模型与机器学习模型的评价需求；第二，开发贝叶斯统计框架处理诊断研究中因无效而提前终止的序贯设计数据，解决参数估计偏差问题；第三，提出面向个体风险预测稳定性的样本量计算新方法，通过Fisher信息矩阵分解实现预测不确定性的量化，并开发跨平台软件工具pmstabilityss支持方法落地；第四，利用个体参与者数据（IPD）荟萃分析与目标试验模拟（target trial emulation），在常规医疗数据中验证长期疾病监测策略的有效性；第五，构建患者与公众参与（PPIE）的方法学框架，明确统计方法研究中纳入公众视角的关键路径。

研究结果如下：

特邀报告

S1 追溯诊断评估方法学的发展历程，指出相较于药物研发的成熟评价体系，实验室检测、影像技术及预测模型的评估方法长期滞后，根源在于监管介入时间晚、检测与健康结局的间接关联特性，并对未来发展方向作出前瞻性预判。

S2 提出价值医疗导向的不确定性量化框架，将传统精度驱动的样本量计算升级为基于信息价值（VoI）的分析范式，引入完美信息期望价值（EVPI）与样本信息期望价值（EVSI）指标，实现研究设计与临床效用的直接关联。

S3-S5 系统阐述统计方法学中患者与公众参与（PPIE）的实施路径，基于莱斯特大学PPI-SMART小组的实践经验，证明公众贡献可有效提升方法学研究的临床相关性与可接受度。

S7 针对医疗人工智能（AI）系统的现实场景评估，强调TRIPOD+AI规范的应用价值，指出真实世界评价需额外关注公平性、可追溯性及临床适用性三大核心维度。

S8 解析体外诊断（IVD）监管科学中的性能评价挑战，揭示欧盟IVDR与英国MDR2002法规下的方法学缺口，提出标准化与创新协同的解决方案。

口头报告

O1 发布QUADAS-3诊断准确性研究偏倚评价工具，在QUADAS-2基础上新增合成问题定义、理想试验设计参照、准确度估计层面评价等功能，将“流程与时间”域替换为“分析”域，提升评价颗粒度。

O2 对英国零售端快速自测诊断产品的证据基础分析显示，53%的产品宣称准确度≥98%，但仅40%能提供制造商临床研究报告，且78%的报告缺乏参与者人口学描述，证实当前自测产品监管透明度严重不足。

O3 系统评价成人人群筛查的证据合成研究发现，85%的国家筛查委员会评估报告存在重复工作，单主题平均伴随4项重叠综述，揭示全球卫生决策中研究浪费现象突出。

O4 开发贝叶斯统计方法处理允许因无效提前终止的诊断研究数据，通过模拟验证证实忽略终止规则会导致参数估计校准失效，提出的 commensurate先验与幂先验方法可实现有效校正。

O7-O9 系列研究提出临床预测模型样本量计算新范式：突破传统基于整体模型性能的计算逻辑，直接以个体预测稳定性为目标，推导连续结局模型的样本量计算公式，并通过pmstabilityss软件实现可视化应用；进一步发现现有样本量推荐值常导致模型稳定性不足，需结合校准斜率可接受概率（PAC）调整样本量。

O10 明确临床预测模型全生命周期中缺失数据处理的一致性规则：部署阶段若要求完整数据输入，则开发与验证阶段需采用完整病例分析或多重插补；若允许缺失数据输入，则需采用与部署一致的插补策略，否则将导致效能估计偏倚。

O12 应用生物标志物工具包（Biomarker Toolkit）评估胰腺癌早期检测标志物的临床转化潜力，识别出人类因素分析与卫生经济学评价是当前研究的主要缺口，指导后续研发方向。

O13 建立基于证据的慢性病监测检测组合制定方法学，在慢性肾脏病、2型糖尿病与高血压的验证中，仅1-2项检测具备充分证据支持常规使用，其余多数检测的获益证据缺失。

O14 比较三种常规数据估算检测测量误差的方法，发现线性混合效应模型与基线配对法在疾病进展场景中表现稳定，而自相关模型因恒定变异假设限制出现收敛问题。

O15-O16 针对时空聚类诊断数据，提出基于随机效应荟萃分析的净获益（Net Benefit）价值评估框架，证实多中心验证中局部最优策略与全局最优策略存在差异，4%的中心可能适用不同于总体推荐的决策方案。

O17 比较分布偏移校正方法，发现倾向评分加权在多数场景下优于直接重校准与贝叶斯更新，可有效缓解源人群与目标人群特征差异导致的模型性能衰减。

O18 应用统计过程控制（SPC）监测临床预测模型的整体校准（calibration-in-the-large），确定4倍标准差的控制限可将误报率控制在1.2%，为模型动态更新提供触发依据。

O19 提出三种聚类校准曲线合并方法，其中混合模型校准法（MIX-C）在模拟与真实数据中均表现最优，可提供新中心的预测区间。

O20 范围综述显示，预测模型网络荟萃分析（NMA）目前以汇总数据为主，仅11.8%采用个体参与者数据，且普遍存在校准指标报告缺失、关键假设验证不足的问题。

O21-O22 针对复合参考标准与专家小组参考标准的偏倚校正，分别提出贝叶斯调整模型与潜类别模型（LCM）解决方案，证实两种方法均可有效降低无金标准场景下的准确度估计偏倚。

O24-O25 提出诊断准确性研究的估计框架（estimand framework），明确定义目标疾病、检测指标、干扰事件及处理策略，填补治疗性试验估计框架在诊断研究中的应用空白。

O26 方法学评价显示，比较准确性研究的统计分析透明度不足，仅15%的研究报告样本量计算依据，且混杂控制方法的应用率低于10%。

O27 发布PROBAST+AI工具，在原PROBAST工具基础上新增人工智能/机器学习模型的适用性评价条目，覆盖公平性、算法偏倚等新兴议题，适用于所有类型的预测模型研究。

O29-O31 系列研究聚焦预测悖论与反事实预测：证实模型更新时的反馈循环会导致风险低估，加入治疗变量无法完全消除偏倚；开发的干预惩罚与交互收缩方法，可有效抑制治疗-协变量交互作用带来的异质性估计夸大问题。

O34 采用混合方法制定囊性纤维化感染管理的诊断目标产品概况（TPP），明确急性加重、病原体快速鉴定与药敏试验的核心性能要求，为诊断开发者提供清晰指引。

O35-O36 分析临床预测模型的监管转化障碍，指出欧洲卫生技术评估（HTA）机构普遍缺乏针对预测模型的专用评价流程，验证适用性、临床结局关联与不确定性处理是当前的三大核心缺口。

海报展示

P1 发布临床预测模型开发前核查清单，涵盖研究设计、临床需求匹配、实施可行性评估三大维度的15项核心条目，从源头减少低质量模型产出。

P3 比较时间-事件结局校准曲线的三种估计方法，证实逆概率删失加权（IPWC）与伪值法在存在与删失相关的遗漏变量时仍可获得无偏校准估计。

P4-P8 针对复发事件预测模型，开发基于事件计数的校准与判别评价方法，在癫痫队列中验证Andersen-Gill与Prentice-Williams-Peterson模型的外部性能。

P9 扩展外部验证样本量计算方法，新增阈值依赖性能指标（灵敏度、特异度、阳性预测值、阴性预测值、F1分数）的精确度计算，配套pmvalsampsize软件实现跨平台应用。

P14 在QRISK3模型基础上整合妊娠相关危险因素，开发产后女性10年心血管疾病风险预测模型，临床效用较原模型提升。

P15 系统评价胎儿生长受限机器学习预测研究，发现仅23%的研究达到样本量要求，且TRIPOD+AI指南的遵循率普遍偏低，存在严重的方法学缺陷。

P16 提出利用癌症分期信息校正临床预测模型中受保护属性相关诊断差异的因果推断方法，为公平性校准提供新路径。

P22 模拟研究显示，多重插补是处理诊断试验索引测试缺失值的最优方法，可显著降低敏感度与特异度的估计偏倚。

P24-P26 针对医疗领域大语言模型（LLM）的可解释性，系统梳理SHAP（SHapley Additive exPlanations）值的正确解读方式，并开发幻觉关联可视化工具，提升模型透明度。

P33 基于44075例肝硬化患者常规数据，重新评估铁蛋白诊断缺铁性贫血的阈值，发现当前通用截断值在该人群中特异性不足。

P40 荟萃分析显示，加拿大颈椎规则（CCR）用于创伤性颈椎骨折筛查的敏感度达99.9%，但特异度仅18.8%，需优化以减少不必要的影像学检查。

P46 建立新生物标志物临床效用决策分析模型，证实其价值不仅取决于自身准确度，还与参考模型的性能、疾病发生率及治疗效应密切相关。

P52 评价显示，185篇预后模型开发研究均未报告患者与公众参与（PPIE），凸显方法学研究与临床需求脱节的问题。

P55 提出序贯样本量计算策略，通过Bootstrap动态监测个体预测稳定性，证实多数场景下需要比固定样本量计算更大的队列规模。

P61 更新BOADICEA乳腺癌与卵巢癌风险预测模型，纳入英国主要族群的特异性风险参数，发现非白人女性的高风险分类比例显著低于白人女性。

P64 外部验证并更新肾脏衰竭风险方程（KFRE），新增糖尿病与种族变量后，校准与区分度均优于NICE指南推荐版本。

P73 厘清可解释人工智能（XAI）方法的本质局限，指出其仅能描述模型运行逻辑，无法提供生物学因果机制的解释，临床应用需谨慎解读。

P78 针对新生儿全基因组测序筛查，提出分阶段证据合成策略，证实同时对数百种疾病开展系统评价在资源与证据层面均不可行，需优先聚焦高外显率致病位点。

P86 伞状评价显示，124种压力性损伤风险预测工具中仅2种开展过外部验证，且多数研究未考虑预测时间与结局发生的时序关系，临床有效性证据严重不足。

P87 启动CLEARED监管科学卓越中心网络，联合学术界、监管机构与产业界，重点解决体外诊断（IVD）上市后监测与人工智能诊断工具的评价规范问题。

P98 开发诊断准确性研究样本量规划R Shiny应用程序，支持单组与比较设计的优效性、非劣效性假设计算，无需编程基础即可完成合规的样本量估算。

讨论与结论部分指出，本次MEMTAB 2025会议全面展示了诊断与预后研究方法学的最新进展，核心共识包括：第一，方法学创新需紧密贴合临床落地需求，从单纯关注模型性能指标转向兼顾公平性、透明度与决策价值；第二，工具类成果（如QUADAS-3、PROBAST+AI、样本量计算软件）的规范化应用是提升研究质量的关键抓手；第三，真实世界数据与常规诊疗体系的融合，为诊断评估提供了新范式，但也带来数据质量、偏倚控制的全新挑战；第四，患者与公众参与、跨学科协作及监管科学的同步发展，是实现研究成果转化的必要支撑。这些进展为《Diagnostic and Prognostic Research》所倡导的“严谨方法推动精准医疗”理念提供了具体实践路径，将有力促进医疗决策工具从研发到临床的高效转化。

热点排行