
-
生物通官微
陪你抓住生命科技
跳动的脉搏
临床预测模型研究和临床实践中存在数据不可靠以及数据来源不佳的证据
《BMC Medicine》:Evidence of unreliable data and poor data provenance in clinical prediction model research and clinical practice
【字体: 大 中 小 】 时间:2026年06月06日 来源:BMC Medicine 8.3
编辑推荐:
摘要背景临床预测模型通常是基于大规模、常规收集的数据集创建的。确保预测模型使用适当的数据和方法进行开发,并以透明的方式报告结果,这一点至关重要,这样才能保证决策基于可靠的预测。Kaggle是一个受欢迎的竞赛和数据存储网站,用户可以在其中学习和应用各种数据集上的分析技能。方法我们找
临床预测模型通常是基于大规模、常规收集的数据集创建的。确保预测模型使用适当的数据和方法进行开发,并以透明的方式报告结果,这一点至关重要,这样才能保证决策基于可靠的预测。Kaggle是一个受欢迎的竞赛和数据存储网站,用户可以在其中学习和应用各种数据集上的分析技能。
我们找到了两个大型、公开可用的Kaggle数据集,分别关于中风和糖尿病,这些数据集缺乏明确的数据来源信息,但被广泛用于同行评审出版物中的临床预测模型。我们使用TRIPOD+AI声明清单中的九个项目对数据的质量和信息报告进行了探索性分析。
通过使用TRIPOD+AI清单中的九个项目对数据来源进行评估,发现存在重大缺陷:两个数据集都几乎没有提供关于数据收集时间、地点、原因或方法的详细信息。这两个数据集的真实性无法得到验证,也没有可靠的来源证明,因此不应用于指导研究或实践。从这两个数据集中,我们找到了125项临床预测模型研究。其中有三个模型在临床实践中得到了应用,一个模型被引用在医疗器械专利中,这些模型还被86篇综述文章引用。
我们建议期刊和数据存储平台强制要求报告数据来源,以保护已发表的研究成果。仅基于不真实或不可靠数据集的预测模型绝不应直接用于指导患者护理的决策。
临床预测模型通常是基于大规模、常规收集的数据集创建的。确保预测模型使用适当的数据和方法进行开发,并以透明的方式报告结果,这一点至关重要,这样才能保证决策基于可靠的预测。Kaggle是一个受欢迎的竞赛和数据存储网站,用户可以在其中学习和应用各种数据集上的分析技能。
我们找到了两个大型、公开可用的Kaggle数据集,分别关于中风和糖尿病,这些数据集缺乏明确的数据来源信息,但被广泛用于同行评审出版物中的临床预测模型。我们使用TRIPOD+AI声明清单中的九个项目对数据的质量和信息报告进行了探索性分析。
通过使用TRIPOD+AI清单中的九个项目对数据来源进行评估,发现存在重大缺陷:两个数据集都几乎没有提供关于数据收集时间、地点、原因或方法的详细信息。这两个数据集的真实性无法得到验证,也没有可靠的来源证明,因此不应用于指导研究或实践。从这两个数据集中,我们找到了125项临床预测模型研究。其中有三个模型在临床实践中得到了应用,一个模型被引用在医疗器械专利中,这些模型还被86篇综述文章引用。
我们建议期刊和数据存储平台强制要求报告数据来源,以保护已发表的研究成果。仅基于不真实或不可靠数据集的预测模型绝不应直接用于指导患者护理的决策。