《AAPS Open》:Drivers of citation impact in leading pharmaceutical sciences journals: a hybrid manual and API-driven bibliometric analysis
编辑推荐:
本文结合手动与API驱动,系统分析了2016-2018年间三本顶尖药学期刊(AAPS Journal, European Journal of Pharmaceutical Sciences, Journal of Pharmaceutical Sciences)中3252篇原创研究的引用情况。研究识别了影响引用的多维度因素,证实了综述文章、开放获取、社交媒体(X)提及、多学科交叉的积极影响,并为未来自动化文献计量研究提供了可扩展的混合方法框架。
本研究旨在探讨在顶尖药学科学期刊中,有哪些因素会驱动文章的引用影响。为此,研究团队采用了一种结合手动与应用程序编程接口(API)驱动的混合文献计量分析方法,对三本代表性期刊在2016至2018年间发表的原創研究文章进行了系统性的识别与评估。
引言背景
引用次数常被用作衡量学术影响力的指标。然而,传统的文献计量方法多依赖于从引文数据库中手动提取数据,存在可扩展性的局限。近年来,人工智能即服务(AIaaS)的兴起,通过提供基于云的预训练模型和算法管道,革新了机器学习的部署方式。API(应用程序编程接口)作为一种正式的交互契约,使得通过简单的HTTP请求将复杂的AI功能集成到各类软件生态系统中成为可能。本研究正是利用这种混合方法,旨在高效、系统地识别影响药学领域科学期刊文章引用的预测因素。
研究方法
本研究是一项横断面文献计量分析,纳入了2016年至2018年间在三本成熟的药学期刊——《药物科学杂志》(JPHSCI,影响因子3.8)、《欧洲药学科学杂志》(EUJPHS,影响因子4.7)和《美国药学科学家协会杂志》(The AAPS Journal,影响因子4.1)——上发表的文章。选择这些期刊是因为它们的主要范围集中于药学科学,被PubMed和Web of Science广泛收录,并且每年发表大量的原创药学研究,为多变量建模提供了足够大且同质化的语料库。
研究最终纳入了3252篇符合标准的原创研究文章。文章元数据通过手动和自动化API管道(NCBI E-utilities、Google Scholar、Altmetric APIs)两种方式提取。因变量为引用次数。预测变量则涵盖了发表年份、期刊、研究主题、设计、通讯作者地理区域、开放获取状态、给药途径、制剂类型、治疗领域、社交媒体提及(X和Facebook)、涉及的学科数量、机构数量和参考文献数量等多个维度。
为了提升数据收集的准确性、可扩展性和可重复性,研究团队开发了一个使用Python和公开API的自动化管道。通过NCBI的Entrez Programming Utilities(E-utilities)API检索PubMed索引文章的元数据,同时使用Google Scholar交叉验证引用计数,并使用Altmetric API提取社交媒体指标。这种混合验证策略在保持自动化效率优势的同时,提高了数据的一致性并减少了人为转录错误。
在统计分析中,将原始的引用计数变量二分为“高引用”(引用数达到或高于中位数)和“低引用”(引用数低于中位数)。研究使用多变量逻辑回归(α=0.05)来识别高于中位数引用的独立预测因子。
研究结果
所有文章的中位引用次数为23次(范围0-976)。在多变量模型中,识别出多个与高引用状态显著相关的独立预测因子:
- •
发表年份:与2016年的文章相比,2017年(OR 0.784)和2018年(OR 0.581)发表的文章获得高引用的几率更低,这反映了引文积累需要时间窗口。
- •
研究设计:与基础科学研究相比,综述文章获得高引用的几率超过三倍(OR 3.385),而建模与模拟研究获得高引用的几率则较低(OR 0.754)。
- •
研究主题:与体外研究相比,基于动物的研究获得高引用的可能性更低(OR 0.611)。
- •
地理区域:与来自欧洲的文章相比,通讯作者来自非洲(OR 2.165)和中东地区(OR 1.936)的文章更有可能获得高引用。
- •
开放获取状态:开放获取文章更有可能获得高引用(OR 1.240)。
- •
给药途径:与口服给药的文章相比,未指定给药途径(OR 0.803)和关于注射给药(OR 0.689)的文章获得高引用的可能性较低。
- •
制剂类型:与描述固体制剂的文章相比,描述胶体系统(微球/水凝胶)的文章更有可能获得高引用(OR 1.598)。
- •
治疗领域:与没有特定疾病类别的文章相比,传染病研究获得高引用的可能性较低(OR 0.622)。
- •
社交媒体:在X(前身为Twitter)上被提及超过两次的文章更有可能获得高引用(OR 1.572),而Facebook提及则未显示出显著关联。
- •
学科与参考文献:每增加一个学科,文章获得高引用的几率增加20%(OR 1.205);每增加一篇参考文献,几率增加2%(OR 1.020)。
- •
合作机构:相反,每增加一个合作机构,文章获得高引用的几率降低10%(OR 0.896)。
研究还发现,尽管三本期刊的影响因子有所不同,但在多变量模型中,期刊本身与高引用状态并无显著关联,这可能是因为这些期刊的研究概况总体相似。此外,资金来源在本研究中并未显示出与引用影响的统计学显著关联。
讨论与结论
这项文献计量分析识别了影响药学领域文章引用频率的多个因素。研究证实了“开放获取引用优势”的存在,即免费在线访问的文章更有可能被下载、阅读和引用。社交媒体,特别是X上的提及,与更高的引用率相关,这提示研究者和期刊可以利用此类平台来提高研究的可见度。
研究发现,跨学科研究和更全面的文献覆盖(参考文献数量多)对提升引用有积极影响。然而,合作机构数量增加反而与引用几率轻微下降相关,这可能与大型团队协作中存在的协调挑战有关。
在具体研究内容上,综述文章、涉及口服给药途径的研究以及关于胶体系统(如微球和水凝胶)等先进制剂技术的研究更受关注,引用率更高。而传染病领域的研究,尽管重要,但其引用分布可能更为集中,导致中位数引用几率相对较低。
本研究采用的混合手动/API提取管道不仅保证了分析的准确性和可重复性,而且可以轻松适配于其他生物医学和药学领域,为研究者提供了一种可扩展的解决方案,以自动化大规模文献计量研究,从而节约时间和资源。
优势与局限
本研究的优势包括:来自三本代表性药学期刊的3252篇原创研究文章的大样本、使用了经过严格验证的混合手动/API驱动管道以确保数据提取的准确性和可扩展性,以及通过多变量分析得出调整后的预测因子估计值。然而,研究也存在局限性:仅聚焦于三本期刊在2016-2018年间的文章,结论可能无法完全推广到其他出版物或时期;依赖Google Scholar获取引用次数可能受其索引覆盖范围变化的影响。
未来方向
未来的工作应将此API驱动框架应用于更广泛的期刊(如《分子药学》、《国际药学杂志》)和更长的发表时间窗口,同时整合更多替代计量指标(如Mendeley、新闻媒体、政策引用),并利用自然语言处理技术评估引用语境。构建实时的文献计量仪表盘和探索连续的引用模型,将进一步提升跟踪、预测和优化健康科学领域学术影响力的能力。