《Clinical Cancer Bulletin》:Global research status and trends in the AI-driven anticancer drug design: a bibliometric analysis of 2011–2025
编辑推荐:
针对肿瘤负担加剧与传统计算机辅助药物设计(CADD)效率瓶颈,研究者系统检索Web of Science核心合集(2011–2025),采用Excel 2025、CiteSpace、VOSviewer及R语言完成涵盖15554篇文献的计量分析,揭示中国以41.9%发文量居首、欧美主导高被引网络,提出多组学整合、临床导向创新等转化路径,为AI赋能抗肿瘤新药研发提供战略地图。
癌症作为全球主要致死病因之一,2022年新发病例约2000万、死亡970万,预计2050年新发病例将达3500万——这场人类与肿瘤的漫长博弈,正面临“耐药性难破、罕见癌种缺药、研发周期过长”的核心痛点。传统计算机辅助药物设计(CADD)虽为抗癌药发现提供了基础工具,但随着深度学习在ImageNet竞赛中的突破,以Exscientia、Atomwise为代表的AI制药企业崛起,以及赛诺菲“All in AI”等产业布局的推进,人工智能驱动药物设计(AIDD)彻底改变了抗癌药物研发的逻辑:从依赖经验的试错模式转向数据驱动的精准预测。然而,这一新兴领域的全球研究版图究竟如何?哪些国家、机构引领创新?热点靶点和方向有何演变?临床转化面临哪些“卡脖子”难题?为解答这些问题,研究者对2011–2025年间AI驱动抗癌药物设计的文献展开系统性文献计量分析,绘制该领域的科研图谱与未来路径。
研究团队聚焦Web of Science核心合集(WoSCC),构建兼顾AI技术(“人工智障”“机器学习”“深度学习”“生成式AI/大语言模型如GPT、BioGPT”)、肿瘤类型(“肿瘤”“癌”“黑色素瘤”“胶质母细胞瘤”)及药物研发(“抑制剂”“抗体”“疫苗”“递送系统”)的三维检索策略,经去重及兽医、非AI、非抗癌药相关研究筛选后,最终纳入15554篇文献(原始研究12906篇/综述2648篇)。
关键技术方法方面,研究依托多工具协同:Excel 2025处理统计描述;CiteSpace 6.4.1分析文献、期刊、作者及关键词共现;VOSviewer 1.6.20构建国家/机构/作者合作网络;Bibliometrix R包计算指标;遵循GLOBAL报告规范,并通过Mann–Whitney U检验比较发达国家与发展中国家引用差异。
年度发文与引用趋势:从缓慢起步到爆发增长
2018年起年发文量稳步上升,2023年后呈指数级激增,年均增长率达48.22%,平均每篇文献被引65.94次——这一拐点与IBM Watson临床匹配成功、AlphaFold蛋白结构预测突破等技术里程碑高度同步,标志AI驱动抗癌药研发进入加速期。
国家/地区与机构贡献:中国领跑数量,欧美主导影响力
中国以6514篇(41.9%)居发文总量之首,美国(2802篇)、印度(812篇)、韩国分列其后,2022年中国年发文量首超美国。但中国国际合著比例仅12.9%(英国达55.9%),发达国家平均被引显著高于发展中国家(P<0.001)——哈佛大学、中国科学院、加州大学系统为机构前三,罗氏、辉瑞等跨国药企深度参与,形成以中美为中心的双核合作网络。
学者与期刊格局:产业界驱动创新,跨学科融合成主流
Alex Zhavoronkov(55篇)为最高产作者,Michael Patrick Menden为最高被引学者;高产作者半数为Insilico Med Inc.成员,体现产业界主导力。《Scientific Reports》《Frontiers in Immunology》《Cancers》为发文主力,《Nature》《Nucleic Acids Research》《Nature Communications》位列被引前三,凸显“生物化学与分子生物学+交叉科学+肿瘤学”的融合属性。
研究焦点演进:从传统靶点到免疫联合,从算法迭代到临床落地
关键词分析显示,“人工智能”“免疫治疗”“乳腺癌”为核心高频词,早期聚焦支持向量机(SVM)+特定药物(如他莫昔芬),中期转向随机森林/人工神经网络优化分子建模,后期“大数据”“卷积神经网络”兴起,降低应用门槛。四大高发癌种重点各异:乳腺癌主攻人表皮生长因子受体2(HER2)、雌激素受体(ER)、细胞周期蛋白依赖性激酶4/6(CDK4/6);非小细胞肺癌(NSCLC)深耕表皮生长因子受体-酪氨酸激酶抑制剂(EGFR-TKIs)、免疫检查点;前列腺癌聚焦雄激素受体(AR);肝细胞癌(HCC)探索免疫检查点抑制剂(ICIs)+经动脉化疗栓塞(TACE)辅助方案。同时,AI优化候选药(如CV8102、PRT3789)逐步进入临床试验,但整体仍处技术探索阶段。
挑战与未来:破解“黑箱”难题,构建多尺度数据生态
研究的深层反思指向三大瓶颈:一是肿瘤异质性(如胶质母细胞瘤的血脑屏障、干细胞亚群)、表型可塑性(如肺腺癌向小细胞肺癌转化)导致模型泛化难;二是“论文驱动”偏向算法创新,临床转化率低(仅5%上市概率),因AI模型多依赖静态数据,忽视肿瘤微环境动态演化;三是数据碎片化(公共库批效应、商业数据壁垒)、隐私合规限制模型鲁棒性。
对此,研究者提出破局路径:整合单细胞测序、空间转录组等多组学数据,构建疾病专属队列;开发可解释AI(XAI),厘清结构-活性关系与生物机制;推动联邦学习框架实现跨机构安全协作;强化湿实验验证(CRISPR筛选、类器官芯片),衔接干湿闭环;拓展不可成药靶点(如RNA靶向、固有无序区域)与代谢-免疫联合策略(如靶向瓦博格效应(Warburg effect)乳酰化修饰+ICIs)。
结论
AI驱动抗癌药物设计正处于“量增向质变”的关键转折:中国领跑规模,欧美主导影响,产业界深度参与。未来需从算法竞赛转向临床需求导向,通过多组学整合、标准化数据生态、可解释AI与湿实验迭代,打破“数据孤岛”与转化壁垒,真正实现从“预测分子”到“治愈患者”的跨越。本研究成果发表于《Clinical Cancer Bulletin》,为全球学界与工业界提供了该领域的首份全景路线图。