《Journal of Integrative Plant Biology》:AlkaPlorer: A database-driven explorer for natural alkaloids and derivatives
编辑推荐:
本综述系统介绍首个专业生物碱数据库AlkaPlorer,整合超13万种生物碱(alkaloids)的化学结构、生物来源与活性数据,建立基于生物合成-结构特征的标准化分类体系。通过化学信息学分析揭示五/六元氮杂环(如吡咯烷、哌啶)为优势骨架,证实生物碱类在口服生物利用度(RO5规则)和靶向多样性方面的药物潜力,为AI驱动的天然产物研发提供核心资源。
数据库构建与数据内容
AlkaPlorer通过整合DNP、COCONUT等公共数据库及2019-2024年最新文献,建成包含136,881个非冗余生物碱分子的专业库,涵盖12,250个物种来源和6,583个生物靶标。采用生物合成-结构三级分类体系(真生物碱/原生物碱/伪生物碱→氨基酸前体→核心骨架),系统标注33,459个独特支架。数据统计显示植物界(Viridiplantae)贡献44.5%的生物碱,其中夹竹桃科(Apocynaceae)、豆科(Fabaceae)为优势来源;微生物来源中曲霉菌科(Aspergillaceae)和链霉菌科(Streptomycetaceae)表现突出。
结构特征与氮原子分布规律
氮原子分布模式分析揭示34,028个生物碱的氮原子位于环状结构,20,590个位于链状结构,呈现单氮原子架构的进化偏好性。化学环境分析表明三级胺(64,665个)和酰胺基(55,113个)为最常见氮存在形式,且碳氮独占连接模式占比最高。骨架丰度统计中吡咯烷类(>2.5万)和哌啶类(>2.5万)位居前列,其对应的五元/六元饱和氮杂环已成为FDA批准药物(如哌啶骨架72种药物)的优势结构。
生物合成来源与系统发育关联
真生物碱在植物来源中占比超50%,其前体以鸟氨酸(ornithine)、赖氨酸(lysine)、色氨酸(tryptophan)为主导。吡咯烷生物碱在陆生植物中呈跨谱系分布,而胍类生物碱在细菌来源中占比超50%。异喹啉生物碱集中分布于毛茛目(Ranunculales)等基部被子植物,咪唑类则富集于海洋无脊椎动物。这种分类群特异性分布为理解生物碱的生态功能进化提供了化学系统学证据。
药物相似性与活性谱分析
与萜类(terpenoids)相比,生物碱类更符合Lipinski五规则(RO5),分子量(MW)、脂水分配系数(LogP)等参数与已批准药物高度重叠。活性数据显示17,205个生物碱具有明确药理作用,抗癌(如A549、MCF7细胞系模型)和抗感染(如金黄色葡萄球菌、疟原虫靶标)为两大主导方向。乙酰胆碱酯酶(925个相互作用)和细胞色素P450家族(3,254个记录)为最频繁作用靶点。
智能平台功能与应用场景
AlkaPlorer平台(
https://alkaplorer.qmclab.com/)支持基于SMILES的精确/子结构/相似性搜索,集成大型语言模型(LLM)的智能文献检索功能。以黄连素(berberine)为例,平台可联动展示其百种来源植物(小檗科、罂粟科等)、数百条活性记录(乙酰胆碱酯酶抑制、SARS-CoV-2抗病毒等)及衍生物合成路径,实现多维度数据溯源。
研究趋势与化学空间可视化
文献计量学分析显示2009年为生物碱发现峰值期,中国机构贡献最多研究成果(32.74%为跨国合作)。t-SNE降维可视化表明真/原/伪生物碱化学空间界限清晰,活性化合物呈非均匀分布但存在结构偏好性。当前研究热点聚焦于耐药机制(如P-糖蛋白外排)、骨架进化等16个主题集群。
未来展望
尽管当前分类仍依赖文献报道的通用规则,未来将通过整合代谢网络数据完善精准生物合成路径注释。该数据库为解析生物碱的化学多样性、生态功能及药物开发提供了不可替代的基础设施,有望推动AI在天然产物研究中的范式革新。