利用机器学习对Caco-2细胞中的Papp、TEER和Efflux Ratio进行基于分子描述符的QSPR（定量结构-性质关系）建模，研究对象包括多种植物化学物质

《Journal of the Science of Food and Agriculture》：Molecular descriptor driven QSPR modeling of Papp, TEER and Efflux Ratio from Caco-2 cells using machine learning for various phytochemicals

【字体：大中小】 时间：2026年05月11日 来源：Journal of the Science of Food and Agriculture 3.5

编辑推荐：

　　**摘要** **背景** 本研究旨在基于83种植物化学物质的分子描述符（n = 5003），开发并验证定量结构-性质关系（QSPR）模型，以预测与生物利用度相关的渗透性指标，包括表观渗透性（Papp）、跨上皮电阻（TEER）和外排比率（ER）。采用了一种结合特征选择和10

　　**摘要**

**背景**
本研究旨在基于83种植物化学物质的分子描述符（n = 5003），开发并验证定量结构-性质关系（QSPR）模型，以预测与生物利用度相关的渗透性指标，包括表观渗透性（Papp）、跨上皮电阻（TEER）和外排比率（ER）。采用了一种结合特征选择和10种回归算法的严格工作流程来评估预测性能。

**结果**
皮尔逊相关系数分析显示这三个指标之间存在显著关系。在模型中，一个堆叠集成模型（包括CatBoost、LightGBM和Gradient Boosting作为基础学习器，线性回归作为元模型）在预测Papp和ER方面具有较高的准确率，而在预测TEER方面表现中等但变化较大。基于Shapley Additive Explanations（SHAP）的特征重要性分析揭示了与电子结构、拓扑结构和分支相关的关键分子描述符。

**结论**
这些结果表明，可解释性工具在构建用于各种植物化学物质生物利用度预测的稳健且可解释的QSPR模型中的实用性。? 2026 作者。本文由The Journal of the Science of Food and Agriculture出版，该期刊由John Wiley & Sons Ltd代表化学工业协会发行。

**引言**
植物化学物质作为植物来源的次级代谢产物，由于其多样的生物效应（包括抗癌和抗菌特性），是功能性食品和药品中的关键成分。1-6 这些植物化学物质的分类包括类胡萝卜素、多酚（包括酚酸和木脂素）、黄酮类、生物碱和人参皂苷。6-8 由于其治疗特性，膳食中的植物化学物质已被证明可以降低癌症风险并减少慢性病发病率，流行病学研究支持其在化学预防中的作用。5, 9-12 例如，特定的化合物如Moringa oleifera的硫代 Carbamate苷和人参提取物对肿瘤、高血压和多种人类癌症表现出显著的临床和预防效果。7, 8, 13-17
理解植物化学物质的生物利用度对于最大化其治疗效果至关重要，因为分子结构与食品基质的相互作用显著影响吸收。18 生物利用度通常使用Lipinski的五规则进行评估，该规则预测特定的结构限制（如氢键供体/受体、分子量和CLogP）会降低吸收或渗透性。19, 20 此外，结构差异和细胞膜相互作用决定了细胞摄取，这是生物活性的关键机制。21-23 考虑到吸收（A）、分布（D）、代谢（M）和排泄（E）的全面过程对于药物开发至关重要。24 最终，由于生物利用度决定了生物活性化合物进入系统循环的程度和速度，它在确定其总体治疗效果方面起着关键作用。20, 25
以往的研究使用了体外模型（如Caco-2细胞系统）来表征植物化学物质的肠道代谢，特别是它们的肠道渗透性、转运和膜吸收，并利用这些模型来预测生物活性化合物的生物利用度。26-28 基于此，Caco-2细胞模型因其能够提供关于生物活性化合物肠道吸收以及植物化学物质渗透性和生物利用度的关键见解而得到广泛认可，这是开发新药和功能性健康成分的基本步骤。26, 29 尽管Caco-2细胞模型对药物发现和功能性成分研究有重要贡献，但它也存在一些局限性。30-33 其主要缺点是维护成本高且资源消耗大，特别是需要21天的分化期才能实现细胞的完全成熟。30-32 使用该模型进行渗透性研究需要高级分析技术，如液相色谱-质谱或HPLC，进一步增加了财务和技术要求。33
最近的研究应用了定量结构-性质关系（QSPR）模型来提高使用Caco-2细胞分析生化性质（如生物利用度）的效率。34, 35 QSPR模型是一种基于机器学习的方法，它将实验得出的生物利用度指标（表观渗透性Papp、跨上皮电阻TEER和外排比率ER）与植物化学物质的结构、物理和化学性质相关联，以预测它们的生物利用度。25, 34, 36, 37 尽管大多数以往的研究仅专注于开发Papp的预测模型，但它们经常忽略了其他关键的生物利用度参数，如反映细胞完整性的TEER和确定化合物主要是被吸收还是被排出的ER。35, 37
为了解决这一差距，本研究旨在开发能够基于83种植物化学物质的分子描述符准确预测关键渗透性指标Papp、TEER和ER的可解释机器学习模型。我们还旨在建立一个稳健的QSPR框架，通过整合特征选择、回归算法和集成建模，实现早期识别具有有利肠道吸收特性的植物化学物质。

**材料与方法**
**化学品和试剂**
(-)-cytisine、(-)-dihydroquinine、(+)-nootkatone、(+)-taxifolin、(E)-3-(4-chlorophenyl)acrylic acid、(E)-cinnamyl alcohol、20(R)-ginsenoside Rg2、20(R)-ginsenoside Rh1、20(S)-ginsenoside Rg3、20-O-glucoginsenoside Rf、3-(3,4-dihydroxyphenyl)-l-alanine、3,5-dimethoxy-4-hydroxycinnamic acid、aegeline、bacitracin、boldine、carminic acid（天然染料）、cefaranthine、cholecalciferol、colchicine、compound K、cycloheximide、ergosterol、galantamine hydrobromide、ginsenoside F1、ginsenoside F2、ginsenoside F3、ginsenoside F5、ginsenoside Rb1、ginsenoside Rb2、ginsenoside Rb3、ginsenoside Rc、ginsenoside Re、ginsenoside Rf、ginsenoside Rg1、ginsenoside Rg2、ginsenoside Rg4、ginsenoside Rg5、ginsenoside Rh1、ginsenoside Rk3、gypenoside L、gypenoside XLIX、harmol、indican、jatrorrhizine chloride、lanatoside C、LDN-22684、l-tetrahydropalmatine、lycorine、mangiferin、notoginsenoside Ft1、notoginsenoside R1、notoginsenoside R2、oleuropein、oridonine、paeoniflorin、phenazine methosulfate、piperine、piperlongumine、protopanaxatriol、reserpine、raponticin、rosmarinic acid、rutaecarpine、santonin、scopolamine hydrobromide trihydrate、sinigrin、swertiamarin、tabersonine、tanshinone IIA、tetrahydropalmatine、tetrandrine、trans-cinnamic acid、trans-m-coumaric acid、trans-p-coumaric acid、triamcinolone、trigonelline hydrochloride、trioxsalen、vina-ginsenoside R4、vincamine、wogonin、wogonoside、xanthotoxin和yohimbine hydrochloride等化学品和试剂均从TCI Chemical（东京，Tapan）获取。

**生物利用度指标的获取**
83种多酚的渗透性数据来自我们团队先前使用分化的Caco-2单层细胞进行的体外实验。渗透性实验在播种后21天开始，以确认Caco-2单层的完全分化，这些细胞是根据初始跨上皮电阻（TEER）值超过300 Ω cm–2来选择的，以确保上皮细胞屏障的完整性。TEER测量使用Millicell ERS-2系统（Millipore，Bedford，MA，USA）进行。为了评估双向渗透性，将稀释的标准多酚溶液（100 μg mL–1）加入顶端（AP，500 μL）或基底（BL，1500 μL）室中。孵育2小时后，从两侧各收集500 μL的转运介质，储存于4°C下，然后通过HPLC进行分析。2小时的孵育时间是根据先前建立的体外消化模型确定的。38-40 在15分钟、45分钟、90分钟和120分钟时记录TEER值，数据以基线（0分钟）的百分比表示：

表观渗透系数（Papp）和外排比率（ER）的计算基于以下公式：
（1）
（2）
其中(dQ/dt)表示多酚向受体侧的转运速率，表示120分钟孵育后每单位时间转运的物质量，Co是供体室中的多酚初始浓度，A是膜表面积（1.12 cm2）。
（3）
ER大于2表明化合物可能经历主动外排。所有实验均重复三次，得到249个样本的数据集，用于开发和验证生物利用度指标的预测模型。

**描述符选择、数据预处理和QSPR模型开发**
描述符选择、模型评估和特征精化的整体逐步工作流程如图1所示。首先，为了预测83种植物化学物质的生物利用度指标（Papp、TEER和ER），从PubChem检索的异构SMILES（即简化的分子输入线系统）生成分子描述符。使用PaDEL-Descriptor41和alvaDesc42进行描述符计算，获得一组全面的结构和物理化学变量。其次，为了降低维度并保留有意义的预测因子，基于皮尔逊相关分析（P < 0.001）选择与每个指标有统计学显著相关性的描述符。使用sklearn库的StandardScaler43（Python，版本3.11.5；https://www.python.org）对描述符值进行标准化，仅将校准器应用于训练数据以防止数据泄漏。第三，评估了10种机器学习模型，包括CatBoost44、随机森林、XGBoost (XGB)45、LightGBM (LGBM)46、梯度提升、线性回归、贝叶斯岭回归、装袋法和带有线性及RBF核的支持向量机（SVM）。模型训练和验证使用重复K折交叉验证（n_splits = 5，n_repeats = 6）进行，以确保稳健性。选择在测试集上获得最高R2值的模型进行进一步优化。最后，应用递归特征消除与交叉验证（RFECV）来识别最相关的描述符。最终模型性能使用归一化均方根误差（NRMSE）和R2在训练集和测试集上进行评估。

**回归和分类的特征选择及模型评估工作流程**
基于皮尔逊相关系数（PCC）分析的结果，其中显示Papp、TEER和ER之间存在显著相关性，构建了一个多输出堆叠集成模型以利用这些相互依赖性提高预测性能。最初使用RFECV为每个目标变量选择了三个不同的特征集。随后将这些特征集合并，创建了一个统一的输入空间（联合特征集），作为三个独立基础回归模型（CatBoost、LGBM和梯度提升）的共享输入。每个基础模型都被训练同时预测Papp、TEER和ER。基础模型的预测结果（3个输出×3个模型）被合并成一个大小为N × 9的堆叠特征矩阵。然后将堆叠预测结果传递给一个元学习器，该元学习器实现为一个多输出线性回归模型（多输出回归器）。这个元模型结合了基础模型的输出，生成三个生物利用度指标的最终预测。模型训练和验证使用5折交叉验证进行，重复6次（n_splits = 5，n_repeats = 6，random_state = 42）。性能基于NRMSE和R2进行评估。

**统计分析**
所有数据以三次实验的平均值±标准差表示。使用Prism（GraphPad Software Inc.，San Diego，CA，USA）进行单因素方差分析，测量样本之间的统计显著差异。P < 0.05被认为是统计显著的，事后Tukey测试的置信度水平确定为95%。使用Shapiro–Wilk测试（P > 0.05）评估数据的正态性。随后，使用R（版本4.3.2，R Foundation，Vienna，奥地利）进行统计分析。同时，应用了RFECV来优化特征集，最终确定了58个Papp的关键描述符、70个TEER的描述符和8个ER的描述符，分别与CatBoost、LGBM和梯度提升方法的R2值分别为0.9577、0.7706和0.9307（见图1）。这种方法通过提高特征选择的效率增强了渗透性模型的预测性能，有助于更可靠的生物利用度评估。表1展示了10种回归模型的性能评估：这些指标基于训练集和测试集上的交叉验证得出，还包括了超参数。

表1. 10种回归模型性能评估：包括来自训练集和测试集的交叉验证的性能指标以及超参数。

模型 Papp TEER
NRMSETrain R2Train NRMSETest R2Test NRMSETrain R2Test
CatBoost 0.0166 ± 0.0022 0.9870 ± 0.0027 0.0330 ± 0.0214 0.9367 ± 0.0696 0.0442 ± 0.0059 0.8700 ± 0.0320 0.0651 ± 0.0204 0.6370 ± 0.3257
随机森林 0.0222 ± 0.0020 0.9768 ± 0.0042 0.0440 ± 0.0203 0.8884 ± 0.0989 0.0447 ± 0.0054 0.8673 ± 0.0299 0.0654 ± 0.0170 0.6539 ± 0.2444
XGBoost 0.1463 ± 0.0085 ?0.0000 ± 0.0000 0.1435 ± 0.0319 ?0.0299 ± 0.0736 0.0426 ± 0.0061 0.8789 ± 0.0311 0.0660 ± 0.0215 0.6248 ± 0.3447
LGBM 0.0244 ± 0.0023 0.9716 ± 0.0069 0.0375 ± 0.0220 0.9225 ± 0.0669 0.0472 ± 0.0040 0.8536 ± 0.0270 0.0657 ± 0.0149 0.6797 ± 0.1422
贝叶斯岭回归 0.0156 ± 0.0021 0.9886 ± 0.0023 0.0390 ± 0.0329 0.8907 ± 0.1884 0.0628 ± 0.0068 0.7384 ± 0.0585 0.0835 ± 0.0154 0.4336 ± 0.3429
Bagging 0.0221 ± 0.0020 0.9770 ± 0.0042 0.0439 ± 0.0203 0.8889 ± 0.1007 0.0447 ± 0.0054 0.8675 ± 0.0300 0.0655 ± 0.0171 0.6517 ± 0.2490
梯度提升 0.0155 ± 0.0021 0.9886 ± 0.0023 0.0328 ± 0.0202 0.9237 ± 0.1354 0.0432 ± 0.0061 0.8758 ± 0.0315 0.0654 ± 0.0211 0.6285 ± 0.339
线性回归 0.0155 ± 0.0022 0.9887 ± 0.0025 3.0269 × 10^9 ?2.092 × 10^21 0.0431 ± 0.0063 0.8763 ± 0.0325 2.6057 × 10^10 ?1.9292 × 10^23
SVM（线性） 0.3829 ± 0.0389 ?5.8764 ± 1.0350 0.3844 ± 0.0359 ?8.5074 ± 7.5912 0.0799 ± 0.0062 0.5836 ± 0.0489 0.0905 ± 0.0195 0.4076 ± 0.1591
SVM（RBF） 0.3829 ± 0.0389 ?5.8764 ± 1.0350 0.3844 ± 0.0359 ?8.5074 ± 7.5912 0.1216 ± 0.0070 0.0399 ± 0.0110 0.1193 ± 0.0291 0.0215 ± 0.0371
ER 0.0347 ± 0.0017 0.9808 ± 0.0022 0.0629 ± 0.0137 0.9273 ± 0.0401 迭代次数 = 100, 学习率 = 0.1, 深度 = 6, 随机种子 = 42
随机森林 0.0430 ± 0.0028 0.9703 ± 0.0055 0.0786 ± 0.0181 0.8928 ± 0.0416 estimators数量 = 100, 随机状态 = 42
XGBoost 0.0334 ± 0.0017 0.9822 ± 0.0019 0.0624 ± 0.0141 0.9268 ± 0.0444 随机状态 = 42
LGBM 0.0394 ± 0.0028 0.9750 ± 0.0049 0.0741 ± 0.0252 0.8976 ± 0.0817 随机状态 = 42
贝叶斯岭回归 0.0346 ± 0.0019 0.9809 ± 0.0022 0.0928 ± 0.0537 0.8025 ± 0.2681 -
Bagging 0.0432 ± 0.0029 0.9700 ± 0.0057 0.0787 ± 0.0188 0.8921 ± 0.0435 estimators数量 = 100, 随机状态 = 42
梯度提升 0.0335 ± 0.0017 0.9820 ± 0.0019 0.0613 ± 0.0129 0.9306 ± 0.0379 estimators数量 = 100, 随机状态 = 42
线性回归 0.0356 ± 0.0061 0.9790 ± 0.0101 1.7542 × 10^10 ?2.0699 × 10^22 -
SVM（线性） 0.0429 ± 0.0016 0.9707 ± 0.0026 0.0918 ± 0.0448 0.8198 ± 0.2099 kernel = ‘linear’
SVM（RBF） 0.0877 ± 0.0052 0.8775 ± 0.0126 0.1143 ± 0.0459 0.7682 ± 0.1501 kernel = ‘rbf’

然而，在ER数据预处理过程中，有些值要么未定义，要么极端，使得它们不适合用于传统的回归建模。由于流出比的定义是Papp (BL → AP) 除以 Papp (AP → BL) 的商 [公式 (3)]，某些数据点导致了未定义或极端的值。具体来说，当Papp (AP → BL) 和 Papp (BL → AP) 都为零时，就会出现未定义的流出比，这导致了数学上的0/0条件。这些情况可能是由于化合物的渗透性极低或溶解度差，导致在两个方向上的传输都可以忽略不计。另一方面，当分母 (Papp (AP → BL)) 为零而分子 (Papp (BL → AP)) 保持非零时，观察到了无限的流出比，这表明了强烈的单向传输或通过膜的选择性传输。因为标准回归模型无法适当地处理这些空值和无穷大值，所以只有恒定的ER值（有限值）被用于基于回归的预测。为了处理这些被排除的不确定ER情况，实施了一种单独的分类策略（见图1）。从原始的5003个分子描述符中，应用了ANOVA F检验（P < 0.001）来选择1815个与流出行为的类别特征显著相关的描述符。ER值被分为三个不同的类别：恒定的、无限的和空的，分别代表有限的、单向的和数学上未定义的流出。使用重复K折交叉验证（5折 × 6次重复）评估了10种机器学习模型（CatBoost、随机森林、XGBoost、LGBM、朴素贝叶斯、Bagging、梯度提升、线性回归、SVM（线性）和SVM（RBF）的分类性能，评估指标是宏观平均曲线下面积（AUC）（一对所有其他）。在这些模型中，CatBoost表现出最高的分类性能（宏观AUC = 0.8759），并被选中进行进一步使用RFECV优化，RFECV将特征集减少到22个有信息的描述符。为了进一步检查类别间的区分度，使用一对所有其他的方法为每个ER类别生成了接收者操作特征（ROC）曲线（见图2）。空类别（对应于ER未定义的情况（0/0）获得了最高的AUC，为0.9495，其次是恒定类别（AUC = 0.9458）。无限类别，表示强烈的单向流出，显示出相对较低的AUC，为0.7324，反映了其分子特征的更大异质性。这些结果表明，即使没有精确的数值ER值，仍然可以基于结构信息通过分类来预测与流出相关的行为。空类别和恒定类别的高AUC表明与可忽略的或平衡的传输相关的分子模式是一致的，而无限类别的较低性能则暗示了可能涉及多样化的转运体特异性相互作用。这种分类流程使得结构上不典型的化合物也能被包括进来，这些化合物不适合进行基于回归的分析。结合基于有限ER值建立的回归模型，这种双重建模策略增强了整体流出预测框架的稳健性和适用性。

图2 使用一对所有其他的方法生成的多类别ROC曲线，用于流出比类型的分类：空、无限和恒定。集成多输出堆叠模型用于预测生物利用度指标。

使用PCC评估了Papp、TEER和ER之间的相互关系，以评估它们的潜在依赖性（见图3）。发现相关性总体较弱，但具有统计显著性（P < 0.05）。详细来说，Papp与ER之间存在弱负相关（r = ?0.17，P < 0.05），与TEER之间存在正相关（r = 0.27，P < 0.001），而TEER与ER之间也存在负相关（r = ?0.25，P < 0.01）。尽管系数不大，但这些发现表明这三个渗透性指标并非完全独立，可能通过微妙的生物相互作用相互影响。这些关系通过散点图和95%置信椭圆进行了可视化，突出了所有83个植物化学样本中的分布模式。

为了提高渗透性相关指标的预测准确性，我们实现了一个堆叠集成模型，整合了三种基于树的回归器：CatBoost、LGBM和梯度提升（见图4）。每个基础模型都使用一个共同的联合特征集来同时预测三个目标输出：Papp、TEER和ER。每个模型的单独预测（3个模型 × 3个输出 = 每个实例9个值）被组装成一个形状为N × 9的堆叠输出矩阵，作为元学习器的输入。采用多输出线性回归模型作为元模型来整合基础学习器的预测，并产生Papp、TEER和ER的最终集成输出。模型性能使用5折交叉验证进行了六次重复评估（重复K折，n = 5，重复次数 = 6），训练集和测试集的结果在30次迭代中平均。结合了CatBoost、LGBM和梯度提升作为基础学习器以及线性回归作为元学习器的集成堆叠模型，在三个渗透性指标上显示出了不同的预测能力（见表2）。该模型在Papp上的准确率最高（R2Train = 0.9862 ± 0.0030，R2Test = 0.9550 ± 0.0399），训练和测试性能之间的差异很小，表明具有很好的泛化能力，没有过拟合的迹象。同样，对于ER，集成模型也表现出稳健的预测性能（R2Train = 0.9821 ± 0.0021，R2Test = 0.9289 ± 0.0602），有效地捕捉了结构多样的植物化学物质中的流出动态。R2值的紧密对齐表明了强大的泛化能力。相比之下，TEER的模型性能中等（R2Train = 0.8764 ± 0.0365，R2Test = 0.5435 ± 0.4556）。TEER预测的R2值显著下降以及异常大的标准差表明可能存在过拟合或显著的生物学变异性。这些结果可能反映了紧密连接完整性和跨上皮离子梯度的本质上是复杂和动态的，这可能无法仅通过分子描述符来充分表示。此外，在堆叠集成中整合了异构的、任务特定的特征集可能引入了额外的噪声，进一步影响了TEER预测的稳定性。因此，集成模型未能为TEER提供一致的可靠输出，这突显了其在处理生物学上复杂的终点时的局限性。值得注意的是，尽管Papp、TEER和ER的最终特征集不重叠，但堆叠模型是使用由所有选定描述符组成的统一矩阵进行训练的。对于Papp和ER，这种整合保留了相关的预测信息，并没有降低模型性能，这从它们在训练和测试集中一致的较高R2值中得到了证明。相比之下，TEER的预测高度可变且泛化能力较差，这可能是由于其生物学敏感性较大，而结构描述符无法捕获这些因素。鉴于这种不稳定性，没有进一步优化TEER的集成模型。这些发现强调了堆叠集成方法对于Papp和ER等渗透性相关指标的稳健性，以及其在建模由复杂生物学过程支配的终点时的局限性。

图5展示了基于SHAP（即Shapley Additive Explanations）46的特征重要性剖面，用于预测三个渗透性指标：Papp、TEER和ER。这些描述符共同捕捉了分子的电子分布（minaasC和VE3sign_D）、拓扑和分支模式（MDEC-33和maxsssCH）以及特定的物理化学性质，如构象灵活性和功能基团的存在（nRCO和RotBtFrac）。在Papp的预测中，根据SHAP分析，minaasC（碳原子的最低原子类型E状态）被认为是最具影响力的因素（见图5(A)），这表明具有低电子能量的碳原子的存在对分子穿越细胞膜的能力有重要影响。VE3sign_D是一个与拓扑距离矩阵的最后一个特征向量的对数系数之和相关的描述符，在重要性上排名第二。这表明分子内的全局拓扑组织和电子离域对其膜传输能力有显著影响。eta_D_beta，与eta电子特征平衡相关，在重要性上排名第三，强调了电子本描述符突出了分子结构中原子大小分布的重要性，这可能会影响膜流动性和紧密连接行为，进而影响 TEER 值。除了这些排名最高的特征（表 S2）之外，许多其他选定的描述符也与自相关函数（MATS、GATS、ATSC 和 AATSC 系列）相关联，这些函数捕捉了分子框架内的电子、质量和电荷属性的分布。例如，AATS4v 是一种经过范德华体积加权的 Broto-Moreau 自相关函数，反映了原子大小的空间变化如何影响分子堆积和膜相互作用。除了这些基于自相关的描述符外，SsssCH 表示完全取代的碳中心的 E-态之和，强调了高度分支的碳结构通过空间效应对紧密连接的调节作用。此外，与形状相关的指数（如路径/行走指数 PW4 和 PW5）以及基于特征值的特征（SpDiam_B(v)、SpMax_X）反映了分子的紧凑性、对称性和整体空间组织，这些都是上皮屏障功能的关键决定因素。总体而言，这些发现表明 TEER 受分子大小、分支程度、电子分布和结构紧凑性之间复杂相互作用的影响。在 ER 预测模型中，最具影响力的描述符是脂肪酮的数量（nRCO），它捕捉了已知会显著影响膜通透性和流出机制的极性官能团的存在（图 5(C)）。更多的酮基团可能增强流出转运蛋白对化合物的识别或改变被动扩散特性。GATS2v（由范德华体积加权的 Geary 自相关，滞后 2）成为另一个关键特征，展示了原子体积的空间分布如何影响与流出系统的分子相互作用。RotBtFrac 表示可旋转键的比例，表明分子柔韧性通过影响转运蛋白结合时的构象适应性而有助于流出敏感性。除了这些排名最高的描述符外，还有其他几个特征提供了补充见解（见支持信息，表 S2）。MATS5s 和 AATSC6e 是基于自相关的描述符，它们捕捉了电离势和电负性的空间分布。ATSC5e 类似地反映了基于 Sanderson 电负性的电子分布模式。VE1sign_Dz(Z) 通过从原子数加权的邻接矩阵中得出的特征向量来量化分子拓扑结构。LOC（截断中心指数）描述了分子分支程度，这可能通过结构紧凑性和柔韧性影响膜通透性。总之，这些发现表明 ER 预测不仅受特定官能团的控制，还受分子极性、柔韧性、电子拓扑和结构复杂性的复杂相互作用的影响。先前的研究报告称，通透性预测依赖于与亲脂性相关的描述符，如 CLogP、ALogP 和 KLogP。这些描述符估计了化合物在水相和脂相之间的分配行为，这是已知影响被动通透性的因素。然而，这些简化的指标可能无法充分捕捉多种分子的结构和电子复杂性，尤其是具有多个官能团和构象灵活性的植物化学物质。相比之下，本研究采用了更广泛的分子描述符，包括 E-态指数、光谱矩、自相关函数和基于特征值的拓扑参数。这些描述符捕捉了原子电子环境（minaasC 和 VE3sign_D）、分子分支（MDEC-33 和 LOC）和极性分布（GATS2v 和 AATSC4e）等细微特征。SHAP 分析表明，这些因素共同有助于更精确地预测 Papp、TEER 和 ER。与简单的亲脂性估计相比，这种多描述符方法为所有三个通透性指标提供了更深入的机制洞察和稳健的性能。

图 5 开放于图查看器 PowerPoint

基于 SHAP 的特征重要性剖面用于预测通透性指标。可视化的顶级描述符是从最终特征集中选出的，该特征集包含 58 个用于 Papp 的描述符（A）、70 个用于 TEER 的描述符（B）和 8 个用于 ER 的描述符（C）。

**讨论**

开发出可用于预测与通透性相关的生物利用度指标（Papp、TEER 和 ER）的可解释机器学习模型，与传统 QSPR 方法相比取得了显著进展。分别为 Papp、TEER 和 ER 优化的回归模型使用 RFECV，显示出比以往研究报告的更好的预测性能。例如，开发了一个用于 Caco-2 细胞通透性预测的 QSPR 模型，结合了混合量子粒子群优化（HQPSO）和双重 RBF 神经网络，达到了 0.85 的 R2 值。相比之下，本研究中用于 Papp 预测的回归模型达到了 0.9577 的 R2 值，显示出比以往报告的模型明显更好的预测性能。同样，先前为天然产物构建的 QSPR 模型的最佳性能 R2 值约为 0.74。本研究开发的模型超过了这些基准。结合 SHAP 进行特征重要性分析，为影响每个生物利用度指标的分子描述符提供了宝贵的见解。这种可解释性符合 Lundberg 和 Lee 的建议，他们强调了生物医学领域机器学习应用中模型透明度的重要性。通过识别对模型预测有贡献的关键特征，研究人员可以更好地理解潜在的生物学机制，并指导未来的化合物优化工作。此外，本研究专注于天然植物化学物质，扩展了 QSPR 模型的适用范围，解决了以往研究中合成化合物的限制。以往的模型通常依赖于主要由合成分子组成的数据集，限制了它们对天然产物的适用性。通过纳入多种植物化学物质，当前模型在天然产物研究和药物发现中提供了更广泛的效用。总之，分别为每个生物利用度指标（Papp、TEER 和 ER）开发了单独的机器学习模型，并结合了基于 SHAP 的可解释性，建立了稳健且可解释的预测框架。基于 PCC 分析的结果揭示了这三个指标之间的相互关系，我们假设多输出集成方法可以利用这些相关性来提高预测性能。为了测试这一点，通过整合在统一特征集上训练的基础学习器的预测结果构建了一个堆叠集成模型。集成模型对 Papp 和 ER 的预测性能很高，这可能反映了分子特征与控制膜通透性和流出机制之间的相对直接且一致的手性化学关系。相比之下，TEER 的预测性能明显较低且变化较大，表明紧密连接动态和离子调节的生物学复杂性，这些因素被结构描述符部分捕获，限制了集成方法在这个指标上的实用性。这些发现强调了多输出集成建模在生物利用度预测背景下的潜力和局限性。它们进一步强调了针对特定任务的建模策略的必要性，特别是对于像 TEER 这样生物学上复杂的指标。尽管集成模型在 Papp 和 ER 方面取得了成功，但 TEER 预测的高变异性突显了仅依赖 2D 和 3D 分子描述符来模拟生物学上复杂指标的局限性。TEER 深受动态细胞反应的影响，包括紧密连接的调节和膜流动性。未来的建模策略可以从多模态或混合特征方法中显著受益。结合与经验细胞反应相关的特征，例如特定的紧密连接蛋白表达数据或在不同条件下单层完整性的测量，以及先进的计算机模拟指标（例如来自分子对接的特定结合亲和力或膜相互作用属性），可能会捕捉到影响细胞完整性的潜在生物学因素。这种综合方法将有效补充分子描述符方法，从而提高 TEER 预测的稳健性和适用性。因此，为每个指标独立优化的模型不仅具有可靠的预测性能，还通过基于 SHAP 的特征重要性分析增强了可解释性。这些模型相对于以往研究报告的性能优势突显了它们作为早期筛选天然化合物的宝贵工具的实用性。在实际应用中，这种 QSPR 框架可以无缝集成到现有的药物发现工作流程中，作为高通量的第一阶段筛选工具。预测具有最佳通透性特征的植物化学物质（例如高 Papp 和低 ER）可以系统地优先进行有针对性的实验验证。这样的下游验证将包括全面的体内药代动力学分析和先进的肠道模型，以阐明实际的系统吸收和治疗效果。然而，必须认识到这种方法的局限性。尽管开发的 QSPR 模型能够准确预测 Caco-2 细胞通透性，但体外 Caco-2 模型本身无法完全复制人体胃肠道的生理复杂性，缺乏肠道微生物群、黏液层和动态食物基质相互作用等因素。因此，尽管这些计算模型大大缩小了化学空间并减少了初始实验负担，但其预测最终必须与全面的体外和体内研究相结合，以充分确认植物化学物质的系统生物利用度和治疗效果。

**结论**

在本研究中，我们开发并验证了使用来自 83 种植物化学物质的分子描述符来预测与通透性相关的生物利用度指标（Papp、TEER 和 ER）的机器学习模型。分别为每个目标变量独立优化的回归模型显示出了强大的预测性能。基于 SHAP 的解释进一步提供了机制和化学洞察，通过识别对每个预测指标最有影响的分子描述符。这种建模策略不仅提高了 QSPR 模型的准确性和可解释性，还有助于基于吸收潜力对植物化学物质进行早期筛选。

**致谢**

本工作得到了韩国科学技术院（KIST）内部研究基金（自然产物研究数据利用技术开发，26E0261）的支持。数据存储在 KIST 仪表板中。

**利益冲突**

作者声明没有利益冲突。

**数据可用性声明**

支持本研究发现的数据可应相应作者的要求提供。

热点排行