《Small Structures》:Predicting DNA Origami Stability in Physiological Media by Machine Learning
编辑推荐:
本研究采用动态光散射(DLS)结合机器学习(ML),成功构建了一个概念验证框架,用于预测DNA折纸纳米结构在生理介质中的稳定性。通过创建一个涵盖三种形状(rod, icosahedron, rectangle)和五种环境变量(温度、孵育时间、MgCl2浓度、pH、DNase I浓度)的超过1400个测量值的数据集,本研究训练并验证了一个融合高斯过程回归器(GPR)和随机森林(RF)的集成模型,能够准确预测新条件下的扩散系数。该工作建立了一个可扩展的、数据驱动的框架,为合理设计用于生物医学应用的稳健DNA折纸纳米结构提供了指导,同时为社区提供了用于基准测试和扩展的数据集与模型资源。
摘要
DNA折纸纳米结构凭借其高度的可编程性、纳米级精度、生物相容性和选择性靶向细胞与组织的能力,已成为药物递送、基因递送、细胞受体靶向和分子诊断等领域极具前景的平台。然而,其在生理条件下的结构不稳定性是限制其实际应用的主要障碍。传统稳定性评估方法(如基于图像的显微技术)通常耗时且难以在不同条件下推广。针对此挑战,本研究提出了一个概念验证框架,将动态光散射(DLS)作为高通量筛选工具,并与机器学习(ML)相结合,以预测基于扩散系数的稳定性响应。
1 引言
DNA折纸技术在过去十年中迅速发展,但其在生物医学应用中的一个核心挑战在于:如何在生理条件下维持结构稳定性。温度、离子强度、pH变化和核酸酶降解等环境因素都会损害纳米结构的完整性。目前大多数提升稳定性的方法依赖于试错实验,过程繁复且难以系统化。近年来,机器学习(ML)已在分子科学领域展现出从大型实验数据集中捕捉复杂生物物理关系的潜力,为DNA纳米技术中的实验规划和功能纳米结构设计提供了新的助力。
2 结果与讨论
2.1 DNA折纸组装与表征
本研究组装了三种不同尺寸和形状的DNA折纸纳米结构:直径约45纳米的二十面体(icosahedron)、尺寸为75 × 100 × 2纳米的矩形(rectangle),以及直径15纳米、长度150纳米的棒状结构(rod)。通过凝胶电泳(GE)、原子力显微镜(AFM)和动态光散射(DLS)验证了纳米结构的正确组装与纯化。AFM成像显示矩形和棒状结构的尺寸与理论值完全匹配,而二十面体的横向直径(80纳米)与理论值(45纳米)存在差异,这可能归因于AFM针尖成像时的“压扁”效应,这一点通过DLS测量的流体动力学直径得到了佐证。
2.2 DNA折纸稳定性数据集的生成
研究选择DLS作为主要技术来定量评估结构稳定性,将扩散系数作为结构完整性的主要代理指标。在稳定条件下,DNA折纸结构表现出特征性的扩散系数值;结构降解或解离成更小的碎片会导致扩散系数增加,而聚集则会导致颗粒尺寸变大,相应的扩散系数降低。
三种不同的DNA折纸形状被暴露于温度、孵育时间、MgCl2浓度、pH和DNase I活性等关键压力源下,并使用DLS测量每种条件下的扩散系数。结果表明,结构几何形状在决定纳米结构在不同环境条件下的稳健性方面起着关键作用。棒状纳米结构在所有测试条件下都表现出最高的稳定性,这归因于其紧凑的设计。相比之下,矩形结构对不稳定性更为敏感,尤其是在pH变化、孵育时间和DNase I活性方面。二十面体是结构敏感性最高的形状,其稳定性在高温和DNase I暴露下尤其容易受损。
2.3 使用机器学习预测扩散系数
最终数据集包含1417个DNA折纸样本。该数据集用于训练和验证一个ML模型,以预测相应的扩散系数。输入特征包括DNA折纸形状、温度、MgCl2浓度、pH、孵育时间和DNase I浓度,输出为扩散系数。本研究评估了四种成熟的ML模型:随机森林回归器(RF)、极端梯度提升(XGBoost)、支持向量回归器(SVR)和高斯过程回归器(GPR)。其中,GPR采用了两种变体:使用单个核函数的GPR-1k和线性组合两个核函数的GPR-2k。
模型性能使用均方根误差(RMSE)进行评估。在重复的训练-测试分割中,RF、XGBoost和GPR-2k表现出最佳性能(RMSE值范围在0.68至0.81 μm2s-1之间),该值与实验重复测量的误差范围(估计为±0.42 μm2s-1)处于同一数量级,因此被认为对于预测模型是令人满意的。SVR则表现不佳。此外,研究创建了一个共识模型,通过平均RF和GPR-2k的预测输出来结合两者的优势。
2.4 在新实验条件下的前瞻性模型验证
为了进一步评估表现最佳模型在先前未经测试条件下的性能,研究设计了九个位于原始数据集范围边界或之外的新实验。结果显示,GPR-2k和共识模型在预测准确性方面具有明显优势。共识模型在预测数据上取得了最低的RMSE,这表明结合概率性和基于树的方法可以增强稳健性和泛化能力,尤其是在外推条件下。值得注意的是,9个预测中只有3个(样本1、5和9)的预测值超出了实验方差范围,这进一步支持了组合建模策略的可靠性。
2.5 DNA折纸稳定性阈值确定
基于先前的实验发现和观察到的形状特异性系数范围,研究为每种颗粒形状定义了稳定性的上下阈值。具体而言,将每种形状在4°C(对照)样本的扩散系数分布的第一和第三四分位数分别确定为下阈值和上阈值。这些阈值建立了一个定性框架,通过将预测的扩散系数值与特定形状的稳定性范围进行比较,来确定纳米结构的稳定性。在所测试的九个新实验条件中,只有两个导致了显著不同的扩散系数值或稳定性测量结果,这证明了机器学习模型在为这种纳米结构的稳定性提供新见解方面的潜力。
3 结论
本研究证明了使用扩散系数作为评估DNA折纸纳米结构结构稳定性的定量代理指标的可行性。通过凝胶电泳、DLS和AFM的结合使用,在扩散系数的变化与组装和解组装过程相关的结构转变之间建立了强相关性。DLS测量揭示了形状对压力源的特定响应。棒状结构表现出最高的整体稳定性,而所有结构在极端条件下(如温度高于40°C、长时间孵育超过3小时、pH超出6-8范围或DNase I浓度超过0.2 U mL-1)都显示出明显的失稳。
DLS的高通量能力使得能够收集超过1400个数据点,为训练预测性ML模型奠定了坚实基础。在评估的四种回归算法中,由GPR和RF构建的共识模型表现最佳,这归功于其联合灵活性、平滑插值能力以及即使在相对有限的训练数据下也具有强大的预测性能。值得注意的是,该共识模型在一个由训练分布之外的条件组成的独立前瞻性数据集上得到了验证,与实验结果高度一致。
为了进一步增强预测模型输出的可解释性,研究引入了形状特异性的稳定性阈值。虽然这些阈值本质上与实验设置相关且应作定性解释,但它们代表了朝着更结构化、更定量的超分子稳定性评估框架迈出的创新一步。此外,ML模型的实用性超出了本研究范围,因为它可以被迭代用于完善这些阈值或扩展到新的结构背景中,为未来的研究提供了一个多功能工具。
总之,这项工作为评估和优化DNA折纸纳米结构的数据驱动策略奠定了基础。这些方法有望加深我们对生理条件下结构行为的理解,并加速设计出更稳健的、适用于生物医学应用的DNA基材料。