因此,近年来学术界和工业界在建立可开发性平台以全面表征蛋白质药物候选物和指导先导化合物选择方面的努力有所增加。
3, 4, 5, 6, 7, 8, 9这些平台旨在通过评估分子的物理化学性质来评估它们从发现到开发的可行性。
6可开发性评估应涵盖化学、构象和胶体稳定性等不同方面。
10为了简化临床前和临床开发,应评估分子的“可配方性”,即通过配方开发可实现的稳定性优化程度。
10为此目的开发了多种生物物理方法,这些方法在材料要求、通量和表征深度之间取得了平衡,具体取决于要筛选的候选物数量。
11, 12通过实验室测试对候选物的潜在问题进行早期评估通常受到可用药物物质材料稀缺性和严格时间表的限制。因此,计算工具的应用已成为支持生物制品可开发性和可配方性评估的强大方法。11, 13计算方法可以在不需要物理材料的情况下筛选大量分子。此外,计算分析可以在第一份蛋白质材料可用于实验室活动之前很久就进行。基于这些原因,计算方法已成为药物发现过程的基本组成部分,因为它有潜力从早期到后期降低药物产品开发的风险。通过计算预测的实验验证对于证明所使用模型的有效性至关重要。总体而言,通过计算预筛选可以减少所需的实验测试数量并使其更加有针对性。
已经开发了许多计算工具来表征蛋白质分子,旨在预测它们的稳定性和可开发性潜力。已经开发了计算描述符来估计蛋白质的聚集倾向14, 15, 16或免疫原性17,并能够在短时间内以较低的计算成本对大量候选物进行排序。近年来,随着人工智能的快速发展,同源性和从头建模18, 19, 20使得从序列出发预测新型蛋白质的3D构象成为可能。
已经训练了大量机器学习(ML)模型来预测胶体不稳定性21、溶解度22、热稳定性23、免疫原性24、化学降解途径的倾向25,26、毒性27和表达28。许多这些数据驱动的模型是针对单克隆抗体(mAbs)开发的,因为这些分子在制药市场中的重要性以及相对于其他模式而言,有大量已发布的实验数据集用于模型训练。因此,已经开发了针对mAbs的特定模型来表征它们在高浓度下的粘度行为29, 30, 31、自关联倾向21,31,或突变对稳定性和结合亲和力的影响32, 33, 34。众所周知的治疗性抗体分析器(TAP)常用于通过比较可变片段(Fv)的五个描述符与临床阶段治疗药物来计算评估抗体候选物的可开发性35。已经进行了大量研究来表征mAbs,并识别出区分临床抗体和库抗体的计算属性,这些属性对可开发性至关重要36。与针对mAbs的模型相比,开发了应用范围更广的ML模型,尽管覆盖的蛋白质类型更多,但由于蛋白质治疗模式的多样性以及用于训练的数据集的稀缺性,这些模型的开发程度有限25,26,37。
除了数据驱动的模型外,还开发了基于物理的方法来表征生物制品的可开发性和可配方性。基于物理的工具,如分子对接和分子动力学(MD),不需要训练数据集,并且与数据驱动的模型相比具有更高的外推能力。缺点是,分子对接和MD模拟的计算成本可能非常高。MD模拟已被用于评估蛋白质的聚集倾向38、抗体的脱酰胺和异构化倾向39,并结合数据驱动的描述符来预测生物物理性质40。分子对接在可开发性评估中得到了广泛应用,例如用于预测结合构象和估计结合亲和力41,或预测蛋白质的免疫原性24。
在本文中,我们提出了一个结合了生物信息学、机器学习和分子动力学等先进计算工具的新型计算平台,以降低蛋白质药物开发的风险并指导配方科学家。数据驱动和基于物理的模型的整合是我们方法的一个显著特点,它既受益于机器学习方法的速度,也受益于分子动力学计算的外推能力。虽然计算工具主要应用于早期药物发现阶段,但我们在本文中讨论的平台在涵盖临床前和后期药物产品开发中至关重要的蛋白质稳定性方面具有创新性,从而降低了新候选物的选择风险并提供了指导。我们还提出了基于生物物理特性的新算法,并通过参考一个庞大的、手动整理的已批准蛋白质分子数据库来建议配方策略。最后,我们计算平台的一个创新之处在于它既适用于mAbs也适用于非mAb蛋白质,本文的其余部分将讨论其中的差异和局限性。
将通过两个与蛋白质药物产品开发相关的案例研究来说明该计算平台在可配方性评估中的应用。在第一个案例研究中,我们将展示所推荐的计算工具如何支持不同mAb候选物的筛选。在第二个案例研究中,我们将展示计算方法如何表征模型蛋白质(粒细胞集落刺激因子)并建议潜在的配方策略。