基于蛋白质物化性质的新型普适性分类方法

《Scientific Reports》：Novel universal domain-centric method for protein classification

【字体：大中小】 时间：2026年03月04日 来源：Scientific Reports 3.9

编辑推荐：

　　为解决基于系统发育关系的传统方法无法对许多人类蛋白激酶（kinase）进行分类，且忽视序列位点物化特性的问题，研究人员开展了一项利用激酶物化特性来识别类别特异性结构域的研究。他们开发出一种无监督分类方法，不仅能与现有分类法对应，还可对未标记激酶进行分类，并提升准确度。此方法具普适性，可扩展至其他蛋白家族，为蛋白质功能研究提供了新思路。

在我们的身体里，无数微小的蛋白质如同精密的分子机器，执行着维持生命的关键功能。其中，蛋白激酶（protein kinase）家族扮演着尤为重要的角色，它们通过给其他蛋白质添加磷酸基团（phosphorylation）来传递信号，调控细胞的生长、分裂、生存和通讯。人类基因组编码了大约500种不同的激酶，它们被分属于不同的亚家族。长期以来，科学家们主要依据它们的进化关系（即系统发育，phylogeny）来对它们进行分类，这就像是根据家族族谱来给人们归类。然而，这张“族谱”并不完整，许多激酶至今仍是“无名氏”，无法被准确归类。更重要的是，传统的分类方法大多依赖于多重序列比对，这种方法侧重于比较不同激酶之间氨基酸序列的相似性，却忽略了每个氨基酸位点本身固有的物理化学性质（physico-chemical properties），比如带电性、疏水性、大小等。这就像是通过比较两段文字的字母顺序来判断其含义，却忽略了每个单词本身的意义，可能错过更深层次的关联。

为了突破这一局限，一项开创性的研究在《Scientific Reports》上发表。研究团队首次将激酶的详细物化性质描述引入分类体系，旨在识别出能定义不同激酶类别的特异性结构区域。他们开发了一种新颖的无监督（unsupervised）分类方法，这种方法不依赖于预先定义的标签，而是让数据自己“说话”，从而能够对那些传统方法无法标记的“孤儿”激酶进行归类。令人振奋的是，这种基于物化性质的新分类框架，其结果与基于进化的传统分类高度吻合，同时又能提供更精细的划分和更高的准确性。研究团队最终运用机器学习（machine learning）技术，成功对未标记的激酶进行了分类，并通过分析各类别特有的结构区域验证了分类结果的可靠性。这项研究的深远意义在于，它提供了一种超越当前分类排名体系的、以结构域为中心（domain-centric）的通用方法，未来不仅可以更精准地划分激酶，其原理还可应用于其他任何类型的蛋白质家族，如免疫球蛋白（immunoglobulin）和G蛋白偶联受体（G protein-coupled receptor, GPCR），为整个蛋白质功能组学研究打开了新的大门。

为开展此项研究，作者主要采用了以下几个关键技术方法：首先，构建了全面的人类激酶序列数据集。其次，创新性地引入了超越传统序列比对的氨基酸物化性质编码方案，对激酶序列进行特征提取。第三，基于提取的物化特征，采用无监督的机器学习算法（如聚类分析）对激酶进行自动分类，不依赖先验的类别标签。最后，通过生物信息学分析，识别并验证了与分类结果相对应的类别特异性结构区域，从而在结构层面支撑分类的合理性。整个研究流程未涉及特定的湿实验样本队列，主要基于公共数据库中的序列和结构信息进行计算分析。

研究结果

基于物化性质的激酶特征提取

研究人员摒弃了简单的氨基酸字母匹配，转而采用一套多维度的物理化学描述符来表征每一个激酶序列。这些描述符涵盖了氨基酸的疏水性、电荷、极性、大小等关键属性。通过对整个激酶序列进行这种物化性质的扫描和量化，他们将每条激酶序列转化为一个富含结构功能信息的数字特征向量。这为后续的无监督分析奠定了数据基础，使得算法能够捕捉到那些在单纯序列相似性比较中被忽略的、与功能相关的保守模式。

无监督聚类揭示激酶新型分类

利用上述物化特征向量，研究团队应用了无监督机器学习中的聚类算法。算法在没有被告知任何已知类别信息的情况下，自动将所有的激酶序列根据其物化特征的相似性进行分组。结果显示，这些自动形成的聚类与基于系统发育关系建立的经典激酶亚家族划分表现出高度的一致性。例如，属于同一已知亚家族（如酪氨酸激酶）的成员大多被聚集到了同一个物化特征聚类中。这强有力地证明，物化性质深刻反映了激酶的进化分化和功能特异性。

识别类别特异性结构区域

为了理解聚类背后的结构基础，研究人员进一步分析了每个聚类（即每个新定义的“类别”）中高度保守的物化特征模式在三维空间中的位置。他们成功识别出多个与特定激酶类别相对应的、在物化性质上具有独特特征的短肽序列区域。这些区域往往对应于激酶结构中的重要功能模体（motif），如ATP结合环、催化环或底物识别界面。这表明，不同类别的激酶正是通过在关键结构区域维持一套独特的物化性质“签名”，来实现其特定的底物结合和催化功能。这一发现为分类提供了可解释的结构生物学依据。

对未标记激酶的分类与应用验证

新方法的核心优势在于处理“未标记”数据。研究将那些在传统分类中位置模糊或未被归类的激酶，输入到已训练好的分类模型中。模型根据这些激酶的物化特征，将其分配到了最匹配的聚类中，从而实现了对这些“孤儿”激酶的初步分类。通过检查这些新归类激酶是否也具备了目标类别特有的结构区域物化特征，研究人员对分类结果进行了交叉验证，增加了结果的可靠性。这为解决长期存在的激酶分类遗留问题提供了实用工具。

方法的普适性验证

为了证明该方法的通用性，而非仅适用于激酶，研究团队将其应用于另外两个庞大且重要的蛋白家族：免疫球蛋白和G蛋白偶联受体。初步分析表明，基于物化性质的无监督分类方法同样能够在这些蛋白家族中识别出有生物学意义的亚类，其分类结果与基于结构和功能的已知分类有显著重叠。这验证了该方法作为一种“以域为中心”的通用蛋白质分类框架的潜力。

结论与讨论

本研究成功开发并验证了一种全新的、基于蛋白质序列物理化学性质的通用分类方法。该方法的核心结论是：蛋白质的进化分化和功能专业化，在其序列的物化性质分布上留下了可检测的“指纹”；通过捕捉这些指纹，可以在无需先验知识的情况下，实现对蛋白质（尤其是激酶）的准确、可解释的分类。

讨论部分强调了本研究的双重意义。在理论层面，它将蛋白质分类的视角从单纯的“序列同源性”扩展到了“物化性质同源性”，为理解序列-结构-功能关系提供了更丰富的维度。它揭示了许多功能重要的结构区域在进化过程中，其物化性质而非精确的氨基酸序列得以保留，这解释了为何有些序列相似性低的蛋白质却能执行相似功能。在应用层面，该方法具有强大的实用价值。首先，它为大量未分类的“孤儿”激酶和其他蛋白质提供了客观的分类方案，有助于预测它们的功能、底物和调控机制。其次，所识别的类别特异性结构区域可以作为药物设计的靶点，针对特定类激酶设计高选择性抑制剂，减少副作用。最后，其“无监督”和“普适性”的特点，使得该方法能够作为生物信息学流水线中的一个标准模块，用于大规模基因组注释、蛋白质功能预测和新蛋白家族的探索。

总之，这项研究标志着蛋白质生物信息学从依赖进化史到兼顾物理化学本质的重要转向。它不仅提供了一把解开激酶分类难题的新钥匙，更提供了一套可能适用于整个蛋白质宇宙的、以功能结构域为核心的新分类语言，为未来的精准生物学研究和药物发现奠定了方法论基础。

热点排行