基于液相色谱-串联质谱的非蛋白质氨基酸非靶向分析工具AminoacidDB的开发与应用

《Analyst》：AminoacidDB: a liquid chromatography-tandem mass spectrometry-based toolkit for the untargeted analysis of non-protein amino acids

【字体：大中小】 时间：2026年01月18日 来源：Analyst 3.3

编辑推荐：

　　本综述系统介绍了AminoacidDB这一创新工具，该工具整合了液相色谱-串联质谱（LC-MS/MS）技术、机器学习驱动的保留时间预测模型以及包含332,154个氨基酸及其衍生物的数据库，专门用于非蛋白质氨基酸（npAAs）的非靶向分析。研究通过AQC（6-氨基喹啉基-N-羟基琥珀酰亚胺基氨基甲酸酯）衍生化策略选择性富集胺类化合物，并利用特征产物离子（m/z 171.0555）进行高效鉴定。在概念验证实验中，团队在拟南芥和大麻叶片中成功注释了103种氨基酸及其衍生物，揭示了植物中npAAs的分布远超既往认知，为理解其在蛋白质错误掺入、代谢调控及神经毒性等方面的生物学功能提供了关键技术支撑。

引言

代谢组学广泛定义为利用高分辨率分析仪器对生物样本进行非靶向分析，以确定其全谱代谢物。此类实验生成庞大而复杂的数据集，包含数千乃至数万个对应于未识别代谢物的特征。任何代谢组学实验的关键挑战在于细致准确地识别单个代谢物、生化途径、代谢物簇及具有生物学意义的模式。定制化软件和数据驱动方法的发展提升了代谢组学分析的准确性，这在非靶向代谢组学中尤为明显，单次分析可常规检测数千种小分子。新分析策略和仪器的进一步发展有望极大增进我们对代谢的理解。

人们对理解氨基酸生化机制和生物学功能的技术需求日益增长。氨基酸通常被定义为具有中心碳骨架、至少一个碱性氨基（NH₂）和一个酸性羧基（COOH）的有机分子。氨基酸通过其中央碳骨架的分子构型和功能定义进行区分。术语“典型氨基酸”描述了通常构成蛋白质的20种代谢物。非蛋白质氨基酸（npAAs）的特征在于它们通常不存在于蛋白质中。自然界中npAAs的数量、多样性、普遍性和代谢重要性仍属未知。Bell（2003年）估计植物中存在约900至1000种npAAs。大多数文献仅描述了在食品、陨石或人类疾病背景下偶然发现的一小部分npAAs。例如，来自甜菜的氮杂环丁烷-2-羧酸因其导致动物组织畸形而被发现。由植物Archidendron jiringa产生的詹卡酸因其导致严重疾病和急性肾衰竭而被发现。在山黧豆种子和植物中发现的β-草酰基-L-α,β-二氨基丙酸（ODAP）被确定与神经性疾病山黧豆中毒有关。β-甲基氨基-L-丙氨酸（BMAA）于1967年从苏铁种子中分离出来，它是一种与肌萎缩侧索硬化/帕金森病-痴呆复合征相关的神经毒素。一个正在研究的有趣可能性是，由于蛋白质合成错误或通过目前未知的RNA机制，天然npAAs有可能被错误掺入蛋白质。例如，左旋多巴已被证明在帕金森病患者体内被错误掺入蛋白质，取代了酪氨酸。BMAA已在体外合成系统和细胞培养物中被证明可错误掺入蛋白质。

需要新的分析工具来全面理解npAAs的代谢、生物化学及健康影响。因此，我们工作的目标是：（1）开发一个全面的npAAs数据库；（2）开发并验证一个用于分析各类样本（包括植物、微生物、动物、人类和生态系统）中npAAs的数据库工具包。我们的工具包结合了用于分析大型数据集和数据库的方法、预测算法和高分辨率质谱技术，并以易于使用的在线开源格式提供。我们的技术结合新兴的组学技术和质谱技术的进步，将使研究能够全面理解蛋白质、细胞和生物体中的氨基酸复杂性。

方法

化学品

使用的化学品包括乙腈、水、甲醇、甲酸、6 N盐酸、0.1 N三氯乙酸、0.2 M硼酸盐缓冲液和6-氨基喹啉基-N-羟基琥珀酰亚胺基氨基甲酸酯（AQC）。

标准品

使用了41种真实的氨基酸标准品进行方法开发。其中包括称为氨基酸标准H的17种蛋白质氨基酸标准混合物、蛋白质氨基酸的结构异构体（如β-丙氨酸、DL-正缬氨酸和DL-正亮氨酸）以及其他npAAs，包括L-β-N-甲基氨基-L-丙氨酸（BMAA）及其3种结构异构体、1-氨基环丙烷-1-羧酸（ACC）和DL-β-3,4-二羟基苯丙氨酸（DOPA）等。选择这些氨基酸是为了覆盖广泛的结构和异构体空间。

UHPLC-MS/MS方法开发

开发了一种用于通过LC-MS/MS分析经AQC衍生化氨基酸的非靶向方法。衍生化使极性两性离子氨基酸适用于反相分离，并提高了方法的重复性。该方法通过修改靶向分析方法而开发。

AQC衍生化

使用41种氨基酸标准品的储备溶液，基于MS检测器响应的初步分析创建了氨基酸标准品混合物。将10 μL氨基酸混合物与70 μL硼酸盐缓冲液在自动进样器小瓶中稀释，并用20 μL AccQ·Tag?衍生化，随后涡旋混合并在55°C下孵育10分钟以完成反应。

UHPLC参数

分析在Vanquish UHPLC系统上进行，该系统配备Vanquish自动进样器，并与带有加热电喷雾电离（HESI）探针的Q Exactive混合四极杆-Orbitrap质谱仪耦合，用于氨基酸检测。将10 μL衍生化氨基酸注入反相CORTECS? UPLC? C₁₈色谱柱（2.1 × 150 mm, 1.6 μm），该柱配备CORTECS? C₁₈VanGuard预柱（90 ?, 1.6 μm, 2.1 mm × 5 mm），加热至55°C。氨基酸通过水/甲酸（99.9:0.1; v/v）（溶剂A）和乙腈/甲酸（99.9:0.1; v/v）（溶剂B）的梯度洗脱进行洗脱，流速为0.4 mL min^-1。优化后的方法运行时间为30分钟。

质谱仪参数

MS数据在色谱运行时间的0.5–29分钟内收集，使用全MS/数据依赖型MS²（dd-MS²）实验。离子在正离子模式下检测，采用电喷雾电离（ESI），默认电荷状态为1。全MS数据以轮廓模式收集，扫描范围为75至800 m/z，在m/z 200处的分辨率为70,000。自动增益控制（AGC）目标设置为1 × 10⁶或最大注入时间50 ms。每个扫描中前5个前体离子在dd-MS²中碎裂，采用17.5、30和47.5 eV的阶梯碰撞能量。

方法性能

通过重复日内和日间分析真实氨基酸标准品来评估方法的灵敏度、选择性、检测限、定量限、准确度和精密度。

数据处理

来自Q Exactive Orbitrap的原始文件使用Compound Discoverer v3.3.2.31进行处理，用于保留时间（RT）对齐、化合物检测、预测元素组成和化合物鉴定。对于化合物检测，质量容差设置为5 ppm，最小峰强度：10000，每个峰最小扫描数：5，信噪比（S/N）阈值：1.5。对检测到的化合物进行评分，以确定MS²中是否存在171.0555 m/z，因为该产物离子是在MS/MS中从AQC衍生化氨基酸上切割6-氨基喹啉（6-AMQ）标签时产生的。来自氨基酸标准品的m/z和RT信息用作训练RT预测模型的输入，以开发aminoacidDB。

开发用于氨基酸鉴定的网络工具aminoacidDB

aminoacidDB网络工具的代码使用R、RStudio和RShiny编写。该网络工具可通过aminoaciddb.ca公开访问。该代码基于精确质量和RT执行用户上传数据与aminoacidDB数据集之间的氨基酸匹配。通过基于用户定义质量容差的m/z匹配来分配推定的化合物身份。一旦给定m/z的推定氨基酸被识别，则将预测的RT与实验RT进行比较。这允许分析人员消除预测RT与实验RT显著不同的同量异位氨基酸。预测的RT在m/z之后考虑，因为RT在不同仪器间变化更大。

aminoacidDB的数据集通过以下方法进行整理。“氨基酸”被定义为包含至少一个碱性胺（伯胺或仲胺）官能团和一个羧基官能团的化合物，包括蛋白质和非蛋白质类别的已知和未知生物学功能。诸如LOTUS和HMDB（人类代谢组数据库）等数据库中的“氨基酸”类别包含胺或羧酸官能团被修饰的化合物，分别不留下游离胺或羧酸，这些化合物在aminoacidDB中被指定为氨基酸衍生物。

LOTUS

LOTUS是一个包含来自生物有机体（包括植物）的超过25万种代谢物的天然产物数据库。LOTUS包括基于生物来源和化学结构的代谢物生物学和化学分类。基于化学分类，我们从PubChem下载了LOTUS中的小肽类别，包含氨基酸、二肽、三肽和未分类类别。对数据集进行过滤，去除不包含C、N或少于2个O原子的化合物以及重复的化学结构。对数据集进行手动调查，以避免删除任何独特的氨基酸结构。

HMDB

HMDB是一个包含人体中发现的超过20万种小分子代谢物的数据库。HMDB中的化合物使用ClassyFire分为各种类别，包括一个称为氨基酸、肽和类似物的类别。我们从ClassyFire网站下载了分类的HMDB数据集，并选择了包含术语“氨基酸”的类别中的代谢物。将所选代谢物的HMDB ID与最新的HMDB数据进行搜索，以检索代谢物信息，包括名称、单同位素质量、分子式、化学结构和ClassyFire分类。与LOTUS类似，对数据集进行过滤以去除重复的氨基酸条目，并与LOTUS数据集合并。

Web of Science

上述LOTUS和HMDB数据集通过来自Web of Science?的植物中已知npAAs进行了补充。使用Web of Science?进行文本挖掘，搜索词为（“非蛋白质氨基酸”或“非蛋白氨基酸”或“非典型氨基酸”或“非编码氨基酸”或“非蛋白质氨基酸”或“非典型氨基酸”（所有字段）+ 植物（所有字段））。对搜索到的出版物进行手动整理，以提取已知的npAAs。从PubChem检索npAAs的SMILES、InChIKey、单同位素质量和分子式。将npAAs与上述LOTUS和HMDB数据集合并。

PubChem

PubChem数据库于2021年1月16日从https://pubchem.ncbi.nlm.nih.gov/source以SDF格式下载。提取了109,050,179种化学品并保存在CSV文件中。所有数据处理均在R（v4.2.1）中完成。在进行任何进一步处理之前，从PubChem数据库中排除了氘代化学品和氮以铵阳离子形式存在的化学品。之后，应用了几个标准来查找同时包含羧基和胺基（伯胺或仲胺）的化学品。通过检查SMILES中是否存在‘(C(=O)O)’和‘C(=O)O’来确定羧基的存在。使用指纹图谱确定未带电伯胺和仲胺基团的存在。首先使用‘fingerprint’R包中的get.fingerprint()函数和‘maccs’方法将SMILES转换为指纹图谱。指纹图谱中位84的化合物是伯胺化合物，直接保留。指纹图谱中位151的化合物是可能的仲胺（–NH），需要进行进一步确认。如果它们的–NH子结构全部以肽（酰胺）键形式存在，这些可能的仲胺将被排除。对于选定的化合物，其元数据，包括名称、分子式、PubChemID、SMILES、InChIKey和胺基类型，被输出到CSV文件中。上述提取的化合物经过过滤以去除重同位素和化学混合物，从中选择代表独特化合物的独特SMILES。将数据集限制为包含2至11个碳原子的CHNOS未带电化学品，以限制数据库与蛋白质氨基酸的相似性。

对于上述数据集中的每种化合物，使用Python v3.13.5中的RDKit v2025.03.5计算其功能信息，包括伯胺和仲胺基团的数量以及羧酸基团的数量。分别使用R和RStudio中的ggplot2和ggbreak包绘制图形。此外，为所有数据集中的每种分析物计算了七种常见的MS加合物，包括[M + H]⁺、[M ? H]^?、[M + NH₄]⁺、[M + Na]⁺、[M + K]⁺、[2M + H]⁺和[2M + NH₄]⁺。

使用Retip 2.0预测保留时间

使用R（v4.5.0）中的Retip 2.0基于构建的模型预测aminoacidDB中选定氨基酸的RT。使用198种已知分析物（涵盖广泛的代谢物空间，包括氨基酸标准品（未衍生化和AQC衍生化）、酚类、激素、大麻素和萜烯）来构建稳健的RT预测模型。使用上述优化的UHPLC-MS/MS方法分析标准品，并从Compound Discoverer提取其RT和m/z。结构信息（SMILES和InChIKey）连同RT用作Retip的输入以构建RT预测模型。基于结构信息，Retip 2.0使用cdk为每种化合物计算化学描述符，所有这些都用作模型构建中的预测变量。198种分析物的数据被随机分割，其中80%用于训练模型，20%留出用于外部验证模型性能。在训练数据集内，还进行了10次k折交叉验证。

Retip 2.0有五种内置的RT预测算法，包括随机森林（RF）、双向循环神经网络（BRNNs）、XGBoost、轻量梯度提升机（lightGBM）和H₂O自动机器学习（autoML）。在每个算法内构建了多个模型，使用多次参数迭代，其中最好的模型通过10次k折交叉验证选择。根据外部验证数据集的R²、均方根估计（RMSE）和平均绝对误差（MAE）从中选择最佳模型，并用于预测aminoacidDB中氨基酸的RT。

方法测试与验证

测试植物材料

使用的测试植物材料包括拟南芥（Arabidopsis thaliana L. Heynh (Col. 0)）和大麻（Cannabis sativa L. CV ‘Black Cherry Punch #2’）。拟南芥植物通过种子繁殖，并在无菌条件下通过体外组织培养生长。大麻叶片样本由商业研究设施提供，并在受控环境生长室中生长。

氨基酸提取和样品制备

使用0.1 N TCA从叶片样本中提取游离可溶性氨基酸，以避免蛋白质沉淀中高丰度的蛋白质氨基酸。简要地说，将叶片组织用液氮研磨并称重（约200 mg）放入1.5 mL微量离心管中。将研磨的叶片组织与1000 μL 0.1 N TCA通过涡旋高速混合30秒进行匀浆。将匀浆样品离心（13,000 rpm，5分钟）以沉淀蛋白质。取800 μL上清液等分试样，通过Ultrafree?–MC GV离心过滤管（Durapore? 0.22 μm PVDF膜）离心（13,000 rpm，5分钟）得到过滤后的游离氨基酸提取物。将过滤后的氨基酸提取物在-20°C保存直至分析。取10 μL提取物与20 μL AccQ·Tag?衍生化，类似于标准品，并用于UHPLC-MS/MS中的非靶向分析。

数据处理和非蛋白质氨基酸注释

Orbitrap的原始文件使用Compound Discoverer（v3.3.2.31）进行处理，如上所述。对于预测的组成，最小元素计数描述为C10H7N2O，类似于AQC衍生化添加的6-AMQ标签的元素组成，以限制预测的组成。选择峰面积大于5e4的特征，并手动整理以去除伪影、加合物和标签峰。来自整理后峰的m/z和RT信息用作aminoacidDB的输入，用于推定化合物注释。能够与真实分析标准品匹配精确质量（质量误差<5 ppm）、MS/MS、RT和预测组成的特征在代谢组学标准倡议（MSI）1级置信度下进行注释。以<5 ppm质量误差、RT匹配百分比>75%和预测组成匹配的特征在MSI 2级下推定注释。以<5 ppm质量误差和RT匹配百分比<75%或匹配多个具有<5 ppm质量误差和RT匹配百分比>75%的异构体的特征在MSI 3级下推定注释。最后，仅能自信预测元素组成的特征在MSI 4级下推定注释。应用t检验 followed by Benjamini-Hochberg校正来比较两个物种中检测到的npAAs。

已发表研究的Meta分析

为了验证aminoacidDB网络界面对于多样化代谢组学数据集的适用性，我们对来自代谢组学工作台（Metabolomics Workbench）的非靶向代谢组学数据集进行了npAA注释。我们决定专注于对我们选定的研究物种拟南芥和大麻进行的研究。截至2025年6月，代谢组学工作台上有24项关于拟南芥的研究和0项关于大麻的研究。对列表进行过滤，以去除使用核磁共振（NMR）、气相色谱-质谱（GC-MS）、亲水相互作用色谱（HILIC）或具有低分辨率检测方法的反相LC技术的研究。我们还排除了仅包含未对齐原始数据的研究。在分析多个物种的研究中，未在拟南芥中检测到的特征被移除。这产生了3项研究，包含6个数据集，其中3个在ESI+模式下，3个在ESI?模式下。电离模式之间共同的特征被计为一个。在0.01质量容差内的特征被认为在不同研究之间是共同的。使用10 ppm的质量容差和50%的RT阈值将m/z和RT与aminoacidDB数据进行搜索，因为所选研究均未具有与用于预测aminoacidDB中洗脱曲线的LC方法完全相同的色谱条件（色谱柱、流动相和梯度）。

结果与讨论

npAA分析和鉴定的标准化操作协议

标准化操作协议（SOP），包括样品制备、UHPLC-MS/MS方法和数据处理，针对植物中npAAs的分析进行了优化。在样品制备过程中，通过使用AQC对其胺基进行衍生化来靶向氨基酸。AQC衍生化将6-AMQ标签添加到N[H]基团，从而从样品提取物中选择携带胺的化合物。此外，在MS/MS中，6-AMQ羰基从衍生化结构上切割，在正离子模式下产生171.0555 m/z的共同产物离子，用于在采集后选择性靶向氨基酸。在41种氨基酸标准品中，DL-4-氯苯丙氨酸甲酯和犬尿氨酸酸未能与AQC衍生化。这可能是由于犬尿氨酸酸喹啉环中存在离域电子，导致亲核性弱的N。犬尿氨酸酸仅在pKa为2.43时观察到一个解离事件，在碱性pH下没有解离事件，表明喹啉N不解离，与其结构推断相反。这些发现表明，弱亲核胺（具有芳香环系统或与吸电子基团键合）可能无法与AQC衍生化，因此不被当前方法靶向。对其余39种氨基酸标准品优化了LC-MS/MS方法参数。最终确定的方法运行时间为30分钟，并使用用于常规氨基酸分析的溶剂和仪器，以在生物学和分析化学实验室中具有广泛适用性。高分辨率质谱（HRMS）有助于分离接近的质量（准确度<5 ppm），这对于在具有精确质量匹配和元素组成预测的质谱数据集中注释npAAs至关重要。结构相似的异构体由于质量相同无法在MS中区分，因此沿RT轴和差异MS/MS模式进行解析。离子淌度（IM）技术的最新进展，如捕获离子淌度谱（TIMS），通过离子在电场影响下与缓冲气体（氮气或氦气）碰撞，基于其气相淌度（形状、大小和电荷）提供异构体的正交分离。IM实验的一个独特优势是，离子的碰撞截面（CCS, Ω）值可用于表征异构体，特别是在色谱分离和MS/MS不足的情况下。综合二维分离（LC × LC 和 GC × GC）是另一种通过在一次进样中使分析物经历两种固定相化学然后进行MS或MS/MS来解析结构异构体（如氨基酸）的技术。与IM不同，分离在电离之前发生，通过在实际电离之前物理分离共洗脱的基质组分来减轻离子抑制。结构化色谱图也出现在综合分离中，揭示了共享物理化学性质的分析物的特征模式。开发的SOP通过包含传统氨基酸分析中缺失的npAAs扩展了氨基酸分析，同时采用基于衍生化的选择策略，允许使用实验室中 readily available 的工具发现新的氨基酸。

AminoacidDB网络工具

AminoacidDB是一个开源网络工具（可在aminoaciddb.ca获取），用于采集后npAAs的鉴定。它允许用户通过将精确质量和RT与aminoacidDB数据集匹配，来注释来自任何来源（植物、动物、微生物和人类）的非靶向代谢组学数据集中的氨基酸，包括npAAs。目前，aminoacidDB包含来自LOTUS、HMDB和PubChem的332,154种氨基酸和衍生物。此外，用户可以选择搜索4种不同的加合物类别：单同位素（来自LOTUS/HMDB或PubChem数据集的氨基酸的单同位素质量）、[M + H]⁺（ESI+模式下氨基酸的[M + H]⁺加合物）、[M–H]^?（ESI?模式下氨基酸的[M–H]^?加合物）和加合物（ESI+模式下氨基酸的[M + Na]⁺、[M + K]⁺、[M + NH₄]⁺、[2M + H]⁺和[2M + NH₄]⁺加合物）。

数据输入和输出

用户数据以CSV格式上传，第一列为m/z，第二列为RT，其余列为样品浓度（面积或强度）。CSV格式为aminoacidDB提供了多功能性，因为代谢组学数据集可以使用任何可用的HRMS仪器（Orbitrap、飞行时间（TOF）、FT-ICR等）收集，也可以使用各种软件（如XCMS、MS-DIAL、MZmine和供应商软件）进行处理。在上传数据之前，用户选择要搜索的数据集（LOTUS/HMDB和/或PubChem）和加合物：单同位素、[M + H]⁺、[M ? H]^?或加合物，以及质量容差（±Da或ppm）。要选择的质量误差取决于用于数据收集的仪器类型和方法。例如，通常推荐Orbitrap仪器使用0–5 ppm质量误差，TOF仪器使用10–15 ppm。AminoacidDB的输出可以在应用程序的“Screener Output”选项卡中查看，也可以通过单击“m/z Screener”选项卡上的“Download Results”下载为CSV文件。搜索首先通过m/z进行，然后是RT，因为预测的RT在不同系统间变化更大。然而，没有使用同时考虑m/z和RT的整体评分指标。网站上提供了一个示例数据集，以帮助用户熟悉aminoacidDB的格式和使用。

AminoacidDB数据集整理

当前版本的aminoacidDB中有332,154种氨基酸，这些氨基酸来自LOTUS、HMDB或PubChem资源。“All Amino Acids”选项卡呈现了氨基酸的所有相关信息，包括名称、结构、分子式、单同位素质量、氨基酸来源、类别（氨基酸或氨基酸衍生物）、LOTUS分类和HMDB ClassyFire分类。这些数据集也可以通过“Instructions”选项卡中的“Download All Amino Acids”按钮以CSV格式下载。

LOTUS/HMDB数据集

来自LOTUS和HMDB数据集的氨基酸可被视为已分类的氨基酸。使用Lotus，小肽类别中有3194种分析物，包括氨基酸（1509种）、二肽（1103种）、三肽（503种）和未分类（79种）。LOTUS中的分类是非排他性的，导致同一化合物被分类到多个类别中。每个化合物只保留一个唯一条目，同时去除重复结构（由SMILES/InChIKey表示），得到来自LOTUS的2460种化合物的数据集。

HMDB的ClassyFire数据集包含来自“氨基酸”类别的4686个唯一HMDB ID。搜索HMDB未能检索到其中159个HMDB ID的任何结果。此外，多个ID匹配一种化合物，只保留其中一个，同时去除重复和非氨基酸结构，产生来自HMDB的4467种化合物的数据集。HMDB和LOTUS数据集之间有429种分析物是共同的。该数据集通过来自Web of Science?（WoS）的27种已知npAAs进行了补充，这些npAAs在HMDB或LOTUS数据集中均未找到。这产生了6525种推定的npAAs和衍生物的最终数据集，突显了传统代谢组学和氨基酸分析中缺失的已知氨基酸的范围，这些氨基酸可以使用aminoacidDB方案进行靶向分析。

来自LOTUS、HMDB和WoS的分析物中超过42%的胺或羧酸官能团被修饰，不留下游离胺/羧酸基团，被分类为氨基酸衍生物；其余的被分类为氨基酸。大约2/3的化合物包含伯胺基团，而其余包含仲胺或叔胺或其他N官能团。在氨基酸类别中，>75%的伯氨基酸有一个NH₂部分，而<5%有3个或更多NH₂基团。46%的仲氨基酸有一个N[H]，23%有两个，5%有超过4个N[H]基团。此外，>90%的氨基酸有2个或更少的COOH官能团。鉴于氨基酸衍生物的羧基或氨基被修饰，该类别中>90%的化合物没有游离COOH基团，而约90%的化合物至少有一个NH₂或N[H]部分。基于官能团、位置以及碳链长度和结构的分子广泛变异，突显了来自生物来源（植物、微生物或人类）的氨基酸 beyond the 20 protein amino acids 的结构多样性。在生物样本中分析这种npAAs的多样性将为了解它们在蛋白质化学和代谢中的作用提供机会。

PubChem数据集

PubChem搜索氨基酸（>1 C(=O)O + >1 (N[H])）得到2,631,019种化合物，经过滤去除伪影、重同位素和立体异构体。剩余的2,184,228个独特结构其单同位素质量呈正态分布，90%的化合物落在209.1052 Da至665.2957 Da之间。考虑到最重的蛋白质氨基酸色氨酸的质量为204.2 Da，而大多数PubChem匹配的分子更大，这一点很有趣。这些数据可能反映了PubChem文献的组成，其中包括天然和合成的npAAs以及短肽和氨基酸缀合物。为了更好地反映数据集的生物学相关性，我们将包含的化合物限制为分子式包含C、H、O、N和S且碳原子数在2–11之间的化合物。这产生了325,843种化合物的数据集。在这个数据子集中，我们识别了8358个独特的分子质量，其中2800个是非异构的，而5558个构成了观察到的大部分结构多样性。完整数据集可通过在线工具访问，并已通过Borealis提供。每种化合物的平均异构体数为58.2。20种蛋白质氨基酸有超过2200种结构异构体，色氨酸的异构体多达525种，突显了

热点排行

新闻专题