泪液蛋白质组学重大突破：首个大规模参考数据库TearFluid上线，为眼部疾病生物标志物发现提供新平台

《Database》：Tear fluid database: a reference website for tear fluid proteomics

【字体：大中小】 时间：2026年01月17日 来源：Database 3.4

编辑推荐：

　　本研究针对泪液蛋白质组学缺乏标准化参考数据库的瓶颈，开发了高灵敏度LC-MS/MS工作流程，从74例样本中鉴定出2134种蛋白质，建立了首个集成临床元数据的公开泪液蛋白质组数据库TearFluid。该资源为疾病相关蛋白质特征识别、生物机制解析及生物标志物发现提供了强大平台，显著推进了精准医疗在眼科学领域的应用。

泪液，这一日常看似普通的生理液体，实则是窥探人体健康的重要窗口。作为临床易获取、微创的生物样本，泪液含有复杂的蛋白质组成，其分子变化与多种眼部和全身疾病密切相关。然而，由于泪液样本量少、蛋白质浓度动态范围宽，获取高质量的蛋白质组学数据一直面临巨大挑战。

目前泪液蛋白质组学研究领域存在一个明显短板：缺乏全面、标准化的参考数据库。现有数据集往往规模有限、标准化程度不足，许多研究仅关注特定蛋白质组或蛋白质子集。已报道的泪液蛋白质数量从几百到上千不等，这主要取决于研究方法、样本制备和分析仪器的差异。更重要的是，目前尚无开放资源能够完整编录人类泪液中可检测蛋白质的全范围及其相关临床元数据。

为解决这一迫切需求，由Augusta大学领衔的研究团队在《Database》期刊上发表了重要研究成果。研究人员首先优化了液相色谱-串联质谱(LC-MS/MS)工作流程，显著提高了检测灵敏度，能够从单个泪液样本中可靠识别超过1000种蛋白质。他们将这一技术应用于大规模多样化队列，生成了人类泪液蛋白质组的代表性全面图谱，并建立了泪液常见蛋白质的参考丰度范围。

研究团队采用了严格的质量控制标准。所有参与者均来自Augusta大学眼科系接受常规眼科检查的21-90岁患者，排除了孕妇以尽量减少激素变化相关混杂因素的影响。泪液样本使用TearFlo Schirmer试纸采集，不进行表面麻醉或外部刺激，记录5分钟后的湿润长度。样本采集后立即转移至-80°C保存直至分析。

蛋白质提取采用原位酶切法，最大程度减少样本损失。Schirmer试纸先进行冻干处理，然后切割成特定尺寸，使用8M尿素进行蛋白质变性，经二硫苏糖醇还原和碘乙酰胺烷基化后，用胰蛋白酶进行过夜酶切。肽段浓度通过比色法定量，经C18柱纯化后用于LC-MS/MS分析。

质谱分析使用Orbitrap Fusion Tribrid质谱仪结合nano-UPLC系统，在数据非依赖采集(DIA)模式下进行。肽段分离采用多步梯度洗脱，质谱检测使用正离子模式，前体离子扫描分辨率为60000，随后进行40次MS2扫描。原始数据通过DIA-NN软件处理，使用UniProtKB/Swiss-Prot数据库生成预测谱图库，以10 ppm质量精度和1%错误发现率(FDR)进行蛋白质鉴定和定量。

数据库构建与功能特色

研究团队开发了TearFluid数据库交互式网络应用，采用ASP.NET后端设计和JavaScript前端功能，遵循模型-视图-控制器(MVC)架构模式。这一模块化设计分离了关键软件组件功能，便于未来开发扩展。

数据库使用Microsoft SQL服务器进行数据存储和检索，设计了支持三个集成数据模块的关系型数据库：蛋白质数据表、临床数据表和蛋白质摘要表。这种关系型互操作结构支持跨数据模态和多种临床参数的分析，增强了从数据集中获取比较蛋白质组学见解的能力。

蛋白质数据表作为数据库基础，存储每个泪液样本的所有蛋白质组级别质谱输出。每个记录由"样本ID"和"蛋白质名称"字段唯一定义，确保与临床数据和蛋白质摘要表中相关记录的互操作性。蛋白质组通过DIA-NN确定，基于肽段级别谱图数据识别蛋白质，报告每个蛋白质组中的主要蛋白质。

蛋白质定量使用MaxLFQ评分，这是一种无标记定量(LFQ)算法，通过整合样本间的肽段离子强度来估计相对蛋白质丰度，提供稳健的半定量测量。MaxLFQ旨在最大化跨运行的可比性，在蛋白质组级别计算，作为数据库中相对蛋白质定量的主要指标。

除了丰度信息，还包括两个评估蛋白质鉴定置信度的指标：QValue(代表FDR，提供接受命中中错误鉴定比例的估计)和PEP(后验错误概率，基于匹配质量的后验概率分布估计给定鉴定错误的可能性)。

临床数据表通过捕获每个受试者的关键人口统计学和临床参数来补充蛋白质组数据集。记录的变量包括年龄、性别、种族、眼部诊断、视力、眼压、药物使用以及其他相关眼部或全身状况。临床数据表中的每个条目通过"样本ID"与蛋白质数据表中的相应记录链接，而"受试者ID"唯一识别个体参与者。这种结构允许将多个样本与同一受试者关联，同时保持受试者级别和样本级别信息的清晰区分。

蛋白质摘要表提供了跨所有样本的蛋白质组景观全面概述。每个记录对应一个独特的蛋白质，以"Accession ID"字段(等同于其UniProt标识符)为索引，作为链接到蛋白质数据表中相关条目的关系键。该表报告每个蛋白质的几个关键指标：总MaxLFQ和(蛋白质跨所有样本的累积丰度)、平均MaxLFQ(每个样本蛋白质的平均丰度)和检测频率(检测到蛋白质的样本比例)。

研究结果与发现

当前版本数据库包含74名独特受试者的样本，代表了年龄、性别和种族方面多样化的人群。使用DIA质谱技术在所有样本中共鉴定出2134种独特蛋白质，产生了迄今为止最全面的公开可用泪液蛋白质组数据集之一。

研究人员根据检测频率将蛋白质分为四类：罕见蛋白质(<25%样本，1123种)、不常见蛋白质(>25%且<50%，332种)、中等频率蛋白质(>50%且<75%，235种)和常见蛋白质(>75%，444种)。这种分类有助于理解不同蛋白质在泪液中的稳定性和普遍性。

研究还确定了泪液中最丰富的50种蛋白质。这些蛋白质涵盖了维持 ocular surface 稳态所需的各种生物学功能，特别是在抗菌和免疫防御机制方面。关键例子包括溶菌酶C(LYZ)和乳铁蛋白(LTF)，分别介导细菌细胞壁降解和铁隔离；脂质运载蛋白-1(LCN1)限制微生物定植并促进脂质运输。免疫球蛋白组分如IGHA1、IGKC和JCHAIN通过支持抗原识别和协调免疫反应进一步强化黏膜免疫。

其他重要的功能组包括结构和细胞骨架蛋白，如肌动蛋白(ACTA1、ACTB)和多种角蛋白异构体，反映了它们在维持上皮细胞结构和保护 ocular surface 屏障中的作用。蛋白酶抑制剂，包括胱抑素-S(CST4)和胱抑素-SN(CST1)，有助于防止可能损害组织完整性的过度蛋白水解活性。参与分子运输和脂质代谢的蛋白质，如白蛋白(ALB)和锌-α-2-糖蛋白(AZGP1)，支持小分子运动并有助于泪膜稳定性。

酶和代谢调节剂，包括GAPDH、GSTP1和ENO1，表明 ocular surface 存在活跃的代谢和氧化还原过程。应激反应蛋白如热休克蛋白β-1(HSPB1)和簇连蛋白(CLU)协助蛋白质折叠并保护细胞免受氧化损伤。最后，几种信号传导和生长相关蛋白，包括泪液特异性因子lacritin(LACRT)以及EEF1A2和TGM2等蛋白质，参与与上皮稳态、蛋白质合成和组织重塑相关的通路。

研究意义与展望

TearFluid数据库通过建立集中化、公开可访问且可扩展的平台，整合高分辨率蛋白质丰度数据与全面临床和人口统计学元数据，代表了 ocular proteomics 领域的重大进展。该资源解决了泪液蛋白质组学中几个未满足的需求，建立了泪液蛋白质丰度的规范性参考范围，为跨疾病亚型和临床队列的比较分析提供了宝贵基准。

最重要的是，分子和临床数据在统一框架内的整合支持强大的多维分析，促进假设生成、生物标志物发现、疾病分层和泪液生物学的系统级研究。总体而言，该平台作为通过泪液样本分子分析推进精准诊断和个性化治疗的基础工具。

研究人员指出，泪液中最丰富蛋白质的鉴定结果与已知泪膜成分高度一致，验证了分析方法的可靠性。同时，高频检测到的一些特征不明显的蛋白质为新型生物标志物发现和假设生成提供了机会，这些蛋白质可能在泪膜稳态或 ocular surface 病理学中发挥未被充分认识的作用，值得进一步的功能研究。

与蛋白质组谱平行的临床元数据的纳入使TearFluid数据库与先前可用的存储库区分开来。通过整合年龄、性别、种族、眼部诊断、药物使用和 ocular surface 参数等变量，数据库使用户能够探索数据集中生物学和临床有意义的模式并得出新见解。这种集成结构支持跨人口统计学和疾病类别的分层分析，促进亚组特异性蛋白质特征的识别，并增强研究结果的生物学可解释性。

TearFluid数据库平台的设计以可扩展性为核心优先事项。MVC架构模式的使用实现了网络应用的高效开发和无缝扩展。研究团队正在进行的工作重点是通过分析来自广泛个体(包括健康对照)的泪液样本来增加数据集规模。未来的工作将涉及与更多机构的合作，以进一步扩展数据库。随着更多样本的处理，该资源将在规模和临床多样性方面增长，从而能够开发日益完善的参考范围，并为亚组分析提供更大的统计功效，从而增强平台在横断面比较、纵向研究和机器学习应用中的实用性。

尽管具有优势，当前版本的TearFluid数据库存在一些值得考虑的局限性。样本量虽然比大多数采用高分辨率分析的现有泪液蛋白质组学研究大，但对于人群级推断仍然适中。随着数据库扩展到包括更多样本，特别是来自不同背景和特定眼部疾病患者的样本，其统计功效和普适性将提高。此外，尽管基于DIA的蛋白质组学提供了高深度和可重复性，但尚未捕获翻译后修饰或蛋白质异构体的全部复杂性，所有这些都可能与泪液生物学相关。而且，基于质谱的蛋白质组学无法捕获泪液蛋白质的全范围，特别是对于 ocular surface 稳态至关重要的低丰度蛋白质(如细胞因子)，因为它们通常存在于传统质谱方法的检测限以下。此外，几种蛋白质表现出较差的电离效率，降低了它们的检测可能性。未来的方向包括扩展数据库以纳入纵向数据、疾病队列(如干眼症、青光眼、自身免疫性疾病)以及使用补充蛋白质组学技术(如靶向MS或基于抗体的方法)进行跨平台验证。

总体而言，TearFluid数据库作为公开可访问、可扩展的资源，整合了基于DIA的高分辨率质谱数据与全面临床和人口统计学元数据，推动了泪液蛋白质组学研究的发展。该平台建立了规范性参考范围，支持跨研究比较，并使研究人员能够执行发现分析、生成假设并揭示临床有意义的模式。这一集成框架为泪液生物标志物发现和转化研究提供了坚实基础。

热点排行

新闻专题