《Frontiers in Immunology》:Multi-dimensional integration of gene expression, protein evidence, and serum autoantibodies for diagnostic modeling in esophageal squamous cell carcinoma
编辑推荐:
本研究通过生物信息学筛选、文献回顾与血清学验证的多维整合策略,鉴定出六个在食管鳞状细胞癌中显著升高的自身抗体,并基于支持向量机算法构建了高特异性的早期诊断模型。该模型在独立时测试集中表现出稳定的鉴别性能,为食管鳞癌的非侵入性早期筛查提供了新的潜在工具。
引言
食管癌是起源于食管上皮的恶性肿瘤。根据GLOBOCAN 2022数据,食管癌是全球第11大常见癌症,年新发病例约51.1万,并是癌症相关死亡的第七大原因,每年导致约44.5万人死亡。东亚地区的发病率最高。在中国,食管癌的疾病负担尤为显著,2022年全球新发病例的58.50%和死亡病例的56.80%发生在中国。约90%的食管癌病例被归类为食管鳞状细胞癌,这是最常见的组织学类型。尽管食管癌预后较差,5年生存率低于20%,但研究表明,接受食管切除术的早期ESCC患者5年生存率可超过85%。然而,由于缺乏特异性临床症状,早期发现和治疗仍然面临挑战。考虑到内镜检查和活检的高成本与侵入性,迫切需要新的非侵入性诊断生物标志物以实现早期检测。目前,尚不存在用于ESCC早期诊断的有效标志物。
免疫系统可检测癌症患者体内异常的肿瘤相关抗原,从而触发肿瘤相关自身抗体的产生。TAAbs因其半衰期长、检测方法可靠、持续存在且在疾病早期出现,已被认为是早期癌症筛查的宝贵生物标志物。由于单个TAAb的敏感性相对较低,近期研究集中于联合多种标志物以实现更高的诊断价值。在ESCC中,此前关于自身抗体的研究主要使用研究者自行开发的蛋白质芯片或血清蛋白质组学来筛选潜在自身抗体。近年来,生物信息学已成为从公共数据库中筛选差异表达基因的有效工具,为识别生物标志物提供了新方法。蛋白质水平与mRNA水平的变化密切相关。由于从肿瘤组织释放的细胞蛋白可激活免疫系统诱导自身抗体产生,异常表达的蛋白质可能影响免疫系统中自身抗体的水平。然而,从基因表达水平入手,并通过组织蛋白表达研究自身抗体水平的研究仍然有限。
因此,本研究旨在利用基因表达综合数据库、癌症基因组图谱计划和基因型-组织表达数据库,并进行加权基因共表达网络分析,以识别与ESCC相关的候选基因。通过文献综述探讨这些候选基因编码的相应蛋白在ESCC中的表达情况,并将异常表达的蛋白确定为候选TAAs。总计通过酶联免疫吸附试验检测了940份血清样本。其中,利用ELISA在728名个体中鉴定了对ESCC具有诊断意义的TAAbs。最终,基于ELISA识别的TAAbs构建了八种机器学习模型,并选择最优诊断模型。该模型的性能在包含212份样本的独立时测试集中得到进一步评估,突显了其在ESCC早期检测中的潜在效用。
方法
研究人群
本研究为一项医院为基础的病例对照研究。于2020年10月至2023年8月期间在中国河南省一家三级医院共收集728份血清样本,包括277例ESCC患者、277名正常对照和174名良性食管疾病患者。此外,使用同一医院在2024年9月至2025年8月期间收集的样本,建立了一个由106例ESCC病例和106名NC组成的独立时测试集。本研究获得郑州大学伦理委员会批准,并获得所有参与者的书面知情同意。所有ESCC病例均来自血液采集前未接受任何抗肿瘤治疗的新诊断患者。正常对照来自同期在同一医院接受常规健康检查的个体,并按年龄和性别与ESCC病例进行频数匹配。排除患有免疫系统相关疾病或有任何癌症病史的受试者。在验证阶段,使用90例ESCC和90名NC来识别差异表达的TAAbs。在建模阶段,在187例ESCC、187名NC和174名BED患者中进一步评估了这些差异表达的TAAbs。此外,将187例ESCC病例和187名NC按7:3的比例随机分为训练集和内部测试集。使用训练数据训练了八个诊断模型以确定最优模型,随后在内部测试集中进行验证。最终模型在独立时测试集中进一步评估了其普适性。
从所有参与者采集空腹静脉血样本,室温凝固后,以3000 rpm离心5分钟分离血清。上清液分装于1.5毫升离心管中,于-80°C保存。为减少多次冻融的影响,血清以200微升每份进行分装。
生物信息学与文献检索筛选候选TAAs
从GEO数据库获取包含ESCC和正常样本的基因微阵列数据集,分析了七个相关GEO数据集中差异表达基因的交集。其中,样本量最大的基因数据集GSE23400被选作WGCNA分析。从WGCNA中导出与ESCC关联最强的颜色模块至Cytoscape软件,并使用CytoHubba插件根据基因与其他基因的连接性识别出前50个枢纽基因。同时是差异表达基因的枢纽基因被保留,最终得到26个共有差异表达基因。这26个共有基因利用LIMMA方法在TCGA-GTEx数据库(78个肿瘤组织和663个正常组织)中进行了验证。为减少整合TCGA和GTEx数据时潜在的批次效应,使用“SVA”R包中的“ComBat”算法进行了批次校正。对于候选基因,|log2FC| > 1且校正后的P值 < 0.05被认为具有统计学意义。
此外,为评估26个候选基因的蛋白质表达水平,进行了一项侧重于免疫组化分析的文献综述。截至2024年6月30日,文献综述发现26个候选基因中有11个基因的相应蛋白在20项研究中被报道,在ESCC组织中观察到显著更高的蛋白质表达水平。这11个高表达蛋白被用作后续研究的候选TAAs。
通过ELISA检测差异表达的TAAbs
除CDKN3因无法达到实验所需的纯度和浓度而被排除外,十种蛋白质(ECT2、KIF4A、SURV、AURKA、CKS1B、TPX2、CEP55、NEK2、KIF2C、MCM6)购自武汉华美生物工程公司、云克隆公司和三鹰公司。所有蛋白经SDS-PAGE验证浓度、纯度和分子量后,在包被缓冲液中稀释至0.250微克/毫升,确认分子量符合预期且纯度大于85%。96孔板用特异性抗原包被,4°C孵育过夜。用2%牛血清白蛋白在37°C封闭2小时后,以1:100稀释度加入血清样本,37°C孵育1小时。将显色液A和B按1:1比例混合加入各孔,避光显色5-15分钟。加入终止液终止反应。在450纳米和620纳米处测量吸光度,净OD值通过450纳米读数减去620纳米读数计算。每块板包括两个空白孔和六个质控孔。质控孔含有在预实验中识别出的具有高免疫原性的血清样本,其OD值用于标准化每块板。空白OD > 0.1的板需重做。
TAAbs的ELISA检测及后续数据处理由两名对样本状态设盲的研究人员进行。为尽量减少板间差异,ESCC、BED患者和健康对照的血清样本在同一块ELISA板上同时检测。每块板内,样本位置随机分配以减少潜在的位置效应。
统计分析
使用PASS软件计算样本量。使用Mann-Whitney U检验比较两组间单个TAAb的水平,使用Kruskal-Wallis H检验比较多组间的水平。通过确定在特异性超过85%时最大化约登指数的值,确定每个TAAb的最佳截断值。通过计算受试者工作特征曲线下面积、敏感性、特异性、阳性似然比、阴性似然比、约登指数和准确度来评估诊断性能。使用bootstrap重抽样法确定这些指标的95%置信区间。在训练集中,基于六个TAAb的OD值,使用“caret”R包创建了八种机器学习算法,包括支持向量机、随机森林、神经网络、朴素贝叶斯、线性判别分析、混合判别分析、灵活判别分析和逻辑回归。每个模型的性能通过100次10折交叉验证进行评估以确保结果可靠。对于每个机器学习模型,最佳截断值通过最大化约登指数同时限制特异性大于85%来确定。使用DeLong检验计算AUC的统计学显著差异。对性别、年龄、TNM分期、分化程度、部位、淋巴结转移和远处转移进行亚组分析,以评估最优模型的诊断稳定性。使用R中的“rms”包生成校准曲线,基于所选模型的边际效应和平均预测概率。使用“dcurves”包进行决策曲线分析,以评估所选模型的净临床效益和判别性能。使用“shiny”包开发了一个基于网络的诊断工具,并部署在开源平台“shinyapps.io”上以便于访问。所有统计分析均使用R软件进行,双尾P < 0.05被认为具有统计学意义。
结果
研究设计与人口学特征
本研究包括四个阶段:发现阶段、验证阶段、建模阶段和评估阶段。在第一阶段,通过生物信息学分析识别候选基因,并通过文献综述评估相应蛋白的表达水平。在第二阶段,在90例ESCC和90名NC中检测了10种候选TAA对应的自身抗体水平。在第三阶段,在187例ESCC、174名BED对照和187名NC中进一步比较了7种差异表达TAAb的水平,发现六种TAAb在ESCC组和正常组之间存在差异表达。随后使用这六种TAAb构建了八种机器学习模型。从训练集中选择最优模型,并在内部测试集中进行验证。在第四阶段,在包含106例ESCC和106名NC的独立时测试集中进一步评估了最优模型的诊断性能。
基于生物信息学和文献综述识别候选TAAs
在比较ESCC和正常组织时,共有52个基因在七个GEO数据集中被一致鉴定为差异表达。此外,选择GSE23400数据集进行WGCNA。将WGCNA网络中连通性排名前50的枢纽基因与52个差异表达基因取交集,得到26个重叠基因。这26个重叠基因使用TCGA-GTEx数据库进行了进一步验证,确认了它们在ESCC和正常组织之间的差异表达。这26个重叠基因被视为初步候选。全面的文献综述(截至2024年6月30日)显示,这些基因中11个基因(ECT2、KIF4A、CDKN3、SURV、AURKA、CKS1B、TPX2、CEP55、NEK2、KIF2C、MCM6)的相应蛋白被报道在ESCC组织中相较于癌旁正常组织显著过表达,并经免疫组化证实。其中,成功合成了十种蛋白质(CDKN3除外),并选择作为候选TAAs用于后续的自身抗体反应实验验证。
验证阶段血清自身抗体水平
在验证阶段,使用十种候选TAAs评估了90例ESCC和90名NC中TAAb的血清水平。其中七种TAAb(抗CEP55、抗CKS1B、抗ECT2、抗KIF2C、抗KIF4A、抗SURV和抗TPX2)在ESCC组中的表达水平显著高于对照组,并显示出潜在的诊断价值。这七种TAAb的AUC值范围在0.607至0.683之间:抗CEP55 (AUC: 0.615, 95% CI: 0.533-0.697),抗CKS1B (AUC: 0.681, 95% CI: 0.604-0.758),抗ECT2 (AUC: 0.635, 95% CI: 0.554-0.715),抗KIF2C (AUC: 0.683, 95% CI: 0.606-0.760),抗KIF4A (AUC: 0.607, 95% CI: 0.525-0.689),抗SURV (AUC: 0.657, 95% CI: 0.578-0.736),和抗TPX2 (AUC: 0.644, 95% CI: 0.563-0.724)。敏感性范围在16.67%至37.78%之间,而特异性在85.56%至95.56%之间变化。
建模阶段的诊断性能
在建模阶段,在548名受试者(包括187例ESCC、174名BED患者和187名NC)中测试了验证阶段的七种差异表达TAAb的血清水平。除抗KIF4A外,其余六种TAAb的水平在ESCC组中均显著高于BED组和正常组,并具有诊断价值。这六种TAAb的AUC值范围在0.598至0.674之间:抗CEP55 (AUC: 0.598, 95% CI: 0.541-0.655),抗CKS1B (AUC: 0.657, 95% CI: 0.602-0.711),抗ECT2 (AUC: 0.600, 95% CI: 0.543-0.657),抗KIF2C (AUC: 0.674, 95% CI: 0.621-0.728),抗SURV (AUC: 0.673, 95% CI: 0.619-0.727),和抗TPX2 (AUC: 0.637, 95% CI: 0.581-0.693)。敏感性范围在20.32%至29.41%之间,特异性在85.56%至91.98%之间变化。
基于机器学习的免疫诊断模型的诊断性能
在训练集中基于六种TAAb构建了八种机器学习模型。DeLong检验结果显示,支持向量机模型的诊断性能优于其他模型。SVM模型的AUC为0.826 (95% CI: 0.776-0.876),敏感性、特异性和准确率分别为60.0%、86.15%和73.08%。SVM模型在内部测试集中显示出AUC为0.741 (95% CI: 0.651-0.832),敏感性为45.61%,特异性为85.96%,准确率为65.79%。尽管AUC略低于训练集,但DeLong检验显示差异无统计学意义。决策曲线分析表明,在大约25%–75%的阈值概率范围内,与“全部治疗”和“全部不治疗”策略相比,SVM模型提供了正的净临床效益。训练集和内部测试集中的校准曲线显示预测概率与观察概率之间具有良好的一致性。
SVM模型在独立时测试集中的性能
SVM模型在独立时测试集中实现了AUC为0.779 (95% CI: 0.717–0.842),敏感性为56.60%,特异性为83.02%,准确率为69.81%。这些结果表明,当应用于时间上独立的样本时,该模型保持了稳定的诊断性能。
使用SVM模型进行亚组分析
在亚组分析中,将187例ESCC病例和187名对照根据年龄、性别、TNM分期、分化程度、部位、淋巴结转移和远处转移分为不同亚组。SVM模型的AUC值在临床亚组中介于0.732至0.831之间。DeLong检验显示亚组间无统计学显著差异。
SVM模型的应用
为增强临床适用性,将性能最佳的分类器SVM模型实现为一个交互式基于网络的诊断工具。该平台允许用户输入六种TAAb(抗CEP55、抗CKS1B、抗ECT2、抗KIF2C、抗SURV和抗TPX2)的表达水平,以生成个体化的ESCC风险预测。该网络应用程序可通过链接免费访问。
讨论
在本研究中,通过生物信息学分析和文献综述筛选出11种潜在的ESCC早期诊断生物标志物。经过ELISA验证,六种TAAb(抗CEP55、抗CKS1B、抗ECT2、抗KIF2C、抗SURV和抗TPX2)被鉴定为ESCC潜在的早期诊断标志物。开发了八种基于血清TAAb的机器学习模型用于ESCC早期诊断,其中SVM模型表现出最佳诊断性能,在训练集中AUC达到0.826,在内部测试集中表现出满意的稳定性,AUC为0.741。重要的是,SVM模型的诊断性能在独立时测试集中得到进一步证实,AUC为0.779,表明该模型在时间独立的样本中保持了稳健的预测能力。亚组分析也表明,SVM模型在不同临床亚组中均表现出令人满意的诊断性能。
目前有多种筛选TAAb的方法,其中血清蛋白质组分析和蛋白质芯片最为常见。近年来,筛选肿瘤相关TAAb的新方法不断涌现。然而,从差异表达基因入手识别ESCC相关TAAb的方法对于ESCC早期诊断是否高效尚不清楚。在本研究中,我们利用七个与ESCC相关的GEO数据库识别差异表达基因,并进行WGCNA筛选出26个候选基因,随后使用TCGA和GTEx数据库的数据进行验证。这26个候选基因编码的蛋白中有11种已被文献报道在ESCC中高表达。这些蛋白被用作TAAs,随后通过ELISA进一步筛选出用于模型构建的TAAbs。通过该方法鉴定的单个TAAb的AUC值几乎均大于0.600。我们的研究整合了生物信息学分析、文献综述和实验验证,从mRNA水平推进到蛋白水平,识别ESCC相关自身抗体。这种多维方法突出了结合转录组、蛋白质组和血清学证据以提高可靠诊断生物标志物识别的价值。该策略可能为发现其他类型癌症的早期诊断标志物提供新见解。
当前,自身抗体的研究已超越单个自身抗体的诊断价值,越来越多地关注联合多种自身抗体构建诊断模型,尤其是在癌症领域。这些研究表明,联合多种自身抗体可以克服单个标志物敏感性较低的局限性,增强整体诊断性能。这种方法可能有效,因为肿瘤发生是一个病因多样、涉及众多基因改变及多阶段的复杂过程,尤其是在ESCC中。多种自身抗体的互补作用有助于提高诊断价值。因此,本研究通过不同的机器学习算法结合多种具有潜在诊断价值的TAAb,构建了八种诊断模型,以最大化多种抗体的联合效应。在训练集中构建的八种模型中,所有模型的AUC值均高于0.650。其中,SVM模型达到了最高的AUC值0.826,其稳定性在内部和时测试集中得到进一步证实。
在六种经ELISA验证的TAAb中,抗KIF2C表现出最佳的诊断性能。在整个细胞周期中,KIF2C存在于细胞质中,有助于正常的纺锤体形成、染色体分离以及纠正异常的微管-染色体附着。近期研究表明,KIF2C与多种癌症的肿瘤进展、侵袭、转移和不良预后密切相关。这可能源于KIF2C参与多种细胞信号通路(如MEK/ERK、Wnt/β-catenin、P53、TGF-β1/Smad等)以及其在调节肿瘤免疫微环境和修复肿瘤细胞DNA损伤中的作用。本研究中确认的另一种TAAb——ECT2,通过调节RhoA-ERK信号通路促进ESCC的生长、迁移和侵袭。Zheng等人先前已将ECT2纳入基于蛋白质的ESCC诊断模型,但该研究仅限于少于90例ESCC病例。在我们的研究中,我们使用了更大的样本量来证明抗ECT2的诊断效用。同样,由BIRC5基因编码的蛋白SURV通过结合IKKβ启动子,触发NF-κB p65激活并增强其转录,从而促进ESCC肿瘤发生。根据Hsu等人的研究,TPX2是细胞分裂的关键调节因子,也是ESCC的不良预后标志物;其高表达与总生存期和无病生存期降低相关。CEP55也被发现与晚期ESCC患者的不良预后相关,并可通过PI3K/Akt通路促进ESCC的增殖、迁移和侵袭。Wang等人发现CKS1B与ESCC的晚期肿瘤分期、阳性淋巴结转移以及对放疗的耐药性增加相关。
本研究存在若干局限性需要考虑。首先,在搜索候选基因编码蛋白的免疫组化证据时,我们排除了那些没有相关报道的蛋白质。这可能导致遗漏了具有潜在诊断价值的TAAbs。因此,未来的研究应继续探索这些蛋白产生的自身抗体的诊断潜力和生物学机制。其次,需要大样本量的前瞻性研究来验证本研究中确定的SVM模型的预测性能。
结论
总而言之,本研究采用了一种整合生物信息学、文献综述和实验验证的多维方法,开发了一个包含六种自身抗体(抗CEP55、抗CKS1B、抗ECT2、抗KIF2C、抗SURV和抗TPX2)的SVM模型,用于ESCC的早期诊断。未来的研究应侧重于在更大的人群中验证该模型,并进一步探索相关自身抗体背后的分子机制。