《Proteomics Clinical Applications》:A Network-Based Association of IBD and Colorectal Cancer Using Proteomics Data
1 引言
结直肠癌(CRC)是全球主要的健康挑战之一,2022年报告有190万新发病例和超过90万死亡病例。其发病率在发达国家更高,与饮食和久坐生活方式相关。CRC通过遗传和表观遗传改变的逐步积累发展而来,通常始于具有高恶性潜能的癌前息肉,如腺瘤和锯齿状息肉。除了经典的腺瘤-癌序列(涉及APC、KRAS和TP53突变)和锯齿状通路(以BRAF突变和CpG岛甲基化表型(CIMP)为特征)外,慢性肠道炎症是另一条肿瘤发生途径,特别是在炎症性肠病(IBD)的背景下,其炎症-异型增生-癌序列源于早期的TP53突变和染色体不稳定性。
早期检测至关重要,粪便免疫化学检测(FIT)是目前英国54-74岁人群的标准筛查方法。然而,早发性CRC在年轻人群中呈上升趋势。IBD,包括克罗恩病和溃疡性结肠炎,是胃肠道的一种慢性、无法治愈的炎症性疾病,也是CRC的明确风险因素。IBD患者的慢性炎症驱动上皮损伤,增加突变率,从而促进癌发生。
多组学整合了各种高通量组学技术,为疾病提供了系统层面的概述。蛋白质组学专注于量化蛋白质表达和相互作用,这对于CRC由于其异质性而至关重要。理解涉及蛋白质、转录因子和代谢物的复杂网络对于揭示IBD驱动的炎症与CRC进展之间的机制桥梁至关重要。
本研究聚焦于通过UK Biobank中基于机器学习的生物标志物选择先前确定的七个CRC关联蛋白(TFF3、TFF1、AHCY、RETN、LCN2、SELE和CEACAM5)。我们假设这些蛋白质在分子网络内功能互连,并且这些网络的元素也在IBD中运作,暗示了驱动炎症诱导肿瘤发生的共享机制。为了探索这一点,采用了多组学方法:(1) 使用UK Biobank的蛋白质组数据分析CRC和IBD中这七种蛋白质的表达;(2) 使用OmicsNet构建涵盖蛋白质-蛋白质、代谢物-蛋白质和转录因子-蛋白质关系的分子相互作用网络;(3) 在独立数据集中验证发现;(4) 研究这些网络如何反映促成CRC发展的炎症机制。
1.1 使用的数据集和方法
研究利用UK Biobank的蛋白质组数据来识别CRC和IBD病例中的蛋白质表达模式。
1.2 来自UK Biobank的蛋白质组数据
数据来自UK Biobank,这是一项包含500,000名参与者的前瞻性人群队列研究。
1.3 病例和对照数据匹配
CRC和IBD病例及对照队列源自UK Biobank的ICD-10诊断代码。对于CRC,最终过滤得到509名具有完整代谢组和蛋白质组数据的个体。对于IBD,有1002例病例符合纳入标准,并与51,486名健康对照个体进行比较。蛋白质组数据来自血浆样本,使用Olink高通量平台进行分析。
1.4 蛋白质选择的理由
选择七种蛋白质(TFF3、TFF1、AHCY、RETN、LCN2、SELE和CEACAM5)是基于Radhakrishnan等人最近一项基于机器学习的研究的发现,该研究使用LASSO、XGBoost和LightGBM分类器结合SHAP分析来识别对CRC最具预测性的蛋白质。
1.5 分子相互作用的构建
为了研究七种目标蛋白的分子相互作用,使用OmicsNet 2.0进行了计算机模拟网络分析。构建了蛋白质-蛋白质、蛋白质-代谢物和转录因子-蛋白质相互作用网络。
1.6 网络拓扑分析
进行了网络拓扑分析以探索相互作用网络的结构组织。应用了两个中心性度量:度中心性和介数中心性。度中心性衡量节点在网络内的直接连接数,代表其局部重要性。介数中心性是一个全局度量,量化一个节点位于其他节点之间最短路径上的频率。在本分析中,表现出高度和介数的蛋白质被优先考虑进行进一步研究。
1.7 通过Colonomics进行转录组验证
Colonomics是一个多组学数据库。该数据集包含100对来自诊断为II期微卫星稳定(MSS)结肠癌患者的肿瘤和相邻正常组织。此外,还从接受结肠镜检查且未发现病变的个体中获取了50个健康结肠黏膜样本。使用Affymetrix微阵列进行基因表达谱分析。
1.8 统计分析
对于UK Biobank结肠癌数据集,计算了病例组和对照组中七种蛋白质表达的描述性统计。对于IBD数据集,计算了六种蛋白质的描述性统计。蛋白质表达值通过自动标度进行标准化。使用单尾学生t检验评估病例相对于对照的蛋白质表达上调。对于Colonomics数据集,推导了跨组织类型、分子亚型、突变状态和临床特征的基因表达的描述性统计。使用双尾检验和Benjamini–Hochberg(BH)方法进行FDR校正。统计显著性设定为p < 0.05(经FDR校正)。
2 结果
2.1 结肠癌中的蛋白质表达
分析了UK Biobank中对照组和结肠癌样本中七种CRC关联蛋白的表达水平。所有七种蛋白质在结肠癌病例中的表达均显著高于对照组(p < 0.05)。
2.2 IBD中的蛋白质表达
为了研究CRC和IBD之间的潜在交叉点,分析了UK Biobank数据集中IBD病例组和对照组中六种CRC关联蛋白的表达。所有六种蛋白质在IBD样本中的表达均显著增加(p < 0.05)。CEACAM5在此IBD数据集中未检测到。
2.3 蛋白质-蛋白质相互作用
为了探索七种CRC关联蛋白之间的分子相互作用,使用OmicsNet通过四个数据库构建了PPI网络:InnateDB、STRING、IntAct和HuRI。
在InnateDB中,118个节点和117条边形成了三个子网络。AHCY成为中心枢纽(度=52,介数=4375.5),其次是SELE、TFF1和CEACAM5。TFF3和RETN显示出最小的连接性。
STRING生成了最小且最分散的网络。每个蛋白质形成孤立的子网络。LCN2连接最多,而RETN未检测到。
IntAct呈现了最大且最集成的网络。所有七种蛋白质都被包含在内。AHCY和LCN2在单独的子网络中都是中心。所有种子蛋白质都具有非零介数。
HuRI形成了一个66个节点的网络,包含三个子网络。LCN2再次充当中心枢纽。SELE和CEACAM5未检测到。
总之,AHCY和LCN2始终作为关键枢纽出现,而TFF3和RETN显示出低连接性。网络结构和蛋白质中心性因数据库而异,突出了多源验证的必要性。
2.4 代谢物-蛋白质相互作用
为了研究潜在的代谢物-蛋白质相互作用(MPI),将所有七种CRC关联蛋白输入OmicsNet的KEGG和Recon3D数据库。在这两个数据库中,只有AHCY被发现与代谢物相互作用,形成一个代谢枢纽,而其他六种蛋白质没有显示出关联。在KEGG MPI网络中,AHCY与六种代谢物相互作用(S-腺苷高半胱氨酸、高半胱氨酸、腺苷、H2O、Se-腺苷硒代高半胱氨酸和硒代高半胱氨酸)。中心性分析显示AHCY是一个主导枢纽,度为6,介数中心性为15。Recon3D网络复制了这些发现。
2.5 转录因子-蛋白质相互作用
为了研究七种CRC关联蛋白的转录调控,使用TTRUST、ENCODE、JASPAR和ChEA通过OmicsNet生成了转录因子-蛋白质相互作用网络。
TTRUST产生了38个节点,分布在三个子网络中。最大的子网络包括TFF1、SELE、TFF3和LCN2,连接到共享的转录因子,如RELA、NF-κB、SP1和STAT1。AHCY未检测到。
ENCODE揭示了122个节点和134条边,主要网络中有六种蛋白质。AHCY是转录调控最多的(度=67,介数=5241.7)。
JASPAR产生了一个包含所有七种蛋白质的34个节点的单一网络。AHCY、TFF1和SELE显示出最高的中心性。GATA2是连接最多的转录因子,调节除LCN2外的所有种子蛋白。
ChEA识别了120个节点和179条边。AHCY、TFF1和SELE再次显示出最高的中心性。GATA2是跨所有蛋白质(除LCN2外)的突出转录因子。
总体而言,AHCY、TFF1和SELE是转录调控最多的,而GATA2和NF-κB是跨多个数据集的复现关键调节因子。
2.6 使用Colonomics数据集进行转录组验证
使用Colonomics数据集对II期微卫星稳定(MSS)结肠癌中的七种CRC关联基因进行了转录组验证。分析了跨组织类型、性别、分子亚型、肿瘤位置和突变状态的表达。TFF3在正常黏膜中表达最高,在相邻和肿瘤组织中显著下调,而TFF1呈相似趋势但无统计学意义。SELE在正常组织中表达最低,在肿瘤样本中显著上调。AHCY在相邻组织中下调,但在肿瘤组织中上调。LCN2在肿瘤样本中显著升高,而RETN和CEACAM5表达稳定,无显著变化。这些表达模式与UK Biobank蛋白质组数据不同,在UK Biobank中所有七种蛋白质在CRC患者中均上调。
肿瘤样本的基因表达在男性和女性之间未观察到统计学上的显著差异。当按共识分子亚型(CMS)分组时,TFF3在CMS1中显著高于CMS2,AHCY在CMS2和CMS3中更高,SELE在CMS4中显著增加。其余基因未显示显著变异。LCN2是唯一一个基于肿瘤位置具有统计学显著差异的基因,在右侧肿瘤中表达更高。按CIMP分析显示,CIMP高和CIMP低组之间没有显著的表达差异。同样,BRAF V600突变状态对七种基因中任何一种的表达都没有显著影响。最后,KRAS突变状态显示,只有SELE表达在KRAS突变肿瘤中显著降低,而其他六个基因不受影响。总体而言,这些发现表明特定的CRC关联基因在肿瘤背景下受到差异调节,其中TFF3、SELE、AHCY、LCN2和SELE与亚型和突变特异性过程特别相关。
3 讨论
本研究旨在通过多组学方法研究CRC和IBD之间的分子相互作用,特别关注七种先前确定的CRC关联蛋白。研究结果验证了假设,揭示了所有七种蛋白质在CRC中以及六种在IBD中显著上调,并确定了AHCY和LCN2作为核心网络枢纽。此外,监管节点的重叠,特别是转录因子如NF-κB和GATA2,暗示了两种疾病背后共享的炎症机制。这些结果强化了炎症驱动肿瘤发生的概念,并突出了连接慢性炎症和结直肠癌发生的潜在关联。
3.1 蛋白质表达和功能意义
本研究在UK Biobank的CRC样本中发现了七种CRC关联蛋白的显著上调。此外,这六种蛋白质在IBD患者中也显示出显著上调。这些蛋白质在两种疾病中的同时上调与结肠中炎症和肿瘤发生之间已确立的联系一致。TFF3和TFF1在CRC中升高,这与先前的研究相符。TFF3与侵袭性癌症相关,促进上皮间质转化和侵袭。TFF1在CRC中的作用似乎更为复杂,可能具有背景依赖性作用。LCN2在IBD样本中表达最高,在CRC中也显著升高。LCN2是一种先天免疫蛋白,在肠道炎症期间增加,是黏膜损伤的生物标志物。CEACAM5在IBD数据集中缺失,尽管在CRC样本中显著上调。CEACAM5是临床用于CRC诊断和预后的成熟生物标志物。RETN在CRC和IBD中上调,这与IBD患者循环中RETN较高的文献一致。
3.2 分子相互作用网络分析
网络分析揭示了这七种CRC关联蛋白如何在更广泛的分子网络内相互作用。通过构建PPI、MPI和转录因子-蛋白质网络,识别了可能参与炎症和CRC的核心枢纽节点。
AHCY在蛋白质-蛋白质、代谢物-蛋白质和转录因子-蛋白质网络中作为一个中心枢纽出现。它在许多网络中表现出高连接性,并且是唯一直接与代谢物相互作用的蛋白质,突显了其核心作用。这与AHCY通过水解S-腺苷高半胱氨酸(SAH)为腺苷和高半胱氨酸来关联细胞甲基化的功能相一致。AHCY在人类CRC组织中上调,并促进肿瘤细胞增殖、侵袭、血管生成和促炎信号传导。
LCN2显示了与炎症信号通路的多种连接,如STAT3、NF-κB和SP1。这支持了LCN2作为转录网络中关键炎症介质的作用。LCN2在肠上皮细胞中的过表达通过触发细胞焦亡和上皮损伤促进结肠炎炎症,有助于支持肿瘤起始的环境。
TFF3在转录因子网络中比在蛋白质网络中参与更多。TFF3显示出与NF-κB的连接。这种相互作用先前已有描述,TFF3会短暂激活NF-κB。这表明TFF3创建了一个调节炎症的反馈回路。
SELE和TFF1在网络中显示出中等程度的连接,在转录因子-蛋白质相互作用中相关性更高。CEACAM5显示出较低的连接性,但仍连接在分子网络内;然而,RETN在许多网络模型中都是孤立的,两者都扮演着更外围的角色。这表明RETN的调控主要独立于核心网络。
转录因子分析提供了对连接炎症和CRC的潜在调节因子的进一步见解。GATA2成为一个突出的转录因子,在两个网络中与除LCN2外的所有七种蛋白质相互作用,并且中心性很高。它调节血管生成,这对肿瘤进展至关重要,并且GATA2过表达与晚期CRC和不良预后相关。从机制上讲,GATA2激活一个miR-31介导的通路,该通路抑制SELE,减少SELE介导的结肠癌细胞粘附和迁移,支持其作为影响肿瘤进展和CRC中炎症相关通路的调节枢纽的潜在作用。
总体而言,这些网络表明,在CRC和IBD中上调的蛋白质并非孤立工作,而是参与复杂的、集成的通路,并有独特的关键枢纽。
3.3 使用Colonomics数据集进行独立验证
使用Colonomics数据集进行验证有助于研究结果的应用。SELE、AHCY和LCN2在结肠肿瘤组织中与正常黏膜相比显著上调,反映了血浆蛋白质表达的结果,加强了它们作为疾病相关标志物的相关性。然而,一些蛋白质在系统和组织表达之间表现出差异。TFF3在结肠肿瘤样本和相邻组织中的表达与正常黏膜相比下调。这表明血浆中TFF3的增加可能是由于炎症过程或肿瘤微环境,而非肿瘤细胞本身。TFF3在CMS1中的表达显著高于典型的CMS2亚型。这通过CMS1作为炎症亚型显示出最高的TFF3表达,支持了IBD与CRC之间的联系。AHCY表现出动态表达,与正常黏膜相比,在肿瘤组织中显著上调,然而,与正常黏膜相比,在相邻组织中下调。AHCY在CMS2和CM3中也高于CMS1,这符合AHCY在新陈代谢和增殖中的作用。TFF1、RETN或CEACAM5在组织类型之间未显示出显著的表达差异,突出表明这些蛋白质可能在II期MSS结肠癌中不起重要作用。LCN2在右侧肿瘤中显著高于左侧。这与之前将LCN2表达与增加的CD8+ T细胞和巨噬细胞浸润联系起来的研究一致。SELE在CMS4中更高,并且是唯一因KRAS突变状态而不同的蛋白质。
这些蛋白质均未因性别、CIMP或BRAF状态而显示出显著差异,推断它们的表达模式不受特定分子亚型的限制。进一步加强了这些蛋白质代表核心炎症和致癌过程而非亚型特异性改变的相关性。
3.4 本研究的优势和局限性
本研究使用了稳健而强大的数据集,每个数据集都呈现出其优势和局限性。通过整合蛋白质组学和转录组学,超越了孤立的表达谱,在更广泛的功能背景下检查蛋白质。使用UK Biobank的大型队列增加了统计功效和稳健性,随后独立的Colonomics数据集增加了一层验证,加强了研究结果的应用。本研究超越了差异表达,探索了分子相互作用网络,从而识别了功能枢纽,而不是仅仅依赖表达量级。
尽管如此,本研究存在局限性。UK Biobank数据来自使用Olink PEA分析的血浆,反映了系统表达而非组织特异性表达。这些值是标准化和相对的,降低了它们与Colonomics中基因表达直接比较的能力。Colonomics数据集仅包含来自150名患者的II期MSS肿瘤,意味着其他疾病状态未得到体现。UK Biobank缺乏关于肿瘤位置、治疗、IBD病程和疾病过程的临床注释。这限制了分层结果或推断疾病进展途径的能力。IBD数据集缺少CEACAM5检测,且病例和对照不匹配。
OmicsNet内的数据库显示出与所产生网络的不一致性,由于数据管理差异而使生物学解释复杂化。生物信息学工具的使用提供了强大的探索能力,这是传统方法无法实现的,但通常缺乏实验验证。因此,相互作用和通路是理论性的,直到在体内或体外得到证实。网络分析依赖于中心性度量来识别中心节点,虽然它们有益,但不提供因果关系和连接背景的信息。
3.5 未来研究
为了在本研究结果的基础上进一步发展,必须进行进一步的研究以增强生物学相关性和转化潜力。首先,计算机预测需要实验生物学验证。像AHCY和LCN2这样的关键节点应优先在CRC模型中进行功能研究。其次,应在更多样化的人群和队列中评估结果的普遍性。两个数据集都基于欧洲队列,因此,在多种族或更大的队列中验证这七种蛋白质将很有价值。第三,纵向数据用于识别从高风险人群(如IBD)向CRC过渡期间的蛋白质组变化。最后,明确区分系统或循环生物标志物与组织水平的表达谱至关重要。循环蛋白质水平不一定反映肿瘤细胞或肿瘤微环境中相应基因的表达。因此,在将血浆蛋白质组信号解释为肿瘤细胞生物学指标时应谨慎;系统性生物标志物波动可能反映更广泛的宿主反应或非肿瘤细胞的贡献。
未来的研究应纳入和调整混杂因素,如年龄、饮食、BMI、吸烟状况和合并症,这些都会影响炎症和癌症风险。调整这些参数将澄清观察到的差异是否真正由CRC和IBD引起,并减少偏差。
4 结论
这项多组学研究为CRC的分子结构以及慢性炎症与CRC之间的分子相互作用提供了新的见解。从UK Biobank中确定的七种关联蛋白在CRC中上调,其中六种在炎症性疾病(IBD)中也升高。AHCY和LCN2作为相互作用网络的核心枢纽出现,表明它们参与涉及炎症、新陈代谢和表观遗传修饰的关键关联。这六种蛋白质在IBD中的同时上调突出了慢性结肠炎症与恶性转化之间的潜在炎症桥梁,特别是通过经常参与网络的NF-κB。
使用Colonomics数据集进行的验证支持了几种蛋白质的表达,特别是LCN2、SELE和AHCY,进一步加强了它们的功能相关性。总之,这项研究强烈支持结肠中的炎症和致癌通路通过蛋白质相互作用网络相关联的假设。这些结果鼓励进一步的实验验证,并为开发针对炎症驱动的结直肠癌发生的治疗靶点开辟了道路。将蛋白质组数据与网络生物学整合并在独立队列中进行验证的方法可以应用于其他复杂的疾病交叉点,最终提高我们在CRC发展和由慢性炎症驱动的机制方面进行干预的能力。