《BMC Pharmacology and Toxicology》:Exploratory identification of COL1A1 as a potential gene linking endocrine-disrupting chemicals and lung adenocarcinoma: a bioinformatics and machine learning analysis
编辑推荐:
本文通过生物信息学与机器学习分析,探索了13种常见环境内分泌干扰物(EDCs)与肺腺癌(LUAD)间的分子联系,并首次将Ⅰ型胶原蛋白α1链基因(COL1A1)识别为连接两者的关键特征基因。研究揭示了COL1A1在细胞外基质(ECM)受体相互作用及调节肿瘤免疫微环境(如促进M0/M2巨噬细胞浸润)中的核心作用,为理解环境污染物影响肺癌发展的机制提供了新的计算框架。
引言
内分泌干扰化学物(EDCs)是一类广泛存在于环境中的外源性化合物,它们能够干扰机体的内分泌系统,破坏正常的细胞功能。这些化学物常见于塑料制品、食品包装、农药、工业排放物及室内环境中,具有亲脂性、环境持久性和生物累积性。EDCs可通过吸入、摄入或皮肤接触进入人体,并可能在血液、脂肪组织甚至肺部长期存留,导致长期、低剂量、累积性的暴露,引发对其潜在健康风险的广泛担忧。
越来越多的证据表明EDCs与多种毒性相关,特别是在生殖、代谢和免疫功能紊乱方面。然而,它们在癌症发展,尤其是在肺腺癌(LUAD)这类高发癌症中的作用尚未得到充分探索。LUAD是非小细胞肺癌(NSCLC)中最常见的亚型,全球发病率近年来持续上升。流行病学研究已报告了某些已知或疑似致癌的EDCs,如多环芳烃(PAHs)、多氯联苯(PCBs)和二噁英(TCDD)与肺癌发生之间的关联,尤其是在女性中。长期暴露于全氟辛酸(PFOA)和全氟辛烷磺酸(PFOS)等物质与肺癌风险增加有关。此外,城市人群中邻苯二甲酸酯和双酚类化合物高检出率与肺功能损伤和更高的癌症易感性相关,进一步支持了EDCs可能影响肺癌发展的观点。
然而,EDCs促进LUAD发展的精确机制,包括共享的分子靶点、相关信号通路和调控网络,尚不明确。本研究旨在通过整合多个毒理学数据库与基因表达综合(GEO)数据集,来探索EDCs影响的分子靶点对LUAD进展的影响。通过构建一个涵盖环境化学物、分子靶点和信号通路的多维框架,本研究为理解EDCs相关LUAD的潜在机制提供了计算基础。
方法
本研究采用了系统的生物信息学与机器学习方法来探究13种EDCs与LUAD的关联。
13种EDCs靶基因的收集
研究基于三个严格标准选取了13种EDCs,包括双酚A(BPA)、双酚S(BPS)、双酚F(BPF)、毒死蜱、二嗪农、邻苯二甲酸二(2-乙基己基)酯(DEHP)、邻苯二甲酸二丁酯(DBP)、多环芳烃(PAHs)、多氯联苯(PCBs)、多氯二苯并呋喃(PCDFs)、全氟辛酸(PFOA)、全氟辛烷磺酸(PFOS)以及2,3,7,8-四氯二苯并-p-二噁英(TCDD)。选取标准包括:(1)环境普遍性;(2)致癌潜力证据;(3)数据稳健性。从PubChem检索了这些化学物的结构及其简化分子线性输入规范(SMILES)格式,并从ChEMBL、STITCH和SwissTargetPrediction数据库中整合了潜在的分子靶点。为确保数据完整性,使用STRING和UniProt数据库对靶点标识符进行了标准化,并排除冗余或不一致的条目,最终建立了13种EDCs的靶基因库。
LUAD差异表达基因(DEGs)的鉴定
从GEO数据库下载了GSE10072和GSE43767数据集的基因表达数据,并使用R语言进行处理和批次校正。采用非参数Wilcoxon秩和检验比较对照组与LUAD组之间的表达差异,获得每个基因的P值。为控制多重检验,应用了Benjamini-Hochberg错误发现率(FDR)校正。FDR < 0.05的基因被视为差异表达。通过平均差异(logFC = 均值[LUAD] ? 均值[对照])的符号确定表达变化方向。使用火山图可视化结果。
加权基因共表达网络分析(WGCNA)
在整合并标准化GSE10072和GSE43767数据集后,进行WGCNA以识别疾病相关模块和核心基因。对基因名称进行标准化,并过滤掉低变异基因(标准差 < 0.5)。应用对照/LUAD分组,并使用goodSamplesGenes函数移除异常基因/样本。通过层次聚类(阈值 = 20000)排除离群样本。使用pickSoftThreshold函数确定最佳软阈值功率(power),选择R2 ≥ 0.8来构建邻接矩阵和拓扑重叠矩阵(TOM)。使用1 ? TOM进行基因层次聚类,并应用动态树切割法识别模块(最小模块大小 = 60,深度分割 = 2)。选择与LUAD表型高度相关的模块,并根据基因显著性(GS)和模块成员(MM)识别核心候选基因。
基因本体(GO)和京都基因与基因组百科全书(KEGG)富集分析
对从WGCNA识别模块与DEGs的交集中获得的重叠基因进行功能富集分析。使用R包clusterProfiler分析了GO类别(包括生物过程(BP)、分子功能(MF)和细胞成分(CC))以及KEGG通路。为控制多重检验,使用Benjamini-Hochberg方法调整p值,FDR阈值设为 < 0.05。这些显著富集的术语为后续功能机制的解释提供了生物学框架,并构成了构建整合调控网络的基础。
蛋白质-蛋白质相互作用(PPI)网络构建
将前几步识别的关键基因导入STRING数据库以检索PPI并构建PPI网络。使用的参数如下:物种 = 智人,相互作用评分 > 0.7(高置信度)。将生成的STRING TSV文件导入Cytoscape,并使用CytoHubba插件进行网络拓扑分析以识别枢纽基因。
用于特征基因选择的机器学习框架
采用多算法集成的机器学习框架来识别稳健的特征基因。准备了训练数据集,并使用了113个机器学习模型及其组合(包括Lasso、弹性网络(α = 0.1–0.9)、岭回归、逐步广义线性模型(向前/双向/向后)、glmBoost、随机森林(RF)、支持向量机(SVM)、梯度提升机(GBM)、偏最小二乘(plsRglm)、线性判别分析(LDA)、朴素贝叶斯、XGBoost等)来构建预测模型。为减少过拟合并增强模型稳健性,对所有模型进行了交叉验证以评估其泛化性能。最佳模型的选择不仅基于最高的平均曲线下面积(AUC),还基于其在不同数据子集上性能的稳定性。此外,还评估了表现最佳模型之间特征重要性的共识。优先考虑能够一致识别稳定特征重要性的模型,以确保所识别的特征在各种机器学习方法中都具有稳健性。使用独立的外部测试集(未训练数据)通过受试者工作特征(ROC)曲线分析和AUC比较,以及其他性能指标(如准确性、敏感性和特异性)进一步验证模型性能。选择平均AUC最高且特征重要性稳定的模型作为最优模型,并将该模型识别为重要的基因指定为特征基因。
关键基因的初步识别
使用维恩图进行交集分析,比较机器学习选择的特征基因与13种EDCs的靶基因。该分析得出了一份可能影响LUAD的关键基因初步列表。
使用基因集变异分析(GSVA)、基因集富集分析(GSEA)和LUAD中免疫细胞浸润分析关键基因
进行GSVA和GSEA以评估所选关键基因相关的生物学通路。GSVA评估了不同样本间基因集的活动,而GSEA识别了在LUAD表型中显著富集的通路。进行免疫细胞浸润分析以检查LUAD中的免疫微环境。使用诸如CIBERSORT等算法确定了免疫细胞群体的相对丰度,并探索了关键基因与免疫细胞浸润之间的潜在关联。
结果
识别出13种环境EDCs的1818个独特靶点
从三个独立的公共数据库中检索并整合了13种内分泌干扰化学物(EDCs)的靶基因。具体而言,从ChEMBL数据库获得1516个靶点,从STITCH数据库获得71个,从SwissTargetPrediction数据库获得488个。去除重复项后,共识别出1818个独特的靶基因。这些基因为后续功能分析提供了全面的资源。
数据集整合与WGCNA分析识别出93个基因
对GSE10072和GSE43767数据集进行处理并整合为一个统一的数据集。差异表达分析识别出1813个差异表达基因(DEGs),其中与对照组相比,LUAD中有1033个基因表达下调,780个基因表达上调。对整合数据集进行加权基因共表达网络分析(WGCNA),并选择最优软阈值功率(power = 6)来构建无标度网络。基因聚类揭示了若干基因模块。通过分析模块特征基因与临床性状之间的相关性,发现绿松石色模块与LUAD强烈相关。进一步使用维恩图进行交集分析,从绿松石色模块基因与DEGs的重叠中候选出93个潜在关键基因。
GO和KEGG富集分析
GO功能分析显示,这些基因主要参与循环系统中的血管过程和细胞外基质(ECM)组织(生物过程)。在细胞成分中,它们与片层体和含胶原的ECM相关。在分子功能中,它们主要涉及肝素结合和糖胺聚糖结合。KEGG富集分析表明,这些基因与关键通路密切相关,包括PPAR信号通路、ECM-受体相互作用以及蛋白质消化与吸收。
将COL1A1识别为特征基因
使用STRING数据库构建了PPI网络,最小相互作用评分阈值为0.7以仅包含高置信度相互作用。应用MCODE算法识别出前20个枢纽基因。整合GSE118370、GSE139032和GSE6044数据集创建训练数据集。使用机器学习方法,进一步过滤前20个枢纽基因,识别出6个特征基因:ABCA3、CD36、CDH5、COL10A1、COL1A1和VWF。与13种EDCs靶基因进行交集分析,最终将COL1A1确定为与EDC靶基因库相交的中心特征基因。
GSEA和GSVA分析揭示COL1A1与关键生物学通路的关联
GSEA和GSVA分析揭示COL1A1与数个关键生物学通路相关。GSEA识别出COL1A1参与ECM-受体相互作用、粘着斑和脂肪酸代谢,在细胞外基质动力学和代谢方面显示出显著富集。GSVA进一步证明,COL1A1在如ECM-受体相互作用、造血细胞谱系和细胞因子-细胞因子受体相互作用等通路中上调,这些通路与免疫调节和细胞发育相关。然而,在萜类骨架生物合成和柠檬酸循环(TCA循环)等通路中,COL1A1则下调,反映了COL1A1相关聚类中独特的代谢特征。
COL1A1与M0和M2巨噬细胞密切相关
CIBERSORT分析揭示了对照组与LUAD组之间多种免疫细胞浸润的显著差异,包括CD8+T细胞、CD4+T细胞和M0巨噬细胞。观察到COL1A1表达与多种免疫细胞群的浸润水平之间存在显著相关性。具体而言,COL1A1表达与单核细胞、树突状细胞和嗜酸性粒细胞呈负相关。相反,COL1A1表达与M0巨噬细胞和M2巨噬细胞呈显著正相关。这些发现表明,COL1A1表达与以巨噬细胞浸润增加和促炎细胞群减少为特征的免疫抑制谱相关,突显了其作为EDCs暴露背景下调节肿瘤免疫微环境的关键候选基因的潜在作用。
讨论
通过整合ChEMBL、STITCH和SwissTargetPrediction数据库的数据,我们为13种常见EDCs建立了一个全面的靶基因库,为机制研究提供了计算资源。我们的功能富集分析表明,这些EDCs主要涉及与激素信号传导、细胞增殖、凋亡和代谢过程相关的通路。这些发现为理解环境污染物如何与LUAD的分子变化相关联提供了系统的视角。
为识别与LUAD密切相关的基因,我们整合了GSE10072和GSE43767数据集,并识别出1813个DEGs。加权基因共表达网络分析(WGCNA)进一步将这些变化定位到与LUAD表型关联最强的绿松石色模块。通过多算法机器学习框架,我们将COL1A1识别为EDCs靶点与LUAD相关模块交集处的一个稳健特征基因。
COL1A1是Ⅰ型胶原蛋白的主要成分,已知在多种恶性肿瘤(包括卵巢癌、结直肠癌和乳腺癌)中经常过表达,并与上皮-间质转化(EMT)和转移相关。虽然COL1A1并非LUAD特有的生物标志物,但它在我们的EDC靶向分析流程中 consistently 被识别为排名靠前的特征基因,这表明它在环境污染物相关肺癌的背景下代表了一个关键的分子节点。我们通过GSEA和GSVA进行的功能分析证实了其参与ECM-受体相互作用、粘着斑和脂肪酸代谢,强化了其在肿瘤微环境内ECM重塑中的作用。
我们的研究结果表明,COL1A1可能作为EDCs暴露与LUAD进展之间的分子桥梁。由于肺部血管丰富,EDCs可能随时间在肺组织中积累,我们的计算结果表明COL1A1是这些化合物的预测靶点。先前文献表明,此类外部刺激可能通过激活如NF-κB等转录因子或诱导EMT来影响ECM相关分子(包括COL1A1)的表达。通过将这些靶点与LUAD表达谱相关联,我们的研究强调了COL1A1是受EDCs暴露影响的调控网络中的核心组成部分。
对肿瘤免疫微环境(TIME)的分析揭示了COL1A1与免疫细胞募集之间的显著关联。具体而言,COL1A1表达与单核细胞和嗜酸性粒细胞呈负相关,但与M0和M2巨噬细胞的丰度呈正相关。这些模式,辅以我们显示细胞因子-细胞因子受体相互作用富集的GSVA结果,与已知的免疫抑制机制相一致。在肿瘤微环境中,M2巨噬细胞的募集通常与通过IL-10和TGF-β等细胞因子介导的免疫逃逸和促肿瘤信号传导相关。因此,COL1A1似乎是一个关键的结构和调节因子,与LUAD中的免疫抑制景观相吻合。
除了ECM重塑,免疫环境的代谢调节正变得越来越重要。例如,线粒体基因如NDUFB10已被识别为“免疫沙漠”表型的调节因子,抑制它们可增强免疫检查点抑制剂的疗效。通过证明COL1A1可能通过ECM重塑调节免疫细胞募集,我们的研究通过将环境毒物诱导的基因表达与微环境内的结构和潜在的代谢失调联系起来,扩展了这一认知。最后,基于云的计算平台在整合大规模基因组和免疫学数据集方面日益重要的作用进一步验证了我们的方法,说明了系统化工具有助于阐明环境暴露对免疫调节机制的深远影响。
必须承认几个局限性。首先,将COL1A1识别为关键基因是基于计算预测和生物信息学算法;其作为EDCs相关LUAD生物标志物的特异性仍有待验证。其次,使用CIBERSORT进行的免疫浸润分析依赖于转录组特征,可能无法完全反映免疫群体的功能多样性。最重要的是,本文提出的EDCs暴露、COL1A1失调和LUAD进展之间的因果关系是假设性的,需要严格的分子验证。未来的研究,包括体外细胞系暴露于特定EDCs、体内动物模型以及将EDCs生物标志物与COL1A1表达相关联的前瞻性临床队列研究,对于确认这些生物学机制至关重要。
结论
本研究整合了多平台数据集和机器学习算法,以识别13种常见环境EDCs与LUAD之间的分子联系。我们的分析将COL1A1识别为连接EDCs靶点与LUAD相关基因模块的特征基因。结果表明,COL1A1与ECM-受体相互作用通路以及M0和M2巨噬细胞的浸润显著相关。这些发现为理解环境毒物对肺腺癌分子和免疫景观的影响建立了计算基础。