编辑推荐:
随着转录组学技术的快速发展,人类正常组织的基因表达谱已被广泛用作研究衰老及疾病机制的重要参照。尽管已有多个数据库建立,但大多数人类组织的样本量仍不足。同时,由于RNA测序(RNA-seq)与微阵列(microarray)平台间存在固有的分布偏差,两类数据通常需
随着转录组学技术的快速发展,人类正常组织的基因表达谱已被广泛用作研究衰老及疾病机制的重要参照。尽管已有多个数据库建立,但大多数人类组织的样本量仍不足。同时,由于RNA测序(RNA-seq)与微阵列(microarray)平台间存在固有的分布偏差,两类数据通常需分开分析,进一步削弱了健康样本的统计效力。为此,研究人员构建了目前规模最大的综合性人类正常组织转录组图谱HuNT,共纳入29,769份样本,涵盖74种人类正常组织或部位,样本量与组织多样性分别较知名GTEx数据库提升70%与37%。更重要的是,HuNT实现了同一组织内跨RNA-seq与microarray数据的整合分析,而非分别计算。基于这一大规模样本集合,HuNT提供了最新的四类信息:(1)组织特异性基因;(2)各组织中稳定高表达的管家基因;(3)全组织基因表达全景;(4)在特定组织中与查询基因相关性最高的基因。文中还以四个公认的生物标志物为例进行了案例展示。随着未来数据积累,HuNT有望不仅为人类正常组织提供基因表达参考,还可作为筛选潜在标志物乃至治疗靶点的基准。HuNT现已开放访问:http://hunt.badd-cao.net/。
研究背景方面,人类正常组织的转录组数据是研究疾病机制的重要对照基础,样本量越大统计效力越高。然而,现有数据库如GTEx虽覆盖54种组织,但样本分布不均,部分组织仅有极少数样本,且不同技术平台的数据难以整合。此外,多数人类组织仍缺乏充足的健康样本支持,限制了生物学发现的稳健性。因此,研究人员开展了HuNT数据库的构建工作,旨在扩大样本规模与组织类型,并实现跨平台的整合分析,从而为基因表达研究和生物标志物发现提供更可靠的参考。
关键技术方法包括从GEO、ArrayExpress、GTEx、TCGA及已发表文献中收集人类正常组织的RNA-seq与Affymetrix微阵列数据,仅保留每个组织超过五份样本且基因数超过10,000的数据集。采用Rank-in算法将同一组织内的不同平台数据进行加权排名与奇异值分解(SVD)整合,消除技术偏差。组织分类依据GTEx与Bgee的分类标准,并使用特异性度量(SPM)筛选组织特异性基因,以中位Rank-in得分高于60且四分位距小于1的标准定义管家基因。
研究结果方面,在Overview of HuNT部分,HuNT最终纳入408个数据集,包含29,769份样本、74种组织、22,932个基因,其中血液样本最多(4,547份),76%的组织样本数超过100。性别比例均衡,年龄跨度从胎儿至60岁以上。Peer Comparison显示,相比GTEx,HuNT在样本量与组织多样性上分别增长70%与37%,新增肾脏分区、脂肪组织、头颈部、胎盘等20种组织,并在36种共有组织中样本量均有提升,如血液从755增至4,547份。Web Interface of HuNT介绍了用户可通过输入基因符号查询其在各组织中的表达变化及前20个相关性基因,也可按组织查询特异性基因与稳定表达基因,并提供完整数据下载功能。Example Illustration以AFP、CGA、GAPDH、ACTB为例,验证了疾病标志物在正常组织中低表达、管家基因稳定高表达的特征,并展示了跨平台整合前后分析结论的一致性差异。
在讨论部分,研究人员指出HuNT是目前最大的正常组织转录组资源,整合了健康供体与临床患者的病理正常组织数据,突破了平台限制,提高了统计效力。Rank-in算法通过加权排名与SVD减少技术偏差,但需注意不同平台基因重叠度与样本量平衡问题。管家基因的定义因研究背景而异,HuNT以组织内高且稳定的表达为标准。组织特异性基因在不同数据集中验证一致,如SFTPC在肺、SMTNL1在肌肉中均表现高度特异。
研究结论表明,HuNT为人类正常组织提供了全面的基因表达基线、相关性模式及组织特异性与管家基因信息,可作为病理组织研究的对照基准,并在未来通过更多样本与精细分类进一步完善。该研究发表于《Phenomics》。