基于表达水平整合可变剪接变体的甲状腺结节活检分类策略

《Computer Methods and Programs in Biomedicine》:Strategies for incorporating alternative splicing variants in thyroid nodule biopsy classification based on expression levels

【字体: 时间:2026年06月07日 来源:Computer Methods and Programs in Biomedicine 4.8

编辑推荐:

  背景 在细胞学结果不确定(Bethesda III和IV类)的情况下,甲状腺结节的准确诊断仍然是一项挑战。现有分子检测仍会使其中一部分病例无法获得明确结论,从而导致不必要的手术或治疗延迟。鉴于超过90%的基因会发生可变剪接(AS),本研究探索将AS数据与传统基

  
背景 在细胞学结果不确定(Bethesda III和IV类)的情况下,甲状腺结节的准确诊断仍然是一项挑战。现有分子检测仍会使其中一部分病例无法获得明确结论,从而导致不必要的手术或治疗延迟。鉴于超过90%的基因会发生可变剪接(AS),本研究探索将AS数据与传统基因表达谱整合用于分类。

方法 研究人员使用了335例患者的基因表达数据。采用两种用于识别剪接变体的工具对HTA2.0微阵列进行预处理:依赖探针集和剪接连接位点(junctions)的Transcriptome Analysis Console(TAC),以及聚焦于剪接事件的EventPointer。通过自助法(bootstrap)程序检验特征选择、数据集以及变体识别方式的影响。研究中还引入了一种修正方法,以对每个基因的特征进行去重。

结果与结论 分类质量受处理方法学影响显著。尽管由于采用自定义芯片定义文件(chip definition file),EventPointer流程对基因层面特征更为有效,但由TAC生成的变体在基于bootstrap的性能评估中表现最佳,总体分类准确率为0.938。随后,研究人员利用独立公开微阵列数据集在患者层面和样本层面对模型进行了外部验证。此外,研究人员还采用RNA-seq数据进行特征验证,以确认跨平台一致性;然而,这一特定分析属于技术性再评估,而非完整的独立分类器验证。在入选的11个异构体中,包含与甲状腺癌具有已知重要性的基因对应的异构体,如FN1和LIPH。在甲状腺癌中,某些转录本异构体可能呈现优先表达。因此,诊断分类器有望从纳入可变剪接变体中获益。
该研究发表于《Computer Methods and Programs in Biomedicine》,核心目标是提升甲状腺结节,尤其是细胞学不确定结节的分子分类精度。研究背景在于,Bethesda III与IV类甲状腺结节在临床决策中长期存在诊断灰区,传统细胞学评估难以稳定区分良恶性,现有分子检测虽然提高了诊断能力,但仍有相当比例病例无法明确归类,进而造成不必要的外科手术,或者使真正恶性病灶的治疗发生延误。研究人员据此将注意力转向可变剪接(AS,alternative splicing)这一重要转录后调控机制。由于人类超过90%的基因存在可变剪接,不同剪接异构体可在疾病发生发展中产生功能差异,仅依赖基因总表达量可能忽略对肿瘤诊断有价值的异构体层面信息。因此,将剪接变体信息与传统基因表达信号联合建模,可能形成更具判别力的分子特征体系。

研究人员围绕“如何将可变剪接变体合理纳入甲状腺结节活检分类模型”这一问题开展系统评估。论文并非单纯证明AS有无作用,而是进一步比较不同变体识别工具、不同特征集规模、不同特征筛选方法以及冗余控制策略对分类性能的影响,从方法学层面为甲状腺结节分子诊断模型构建提供依据。研究显示,分类效果高度依赖数据处理流程和变体定义方式。尽管EventPointer在基因层面特征处理方面具有一定优势,但TAC产生的变体特征在分类任务中实现了最优表现,bootstrap框架下总体分类准确率达到0.938。研究还提示,即使对于FN1等已知与甲状腺癌相关的基因,真正具备更强区分能力的也可能并非基因整体表达,而是特定剪接异构体。由此可见,将可变剪接信息纳入诊断分类器能够提升模型判别力,而基因层面的特征去重则是压缩特征集并抑制冗余的简洁有效策略。该研究的重要意义在于,它为甲状腺结节分子分类从“基因表达量”走向“异构体分辨率”的方法升级提供了实证支持,也为减少不必要手术、优化临床分流提供了潜在技术路径。

在技术方法方面,研究人员基于335例患者的HTA2.0微阵列表达数据开展分析,样本来自一个共纳入2031例患者的大型研究队列,研究获得伦理批准并登记于ClinicalTrials.gov(NCT03392402)。在AS特征提取上,研究人员分别使用Transcriptome Analysis Console(TAC)和EventPointer两种流程,前者基于探针选择区域(PSR,Probe Selection Region)与剪接连接,后者基于剪接事件定义变体;随后在bootstrap框架下比较不同特征数量、特征筛选方式及基因层面去重策略对分类性能的影响,并采用独立公开微阵列数据集进行外部验证,进一步以RNA-seq数据对入选特征开展跨平台一致性验证。

以下结合论文主体内容进行结果解读。

Sample collection and gene expression profiling
研究样本来源于一项更大规模的前瞻性研究,累计招募2031例患者。甲状腺结节通过细针穿刺活检(FNAB,fine-needle aspiration biopsy)获取材料,用于细胞学评估及分子分析。本文分析所用数据集包含335例患者的基因表达数据。研究建立在真实临床结节样本基础之上,因此所得结论直接服务于甲状腺结节术前分类这一实际问题。样本采用HTA2.0微阵列进行表达谱测定,为后续同时提取基因表达与剪接变体特征提供了统一平台。

Patient characteristics
论文指出,纳入的良性与恶性肿瘤组均覆盖Bethesda各分类,说明数据集具有一定临床异质性,能够更接近真实诊断场景。研究人员还观察到甲状腺肿瘤在女性中更常见,这与既往流行病学研究一致。该部分的意义在于说明模型训练并非建立于过度理想化样本上,而是面向包含复杂病理背景与细胞学分层的实际结节人群。

Alternative splicing variant identification
这是本研究的方法学核心之一。研究人员强调,两种变体生成工具对应的“变体”定义并不相同:TAC计算探针选择区域(PSR)及剪接连接的表达,而EventPointer则以剪接事件为中心进行刻画。由于特征定义方式、数量和解释层次不同,不同流程产生的数据不能被视为完全等价。研究由此系统比较工具选择对分类性能的影响,结果表明,变体定义方式本身就是决定模型质量的重要因素,而不是仅仅依赖后续分类算法即可弥补。

关于特征选择与冗余控制
论文的一项方法学创新是引入基因层面去重(gene-level deduplication)。由于同一基因可能对应多个高度相关的剪接特征,若在特征筛选阶段不加控制,模型容易因信息重复而造成冗余,影响泛化能力。研究人员通过去重策略限制每个基因重复入选多个相似特征,从而形成更紧凑的特征集合。结果表明,这一策略简单但有效,既减少冗余,又能在保持高分类性能的同时提高模型简洁性。该发现对于临床转化尤其重要,因为更少、更稳定的特征通常更利于后续检测开发和标准化应用。

分类性能比较
研究结果显示,分类质量显著受整个处理流程影响,包括变体识别工具、特征数量和筛选策略。EventPointer由于采用自定义芯片定义文件,在基因层面特征构建上表现更有效;但若目标是构建最终分类器,TAC生成的变体特征在bootstrap评估中取得最佳结果,总体分类准确率为0.938。该结果表明,AS信息并非在所有处理框架下都自动带来收益,只有在恰当的特征定义与选择策略配合下,其诊断价值才能充分显现。

外部验证与跨平台验证
为避免结果局限于单一训练数据集,研究人员进一步开展了独立验证。首先,模型在独立公开微阵列数据集上进行了患者层面和样本层面的外部验证,说明该模型具有一定外推能力。其次,研究人员利用RNA-seq数据对所选特征进行验证,以评估跨平台一致性。论文特别指出,这一RNA-seq分析属于技术性再评估,目的是确认候选特征在不同检测平台上的一致方向性与可重复性,而不是对完整分类器进行独立验证。该表述体现出研究对证据边界的严格限定。

生物学相关特征
在最终选出的11个异构体中,包含来自FN1和LIPH等基因的转录本。FN1等基因已知与甲状腺癌相关,因此该结果不仅具有统计学上的分类意义,也具有生物学解释价值。研究提示,在甲状腺癌中,某些特定转录本异构体可能较基因总体表达更能反映恶性转化状态。这一发现支持了“异构体优先表达”可能构成甲状腺癌分子特征之一,也说明基于总基因表达的传统分析框架可能低估了诊断信息量。

Discussion
讨论部分围绕可变剪接特征纳入分类模型的可行性、优势与局限展开。研究人员认为,剪接变体的引入能够为甲状腺结节诊断增加传统基因表达之外的结构性转录信息,从而提高良恶性区分能力。同时,研究也明确承认采用微阵列而非RNA测序(RNA-seq)是一个局限,因为深度测序在转录本分辨率和新异构体发现能力方面更具优势。尽管如此,论文认为用于本研究的外显子-连接微阵列在识别已知转录区域方面仍具稳健性,且在成本与既有数据资源可得性方面具有现实价值。讨论还强调,不同AS分析工具的输出差异显著,因此在模型开发中必须审慎选择特征生成流程,不能将所有剪接特征视为同质信息。

研究结论翻译如下:
即使对于已知与甲状腺癌相关的基因,如FN1,某些特定异构体在区分良性与恶性样本方面也更具判别力。这一点反映在分类质量上:纳入剪接变体的模型比仅基于基因层面表达的模型具有更高的准确率。此外,基因层面的特征去重是一种简单而有效的降低冗余的方法,能够在保持较高性能的同时选择更紧凑的特征集。

总体而言,本研究以甲状腺结节术前分子分类为临床需求导向,证明了可变剪接(AS)信息能够为传统基因表达模型提供增益,并系统揭示了工具选择、特征筛选和去重策略对分类器性能的关键影响。论文的主要贡献不只是得到一个准确率较高的模型,更在于给出了将剪接异构体信息整合进诊断模型的可操作策略,为后续在甲状腺癌分子诊断中发展更精细、可解释且可转化的分类器奠定了方法学基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号