从文本到翻译：利用语言模型为临床审查优先考虑不同的文本变体

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Genome Medicine》：From text to translation: using language models to prioritize variants for clinical review

【字体：大中小】 时间：2026年05月20日 来源：Genome Medicine 11.2

编辑推荐：

　　摘要背景尽管基因组测序技术取得了快速进展，但大多数罕见编码变异在临床应用方面的特征描述仍然不足，这限制了个性化医疗的潜力。在判断一个变异是否具有致病性时，临床实验室遵循诊断指南，这些指南整合了多种形式的证据，包括病例数据、计算预测和功能筛选数据。虽然已经为许多变异整理了大量临床证

摘要

背景

尽管基因组测序技术取得了快速进展，但大多数罕见编码变异在临床应用方面的特征描述仍然不足，这限制了个性化医疗的潜力。在判断一个变异是否具有致病性时，临床实验室遵循诊断指南，这些指南整合了多种形式的证据，包括病例数据、计算预测和功能筛选数据。虽然已经为许多变异整理了大量临床证据，但大多数变异仍无法被明确分类为“致病性”或“良性”，因此仍被归类为“意义不明的变异”（VUS）。变异鉴定专家小组（VCEPs）的任务是分析每个变异的可用证据以得出分类结果。

方法

为了利用之前整理的证据，我们处理了来自ClinVar的超过230万个自由文本变异摘要，采用句子级分类方法筛选出包含不同形式证据的句子，并移除了无信息或相似的摘要。然后我们使用标记的文本摘要来训练ClinVar-BERT模型，该模型能够识别变异文本摘要中的致病性或良性证据。

结果

我们使用专家小组鉴定的变异、正交功能筛选数据和计算预测结果来验证ClinVar-BERT模型对被分类为“意义不明”的变异摘要的预测。ClinVar-BERT模型对临床相关基因（包括BRCA1（p = \(1.90 \times 10^{-20}\)）、TP53（p = \(1.14 \times 10^{-47}\)）和PTEN（p = \(3.82 \times 10^{-7}\)）的功能影响估计存在显著差异，其AUROC值为0.927，用于判断变异是否具有破坏性或预期能保持功能。同样，ClinVar-BERT模型对VUS的AlphaMissense计算得分也存在显著差异：BRCA1（p = \(1.21 \times 10^{-21}\)）、TP53（p = \(3.54 \times 10^{-9}\)）和PTEN（p = \(2.60 \times 10^{-76}\)）。在针对次要发现进行筛选或被纳入ClinGen专家小组的基因中，ClinVar-BERT模型优先推荐了7,644个变异供专家审查，其中2个或更多临床摘要预测同一VUS含有致病性证据，7,042个变异有2个或更多摘要预测含有良性证据。这意味着平均每个VCEP会有143个变异被优先推荐审查，不同VCEP之间的推荐数量范围从8到907个不等。

结论

这些发现表明，ClinVar-BERT能够从诊断报告中识别出有用的证据，有助于优先安排变异由专家小组重新评估。

背景

尽管基因组测序技术取得了快速进展，但大多数罕见编码变异在临床应用方面的特征描述仍然不足，这限制了个性化医疗的潜力。在判断一个变异是否具有致病性时，临床实验室遵循诊断指南，这些指南整合了多种形式的证据，包括病例数据、计算预测和功能筛选数据。虽然已经为许多变异整理了大量临床证据，但大多数变异仍无法被明确分类为“致病性”或“良性”，因此仍被归类为“意义不明的变异”（VUS）。变异鉴定专家小组（VCEPs）的任务是分析每个变异的可用证据以得出分类结果。

方法

为了利用之前整理的证据，我们处理了来自ClinVar的超过230万个自由文本变异摘要，采用句子级分类方法筛选出包含不同形式证据的句子，并移除了无信息或相似的摘要。然后我们使用标记的文本摘要来训练ClinVar-BERT模型，该模型能够识别变异文本摘要中的致病性或良性证据。

结果

我们使用专家小组鉴定的变异、正交功能筛选数据和计算预测结果来验证ClinVar-BERT模型对被分类为“意义不明”的变异摘要的预测。ClinVar-BERT模型对临床相关基因（包括BRCA1（p = \(1.90 \times 10^{-20}\)）、TP53（p = \(1.14 \times 10^{-47}\)）和PTEN（p = \(3.82 \times 10^{-7}\)）的功能影响估计存在显著差异，其AUROC值为0.927，用于判断变异是否具有破坏性或预期能保持功能。同样，ClinVar-BERT模型对VUS的AlphaMissense计算得分也存在显著差异：BRCA1（p = \(1.21 \times 10^{-21}\)）、TP53（p = \(3.54 \times 10^{-9}\)）和PTEN（p = \(2.60 \times 10^{-76}\)）。在针对次要发现进行筛选或被纳入ClinGen专家小组的基因中，ClinVar-BERT模型优先推荐了7,644个变异供专家审查，其中2个或更多临床摘要预测同一VUS含有致病性证据，7,042个变异有2个或更多摘要预测含有良性证据。这意味着平均每个VCEP会有143个变异被优先推荐审查，不同VCEP之间的推荐数量范围从8到907个不等。

结论

这些发现表明，ClinVar-BERT能够从诊断报告中识别出有用的证据，有助于优先安排变异由专家小组重新评估。

联系信箱：

粤ICP备09063491号

摘要

背景

方法

结果

结论

背景

方法

结果

结论

热点排行