
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于BERTopic的术语提取方法从生物医学文本中提取信息,用于本体构建:利用Plotkin疫苗语料库评估疫苗本体
《Journal of Biomedical Semantics》:BERTopic-driven term extraction from biomedical texts toward ontology population: evaluating vaccine ontology with Plotkin’s vaccines corpus
【字体: 大 中 小 】 时间:2026年05月04日 来源:Journal of Biomedical Semantics 2
编辑推荐:
摘要 背景 本体论对于构建生物医学知识结构、支持语义集成、推理和数据互操作性至关重要。在疫苗学领域,本体论的构建尤为重要,因为疫苗涉及多个不同的领域。一个定义明确的疫苗本体论(VO)能够实现知识的一致表示,促进数据集之间的集成,并支持决策支持、文献挖掘和语义搜索等应用。然而,
本体论对于构建生物医学知识结构、支持语义集成、推理和数据互操作性至关重要。在疫苗学领域,本体论的构建尤为重要,因为疫苗涉及多个不同的领域。一个定义明确的疫苗本体论(VO)能够实现知识的一致表示,促进数据集之间的集成,并支持决策支持、文献挖掘和语义搜索等应用。然而,在这个快速发展的领域中,手动构建本体论既繁琐又耗时,且难以维护,这凸显了自动化或半自动化方法的需求。
我们提出了一种半自动化流程,该流程利用Transformer的双向编码表示(Bidirectional Encoder Representations)和主题建模(BERTopic)从生物医学文本中提取与本体论相关的概念。为了评估这种自动化方法的有效性,我们将该方法应用于Plotkin的《疫苗》语料库,这是一个在疫苗学领域具有权威性的参考文献,综合了关于疫苗的科学、临床和政策视角。该工作流程整合了多个自然语言处理(NLP)组件:使用spaCy进行文档预处理和词性标注及向量化;通过轻量级Transformer模型(all-MiniLM-L6-v2)生成句子嵌入;使用均匀流形近似和投影(UMAP)进行降维;利用基于层次密度的空间聚类算法(HDBSCAN)进行聚类;以及通过基于类别的词频-逆文档频率(c-TF-IDF)进行主题表示。为了引导主题发现朝向与疫苗相关的概念并过滤无关术语,该流程引入了一组从现有疫苗本体论中提取的、专注于疫苗的术语作为种子词,以影响主题表示,同时保持聚类过程的无监督特性。为了提高可解释性,该流程使用BERT嵌入(KeyBERT)进行关键词提取以实现自动关键词标注,并辅以消歧义的描述性标签;同时利用双向和自回归Transformer(BART)进行主题级别的摘要生成。最终得到的层次化主题结构通过一个树合并模块进行进一步优化,将该模块将多个主题层次结构统一为一种类似本体的表示形式。提取出的主题由主题专家(SMEs)进行审查,以过滤无关术语,然后将其映射到已建立的疫苗本体论中,以评估其相关性和覆盖范围,从而展示了自动化方法如何减少手动构建本体论所需的大量工作。
该脚本可生成不同数量的主题和关键词。在本研究中,从Plotkin的《疫苗》各章节中提取了前50个主题,每个主题包含10个关键词。该流程产生了连贯的主题簇,涵盖了疫苗学中的关键主题,包括免疫机制、特定病原体的疫苗以及疫苗类型。层次化树合并过程展示了语义相关概念的分组方式,并可以提示潜在的本体论细分。这有助于可视化从数据中得出的概念关系,特别有助于主题专家审查、解释和验证候选概念。
本研究证明了基于BERTopic的半自动化方法从生物医学文本中提取与本体论相关概念的可行性。该方法使用一个基础的疫苗学语料库进行了评估,并与现有的成熟疫苗本体论进行了对比,以确定提取主题的相关性和覆盖范围。将主题映射到已建立的本体论中,有助于识别概念对齐和无关术语,随后由主题专家进行审查。结果表明,所提出的方法能够有效地提取出有意义的、与本体论相关的概念,同时显著减少了手动构建本体论所需的时间和精力,从而为支持本体论的维护和丰富提供了一种可扩展的策略。
本体论对于构建生物医学知识结构、支持语义集成、推理和数据互操作性至关重要。在疫苗学领域,本体论的构建尤为重要,因为疫苗涉及多个不同的领域。一个定义明确的疫苗本体论(VO)能够实现知识的一致表示,促进数据集之间的集成,并支持决策支持、文献挖掘和语义搜索等应用。然而,在这个快速发展的领域中,手动构建本体论既繁琐又耗时,且难以维护,这凸显了自动化或半自动化方法的需求。
我们提出了一种半自动化流程,该流程利用Transformer的双向编码表示(Bidirectional Encoder Representations)和主题建模(BERTopic)从生物医学文本中提取与本体论相关的概念。为了评估这种自动化方法的有效性,我们将该方法应用于Plotkin的《疫苗》语料库,这是一个在疫苗学领域具有权威性的参考文献,综合了关于疫苗的科学、临床和政策视角。该工作流程整合了多个自然语言处理(NLP)组件:使用spaCy进行文档预处理和词性标注及向量化;通过轻量级Transformer模型(all-MiniLM-L6-v2)生成句子嵌入;使用均匀流形近似和投影(UMAP)进行降维;利用基于层次密度的空间聚类算法(HDBSCAN)进行聚类;以及通过基于类别的词频-逆文档频率(c-TF-IDF)进行主题表示。为了引导主题发现朝向与疫苗相关的概念并过滤无关术语,该流程引入了一组从现有疫苗本体论中提取的、专注于疫苗的术语作为种子词,以影响主题表示,同时保持聚类过程的无监督特性。为了提高可解释性,该流程使用BERT嵌入(KeyBERT)进行关键词提取以实现自动关键词标注,并辅以消歧义的描述性标签;同时利用双向和自回归Transformer(BART)进行主题级别的摘要生成。最终得到的层次化主题结构通过一个树合并模块进行进一步优化,将该模块将多个主题层次结构统一为一种类似本体的表示形式。提取出的主题由主题专家(SMEs)进行审查,以过滤无关术语,然后将其映射到已建立的疫苗本体论中,以评估其相关性和覆盖范围,从而展示了自动化方法如何减少手动构建本体论所需的大量工作。
该脚本可生成不同数量的主题和关键词。在本研究中,从Plotkin的《疫苗》各章节中提取了前50个主题,每个主题包含10个关键词。该流程产生了连贯的主题簇,涵盖了疫苗学中的关键主题,包括免疫机制、特定病原体的疫苗以及疫苗类型。层次化树合并过程展示了语义相关概念的分组方式,并可以提示潜在的本体论细分。这有助于可视化从数据中得出的概念关系,特别有助于主题专家审查、解释和验证候选概念。
本研究证明了基于BERTopic的半自动化方法从生物医学文本中提取与本体论相关概念的可行性。该方法使用一个基础的疫苗学语料库进行了评估,并与现有的成熟疫苗本体论进行了对比,以确定提取主题的相关性和覆盖范围。将主题映射到已建立的本体论中,有助于识别概念对齐和无关术语,随后由主题专家进行审查。结果表明,所提出的方法能够有效地提取出有意义的、与本体论相关的概念,同时显著减少了手动构建本体论所需的时间和精力,从而为支持本体论的维护和丰富提供了一种可扩展的策略。