综述：关于生命科学领域中专利检索的自动化和人工智能工具的综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《World Patent Information》：A survey on automated and AI-based tools for patent retrieval with a special focus on the life sciences domain

【字体：大中小】 时间：2026年02月22日 来源：World Patent Information 1.9

编辑推荐：

　　本文作为一份系统性综述，为研发人员及专利检索者全面梳理了专利检索领域，特别是在生物医药这一特殊技术领域中，自动化与AI驱动工具的发展脉络。文章不仅总结了从传统检索到深度学习等方法的演进，指出了当前方法在召回率与信息整合方面的局限，还重点剖析了生命科学领域因术语歧义、分子式等视觉信息依赖所带来的独特挑战，强调了整合多模态数据方法的必要性，对未来研究具有重要的指引价值。

专利检索是工业与学术领域研发的基石。然而，不断激增的专利数量和专利文档本身的复杂性——例如其技术密集、法律语言模糊的特性——对传统检索构成了巨大挑战，使之耗时且效率低下。因此，开发自动化的专利检索技术需求迫切。本篇综述旨在对现有技术，从查询扩展到深度学习方法，进行全面回顾，并特别聚焦于生命科学领域，因为该领域存在命名歧义、术语多义性以及对可视化数据（如化学结构）高度依赖等独特问题。

1. 引言

近年来，生命科学领域的专利数量急剧增加，给整个专利系统带来了巨大压力。专利检索过程尤其繁琐、耗时，有时甚至效率不高。挑战不仅来自专利数量的增长，还包括专利文档本身的特点：它们通常篇幅长、技术密集、使用专业复杂的法律语言，且需面对来自亚洲国家专利申请（尤其是中国，其申请量接近2023年全球总量的70%）带来的翻译质量问题。研究表明，专利中公开的前沿技术信息仅有约3%会同时出现在科学文献中，凸显了高效专利检索对于推动研究的重要性。

传统的专利检索高度依赖关键词、布尔运算符、分类代码、引用网络等人工策略，但这可能导致结果不全，特别是在以高召回率为目标的专利性检索中，遗漏任何相关现有技术都可能引发严重的法律和经济后果。

1.1. 与检索相关的专利分析任务

根据目的不同，专利检索可分为多种类型：现有技术检索（了解特定技术领域进展）、专利性（新颖性）检索（判断发明是否可授权）、自由实施（FTO）检索（确保产品不侵犯有效专利）、异议检索（在授权阶段质疑新颖性）和侵权/无效性检索。

1.1.1. 传统（非自动化）检索方法

传统方法主要在Espacenet、TotalPatent等数据库平台进行，依赖专家手动构建复杂查询。这种方法基于查询词与专利文本（如标题、摘要）的精确匹配，对于词汇变化或更抽象、更技术性的术语（如用“心肌梗死”替代“心脏病发作”）不够灵活，可能导致假阴性和假阳性错误。尽管使用了多种策略，专利检索依然是一项艰难、耗时且有时效率不高的任务。

1.1.2. 生命科学专利中的信息及其检索方法

生命科学领域的专利检索面临额外挑战，因为其信息形式超越了纯文本，主要包括：

•
序列信息：以序列列表形式披露。自2022年7月1日起，申请遵循WIPO ST.26标准，采用结构化XML格式；此前则遵循ST.25标准，为纯文本格式。可使用Lens PatSeq、Derwent SequenceBase等工具通过序列相似性进行检索。
•
化学信息：化合物可通过多种方式表示，如文本（名称、CAS号）、线性编码（SMILES、InChIKey）或连接表（MDL MOL）。化学结构检索包括精确结构、亚结构、Markush结构或相似性搜索等策略。公开数据库如PubChem、SureChEMBL，以及商业数据库如CAS、Reaxys/Beilstein都支持此类检索。

2. 主要专利数据库

专利数据库可分为三类：通用专利数据库（如PATENTSCOPE、Espacenet、USPTO、Google Patents、Derwent World Patents Index）、用于测试的主题或小型专利数据库（如CLEF-IP、NTCIR、TREC-Chem）以及涵盖化学/生物数据的科学机构与商业数据库（如BindingDB、Patent Lens、NCBI系列数据库、EMBL-EBI数据库、ChemSpider、GENESEQ）。

3. 评估指标

衡量专利检索方法有效性的常用指标包括：召回率（Recall）、精确率（Precision）、F₁分数、平均精度均值（MAP）、归一化折扣累计增益（nDCG）以及专门针对专利检索设计的专利检索评估（PRES）分数。

4. 专利检索的自动化方法

本文综述的自动化方法主要分为四类：查询扩展技术、基于元数据的方法、机器学习方法以及基于自然语言处理的方法。

4.1. 查询扩展技术

旨在通过添加相关术语来弥合用户查询与相关文档之间的词汇鸿沟。

•
基于语义的技术：利用外部资源（如词典、本体、语料库）寻找与查询词语义相关的术语进行扩展。例如，利用WordNet或自建词典，或构建基于IPC分类的领域词典。
•
伪相关反馈方法：利用初始查询返回的顶部结果文档中的词来扩展查询。关键挑战是顶部文档可能不相关，引入噪声词会导致“查询主题漂移”。为此，研究者采用了聚类筛选或预测模型来选择更相关的反馈文档。

4.2. 基于元数据的方法

利用专利的元数据进行检索增强，主要包括：

•
引文与文献计量方法：利用专利间的引用关系网络。研究发现，结合引用网络（前向/后向引用）能显著提高检索性能（如MAP提升35%以上）。结合分类代码和文本内容的方法也被证明有效。
•
分类代码方法：利用IPC、CPC等专利分类体系。这些代码提供了主题标签，可以用于查询扩展、文档重新排序或构建语义网络。例如，利用CPC子类间的共现关系构建概念图，或使用IPC代码训练词嵌入模型来丰富查询表示。

4.3. 机器学习方法

利用监督或非监督学习从数据中学习模式。

•
监督学习：使用带标签的数据训练模型。例如，使用逻辑回归、随机森林等分类器判断专利相关性；或将专利检索视为排序学习问题，使用RankSVM、LambdaMART等算法。
•
无监督与半监督学习：在缺乏大量标注数据时使用。方法包括潜在狄利克雷分配主题建模、专利文档聚类（如k-means）、或使用自编码器学习潜在表示。
•
表示学习：旨在学习专利的低维向量表示（嵌入）。方法包括基于术语共现的模型（如Word2Vec、Doc2Vec）、基于图的方法（如node2vec，利用引用网络）以及结合文本和元数据的异构网络嵌入。

4.4. 自然语言处理方法

利用NLP技术理解专利文本的语义。

•
主题模型：如LDA，用于发现文档中的潜在主题，可用于相似性计算或查询扩展。
•
文本嵌入与语义相似度：使用BERT、SciBERT等预训练模型获取文本的上下文感知向量表示，计算语义相似度，比传统TF-IDF等方法更具优势。
•
深度学习与神经排序模型：使用深度神经网络（如卷积神经网络CNN、循环神经网络RNN）以及更先进的架构（如Transformer、专利BERT）直接从文本中学习复杂特征和匹配模式，显著提升了排序性能。

5. 生命科学领域的专利检索方法

生命科学领域的专利检索需处理生物序列、化学结构等非文本信息，因此催生了专门的方法。

•
生物序列检索：主要利用BLAST等序列比对工具在专利序列数据库中进行相似性搜索。挑战在于处理海量数据和复杂的序列变异。一些方法尝试将序列转化为数值特征向量，或利用深度学习模型学习序列表示。
•
化学结构检索：核心是基于子图同构的匹配算法。方法包括：将分子结构编码为指纹（如ECFP）进行相似性搜索；使用图神经网络学习分子表示；或从专利图像中自动提取化学结构信息（光学化学结构识别）。
•
多模态与混合方法：整合文本、序列、结构等多源信息。例如，同时处理化合物描述文本及其结构图像；或构建包含化合物、靶点、疾病等实体的知识图谱进行联合检索与推理。
•
用于生命科学专利的NLP：涉及命名实体识别，以从文本中提取基因、蛋白质、化合物等实体；关系抽取，以发现实体间的相互作用；以及专门针对生物医学文本预训练的语言模型（如BioBERT、BioMegatron）的应用。

最终结论显示，当前的自动化方法，特别是在生命科学领域，仍然受到次优召回率以及跨数据库信息碎片化的困扰。专利中大量独特的生物医学实体（化学结构、序列）和其多样化的表示形式增加了检索复杂度。未来的发展方向在于开发能够整合来自不同来源的多种数据（文本、图像、序列、表格）的多模态方法，并创建更全面、标注更好的领域特定数据集和基准，以推动更强大、更准确的检索系统的发展。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号