《World Patent Information》:A survey on automated and AI-based tools for patent retrieval with a special focus on the life sciences domain
编辑推荐:
本文作为一份系统性综述,为研发人员及专利检索者全面梳理了专利检索领域,特别是在生物医药这一特殊技术领域中,自动化与AI驱动工具的发展脉络。文章不仅总结了从传统检索到深度学习等方法的演进,指出了当前方法在召回率与信息整合方面的局限,还重点剖析了生命科学领域因术语歧义、分子式等视觉信息依赖所带来的独特挑战,强调了整合多模态数据方法的必要性,对未来研究具有重要的指引价值。
专利检索是工业与学术领域研发的基石。然而,不断激增的专利数量和专利文档本身的复杂性——例如其技术密集、法律语言模糊的特性——对传统检索构成了巨大挑战,使之耗时且效率低下。因此,开发自动化的专利检索技术需求迫切。本篇综述旨在对现有技术,从查询扩展到深度学习方法,进行全面回顾,并特别聚焦于生命科学领域,因为该领域存在命名歧义、术语多义性以及对可视化数据(如化学结构)高度依赖等独特问题。
1. 引言
近年来,生命科学领域的专利数量急剧增加,给整个专利系统带来了巨大压力。专利检索过程尤其繁琐、耗时,有时甚至效率不高。挑战不仅来自专利数量的增长,还包括专利文档本身的特点:它们通常篇幅长、技术密集、使用专业复杂的法律语言,且需面对来自亚洲国家专利申请(尤其是中国,其申请量接近2023年全球总量的70%)带来的翻译质量问题。研究表明,专利中公开的前沿技术信息仅有约3%会同时出现在科学文献中,凸显了高效专利检索对于推动研究的重要性。
传统的专利检索高度依赖关键词、布尔运算符、分类代码、引用网络等人工策略,但这可能导致结果不全,特别是在以高召回率为目标的专利性检索中,遗漏任何相关现有技术都可能引发严重的法律和经济后果。
1.1. 与检索相关的专利分析任务
根据目的不同,专利检索可分为多种类型:现有技术检索(了解特定技术领域进展)、专利性(新颖性)检索(判断发明是否可授权)、自由实施(FTO)检索(确保产品不侵犯有效专利)、异议检索(在授权阶段质疑新颖性)和侵权/无效性检索。
1.1.1. 传统(非自动化)检索方法
传统方法主要在Espacenet、TotalPatent等数据库平台进行,依赖专家手动构建复杂查询。这种方法基于查询词与专利文本(如标题、摘要)的精确匹配,对于词汇变化或更抽象、更技术性的术语(如用“心肌梗死”替代“心脏病发作”)不够灵活,可能导致假阴性和假阳性错误。尽管使用了多种策略,专利检索依然是一项艰难、耗时且有时效率不高的任务。
1.1.2. 生命科学专利中的信息及其检索方法
生命科学领域的专利检索面临额外挑战,因为其信息形式超越了纯文本,主要包括:
- •
序列信息:以序列列表形式披露。自2022年7月1日起,申请遵循WIPO ST.26标准,采用结构化XML格式;此前则遵循ST.25标准,为纯文本格式。可使用Lens PatSeq、Derwent SequenceBase等工具通过序列相似性进行检索。
- •
化学信息:化合物可通过多种方式表示,如文本(名称、CAS号)、线性编码(SMILES、InChIKey)或连接表(MDL MOL)。化学结构检索包括精确结构、亚结构、Markush结构或相似性搜索等策略。公开数据库如PubChem、SureChEMBL,以及商业数据库如CAS、Reaxys/Beilstein都支持此类检索。
2. 主要专利数据库
专利数据库可分为三类:通用专利数据库(如PATENTSCOPE、Espacenet、USPTO、Google Patents、Derwent World Patents Index)、用于测试的主题或小型专利数据库(如CLEF-IP、NTCIR、TREC-Chem)以及涵盖化学/生物数据的科学机构与商业数据库(如BindingDB、Patent Lens、NCBI系列数据库、EMBL-EBI数据库、ChemSpider、GENESEQ)。
3. 评估指标
衡量专利检索方法有效性的常用指标包括:召回率(Recall)、精确率(Precision)、F1分数、平均精度均值(MAP)、归一化折扣累计增益(nDCG)以及专门针对专利检索设计的专利检索评估(PRES)分数。
4. 专利检索的自动化方法
本文综述的自动化方法主要分为四类:查询扩展技术、基于元数据的方法、机器学习方法以及基于自然语言处理的方法。
4.1. 查询扩展技术
旨在通过添加相关术语来弥合用户查询与相关文档之间的词汇鸿沟。
- •
基于语义的技术:利用外部资源(如词典、本体、语料库)寻找与查询词语义相关的术语进行扩展。例如,利用WordNet或自建词典,或构建基于IPC分类的领域词典。
- •
伪相关反馈方法:利用初始查询返回的顶部结果文档中的词来扩展查询。关键挑战是顶部文档可能不相关,引入噪声词会导致“查询主题漂移”。为此,研究者采用了聚类筛选或预测模型来选择更相关的反馈文档。
4.2. 基于元数据的方法
利用专利的元数据进行检索增强,主要包括:
- •
引文与文献计量方法:利用专利间的引用关系网络。研究发现,结合引用网络(前向/后向引用)能显著提高检索性能(如MAP提升35%以上)。结合分类代码和文本内容的方法也被证明有效。
- •
分类代码方法:利用IPC、CPC等专利分类体系。这些代码提供了主题标签,可以用于查询扩展、文档重新排序或构建语义网络。例如,利用CPC子类间的共现关系构建概念图,或使用IPC代码训练词嵌入模型来丰富查询表示。
4.3. 机器学习方法
利用监督或非监督学习从数据中学习模式。
- •
监督学习:使用带标签的数据训练模型。例如,使用逻辑回归、随机森林等分类器判断专利相关性;或将专利检索视为排序学习问题,使用RankSVM、LambdaMART等算法。
- •
无监督与半监督学习:在缺乏大量标注数据时使用。方法包括潜在狄利克雷分配主题建模、专利文档聚类(如k-means)、或使用自编码器学习潜在表示。
- •
表示学习:旨在学习专利的低维向量表示(嵌入)。方法包括基于术语共现的模型(如Word2Vec、Doc2Vec)、基于图的方法(如node2vec,利用引用网络)以及结合文本和元数据的异构网络嵌入。
4.4. 自然语言处理方法
利用NLP技术理解专利文本的语义。
- •
主题模型:如LDA,用于发现文档中的潜在主题,可用于相似性计算或查询扩展。
- •
文本嵌入与语义相似度:使用BERT、SciBERT等预训练模型获取文本的上下文感知向量表示,计算语义相似度,比传统TF-IDF等方法更具优势。
- •
深度学习与神经排序模型:使用深度神经网络(如卷积神经网络CNN、循环神经网络RNN)以及更先进的架构(如Transformer、专利BERT)直接从文本中学习复杂特征和匹配模式,显著提升了排序性能。
5. 生命科学领域的专利检索方法
生命科学领域的专利检索需处理生物序列、化学结构等非文本信息,因此催生了专门的方法。
- •
生物序列检索:主要利用BLAST等序列比对工具在专利序列数据库中进行相似性搜索。挑战在于处理海量数据和复杂的序列变异。一些方法尝试将序列转化为数值特征向量,或利用深度学习模型学习序列表示。
- •
化学结构检索:核心是基于子图同构的匹配算法。方法包括:将分子结构编码为指纹(如ECFP)进行相似性搜索;使用图神经网络学习分子表示;或从专利图像中自动提取化学结构信息(光学化学结构识别)。
- •
多模态与混合方法:整合文本、序列、结构等多源信息。例如,同时处理化合物描述文本及其结构图像;或构建包含化合物、靶点、疾病等实体的知识图谱进行联合检索与推理。
- •
用于生命科学专利的NLP:涉及命名实体识别,以从文本中提取基因、蛋白质、化合物等实体;关系抽取,以发现实体间的相互作用;以及专门针对生物医学文本预训练的语言模型(如BioBERT、BioMegatron)的应用。
最终结论显示,当前的自动化方法,特别是在生命科学领域,仍然受到次优召回率以及跨数据库信息碎片化的困扰。专利中大量独特的生物医学实体(化学结构、序列)和其多样化的表示形式增加了检索复杂度。未来的发展方向在于开发能够整合来自不同来源的多种数据(文本、图像、序列、表格)的多模态方法,并创建更全面、标注更好的领域特定数据集和基准,以推动更强大、更准确的检索系统的发展。