用于人工智能专利分析的句法锚定方法:一种轻量级的关键词提取框架

《World Patent Information》:Syntactic anchoring for artificial intelligence patent insight: A lightweight framework for keyword extraction

【字体: 时间:2026年01月29日 来源:World Patent Information 1.9

编辑推荐:

  专利标题中功能词驱动的语法意识关键词提取方法研究,通过分析2014-2024年21,100项AI专利标题,提出基于高频介词(如for/on/using)的三词组结构锚点提取法,在语义连贯性(PMI=11.47)和运行效率上优于传统词频、图模型及BERT方法,并与CPC分类趋势高度相关(r=0.73)。

  
Elisa J. Choi | Gyoo Gun Lim
韩国首尔城东区旺辛尼路222号汉阳大学商学院商业信息学系

摘要

简洁而强大,专利标题中蕴含的信号能够揭示新兴的技术趋势。本研究介绍了一种轻量级、注重语法的方法来提取关键词,该方法通过利用高频介词(如foronusing)作为结构锚点,识别具有功能意义的三元组。与传统方法不同,这些方法将功能词视为语义枢纽或句子结构中的锚点,以捕捉特定上下文中的表达,尤其是在专利标题这样的短文本中。该方法应用于21,100个AI专利标题(2014–2024年),在语义连贯性(PMI = 11.47)和运行效率方面优于六种基线方法,并通过与官方CPC分类趋势的对比(r = 0.73)证明了其外部有效性。这些结果展示了语法线索在元数据级文本分析中的有效性,并强调了该方法在创新追踪、专利分析和早期技术探索中的实际应用价值。该研究还为功能导向的创新研究提供了可扩展的工具,用于识别专利语料库中不断演变的功能表达。

引言

人工智能(AI)已成为技术创新的关键驱动力,专利数据越来越多地被用来识别新兴技术和创新轨迹[[1], [2]]。以往的研究利用专利文献来追踪技术变革、绘制知识领域并预测创新趋势,通常通过分析摘要或权利要求等大量文本成分来实现。然而,在从专利数据中捕捉功能意图方面仍存在明显的方法论空白。尽管之前的研究集中在从长篇专利文本(如摘要或权利要求)中提取关键词,但专利标题作为分析对象却受到了相对有限的关注。
传统的关键词提取方法依赖于基于频率的技术[3]、共词分析[4]和基于嵌入的模型[5],但在应用于专利标题时存在显著局限性。除了短文本的稀疏性问题外,这些方法往往无法区分技术组成部分(实现)和发明的目的(功能)。即使像BERT这样的先进深度学习模型在语义上非常强大,也倾向于优先考虑上下文聚类而非提取明确的功能信号[6]。
专利标题与社交媒体帖子等非结构化短文本有很大不同,是知识产权系统中的主要访问点[7]。它们使用高度标准化的机构语言编写,具有法律和技术上的精确性[8]。尽管批评者常认为专利标题是通用或公式化的套话,但这种标准化意味着重复的语言模式并非随意,而是反映了以简洁且可法律解释的方式描述发明的机构惯例。从这个角度来看,专利标题中重复出现的语法模式可能系统地编码了关于发明的功能意图和应用逻辑的信息。
然而,传统的关键词提取预处理方法通常会去除“for”、“on”和“using”等功能词。在专利标题的背景下,这种做法可能是不够的,因为这些介词短语往往充当技术组成部分与其预期功能或应用之间的结构链接。消除这些元素可能会掩盖标准化标题语言旨在传达的功能信号。从标题中提取高质量的功能关键词对于识别宏观层面的创新趋势尤其有价值,尤其是在全文处理在计算上不可行的情况下。
本研究提出了一种注重语法的方法,利用高频介词作为结构锚点来识别专利标题中的功能意义三元组。与传统方法在预处理过程中丢弃这些元素不同,该方法将它们视为语义枢纽。这种方法验证了标题中的标准结构有效地编码了发明的功能逻辑,为计算密集型的全文挖掘提供了一种可扩展的替代方案。
为了评估该方法的有效性,我们将其与六种广泛使用的关键词提取技术进行了基准测试,包括基于频率的、基于图的和基于嵌入的模型。评估指标包括使用点互信息(PMI)[9]衡量的语义连贯性、领域相关性和运行效率。此外,为了提供外部验证,我们检查了提取的标题级关键词与合作专利分类(CPC)代码之间的对齐情况,以评估标题中观察到的语言模式是否与既定的技术分类法相对应。
除了方法论贡献外,本研究还为功能导向的创新研究提供了可扩展的方法,用于识别专利数据中不断演变的功能表达。所提出的框架有助于追踪AI功能的进展,包括从自动化到智能导向创新的转变,基于嵌入在文本元数据中的结构信号。
在此背景下,本研究探讨了专利标题中嵌入的语法线索是否可以为在元数据受限环境中识别功能创新信号提供可靠的基础。
数据集包含2014年至2024年间包含“人工智能”短语的21,100个美国专利标题,这些数据来自Google Patents。本文的其余部分结构如下:第2节回顾相关工作;第3节介绍数据集、提出的方法和基准模型;第4节报告评估结果;第5节讨论关键发现和意义;第6节以总结和未来方向结束。

相关研究

相关工作

本节回顾了与专利关键词提取相关的研究,分为四个方法论领域:(1)基于频率和共词提取方法;(2)注重结构和基于嵌入的技术;(3)基于NLP的专利关键词提取的最新进展;(4)针对专利标题等元数据受限环境的短文本建模方法。

方法

本节详细介绍了本研究的研究框架、数据集构建和提出的语法锚定算法。我们还描述了基线方法以及用于确保结果稳健性的验证指标。

结果

每年的专利申请量呈现出持续上升的趋势,2020年达到峰值,反映了全球AI创新的激增(详见附录A中的年度分布)。
提出的语法锚定方法与六种基线方法进行了比较评估:共现(方法A)、带有PMI的Word2Vec(方法B)、KeyBERT(方法C)、LDA(方法D)、TextRank(方法E)和YAKE(方法F)。为了优先考虑客观验证而非主观评估,

讨论

本研究证明,使用高频介词的语法意识方法提供了一种高效且可解释的方法,可以从专利标题中提取有意义且与领域相关的关键词。通过使用foronusing等介词作为结构锚点,该方法捕捉到了传统模型经常忽略的特定上下文中的表达。
这一发现与早期强调功能词在技术文本中的语义作用的研究结果一致。

结论

本研究提出了一种基于语法的方法,通过利用高频介词作为结构锚点从专利标题中提取功能三元组。与依赖统计共现或基于嵌入相似性的传统关键词提取方法不同,该方法强调了短文本(通常少于十五个词)的语法组织,并将介词视为功能意图的信号。
实证结果表明

CRediT作者贡献声明

Elisa J. Choi:撰写——原始草稿、可视化、方法论、形式分析、数据整理、概念化。Gyoo Gun Lim:撰写——审稿与编辑、验证、监督、资源管理、项目协调。

AI披露

使用ChatGPT(OpenAI GPT-5,2025版本)进行语言翻译和优化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的竞争财务利益或个人关系。
Elisa J. Choi是韩国汉阳大学商业信息学的博士候选人。她的研究领域包括人工智能、专利分析和数据驱动的创新研究。她将自然语言处理和可解释的机器学习应用于短文本数据,重点关注纵向趋势分析和技术预测。她参与了与技术管理、数字平台和创新政策相关的数据分析项目。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号