评估基于知识的法律文本分析方法：一项基准研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Law & Security Review》：Evaluating knowledge-based approaches for legal text analysis: A benchmark study

【字体：大中小】 时间：2026年03月01日 来源：Computer Law & Security Review 3.2

编辑推荐：

　　法律自然语言处理领域，ASKE方法通过挖掘法律文本潜在语义结构，在LexGLUE数据集上对比SOTA模型，展现优异的文档分类和知识抽取性能，尤其在EUR-LEX、ECtHR等任务中超越传统TF-IDF+SVM模型，但弱于Legal-BERT等专用模型。应用场景涵盖合同分析、判例检索，局限在于仅支持英语且需改进推理能力。

阿瓦伊斯·阿卜杜勒·哈利克（Awais Abdul Khaliq）|达维德·里瓦（Davide Riva）|斯特凡诺·蒙塔内利（Stefano Montanelli）

米兰大学（Università degli Studi di Milano），计算机科学系，Via Celoria 18，20133米兰，意大利

摘要

基于Transformer的架构和大规模基准测试的最新进展显著提升了自然语言处理（NLP）的性能。然而，像法律这样的特定领域由于专业术语、复杂的语义以及有限的标注数据而带来了独特的挑战。

在本文中，我们使用LexGLUE数据集将ASKE（一种旨在捕捉法律文本中潜在语义结构的知识提取方法）与最先进的法律领域模型进行了基准测试。我们通过伪精确度和伪召回率指标分析了其在不同法律任务中的表现，强调了其优势、局限性和适应性。基于实验结果，我们讨论了ASKE可以有效支持法律文本分析和下游法律信息处理的潜在应用场景。

引言

自从基于Transformer的模型和大规模基准测试（如GLUE和SuperGLUE）问世以来，自然语言处理（NLP）取得了显著进展。这些基准测试为通用语言理解任务的标准化评估奠定了基础，使得模型之间的比较更加一致，并促进了创新[1]、[2]。尽管如此，法律等特定领域仍然存在通用NLP模型和评估数据集难以完全解决的独特挑战[3]。

法律文件包括法律条文、法院判决和法律合同，它们在社会正常运作中起着至关重要的作用。然而，由于这些文件具有领域特定的词汇、复杂的句子结构以及所需的专业知识，因此难以分析[4]。此外，法律文本通常包含技术性信息，往往需要定制的模型来进行正确的解释和处理。传统的监督学习方法通常面临标注数据缺乏和人工注释成本高昂的问题，这使得它们在法律领域的应用不切实际[5]。

基于Transformer的架构（如BERT及其变体）在过去几年中在特定领域取得了显著成果，这得益于机器学习的进步。需要适当的基准测试来评估这些模型在法律文本特定挑战（如上下文感知的语义和领域特定词汇）上的能力。法律通用语言理解评估（LexGLUE）就是这样一种基准测试。LexGLUE是一个全面的NLP模型评估工具，涵盖了多种法律任务，包括多标签分类、多类分类和问答。它使用了代表实际法律实践的数据集，如EUR-LEX、欧洲法院（ECtHR）案例、美国最高法院（SCOTUS）案例和欧盟立法[6]。同时，也开发了特定领域的模型来改进法律文本分析（例如LegalNLP [7]、LegalBench [8]、IL-TUR [9]、Lextreme [10]、LawBench [11]）。这些模型能够在没有大量标注数据的情况下从法律文件中提取有意义的知识。作为这一领域的进一步解决方案，我们最近提出了ASKE [12]。ASKE方法及相关工具旨在利用法律文本的潜在结构和语义来提取法律知识，以概念和关系的形式支持广泛的下游任务，如文档分类和法律信息检索。

在本文中，我们使用LexGLUE数据集将ASKE与几种最先进的（SOTA）法律文本分析模型进行了基准测试。我们的目标是通过讨论该方法的优点和局限性，以及其在各种法律任务中的表现来全面评估ASKE。这包括伪精确度和伪召回率指标，这些指标量化了ASKE提取的知识与真实情况的匹配程度。这些指标提供了关于ASKE在不同法律数据集上表现的见解，展示了其在应对法律文本新挑战时的多功能性和适应性。作为这项工作的进一步贡献，我们根据实验结果概述了ASKE可以有效解决法律领域当前挑战的可能应用场景。

本文的结构如下：第2节回顾相关文献；第3节介绍ASKE的关键特性；第4节详细说明所使用的LexGLUE数据集；第5节介绍评估中考虑的最先进模型；第6节展示实验结果；第7节讨论ASKE在法律NLP中的潜在应用；最后，第8节指出局限性和未来工作方向，第9节提供我们的结论性意见。

节选内容

文献综述

近年来，法律自然语言处理（L-NLP）已成为一个活跃的研究领域，在摘要[13]、信息检索[14]、[15]、文档分割[16]、[17]、案例预测[6]、[16]、[18]、语义分析以及信息提取[19]、[20]等任务方面取得了进展。

钟等人（Zhong et al.）证明，拓扑学习是法律判决预测的极其有效的方法，强调了在法律领域需要定制模型的必要性

ASKE概述

在本节中，我们概述了ASKE方法，该方法用于从大量法律文档语料库中分类和提取法律知识。

给定一个法律文档语料库，ASKE的目标是从相关句子/段落（称为文档块）中提取一组相关概念，并将这些概念与相应的概念进行分类。这种分类/提取过程的结果是该语料库的概念视图，其中每个概念都可以用来访问

LexGLUE数据集

LexGLUE数据集被选用于评估ASKE在法律文本分析方面的表现。LexGLUE基准测试包括七个涵盖不同法律NLU任务的数据集。在本研究中，我们在七个LexGLUE数据集中的六个上评估了ASKE：ECtHR（任务A和B）、SCOTUS、EUR-LEX、LEDGAR和UNFAIR-ToS。我们排除了CaseHOLD，因为它是一个多项选择题任务，要求从五个候选陈述中识别正确的法律立场。这个任务

评估的模型

ASKE的评估是通过考虑一组最先进的预训练Transformer模型来进行的。

我们在各种LexGLUE任务上对这些预训练模型进行了微调，特别是多标签和多类分类任务。第二组模型包括预训练的Transformer模型，用于评估ASKE的性能。选择这些模型是因为它们代表了法律文本特有的挑战，例如处理长文档和处理不平衡数据

实验结果与讨论

在本节中，我们首先描述了实验设置，然后讨论了F1分数、准确率、精确度和召回率等方面的结果。包含脚本和完整实验结果的公共仓库位于https://github.com/oziofficial5/Aske。

ASKE在L-NLP中的潜在应用

在LexGLUE数据集上的实验结果表明，ASKE在多种L-NLP任务中表现出色，包括文档分类、概念提取和术语增强。接下来，我们概述了ASKE可以有效应用的可能任务。

合同分析。合同审查通常涉及确保合规性、识别潜在风险以及提取关键信息。ASKE提取相关法律术语的能力使得

局限性与未来工作

目前，ASKE仅能处理英文文档。将ASKE扩展到多语言数据正在考虑中。

实验结果显示，ASKE在许多任务上与最先进的模型相当。然而，在需要高级推理或对明确法律文本进行论证的任务（如SCOTUS数据集中的任务）上，它不如专门的基于Transformer的模型（如Legal-BERT和CaseLaw-BERT）表现优异。作为一个局限性，我们

结论性意见

在这项工作中，我们使用LexGLUE基准测试中选定的法律数据集，评估了我们的ASKE方法在法律知识提取方面的表现。结果显示，ASKE在包括ECtHR、SCOTUS、LEDGAR和UNFAIR-ToS在内的多种法律数据集上优于所评估的模型。ASKE实验表明，基线模型（如TFIDF+SVM）被超越，而当考虑最先进的Transformer模型（如BERT和Legal-BERT）时，ASKE提供了有竞争力的结果。

利益冲突声明

作者声明他们没有已知的可能会影响本文所报告工作的竞争性财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言