对大型语言模型在国际建筑合同领域的知识进行基准测试

《Expert Systems with Applications》:Benchmarking international construction contract knowledge of large language models

【字体: 时间:2026年03月04日 来源:Expert Systems with Applications 7.5

编辑推荐:

  国际工程合同管理领域大语言模型(LLMs)的能力评估与局限性分析,提出包含1131个问题的多级基准测试框架,发现LLMs在专业知识应用、准确性和完整性方面存在显著短板,但在相关性、专业性和回答清晰度方面表现较好,为智能合同管理系统研发提供结构化评估体系。

  
韩兆霞|陈永强|徐倩|王宇
天津大学管理与经济学院,天津 300072,中国

摘要

大型语言模型(LLMs)在多个领域展现出强大的能力。然而,它们对国际建筑合同的知识掌握程度以及在执行与此领域相关任务时的可靠性仍很大程度上未被探索。本研究提出了一个包含1,131个问题的多层次基准测试,旨在评估模型的知识记忆、理解和应用能力,并采用混合评估指标进行支持。通过对14个代表性模型的测试,我们得出了三个关键发现:1) 少样本学习对准确性的影响并不一致,表明其效果具有不确定性;2) 虽然LLMs能够有效回答需要国际建筑合同专业知识的问题,但在概念和事实细节等基础知识方面存在困难;3) LLMs在相关性、专业性和清晰度方面表现出相对优势,但在准确性、完整性和引用方面存在显著不足。本研究为模型选择和性能提升提供了一个结构化的评估框架,同时也通过识别当前LLMs的优缺点为智能合同管理系统的未来研究奠定了基础。

引言

大型语言模型(LLMs)拥有数百万到数万亿个参数,能够在理解和生成类似人类的文本方面展现出卓越的能力。除了通用应用外,它们在法律(Cui等人,2023年;Huang等人,2023年)、医学(Wang等人,2023年;Wu等人,2023年)和金融(Zhang & Yang,2023年)等专门领域中也展示了巨大的潜力。特别是在国际建筑合同管理领域,人们对开发专用LLMs的兴趣日益增长(Kim等人,2025年;Zhang等人,2025年)。这种特定领域应用的迅速发展迫切需要标准化的基准测试来可靠地评估模型性能,以确保未经验证的能力不会影响LLMs在关键合同相关任务中的实用性和可靠性。
国际建筑项目涉及跨境交易、巨额投资、漫长的时间线和高复杂性,导致执行过程充满不确定性和动态变化(Maemura等人,2018年)。这些项目还面临来自法律体系、经济条件和政治环境差异带来的风险(Eybpoosh等人,2011年)。这些风险可能会阻碍项目的顺利实施,甚至引发索赔和争议。建筑合同定义了各方的权利、责任和义务,在整个项目执行过程中起着重要的治理和风险保障作用(Cao和Lumineau,2015年;Mayer等人,2022年)。传统的合同分析依赖于人工审查和专家判断,尽管这些方法有价值,但成本高昂且往往具有主观性和不一致性。根据《2020年中国国际项目承包统计公报》,中国国际承包企业每年提交约40,000个项目的投标(中华人民共和国商务部,2021年),显示出强劲且不断增长的市场需求。鉴于人工方法的有限可扩展性和可复制性,迫切需要像LLMs这样的自动化工具来提供快速、低成本且可复制的合同风险分析。鉴于这些任务的重要性,对模型进行全面评估对于确保LLMs的安全和有效部署至关重要。
模型评估是在部署前的关键步骤,旨在为开发者和用户提供对LLMs能力和局限性的更深入理解。早期的基准测试主要集中在为特定微调模型设计的单一维度任务上,强调语言能力(Bragg等人,2021年;Sarlin等人,2019年;Wang等人,2018年)。随着计算能力的提升和大规模数据集的可用性,LLMs在语言能力评估方面已经达到了人类水平。这一进展促使近期研究将重点转向评估更复杂的技能,例如LLMs学习和应用知识的能力。这导致了具有更广泛和更具挑战性的知识覆盖范围的基准测试的构建(Hendrycks等人,2020年;Srivastava等人,2022年;Yu等人,2023年)。此外,越来越多的研究开发了针对特定领域的基准测试,以评估专用LLMs(Ling等人,2023年),涵盖法律(Fei等人,2023年;Guhá等人,2024年)、医学(Cai等人,2024年;Singhal等人,2023年)、社会语言(Choi等人,2023年)、计算社会科学(Ziems等人,2024年)和金融(Zhang & Yang,2023年)等多个领域。然而,尽管之前的工作在评估LLMs的广泛领域方面取得了实质性进展,但某些专门领域仍缺乏普遍适用的基准测试,建筑合同管理就是一个显著的例子。因此,该领域对LLMs的评估面临三个主要限制:(1)缺乏特定领域的评估任务集;(2)评估任务层次结构不足;(3)评估指标的多维性和细致程度不够。
本研究旨在通过建立国际建筑合同知识的LLM基准测试来解决这些限制。具体而言,我们开发了一个多层次框架,包含多种类型的问题,以评估模型在记忆、理解和应用领域知识方面的能力,并结合了自动化和人工评估的混合指标系统。在此基础上,选出了具有代表性的LLMs进行能力评估,并对其答案在多个层次和维度上进行了分析和比较(图1)。
本研究建立了首个国际建筑合同知识的LLM基准测试,为未来的研究提供了数据集和标准化评估工具。此外,它还为用户提供了在实际场景中理解、选择和应用LLMs的实用指导,以及为模型开发者提供了提升模型性能的可操作性见解。

部分摘录

NLP在建筑合同管理中的应用和发展趋势

自然语言处理(NLP)是人工智能(AI)的一个子领域,专注于理解和处理自然语言数据,特别是非结构化文本(Canda?和Tokdemir,2022b;Khalef和El-adaway,2021)。合同文本是非结构化数据的典型代表,具有长度和复杂性。因此,NLP在建筑合同管理中具有巨大的应用潜力。现有研究已经探索了各种NLP

分层能力分类

现有的基准测试通常采用任务密集型框架来评估与知识相关的能力。这些基准测试通常包含数百个任务,以界定LLMs的知识边界(Srivastava等人,2022年),或者使用来自不同教育水平的真实世界考试来评估模型所获得知识的深度和复杂性(Hendrycks等人,2020年;Zhong等人,2023年)。对于国际建筑合同管理等专门领域,

评估模型

我们评估了2024年6月之前发布的14个最新的LLMs,所有这些模型在权威基准测试中都表现出了出色的性能。其中三个是开源的,其余的是闭源的。这些模型的基本信息总结在表7中。

实验设置

在本研究中,评估是使用官方提供的应用程序编程接口(API)进行的,代码使用Python 3执行。评估代码包含五个主要模块:“Calling

少样本学习带来的不确定性准确性提升

我们在零样本、单样本和三样本设置下评估了与知识记忆和理解相关的任务,如图3和图4所示。
图3显示了知识记忆任务(任务1-1和1-2)的平均准确性。大多数测试模型在少样本设置下随着示例的增加而表现出准确性的提高。然而,GPT-3.5-Turbo-0125和Mistral-Large-2402在这些少样本设置下的准确性较低

主要贡献

本研究建立了首个针对国际建筑合同的基准测试,重点评估模型记忆、理解和应用领域特定知识的能力。我们开发了一个包含1,131个问题的多层次评估任务集,以系统地评估这些能力。此外,我们设计了一个多维度评估指标系统,结合了客观和主观测量方法来量化模型的答案。

CRediT作者贡献声明

韩兆霞:调查、方法论、验证、数据整理、撰写——初稿、可视化。陈永强:概念化、调查、撰写——审阅与编辑、监督、资金获取。徐倩:概念化、方法论、验证、数据整理、撰写——初稿、可视化。王宇:监督、验证、撰写——审阅与编辑、项目管理。

利益冲突声明

作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。

致谢

本工作得到了国家自然科学基金(项目编号:72031008)的支持。

关于写作过程中生成式AI和AI辅助技术的声明

在准备本工作时,作者使用了DeepSeek和GPT-4来提高手稿的可读性和语言表达。使用这些工具后,作者根据需要审查和编辑了内容,并对发表文章的内容负全责。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号