LeHSE:基于大型语言模型的多文档分层脚本提取技术

《Knowledge-Based Systems》:LeHSE: Large Language Model Enhanced Hierarchical Script Extraction from Multiple Documents

【字体: 时间:2026年02月27日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  针对单文档脚本提取的局限性,本研究提出多文档脚本提取任务,设计LeHSE框架通过迭代提取、层次识别和脚本增强三阶段处理,并开发轻量版LeHSE-FT及MDScript数据集,实验验证其优于现有方法。

  
廖增华|廖金志|胡胜泽|黄培新|赵翔
中国长沙国防科技大学大数据与决策实验室

摘要

提取和结构化呈现脚本对于提供清晰的指导和有效的学习至关重要。虽然以往的研究侧重于从单一文档中提取线性脚本,但它们忽略了从多个来源聚合层次化脚本的潜力。在本文中,我们借鉴了心理学的认知负荷理论,提出了一种新的多文档脚本提取任务来弥补这一不足。为了解决这一挑战,我们提出了LeHSE,这是一个用于从多个文档中提取层次化脚本的大型语言模型(LLM)框架。LeHSE通过三个阶段进行操作:首先,使用迭代提取模块从单个文档中提取线性脚本;其次,层次识别模块识别这些线性脚本之间的关系并将其聚合为层次化脚本;最后,脚本增强模块用常识知识和跨脚本洞察力丰富提取的脚本。为了适应计算资源有限的场景,我们还引入了LeHSE-FT,这是一种轻量级替代方案,它利用在我们新构建的MDScript数据集上微调的小型专用模型,该数据集包含2,000个目标和15,493个文档,作为多文档脚本提取研究的强大基准。包括自动评估和人类评估在内的广泛实验证明了LeHSE的优越性。此外,LeHSE-FT的性能可与LLM相媲美,这表明微调后的小型专用模型在高效多文档脚本提取方面具有价值。

引言

人们已经适应了从包含脚本的文档中获取知识,脚本由一系列旨在实现特定目标的步骤组成。脚本被定义为“特定场景中事件序列的结构化表示" [1], [2], [3], [4], [5],可以分为叙述性脚本和目标导向型脚本。前者描述了特定上下文中的事件链,而后者则包括为实现预定义目标而逻辑排序的步骤。例如,“看医生"的目标导向型脚本包括“预约"和“去医院"等步骤。因此,从非结构化文档中自动提取脚本引起了研究界的极大兴趣,包括在可执行机器人系统[6], [7]和问题解决推理系统[8], [9]等应用中。
以往的研究使用了无监督的广泛覆盖方法[10], [11]和基于Transformer的模型[12], [13]进行脚本提取。最近,大型语言模型(LLMs)在零样本/少样本设置中展示了它们的有效性[14], [15], [16]。然而,这些方法主要关注从单个文档中提取脚本,即所谓的单文档脚本提取,如图1(a)所示。这种任务设置存在显著的限制,可能无法满足实际需求,因为它通常会导致两种关键的信息损失:(1)决策空间压缩:从单个文档中提取的脚本通常是线性的,限制了用户的决策选项。正如俗语所说,“条条大路通罗马”,意味着实现给定目标通常有多种方法。实际上,用户应该能够访问不同的步骤序列,以选择最适合他们独特情况和偏好的方法。例如,图1(a)中的脚本省略了“制作短片”作为实现“制作视频"目标的途径。(2)缺乏细节。线性脚本中的步骤往往含糊不清,缺乏详细的指导,降低了过程的可行性。例如,图1(a)中的步骤2关于“如何设置设备"提供的细节不足,使用户没有明确的指导。
为了解决这些限制,我们提出了一种新的任务,称为多文档脚本提取(MDSE)。与单文档脚本提取不同,MDSE旨在从多个文档中提取层次化脚本,以减少信息损失。具体来说,给定一个特定目标和多个相关文档,MDSE涉及提取与该目标相关的所有线性脚本,并以层次化格式呈现它们。这一定义符合心理学的认知负荷理论[17], [18], [19],该理论认为层次结构有助于读者更有效地分类、总结和整合信息。通过减少冗长复杂线性文本带来的认知负担,层次化脚本提高了可用性和可访问性。尽管层次化组织本身会引入导航开销(例如,增加用户等待时间),但LeHSE策略性地优化了层次深度(第3.3节)。效率分析(第5.3.4节)进一步验证了用户等待时间保持在实际范围内,确保了结构化脚本的好处超过了潜在的权衡。

示例1

考虑图1(b)。给定一个目标,例如“制作视频”,任务要求模型分析多个文档之间的复杂关系以获得层次化脚本。层次化脚本提供了不同的路径(例如,“制作短片”和“创建YouTube教程”)以及详细的步骤扩展,例如为步骤1.2“设置设备”指定具体操作。
MDSE可以从多文档来源提取实现目标的多种路径,从而扩展用户的决策空间,并有效解决上述第一个限制。此外,MDSE以层次化格式呈现脚本,允许扩展脚本中的模糊步骤,从而解决第二个限制。例如,如图1(b)所示,考虑到步骤1.2,用户可能会对“如何设置设备"感到困惑。然而,如果其中一个文档来源描述了“如何配置相机",MDSE会将该文档中的线性脚本链接到步骤1.2作为更详细的扩展。通过使用层次化脚本,用户可以有效地理解他们的整个目标,从而简化学习过程并增强知识获取。为了深入探讨这项任务的本质,我们对MDSE进行了全面分析,识别了其研究挑战,包括:
  • RQ 1:
    由于缺失的步骤可能会破坏脚本的连续性,我们如何充分探索每个文档涵盖的步骤?
  • RQ 2:
    由于脚本能够相互强化和补充,我们如何基于多个文档建立复杂的相关性?
  • RQ 3:
    由于某些步骤可能包含“金钥匙”信息,我们如何利用补充信息来丰富事实并纠正脚本中的不准确之处?
  • 为了解决这些挑战,一种直观的方法是将相关文档提供给LLM,并指示它生成层次化脚本。然而,这种方法面临两个问题:(1)多文档输入包含大量令牌,导致时间和计算成本过高。(2)当前的LLMs在上下文长度增加时往往会失去焦点或忽略某些信息[20], [21], [22]。因此,我们提出了一个受提取-组装概念启发的新框架,并构想了一个大型语言模型增强层次化脚本提取器,即LeHSE。它首先从每个单独的文档中提取线性脚本,然后识别它们的层次结构以组装成层次化脚本。LeHSE具有三个为任务量身定制的精心设计的模块:(1)迭代提取模块使用迭代提取策略从每个单独的文档中提取线性脚本,从而通过多阶段推理提高脚本的质量,以解决RQ1。(2)层次识别模块通过两阶段相似性计算方法构建层次结构,识别单个线性脚本之间的关系,以解决RQ2。(3)脚本增强模块通过整合来自其他步骤和LLMs的补充信息来增强脚本中的次优步骤,以解决RQ3。此外,我们还为计算资源有限的情况开发了LeHSE-FT选项,通过微调小型专用模型来实现。
    为了增强MDSE任务的完整性,我们开发了一个定制的基准数据集MDScript,该数据集源自wikiHow数据集[24]。对于每个目标,我们从wikiHow数据集中检索相关文档作为多文档来源。然后,注释者通过详细分析这些文档来手动制作层次化脚本。每个脚本都经过多名注释者的严格审查,以确保准确性和质量。这个过程确保了MDScript完全反映了人类的偏好,并作为评估MDSE模型性能的可靠测试平台。
    总结来说,这项研究做出了以下关键贡献:
  • 据我们所知,我们是最早探索MDSE的研究者之一,我们识别了其关键挑战并提出了一个非平凡的解决方案;
  • 我们率先整合了LLMs,并提出了一个基于提取-组装概念的新框架LeHSE。此外,我们还提供了一个计算效率更高的替代方案LeHSE-FT
  • 我们进一步开发了一个新的基准数据集MDScript,它提供了多个文档来源和每个目标的手动注释层次化脚本;
  • 广泛的实验通过自动和人类评估证明了LeHSE的优越性,而且,用MDScript数据微调的小型专用模型实现了与LLM相当的能力。
  • 部分片段

    脚本提取

    脚本的概念最初由Schank和Abelson [1]提出,作为特定场景中事件序列的结构化表示。脚本可以分为两类:(1)叙述性脚本,描述特定上下文中的事件链(例如,从食谱[25], [26]或故事[25], [26]等叙述性文本中提取的);(2)目标导向型脚本,包括为实现预定义目标而逻辑排序的步骤[13], [25],例如“制作

    提出的方法

    本节首先正式定义了表1中呈现的定义,然后介绍了所提出的方法,包括LeHSE框架及其模块细节。我们还为资源有限的场景提出了一种计算效率更高的替代方案LeHSE-FT

    MDScript数据集

    现有的数据集在支持MDSE方面存在不足[2], [13], [28],并且数据集的手动注释成本高昂且劳动密集。因此,我们将LeHSE的自动提取与手动注释结合起来,开发了一个专为MDSE任务定制的数据集MDScript

    实验

    为了全面评估所提出方法的能力,我们进行了广泛的实验,涵盖了各个方面,包括整体评估、消融研究(第5.2节)、三个模块的深入分析以及效率分析(第5.3节)。

    结论

    本文介绍了一种称为多文档脚本提取的新任务,旨在通过层次化脚本总结多个文档的框架。为了自动化这一过程,我们提出了LeHSE,这是一个新的LLM增强型提取-组装框架。此外,我们还构建了一个名为MDScript的基准数据集,专为MDSE任务设计。考虑到计算资源有限的场景,我们还提出了另一种框架LeHSE-FT。广泛的实验

    CRediT作者贡献声明

    廖增华:撰写——原始草稿,验证,数据管理。廖金志:撰写——审阅与编辑,撰写——原始草稿,资源整理,概念化。胡胜泽:撰写——审阅与编辑,监督,项目管理,方法论。黄培新:撰写——原始草稿,验证,数据管理。赵翔:撰写——审阅与编辑,监督,项目管理,方法论,资金获取,概念化。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号