《Machine Learning with Applications》:Performance Evaluation of Large Language Models for Automated Knowledge Graph Generation
编辑推荐:
云计算系统在运行过程中会产生大量异构的原始数据日志,包含基础设施、应用和安全相关信息。将这些日志转化为资源描述框架(Resource Description Framework, RDF)三元组,可实现其在知识图谱(Knowledge Graph, KG)中的
云计算系统在运行过程中会产生大量异构的原始数据日志,包含基础设施、应用和安全相关信息。将这些日志转化为资源描述框架(Resource Description Framework, RDF)三元组,可实现其在知识图谱(Knowledge Graph, KG)中的集成,显著提升可解释性、根因分析及跨服务推理能力。大语言模型(Large Language Model, LLM)为自动化RDF知识图谱生成提供了可行途径,但在复杂云日志上的有效性尚未得到充分探索。研究人员设计了一个包含两个流水线的受控框架,用于系统性处理半结构化日志数据,评估多种LLM架构及提示策略在自动化RDF提取任务中的表现。提取流水线集成多个LLM识别相关实体与关系,自动生成主谓宾三元组;验证流水线结合语法与语义指标对输出进行评估,以衡量准确性、完整性和质量。由于缺乏公开基准数据集,研究人员基于OpenStack日志构建了参考性的Log-to-KG数据集,采用人工标注与本体驱动方法,确保客观基线。实验结果表明,少样本学习(Few-Shot Learning)在所有模型中取得最佳综合性能,其中LLaMA达到99.35%的F1值及100%有效RDF输出,Qwen、NuExtract和Gemma在少样本提示下同样表现优异,结合思维链(Chain-of-Thought, CoT)的方法保持了相近精度。单样本提示(One-Shot Prompting)是一种轻量且有效的替代方案,而零样本(Zero-Shot)以及单提示树状思维(Single-Prompt Tree-of-Thought, SP-ToT)、生成多选再投票(Generate-Multiple-Then-Vote, GMV)等策略整体表现较低。研究人员进一步在独立数据集上对表现最优的LLaMA与Qwen模型在单样本与少样本提示下的迁移性、性能稳定性及效率(延迟、令牌生成量、GPU内存占用)进行了评估。本研究强调了上下文示例与提示设计对精确RDF提取的重要性,揭示了不同LLM架构的特定局限性,为未来从非结构化数据中自动提取知识图谱提供了实用指导和基础支撑。
研究背景方面,云计算环境在运行生命周期中生成海量非结构化或半结构化日志,这些日志蕴含丰富的系统事件、故障、依赖关系和配置信息,但格式多样、术语不一,传统基于规则或正则表达式的确定性解析方法难以可靠捕获上下文语义,限制了日志在根因分析、跨服务推理及智能运维中的应用。将日志转化为RDF三元组并构建知识图谱,可实现语义层面的系统集成与复杂查询支持,是提升运维智能化的重要途径。近年来,大语言模型在自然语言理解与生成方面展现出卓越能力,为从异构文本中提取实体与关系提供了新思路。然而,现有研究多集中于通用文本或特定领域数据集,针对分布式云日志这一高度异构、噪声大且领域性强的数据源,不同LLM架构及提示策略在知识图谱构建中的性能差异尚缺乏系统性评估。此外,公开可用的基准数据集匮乏,使得自动化RDF提取方法的客观比较受限。因此,研究人员开展了此项面向云日志的大语言模型自动化知识图谱生成性能评估研究,旨在填补这一空白,为实际应用提供实证依据。
关键技术方法上,研究人员首先基于OpenStack日志构建了包含1000条样本的Log-to-KG参考数据集,采用分层随机抽样确保覆盖多种日志类型与属性分布,并通过本体驱动建模与人工校验相结合的方式确立真值。实验选取六种具有代表性的开源LLM,参数规模介于4B至8B之间,涵盖通用指令微调、信息抽取专用及蒸馏模型等不同类型。研究设计了十种提示策略,包括零样本、单样本、少样本、思维链及其组合,以及约束编程、自我批判、单提示树状思维和生成多选再投票等方法。评估框架由两条流水线组成:RDF提取流水线负责加载模型、构造提示并执行推理生成Turtle格式三元组;验证流水线则利用rdflib库进行语法校验,并结合严格语法匹配与宽松语义匹配两种方式,计算精确率、召回率及F1值等指标。为检验性能稳定性,研究人员对最优配置在新数据集上重复执行30次,并采用统计方法进行分析。
研究结果部分,首先在RDF有效性评估中,研究人员发现少样本提示结合LLaMA与Qwen模型可实现接近100%的有效输出,而零样本及复杂推理类提示策略的有效性显著下降,部分配置甚至无法生成可解析的结构。其次,在语法层面评估中,少样本提示在所有模型中均取得最高微平均F1值,LLaMA与Qwen分别达到0.9935与0.9916,显著高于其他策略;单样本提示表现次之,而约束编程虽提高语法合规性却降低了召回率。语义层面评估允许命名与格式的微小差异,结果显示少样本提示依然保持领先,LLaMA与Qwen的F1值分别达0.9935与0.9922,且多数模型在少样本条件下的性能较零样本提升超过50个百分点。在谓词级分析中,研究人员识别出时间戳、日志记录号、请求ID等高频谓词易被遗漏,而消息体、客户端IP等开放字段更易产生幻觉。混淆分析表明,LLM常将参考谓词简化为语义相近的变体,反映出其对语义关系的理解能力。在跨数据集迁移实验中,LLaMA与Qwen在少样本提示下仍保持F1值高于0.95,且30次重复运行的统计量显示性能稳定,差异具有统计学显著性。效率评估则表明,单样本提示的推理延迟与GPU内存占用均低于少样本提示,但代价是精度下降。
讨论与结论部分,研究人员指出,提示设计尤其是上下文示例的提供,是决定LLM在云日志RDF提取任务中成败的关键因素。少样本提示不仅能显著提升语法正确性,还能增强语义理解的准确性与完整性。不同模型在相同提示策略下表现存在差异,指令微调充分的模型在结构化输出任务中更具优势。尽管复杂推理提示在理论上可改善提取质量,但实际效果未超越少样本基线,反而增加了计算开销。研究构建的Log-to-KG数据集与评估框架为后续研究提供了可复现的测试平台。结论强调,在自动化知识图谱构建中,应优先考虑少样本提示与高性能LLM的组合,并根据实际部署需求在精度与效率之间进行权衡。未来工作可探索LLM驱动的自主知识图谱探索与推理,结合符号逻辑方法进一步提升结果的可解释性与可靠性。本研究发表于《Machine Learning with Applications》。