揭示大型语言模型生成的文本:一个多层次的细粒度检测框架

《Decision Analytics Journal》:Unveiling large language models generated texts: A multi-level fine-grained detection framework

【字体: 时间:2026年03月09日 来源:Decision Analytics Journal CS10.9

编辑推荐:

  大语言模型(LLMs)滥用对学术诚信构成威胁,现有检测方法存在单维度特征、文档级粗粒度分类及抗攻击性不足的缺陷。本文提出多层级细粒度检测(MFD)框架,通过统计特征(如词频分布)、语义特征(基于对比学习的上下文不变性)和语言特征(利用LLM提取句法结构、代词一致性等深层模式)的三级融合,实现句子级别的LLM生成内容定位。实验表明,MFD在PASTED、MP、OOD-GPT4等数据集上MAE达0.1347,准确率0.8856,优于基线方法。分隔符

  
魏旭|陈振涛|陈润宇|奚丁豪|李志宇
中国人民大学信息学院,中国北京市海淀区中关村大街59号,邮编100872

摘要

尽管大型语言模型(LLMs)在写作辅助方面取得了革命性进展,但其广泛滥用对学术诚信和原创性构成了重大威胁。现有的检测方法通常依赖于单一维度特征和文档级别的二分类,缺乏识别LLM参与程度的细节,并且容易受到诸如改写等复杂规避策略的影响。为了解决这些局限性,我们提出了一种新颖的多级细粒度检测MFD)框架,该框架整合了低级统计特征、高级语义特征和深度语言特征,能够在句子级别准确识别LLM生成的内容。具体来说,我们采用了一种基于对抗性重写文本训练的鲁棒性感知对比学习机制来捕捉不变的高级语义特征。此外,我们还利用先进的LLM提取传统方法忽略的深度语言细微差别和上下文模式。在公共数据集上的广泛实验表明,MFD的性能优于现有方法,平均绝对误差(MAE)为0.1347,准确率为0.8856。这项工作为教育机构提供了一种精确且强大的机制,以降低作者身份被冒用的风险,确保严格遵守学术标准。

引言

作者归属和剽窃检测一直是学术研究中的基本问题,因为原创性和正确的作者身份是可信学术交流的基石[1]。传统的剽窃行为通常涉及直接复制或表面层次的改写,已经通过基于相似性和文体分析的检测方法得到了广泛研究[2]。然而,大型语言模型(LLMs)的迅速出现引入了一种新的、更为微妙的剽窃形式和人工智能(AI)的滥用。LLM生成的内容可能流畅、连贯且词汇多样,往往与现有来源没有明显的文本重叠,这使得它能够规避传统的剽窃检测器[3]。虽然LLMs在各种实际应用中带来了显著的好处[4],[5],但其滥用也引发了担忧,例如错误信息的传播和生成内容中的作者身份模糊[6],[7]。在学术写作中,这一问题尤为突出,因为人类撰写的内容与LLM生成的内容之间的界限变得模糊,这削弱了作者归属的确定性和学术诚信,凸显了针对此类复杂文本的强大检测框架的迫切需求[8]。
尽管越来越多的人认识到LLM在特定领域的滥用问题,但大多数现有研究都集中在检测通用文本中的LLM生成内容上,而不是解决复杂写作环境中的细致验证需求。现有的检测方法大致可以分为两类:基于度量的方法和基于模型的方法[9]。基于度量的方法分析诸如困惑度、词汇使用和句法结构等语言特征,通过统计指标来识别非人类作者的身份[10]。然而,对单一特征类型的依赖限制了这些方法的有效性,导致特征提取不完整和检测准确率降低[8]。相比之下,基于模型的方法使用在大型标记数据集上训练的深度学习模型来检测LLM生成内容与人类编写内容之间的细微差异[3]。然而,这些模型通常作为“黑箱”运行,可解释性有限且容易受到对抗性攻击的影响。因此,这两种方法在检测现代LLM生成的日益复杂的学术文本时都存在不足。
具体来说,这些局限性体现在三个关键方面。首先,大多数现有方法依赖于单一特征维度,无论是统计模式还是语义内容,而不是进行全面的、多层次的分析。随着LLM生成的内容越来越模仿人类写作,这种狭隘的关注方式无法捕捉复杂的语言细微差别,导致频繁的误分类。其次,当前的模型在对抗性规避方面表现较差[11]。即使是微小的改动,如同义词替换或词序改变,也可能严重损害检测性能[12]。因此,确保对这些操作的稳定性对于可靠部署至关重要。最后,对于学术环境来说可能最为关键的是,现有研究主要集中在文档级别的二分类上。这种粗略的粒度不适合复杂的写作,因为在复杂的写作中,LLM的参与往往局限于特定部分或句子级别的润色。如图1所示,这种局部的参与会产生更微妙的机器特征,比完全由LLM生成的内容更难以检测。没有细粒度的能力,检测方法难以识别混合作者身份的情况,从而无法保护学术研究的原创性和可信度。
为了解决上述挑战,我们提出了一种新颖的多级细粒度检测MFD)框架,专门针对学术写作的复杂性进行了设计。通过整合多个层面的互补统计特征、语义特征和语言特征,我们的方法超越了单一特征分析的局限性,提供了全面的文本描述。此外,为了增强对规避和操纵的抵抗力,该框架结合了一种鲁棒性感知的对比学习机制,以应对重写和改写引入的变化。为了满足学术剽窃检测的精确要求,MFD在句子级别进行操作,提供词汇、句法和语法的细粒度评估。这种分层设计既捕捉了局部的句子级信号,也捕捉了更广泛的上下文线索,确保了全面的分析。广泛的实验表明,我们的方法在检测不同类型的LLM生成的学术文本时表现出了优越的性能和强大的泛化能力。
总之,我们的工作做出了四项贡献。首先,我们提出了MFD框架,这是一种新颖的多级检测系统,它结合了统计特征、语义特征和语言特征,有效识别LLM生成的内容。其次,我们建立了一种句子级分析机制,量化了LLM在词汇、句法和语法方面的参与程度,提供了专门针对学术剽窃细微差别的细粒度检测。第三,为了增强对规避的抵抗力,我们结合了一种在原始文本和重写文本上训练的鲁棒性感知对比学习策略,显著提高了模型对篡改内容的泛化能力。最后,我们设计了一个利用先进LLM的深度语言特征提取模块,该模块捕捉了传统方法忽略的复杂句子级模式和更广泛的上下文依赖关系。
本文的其余部分组织如下。第2节回顾了相关工作,涵盖了学术剽窃和AI滥用、LLM生成文本检测以及多级特征学习。第3节详细介绍了所提出的MFD框架的架构和方法论。第4节介绍了实验设置,随后是对结果的全面分析和讨论。最后,第5节总结了研究的主要发现,并指出了未来研究的方向。

章节片段

学术剽窃和AI滥用

学术剽窃长期以来一直是学术研究中的一个普遍问题,因为它破坏了原创性和科学诚信。传统的剽窃检测方法主要关注通过基于相似性的技术来识别逐字复制和改写[13]。虽然这些方法对表面层次的重复有效,但它们难以应对诸如间接改写或思想窃取等微妙的不当行为。为了缓解这些局限性,研究人员引入了语义

多级细粒度检测框架

如图2所示,我们提出的框架首先仔细清理和预处理学术文本,将其分割成单独的句子以便进行有针对性的分析。随后,我们采用多级策略从这些句子中提取特征。整合统计特征、语义特征和语言特征的依据是“语言完整性”原则,这一原则在相关领域得到了验证。例如,在作者归属研究

数据集描述

在本研究中,我们使用改写文本片段检测4(PASTED)数据集作为训练和细粒度回归分析的主要语料库。为了进一步评估模型在二分类场景中对规避攻击的鲁棒性,我们还使用了两个外部基准:多重改写(MP)和分布外-GPT4(OOD-GPT4)。这些测试数据集的详细描述是

结论与未来工作

在本文中,我们提出了多级细粒度检测MFD)框架,这是一种新颖的方法,旨在应对学术写作中识别LLM生成内容的复杂挑战。通过在句子级别融合统计特征、语义特征和语言特征,我们的方法超越了二分类,提供了对AI参与程度的精确、细致的量化。至关重要的是,为了应对常见的规避策略,该框架结合了鲁棒性感知的对比

CRediT作者贡献声明

魏旭:监督、资源获取、调查、资金筹集、概念化。陈振涛:写作——审稿与编辑、初稿撰写、可视化、验证、软件开发、方法论、数据管理、概念化。陈润宇:验证、监督、调查。奚丁豪:写作——审稿与编辑、初稿撰写、监督、资源管理、方法论、资金筹集、概念化。李志宇:写作——审稿与编辑、资源管理、调查,

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(资助编号:72271233和72201061)、苏州人工智能与社会治理技术重点实验室(SZS2023007)、智能社会治理技术与创新应用平台(YZCXPT2023101)、产业与教育融合创新体系(CJRH2024101)以及中央高校基本科研业务费(2024110591)的支持。
魏旭weixu@ruc.edu.cn)是中国人民大学信息学院的教授。她在中国科学院获得了博士学位。她的研究兴趣包括商业分析和社交媒体。她的研究成果发表在《信息系统研究》、《生产与运营管理》和《决策支持系统》等期刊上。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号