用于检测人工智能生成的科学内容的双分支方法

《Knowledge-Based Systems》:Dual-Branch Approach for AI-Generated Scientific Content Detection

【字体: 时间:2026年02月02日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  检测AI生成的科学文本对维护研究诚信至关重要。现有方法在二分类和多分类场景中泛化能力不足,无法识别混合内容。本文提出的SAID方法通过双分支神经网络融合手工语言学特征和T5编码的语义表示,有效提升了AI生成文本检测的准确率,在AIGTxt数据集上相比基线方法提升1.58%-10.97%,较商业工具提升14.30%。该方案创新性地将表面风格特征与深层语义特征结合,可精准区分人类撰写、纯AI生成及混合型科学文本。

  
Bushra Alhijawi|Rawan Jarrar|Sara Awajan|Aseel AbuAlRub
约旦安曼的苏玛雅公主技术大学

摘要

检测人工智能生成的科学文本对于维护研究的完整性、信任度和评估至关重要。现有的方法在处理二分类和多分类场景以及识别混合人类与人工智能生成的内容时存在困难。为了解决这些问题,我们提出了一种新的方法——科学作者身份识别与检测(SAID),该方法将手工制作的语言特征与基于嵌入的语义表示相结合。SAID通过并行分支捕捉表层风格模式和深层上下文语义,并在特征层将两者融合,以提高二分类和多分类任务的检测准确性。
我们在AIGTxt数据集上进行了大量实验,将SAID与基线机器学习方法、深度学习方法以及广泛使用的商业检测工具进行了对比。结果表明,SAID在二分类任务中的F1分数提高了1.58%至10.97%,并且在多分类任务中表现出色,尤其是在识别混合文本方面。与商业工具相比,SAID的准确率提高了14.30%。这些结果证明了SAID能够可靠地区分人类编写的内容、人工智能生成的内容以及混合类型的科学文本,为现代作者身份验证问题提供了有效的解决方案。

引言

大型语言模型(LLMs)在自然语言处理(NLP)领域取得了革命性进展,展现出理解和生成人类语言的卓越能力[1]。它们在教育、医学、工程和金融等多个领域取得了前所未有的成就[2]。LLMs重塑了包括新闻和社交媒体生成[3]、[4]、[5]、个性化聊天机器人交互[6]、创意写作[7]以及生成与人类撰写的文本难以区分的科学内容[8](图11)等任务。
人工智能(AI)生成的科学文本的兴起对研究的完整性和可信度构成了挑战[10]。伪造或不准确的内容可能会传播错误信息,误导验证工作,并无意中支持有缺陷的研究[11]。传统的抄袭检测工具不足以识别LLMs生成的内容[12]。此外,ChatGPT被错误地认定为共同作者的情况[13]、[14]引发了伦理和职业方面的担忧。科学文本因其对准确性、透明度和方法论严谨性的要求而具有特殊性,而LLMs的使用可能会模糊这些标准,因此需要强大的检测方法。尽管之前的研究已经关注了社交媒体、新闻和学生论文中的人工智能生成内容,但由于科学文本的形式化风格、领域特定词汇和结构化格式,它们带来了独特的挑战。这突显了需要创新方法来区分人类编写的内容、人工智能生成的内容以及混合类型的科学文本。
为了解决这一难题,我们提出了科学作者身份识别与检测(SAID),该方法将手工制作的语言特征与基于嵌入的语义表示相结合。SAID能够捕捉表层风格模式和深层上下文语义。该方法包括两个阶段:(1)输入准备,使用T5编码器生成文本嵌入并同时提取语言特征;(2)作者身份检测,采用双分支神经架构。一个分支通过前馈神经网络(FFNN)建模语言特征,另一个分支通过卷积神经网络(CNN)从嵌入中捕获语义一致性。最终将这两种输出融合并通过密集层和分类层进行处理,以预测文本是人类编写的、人工智能生成的还是两者的混合。
本文的其余部分结构如下:下一节将介绍背景信息。第3节总结了最近关于人工智能生成文本检测方法的研究成果。第4节详细介绍了所提出的方法SAID。第5节重点评估了该方法,并与其他方法进行了比较。第6节总结了研究结果并提出了未来的研究方向。

节选内容

自然语言处理

语言由用于传达信息的符号和规则组成[15]。NLP是AI的一个子领域,专注于对人类语言的计算分析,以实现机器对语言的理解、生成和操作,用于翻译、情感分析、信息检索等任务[16]。NLP包括两个主要组成部分:自然语言理解(NLU),用于解释文本含义;自然语言生成(NLG),用于生成文本[15]。
早期的NLP依赖于基于规则的方法

人工智能生成的文本检测方法

LLMs的最新进展显著提高了各种NLP任务的性能,尤其是在生成类似人类语言的文本方面。然而,这些发展也引发了关键的伦理问题,包括抄袭风险、错误信息的传播、教育领域的误用以及研究结果的伪造可能性。
已经有许多研究致力于检测不同领域中的人工智能生成文本,并解决相关问题,例如社交媒体帖子[5]、[28]、[29]等产品

科学作者身份识别与检测方法

本研究旨在解决科学文本作者身份识别的问题,这类文本通常包含人类编写的内容和人工智能生成的内容。我们将人工智能生成的文本检测视为一个多分类问题,将文本分为三类:人类编写、人工智能生成和混合类型。SAID结合了语言和语义信息。该方法采用双分支神经架构,其中一个分支使用FFNN处理手工制作的语言特征

实验数据

AIGTxt数据集[10]、[46]是一个用于评估人工智能生成科学内容检测方法的实验资源。当前数据集包含9636条记录,分为三类:人类编写、ChatGPT生成和混合类型文本,每类有3212个样本。人类编写的文本是从学术论文的引言、背景或文献综述部分手动选取的段落。ChatGPT生成的文本则是通过

结论与未来工作

本研究提出了一种新的科学文本作者身份识别方法——科学作者身份识别与检测(SAID),用于检测人类编写、人工智能生成以及混合类型的科学文本。SAID采用双分支神经架构:一个分支使用FFNN处理手工制作的语言特征,另一个分支使用CNN从T5生成的嵌入中捕获语义信息。融合后的输出提供了全面的表示,从而实现了可靠的分类

资助

不适用

利益冲突

本文的作者均未披露任何可能与该工作产生冲突的潜在或相关利益关系。

伦理批准

不适用

参与同意

不适用

出版同意

不适用

数据和材料的可用性

数据集可在GitHub仓库[46]上获取。

代码可用性

代码不会向公众公开。

CRediT作者贡献声明

Bushra Alhijawi:撰写——审阅与编辑、初稿撰写、可视化、验证、项目管理、方法论设计、概念构建。Rawan Jarrar:初稿撰写、方法论设计、概念构建。Sara Awajan:初稿撰写、数据整理。Aseel AbuAlRub:数据整理。

利益冲突声明

作者声明他们没有已知的利益冲突或个人关系可能影响本文的研究结果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号