眼科期刊出版物中大语言模型(Large Language Model, LLM)作者身份( authorship )的检测分析

《Ophthalmology》:Large Language Model Authorship in Ophthalmic Publications

【字体: 时间:2026年06月06日 来源:Ophthalmology 9.5

编辑推荐:

  目的(Purpose):评估眼科已发表文献中存在人工智能(AI)生成文本的可能性。方法(Methods):分析2020年5月至2025年5月间发表于22本期刊共27,142篇研究论文的摘要文本,检测与LLM生成文本相关的文体词汇(word-frequency)

  
目的(Purpose):评估眼科已发表文献中存在人工智能(AI)生成文本的可能性。方法(Methods):分析2020年5月至2025年5月间发表于22本期刊共27,142篇研究论文的摘要文本,检测与LLM生成文本相关的文体词汇(word-frequency)使用变化。先使用4款商用AI检测服务(ZeroGPT、Writer.com、Winston AI、GPTZero)对对照文章进行验证,GPTZero表现最佳,随后用其对每本期刊各50篇全文进行检测。大规模筛查中对研究论文及述评类文章(如社论editorials)按章节及句子评分,比较ChatGPT发布前(pre-ChatGPT)与后(post-ChatGPT)时期。结果(Results):自2022年ChatGPT发布后,此前罕见使用的LLM关联文体词汇显著增加,20%的眼科摘要中此类词汇使用频次增长≥2倍。全文评估显示,ChatGPT发布后所有研究论文章节(摘要、引言等)及述评文章的GPTZero评分均升高。至2025年,25.7%抽样研究论文及21.6%述评文章的AI可能性评分高于基线均值2个标准差以上。句子层面分析显示,异常高分出版物中,研究论文22.3%的句子、述评文章90%的句子可能为AI撰写。异常高分出版物均未披露AI使用情况。结论(Conclusions):LLM生成文本在眼科文献中日益增多且极少披露。若无披露要求与编辑监督,未披露的LLM使用将持续增加,危及作者身份完整性及已发表发现的长期可靠性。
研究背景与立项依据
2022年11月OpenAI发布GPT-3.5大语言模型(Large Language Model, LLM)后,AI辅助科研写作迅速普及。全球医学文献发表量在2023—2024年出现异常增长,部分研究提示这与LLM参与文稿撰写、低创新性二次分析文章激增有关。现有文献已报道生物医学综合期刊中LLM生成文本比例上升及"超额词汇(excess words)"——如underscores、delve、potential等LLM偏好的文体用词——的使用剧增可作为线索,但眼科学(Ophthalmology)专科领域LLM使用情况尚不清楚。未披露的LLM使用可能引发作者身份(authorship)归属争议,且LLM存在幻觉(hallucination)、捏造引文或数据的风险,若无编辑监督和披露要求将损害科学记录的可靠性。因此,Christopher R. Fortenbach、Yue S. Wu、Parth M. Mungra及Russell N. Van Gelder研究团队开展本研究,旨在定量评估LLM生成文本在眼科期刊出版物中的存在情况、时间趋势及披露现状。
主要关键技术与方法
研究人员选取JCR收录的影响因子(Impact Factor)、h指数或开放获取(Open Access)的22本眼科期刊(含Ophthalmology、JAMA Ophthalmology、Investigative Ophthalmology & Visual Science等),通过NCBI Entrez API获取2020年5月1日至2025年5月1日发表的27,142篇研究论文PubMed摘要进行词频分析,重点比对ChatGPT发布前后LLM关联"超额词汇(excess words,Kobak等291词及Liang等200词)"的使用折倍变化(fold-change),采用双尾t检验与Benjamini–Hochberg错误发现率(False Discovery Rate, FDR)校正。为筛选AI检测工具,取2015年发表的非开放获取原创研究论文10篇,用Gemini-2.5-pro重写引言段或全引言,将原文与改写文及嵌入全文分别提交ZeroGPT、Writer.com、Winston AI、GPTZero四款商用AI检测应用程序接口(Application Programming Interface, API)验证检出能力,以Mann–Whitney U检验比较,最终选定GPTZero(版本2025-11-13-base)为主检测工具(Winston AI为辅助)。从每本期刊随机选取ChatGPT发布前(2020.5–2022.11)与后(2022.12–2025.5)各25篇具PubMed Central全文的研究论文,解析可扩展标记语言(Extensible Markup Language, XML)拆分为摘要(Abstract)、引言/背景(Introduction/Background)、方法(Methods)、结果(Results)、讨论/结论(Discussion/Conclusions)独立章节分别评分;述评类文章(社论、读者来信等)取研究期内全部1755篇全文评分。异常(outlier)定义为某章节GPTZero评分高于pre-LLM时期均值2个标准差(2 SD)。进行英语母语国(通讯作者地址判定)亚组分析及蒙特卡洛置换检验(Monte Carlo permutation test,10万次重抽样)验证pre-与post-时期差异显著性。对异常高分全文检索AI相关术语核查披露情况。
研究结果
Increased use of "excess words" in abstracts following public availability of LLMs(LLM公开可用后摘要中"超额词汇"使用增加)
分析27,142条摘要词频,常见专业词汇频率稳定,而既往报道的LLM关联"超额词汇"中40%(78/194)在2023年后显著增多,整体平均增幅73%(p=0.023),20%的眼科摘要中此类词汇使用后ChatGPT时代较使用前增幅≥2倍,提示LLM参与摘要撰写自ChatGPT发布前后开始出现。
GPTZero and Winston AI best detect LLM-generated text(GPTZero与Winston AI最适于检测LLM生成文本)
四款检测API验证显示:ZeroGPT与Writer.com仅能检出全文替换的AI引言(p<0.05)但无法检出单段嵌入或嵌于全文者(p>0.05);Winston AI与GPTZero均可检出全文替换(p=2×10-4、5×10-5)及嵌入全文(p=0.002、0.004),GPTZero尚可检出单段嵌入引言(p=0.006),综合表现最优故选为主筛查工具。
Post-ChatGPT Increases in AI-Detection Scores Across Article Types(ChatGPT发布后各类型文章AI检测评分全面上升)
随机抽样的post-GPT时期研究论文各章节GPTZero评分均显著高于pre-GPT时期(p<8×10-4),摘要(10倍增幅)与讨论(6倍增幅)升幅最大;年度分析2024—2025年增幅最显著(全文均分2.5倍增长)。述评类文章post-GPT均分由0.2升至5.9(p<5×10-23),2023年起显著升高,2025年22%述评为异常高分。英语母语国子集中仍见post-GPT评分显著升高(p<0.038,方法章节p=0.45除外),非英语国家发文占比pre-GPT 65.0% vs post-GPT 65.4%,排除单纯翻译用途假说。蒙特卡洛模拟证实各章节及述评pre-与post-时期评分差异均有统计学意义。
In 2025, one in four research articles contains likely AI-generated text(2025年约四分之一研究论文含疑似LLM生成文本)
以>pre-LLM均值+2 SD为异常阈值,post-GPT时期共56篇(10.7%)研究论文至少一章节异常,逐年递增至2025年达25.7%(研究论文)与21.6%(述评)。异常文章中研究论文22.3%句子、述评90%句子疑似LLM撰写。17/22本期刊检出异常论文,Clinical Ophthalmology研究论文异常率最高(36%),Frontiers in Ophthalmology述评异常率最高(56%)。所有异常高分出版物正文及致谢、披露声明中均未发现AI使用披露。
讨论与结论翻译
本研究表明,LLM撰写文本很可能在眼科文献中出现于首个公开LLM发布后不久,且此后每年显著增加。最强信号见于摘要、讨论及述评类出版物,这与生成模型擅长总结研究发现的能力相符。2025年逾20%筛查文章显示疑似LLM作者身份,与广义科学文献2024年约10% LLM使用率的估算相近。本研究通过超额词汇分析与商用API评分聚焦单一专科,涵盖研究与述评文章。商业检测API经2015年文献改写验证,GPTZero与Winston AI优于另两款;将LLM撰写段落嵌入真实眼科论文再进行检测更接近实际使用情况。仅英语母语国子集仍见AI检测评分显著升高,且非英语国家发文占比无显著变化,提示增多的AI使用不完全归因于翻译辅助。所有被判定含LLM生成文本的文章均未作AI使用披露。虽约三分之二JCR收录眼科期刊有AI政策(多受出版商统一规定),但仅约52%要求披露AI撰写文本,且本研究中无一异常文章作披露。鉴于LLM可能引入幻觉、伪造引文与数据,披露应面向读者并注明所用LLM及用途(研究设计、数据分析、文稿撰写、翻译、校对proofreading等)。期刊可考虑投稿时例行使用AI文本检测或限制某些因AI辅助激增的稿件类型。本研究局限含检测算法不透明、潜在假阳性及对细微AI贡献敏感度有限,"超额词汇"亦不能绝对判定LLM使用,通讯作者国籍为翻译用途近似替代。随LLM提示工程或"人化(humanizer)"服务普及,上游披露要求将愈发重要。
结论(Conclusions): AI在促进科学与医学进展方面前景广阔。随着工具能力增强,关于使用方式的披露日趋重要。本研究表明LLM生成文本日益存在于眼科文献中且极少被披露。若无披露要求和编辑监督,未披露的LLM使用将继续增加,可能危及作者身份完整性及已发表发现的长期可靠性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号