眼科期刊出版物中大语言模型(Large Language Model, LLM)作者身份( authorship )的检测分析

《Ophthalmology》：Large Language Model Authorship in Ophthalmic Publications

【字体：大中小】 时间：2026年06月06日 来源：Ophthalmology 9.5

编辑推荐：

　　目的(Purpose)：评估眼科已发表文献中存在人工智能(AI)生成文本的可能性。方法(Methods)：分析2020年5月至2025年5月间发表于22本期刊共27,142篇研究论文的摘要文本，检测与LLM生成文本相关的文体词汇(word-frequency)

目的(Purpose)：评估眼科已发表文献中存在人工智能(AI)生成文本的可能性。方法(Methods)：分析2020年5月至2025年5月间发表于22本期刊共27,142篇研究论文的摘要文本，检测与LLM生成文本相关的文体词汇(word-frequency)使用变化。先使用4款商用AI检测服务(ZeroGPT、Writer.com、Winston AI、GPTZero)对对照文章进行验证，GPTZero表现最佳，随后用其对每本期刊各50篇全文进行检测。大规模筛查中对研究论文及述评类文章(如社论editorials)按章节及句子评分，比较ChatGPT发布前(pre-ChatGPT)与后(post-ChatGPT)时期。结果(Results)：自2022年ChatGPT发布后，此前罕见使用的LLM关联文体词汇显著增加，20%的眼科摘要中此类词汇使用频次增长≥2倍。全文评估显示，ChatGPT发布后所有研究论文章节(摘要、引言等)及述评文章的GPTZero评分均升高。至2025年，25.7%抽样研究论文及21.6%述评文章的AI可能性评分高于基线均值2个标准差以上。句子层面分析显示，异常高分出版物中，研究论文22.3%的句子、述评文章90%的句子可能为AI撰写。异常高分出版物均未披露AI使用情况。结论(Conclusions)：LLM生成文本在眼科文献中日益增多且极少披露。若无披露要求与编辑监督，未披露的LLM使用将持续增加，危及作者身份完整性及已发表发现的长期可靠性。

研究背景与立项依据

2022年11月OpenAI发布GPT-3.5大语言模型(Large Language Model, LLM)后，AI辅助科研写作迅速普及。全球医学文献发表量在2023—2024年出现异常增长，部分研究提示这与LLM参与文稿撰写、低创新性二次分析文章激增有关。现有文献已报道生物医学综合期刊中LLM生成文本比例上升及"超额词汇(excess words)"——如underscores、delve、potential等LLM偏好的文体用词——的使用剧增可作为线索，但眼科学(Ophthalmology)专科领域LLM使用情况尚不清楚。未披露的LLM使用可能引发作者身份(authorship)归属争议，且LLM存在幻觉(hallucination)、捏造引文或数据的风险，若无编辑监督和披露要求将损害科学记录的可靠性。因此，Christopher R. Fortenbach、Yue S. Wu、Parth M. Mungra及Russell N. Van Gelder研究团队开展本研究，旨在定量评估LLM生成文本在眼科期刊出版物中的存在情况、时间趋势及披露现状。

主要关键技术与方法

研究人员选取JCR收录的影响因子(Impact Factor)、h指数或开放获取(Open Access)的22本眼科期刊（含Ophthalmology、JAMA Ophthalmology、Investigative Ophthalmology & Visual Science等），通过NCBI Entrez API获取2020年5月1日至2025年5月1日发表的27,142篇研究论文PubMed摘要进行词频分析，重点比对ChatGPT发布前后LLM关联"超额词汇(excess words，Kobak等291词及Liang等200词)"的使用折倍变化(fold-change)，采用双尾t检验与Benjamini–Hochberg错误发现率(False Discovery Rate, FDR)校正。为筛选AI检测工具，取2015年发表的非开放获取原创研究论文10篇，用Gemini-2.5-pro重写引言段或全引言，将原文与改写文及嵌入全文分别提交ZeroGPT、Writer.com、Winston AI、GPTZero四款商用AI检测应用程序接口(Application Programming Interface, API)验证检出能力，以Mann–Whitney U检验比较，最终选定GPTZero(版本2025-11-13-base)为主检测工具（Winston AI为辅助）。从每本期刊随机选取ChatGPT发布前(2020.5–2022.11)与后(2022.12–2025.5)各25篇具PubMed Central全文的研究论文，解析可扩展标记语言(Extensible Markup Language, XML)拆分为摘要(Abstract)、引言/背景(Introduction/Background)、方法(Methods)、结果(Results)、讨论/结论(Discussion/Conclusions)独立章节分别评分；述评类文章(社论、读者来信等)取研究期内全部1755篇全文评分。异常(outlier)定义为某章节GPTZero评分高于pre-LLM时期均值2个标准差(2 SD)。进行英语母语国（通讯作者地址判定）亚组分析及蒙特卡洛置换检验(Monte Carlo permutation test，10万次重抽样)验证pre-与post-时期差异显著性。对异常高分全文检索AI相关术语核查披露情况。

研究结果

Increased use of "excess words" in abstracts following public availability of LLMs（LLM公开可用后摘要中"超额词汇"使用增加）

分析27,142条摘要词频，常见专业词汇频率稳定，而既往报道的LLM关联"超额词汇"中40%(78/194)在2023年后显著增多，整体平均增幅73%(p=0.023)，20%的眼科摘要中此类词汇使用后ChatGPT时代较使用前增幅≥2倍，提示LLM参与摘要撰写自ChatGPT发布前后开始出现。

GPTZero and Winston AI best detect LLM-generated text（GPTZero与Winston AI最适于检测LLM生成文本）

四款检测API验证显示：ZeroGPT与Writer.com仅能检出全文替换的AI引言(p<0.05)但无法检出单段嵌入或嵌于全文者(p>0.05)；Winston AI与GPTZero均可检出全文替换(p=2×10^-4、5×10^-5)及嵌入全文(p=0.002、0.004)，GPTZero尚可检出单段嵌入引言(p=0.006)，综合表现最优故选为主筛查工具。

Post-ChatGPT Increases in AI-Detection Scores Across Article Types（ChatGPT发布后各类型文章AI检测评分全面上升）

随机抽样的post-GPT时期研究论文各章节GPTZero评分均显著高于pre-GPT时期(p<8×10^-4)，摘要(10倍增幅)与讨论(6倍增幅)升幅最大；年度分析2024—2025年增幅最显著(全文均分2.5倍增长)。述评类文章post-GPT均分由0.2升至5.9(p<5×10^-23)，2023年起显著升高，2025年22%述评为异常高分。英语母语国子集中仍见post-GPT评分显著升高(p<0.038，方法章节p=0.45除外)，非英语国家发文占比pre-GPT 65.0% vs post-GPT 65.4%，排除单纯翻译用途假说。蒙特卡洛模拟证实各章节及述评pre-与post-时期评分差异均有统计学意义。

In 2025, one in four research articles contains likely AI-generated text（2025年约四分之一研究论文含疑似LLM生成文本）

以>pre-LLM均值+2 SD为异常阈值，post-GPT时期共56篇(10.7%)研究论文至少一章节异常，逐年递增至2025年达25.7%(研究论文)与21.6%(述评)。异常文章中研究论文22.3%句子、述评90%句子疑似LLM撰写。17/22本期刊检出异常论文，Clinical Ophthalmology研究论文异常率最高(36%)，Frontiers in Ophthalmology述评异常率最高(56%)。所有异常高分出版物正文及致谢、披露声明中均未发现AI使用披露。

讨论与结论翻译

本研究表明，LLM撰写文本很可能在眼科文献中出现于首个公开LLM发布后不久，且此后每年显著增加。最强信号见于摘要、讨论及述评类出版物，这与生成模型擅长总结研究发现的能力相符。2025年逾20%筛查文章显示疑似LLM作者身份，与广义科学文献2024年约10% LLM使用率的估算相近。本研究通过超额词汇分析与商用API评分聚焦单一专科，涵盖研究与述评文章。商业检测API经2015年文献改写验证，GPTZero与Winston AI优于另两款；将LLM撰写段落嵌入真实眼科论文再进行检测更接近实际使用情况。仅英语母语国子集仍见AI检测评分显著升高，且非英语国家发文占比无显著变化，提示增多的AI使用不完全归因于翻译辅助。所有被判定含LLM生成文本的文章均未作AI使用披露。虽约三分之二JCR收录眼科期刊有AI政策（多受出版商统一规定），但仅约52%要求披露AI撰写文本，且本研究中无一异常文章作披露。鉴于LLM可能引入幻觉、伪造引文与数据，披露应面向读者并注明所用LLM及用途（研究设计、数据分析、文稿撰写、翻译、校对proofreading等）。期刊可考虑投稿时例行使用AI文本检测或限制某些因AI辅助激增的稿件类型。本研究局限含检测算法不透明、潜在假阳性及对细微AI贡献敏感度有限，"超额词汇"亦不能绝对判定LLM使用，通讯作者国籍为翻译用途近似替代。随LLM提示工程或"人化(humanizer)"服务普及，上游披露要求将愈发重要。

结论(Conclusions)： AI在促进科学与医学进展方面前景广阔。随着工具能力增强，关于使用方式的披露日趋重要。本研究表明LLM生成文本日益存在于眼科文献中且极少被披露。若无披露要求和编辑监督，未披露的LLM使用将继续增加，可能危及作者身份完整性及已发表发现的长期可靠性。

热点排行