利用大型语言模型从自然语言描述中提取用于过程建模的声明性约束

《Decision Support Systems》：Extracting declarative constraints for process modeling from natural language descriptions with large language models

【字体：大中小】 时间：2026年02月23日 来源：Decision Support Systems 6.8

编辑推荐：

　　针对生成式AI加速的虚假在线评论检测难题，本研究提出融合累积概率密度与AdaBoost的监督学习方法。通过构建传统语言特征（TLV）与新型语言特征（NLV）变量集，结合概率密度尾部分析技术，有效提升AI生成假评检测精度，实验验证优于现有基线方法。

罗继伟|南国芳|李大辉

海南大学国际商学院，海口570228，中华人民共和国

摘要

长期以来，电子商务平台的在线评论一直被认为是影响消费者购买决策的重要因素。然而，生成式人工智能（GAI）的出现加速了虚假在线评论的传播，这显著降低了消费者对这些平台的信任度。本研究提出了一种新颖的监督学习方法，可以灵活地集成到决策支持系统中，以帮助平台有效检测由AI生成的虚假评论。在该方法中，我们首先构建了两种类型的变量来区分人类撰写的真实评论和AI生成的虚假评论。然后，我们引入了一种基于累积概率密度的异常检测方法来计算AI生成虚假评论的概率。最后，我们使用上述计算出的评论的累积概率密度值训练AdaBoost模型，以获得能够准确检测AI生成的虚假评论的分类器。数值实验表明，所提出的方法比几种现有的基线方法能够更准确地检测出AI生成的虚假评论。我们通过利用统计理论为相关文献做出了贡献，该理论认为异常值作为小概率事件，通常位于特征分布的尾部，这一原理在检测AI生成的虚假评论时得到了有效应用。

引言

“在线产品评论正成为现代AI的战场”。——Annie Probert/ NBC News [1]

在线评论在塑造消费者在电子商务平台上的行为方面继续发挥着关键作用，因为消费者在做出购买决策时依赖这些评论，这一点在之前的研究[2]、[3]、[4]中得到了证明。值得注意的是，近90%的在线购物者表示，真实的评论会影响他们的购买选择，他们更信任同行反馈而不是产品本身的价格。¹然而，某些商家的不道德行为破坏了评论系统的可靠性，他们使用工具来提升产品排名并损害竞争对手的声誉[5]，这反过来又侵蚀了消费者的信任，并损害了评论系统的完整性和效率[6]。

为了解决这一日益严重的问题，平台公司已经部署了决策支持系统来检测和过滤虚假评论[7]、[8]。这些技术干预不仅旨在遏制虚假内容的传播，还旨在减轻其对平台生态系统的更广泛负面影响[9]、[10]。通过增强用户生成内容的真实性，这些系统在维护数字市场的可信度和功能方面发挥着关键作用。

近年来，GAI的出现加速了虚假评论在数字平台上的传播，因为商家可以利用GAI快速生成大量虚假评论，而无需付出太多努力。²³与传统的虚假评论不同，GAI生成的评论往往更具说服力，也更难以检测。这是因为GAI具有生成连贯、与上下文相关且类似人类语言的先进能力，这紧密模仿了真实用户反馈的语气和结构[11]、[12]。因此，这些由GAI制作的评论对消费者信任和平台完整性构成了更大的威胁。GAI提供的优越语言特性吸引了更多恶意行为者利用GAI生成欺骗性内容，从而加剧了电子商务平台上虚假评论的传播。

同时，那些真正打算分享自己的体验并推荐产品或商家的普通消费者也开始使用AI工具来生成评论。虽然这可能简化了评论写作过程，但它引入了一个关键的限制：AI缺乏完全理解个别消费者细微、真实体验的能力。⁴因此，AI生成的评论可能比人类撰写的评论表现出更高的偏见程度。图1展示了一条在ChatGPT的帮助下生成的评论（注意：产品细节是虚构的）。AI生成内容中的这种固有偏见可能会削弱消费者对产品和相关商家的信任。³鉴于这些挑战，迫切需要提出一种专门用于识别AI生成的虚假评论的新检测方法。这样的系统使平台能够迅速标记或过滤掉不真实的内容，从而维护用户反馈的完整性，并保持平台生态系统内的信任。

尽管AI生成的虚假评论可能看起来与人类撰写的评论无法区分，但它们通常表现出微妙但可识别的语言模式，表明它们是人工生成的[13]。值得注意的是，这些评论经常复制企业在传统欺骗性内容中常用的风格标记。例如，虚假评论倾向于使用夸张的情感表达，因为它们的主要目的是过度赞扬或不公正地批评产品的声誉[14]。同样，当商家使用AI工具时，评论往往显示出强烈的情感强度。这种模式强调了将传统语言线索纳入检测策略的重要性。通过分析这些文本特征，平台可以更有效地识别和标记AI生成的虚假评论，即使这些评论与真实用户反馈非常相似。

此外，AI生成的评论中的词汇选择通常是由底层大型语言模型（LLM）计算出的概率最高的单词决定的。因此，这类评论的文本输出相比人类创作的内容显示出较低的随机性。这种语言变异性的减少可以使用两个先进的语言指标来定量评估：困惑度和突发性[15]、[16]。这些指标评估了文本的可预测性和分布不规则性，提供了对LLM生成行为的洞察。鉴于它们的诊断潜力，将这些新颖的语言特征纳入AI生成的虚假评论检测框架中至关重要。这样做可以通过识别区分合成内容和真实人类表达的细微统计模式来提高检测系统的准确性。

除了基于语言的方法外，自动化技术，特别是那些利用深度学习算法的技术，在检测AI生成的内容方面也取得了进展。一个值得注意的例子是OpenAI，它对LLM进行了微调，开发了一种可以识别高达95%由GPT-2生成的文本的检测器。⁵尽管性能令人印象深刻，但这些模型面临两个关键限制：缺乏可解释性以及在应用于在线评论等短文本时效果降低。这些限制阻碍了它们在现实世界中的实际应用。

先前的研究通过将非典型评论者行为建模为识别虚假评论的手段来探索异常检测方法[6]、[9]。例如，Kumar等人提出了一种技术，该技术构建了代表各种评论者行为特征的最优子分布，然后将它们聚合到一个复合分布中以检测异常评论者[17]。同样，李等人引入了一种基于累积概率密度的方法，将异常值识别为位于分布尾部的罕见事件[18]。然而，这些方法中的一个持续挑战在于确定适当的概率阈值，以区分异常值和正常行为。如果没有明确的界限，这些模型的准确性就会受到限制。因此，迫切需要开发一种创新的异常检测方法，特别是通过改进阈值校准和可解释性，以实现更精确地识别AI生成的虚假评论。

为了解决这些限制，我们提出了一个多方面的方法论框架。首先，我们构建了一组全面的变量，整合了传统的语言特征和新型的语言指标。这一丰富的特征集使得对评论真实性的分析更加细致。接下来，我们引入了一种基于累积概率密度（CPD）的创新技术来估计给定评论由AI生成的可能性。这种概率度量作为后续分类阶段的基础输入。最后，我们使用计算出的CPD值来训练一系列成熟的分类模型。然后使用这些模型来开发能够准确识别AI生成的虚假评论的分类器。据我们所知，这项研究是首次尝试开发专门用于检测AI生成的虚假评论的可解释机器学习方法之一。通过提供透明且有效的检测机制，我们的方法为平台运营商提供了标记不真实内容的关键决策支持。这一贡献对电子商务平台的声誉至关重要。

本研究的其余部分组织如下。首先，我们回顾了现有的关于检测AI生成的虚假评论的方法的文献。其次，我们介绍了本研究中构建的两种变量类别——传统的语言特征和新型的语言特征。第三，我们介绍了基于累积概率密度的异常检测方法。接下来，我们使用三个真实世界数据集评估了所提出方法的性能。最后，我们讨论了研究结果，并提出了结论和未来的研究方向。

章节片段

虚假评论检测

电子商务平台上的虚假评论是指那些由个人故意编写的误导性评价，目的是操纵产品认知或夸大评分[14]、[19]。这些评论通常表现出可识别的语言和行为模式，如夸张的情感表达、不自然的语法或评论者历史中的不一致性[10]、[17]、[20]。研究人员利用这些可疑线索开发了多种虚假评论检测方法，旨在区分

研究框架

在本节中，我们介绍了一种称为AGFRDCP（通过累积概率检测AI生成的虚假评论）的AI生成虚假评论检测方法，如图3所示。整个框架包括三个关键阶段。

首先，我们构建了两类不同的变量，包括前面讨论的传统和新型语言特征。然后，这些变量被转换为最优的单变量分布，以便进行统计区分

数据集和特征

在本研究中，使用了三个数据集来评估所提出方法的性能。GPT-3验证数据集包括12,003条AI生成的虚假评论和11,997条人类撰写的评论，其中人类撰写的评论由Yelp.com验证，而虚假评论则是基于这些真实样本由GPT-3生成的[33]。GPT-2验证数据集包括来自亚马逊的20,216条真实评论和由微调后的GPT-2模型生成的20,215条虚假评论。此外，Llama 2

任务1

任务1涉及进行消融研究，以评估NLV对AGFRDCP检测性能的贡献。具体来说，我们使用三种特征配置评估了模型：混合变量集（TLV + NLV）、TLV和NLV，在三个基准数据集上进行测试。结果如表10、11和12所示，混合特征集始终比单独使用TLV或NLV具有更好的检测性能。这表明两种特征的结合

结果总结

设计有效的算法来防止LLM（如ChatGPT）被滥用来传播虚假信息，已成为电子商务平台面临的一个日益关键和紧迫的挑战[26]。所提出方法的范围是检测AI生成的虚假评论，认识到在线评论在更广泛的平台生态系统中的消费者、商家和平台方面发挥着关键作用[53]、[54]、[55]。主要发现和潜在的替代解释总结如下

CRediT作者贡献声明

罗继伟：撰写——原始草稿、方法论、形式分析、数据整理。南国芳：撰写——审阅与编辑、监督、方法论、概念化。李大辉：撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

资金来源声明

本研究得到了国家自然科学基金（资助编号72171163 和 72571077）、海南省哲学和社会科学重点实验室专项经费以及教育部人文社会科学重点研究基地重大项目（资助编号22JJD630004）的支持。

罗继伟（jiweiluo@hainanu.edu.cn)目前在中国海南大学国际商学院攻读工商管理博士学位。他的当前研究重点是机器学习技术及其在生成式AI中的应用和实证研究。他的最新论文发表在《决策支持系统》和《旅游管理》杂志上。

摘要

引言