
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AdDetector:利用文本信息和社会网络数据检测社交媒体平台上的中文广告宣传内容
《ACM Transactions on Asian and Low-Resource Language Information Processing》:AdDetector: Detecting Chinese Advertorials on Social Media Platforms with Textual and Social Information
【字体: 大 中 小 】 时间:2026年02月16日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
隐蔽广告检测研究提出双塔模型AdDetector,结合文本语义分析和社交信号(如作者画像、用户互动模式)识别社交媒体中伪装成普通文章的广告。构建ZHIHU-16K多主题数据集,采用层级文本编码和图神经网络分析社交特征,通过细粒度句子分类提升跨领域泛化能力。实验表明模型在同类数据集上F1值提升1.29%-1.52%,并验证社交特征与文本分析的协同效应。研究为平台内容审核提供技术方案,同时指出AI生成广告可能绕过检测的潜在风险。
人工智能生成的摘要
该摘要由基于已发表文章内容的自动化系统生成。
生成日期:2026年2月14日。
本研究旨在解决在社交媒体上检测隐蔽广告(即伪装成普通文章的广告)的挑战。这类内容将商业意图融入看似中立的叙述中,由于主题多样和宣传手段隐蔽,使得检测变得困难。为了解决这一问题,作者创建了ZHIHU-16K,这是一个来自知乎(Zhihu)的大规模中文广告数据集,其中包含了作者资料和用户互动等社交信息。这有助于探索社交线索如何与文本特征相结合,以识别隐藏的广告。
研究介绍了一种名为AdDetector的双塔深度学习模型,该模型同时处理文本和社交信号。文本塔使用分层编码来捕捉句子之间的语义变化,有助于识别微妙的营销意图;社交塔则利用图神经网络分析作者特征和用户互动模式(如可疑评论或集体质疑——这些行为可能是广告的迹象)。此外,细粒度的句子级分类有助于精确定位文章中的广告部分,从而提高模型的准确性和跨主题的泛化能力。
实验结果表明,AdDetector在领域内和跨领域测试中的精确度和召回率均优于之前的模型。消融研究证实,结合社交特征、分层文本建模和句子级监督显著提升了模型性能。尽管其推理速度较快,适合实际应用,并且比大型语言模型具有优势,但作者也指出了其一些局限性:改写或品牌掩盖可能会通过改变语义来降低模型的效果,同时仍保留原意。
除了技术贡献外,这项工作对于平台管理和法规遵从也有重要意义,因为它能够实现可扩展的自动化广告检测,提高内容透明度。尽管该研究仅使用中文文本数据来自一个平台,从而限制了其即时泛化能力,但它为扩展到整合图像或视频的多模态方法奠定了基础(这些在其他平台上较为常见)。
展望未来,关键挑战包括不断发展的AI生成广告(需要新的检测方法来应对机器生成的文本);通过动态量化等压缩技术优化延迟;以及通过构建更丰富的数据集和多功能分类器,扩大检测范围,以识别广告之外的欺骗行为(如隐蔽宣传)。
总体而言,本研究通过创新地将先进的文本分析与丰富的社交背景理解相结合,推动了隐蔽广告检测技术的发展,并发布了有价值的数据集和源代码,以促进在线信息完整性的进一步研究。