《IEEE Access》:Robust Sentiment and Semantic Analysis of Small and Medium-Sized News Headline Datasets: A Study on Sports, Science, and Agricultural Domains
编辑推荐:
本研究针对中小规模领域特定新闻数据集存在的数据稀疏、类别不平衡和领域术语复杂等挑战,提出了一种集成GPT-4情感标注、TF-IDF-SVM-OvR分类和Qwen2-Birch主题聚类的分析框架。在线性SVM模型上取得了81.8-87.1%的分类准确率,显著优于传统机器学习与深度学习模型(p<0.05),同时Qwen2-Birch在主题聚类中实现了0.502-0.598的轮廓系数。该研究为资源受限场景下的新闻内容分析提供了高效可靠的解决方案。
在信息爆炸的时代,新闻传播方式发生了根本性变革,互联网已成为人们获取资讯的主要渠道。面对海量的新闻内容,如何快速准确地分析其情感倾向和主题分布,成为自然语言处理领域的重要课题。传统的人工分析方法效率低下,而现有的大规模情感模型往往难以适应体育、科学、农业等专业领域的中小规模数据集——这些数据集通常面临数据稀缺、类别分布不均以及领域特定术语等多重挑战。
针对这一难题,澳门理工大学应用科学学院的梁子俊团队开展了一项创新性研究,他们巧妙地将深度学习与传统机器学习技术相结合,提出了一套完整的解决方案。该研究成果发表在《IEEE Access》期刊上,为资源受限环境下的新闻内容分析提供了新的思路和方法。
研究人员首先构建了包含17,471条标题的多领域新闻数据集,涵盖体育热点新闻(4,136条)、农业棉花新闻(7,581条)和科学新闻(5,754条)。这些数据采集自搜狐体育、农产品采购网和科学网等权威来源,时间跨度从2000年8月至2024年12月。通过精心设计的网络爬虫系统,研究人员确保了数据的质量和完整性。
在研究过程中,团队面临的核心挑战是如何在数据量有限的情况下实现准确的情感分类和主题分析。大型预训练模型如BERT系列虽然在大规模数据上表现优异,但在小样本场景下容易过拟合,且对领域特定术语的适应能力有限。而传统的机器学习方法如朴素贝叶斯、K近邻等,又难以捕捉短文本中复杂的语义关系。
为了解决这些问题,研究团队采用了三种关键技术方法:首先利用GPT-4进行情感标注,通过领域特定的提示工程生成连续的情感分数(-1到+1),然后将其离散化为正面、负面和中性三类标签;其次开发了TF-IDF-SVM-OvR分类模型,结合特征工程和面向不平衡数据的优化策略;最后采用Qwen2-Birch组合进行主题聚类,利用Qwen2生成高质量的文本嵌入,再通过Birch算法进行高效聚类。
数据采集与预处理
研究团队从三个领域权威网站采集了2000年至2024年的新闻标题数据,构建了包含17,471条样本的数据集。通过自动化爬虫系统获取原始数据后,进行了去重、文本清洗和标准化处理,包括去除HTML标签、特殊符号和非文字内容,确保数据质量满足分析要求。
情感标注与数据集构建
采用GPT-4模型对预处理后的标题进行情感评分,针对体育、科学和农业三个领域设计了不同的提示模板,生成-1.0到+1.0的连续情感分数。基于分数分布将数据划分为正面、负面和中性三类,构建了用于后续分类任务的标注数据集。统计显示不同领域的情感分布存在显著差异,体育新闻偏向正面(均值0.334),农业新闻接近中性(均值0.006),科学新闻则呈现较强的正面倾向(均值0.369)。
分类模型比较与评估
在线性SVM-OvR模型与六种传统机器学习模型(随机森林、GBM、KNN、逻辑回归、朴素贝叶斯和RBF核SVM)以及五种深度学习模型(TextCNN、LSTM-CNN、MobileNet、TinyBERT和官方简易Transformer)的对比实验中,线性SVM-OvR在四个数据集上均取得了最优性能,测试准确率达到81.8-87.1%,F1分数为81.2-85.5%。统计显著性分析表明,其性能提升在多数比较中达到显著水平(p<0.05)。
主题聚类分析
Qwen2-Birch组合在主题聚类任务中表现突出,在体育、科学和农业数据集上的轮廓系数分别达到0.598、0.502和0.525,显著优于MiniLM-L6、Word2Vec、Llama3等基线模型。聚类结果显示了清晰的领域特征:体育新闻形成了以"皇马"、"冠军"为代表的胜利主题和以"裁判"、"假球"为代表的争议主题;科学新闻聚为基础研究、学术动态和科研事件等类别;农业新闻则围绕价格波动、产量变化和市场趋势形成自然分组。
模型效率分析
除了准确性,研究还评估了各模型的计算效率。线性SVM-OvR在保持高性能的同时,模型大小仅为0.47-1.44MB,训练时间在6.9-75.6秒之间,显著低于深度学习模型。如TinyBERT模型大小达17.37MB,训练时间超过400秒,体现了传统机器学习在资源受限场景下的实用优势。
错误分析与鲁棒性评估
通过混淆矩阵分析发现,所有模型在负面情感类别(Class 2)上的识别能力相对较弱,容易与正面类别(Class 1)混淆。线性SVM-OvR在保持各类别平衡分类方面表现最佳,特别是在组合数据集上展现了更强的跨领域泛化能力。学习曲线和ROC分析进一步证实了该模型在数据效率和分类稳定性方面的优势。
本研究通过系统实验证明,在线性SVM-OvR模型结合TF-IDF特征提取的方法,在中小规模新闻标题情感分类任务中,不仅超越了多种复杂深度学习模型,而且保持了更高的计算效率。Qwen2-Birch组合在主题聚类中的优异表现,则为多领域新闻内容的主题发现提供了有效工具。
研究结果强调了在特定应用场景下,经过精心优化的传统机器学习方法可能比复杂深度学习模型更具实用价值。特别是在数据量有限、计算资源受限但要求快速部署的现实应用中,TF-IDF-SVM-OvR框架提供了一种兼顾性能与效率的平衡方案。这一发现对新闻媒体、舆情监测和市场分析等领域具有重要实践意义,为相关行业的自动化内容分析提供了可靠的技术路径。
未来研究方向包括引入时序注意力机制捕捉新闻情感的时间演化规律,整合多模态数据提升主题聚类的丰富度,以及探索跨领域迁移学习增强模型的泛化能力。这些拓展将进一步提高新闻内容分析系统的实用性和适应性。