一种基于深度学习的混合差分键能算法,用于实现可扩展且高精度的文档聚类
《Sustainable Computing: Informatics and Systems》:A Deep Learning-Driven Hybrid Differential Bond Energy Algorithm for Scalable and High-Precision Document Clustering
【字体:
大
中
小
】
时间:2026年05月11日
来源:Sustainable Computing: Informatics and Systems 3.8
编辑推荐:
乌代亚·苏里亚·拉杰库马尔·达莫达尔兰(Udaya Suriya Rajkumar Dhamodharan)| 玛丽·珍妮特(Mary Janet)| 巴拉拉朱·拉梅什(Balaraju Ramesh)| 萨曼奥哈尔(Manohar S)| 拉米娅(Ramya)
印度泰米尔纳德
乌代亚·苏里亚·拉杰库马尔·达莫达尔兰(Udaya Suriya Rajkumar Dhamodharan)| 玛丽·珍妮特(Mary Janet)| 巴拉拉朱·拉梅什(Balaraju Ramesh)| 萨曼奥哈尔(Manohar S)| 拉米娅(Ramya)
印度泰米尔纳德邦拉尼佩特(Ranipet)全球工程与技术学院(GLOBAL Institute of Engineering and Technology)计算机科学与工程系
**摘要**
数字文本数据在科学期刊、社交媒体、商业记录和网络档案等来源中的数量正在迅速增加。因此,快速且准确地分组文档变得至关重要。在处理大量文档时,传统的聚类方法可能会遇到高维文本特征、语义模糊性和可扩展性问题。聚类文档通过内容对数据进行组织和检索。本文利用基于深度学习的混合差分键能算法(DL-HDBEA)彻底改变了文档分析的方式。文档聚类技术在可扩展性、聚类精度以及高效处理高维数据方面仍面临挑战。传统方法难以维持聚类的连贯性,并无法区分大型数据集中的细微相似之处。DL-HDBEA框架通过将深度学习与重新设计的差分键能方法相结合来解决这些问题。基于卷积神经网络(CNN)的深度特征提取技术用于捕捉文档数据中的复杂语义模式。该混合方法通过增强键能算法提升了聚类效果和分析能力。实验结果表明,DL-HDBEA在数据挖掘中的实际应用中优于传统聚类算法,表现出更好的聚类质量、可扩展性和计算效率,并在准确性和召回率方面也更为出色。这些发现表明,将该方法用于大规模文档聚类可以为文档组织、信息检索和文本分析提供高效且智能的解决方案。
**引言**
相似性测量是文本挖掘中的基本标准,直接影响聚类性能和语义区分能力。相似性指标用于量化两个文本文档之间的相似程度[1]。传统文本描述方法采用词频方式,将文档视为一组单词及其出现频率的向量[2]。这种方法存在两个主要问题:同义性和多义性——如果两个词在相同语境下可以互换,则它们被视为同义词;同义词是指具有相同语义的词[3]。例如,“car”、“automobile”和“vehicle”在句子中可以表示同一个概念。可以将同义词组合成词典(thesaurus)。随着互联网上和智能应用中文本量的不断增加,文本挖掘作为高级数据分析形式的重要性日益凸显[5]。与其他深度学习和模式识别应用类似,文本文档聚类在文本挖掘领域发挥着重要作用[6]。文本文档聚类是一种将文档集合按相关概念层次结构进行分类的过程[7],常用于自动提取主题、组织文档和检索信息等任务[8]。近年来,为解决文本文档聚类的优化问题(该问题属于NP难问题),提出了多种元启发式优化技术[10]。本研究使用八个数据集评估了所提出的DL-HDBEA方法的性能,该方法既适用于文本聚类[11],还能提高可靠性并降低计算成本[12]。
**深度学习基础**
迄今为止成功的深度学习模型植根于生物学原理,即生物体如何学习、适应和进化以应对环境[13]。由相同神经元组成的密集局部簇构成了神经网络和深度学习的基础[14]。密集簇执行特定任务,并通过稀疏的长距离连接和大量的短距离连接相互连接[15]。在学习过程中,神经元簇会变得越来越专业化,使得大脑能够处理从感官收集的大量数据,评估信息并最终选择相关事实[16]。虽然从生物体获得的特征不会遗传,但所学到的适应性会影响甚至指导进化[17]。本研究的动机在于现有文献中深度表示学习与基于矩阵重排的聚类优化方法之间的结构性脱节。尽管卷积神经网络(CNN)已与键能导向的聚类策略结合使用,但这些实现通常仅将CNN作为静态特征提取器,随后对预计算出的相似性矩阵进行独立差分键能(DBE)重排。这种顺序整合方式限制了键能功能对特征学习的影响,从而影响了高维语义空间中的聚类紧凑性和边界区分能力。DL-HDBEA系统通过其学习循环将差分键能目标融入其中,实现了特征表示和聚类结构的同步发展。键能标准作为结构化正则化机制,利用混合化方法控制表示优化。传统的CNN-DBE聚类系统在处理包含相似语义内容的大量文档时无法有效利用基于能量的方法来改进特征提取过程。所提出的框架通过集成结构-语义优化弥补了这一不足。
**文档聚类算法的研究**
现有文档聚类算法无法处理包含多维元素的文本数据,也无法有效处理其复杂的内容。传统聚类方法无法检测不同文档之间的细微语义差异,导致聚类精度降低、计算速度变慢,尤其是在数据集规模扩大和特征维度增加时。因此,需要先进的聚类方法来实现高效的语义结构识别,尤其是在处理大型文档库时。
**本文的贡献**
- 提出了基于深度学习的混合差分键能算法(DL-HDBEA),结合深度学习进行特征提取和优化的键能算法,以提升文档聚类性能。
- 利用卷积神经网络(CNN)改进特征提取,从而识别高维文档集合中的细微模式和相似性。
- 证明DL-HDBEA在可扩展性、聚类质量、精确度和召回率方面优于传统聚类算法,为大规模文档聚类任务提供了稳健的解决方案。
**论文结构**
第2节研究了改进数据挖掘文档聚类的相关工作。第3节阐述了DL-HDBEA的方法论。第4节讨论并分析了DL-HDBEA的效率。第5节总结了研究并展望了未来工作方向。
**附录**
- 相关工作
- 深度学习模型的成功源于生物学原理,即生物体如何学习、适应和进化。神经元密集簇构成了神经网络和深度学习的基础。
- 所提出的基于深度学习的混合差分键能算法(DL-HDBEA)采用结构化的工作流程。
**结果与讨论**
对于大规模文档聚类,本研究引入了DL-HDBEA,该算法结合了卷积神经网络(CNN)和改进的键能方法,提高了可扩展性、精度和召回率。模拟所用平台见表2。
**结论与未来工作**
本文提出了基于深度学习的混合差分键能算法(DL-HDBEA),实现了可扩展且精确的文档聚类。卷积语义特征提取和差分键能驱动的结构矩阵优化增强了高维文本语料库中的内部和簇间一致性。该技术将结构能量最大化嵌入聚类流程中,而非采用传统的顺序特征提取-聚类流程。
**伦理声明**
本文未涉及任何涉及人类参与者或动物的研究。
**利益冲突**
作者之间不存在利益冲突。
**作者贡献**
- 乌代亚·苏里亚·拉杰库马尔·达莫达尔兰(Udaya Suriya Rajkumar Dhamodharan):构思研究、设计方法论、监督研究工作并参与手稿撰写和最终审稿。
- 玛丽·珍妮特(Mary Janet A):参与数据收集、预处理和模型实现。
- 巴拉拉朱·拉梅什(Balaraju Ramesh):负责算法开发、实验和性能评估。
- 萨曼奥哈尔(Manohar S):协助软件实现、结果验证和可视化。
- 拉米娅(Ramya A):参与部分工作。
**参与同意书**
所有作者均同意发表本文。
**资金情况**
作者未获得任何资助。
**作者声明**
- 乌代亚·苏里亚·拉杰库马尔·达莫达尔兰(Udaya Suriya Rajkumar Dhamodharan):构思研究、设计方法论、监督研究工作并参与手稿撰写和最终审稿。
- 玛丽·珍妮特(Mary Janet A):参与数据收集、预处理和模型实现。
- 巴拉拉朱·拉梅什(Balaraju Ramesh):负责算法开发、实验和性能评估。
- 萨曼奥哈尔(Manohar S):协助软件实现、结果验证和可视化。
- 拉米娅(Ramya A):参与部分工作。
**作者贡献声明**
- 萨曼奥哈尔(S Manohar):撰写原始草稿、监督。
- 拉米娅(A Ramya):编写原始草稿、项目管理、方法论设计。
- 乌代亚·苏里亚·拉杰库马尔·达莫达尔兰(Udaya Suriya Rajkumar Dhamodharan):撰写原始草稿、验证。
- 巴拉拉朱·拉梅什(Balaraju Ramesh):撰写原始草稿、可视化。
- 玛丽·珍妮特(A Mary Janet):撰写原始草稿、验证、软件开发。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号