《Computers and Electrical Engineering》:WCSMCapsNet: A novel multi-scale capsule network for relationship prediction in social networks
编辑推荐:
提出结合数据归一化、双注意力Bi-LSTM特征提取、多尺度胶囊网络关系预测和加权混沌盐水优化算法的混合模型,在四个社交网络数据集上验证其有效性,精度达97.3%-98.8%,同时优化了参数调优效率。
Dhirendra Kumar | Maheshwari Prasad Singh
助理教授,计算机科学与工程系,印度比哈尔邦Madhubani政府工程学院
摘要
预测社交网络中的关系通常涉及应用深度学习(DL)模型来分析数据中的模式和特征,以预测网络成员之间的连接或互动。现有方法的缺点包括执行时间较长、参数调整较为复杂以及预测可靠关系的准确性较低。为了克服这些限制,本研究提出了一种新的策略。通过数据标准化对输入数据进行预处理,以提高数据完整性和减少数据冗余。基于双重注意力机制的密集Bi-LSTM(DADB)用于提取高级特征。多尺度胶囊网络(MCapsNet)用于预测社交网络链接。为了提高预测性能并调整超参数,采用了加权混沌鱼群优化器(WCSSO)。本研究使用了四个数据集:Bitcoin Alpha、Slashdot、Bitcoin-OTC和Epinions。WCSCapsNet在Epinions数据集上的表现优异,准确率为97.3%,精确率为97.82%,召回率为96.9%,F1分数为97.3%,平均绝对误差(MAE)为0.02,均方根误差(RMSE)为0.16。使用Slashdot数据集时,该方法获得了98.8%的准确率、97.7%的精确率、99.2%的召回率、98.4%的F1分数、0.02的MAE和0.21的RMSE。在Bitcoin Alpha数据集上,实验结果显示准确率为98.5%,精确率为98.2%,召回率为98.3%,F1分数为98.2%,MAE为0.014,RMSE为0.12。在Bitcoin-OTC数据集上,该系统的准确率为97.1%,精确率为96.2%,召回率为97.4%,F1分数为96.8%,MAE为0.02,RMSE为0.17。
引言
社交媒体是指通过互联网访问的开放和互动平台,完全依赖于用户生成的内容,如视频、帖子和照片。社交网络站点(SNS)允许用户建立联系、交流并共享信息[1],从而成为公司与客户之间的双向沟通渠道。这些工具能够以较低的成本高效地覆盖大量受众,实际上已成为全球人们生活的重要组成部分[2]。因此,社交媒体已成为虚拟品牌社区传播、通过吸引人的营销活动提高用户参与度以及提升客户意识的有效工具。用户发布个人故事、评价产品和服务,并分享他们的经验,从而在这些数字生态系统中成为活跃的内容创造者和影响者[3]。总体而言,社交媒体是一个让人们能够向网络和虚拟社区展示自己兴趣和想法的渠道,根据用户偏好提供不同的服务[4]。
基于网络的社交网络是通过移动应用程序和网站,借助在线用户账户创建来连接的用户群体[5]。这些网络结构包含多个实体和互动模式,反映了参与者之间的关系[6]。最近的研究重点关注社交网络分类法,以更好地理解系统的不同特征。基于局部和全局互动假设,已经创建了许多分析策略来揭示社交结构中的隐藏模式[7]。这些模式用于检测具有特定属性的实体和社区,在依赖社交分组和社区检测的领域中,分类变得必不可少[8]。
社交媒体平台的功能及其提供的服务各不相同,通常根据用户需求进行分类。这些服务使平台能够实现货币化、分享、娱乐、提供信息、促进社交互动,并吸引受众,从而允许它们分析使用行为、收集反馈、定位用户群体并估计意识指标[9]。对社交媒体平台进行分类有助于理解并从不同系统生成的数据中提取有意义的见解[10]。随着社交媒体的普及,它渗透到了数据驱动的领域,为分析和服务开发开辟了新的可能性[11]。在这种情况下,数据驱动的方法将用户视为基于他们所使用服务的类别,而社交网络一般可以被视为配置文件网络、社交网络和娱乐网络[12]。
预测这些网络中的社交关系对于根据用户偏好和兴趣提供定制服务至关重要。用户行为,无论是主动的、被动的还是受在线活动影响的,都会影响关系的建立和破裂,因此行为分析作为预测组件非常重要[13]。然而,这些关系往往是模糊的,因此需要更深入地研究相互关系和行为互动[14]。身份是通过沟通和社会互动形成和确认的;因此,分析用户行为和参与度是必要的[15]。预测社交关系意味着需要提取用户兴趣、偏好和互动模式,以揭示熟悉和新颖的关系结构[16]。
如今,机器学习和深度学习方法在社交网络的分类和预测任务中得到了广泛应用。这些模型能够高效处理高维度、非线性和复杂的数据[17]。通常实施各种架构,如VGG16、ResNet、AlexNet、MobileNet、EfficientNet和生成对抗网络(GANs),以促进学习和决策过程[18]。尽管这些模型能够识别复杂模式并解决过拟合和数据不平衡等问题,但在预测社交关系的质量或强度方面存在某些局限性[19]。在大多数情况下,它们在社交网络中的信任预测方面的表现并不理想,而信任预测旨在根据个体之间的过去互动来估计链接的可靠性、强度和可信度[20]。
信任预测是朋友推荐、信息过滤、在线协作和欺诈检测系统等的重要组成部分。如果准确识别可信链接,可以带来可靠的互动、防止错误信息并阻止恶意活动。尽管如此,深度学习模型可能存在以下问题:它们需要大型标记数据集,训练速度慢,需要大量超参数调整,并且难以理解,而这在信任相关决策中是一个非常重要的特征。此外,许多模型关注链接是否存在,而不是其质量;因此,发现真实链接的假阳性率很高。
本研究提出了一种新的混合深度学习模型,结合了进化优化技术来解决这些问题。本文的总体思路是将深度神经网络的力量与进化算法的全局搜索能力结合起来,不仅提高信任预测的准确性,还加快了处理速度。此外,基于图的注意力机制旨在揭示用户互动的结构方面,而时间建模则旨在捕捉社交网络的时间依赖性特征。这样,作为高度动态和上下文敏感现象的信任仍能被模型正确反映。
最近,一些研究人员创建了一个框架,用于估计社交网络中的未知关系。在确定用户之间的关系类型时,考虑了节点行为的独特指标。这些属性作为网络标签的权重。通过基于移动性和个人用户偏好的混合成员模型来识别多种关系的组合。然而,这些策略在捕获准确或敏感的用户数据方面存在局限性,以及在预测社交网络中的可信关系方面的有效性也有限。参数调整复杂,现有系统的执行时间较长。为了从部分标记的信息中检测未知关系,建议使用基于迁移学习的另一个网络的预测结果。当结合来自多个来源的数据时,细节完全不同,标记信息也各不相同。因此,新方法的开发应侧重于平衡标记信息并提高用户之间社交关系的预测性能。
所提出的社交关系预测方法基于以下目标:
- ?
为了消除数据冗余并提高数据完整性,使用数据标准化对输入数据进行预处理。
- ?
为了提取高级特征,应用了基于双重注意力的密集Bi-LSTM(DADB)。
- ?
为了预测社交网络关系,使用了WCSSO优化的多尺度胶囊网络(WCSMCapsNet)。
- ?
为了优化超参数以提高预测性能,采用了加权混沌鱼群优化器(WCSSO)。
本文的其余部分结构如下:第2节介绍了与社交网络关系预测相关的现有工作。第3节介绍了所提出的方法,包括预处理、特征提取以及WCSMCapsNet方法可以分类的社交网络关系。第4节提供了实验分析和比较结果,第5节和第6节提出了讨论部分和结论。
相关研究
相关工作
下面讨论了几项基于社交关系预测的现有工作:
Kou等人[21]创建了基于信任的缺失链接预测方法(TMLP),用于预测缺失的链接关系并确定它们是可信的还是不可信的。使用simhash技术为每个用户生成哈希索引。两个用户之间的汉明距离决定了他们是否可以形成新的社交网络关系。模糊计算方法用于确定关系是否
提出的方法
社交网络上的用户数量与多种关系相关。为了提高基于社交网络的应用程序的性能,基于其数据的社交关系预测至关重要。首先,基于双重注意力的Bi-LSTM技术捕获隐藏的共享特征。包含注意力层是为了使特征更适合社交连接预测的目的。独特的WCSSO优化多尺度胶囊网络方法
结果与讨论
以下部分提供了所提工作的实验分析。第4.1节解释了每个数据集的描述,第4.2节解释了性能指标。第4.3节展示了四个数据集的评估结果和图形表示。第5节简要讨论了所提工作。表4和表5展示了训练和系统配置的超参数详细信息。
讨论
Bi-LSTM对超参数的选择非常敏感。选择正确的架构、学习率和其他超参数以达到最佳性能可能具有挑战性,通常需要大量的定制。为了解决这些问题,应用了DADB来降低参数调整的复杂性。CNN通常需要大量的标记数据才能有效泛化。如果缺乏标记的社交网络数据,模型的性能可能会下降。
结论
在本研究中,可以高效地预测社交网络关系。首先,数据通过最小-最大标准化进行预处理。然后,通过DADB有效提取了高级特征。WCSMCapsNet准确预测了社交网络关系,如朋友或敌人、信任或不信任。WCSMCapsNet在Epinions数据集上的性能结果为:准确率为97.3%,精确率为97.82%,召回率为96.9%,F1分数为97.3%,MAE为0.02,RMSE为0.16。