《Knowledge-Based Systems》:Data Privacy Preserved Student Career Prediction with Deep Learning and Blockchain Based Mechanism
编辑推荐:
本文提出一种结合深度学习和区块链技术的学生职业预测模型,采用改进的Levy飞行火蚁算法(Imp-LeFop)进行特征选择,优化混合密集连接卷积VGG模型(Opt-Studformer)进行分类,并利用 dung beetle 优化机制(DBO)调参。实验基于两个数据集,准确率分别达到98.97%和98.84%,有效保障数据隐私。
Mansi Aggarwal | Vaibhav Vyas
研究学者,计算机科学系,Banasthali Vidyapith,拉贾斯坦邦-304022,印度
摘要
近年来,学生成功已成为大多数高等教育机构的主要战略目标。由于运营成本增加和预算削减,教育机构更加关注在保持教育质量和严格性的同时,满足学生的入学需求。现有在大数据分析和机器学习(ML)技术方面的研究进展在很大程度上依赖于学生数据来预测学生信息。但这些现有模型在分类学生数据和预测其表现方面存在一些问题。本文提出了一种结合区块链的深度学习方法,以提高预测学生职业成功的准确性,并同时保护数据隐私。本文分为三个阶段:预处理、特征选择和分类。首先,在预处理阶段,使用最小-最大归一化方法对数据进行归一化。接下来,采用改进的Levy flight辅助fire hawk优化(Imp-LeFoP)技术进行特征选择,该方法能够选择最优的特征子集。然后,将选定的特征作为输入传递给分类器模型,即优化的混合密集连接卷积VGG辅助car-studformer(Opt-Studformer)。分类器模型中的超参数通过dung beetle优化机制(DBO)进行适当调整。为了保护学生数据隐私,集成区块链机制来安全存储数据。此外,区块链机制使用改进的权益证明(Im-PoS)共识算法进行数据检索验证。通过使用两个数据集(计算机科学学生职业预测和职业预测数据集)评估了职业预测的性能,这两个数据集的准确率分别达到了98.97%和98.84%。
引言
预测职业决定了许多工作和非工作的结果,标志着个人生活中的一些关键决策。因此,职业选择难以理解和预测[1]。在某些管理中,职业预测对人力资源和人事决策(如保留、选拔、晋升和招聘)具有重要建议[2]。基本上,可以使用各种方法预测学生的职业,但这些方法需要更多时间。在学生职业预测领域,计算技术发挥着重要作用。机器学习(ML)模型被认为是最新的形式[3]。然而,ML方法有三种类型:监督学习、无监督学习和强化学习。此外,ML技术能有效分析学生的能力并确定正确的职业路径。在学生的生活中,职业选择在预测中起着重要作用。在ML中,职业预测是迭代的过程,因为它涉及数据清洗、分类和验证[4,5]。为了提高预测准确性,只选择最优的特征集,从而减少训练时间。通常,在特征选择方法中,使用元启发式算法来解决这些问题[6,7]。基于梯度提升模型的聚类中心方法能有效预测学生的梦想和目标。该聚类模型使用了从4000名学生中收集的13个数据点[8]。
在ML技术中,支持向量机(SVM)模型提高了学生教育的质量,并实现了高准确率[9]。回归方法通过分析因变量和自变量之间的关系来预测学生的表现。逻辑回归方法通过描述自变量之间的关系来预测学生的表现,这些自变量可以被分类为连续型、二进制型和分类型。然而,该模型通过使用也分类学生状态的变量(如个人兴趣、CGPA、心理分数和职业抱负)来提高准确率[10,11]。朴素贝叶斯(Naive Bayes)ML技术也能有效预测学生表现。不过,该模型使用所有数据属性,并与自变量进行比较,对预测因子显示出高显著性[12]。K最近邻(K-nearest neighbors)算法能有效地对数据进行分类,该算法包含多个用于分类的多变量数据属性。此外,该算法能快速预测学生表现并提高准确率[13]。
在ML中,从一个工作收集的信息可以用于另一个工作。然而,信息通常是来自各种来源的混合形式,其中包含大量不准确、不必要的和无关的信息[14]。最初,数据是未经组织的形式,可以通过删除缺失数据和空值来替换为近似数据。基本上,为了进行职业预测,数据必须以组织化的形式存在[15]。OneHot编码技术为数据定义值,并将其转换为数字或其他模式类型,然后输入ML算法以获得更好的预测结果。OneHot编码技术适用于所有ML算法,但方案较为复杂[16]。基于混合ML技术,选择了最优的特征集用于学生职业预测。深度信念网络(DBN)方法通过微调和预训练产生高级特征表示,并接受softmax回归(SR)进行预测[17]。Crow搜索算法(CSA)从原始特征中选择最优特征集。该模型提高了准确率,减少了训练时间,并防止了过拟合。为了进行性能分析,收集了基于问卷的数据集,该数据集能够有效进行预测[18]。使用区块链技术安全验证学生的学术资历和工作经验,确保雇主可以信任求职者提供的信息[19,20]。这些区块链技术可以构建一个广泛的系统,指导学生选择职业路径,并使用改进的共识算法验证资历。此外,推荐系统(RS)在搜索查询、音乐、书籍和社交标签等领域因能够预测用户的未来偏好而受到欢迎。类似地,深度学习(DL)方法可以从大量数据中提取和学习项目的潜在特征[21]。在RS中,基于混合DL的模型显著提高了推荐质量。此外,基于DL的推荐模型(如多层感知器(MLP)、卷积神经网络(CNN)、自编码器(AE)、循环神经网络(RNN)和深度强化学习(DRL)显著提高了预测效果。此外,带有ResNet模型的孪生网络改进了特征提取,以推荐视觉相关元素[22,23]。因此,DL模型在电子商务中改进了产品推荐,并解决了推荐多样性不足的问题。
现有研究提出了许多技术和模型来预测学生职业。学生职业预测涉及关键数据、信息和安全预防。在早期阶段,研究人员提出了各种模型。一些现有模型,如决策树、朴素贝叶斯、KNN、SVM、XGBoost、区块链辅助SIS、人工神经网络和基于混合DBN的模型,被用于职业预测。这些模型存在一些问题,如解释复杂、特征冗余增加以及算法选择不严谨可能导致验证效果不佳。然而,在现有模型中,准确率较低,数据完整性容易受到安全威胁,且模型训练数据有限。此外,混合模型的缺乏优化导致复杂性增加。在传统方法中,基于特征选择的Crow搜索算法(CSA)导致计算成本高,不平衡的探索和利用阶段进一步导致过拟合问题。现有的卷积神经网络(CNN)辅助的视觉变换器分类器模型出现高错误率和复杂的数据传输问题。为了解决这些问题,引入了新的职业预测模型。
本研究的主要贡献如下:
?使用最小-最大数据归一化方法去除数据中的属性和空值。
?使用改进的Levy flight辅助fire hawk优化(Imp-LeFop)从原始数据中选择最优特征集,从而提高预测准确性并减少训练时间。
?使用优化的混合密集连接卷积VGG辅助car-studformer(Opt-Studformer)对数据进行分类。
?使用dung beetle优化机制(DBO)调整超参数,该机制减少了过拟合问题。
?使用两个数据集(计算机科学学生职业预测和职业预测数据集)评估性能。
在这项研究中,新的最小-最大归一化方法清除了数据中的属性和空值,并适当地重新调整了数据值。这里使用Imp-LeFop进行特征选择;该模型可以有效避开局部最优解,朝向全局解决方案进行调整。此外,这种特征选择机制对各种优化问题具有鲁棒性能,结合了可靠性和效率,解决了本研究的具体挑战。在分类阶段,Opt-Studformer方法提高了准确率并降低了复杂性。Opt-Studformer模型的分类器包含VGG-16,简化了错误率并提高了学生职业预测的准确率。
本文的其余部分结构如下:第2节介绍了与学生职业预测相关的文献综述,第3节描述了提出的模型,第4节解释了建议模型和现有模型的性能分析,第5节讨论了研究工作的结论和未来方向。
相关研究
相关工作
在学生职业预测中,开发了一种基于AI的模型,该模型根据课外活动分析学生的表现。现有的职业指导方法(如咨询和标准化评估)缺乏满足个别学生需求的个性化。为了解决这些问题,Bahalkar等人[24]建议使用编码器解码器长短期记忆(LSTM)模型来分析人口统计因素、学术表现和学生数据
提出的方法
本研究提出使用结合区块链的深度学习(DL)来提高预测学生职业成功的准确性,同时保护数据隐私。图1展示了所提出方法的总体设计。
上述架构描述了各个阶段的工作内容。首先,从数据集中提取数据,其中包含一些缺失的数据点,可以通过数据归一化去除。然后,从原始特征中选择最优特征集
结果与讨论
为了预测学生的职业,采用了两个数据集(计算机科学学生职业预测和职业预测数据集)来执行所提出的方法。
结论
本研究提出了职业预测和学生数据隐私保护的方法。所提出的系统基于DL方法分多个阶段实施。首先,从数据集中收集数据并去除无关属性。接下来,使用Imp-LeFop特征选择方法选择最优特征,减少过拟合问题。然后,Opt-Studformer分类器模型接收选定的特征子集
资金
本手稿的编写没有获得任何资金支持。
CRediT作者贡献声明
Mansi Aggarwal:撰写——原始草稿、验证、软件开发、项目管理、调查、形式分析、概念化。Vaibhav Vyas:撰写——审阅与编辑、可视化、监督、资源协调、方法论制定、资金获取、数据整理。