编辑推荐:
提出多任务特权学习框架,结合特权预测任务与目标任务,并融入知识蒸馏技术提升知识转移效果。实验表明该框架在表格数据和图像任务中优于现有方法,通过分析误分类原因进一步优化模型。
Mario Martínez-García|Jon Vadillo|Marco Pedersoli|I?aki Inza|Jose A. Lozano
巴斯克应用数学中心(BCAM),毕尔巴鄂,西班牙
摘要
利用特权信息进行学习的方法能够利用在部署时不可用的相关特征来进行模型训练。在本文中,我们提出了一个多任务特权框架,该框架结合了两种类型的任务。首先,特权预测任务使用常规特征(在训练和部署时都可用)来预测特权信息,作为指导学习过程的中间步骤。其次,主要的学习目标——目标任务——利用预测到的特权信息以及常规特征来进行最终的目标预测。此外,目标任务中还包含了知识蒸馏技术,以增强特权信息的知识传递。实验结果表明,与现有方法相比,在表格数据集和图像相关问题上取得了改进。此外,我们分析了错误分类的原因,并对提出的多任务特权学习方法进行了优化,以减少错误。
引言
数据的数量和质量对于获得健壮且具有代表性的机器学习模型至关重要。然而,尽管如今有大量的数据可用于模型训练,但有时有用的信息却被忽略了。例如,某些高质量的特征在训练时可用,但在部署时却无法使用。这类特征被称为特权信息,属于“利用特权信息进行学习”(LUPI)范式的范畴[1]。在临床领域可以找到特权信息的一个应用实例[2]、[3]。假设我们的目标是根据提供的图像自动分类活检结果(癌症与非癌症)。几天后,治疗师会提供关于活检结果的详细报告。这些信息作为特权信息,可以用于模型训练。然而,在部署时,患者的诊断仅基于活检图像来进行。与传统的监督学习范式不同,后者处理的是成对的数据点,而LUPI则处理的是三元组,其中包含常规特征、特权特征和标签yi。
LUPI范式与“教师-学生”模型思想相关[1]。假设学生正在准备考试,所有理论内容构成了常规特征。然而,在课堂上,学生可以利用教师提供的特权信息,比如可能出现在最终考试中的重点内容或问题。因此,教师帮助学生专注于关键概念的学习,但这种帮助在最终考试中是不可用的。
一种广泛用于解决LUPI范式的方法是从常规特征中预测特权信息,并利用这些预测结果进行训练和部署。这种方法称为知识转移[2]、[3]、[4],旨在将特权空间中的知识传递到常规空间。具体来说,这个过程分为两个阶段:首先从常规特征中预测特权信息(称为特权预测任务);然后利用预测到的特权特征和常规特征一起来预测标签(称为目标任务)。尽管现有方法分别学习这两个任务(见图1a),但我们建议将这两个任务作为一个多任务学习问题来共同解决[5]、[6](见图1b)。这种方法通过并行学习任务来增强泛化能力,因为每个任务的学习成果可以帮助其他任务更好地学习[6]。通过同时训练多个任务,模型倾向于学习更通用的表示,而不仅仅是记住单个任务的特性。此外,这还可以通过防止模型过度专业化来降低过拟合的风险[7]。这种效果还得益于共享通用表示,使模型能够利用任务之间的关系[6]。多任务学习从相关的任务(如特权预测任务和目标任务)中受益。因此,我们在特权学习框架中考虑了多任务框架,以提高模型性能。
除了多任务学习在特权范式中提供的优势外,我们还发现了其他有效的处理LUPI范式的方法。具体来说,我们采用了知识蒸馏[8]、[9]技术,它借鉴了“教师-学生”的概念。知识蒸馏的目标是将利用特权信息(无论是独立学习[9]还是与常规特征一起学习[10]、[11])获得的知识,传递给仅使用常规特征学习的“学生”。由于知识蒸馏对特权学习的有益作用,我们将它嵌入到了多任务特权学习中。需要注意的是,这两种技术是互补的,可以在同一个学习框架中使用。多任务学习可以从特权预测任务和目标任务中共同学习,而知识蒸馏则允许将高质量的信息从利用真实特权信息学习的“教师”那里传递过来。这种整合使得特权信息可以从两个互补的角度被利用:知识蒸馏中使用的教师模型和多任务学习框架中的特权预测任务。值得注意的是,蒸馏过程会影响目标任务,但特权预测任务保持不变(见图2)。此外,与现有的特权蒸馏方法[8]、[10]、[11]不同,学生不仅可以访问常规特征,还可以依赖特权预测结果。因此,多任务特权学习通过两种特权蒸馏方法来实现:传统的特权特征蒸馏(PFD)[11]和教师特权蒸馏(TPD)[10],后者专注于处理不完美的“教师”模型。
在这项工作中,我们结合了多任务学习和知识蒸馏的优势来改进LUPI范式。多任务学习有助于更好的泛化[5]、[6],而蒸馏有助于在教师和学生之间传递特定信息[8]、[9]。据我们所知,这种组合代表了一种新的方法,它将两种方法的优势整合到了一个模型中。因此,本文的主要贡献如下:
•我们提出了一个多任务特权框架(MTP):从多任务的角度出发,解决了带有知识转移的LUPI问题。与传统方法将特权预测任务和目标任务视为顺序过程不同,我们提出的MTP框架采用了联合学习策略。这种同步优化促进了更丰富的交互和更有效的特权信息利用。
•我们开发了一种改进的多任务特权(MTP)框架,并结合了知识蒸馏技术,以更有效地利用特权信息。具体来说,提出了结合PFD[11](MTP-PFD)和TPD[10](MTP-TPD)的多任务特权框架。
•我们分析了评估实例中错误分类的原因:错误是由于特权特征的预测不准确,还是由于教师提供的信息有误?此外,我们还提出了一些见解,以调整提出的多任务特权学习方法,试图纠正错误分类的实例。
本文的其余部分组织如下:第1节介绍相关工作;第2节阐述了我们的多任务特权学习方法;第3节展示了某些表格数据和图像数据的实验结果;第4节进一步探讨和理解了这些方法;最后,第5节总结了全文。
相关研究
相关工作
本工作的开发依赖于三种范式:利用特权信息进行学习、多任务学习和知识蒸馏。
多任务特权学习
LUPI范式的目标与标准监督学习相同:最小化目标预测的错误。然而,从知识转移的角度来看,LUPI范式还利用了其他任务。首先,预测特权信息(即特权预测任务)作为指导学习过程的中间步骤。其次,再解决目标任务。由于涉及多个任务,我们提出了相应的处理方法
实验评估
在本节中,我们评估了三种提出的多任务特权框架:多任务特权(MTP)、结合PFD的多任务特权(MTP-PFD)和结合TPD的多任务特权(MTP-TPD)。在我们的实验中,使用神经网络实现了回归(fr)和分类(fc)模型,参数分别为ωr和ωc)。值得注意的是,梯度反向传播是联合进行的,因此影响分类网络的梯度也会影响
讨论
在本节中,我们讨论了特权模型的行为。首先,我们分析了导致其错误分类的因素。随后,我们探讨了纠正错误分类实例的潜在策略。
结论
在本文中,我们提出了一种新颖的多任务特权框架,能够有效利用特权信息,无论是单独使用还是结合知识蒸馏作为补充方法。实验表明,多任务特权模型在表格数据集和图像相关问题上均取得了最佳结果。它们在特权范式中优于传统的知识转移方法,证明了联合学习特权信息预测的有效性
CRediT作者贡献声明
Mario Martínez-García:撰写 – 审稿与编辑、撰写 – 原稿、可视化、软件开发、资源管理、方法论研究、资金获取、形式化分析、数据整理、概念化。Jon Vadillo:撰写 – 审稿与编辑、方法论研究、概念化。Marco Pedersoli:撰写 – 审稿与编辑、监督、方法论研究、概念化。I?aki Inza:撰写 – 审稿与编辑、监督、方法论研究、概念化。
利益冲突声明
作者声明没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了巴斯克政府(通过BERC 2022-2025计划、Elkartek、IT1504-22和BMTF项目)以及科学与创新部的支持:BCAM Severo Ochoa认证CEX2021-001142-S/MICIU/AEI/10.13039/501100011033、PID 2022-137442 NB-I00和Severo Ochoa资助项目PRE2021-099279(由MICIU/AEI/10.13039/501100011033和ESF+提供)的支持。