编辑推荐:
本文系统探讨了机器学习(ML)和人工智能(AI)中日益关键的公平性问题,以非负矩阵分解(NMF)这一广泛应用在特征提取和主题建模中的方法为具体研究对象。作者指出,标准的NMF方法致力于最小化平均重构误差,可能导致少数或结构复杂的群体遭受不成比例的高误差,从而引发公平性问题。受“公平”主成分分析(PCA)的启发,本文提出了一种名为Fairer-NMF的min-max公平性优化框架,旨在平衡不同群体间的相对重构损失。研究推导了乘法更新和交替最小化两种求解算法,并通过一系列合成与真实数据实验验证了该方法的有效性,同时亦审慎指出,公平性定义并非普适,新方法在某些情况下可能增加部分个体的误差,强调方法选择需依赖具体应用。这项工作为开发更透明、灵活且可解释的公平机器学习算法迈出了重要一步。
引言
机器学习(ML)与人工智能(AI)已广泛应用于社会各个领域,但其内在的偏见和不公问题日益凸显,可能导致种族与社会不公。这些不公平可能源于数据偏斜、算法偏见乃至后处理决策。本文重点研究由数据代表性不足和算法处理偏见共同导致的不公平现象。在许多应用场景(如医疗诊断、累犯预测)中,算法的核心任务是揭示隐藏的主题或特征,用于解释现象或作为下游任务(如分类、预测)的基础。当数据本身存在偏见,且算法通常为“平均”表现而设计时,可能导致对代表性不足群体的误分类和模式解释不清。本文聚焦于(无监督)降维任务中的公平性问题,特别是非负矩阵分解(NMF),作为一种强大的、可用于多种应用的方法,其简单的平均重构误差最小化目标,容易导致规模小或结构复杂的亚群体被忽略,即使总误差相对较小。如果NMF用于特征识别并为下游学习任务服务,这种不平衡将导致小亚群体准确性极低,而大多数群体则受益于准确预测,在缺乏公平性分析时,这可能造成严重伤害。因此,探索一种在特定公平性框架下更公平的NMF替代目标函数至关重要。
研究贡献与组织
本文的贡献主要体现在:首先,展示了NMF(一种用于透明数据分析和可解释特征提取的方法)如何可能产生不公平结果。其次,受到公平主成分分析(PCA)的启发,提出了一种基于min-max框架的公平性缓解策略,旨在减轻由群体规模和复杂性不平衡引起的偏见。尽管非负性约束增加了分析复杂度,但研究者推导了求解该更公平NMF目标(Fairer-NMF)的两种算法:乘法更新方案和交替最小化方案。最后,通过合成与真实数据实验表明,在某些场景下该公式可改善公平性,但也存在其无效的情况,这取决于所需公平性形式和应用背景。本文的组织结构为:第3节介绍相关文献,特别是公平无监督学习和降维技术;第4节概述标准NMF及其算法;第5节深入讨论标准NMF的组级目标函数,并定义Fairer-NMF的公平性准则;第6节给出两种求解算法;第7节展示在合成和真实数据上的数值实验结果。
公平主成分分析(PCA)的相关工作
在公平性研究中,公平主成分分析(PCA)是一项开创性工作。研究表明,PCA可能在不经意间引入偏见,导致对某些群体(如下列与高学历群体)产生更高的平均重构误差。为此,研究者提出了Fair PCA,其核心思想是在给定秩约束下,寻找一个投影,使得不同群体经过该投影后,其平均重构损失的最大值最小化。这是一种典型的min-max框架,或称“社会公平”。本文的研究动机正是源于此,旨在探索是否可将类似框架应用于其他基于线性代数的ML方法,特别是具有非负约束的NMF,该约束在增强可解释性的同时也带来了分析挑战。
标准NMF的公式与算法
给定一个非负矩阵 X ∈ Rm×n≥0和目标维度 r,NMF将其分解为两个非负低维矩阵的乘积:X ≈ W H,其中 W ∈ Rm×r≥0称为表示矩阵,H ∈ Rr×n≥0称为字典矩阵。其最常见的优化问题(标准NMF)是最小化重构误差的Frobenius范数平方:argminW ∈ Rm×r≥0, H ∈ Rr×n≥0‖X - W H‖2。求解此非凸问题的常用算法包括交替最小化和乘法更新。后者由Lee和Seung提出,因其实现简单、无需超参数设置且具有单调性而广泛应用。
Fairer-NMF的提出:从群体层面看标准NMF的不足
假设数据集包含L个互斥的群体,标准NMF的目标可重写为最小化所有群体重构误差之和。这虽然追求整体误差小,但并未考虑各群体的规模(样本数m?)和内在复杂性(如矩阵的潜在“秩”)。在一个规模或复杂性差异显著的数据集中,标准NMF可能为了让大群体或简单群体获得更小的误差,而牺牲小群体或复杂群体的重构精度。这从公平性角度看是“不公平”的。例如,文中图2展示了由高秩(r=6)和低秩(r=3)两个正交子空间群体组成的合成数据。当对整个数据集应用标准NMF时,低秩群体在较低秩分解下就能获得极低的相对误差,而高秩群体的误差则下降缓慢。图3则展示了三个群体的另一情形,其中两个群体共享近似的数据子空间基础。在低秩分解时,共享子空间的两个群体重构误差更低,而另一个结构不同的群体则误差更高。这些实验表明,标准NMF的“平均最优”策略可能掩盖了对某些群体的不公。
Fairer-NMF的公平性目标
为了克服上述不足,本文在min-max公平框架下提出了Fairer-NMF。与Fair PCA类似,其核心是定义并最小化各群体的“相对重构损失”。对于一个群体?,其数据矩阵为X?,最优秩-r NMF下的误差为E?。给定当前分解(W?, H),其相对重构损失定义为 (‖X?- W?H‖ - E?) / ‖X?‖。其中,E?代表该群体“本可以达到的最佳重构误差”,其作用类似于一个基准,将当前误差与之比较,并除以该群体的数据范数以进行归一化,从而平衡不同规模和量级群体的差异。最终,Fairer-NMF的优化目标是:找到一组分解(W?, H),使得所有群体中最大的相对重构损失最小化,即最小化最差群体的表现。这是一个鲁棒的、追求群体间平衡的优化目标。
求解Fairer-NMF的算法
针对新的min-max目标,本文推导了两种数值求解算法。
- 1.
乘法更新算法:该算法是对标准NMF乘法更新的推广。其核心思想是在更新W和H时,通过一个加权策略来体现min-max目标。具体地,在更新过程中,为每个群体的梯度引入一个权重λ?,该权重与各群体当前相对重构损失的梯度成正比。在每次迭代中,算法会重新计算这些权重,使得在损失较大的群体方向上采取更大的更新步长,从而动态地引导优化过程,最小化最差的群体损失。最终的更新规则保持了乘法更新的非负性和相对简单的形式。
- 2.
交替最小化算法:该方法将原min-max问题转化为一系列更易求解的子问题。通过引入一个辅助变量t来表示最大相对损失的上界,将原问题重写为在约束条件下最小化t。然后,利用交替方向乘子法框架,交替优化变量W?, H 和辅助变量。在每一步,关于W?和H的优化子问题可转化为带权重的非负最小二乘问题,有成熟的求解器可用。该算法提供了另一种求解途径,尤其适合对优化理论有更高要求的应用。
数值实验与讨论
研究在合成数据和真实数据集上验证了Fairer-NMF的性能。合成实验(如前述图2、3情景)表明,在群体间存在复杂度或子空间结构差异时,Fairer-NMF能够更有效地平衡各群体的相对重构误差,避免标准NMF对某一群体的过度倾斜。在真实数据集(如基因表达数据)上的实验也观察到类似趋势。然而,文章特别强调,实验中也存在Fairer-NMF未能显著改善公平性,甚至略微增加部分群体误差的情况。这恰恰印证了作者在引言中阐明的核心观点:公平性定义非普适,追求的是“更公平”而非“绝对公平”。任何“更公平”的方法都应谨慎使用,并始终结合具体应用场景评估相应的公平性度量。应用Fairer-NMF可能导致某些群体(通常是原先占优的群体)的重构误差略有上升,这是为了提升最弱势群体表现而做出的权衡。
结论与展望
本文针对NMF中潜在的群体不公平问题,提出了一个基于min-max框架的Fairer-NMF模型及相应的求解算法。这项工作表明,通过修改经典算法的目标函数,可以系统地探索和缓解机器学习方法中的偏见。它为开发更透明、灵活的公平ML算法迈出了关键的一步,使最终用户能够更好地识别和减轻偏见。未来工作包括将公平性目标与分布鲁棒性等其他目标结合,探索对更广泛无监督学习方法的公平性推广,以及在更多真实世界的复杂应用中验证和调整该框架。本研究也提醒从业者,公平性是一个多维、与上下文紧密相关的概念,算法的选择和应用应始终保持审慎,并结合具体的公平性度量进行分析。