在不完全条件数据下的条件多维缩放

《Journal of Multivariate Analysis》:Conditional multidimensional scaling with incomplete conditioning data

【字体: 时间:2026年02月11日 来源:Journal of Multivariate Analysis 1.7

编辑推荐:

  提出了一种处理已知特征缺失值的条件多维缩放方法,通过改进的SMACOF算法和闭式解法,在保持数据完整性的同时提升降维质量,并实现缺失值推断。

  
安·图安·布伊
弗吉尼亚联邦大学统计科学与运筹学系,1015弗洛伊德大道,邮编843083,里士满,VA 23284,美国

摘要

条件多维缩放旨在在其他已知特征存在的情况下,从成对差异中找到一个低维配置。通过利用已知特征的可用数据,条件多维缩放可以提高低维配置的估计质量并简化知识发现任务。然而,现有的条件多维缩放方法需要所有已知特征的全数据,这可能由于时间、成本和其他限制而无法总是实现。本文提出了一种条件多维缩放方法,即使在已知特征中存在缺失值时也能学习到低维配置。该方法还可以插补缺失值,从而提供对问题的额外见解。该方法的计算机代码存储在CRAN上的cml R包中。

引言

多维缩放(MDS)是最流行的降维方法之一。MDS的一些最新应用领域包括运动心理学(Ayala等人,2022年)、制造业(Bui和Apley,2022b年)、地球化学(Song等人,2022年)和地球科学(Vermeesch等人,2023年)。MDS的一个显著特点是它可以从对象的成对差异中学习到低维配置。这种低维配置代表了支配对象之间差异的潜在特征。除了适用于以差异形式存在的数据(例如,相似性评分或相关性)外,如果可以定义有意义的差异度量,MDS也可以用于任何其他数据格式。MDS的灵活性对于具有复杂结构的数据特别有帮助,因为欧几里得空间在这种情况下并不适用。一些例子包括随机异质材料的图像数据的差异(Bui和Apley,2021年)、非结构化点云之间的差异(Bui和Apley,2022a年)、生态群落的多样性指数(Oksanen,2024年)、统计分布的距离度量(Thas,2010年)以及常用于文本数据的余弦差异。
在大多数科学和工程应用中,通常可以获取或获得一些支配对象之间差异的潜在特征的知识和数据。例如,Rosenberg和Kim(1975年)发现,在15个常见的亲属关系术语中,性别等特征解释了大部分差异。然而,可以预期(或者至少在这项研究之后知道)性别特征会对亲属关系术语的差异有所贡献。为了简便起见,本文将这些潜在特征称为已知特征。
Bui(2021年,2024年)认为,在降维过程中结合已知特征的知识更有优势。首先,这可以通过更充分地利用可用数据来提高低维配置的估计质量。此外,这在两个方面简化了可视化和知识发现任务。第一个方面是,通过边缘化已知特征,我们可以在可视化降维空间时避免已知特征掩盖低维配置的特征。第二个方面是,在后续分析中,之前分析中发现的特征可以用作已知特征。这使得知识发现过程更加直接,因为每次分析只需要识别至少一个特征,而不需要识别所有低维配置的特征。
鉴于此,提出了条件MDS(Bui,2021年,2024年)来解决这一限制。具体来说,Bui(2021年,2024年)提出通过基于最大化原理的迭代优化算法条件SMACOF来最小化条件应力函数(见第2.2节)。Bui(2022年)提出了这个问题的封闭形式解,该解基于多元线性回归和特征分解的封闭形式解。这个解可以作为替代方案,或者用于初始化条件SMACOF(详见附录A)。
然而,这些条件MDS方法需要所有已知特征的全数据。当已知特征有缺失值时,它们并不适用。例如,在上述亲属关系术语示例中,表亲术语的性别特征值是未定义的。人们可能会排除具有缺失已知特征值的对象,以便使用现有的条件MDS方法。这存在问题,因为(i)未能利用可用数据通常会导致低维配置的估计较差;(ii)当感兴趣的是对象在降维空间中的坐标时,排除对象是不可接受的。
为了解决现有条件MDS方法的这一限制,本文开发了一种可以处理已知特征中缺失值的条件MDS方法。在现有条件MDS方法的标准假设下,证明了所提方法的收敛性。通过使用更多数据,新方法在模拟和实际示例中都提高了低维配置的学习质量。此外,即使已知特征缺失值的比率很大,它也能提供合理的降维结果。这意味着从业者可以通过有意获取较少的已知特征数据来降低成本和努力。所提方法还可以插补缺失的已知特征值。这可能会对研究问题提供更多见解(例如,人们如何理解上述亲属关系术语示例中表亲术语的性别)。
本文的组织结构如下。第2.1节介绍了条件MDS与相关降维文献之间的根本区别。第2.2节总结了条件SMACOF算法,以便于理解所提方法。第3节介绍了所提方法及其理论/计算属性。第4节在模拟的汽车品牌感知示例和亲属关系术语示例上评估了所提方法。第4节还将所提方法与仅应用于具有完整数据的对象的条件SMACOF方法进行了比较。最后,第5节总结了本文。

章节摘录

带有额外信息的降维

本节简要讨论了将额外信息纳入降维过程的降维文献。讨论重点在于展示条件MDS与这些文献之间的根本区别。
首先,从降维获得的低维配置被广泛用作预测模型的输入,以预测某些响应变量。然而,如果响应变量不是

具有缺失已知特征值的条件MDS

本节介绍了处理条件MDS中缺失已知特征值的方法。我们首先介绍了权重wij任意的情况下的所提方法。这些情况通常出现在两种场景中。首先,对应于缺失差异wij的权重δij为0(而其他权重为正)。其次,当采用局部加权方案(例如Sammon映射(Sammon,1969年)进行非线性降维时。
没有

汽车品牌感知模拟示例

本节通过蒙特卡洛研究在Bui(2024年)的汽车品牌感知模拟示例上评估了所提方法。在每次重复实验中,使用七个特征(质量、安全性、价值、性能、环保性和技术)的加权欧几里得距离生成N=100个汽车品牌的成对差异。这些特征的权重分别为90/562、88/562、83/562、82/562、81/562、70/562和68/562。这些权重的分子来自2014年

结论

为了适用,现有的条件多维缩放方法需要丢弃具有缺失数据的对象。当从业者对丢弃对象在降维空间中的坐标感兴趣时,这是不希望的。此外,丢弃数据通常会导致低维配置的估计较差。为了解决这一限制,本文提出了一种也可以学习

致谢

作者感谢编辑、副编辑和审稿人的建设性评论,以改进本文。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号