在多模态数据环境中提升聚类的稳定性、紧凑性以及数据之间的区分度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Data & Knowledge Engineering》：Enhancing clustering stability, compactness, and separation in multimodal data environments

【字体：大中小】 时间：2026年02月11日 来源：Data & Knowledge Engineering 2.6

编辑推荐：

　　客户细分依赖稳定且有效的聚类方法，传统方法多聚焦结构化数据，难以处理多模态信息。本研究提出整合类别、数值和文本数据的多模态框架，采用Transformer嵌入文本、数据融合层整合异构数据及生成模型优化聚类。通过五项稳定性指标（ARI、AMIS、BG、HAN、OTA）和DBS评估，实验证明该方法显著提升聚类稳定性、凝聚度和分离度，优于现有策略，为多模态学习在客户细分中的应用提供新方案。

菲利佩·多斯·桑托斯·席尔瓦（Fillipe dos Santos Silva）|朱利奥·塞萨尔·多斯·雷伊斯（Júlio Cesar dos Reis）|马塞洛·达·席尔瓦·雷伊斯（Marcelo da Silva Reis）

人工智能与认知架构中心（H.IAAC），坎皮纳斯，13083-876，圣保罗州，巴西

摘要

有效的客户细分对于定制化的营销策略至关重要，而这依赖于稳定且独特的聚类方法。传统的聚类方法通常关注结构化数据，在处理多模态信息时效果有限。本研究首次引入了一个多模态框架，通过整合分类数据、数值数据和文本数据来提高聚类的稳定性、紧凑性和区分度。我们的框架通过三个核心组件解决了现有问题：基于变压器的嵌入模型用于文本分析，数据融合层用于整合不同类型的数据，以及生成模型用于优化聚类的一致性。我们使用五种稳定性指标严格评估了该框架的有效性：调整后的Rand指数（ARI）、调整后的互信息得分（AMIS）、BagClust（BG）、层次聚类（HAN）和最优传输对齐（OTA）。此外，我们还使用Davies–Bouldin得分（DBS）来评估聚类的紧凑性和区分度。我们使用Yelp、墨尔本Airbnb、PetFinder.my和Women’s Clothing Reviews等真实世界数据集，将我们的方法与四种现有方法进行了对比测试。结果表明，我们的框架在聚类稳定性、紧凑性和区分度方面表现更优，推动了多模态学习在更细致的客户细分中的应用。

引言

客户细分是理解消费者偏好和行为的基本实践，它有助于识别具有独特特征和需求的客户群体[1]。这些洞察使营销团队能够开发出针对每个细分市场的目标营销活动，从而提高信息的相关性和效果[2]。

有效的客户细分依赖于能够确保高稳定性、紧凑性和区分度的聚类算法。聚类的稳定性尤为重要，因为它保证了在不同数据集和不同时间点上对客户群体的持续识别，便于根据消费者行为的变化调整营销策略。具有高紧凑性和明确区分度的聚类可以帮助营销人员识别客户群体中的独特特征和偏好，从而支持创建更具吸引力的信息，提高参与度、满意度和转化率[3]、[4]、[5]。通过结合这些要素（稳定性、紧凑性和区分度），客户细分成为营销活动的优化工具，既能够产生即时效果，也能提升长期客户忠诚度[6]、[7]、[8]、[9]。

文献中提出了多种旨在提高聚类稳定性、紧凑性和区分度的方法，主要关注结构化数据，如分类变量和数值变量[8]、[10]、[11]。一种广泛采用的方法是使用混合数据深度嵌入聚类与软目标网络（Mixed DEC + SU）算法，该方法将深度学习框架应用于聚类任务[11]。这种方法利用堆叠自编码器学习潜在特征表示，并通过软分配技术进行聚类。尽管Mixed DEC + SU策略对结构化数据有效，但在处理同时包含结构化和文本元素的多模态数据集时存在局限性。

最近的研究表明，将结构化数据与文本数据相结合可以提升整体数据表示能力[12]、[13]。结构化数据（如人口统计信息或购买历史）提供具体、可量化的洞察，而文本数据（如社交媒体帖子）则捕捉客户情感和偏好的细微差别。我们的研究发现，这种整合提升了与稳定性、紧凑性和区分度相关的聚类指标，从而提供了更全面的客户视图。

通过结合结构化数据的客观指标和文本的深度洞察，我们实现了精确的细分，支持更有效的营销策略。这种方法弥合了定量数据和定性数据之间的差距，使得营销工作能够同时回应可测量的和基于情感的消费者行为方面[12]、[14]。

本研究提出了一个新颖的多模态框架，旨在通过融合分类数据、数值数据和文本数据来提高聚类的稳定性、紧凑性和区分度。我们的框架包含三个核心组件：基于变压器的嵌入模型用于分析文本数据，数据融合组件用于整合不同类型的数据，以及基于生成的模型用于优化聚类过程。

我们使用了五种公认的稳定性指标来评估其有效性：调整后的Rand指数（ARI）、调整后的互信息得分（AMIS）、BagClust（BG）、层次聚类（HAN）和最优传输对齐（OTA）——这些指标在评估不同情境下的聚类稳定性方面备受推崇[15]、[16]、[17]。此外，Davies–Bouldin得分（DBS）用于评估聚类的紧凑性和区分度。我们选择K-means算法来创建和定义聚类，因为该方法简单高效，尽管其稳定性不如层次聚类等方法[18]。

在评估中，我们使用了多个真实世界数据集，包括Yelp数据集、墨尔本Airbnb数据集、PetFinder.my和Women’s Clothing Reviews。为了评估我们模型的有效性，我们将其与四种现有方法进行了对比。第一种方法是仅依赖数值和分类数据的结构化方法；第二种方法是使用文本嵌入的文本方法；第三种方法是结合结构化和文本数据的Combined Dataset - Structure Textual（CD-ST）；第四种方法是整合多种数据类型的Mixed DEC + SU，以增强聚类的收敛稳定性[11]。

我们的主要贡献如下：

我们提出了一个新颖的多模态框架，有效整合了分类数据、数值数据和文本数据，显著提高了多模态数据环境中的聚类稳定性、紧凑性和区分度；
我们的多模态框架实现了先进的聚类稳定性、紧凑性和区分度，通过改进的数据整合技术推动了多模态学习领域的发展；
据我们所知，我们是第一个在多模态框架中整合分类数据、数值数据和文本数据的团队，显著提升了聚类的稳定性、紧凑性和区分度。

本文的其余部分安排如下：第2节进行了先进的综合讨论；第3节介绍了我们提出的框架；第4节概述了实验评估；第5节展示了结果；第6节提出了讨论；最后，第7节提出了未来研究的方向。

在多模态数据环境中提高聚类的稳定性、紧凑性和区分度

我们的多模态框架包含三个核心组件：基于变压器的模型、数据融合和生成模型。图1展示了这一结构。

我们下面详细说明每个组件：

1.
基于变压器的模型组件：该组件使用预训练的变压器模型，如BERT、GPT-2、LLaMA等[27]、[28]、[29]。这些模型在不使用特定头部的情况下仅用于嵌入目的，利用它们广泛预训练的知识。

实验方法

本节介绍了我们评估框架的方法，包括第4.1节的数据集、第4.2节的评估指标、第4.3节的模型架构、第4.4节的基线比较、第4.5节的数据融合方法以及第4.6节的实验程序。

结果

以下部分结构化地概述了我们的聚类结果，重点关注三个关键方面：稳定性、紧凑性和区分度指标；聚类内的特征行为；以及聚类差异的可视化表示。我们在第5.1节首先分析了聚类的稳定性、紧凑性和区分度，强调了各种策略和数据集之间的一致性和凝聚力。在第5.2节，我们进一步研究了特定特征的行为

讨论

我们提出的框架的性能通过ARI和AMIS指标得到了明显体现，显示出其卓越的有效性。在所有样本规模下，包括完整数据集，我们的方法始终优于其他策略。持续较高的ARI和AMIS得分突显了我们提案的稳健性和准确性，尤其是在处理大型、复杂的多模态数据集时。这些发现表明，我们的方法在相关应用中具有巨大潜力

结论

即使采用预处理和规范化技术，聚类不稳定性仍然是传统聚类方法长期存在的问题。本研究通过整合结构化和文本数据，提出了一种新的客户细分方法。所提出的多模态模型包括基于变压器的组件、数据融合和生成模型，在提高聚类稳定性方面取得了显著进展。我们的发现展示了多模态方法的潜力

CRediT作者贡献声明

菲利佩·多斯·桑托斯·席尔瓦（Fillipe dos Santos Silva）：撰写 – 审稿与编辑，撰写 – 原稿，可视化，验证，监督，软件，资源，项目管理，方法论，调查，正式分析，数据整理，概念化。朱利奥·塞萨尔·多斯·雷伊斯（Júlio Cesar dos Reis）：撰写 – 审稿与编辑，撰写 – 原稿，可视化，验证，监督，软件，资源，方法论，概念化。马塞洛·达·席尔瓦·雷伊斯（Marcelo da Silva Reis）：撰写 – 审稿与编辑，撰写 – 原稿

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

该项目得到了巴西科技和创新部的支持，资金来源于1991年10月23日的第8248号法律，属于PPI-SOFTEX项目范畴，由Softex协调，并发布了Arquitetura Cognitiva（第三阶段），DOU 01245.003479/2024 -10。

菲利佩·桑托斯（Fillipe Santos）是坎皮纳斯大学（UNICAMP）的计算机科学博士候选人，也是人工智能与认知架构中心（HIAAC）的成员。他拥有UNICAMP的计算机科学硕士学位和阿拉戈斯联邦大学（UFAL）的学士学位。他的研究专注于利用大型语言模型和生成式AI通过整合非结构化和结构化数据来提升客户细分和推荐系统。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关研究

在多模态数据环境中提高聚类的稳定性、紧凑性和区分度

实验方法

结果

讨论

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行