从混合数据中学习半参数树模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

从混合数据中学习半参数树模型

【字体：大中小】 时间：2026年02月14日 来源：Artificial Intelligence 4.6

编辑推荐：

　　本文提出一种半参数树模型，用于从混合数据中学习潜在结构，并开发了基于信息距离的结构学习算法。实验表明该算法能有效发现混合数据中的潜在层次结构。

作者：周灿、李楠、王帅、王晓飞、郭建华

单位：南京审计大学统计与数据科学学院，中国南京雨山路211815

摘要

在人工智能时代，涉及潜在变量和结构的因果发现与表示方法引起了越来越多的关注，尤其是在理解现实世界数据方面发挥着关键作用。尽管许多现有方法仅专注于纯连续数据或纯离散数据，但本文探讨了从混合数据中学习潜在结构的挑战。我们提出了一种新的半参数树模型，能够处理混合数据，并开发了一种使用加性信息距离来学习该模型结构的算法。我们证明了在给定信息距离的情况下，该算法能够高效且准确地恢复真实结构。此外，基于样本的结构学习算法具有概率近似正确性，并为精确结构恢复建立了有限样本界限。通过模拟数据和真实数据测试了我们提出的算法的性能，实验结果表明该算法能够有效发现混合数据背后的潜在层次结构。

引言

在现实世界中，有许多量难以测量甚至无法观测到。这些未被观测到的量被称为潜在变量，在现实中起着至关重要的作用。例如，在医学诊断中，患者对特定疾病的遗传易感性可能是一个重要的但潜在的变量[1]。目前，潜在变量模型已成为概率建模中不可或缺的工具，广泛应用于因果发现[2]、[3]、[4]、[5]、因果表示学习[6]、[7]、计算机视觉[8]、[9]和生物信息学[10]等领域。

作为经典模型，潜在类模型[12]、[13]包含一个潜在变量和几个观测变量，假设观测变量在给定潜在变量的条件下是条件独立的。尽管潜在类模型在聚类分析[14]、[15]、[16]中得到广泛应用，但其简单且固定的结构难以捕捉观测变量背后的复杂生成机制。作为进一步扩展，张[17]研究了潜在树模型，解决了局部依赖性问题，并捕捉了观测变量背后的层次生成机制。与潜在类模型相比，这种扩展允许对变量组进行更深入的解释。随后，王等人[18]将潜在树模型应用于贝叶斯网络中的近似推理。他们通过从贝叶斯网络中采样的数据学习潜在树模型，并使用这些模型进行推理，替代了原始的贝叶斯网络。王和李[9]基于潜在树模型提出了一种更灵活有效的计算机视觉中人体姿态估计方法。该技术有助于整合人体两个物理上不相连的部分，有效利用了复合部分和独立部分之间的相互作用。陈等人[19]、[20]使用潜在树模型解决了层次主题检测问题。底层变量是表示单词是否出现在文档中的观测二进制变量，而顶层变量是提供文档软划分的潜在二进制变量，进一步表示主题。

尽管传统的潜在树模型应用广泛，但它们通常仅处理纯离散数据或纯连续数据。然而，随着人工智能的发展，对于能够分析包含离散和连续变量的混合类型数据的因果发现和表示方法的需求日益增加，以更好地理解现实世界的复杂性。从这种混合数据中挖掘信息具有重要意义但具有挑战性。近年来，已经有一些研究致力于研究混合图模型。Lee和Hastie[21]引入了一种针对具有混合高斯和多项式数据的成对图模型的惩罚复合似然方法。周等人[22]使用混合潜在树模型处理混合数据。然而，该模型不允许观测变量成为树的内部节点，并且主要将变量限制在条件高斯或二进制分布中。Fan等人[23]提出了一种用于建模混合多变量数据的半参数潜在高斯copula模型，尽管离散变量被限制为二进制值。然而，在许多情况下，混合数据通常包含具有通用分布的连续特征和作为有序变量的离散特征。例如，遗传数据可能包括连续的基因表达值和有序的疾病阶段及表型效应，在食品感官分析中，连续评分和有序尺度常结合使用来描述食品产品的不同方面。在此基础上，冯和宁[24]进一步发展了这种模型，用于包含有序和连续变量的混合数据。他们的模型[23]、[24]假设潜在变量具有潜在的高斯图结构，并进一步生成观测到的混合变量。与之前的工作[21]、[22]相比，我们提出了一种半参数树模型，允许观测变量成为潜在树的内部节点，从而能够处理包含通用连续和有序变量的混合数据。此外，与其他半参数模型[23]、[24]相比，我们的树模型在捕捉观测变量背后的复杂生成机制方面提供了更大的灵活性，同时为解释它们之间的关系提供了更直观的见解。

在本文中，我们对混合数据建模做出了三点贡献。首先，我们提出了一种半参数树模型（STM），并进一步提出了一种基于该模型的信息距离。其次，我们设计了一种基于距离的自下而上的算法来学习半参数树模型的结构。第三，我们建立了精确恢复结构所需的有限样本界限。

本文的其余部分组织如下。第2节提供了一些背景知识并介绍了半参数树模型。第3节介绍了半参数树模型的结构学习算法，提供了理论结果，并为精确结构恢复建立了有限样本界限。第4节通过模拟研究评估了所提算法的性能。第5节将所提算法应用于真实世界的数据集。第6节给出了结论。主要定理的证明在附录中提供。

符号说明

我们首先介绍一些必要的符号。一个不包含循环或多条边的无向图称为简单图。考虑一个简单图

G = (W, E

，其中 W 是节点集，E 是边集。节点 u 和节点 v 之间的边表示为 (u, v)，如果 (u, v)?∈?E，则认为 u 与 v 相邻。对于任何

j = 1, \dots\dots, k

，如果

(v_{j ? 1}, v_{j}) \in E

，则集合 [v₀, v₁, ???, v_k] 形成了从 v₀ 到 v_k 的长度为 k 的路径。此外，路径 [v₀, v₁, ???, v_k] 是一个循环

STM的结构学习

在本节中，我们提出了一种从观测变量中学习树结构的算法。

模拟研究

在本节中，我们应用了第3.3节描述的基于样本的算法，并展示了我们基于样本的 SLS 算法的模拟结果。合成数据样本是在三种不同的参数设置下生成的，样本量各不相同。对于每种设置，我们通过平均500次独立运行的结果来评估算法的性能。为了评估树学习算法的有效性，我们使用以下指标来量化其

真实数据分析

在本节中，我们将我们的 SLS 算法应用于在 Kaggle（一个流行的机器学习数据存储库）上可用的糖尿病健康指标数据集¹。该数据集来源于疾病控制与预防中心每年进行的行为风险因素监测系统。如表1所示，该数据集包括253,680个个体的信息

讨论

所提出的半参数树模型（STM）属于潜在结构图模型类别，其目标是揭示包含有序变量的混合数据背后的潜在结构信息。本节将 STM 放置在现有文献中，阐明了其建模假设，并讨论了其可识别性属性。

与潜在树模型的关系 STM 与之前的潜在树模型研究[29]、[31]最为相关，这些研究假设观测变量

结论

在本文中，我们介绍并分析了一种新的半参数树模型，用于揭示混合数据背后的潜在结构信息。我们提出了一种基于该模型的算法来学习潜在树结构，并为其概率近似正确性提供了理论保证。在模拟实验中，我们的算法在合成数据集上表现出色，其一致性得到了验证，并与其他潜在树学习方法进行了比较

CRediT作者贡献声明

周灿：撰写——原始草稿，方法论。 李楠：撰写——原始草稿，数据整理。 王帅：可视化，软件实现。 王晓飞：撰写——审稿与编辑，方法论，资金获取，概念构思。 郭建华：撰写——审稿与编辑，监督。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

王晓飞报告称获得了国家自然科学基金的支持。王晓飞报告称获得了中国留学基金委的支持。如果有其他作者，他们声明没有已知的财务利益或个人关系可能影响所报告的工作

联系信箱：

粤ICP备09063491号

摘要

引言

符号说明

符号说明

STM的结构学习

模拟研究

真实数据分析

讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行