基于区间相似性度量的复合多尺度区间交叉样本熵

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Communications in Nonlinear Science and Numerical Simulation》：Composite multiscale interval cross-sample entropy based on interval similarity measure

【字体：大中小】 时间：2026年03月21日 来源：Communications in Nonlinear Science and Numerical Simulation 3.8

编辑推荐：

　　本文提出基于平均重叠率和区间中心距离的新区间相似度度量s^A，并构建复合多尺度区间交叉熵CMICSE以量化区间值时间序列的关联性。通过数值模拟和实际数据验证，CMICSE有效捕捉不同时间尺度的关联性，区分随机噪声影响，成功应用于股票数据和空气质量指数分析。

Ping Tang|Baogen Li|Zuguo Yu|Yang Wang

湖北师范大学数学与统计学院，黄石，435002，中国

摘要

本文提出了一种新的区间相似性度量方法^A，该方法基于两个区间之间的平均重叠率和区间中心距离。基于^A，我们提出了复合多尺度区间交叉样本熵（CMICSE）来量化两个区间值时间序列（ITS）之间的相关性。通过数值模拟实验表明，CMICSE能够有效识别不同时间尺度和耦合强度下的ITS相关性，并能够区分随机噪声对ITS相关性的影响。为了进一步验证CMICSE的实用性，我们将其应用于股票数据和空气质量指数（AQI）数据。结果表明，CMICSE不仅能够有效描述不同股票指数之间的相关性，还能够识别影响六个城市AQI的主要污染因素。所有结果都表明，CMICSE为ITS的相关性分析提供了一种有效的方法。

引言

在现实世界的复杂系统中，许多观测值并不以精确的点值形式呈现，而是以带有不确定性的区间范围形式出现。例如，每日股票最低/最高价格区间[1]、每日最低/最高温度区间[2]、每日PM_2.5最高/最低浓度区间[3]等。这种由每个观测值对应一个区间的序列称为区间值时间序列（ITS）。区间数据的系统分析可以追溯到Moore的开创性工作[5]。随后，Kulpa[6]提出了一种区间算术的图形表示方法，直观地揭示了区间的基本属性及其运算特性，从而加深了对区间运算的理解。与传统的点值时间序列相比，ITS的优势在于它同时包含了中心点（或趋势）信息和宽度（或波动）信息[7]。此外，ITS还包含了更准确和完整的信息[8]。由于这些优势，ITS分析受到了广泛关注。目前关于ITS的研究主要集中在预测[9]、[10]、[11]、[12]和聚类[13]、[14]、[15]方面，但对其复杂性和相关性分析的研究仍然有限。

熵的概念最初由Clausius在热力学中提出，后来Shannon在信息论中将其作为不确定性和复杂性的度量标准进行了改进[16]。基于Shannon熵，Pincus将近似熵（ApEn）引入时间序列分析中，以量化序列的复杂性[17]、[18]；Richman等人提出了样本熵（SE），以解决ApEn在处理短序列和偏差方面的不足。此外，他们将其扩展为交叉样本熵（CSE），以量化两个序列之间的同步性和相关性[19]。为了揭示时间序列的多尺度结构，Costa等人提出了多尺度熵（MSE）来探索序列的动态复杂性[20]、[21]。随后，多尺度交叉样本熵（MCSE）被提出，用于评估多个尺度上序列的相关性，并应用于多个领域[22]、[23]、[24]。

然而，在MSE/MCSE中，当尺度过大时，粗粒化的序列长度可能会过短，从而导致熵值无法定义，影响结果的可靠性[25]。考虑到粗粒化过程的局限性，Wu等人提出了复合多尺度熵（CMSE）[25]和精细复合多尺度熵（RCMSE）[26]。受此启发，Yin等人提出了复合多尺度交叉样本熵（CMCSE）和精细复合多尺度交叉样本熵（RCMCSE）[27]，以量化时间序列之间的关系，提高了算法的准确性并减少了获得未定义熵值的概率。

值得注意的是，上述方法通过计算嵌入向量（即在重构状态空间中的延迟向量）之间的距离来确定模板匹配。这些方法仅适用于点值时间序列。为了充分考虑ITS的上下界和区间宽度信息，引入了区间相似性度量作为判断模板匹配的标准。常见的Jaccard和Dice相似性度量对区间宽度的变化不敏感，且容易受到混叠的影响[28]。因此，Kabir等人提出了一种基于区间双向重叠率的相似性度量方法[28]、[29]。在此基础上，Rico等人提出了基于平均嵌入的区间相似性度量概念[30]。然而，这些区间相似性度量仅考虑了区间的重叠信息，忽略了区间中心信息。实际上，区间中心反映了区间的趋势信息，起着重要作用[31]。自从Neto等人提出中心范围方法（CRM）以来，该方法通过同时建模区间中心和半径显著提高了预测性能[32]。因此，研究人员意识到需要同时考虑区间中心和宽度信息来建模区间值数据。这一想法已扩展到各个领域，验证了结合区间中心和宽度信息的有效性[33]、[34]、[35]。

因此，本文基于平均重叠率，增加了区间中心距离作为惩罚项，提出了一种新的区间相似性度量方法——复合多尺度区间交叉样本熵（CMICSE），用于量化ITS的相关性。在这项工作中，我们首先使用双组分ARFIMA模拟实验讨论了CMICSE的适用阈值范围。然后，将CMICSE应用于三组模拟实验（双组分ARFIMA过程、耦合Hénon映射和MIX(p)序列），验证了该方法能够有效捕捉不同尺度和耦合强度下的ITS相关性，并能有效识别随机噪声对序列相关性的影响。最后，将CMICSE应用于股票数据和AQI数据，以验证其实用性。

本文的其余部分结构如下：第2节介绍CMICSE的定义和算法步骤；第3节通过数值实验讨论参数并验证CMICSE的有效性和可行性；第4节将CMICSE应用于股票数据和空气质量指数（AQI）数据；第5节总结本文。

章节片段

区间值时间序列

首先简要介绍区间数和区间值时间序列的定义。

定义1

区间数[36]可以表示为

\overset{ˉ}{x} = [x^{?}, x^{+}]

其中

x^{?}, x^{+} \in R

x^{?} \leq x^{+}

\overset{ˉ}{x}

也可以表示为中心和半径的形式，即

\overset{ˉ}{x}

其中

x^{?} +

x^{?} \leq x^{+}

x^{?} +

定义2

区间值时间序列[6]是一组按时间顺序收集的区间数构成的序列。长度为N的ITS定义为

数值实验

在本节中，为了测试CMICSE的有效性，我们将使用双组分ARFIMA过程[41]、耦合Hénon映射[42]和MIX(p)序列[19]来生成人工时间序列。参考[43]中合成ITS的方法，本节中的缩放ITS通过以下步骤合成：步骤1：

模拟并生成一个具有已知结构的区间中心时间序列

步骤2：

构建区间半径时间序列

真实数据分析

为了验证CMCSE方法在真实数据中的适用性，我们将其应用于股票数据和空气质量指数（AQI）数据。在本节中，我们将嵌入维度设置为

结论

本文提出了一种新的区间相似性度量方法^A，该方法基于两个区间之间的平均重叠率和区间中心距离。基于^A，我们提出了CMICSE来量化两个ITS之间的相关性。为了验证该方法的有效性，首先将其应用于三种类型的人工时间序列：双组分ARFIMA过程、耦合Hénon映射和MIX(p)序列。

在双组分ARFIMA实验中，阈值的适用范围为

CRediT作者贡献声明

Ping Tang：撰写——原始草稿、可视化、验证、软件开发、方法论、调查、形式分析、数据整理、概念化。Baogen Li：撰写——审稿与编辑、撰写——原始草稿、监督、项目管理、方法论、概念化。Zuguo Yu：撰写——审稿与编辑、监督、资源管理、项目管理和资金获取。Yang Wang：撰写——审稿与编辑、监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言