通过可学习的非线性变换和稀疏正则化实现高阶张量补全

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：High-order tensor completion via learnable nonlinear transformation and sparse regularization

【字体：大中小】 时间：2026年05月02日 来源：Pattern Recognition 7.6

编辑推荐：

　　熊文豪|魏泽轩|张雄军中国华中师范大学数学与统计学院，武汉430079 摘要在高阶张量奇异值分解的基础上，通过可逆线性变换进行处理，已成为多维视觉数据补全的强大工具。然而，现有方法忽略了某些变换下的稀疏性。在本文中，我们提出了一种基于非线性变换的可学习半正交变换

　　熊文豪|魏泽轩|张雄军
中国华中师范大学数学与统计学院，武汉430079

摘要
在高阶张量奇异值分解的基础上，通过可逆线性变换进行处理，已成为多维视觉数据补全的强大工具。然而，现有方法忽略了某些变换下的稀疏性。在本文中，我们提出了一种基于非线性变换的可学习半正交变换方法，并结合稀疏正则化来实现多维视觉数据的补全。具体而言，我们提出了一种基于非线性变换的高阶张量核范数，用于表征底层张量的低秩特性。此外，还利用了在所有模式下可学习半正交变换下底层张量的稀疏性。在所提出的模型中，可学习半正交变换下的稀疏性与变换后张量的低秩特性相辅相成，共同提高了补全效果。随后，我们开发了一种近端高斯-赛德尔算法来求解该模型，并在非常温和的条件下证明了其收敛性。通过对彩色视频、高光谱视频和光场图像的大量数值实验，证明了所提方法在质量指标和视觉效果方面优于各种现有方法。

引言
张量（也称为多阵列）在过去几十年中受到了广泛关注，已被应用于图像处理[1]、机器学习[2]、计算机视觉[3]和深度学习[4]等多个领域。在现实世界中，许多张量是低秩的，因为低维子空间能够表示张量的大部分信息，并且有助于降低高维张量的维度。然而，在采集和传输过程中，由于传感器故障或成像条件限制，观测到的张量可能包含缺失值。高阶低秩张量补全技术旨在利用底层张量的低秩特性，从部分观测数据中恢复高阶张量，这一技术已被应用于多种实际任务[5][6]。

低秩张量补全的关键问题是张量秩的定义。不同的张量秩定义会导致不同的补全模型。常用的张量秩包括CANDECOMP/PARAFAC（CP）秩[7]、Tucker秩[8]、张量列车秩[9]、张量环秩[10]、多秩[11]和全连接张量网络秩[12]。基于CP分解，赵等人[13]提出了一种贝叶斯张量补全方法，该方法通过引入多个潜在因子的稀疏性先验来实现张量补全。此外，横田等人[14]提出了一种通过CP结构分解张量并对因子施加平滑约束的CP张量补全方法。然而，计算张量的CP秩通常是NP难的[15]。对于Tucker秩最小化问题，刘等人[5]首次提出通过最小化张量所有展开矩阵的核范数之和（SNN）来近似Tucker秩。随后，徐等人[16]提出了一种基于SNN的并行矩阵分解方法进行张量补全，其中每个展开矩阵被分解为两个低秩矩阵的乘积。此外，张[17]提出了一种非凸松弛方法，通过将张量矩阵化为方阵并对结果方阵的奇异值应用一系列非凸函数来实现张量补全。然而，基于SNN的方法可能不是最优的，因为SNN并不是张量Tucker秩之和的凸包[18]。

对于张量列车秩最小化，蚌瓜等人[19]提出了一种通过最小化张量矩阵化的核范数来实现张量补全的方法，该方法将底层张量重新组织为沿每个模式的平衡矩阵。丁等人将上述张量列车方法与其他图像数据先验（如总变分[20]和非局部自相似性[21]）结合使用进行张量补全。然而，之前的张量列车方法使用ket增强技术将低阶张量表示为高阶张量，这可能会破坏底层张量的内在结构。此外，张等人[22]提出了两种基于张量列车分解和张量列车秩约束以及时间正则化的交通数据恢复方法，但张量列车秩通常需要预先确定，而这通常是困难的。对于张量环补全，邱等人[23]提出了一种基于张量环核范数的方法，通过最小化多个胖矩阵的核范数来实现噪声张量补全。此外，余等人[24]提出利用并行矩阵分解技术对张量环核范数进行张量补全。更多关于张量环补全方法的研究可以参考[25]及其中的参考文献。基于全连接张量网络分解，郑等人[12]提出了一种新的低秩张量补全方法，将底层张量分解为若干因子张量的乘积，并结合全连接张量网络分解和因子正则化来增强底层张量的局部连续性，从而实现视觉数据恢复[26]。然而，这种链接的张量网络分解可能会由于相邻因子之间的运算而增加计算难度。

通过两个三阶张量的张量代数运算符，Kilmer等人[11]定义了张量积和张量奇异值分解（SVD），并提出了张量的管状秩和多秩。随后，张等人[27]提出了一种张量核范数（TNN）方法来近似三阶张量的多秩，其中TNN定义为傅里叶域中张量所有正面切片核范数之和。此后，许多基于TNN的张量补全或张量恢复研究出现在文献中[28][29][30]及其中的参考文献。然而，基于傅里叶变换的TNN可能存在挑战，因为需要假设周期性。为了获得更好的低秩近似，宋等人[31]通过任意酉变换定义了张量积，并提出了一种变换后的TNN以实现鲁棒张量补全，在合适的酉变换下可以获得更好的恢复性能。关于变换后TNN在其他低秩张量优化问题中的应用可以参考[32][33][34][35]及其中的参考文献。然而，基于变换后TNN的方法需要一个好的初始变换，且由于使用了满秩矩阵，其计算成本可能较高。此外，还提出了一些基于可学习变换的方法，通过更新变换矩阵来进行研究。例如，李等人[36]提出了一种基于非线性变换的核范数方法进行张量补全，该方法结合了TNN和非线性变换，并通过更新半正交矩阵来实现。通过结合非局部自相似性技术，陈等人[37]提出利用每个子张量在可学习变换下的空间和谱低秩特性进行视觉数据恢复。此外，刘等人[38]提出了一种基于可学习空间-谱变换的TNN模型，用于三维视觉数据恢复，该模型通过沿空间模式的可学习半正交变换将大规模原始张量投影为小规模内在张量。这里学习到的变换适用于不同类型的视觉数据。然而，上述基于可学习变换的方法仅适用于三阶张量，并且仅利用了变换后张量的低秩特性。

通过将张量SVD的定义从三阶张量扩展到高阶张量，Martin等人[39]提出了基于傅里叶变换的高阶张量SVD。最近，秦等人[40]定义了在任何可逆线性变换下的高阶张量积，并给出了高阶张量的管状秩和多秩的定义。此外，他们提出了高阶TNN用于张量补全，将TNN从三阶张量推广到任意阶张量。为了利用不同模式下奇异值分布的隐式全局差异，何等人[41]定义了差异张量SVD秩，以纳入变换后高阶张量奇异值的全局差异，并提出了一种非凸替代方法来增强差异张量SVD秩的近似。然而，这些工作需要为高阶张量SVD提供一个合适的线性变换，这在一定程度上可能无法得到低秩张量。此外，这些工作中没有利用变换域中底层张量的稀疏结构。

在本文中，我们提出了一种基于非线性变换的高阶张量核范数（NHTNN）方法，适用于任意阶张量，该方法结合了高阶张量SVD中的半正交变换和对每个元素的非线性变换来探索底层张量的低秩特性。这里从第三模式到最后一个模式的半正交变换以及逐元素的非线性变换是不可或缺且相互补充的，与单一的半正交变换或非线性变换相比，能够更好地利用张量的低秩特性。然后，我们提出了一种结合可学习NHTNN和稀疏正则化的方法来实现视觉数据恢复。这里使用张量?1范数来表征通过可学习半正交矩阵沿每个模式变换后的张量的稀疏性，其中在可学习半正交矩阵下的底层张量是稀疏的，详见第3节中的实验。通过结合非线性变换和可学习半正交变换，所提出的方法可以同时探索变换后张量的低秩特性和稀疏性。此外，我们设计了一种近端高斯-赛德尔算法来求解该模型，并在非常温和的条件下证明了其收敛性。通过对彩色视频、高光谱视频和光场图像的大量数值实验，证明了所提方法优于其他比较方法。

本文的其余部分组织如下：第2节介绍了一些关于张量的初步知识，并提出了适用于任意阶张量的NHTNN。第3节提出了一种基于非线性可学习半正交变换和稀疏正则化的方法来实现高阶张量补全。第4节开发了一种近端高斯-赛德尔算法来求解该模型，并证明了其收敛性。第5节进行了多维视觉图像数据集的数值实验，以验证所提方法的有效性。最后，第6节总结了结论。更多实验和主要结果的证明放在补充材料中。

**部分摘要**
**初步知识**
在本节中，我们介绍了一些关于张量的符号，然后定义了适用于高阶张量的NHTNN，这对于高阶张量补全至关重要。本文使用的一些符号和概念总结在表1中。

对于任意阶张量X∈R^(n1×n2×?×n^d)，让X(:,:,i3,…,id)表示X的第(i3,…,id)个面切片，大小为n1×n2。特别地，当d=3时，X(:,:,i3)表示X的第i3个正面切片。为了方便起见，我们令Xj=X(:,:,i3,…,id)，其中j=(id?1)∏k=3^(d?1)n^k+?

**基于可学习NHTNN的张量补全**
在本节中，我们提出了一种基于可学习NHTNN的高阶张量补全方法，该方法结合了可学习半正交矩阵来探索底层张量的低秩特性。此外，在不同模式下，变换域中的底层张量也是稀疏的，这一点已在[43]中用于高光谱图像去噪（三阶张量）。特别是，图1展示了...

**近端高斯-赛德尔算法**
根据NHTNN的定义，模型（5）可以等价地重写为：
?(X,Z,W,Ui,Dt) ∑_j=1^J ||Φ°Z_j||^* + τ ||W||^1，满足X=Z×3U_3^T×4U_4^T?×dU_d^T，Z=W×1D_1^T×2D_2^T，PΩ(X)=PΩ(M)，UiUi^T=I^(ri)，i=3,…,d，Dt^T=I^(rt)，t=1,2。

**数值实验**
我们进行了一些数值实验来证明LTHTCSR方法的有效性。在实验中，我们将LTHTCSR与以下方法进行了比较：并行矩阵分解张量补全（TMac）[16]、基于克罗内克基表示的张量稀疏度量（KBR）[48]、非凸松弛方法用于低秩张量补全（NRATC）[17]、非线性变换诱导的TNN...

**结论**
在本文中，我们提出了一种LTHTCSR方法用于高阶张量补全，该方法利用对每个元素的非线性变换和对不同模式下底层张量的可学习半正交变换来探索变换域中底层张量的低秩特性。此外，还利用可学习半正交矩阵在所有模式下探索了变换后张量的稀疏性，这通过张量?1范数来表征。低排名作者及贡献声明：
熊文豪：撰写——原始稿件、软件开发、方法论构建、概念化设计。
魏泽轩：软件开发、数据调查、概念化设计。
张雄军：撰写——审稿与编辑、撰写——原始稿件、数据验证、研究监督、方法论构建、数据调查、概念化设计。

利益冲突声明：
作者声明不存在任何可能影响本文研究结果的已知财务利益冲突或个人关系。

致谢：
本研究部分得到了国家自然科学基金（项目编号12171189）、湖北省自然科学基金（项目编号2025AFB966）以及中央高校基本科研业务费（项目编号CCNU24ai002）的支持。

联系信箱：

粤ICP备09063491号

热点排行