用于跨域高效鲁棒RGB-to-Hyperspectral图像重建的HS-RankFormer

《Scientific Reports》：HS-RankFormer for efficient and robust RGB-to-Hyperspectral image reconstruction across domains

【字体：大中小】 时间：2026年06月06日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要：从RGB输入进行高光谱图像(Hyperspectral Image, HSI)重建是一项引人注目但具挑战性的任务，其难点在于高光谱维数、标注数据稀缺以及传统模型难以同时捕获光谱与空间依赖性。现有方法常存在域泛化能力差、计算成本高及感知质量下降的问题，尤其

摘要：从RGB输入进行高光谱图像(Hyperspectral Image, HSI)重建是一项引人注目但具挑战性的任务，其难点在于高光谱维数、标注数据稀缺以及传统模型难以同时捕获光谱与空间依赖性。现有方法常存在域泛化能力差、计算成本高及感知质量下降的问题，尤其在跨光谱分布场景迁移时表现不佳。本文提出HS-RankFormer，一种基于轻量Transformer的框架，用于鲁棒的RGB-to-HSI重建。该框架包含三个核心组件：(1)秩感知Transformer生成器(Rank-aware Transformer Generator)，在学习全局光谱–空间相关性的同时鼓励低秩光谱结构；(2)边缘引导融合策略(Edge-guided Fusion Strategy)，将RGB输入与Sobel算子提取的边缘图融合以增强结构感知；(3)自监督掩码预训练方案(Self-supervised Masked Pretraining Scheme)，无需配对标注即可进行有效表示学习。上述组件共同提升了光谱精度、空间一致性和训练效率。研究人员在ARAD 1K、BGU-HS、CAVE和KAUST-Skin四个基准数据集上进行了评估，与MST++、AWAN、Restormer及pix2pix等代表性先进方法相比，HS-RankFormer在MRAE(Mean Relative Absolute Error)、RMSE(Root Mean Square Error)、PSNR(Peak Signal-to-Noise Ratio)、SSIM(Structural Similarity Index)、SAM(Spectral Angle Mapper)和ΔE2000(CIEDE2000)指标上均表现出相当或更优的性能。定性结果表明其具有更好的感知保真度和强跨域鲁棒性。通过结合基于Transformer的建模、光谱正则化和边缘增强学习，HS-RankFormer为RGB-to-HSI重建提供了一种鲁棒且可泛化的方案，在遥感、生物医学成像及文物保护监测数据集上均具有一致性能。

论文解读：

《Scientific Reports》刊载的此研究针对从普通RGB图像重建高光谱图像(Hyperspectral Image, HSI)这一课题展开。高光谱成像因能提供丰富的材料光谱特征而被广泛用于精准农业、遥感、医疗诊断等领域，但高分辨率高光谱相机昂贵、笨重且采集速度受限，阻碍了其在无人机或智能手机等紧凑平台的部署。因此，利用廉价普及的RGB相机通过算法恢复高光谱立方体成为重要研究方向。早期基于卷积神经网络(CNN)的方法受限于局部感受野难以捕获长程光谱依赖；生成对抗网络(GAN)虽提升感知质量但存在模式崩塌与训练不稳定；近期Transformer架构凭借全局自注意力可建模光谱–空间关系，但通常参数量大、计算开销高且域偏移(Domain Shift，如光照、纹理、颜色统计差异)下泛化能力弱。此外，多数方法仅靠RGB输入忽略了辅助结构线索，且完全依赖有监督训练限制了跨域鲁棒性。为此，研究人员提出了HS-RankFormer框架以解决上述不足。

主要关键技术方法：

研究人员采用ARAD 1K（约1000幅室内外场景31波段400–700 nm）、CAVE（32幅室内控制光照31波段）、BGU-HS（约200幅户外场景约31波段）和KAUST-Skin（约500幅皮肤组织65–80波段400–1000 nm）四个公开高光谱数据集。核心方法含三点：①秩感知光谱注意力(Rank-aware Spectral Attention)——通过可学习投影矩阵P∈?^B×r（r?B为谱子空间维数）将特征投影至低维子空间做多头自注意力再扩回全谱维，显式约束重建谱表示秩上界rank(F?)≤r以逼近HSI固有低秩结构；②边缘引导输入融合(Edge-guided Input Fusion)——对RGB转灰度图用Sobel算子求梯度幅值Edge(x,y)=√((?I/?x)²+(?I/?y)²)，归一化后与RGB三通道拼接为H×W×4张量作为生成器输入；③自监督掩码预训练(Self-supervised Masked Pretraining)——随机掩蔽35–45% RGB块，用浅层RGB-to-spectrum映射生成的伪HSI作目标，仅对掩码位置计算MSE损失L_MSE预训练编码器–解码器，再微调。生成器为编码–秩感知Transformer瓶颈–解码结构带残差跳跃连接；判别器为跨注意力判别器(Cross-attention Discriminator)用3D卷积编码真实与生成HSI后经交叉注意力(Q=W_q·Y? , K=W_k·Y, V=W_v·Y)评估谱–空一致性；总损失为L_rec+λ_rankL_rank+λ_advL_adv，其中秩保持损失L_rank惩罚预测与真值在截断SVD前r个奇异值上的差异以维护光谱层级。

研究结果：

Datasets（数据集）

研究人员选用ARAD 1K作主训练集，CAVE、BGU-HS、KAUST-Skin作跨域测试集，涵盖可见光至近红外、室内外及医学影像多种条件，验证模型泛化性。

Data preprocessing（数据预处理）

所有HSI立方或合成RGB归一化至[0,1]并裁为128×128块；无直接RGB的数据集通过CIE 1964 10°配色函数或色度积分合成；Sobel边缘图统一计算并与RGB融合。该流程保证跨域输入一致性。

Overview of HS-RankFormer framework（HS-RankFormer框架概述）

框架由秩感知Transformer生成器、跨注意力判别器及自监督预训练三模块组成。输入为RGB±边缘图，生成器输出HSI立方Y?∈?^H×W×B，判别器引导生成器提升谱保真度与空间对齐，预训练阶段通过掩码重建学习任务可迁移特征。

Rank-aware spectral attention（秩感知光谱注意力）

通过对特征F∈?^p×B左乘投影矩阵P得低维F_r=FP∈?^p×r，在缩减空间算自注意力G_r=Attn(F_r)再右乘P^T得F?=G_rP^T，理论保证rank(F?)≤r。研究人员设置r=16平衡表达力与计算量（敏感度分析显示更小r降精度、更大r增FLOPs无显著收益）。

Input fusion（输入融合）

X_fused=Concat(R,G,B,E)∈?^H×W×4。Sobel边缘为确定性无参结构先验，不增加网络参量却强化边界与纹理引导，尤其利于户外(BGU-HS)与皮肤(KAUST-Skin)等细微空变区域。

HS-RankFormer generator（HS-RankFormer生成器）

编码器用步长为2的卷积压缩至H/4×W/4×D，瓶颈为秩感知Transformer块（层归一化+多头自注意力MSA+前馈），解码器用转置卷积上采样，多级残差融合块通过加法跳跃连接聚合编码–解码路径特征以改善梯度流并保留低频空间边缘与高频谱签名。

Cross-attention discriminator（跨注意力判别器）

双分支3D卷积编码后经位置编码送入交叉注意力模块A_cross=Softmax(QK^T/√d_k)·V比对生成与真实HSI嵌入，多分支拼接后经MLP与Sigmoid做真假分类。轻量对抗损失作软正则项防频谱过平滑。

Self-supervised pretraining strategy（自监督预训练策略）

混合ARAD 1K、CAVE、BGU-HS的RGB块以40%比例随机掩码，用浅层映射伪HSI作目标仅计算掩码位置MSE。预训练使模型学谱–空依赖，微调时MRAE降低6–9%。

Rank preservation loss（秩保持损失）

对每空间块重塑Y_t, Y?_t∈?^p×B做截断SVD取前r奇异值σ_t,k, σ?_t,k，L_rank=(1/T)Σ_t=1^T(1/r)Σ_k=1^r(σ_t,k?σ?_t,k)²，促使重建谱处于与真值相同的主导谱子空间。

Quantitative results（定量结果）

在ARAD 1K上MRAE=0.062（较MST++低34%），BGU-HS上RMSE=3.98，CAVE上PSNR=40.7 dB、SSIM=0.943、SAM=3.86°，全数据集ΔE₂₀₀₀=2.91最低。HS-RankFormer参数量3.42 M，FLOPs 29.6 G（256×256输入），推理11.8 ms/图，显著低于MST++(7.8 M, 51.3 GFLOPs, 23.1 ms)和Uformer-SR(20.1 M, 92.4 GFLOPs)，较CNN基线HSCNN+精度与泛化性大幅提升。

Qualitative visualizations（定性可视化）

MRAE热图显示误差均匀分布且边界清晰，ΔE(CIE76)图多数像素<3阈值，RGB反投影与真值色调、结构吻合，KAUST-Skin中血管与皮损微结构得以保留，证实跨域感知色彩保真与空间精度。

Ablation studies（消融实验）

移除边缘融合致MRAE与ΔE₂₀₀₀上升（纹理区尤甚）；取消自监督预训练MRAE由0.118升至0.158、PSNR由35.7降至33.5 dB；标准ViT替换秩感知块致RMSE由2.91升至3.14、PSNR降约1.6 dB且谱响应噪声增多——证实三组件均贡献显著。

Computational complexity and efficiency analysis（计算复杂度与效率分析）

HS-RankFormer在Transformer类模型中达较优精度–效率帕累托前沿：比MST++、Restormer、Uformer-SR参数量与FLOPs大幅减少且精度更高；虽HSCNN+参更少但谱精度与跨域泛化明显劣于HS-RankFormer。

讨论与结论翻译：

研究人员提出并验证了HS-RankFormer——一种融合秩感知Transformer生成器、Sobel边缘引导RGB融合及掩码自监督预训练的轻量框架，可有效从单张RGB图像重建高光谱立方体。四个异质数据集实验表明该方法在光谱精度(MRAE、RMSE、SAM)、空间感知质量(PSNR、SSIM)及感知色差(ΔE₂₀₀₀)上优于或等同于MST++、AWAN、Restormer与pix2pix等主流方法，且在无配对标注预训练下具强跨域鲁棒性。低秩谱注意力显式约束谱子空间、边缘融合补强结构线索、自监督预训练增强特征可迁移性是性能提升主因。该框架兼顾精度与计算效率，适于资源受限环境部署。未来可引入深度或近红外等多模态传感、探索半监督与联邦学习以适应数据隐私与标注稀缺场景。

热点排行