用于跨域高效鲁棒RGB-to-Hyperspectral图像重建的HS-RankFormer

《Scientific Reports》:HS-RankFormer for efficient and robust RGB-to-Hyperspectral image reconstruction across domains

【字体: 时间:2026年06月06日 来源:Scientific Reports 3.9

编辑推荐:

  摘要:从RGB输入进行高光谱图像(Hyperspectral Image, HSI)重建是一项引人注目但具挑战性的任务,其难点在于高光谱维数、标注数据稀缺以及传统模型难以同时捕获光谱与空间依赖性。现有方法常存在域泛化能力差、计算成本高及感知质量下降的问题,尤其

  
摘要:从RGB输入进行高光谱图像(Hyperspectral Image, HSI)重建是一项引人注目但具挑战性的任务,其难点在于高光谱维数、标注数据稀缺以及传统模型难以同时捕获光谱与空间依赖性。现有方法常存在域泛化能力差、计算成本高及感知质量下降的问题,尤其在跨光谱分布场景迁移时表现不佳。本文提出HS-RankFormer,一种基于轻量Transformer的框架,用于鲁棒的RGB-to-HSI重建。该框架包含三个核心组件:(1)秩感知Transformer生成器(Rank-aware Transformer Generator),在学习全局光谱–空间相关性的同时鼓励低秩光谱结构;(2)边缘引导融合策略(Edge-guided Fusion Strategy),将RGB输入与Sobel算子提取的边缘图融合以增强结构感知;(3)自监督掩码预训练方案(Self-supervised Masked Pretraining Scheme),无需配对标注即可进行有效表示学习。上述组件共同提升了光谱精度、空间一致性和训练效率。研究人员在ARAD 1K、BGU-HS、CAVE和KAUST-Skin四个基准数据集上进行了评估,与MST++、AWAN、Restormer及pix2pix等代表性先进方法相比,HS-RankFormer在MRAE(Mean Relative Absolute Error)、RMSE(Root Mean Square Error)、PSNR(Peak Signal-to-Noise Ratio)、SSIM(Structural Similarity Index)、SAM(Spectral Angle Mapper)和ΔE2000(CIEDE2000)指标上均表现出相当或更优的性能。定性结果表明其具有更好的感知保真度和强跨域鲁棒性。通过结合基于Transformer的建模、光谱正则化和边缘增强学习,HS-RankFormer为RGB-to-HSI重建提供了一种鲁棒且可泛化的方案,在遥感、生物医学成像及文物保护监测数据集上均具有一致性能。
论文解读:
《Scientific Reports》刊载的此研究针对从普通RGB图像重建高光谱图像(Hyperspectral Image, HSI)这一课题展开。高光谱成像因能提供丰富的材料光谱特征而被广泛用于精准农业、遥感、医疗诊断等领域,但高分辨率高光谱相机昂贵、笨重且采集速度受限,阻碍了其在无人机或智能手机等紧凑平台的部署。因此,利用廉价普及的RGB相机通过算法恢复高光谱立方体成为重要研究方向。早期基于卷积神经网络(CNN)的方法受限于局部感受野难以捕获长程光谱依赖;生成对抗网络(GAN)虽提升感知质量但存在模式崩塌与训练不稳定;近期Transformer架构凭借全局自注意力可建模光谱–空间关系,但通常参数量大、计算开销高且域偏移(Domain Shift,如光照、纹理、颜色统计差异)下泛化能力弱。此外,多数方法仅靠RGB输入忽略了辅助结构线索,且完全依赖有监督训练限制了跨域鲁棒性。为此,研究人员提出了HS-RankFormer框架以解决上述不足。
主要关键技术方法:
研究人员采用ARAD 1K(约1000幅室内外场景31波段400–700 nm)、CAVE(32幅室内控制光照31波段)、BGU-HS(约200幅户外场景约31波段)和KAUST-Skin(约500幅皮肤组织65–80波段400–1000 nm)四个公开高光谱数据集。核心方法含三点:①秩感知光谱注意力(Rank-aware Spectral Attention)——通过可学习投影矩阵P∈?B×r(r?B为谱子空间维数)将特征投影至低维子空间做多头自注意力再扩回全谱维,显式约束重建谱表示秩上界rank(F?)≤r以逼近HSI固有低秩结构;②边缘引导输入融合(Edge-guided Input Fusion)——对RGB转灰度图用Sobel算子求梯度幅值Edge(x,y)=√((?I/?x)2+(?I/?y)2),归一化后与RGB三通道拼接为H×W×4张量作为生成器输入;③自监督掩码预训练(Self-supervised Masked Pretraining)——随机掩蔽35–45% RGB块,用浅层RGB-to-spectrum映射生成的伪HSI作目标,仅对掩码位置计算MSE损失LMSE预训练编码器–解码器,再微调。生成器为编码–秩感知Transformer瓶颈–解码结构带残差跳跃连接;判别器为跨注意力判别器(Cross-attention Discriminator)用3D卷积编码真实与生成HSI后经交叉注意力(Q=Wq·Y? , K=Wk·Y, V=Wv·Y)评估谱–空一致性;总损失为LrecrankLrankadvLadv,其中秩保持损失Lrank惩罚预测与真值在截断SVD前r个奇异值上的差异以维护光谱层级。
研究结果:
Datasets(数据集)
研究人员选用ARAD 1K作主训练集,CAVE、BGU-HS、KAUST-Skin作跨域测试集,涵盖可见光至近红外、室内外及医学影像多种条件,验证模型泛化性。
Data preprocessing(数据预处理)
所有HSI立方或合成RGB归一化至[0,1]并裁为128×128块;无直接RGB的数据集通过CIE 1964 10°配色函数或色度积分合成;Sobel边缘图统一计算并与RGB融合。该流程保证跨域输入一致性。
Overview of HS-RankFormer framework(HS-RankFormer框架概述)
框架由秩感知Transformer生成器、跨注意力判别器及自监督预训练三模块组成。输入为RGB±边缘图,生成器输出HSI立方Y?∈?H×W×B,判别器引导生成器提升谱保真度与空间对齐,预训练阶段通过掩码重建学习任务可迁移特征。
Rank-aware spectral attention(秩感知光谱注意力)
通过对特征F∈?p×B左乘投影矩阵P得低维Fr=FP∈?p×r,在缩减空间算自注意力Gr=Attn(Fr)再右乘PT得F?=GrPT,理论保证rank(F?)≤r。研究人员设置r=16平衡表达力与计算量(敏感度分析显示更小r降精度、更大r增FLOPs无显著收益)。
Input fusion(输入融合)
Xfused=Concat(R,G,B,E)∈?H×W×4。Sobel边缘为确定性无参结构先验,不增加网络参量却强化边界与纹理引导,尤其利于户外(BGU-HS)与皮肤(KAUST-Skin)等细微空变区域。
HS-RankFormer generator(HS-RankFormer生成器)
编码器用步长为2的卷积压缩至H/4×W/4×D,瓶颈为秩感知Transformer块(层归一化+多头自注意力MSA+前馈),解码器用转置卷积上采样,多级残差融合块通过加法跳跃连接聚合编码–解码路径特征以改善梯度流并保留低频空间边缘与高频谱签名。
Cross-attention discriminator(跨注意力判别器)
双分支3D卷积编码后经位置编码送入交叉注意力模块Across=Softmax(QKT/√dk)·V比对生成与真实HSI嵌入,多分支拼接后经MLP与Sigmoid做真假分类。轻量对抗损失作软正则项防频谱过平滑。
Self-supervised pretraining strategy(自监督预训练策略)
混合ARAD 1K、CAVE、BGU-HS的RGB块以40%比例随机掩码,用浅层映射伪HSI作目标仅计算掩码位置MSE。预训练使模型学谱–空依赖,微调时MRAE降低6–9%。
Rank preservation loss(秩保持损失)
对每空间块重塑Yt, Y?t∈?p×B做截断SVD取前r奇异值σt,k, σ?t,k,Lrank=(1/T)Σt=1T(1/r)Σk=1rt,k?σ?t,k)2,促使重建谱处于与真值相同的主导谱子空间。
Quantitative results(定量结果)
在ARAD 1K上MRAE=0.062(较MST++低34%),BGU-HS上RMSE=3.98,CAVE上PSNR=40.7 dB、SSIM=0.943、SAM=3.86°,全数据集ΔE2000=2.91最低。HS-RankFormer参数量3.42 M,FLOPs 29.6 G(256×256输入),推理11.8 ms/图,显著低于MST++(7.8 M, 51.3 GFLOPs, 23.1 ms)和Uformer-SR(20.1 M, 92.4 GFLOPs),较CNN基线HSCNN+精度与泛化性大幅提升。
Qualitative visualizations(定性可视化)
MRAE热图显示误差均匀分布且边界清晰,ΔE(CIE76)图多数像素<3阈值,RGB反投影与真值色调、结构吻合,KAUST-Skin中血管与皮损微结构得以保留,证实跨域感知色彩保真与空间精度。
Ablation studies(消融实验)
移除边缘融合致MRAE与ΔE2000上升(纹理区尤甚);取消自监督预训练MRAE由0.118升至0.158、PSNR由35.7降至33.5 dB;标准ViT替换秩感知块致RMSE由2.91升至3.14、PSNR降约1.6 dB且谱响应噪声增多——证实三组件均贡献显著。
Computational complexity and efficiency analysis(计算复杂度与效率分析)
HS-RankFormer在Transformer类模型中达较优精度–效率帕累托前沿:比MST++、Restormer、Uformer-SR参数量与FLOPs大幅减少且精度更高;虽HSCNN+参更少但谱精度与跨域泛化明显劣于HS-RankFormer。
讨论与结论翻译:
研究人员提出并验证了HS-RankFormer——一种融合秩感知Transformer生成器、Sobel边缘引导RGB融合及掩码自监督预训练的轻量框架,可有效从单张RGB图像重建高光谱立方体。四个异质数据集实验表明该方法在光谱精度(MRAE、RMSE、SAM)、空间感知质量(PSNR、SSIM)及感知色差(ΔE2000)上优于或等同于MST++、AWAN、Restormer与pix2pix等主流方法,且在无配对标注预训练下具强跨域鲁棒性。低秩谱注意力显式约束谱子空间、边缘融合补强结构线索、自监督预训练增强特征可迁移性是性能提升主因。该框架兼顾精度与计算效率,适于资源受限环境部署。未来可引入深度或近红外等多模态传感、探索半监督与联邦学习以适应数据隐私与标注稀缺场景。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号