《Journal of Spectroscopy》:Application Research of Serum Fourier Transform Infrared Spectroscopy in Early Detection of Osteoporosis
编辑推荐:
本研究通过血清傅里叶变换红外光谱(FTIR)结合偏最小二乘-支持向量机(PLS-SVM)算法,成功在骨质疏松症(OP)与低骨密度(LBD)患者早期鉴别中展现出高准确率。该非侵入性、低成本、高灵敏度的方法揭示了患者血清在特定波数下脂质、蛋白质及氨基酸的生化改变,为骨质疏松症的早期筛查与干预提供了极具潜力的新策略。
引言
骨质疏松症(OP)是一种以骨量降低、骨组织微结构退化为特征的全身性骨骼疾病,显著增加骨折风险。世界卫生组织(WHO)将其定义为骨密度(BMD)值低于健康成年人均值2.5个标准差及以上。流行病学显示,50岁以上人群中,约三分之一女性和五分之一男性受其影响。与OP相关的骨折(尤其是脊柱和髋部骨折)与高致残率、死亡率相关,并带来沉重的社会经济负担。随着全球人口老龄化加速,OP患病率预计将持续上升,开发有效的早期筛查方法刻不容缓。
目前OP的临床诊断主要依赖影像学(如双能X线吸收测定法DXA)和生化标志物检测。然而,DXA对早期病变敏感性不足,且存在辐射暴露和成本较高等局限。其他方法如定量计算机断层扫描(QCT)辐射剂量更高,定量超声(QUS)则易受多种因素干扰。生化标志物(如β-CTX和PINP)虽可动态监测骨转换,但受昼夜节律和个体代谢差异影响,诊断特异性与敏感性有限,且与BMD无直接关联。这些局限性阻碍了大规模OP筛查,约50%患者在首次脆性骨折后才被诊断,错失早期干预良机。因此,亟需发展快速、无创、敏感的检测技术。
傅里叶变换红外光谱(FTIR)是一种振动光谱技术,通过检测分子在中红外区(4000–400 cm-1)的特征吸收,能够对生物样本中的蛋白质、脂质、核酸、多糖等生化组成和分子结构变化进行无标记、高通量分析。在骨科领域,FTIR通过检测羟基磷灰石(PO43?)、胶原蛋白(酰胺I带)和碳酸盐(CO32?)等骨特异性光谱特征,为阐明OP等疾病的分子病理提供了见解。然而,组织活检具有侵入性、感染风险等限制。外周血血清因其临床可及性和适合连续采样的特点,成为有吸引力的替代生物基质。血清作为代谢储存库,含有骨转换生物标志物和多种代谢物,其红外光谱可能编码骨代谢的分子指纹。此前,血液FTIR分析已在肌肉减少症筛查和自身免疫性疾病诊断中展现出应用潜力,但将其用于基于血清的OP检测仍属空白。
本研究首次提出将血清FTIR光谱与偏最小二乘-支持向量机(PLS-SVM)分析相结合,用于骨质疏松症与低骨密度的早期鉴别,旨在建立一种具有早期检测能力、无创、经济高效且高灵敏度的OP筛查新范式。
材料与方法
研究受试者
研究纳入了2024年1月至10月在南通大学附属第六人民医院接受BMD评估的50-90岁患者。排除标准包括:除OP外的其他代谢性疾病、继发性OP、自身免疫性骨病、长期使用(>3个月)骨调节药物以及近期(≤6个月)发生脆性骨折。根据WHO诊断标准,使用DXA测量腰椎和髋部BMD,将参与者分为三组:正常组(N组,T值≥-1.0)、低骨密度组(LBD组,-2.5 < T值 < -1.0)和骨质疏松症组(OP组,T值≤-2.5)。最终队列包括78名参与者(N组24人,LBD组30人,OP组24人)。本研究严格遵循《赫尔辛基宣言》原则,并获得机构审查委员会的伦理批准,所有参与者均签署了书面知情同意书。
样本采集与处理
早晨从空腹参与者采集血样,5 mL血液保存在抗凝管中,4°C暂存。采集后8小时内,样本在4°C、4000 rpm下离心10分钟。将上清液转移到500 μL冻存管中,按组别标记,最终储存在-80°C冰箱中以备光谱分析。
FTIR光谱采集
血清样本在环境温度(25°C)下被动解冻40分钟。取50 μL等分样品滴在预清洁的载玻片上,在校准加热灯下(38°C,20分钟)热干燥。光谱采集采用溴化钾(KBr)压片技术:将150 mg光谱级KBr与脱水血清残渣在玛瑙研钵中机械研磨均匀。所得混合物使用HY-12液压机压制(20 MPa,1分钟)制成半透明压片(0.5 mm厚度)。使用岛津IRAffinity-1光谱仪记录红外光谱(400–4000 cm-1区域,分辨率4 cm-1),每次测量累加32次扫描。每个样本在纯KBr压片背景校正后进行三次分析,数据分析使用每个样本的三次测量平均值。
数据处理与分析
临床数据分析使用SPSS 27.0,连续变量以均数±标准差表示,采用单因素方差分析。使用Shapiro–Wilk检验确认数据正态性,所有组均呈正态分布。分类变量以频数分布表示,组间比较采用卡方检验。统计学显著性设定为p < 0.05(双尾),必要时对年龄和性别进行多变量协方差分析调整。
光谱预处理使用Origin 2022。首先使用二阶导数法进行基线校正以确定锚点,随后使用Savitzky–Golay法(窗口宽度20点,多项式阶数2)平滑光谱。接着对光谱数据进行最小-最大归一化。计算各组(N、LBD、OP)的平均光谱及标准差。为增强光谱分辨率和最小化基线失真,应用了二阶导数变换——这是红外光谱中解析重叠吸收带的已验证技术,其中吸收峰表现为明显的极小值。
机器学习实现使用scikit-learn 1.6,按75:25比例划分训练-测试集(58:20个样本)。偏最小二乘(PLS)是一种有监督的降维技术,通过最大化自变量(X)和因变量(Y)矩阵之间的协方差来构建潜变量。对于预测变量数量超过样本量的高维数据集,PLS在光谱数据处理中表现出优于主成分分析(PCA)的性能。PLS降维结合了10折交叉验证,通过均方误差预测(MSEP)和X-Y相关系数进行优化。支持向量机(SVM)通过在高维空间中寻找最优超平面以最大化分类边界,从而增强模型泛化能力,同时对特征空间维度保持稳健性。SVM训练采用穷举网格搜索结合留一法交叉验证(LOOCV)进行超参数调优,保持测试集的完整性用于最终验证。模型性能通过灵敏度(真阳性率)、特异度(真阴性率)和准确率(总体分类率)进行量化,并辅以混淆矩阵和受试者工作特征(ROC)曲线直观展示模型效能。
结果
人口统计学和临床特征
表1总结了各研究队列的人口统计学特征和临床参数。统计分析显示,组间性别分布存在显著差异(p = 0.037),女性比例从N组的51.20%逐步增加到OP组的87.50%,尽管N组和LBD组之间无显著差异(p = 0.496)。年龄分布呈现显著的年龄梯度(p < 0.001),从N组的59.13 ± 7.39岁,经LBD组的67.83 ± 10.60岁,升至OP组的75.67 ± 7.20岁。体重指数(BMI)和肝肾功能标志物(ALT、AST、BUN、Cr)无统计学显著性(p > 0.05)。多变量协方差分析证实,组别分类是光谱变异的主要贡献者(p < 0.001,偏η2= 0.434),显著超过性别(p = 0.028,η2= 0.308)和年龄(p = 0.089,η2= 0.263)的影响。这些发现证实,血清光谱变化主要反映了骨代谢病理,独立于基线人口统计学变异。
光谱谱图与谱带归属
图1显示了N、LBD和OP组血清样本预处理后的平均FTIR光谱,阴影区域表示光谱标准差。三组在中红外区域(4000-400 cm-1)表现出相似的光谱模式,表明血清基质中分子成分具有保守性。表2总结了基于现有文献的光谱振动带归属。
二阶导数红外光谱分析
二阶导数变换通过放大细微的红外吸收变化来增强光谱分辨率。如图2所示,组间差异主要集中在3000–2800 cm-1和1700–900 cm-1区域。进一步细节显示,OP和LBD患者血清在2925、2860、1651、1610、1523、1505、1481、1421、1399、1361和1139 cm-1处的谱带强度低于正常组。这些光谱带对应于CH2中C-H键的伸缩振动、酰胺I、酰胺II、CH2中C-H键的剪切振动、CH3的弯曲振动以及苏氨酸、酪氨酸和丝氨酸中C-O键的伸缩振动。这些改变共同表明与骨代谢紊乱相关的脂质谱、蛋白质构象和氨基酸代谢的扰动。
PLS成分优化
采用PLS进行光谱特征提取和降维。图3(A)显示,随着初始成分的增加,MSEP急剧下降,随后在13个成分时趋于平稳(MSEP = 0.0504)。前13个潜变量表现出强的X-Y相关性(r = 0.959)和累积决定系数(R2= 0.919),解释了91.9%的光谱方差。K折交叉验证确认了成分优化,确保了模型的稳健泛化能力。这些降维后的特征随后用于SVM建模以进行OP筛查。
SVM分类性能
降维后的PLS成分随后以75:25的训练-测试集比例输入SVM模型。参数优化通过网格搜索结合LOOCV进行,其中每次迭代保留一个样本进行验证,其余样本用于训练——该过程在所有样本中重复进行。这种严格的方法在最大化数据利用率的同时,减轻了小样本研究中固有的过拟合风险,产生的验证指标能更好地代表模型的真实泛化能力。
通过线性核函数和惩罚系数C = 0.1实现了最佳模型性能。训练集验证结果(图4(A))显示总体准确率为89.66%,N、LBD和OP组的灵敏度分别为88%、86%和94%,所有类别的特异度均超过90%。ROC分析显示出色的判别能力,三组的曲线下面积(AUC)值分别为0.958、0.928和0.997(图4(B)),表明组间区分度强(表3)。
独立测试集评估(表4)确认了模型效能,特别是OP组分类显示出90%的准确率、100%的灵敏度和87%的特异度。混淆矩阵(图5(A))分析在20个测试样本中识别出3个错误分类(1个N组和2个LBD组实例)。N、LBD和OP组相应的AUC值分别为0.945、0.802和0.987,强调了强大的诊断性能,特别是在LBD和OP患者分层方面(图5(B))。
讨论
OP的发病机制具有多因素病因,其中性别和年龄是主要决定因素。全球人口老龄化加速推动了OP患病率的逐步上升,使其成为一个关键的公共卫生挑战。虽然BMD评估仍被推荐用于老年人筛查,但该方法因成本高昂、辐射暴露担忧和患者健康素养有限而面临重大实施障碍。FTIR光谱学的最新进展在多种病理诊断中显示出巨大的潜力,为早期OP检测提供了新途径。我们的研究通过FTIR光谱结合PLS-SVM算法,成功区分了N、LBD和OP队列的血清谱图,在测试集中分别达到了95%、85%和90%的分类准确率。这些发现凸显了血清FTIR技术用于OP诊断的临床可行性,证明了其作为早期筛查实施的一种无创、灵敏、特异且经济高效的替代方法的潜力。
血清FTIR光谱测量分子对红外辐射的吸收,产生特征光谱,其中峰位置与特定官能团键的振动模式相关,从而揭示样本的生化组成。三组血清二阶导数红外光谱的比较分析表明,OP/LBD患者与健康对照在关键波长处存在明显的光谱偏差。在3000-2800 cm-1区域,2925 cm-1(CH2不对称伸缩)和2860 cm-1(CH2对称伸缩)处C-H伸缩振动的减弱表明脂质链组织结构的改变。这种现象可能归因于两个主要因素:骨代谢紊乱中增强的脂质过氧化可能破坏膜磷脂双分子层中CH2基团的空间排列;以及低密度脂蛋白和游离脂肪酸浓度的降低可能减弱长链烷烃的振动信号。这些观察结果与文献中记载的OP发病机制中骨髓脂肪积聚和血脂异常的證據一致。值得注意的是,临床研究将高脂血症确定为OP和动脉粥样硬化的共同危险因素,其中脂质氧化产物激活PPARγ受体,随后损害Wnt信号传导和与年龄相关的骨形成。此类机制证实脂质稳态破坏是BMD丢失的潜在协同因素。在1700–1600 cm-1区域,酰胺I(1651 cm-1,C=O伸缩)和酰胺II(1523–1505 cm-1,C-N伸缩/N-H弯曲)谱带的减弱表明蛋白质构象变化。酰胺I的减少可能反映血清白蛋白或骨相关蛋白中α-螺旋含量的降低,而酰胺II的改变则表明β-折叠结构扰动。特别是,OP患者胶原蛋白代谢受损可能会减少羟脯氨酸交联,这可能改变影响酰胺振动特性的蛋白质间氢键网络。在1400–1000 cm-1范围内,1399 cm-1(CH3变形)和1139 cm-1(C-O伸缩)处的光谱变化揭示了氨基酸代谢异常。减弱的C-O振动(1139 cm-1)意味着羟基氨基酸(苏氨酸、酪氨酸、丝氨酸)侧链的氧化修饰。至关重要的是,作为成骨细胞分化关键调节因子的酪氨酸磷酸化可能受损,可能通过抑制Wnt/β-连环蛋白通路来抑制骨形成。同时,CH2剪切(1421 cm-1)和CH3弯曲(1361 cm-1)振动的减少进一步支持了脂酰链的氧化裂解,这一过程可能通过激活核因子κB(NF-κB)通路加剧破骨细胞活性。总之,这些血清组成和结构的改变产生了可辨别的光谱特征,为多元统计区分病理状态奠定了基础。
在本研究中,PLS应用于二阶导数光谱数据,结合K折交叉验证,同时考虑X/Y解释方差和预测均方误差来优化潜变量选择。这些精炼后的成分随后被输入SVM分类器,其中LOOCV在测试集验证之前对训练数据进行了模型参数微调。混淆矩阵显示测试集中患者组的灵敏度分别为86%、75%和100%,而ROC分析显示出极佳的分类准确性。这些指标共同证实了PLS-SVM框架用于OP光谱数据分析的可靠性和有效性。
本研究承认存在几个需要考虑的局限性。首先,有限的样本量可能限制研究结果的普遍性。其次,尽管采用了多变量协方差分析来解决人口统计学差异,但研究队列之间固有的年龄和性别分布差异可能作为混杂因素持续影响光谱特征,从而可能损害模型的准确性和特异性。未来的研究应优先考虑平衡的人口统计学抽样以减轻此类偏差。此外,仅关注血清生物标志物忽略了互补的临床指标;整合多模态数据流可以通过全面的代谢谱分析来提高诊断性能。虽然PLS-SVM算法在训练-测试集中表现出稳健的一致性,但其转化实用性需要在真实世界的临床环境中进行验证。需要进行前瞻性队列研究来评估实际适用性,最终推进用于早期干预策略的OP诊断方案。
结论
本研究首次利用血清FTIR结合PLS-SVM方法,在OP和LBD患者之间进行早期鉴别,在测试集中准确率分别达到95%、85%和90%。研究发现,OP和LBD患者血清光谱在特定波长处的峰强度低于正常组,反映了脂质、蛋白质和氨基酸的生化变化,这些变化与骨代谢问题密切相关。PLS-SVM方法在处理高维光谱数据方面表现优异,有效提升了模型的分类性能。这项研究为早期OP筛查提供了一种无创、经济高效且灵敏的新途径。未来的研究应进一步扩大样本量,平衡年龄和性别构成,并结合多模态数据进行全面评估,以提高模型的实用性和可靠性。前瞻性队列研究应在真实临床环境中验证模型的性能,有望为OP的早期诊断和干预提供更好的支持。