REMS（射频回波多光谱技术）骨密度计算中人口统计学与人体测量学决定因素的方法学澄清与分析

《Calcified Tissue International》：Methodological Clarification and Analysis of Demographic and Anthropometric Determinants in the Calculation of REMS Bone Mineral Density

【字体：大中小】 时间：2026年05月20日 来源：Calcified Tissue International 3.2

编辑推荐：

　　射频回波多光谱技术（Radiofrequency echographic multi spectrometry, REMS）利用依赖于年龄和人体测量学的光谱模型及转换方程来推导骨密度（Bone Mineral Density, BMD）。本研究旨在量化可由人口

射频回波多光谱技术（Radiofrequency echographic multi spectrometry, REMS）利用依赖于年龄和人体测量学的光谱模型及转换方程来推导骨密度（Bone Mineral Density, BMD）。本研究旨在量化可由人口统计学和人体测量学变量解释的REMS BMD的部分。研究人员分析了来自高加索女性的8000例近端股骨和8000例腰椎REMS扫描数据，设有独立的开发池和固定的测试集（各4000例扫描），且在年龄、人体测量学或REMS BMD方面，开发与测试集之间无显著差异。在100次重复运行中，研究人员在100–400例开发扫描的随机训练子集上拟合了线性回归方程。主要的人体测量学模型方程仅包括年龄和体重。进一步的假设最大可解释性扩展模型还额外纳入了身高、平方项及两两交互项，以探索仅从人体测量学输入中可获得的解释力上限。在训练样本量为400时，主要模型在腰椎处的训练/测试R2值为0.77/0.58，在全髋处为0.83/0.57，在股骨颈处为0.93/0.70；相应的扩展模型值分别为0.84/0.66、0.89/0.69和0.95/0.75。因此，尽管REMS BMD与人口统计学/人体测量学变量之间的关联在设计上是预期的，并且在独立测试下仍然相关，但主要模型仍有30–43%的REMS BMD无法由年龄和体重解释。扩展模型提高了测试R2，但仍有很大一部分REMS BMD无法由人体测量学输入解释。最高的R2值仅一致地出现在训练数据中。使用替代人体测量学模型的额外敏感性分析得出了类似的发现。总之，REMS BMD的人体测量学可解释性具有强烈的样本依赖性，并且系统地远低于同队列分析所暗示的水平。

研究背景、问题及研究意义：

射频回波多光谱技术（Radiofrequency echographic multi spectrometry, REMS）是一种用于腰椎和近端股骨轴向骨骼评估的非电离技术。在标准临床使用中，在目标部位获取的原始射频（Radiofrequency, RF）超声信号经处理生成患者特异性频谱，这些频谱与按解剖部位以及年龄、性别和体重指数（Body Mass Index, BMI）等患者特征分层的参考光谱模型进行比较。由此产生的相似性评分（称为骨质疏松评分，Osteoporosis Score）随后通过特定层级的方程转换为骨密度（Bone Mineral Density, BMD）。因此，性别、年龄和体格选择了参考背景，患者特异性光谱信息据此被解读。验证研究报告了其与双能X线吸收测定法（Dual-energy X-ray absorptiometry, DXA）的良好一致性，以及在大型多中心队列中相关的诊断性能。由于REMS算法设计为在人体测量学匹配的参考框架内运行，因此设计上预期REMS BMD与人口统计学/人体测量学变量存在一定程度的关联，且其可能比通常也与年龄、体重和BMI显著相关的DXA更强。目前存在的关键问题在于，既往探讨REMS BMD与人口统计学/人体测量学变量依赖程度的研究多在小型队列中进行，采用单次运行分析以及同队列拟合与评估，得出高度异质性的结果（年龄和体格 apparently explain 56% 至超过90%的REMS BMD变异性），可能夸大了人口统计学和人体测量学模型对BMD的表观决定性。因此，研究人员开展此项研究，旨在量化REMS BMD对人口统计学和人体测量学变量的实际依赖程度，特别是在开发与测试集完全独立、明确匹配且性能在固定的大型测试集中通过反复随机提取而非单次运行进行评估时的实际残差可解释性。该研究发表在《Calcified Tissue International》，其重要意义在于对REMS BMD依赖人口统计学/人体测量学变量的程度进行了方法学澄清，指出其解释力在同队列分析中易被高估，而在独立测试下仍留有大量无法解释的变异，这对理解REMS技术的输出性质及临床解读具有重要意义。

主要关键技术方法：

研究人员进行了回顾性方法学二次分析，数据来源于制造商数据库中2015年至2024年间获取的16,000例去标识化REMS扫描（包含常规临床使用、临床研究、多中心验证队列等，获取独立于本文分析）。分析仅聚焦于高加索女性，包括腰椎和股骨扫描，每例扫描对应不同患者，所有扫描使用最新版EchoStudio软件（v2.3.0）重新处理。对于每种扫描类型（腰椎或股骨），构建了最终队列（各8000例高质量扫描），将其随机分为独立的“开发池”（4000例）和固定的“独立测试集”（4000例），并确保两组在年龄、人体测量学和部位特异性REMS BMD分布上无显著差异（刻意保守匹配以倾向于有利于人体测量学方程的表观泛化性）。研究人员主要采用多重线性回归（Multiple linear regression），以REMS BMD为因变量，人口统计学/人体测量学变量为预测因子。主要模型为“年龄 + 体重”；次要的假设最大可解释性扩展模型增加身高、平方项及两两交互项；敏感性模型包括“年龄 + BMI”、“年龄 + 体重 + BMI”，以及岭惩罚（ridge-penalized）、套索惩罚（lasso-penalized）和基于样条（spline-based）的模型。对于每位点和每个模型，从开发池中不重复抽取100个大小为100、200、300和400的随机训练子集；每次运行拟合新回归方程后应用于同一固定独立测试集（4000例）。性能以决定系数（R²）总结，报告100次运行的中位数及全最小-最大范围，测试未解释方差计算为100 × (1 ? 测试 R²)。

研究结果：

研究队列（Study Cohort）：

最终腰椎队列平均（± SD）年龄为60.3 ± 12.0岁，平均BMI为24.5 ± 3.6 kg/m²；最终近端股骨队列平均年龄为60.6 ± 13.1岁，平均BMI为24.5 ± 4.0 kg/m²。两者与最大的REMS前瞻性研究中接受腰椎扫描的人群广泛可比。开发集与测试集之间在任何部位、任何变量上均未检测到显著差异；绝对标准化均值差（Standardized Mean Differences, SMDs）未超过0.013（腰椎）和0.025（近端股骨），基于核密度估计的重叠系数（Overlap coefficients derived from kernel-density estimation, OVL-KDE）最低为0.964（腰椎）和0.945（近端股骨），表明开发池与相应固定独立测试集之间存在实质的实际重叠。

主要人体测量学模型（年龄 + 体重）（Primary Anthropometric Model (Age + Weight)）：

在主要人体测量学模型中，所有部位的样本内（in-sample）性能一致高于独立测试性能。在训练样本量为400时，中位训练/测试 R²值在腰椎为0.77/0.58，在全髋（Total Hip, TH）为0.83/0.57，在股骨颈（Femoral Neck, FN）为0.93/0.70。相应的独立测试中由年龄和体重无法解释的REMS BMD方差比例为：腰椎42%，全髋43%，股骨颈30%。年龄和体重在固定测试集中也捕获了REMS BMD变异的非平凡部分（这在REMS参考框架下是预期的），但系统的训练-测试差距表明此种关联不应被解读为REMS BMD输出的完全决定性。在腰椎，训练样本量100–400范围内，中位训练 R²基本稳定在0.77–0.78（但显示显著的逐次运行变异性，最大范围0.66–0.87），中位测试 R²也基本稳定在显著更低的值（0.58–0.59），因此即使在匹配队列设置的有利条件下，独立固定测试集中仍有41–42%的腰椎REMS BMD方差无法由年龄和体重解释。全髋结果与腰椎相似，中位训练 R²恒定略高（0.83），但最大测试 R²从未高于0.58，表明在任何情况下仅年龄和体重无法解释超过58%的全髋REMS BMD方差。在股骨颈，主要模型显示更高的样本内性能（中位训练 R²稳定于0.93），但在独立测试设置中下降（中位测试 R²基本稳定于0.69–0.70）；整个训练样本量范围内报告的最大测试 R²为0.70，表明至少30%的股骨颈REMS BMD方差永远无法仅由年龄和体重解释。

次要假设最大可解释性模型（Secondary Hypothetical Maximum-Explainability Model）：

次要模型提高了所有部位的训练 R²，但在独立测试下的增益较为有限。在训练样本量为400时，中位训练/测试 R²值在腰椎为0.84/0.66，在全髋为0.89/0.69，在股骨颈为0.95/0.75。相应的独立测试中由人体测量学输入无法解释的REMS BMD方差为：腰椎34%，全髋31%，股骨颈25%。因此，即使回归方程扩展了缺乏明确生物学相关性、可能妨碍物理解读的项，在独立测试下仍有相当大一部分REMS BMD无法由人体测量学输入解释。

其他模型系列与稳健性分析（Additional Model Families and Robustness Analyses）：

补充的含BMI敏感性分析及探索性灵活模型分析显示：在训练样本量为400时，“年龄 + BMI”模型产生中位训练/测试 R²值为腰椎0.54/0.39、全髋0.84/0.71、股骨颈0.85/0.74；“年龄 + 体重 + BMI”模型产生0.81/0.64、0.87/0.68、0.94/0.75。“年龄 + 体重 + BMI”模型的方差膨胀因子（Variance Inflation Factors, VIFs）保持中等而非极端（腰椎：年龄1.12、体重2.99、BMI 3.06；近端股骨：年龄1.11、权重3.51、BMI 3.58），表明体重与BMI间存在一些冗余但未达到会使拟合数值不稳定的程度。在训练样本量为400时，假设模型的岭惩罚版本产生中位测试 R²值为腰椎0.66、全髋0.69、股骨颈0.75；相应套索值为0.66、0.69、0.75；基于样条的模型产生0.68、0.70、0.75。实际上，缩小系数或允许更平滑的曲线人体测量学关系仅极小或 negligible 地改变独立测试性能，基于样条的模型在训练样本量为400时较扩展模型的中位测试 R²至多提高0.02。补充的运行水平摘要显示，在训练样本量为400时，所有部位和模型系列中每一次重复运行的训练 R²均高于固定测试 R²。未惩罚模型在训练样本量为400时的调整 R²（Adjusted R²）也非常接近普通 R²，不改变主要、含BMI和扩展模型比较的解读。在少数基于样条的运行中，固定测试 R²为负值（表明拟合模型预测固定测试集结果差于仅基于测试集均值的零模型），与某些重采样条件下灵活样条拟合的不稳定性一致，并支持允许更平滑非线性人体测量学关系并未实质提高可泛化的解释力的解读。在训练样本量为400时，配对Wilcoxon符号秩检验确认了所有比较中训练与测试差距的一致性（所有 p < 0.001）。

讨论部分总结：

本研究考察了当回归方程反复衍生自大型开发池的随机子集并随后在固定独立测试集上评估时，可由人口统计学和人体测量学变量解释的REMS BMD部分。关键结果为：尽管人口统计学和人体测量学变量预期与REMS BMD相关，且在训练数据中可显示非常高的表观可解释性（高达95%的方差），但其性能在独立测试下系统性降低，留下高达43%的REMS BMD方差无法由人口统计学和人体测量学变量解释。主要通过主要人体测量学模型（直接检验近期文献中出现的“年龄 + 体重”主张）获得的结果表明：在最大考虑的训练样本量（400例扫描 × 100次随机重复）下，当在4000例扫描的独立测试集上测试时，基于年龄和体重的方程分别留下腰椎REMS BMD方差的42%、全髋的43%和股骨颈的30%无法解释；而同一方程在用于推导它们的相同数据上评估时产生非常强的表观可解释性（高达94%）。这并不意味着年龄和体重作用可忽略，而是表明当其模型拟合与模型评估在同一队列中进行时，其作用可能被大幅高估。重要的是，开发与固定测试集特意构建为在年龄、人体测量学和BMD上高度可比，这一选择使分析趋于保守（因其提高表观人体测量学依赖性）。在日常临床使用中，外部人群可能较本研究的固定测试集更不匹配，因此预测REMS BMD的人体测量学模型性能的真实世界泛化可能较本分析所示更差。作为保守挑战主要发现，次要假设最大可解释性扩展模型通过增加身高、平方项和两两交互项提高了训练与测试 R²，但在独立测试下仍留下至少四分之一的股骨颈REMS BMD方差及约三分之一的全髋和腰椎REMS BMD方差无法由人体测量学输入解释；且若干项难以在生物学或物理上论证，因此该次要模型应被解读为故意宽松的探索性压力测试而非具临床意义的骨生理学生物学模型或最终数学上限。无法由人体测量学输入解释的余留方差与REMS超声频谱携带的患者特异性RF信号内容和骨骼信息相容，但也可能包括本研究所测人体测量学模型未捕获的未测量临床、采集相关、技术或算法因素。补充含BMI模型不改变此解读：“年龄 + BMI”方程在不同部位表现非常不同（腰椎差但髋部较好），这并不矛盾本工作的更广泛信息，因为BMI不一定以同样方式捕获脊柱和髋部的部位特异性解剖与声学条件，其在全髋可能作为捕捉与REMS采集相关的相关人体测量学模式的体格紧凑描述子，而在腰椎此紧凑描述子可能不如体重和高度单独或与其他项组合信息丰富；这种部位依赖性强化了避免从一种骨骼部位外推人体测量学可解释性至另一部位的必要性。相应地，较简单方程偶尔比较小而复杂方程泛化稍好，但不改变在独立测试下相当部分REMS衍生的BMD仍无法由人体测量学输入解释的更广泛结论。简单来说，在年龄和体重基础上增加BMI仅产生有限增益，始终留下至少四分之一的REMS BMD方差无法由人体测量学和人口统计学输入解释。探索性岭和套索模型因减少系数不稳定性有助于评估无法由人体测量学输入解释的残差方差是否主要反映过拟合而非人体测量学预测因子的真正限制；基于样条的模型因允许平滑曲线人体测量学关系而不强制固定二次形式。实际上，两种策略均未实质改变独立测试 R²，表明无法解释的成分不只是系数不稳定性或选择过于刚性多项式方程的产物，而更可能反映了在此设置中仅人体测量学输入无法捕获的一部分REMS BMD变异性。本发现也有助于将Chan等人最近报道的高同队列 R²值语境化：他们的工作显示输入的年龄和体重影响REMS输出，但回归分析在较小队列中进行并在用于模型拟合的同一队列上评估；数据表明此类设计可能夸大人体测量学/人口统计学可解释性及其泛化性。在本研究中，若考虑“最可被人体测量学解释”的部位（股骨颈），主要人体测量学模型方程可达到约0.93的训练 R²，与Chan等人结果兼容，但独立测试 R²从未超过0.70。因此，即使最强表观人体测量学可解释性也集中在模型拟合条件而非在独立评估下保持。这是方法学澄清，而非否认人体测量学输入重要。因此，发现不应被解读为与REMS输出上存在人体测量学效应相矛盾，而是表明这些效应的幅度与泛化性需要独立测试。更广泛的REMS文献也与此解读一致：在系统性红斑狼疮（Systemic Lupus Erythematosus, SLE）患者中，Diz Lopes等人报告的由年龄、性别和BMI预测的REMS BMD的 R²值为腰椎0.57、股骨颈0.70、全髋0.74，使用同一数据拟合方程与评估有效性；其估计（尤其股骨颈和全髋）较与本研究的独立测试结果更一致，而非预期“样本内”性能。这可能由于所考虑患者的特定疾病状况，并确认当考虑非匹配人群时，预测REMS BMD的人体测量学模型表观性能预期显著降低。例如，本研究中用于全髋REMS BMD估计的“年龄 + BMI”模型方程（源自开发池400例扫描子集的100次拟合程序，显示最大可解释性性能71%）若测试于Diz Lopes等人研究的患者上，性能可能更低，因为在同一数据上拟合的方程性能已经略低（70%）。同一研究还显示REMS和DXA在各检查骨骼部位均以相似骨折判别性能区分有椎体骨折与无椎体骨折的患者，进一步确认所报告的人口统计学/人体测量学变量与REMS BMD之间的相关水平不影响REMS在临床环境中的诊断有效性。纵向REMS研究支持人体测量学输入不足以解释观察输出的观点：Ramirez Zegarra等人记录了妊娠期间股骨颈REMS BMD显著下降约1.9%，未发现测量变化与母体人口统计学变量独立相关；Arechavaleta-Velasco等人报告妊娠期间REMS BMD显著 gestational decline及显著的个体间变异性，以至于女性可被分层为骨丢失和骨增益模式，尽管属于同一一般生理设定；在罗莫佐单抗（Romosozumab）治疗的女性中，Semeraro等人报告6个月REMS BMD增益在全髋为+3.7%、股骨颈为+4.1%，而体重保持稳定；在2型糖尿病（Type 2 Diabetes Mellitus, T2DM）患者中，Al Refaie等人显示体重和BMI高于对照者的患者并未系统性具有更高REMS BMD，相反REMS BMD在腰椎和全髋显著更低，在股骨颈数值更低。总之，这些观察难以与REMS BMD由年龄和体格大小单独系统性决定的模型调和。总体而言，所有关于REMS BMD人口统计学/人体测量学可解释性的数据都值得审慎解读。由于REMS算法有意纳入人口统计学和人体测量学数据，与年龄和体重的相关不足为奇；重要的是这些人口统计学和人体测量学输入是否足以解释REMS输出。本研究报告的结果表明这些输入并不充足：一旦执行严格独立测试，即使回归方程在400例随机扫描上拟合100次、即使测试集被保守地与开发池匹配、甚至 after 引入额外无生理意义的人体测量学术语，每个三个考虑的解剖部位仍留下相当部分REMS BMD方差无法由人体测量学和人口统计学变量解释：腰椎34%、全髋31%、股骨颈25%。DXA文献提供进一步有益平行：Reid等人发现年龄和身体成分解释了正常绝经后女性总体和部位特异性DXA BMD方差的实质性部分；Morin等人报告体重和BMI预测40–59岁女性DXA BMD和骨折；若干进一步研究提出估计DXA BMD的人体测量学方程，报告高同队列解释DXA BMD方差（高达90%），但此类方程未广泛临床替代DXA本身即具启示：高同队列人体测量学可预测性并不使成像冗余，尤其在独立验证有限或不存在或所考虑人群异常同质时。本研究有几个优势：近端股骨和腰椎队列各含8000例高质量扫描，各细分为4000例的开发池与独立测试集，超过最大可用欧洲多中心前瞻性研究中人群规模；最终开发池与固定测试集明确平衡于人口统计学、人体测量学和BMD变量；重复抽样设计避免过度解读单一有利运行，完全独立的固定测试集提供了人体测量学方程在其衍生样本之外保留内容的高度可靠估计。分析也存在局限性：回顾性（不可避免以实现稳健统计分析和有效重抽样所需的大样本量）；虽开发/测试划分、重复重抽样框架和统计分析客观可重现，但不能完全排除潜在选择或解读偏倚；固定测试集独立于开发池但源自同一总体数据源，应被视为内部独立测试而非外部验证研究；仅分析高加索女性，限制推广至男性和其他种族；未包括头对头DXA比较（因为目的不是重新评估REMS相对于DXA的准确性，已有若干验证研究解决，而是专门量化REMS BMD的人口统计学/人体测量学可解释性）；因此本研究不能确定REMS-DXA差异、诊断分类或骨折预测性能是否受年龄、体重或BMI影响；最后，为提供人口统计学和人体测量学决定因素作用的最可靠估计，仅考虑了高质量REMS扫描（按标准制造商规范定义）：较低扫描质量对人体测量学模型性能的影响，以及使用非制造商数据库来源的数据复现分析，将是未来研究的主题。

结论（翻译）：

在高加索女性的REMS扫描中，在统计上可靠的独立测试下，人口统计学和人体测量学变量仅解释部分REMS BMD。仅使用年龄和体重，约30%的股骨颈REMS BMD方差和多于40%的全髋和腰椎REMS BMD方差仍无法解释。使用替代人体测量学模型的额外敏感性分析得出类似发现：全髋和腰椎REMS BMD方差约三分之一以及股骨颈REMS BMD方差约四分之一始终无法由人体测量学输入解释。仅在训练数据内观察到非常高（ above 0.76）的 R²值，而此种可解释性在独立测试集中一致下降。含BMI、惩罚和基于样条的敏感性分析不改变此结论。这些发现并不否认预期的REMS BMD与人口统计学/人体测量学变量之间的相关，但表明此种相关并不完全决定REMS BMD，并且REMS BMD的表观人体测量学可解释性具有强烈的样本依赖性，并且较同队列分析所暗示的程度在独立测试下大幅夸大。

热点排行