评估基于回归的方法对咀嚼和吞咽固体测试（ToMaSS）进行标准化的影响：与传统分层方法的比较

《Dysphagia》：Evaluating a Regression-Based Approach to Norming the Test of Masticating and Swallowing Solids (ToMaSS): A Comparison with Traditional Stratified Methods

【字体：大中小】 时间：2026年05月10日 来源：Dysphagia 3

编辑推荐：

　　摘要 “咀嚼和吞咽固体测试”（ToMaSS）是一种常用的辅助评估方法，用于量化固体食团的摄入情况。然而，已发布的标准值受到样本量较小和年龄范围较宽的限制，这增加了数据偏倚的风险、异常值的影响以及统计功效的降低。基于回归的标准化方法可能有助于缓解这些局限性。本研究旨在评估基于回

　　摘要
“咀嚼和吞咽固体测试”（ToMaSS）是一种常用的辅助评估方法，用于量化固体食团的摄入情况。然而，已发布的标准值受到样本量较小和年龄范围较宽的限制，这增加了数据偏倚的风险、异常值的影响以及统计功效的降低。基于回归的标准化方法可能有助于缓解这些局限性。本研究旨在评估基于回归的方法在细化ToMaSS标准值方面是否比传统的分层方法更具优势。研究采用前瞻性-回顾性设计，将前瞻性收集的数据与已发表和未发表的实验室数据集的历史数据进行结合。所有数据来自普通人群中的健康成年人（年龄范围为20至80岁以上）。文中计算并比较了两种统计方法的McFadden伪R2值和均方根误差（MSE）。基于回归的标准值（GAM Gamma模型和COM-Poisson模型）在模型拟合度上显著优于传统的分层标准值，McFadden伪R2值在不同测量指标上提高了6%至43%，MSE值也呈现出类似的趋势，基于回归的标准值将预测误差减少了最多12%。研究结果表明，基于回归的方法在构建ToMaSS标准值方面具有显著优势，其优势包括更小的样本量需求以及对连续年龄段的个性化估计。这种灵活性使得能够更细致地了解个体的ToMaSS表现，这对于那些在短时间内吞咽口腔阶段可能发生较大变化的临床人群尤为重要。

引言
吞咽困难（dysphagia）是多种疾病常见的后果。及早发现吞咽困难对于降低医疗并发症风险和改善患者健康状况至关重要。临床吞咽评估（CSE）是筛查患者吞咽功能并识别吞咽风险的第一步[1]。然而，这种全面评估主要依赖于通过观察主观识别吞咽困难的临床症状和体征[1, 2]。先前的研究显示，言语-语言治疗师在使用的CSE项目上存在差异，在评估过程和临床决策上也存在不一致性[1, 3, 4, 5]。McCullough等人[6]发现， clinicians使用的CSE项目中不到50%具有足够的评分者间和评分者内可靠性。因此需要定量评估工具来减少CSE的主观性，并允许与标准数据进行比较。

水吞咽测试是最常用的临床筛查方法之一。例如，“计时水吞咽测试”（TWST）被设计为一种定量评估工具，用于评估液体吞咽效率[7, 8]。进行TWST时，要求受试者“尽可能快”地从杯子中喝下100-150毫升的水[8]。该测试记录三个吞咽指标：每次吞咽的平均体积（毫升/次）、每次吞咽的平均时间（秒/次）以及吞咽容量（毫升/秒）。已收集了无吞咽困难的健康成年人的标准数据，这些数据按性别和年龄进行分组[8, 9, 10, 11]。原始出版物为肌萎缩侧索硬化症患者提供了有限的临床参考数据[8]，随后还发布了针对帕金森病[12]、头颈部癌症[13]、特发性肺纤维化[14]、中风[15]和亨廷顿病[16]患者的特定疾病数据。然而，TWST仅评估液体摄入情况，可能不适合无法安全摄入液体的患者[8]。

“体积-粘度吞咽测试”（VVST[17]）是一种扩展了水吞咽测试的吞咽障碍筛查方法，除了水之外，还包含5-20毫升的布丁和蜂蜜状稠度的食物，监测明显的吸入现象，但不评估硬固体或咀嚼功能。“Mann吞咽能力评估”（MASA[18]）包括口腔准备、食团通过咽部、口腔传输及明显吸入迹象的评估。然而，这种评估产生的整体严重程度评分基于主观判断而非客观测量，存在偏差风险。同样，“TOR-BSST[19]”也依赖于对声音、舌运动和水吞咽的主观判断，但它是作为筛查工具设计的，而非用于量化吞咽的口腔阶段。

“爱荷华口腔功能仪器”（IOPI）是一种测量工具，可以客观测量口面部力量和耐力，从而推导出生理储备能力。尽管有关最大舌力等测量值的丰富标准数据[20, 21, 22]，但支持这些测量值与功能性口腔阶段吞咽结果之间关系的数据却有限。因此，“咀嚼和吞咽固体测试”（ToMaSS[23]）被开发出来，作为CSE的定量补充评估工具。与TWST类似，该测试要求患者“尽可能快且舒适地”吃一块饼干，并在吃完后大声说出自己的名字[24]。记录四个定量指标：咀嚼次数、咀嚼周期、吞咽次数以及完成固体食团摄入所需的总时间。吞咽次数通过观察甲状腺软骨的运动来确定；秒表用于记录从饼干通过下唇到患者说出名字的时间；咀嚼次数通过计算放入口中的饼干段数来计算，咀嚼周期则通过观察上下颌的运动来计数[24]。通过这种方式，可以获取有关吞咽口腔阶段效率的信息[25]。

最近的研究表明，ToMaSS在健康成年人[11, 24, 26, 27]和神经源性吞咽困难患者[23, 27, 28, 29]中具有中等至极高的评分者内、评分者间和重测信度。其构建效度得到了表面肌电图数据[24]的支持，同时其同时效度也得到了内镜检查结果（吞咽次数[27]的一致性的验证。ToMaSS还能敏感地反映局部麻醉应用后的口腔阶段变化，特别是咀嚼周期和总摄入时间[25]。比较不同商用饼干在ToMaSS测量指标上的结果表明，Huckabee等人[24]发现两种相似饼干（Arnott’s Salada?和Nabisco Saltine?）之间存在差异，而H?gglund等人[30]认为斯堪的纳维亚地区两种饼干类型之间没有显著差异，这可能反映了方法论和样本量的差异。

此后，在北美、澳新拉西亚、欧洲和亚洲等地区收集了多种饼干的标准化数据[11, 24, 26, 30, 31]。这些研究一致报告了按性别和年龄组分层的平均值及95%置信区间或标准差，但较小的样本量（通常每组n=15-20人）仍然是一个重要限制。例如，在Huckabee等人的研究中[24]，尽管总样本量为N=124，但每个年龄/性别组的样本量仅为n=15-17人。最近的研究采用了数字版ToMaSSApp?[32, 33]——这款数字应用旨在提高ToMaSS数据收集的效率[33, 34]。

由于样本量较小，这些标准化数据难以准确代表各个年龄和性别组的真实情况，从而面临数据偏倚、异常值影响和统计功效降低的风险，尤其是在预期变异较大的老年组[32, 33]。因此，这些标准化数据集可能无法真实反映总体情况[32, 33]。需要较大的样本量来缓解这些问题，并提供一致且可靠的标准化数据，以准确代表健康成年人群体；或者需要采用其他数据分析方法。

Zachary和Gorsuch[34]首次提出了基于回归的标准化方法，作为传统标准化的更高效替代方案。传统标准化方法直接从预定义子组内的测试分数分布计算标准统计值，这种简单性增强了其临床应用性，因为不需要复杂的计算。然而，这种方法的主要缺点是将连续变量（如年龄）人为划分为互斥且详尽的类别，这可能导致根据分配的标准组解释个体测试表现时出现差异[35]。虽然定义更多类别可能减少某些偏差，但会导致每个类别的样本量变小，从而降低标准化数据的精确度。相比之下，基于回归的标准化方法将年龄和性别等变量作为回归模型中的预测因子，从而更有效地利用整个样本。通过避免人为的子组划分，这种方法提高了测试分数估计的精确度。如果相对于年龄表现发生变化，处于分层组极端位置的个体在标准化样本中的位置也不再具有偏见。Oosterhuis等人的研究[36]表明，在线性回归假设下，基于回归的标准化方法可以将样本量需求减少2.5到5.5倍，尤其是在将样本细分为多个组时。

尽管线性回归的假设（如正态分布的误差、同方差性和线性）对标准值的有效性很重要[37]，但基于回归的标准化方法在简化标准化流程和提高准确性方面的潜力显著。该方法不仅能用更少的参与者提供准确的估计值，还简化了大样本收集的复杂性，因此在测试构建和标准化开发中特别有价值。非线性回归模型也可以考虑使用，以进一步增强方法的稳健性[38, 39, 40, 41]。

本研究旨在探讨基于回归的标准化方法在ToMaSS中的应用效果。具体而言，研究评估了基于回归的标准值是否比传统标准化方法提供更准确和精确的估计结果。

方法
本研究采用前瞻性-回顾性设计，前瞻性收集的数据与已发表[24, 42]和未发表的实验室数据集[43, 44, 45]的历史数据进行了结合。历史数据的选择基于与前瞻性数据在方法上的相似性，包括使用相同的饼干类型和相同的城市位置。数据由经过训练的临床研究人员通过手动计数和记录主要结果指标来收集，但有一个例外：Mills等人的研究[44]使用了ToMaSSApp?。然而，最近比较基于应用软件和手动计数的研究[46]显示，时间、咀嚼次数和咀嚼周期的测量指标具有极好的一致性（ICC = 0.94–0.99），吞咽次数的测量指标也具有一致性（ICC = 0.79）[47]，所有变量的平均偏差较低，这支持ToMaSSApp?作为手动计数的有效替代方案，适合纳入本研究。所有数据均来自普通人群中的健康成年人（年龄范围为20至80岁以上）。在这一背景下，健康的定义是没有自我报告的言语、语言、神经或吞咽障碍的历史，也没有吞咽困难的症状，没有活跃的牙齿变化（例如感染、最近拔牙等）或影响口面部运动功能的主要医学诊断。参与者根据每20年的年龄组（即20-40岁、41-60岁、61-80岁、80-100岁）被分为不同的组别。每个20岁的年龄组至少包括50名男性和50名女性。样本量的计算基于Bridges和Holler [32] 的研究，该研究指出规范研究应旨在每个组别包含至少50个个体。这项研究已经得到了相应大学人类研究伦理委员会的批准（HEC 2021/106/LR Amendment 1）。

在所有研究中都使用了Arnott’s Salada? 饼干，这种饼干在新西兰和澳大利亚容易购买。每块基于小麦的饼干重3.75克，尺寸为5平方厘米。

对于前瞻性和回顾性数据集，程序是相同的，除了Mills等人[44]的研究中使用了ToMaSSApp?来进行数据记录。参与者被 instruct to eat the cracker ‘as quickly as is comfortably possible. Say your name when you are done’. 参与者被从侧面观察，ToMaSS测量（咬合次数、咀嚼周期、吞咽次数以及时间（以秒计）要么手动记录（用铅笔和纸），要么使用专门为数据收集开发的应用程序（ToMaSSApp?）来记录。结果变量的操作定义如下：（1）咬合次数——被放入嘴中的每次独立动作，以完成整个饼干的摄入；（2）咀嚼周期——下颌的上下运动；侧向的下颌运动不被计入；（3）吞咽——通过观察喉软骨的上移来确定；（4）时间——从饼干第一次通过下唇到参与者说出名字的时间（以秒计）。这些观察测量方法已经过与其他仪器测量的验证，并且其可靠性已经得到确认[24]。

所有的分析都是使用R统计环境[48]进行的。

为了计算基于回归的规范值，根据每个结果变量的特点采用了不同的统计模型。对于时间和咀嚼周期，使用了线性模型（LM）和带有Gamma分布的广义线性模型（GLMs）；对于咬合次数和吞咽次数，则使用了泊松模型（PM）。当检测到年龄与结果之间存在非线性关系时，使用广义加性模型（GAMs），并相应地选择适当的分布。所有分析都包含了年龄和性别的交互作用。

对于数据集的回归方法，模型选择过程首先验证了必要的假设（例如正态性、同方差性和无偏性）是否得到满足。当多个模型都满足这些假设时，计算了赤池信息量准则（AIC）和贝叶斯信息量准则（BIC），并选择AIC/BIC最低的模型作为最终模型。

传统的回归规范是基于先前发布的年龄范围（例如20-40岁、41-60岁、61-80岁、80岁以上）将数据分为四组，分别对男性和女性进行分层的[24]。计算了不同年龄和性别的结果变量的预测均值以及传统规范的分组均值，并附带95%的置信区间（CIs）。

为了比较基于回归的规范和传统规范，对于这两种方法分别计算了McFadden的伪R2和均方根误差（RMSE）。伪R2是一种广泛用于GLMs和GAMs的指标，它使用对数似然值来量化模型拟合相对于零模型的改进程度。这种方法提供了模型在基于似然框架中的解释力的洞察。为了确保传统方法的伪R2具有可比性，将其视为高斯GLM，其中预测基于组均值。相比之下，RMSE衡量的是观察值和预测值之间的平均差异，较低的值表示更好的预测准确性。

此外，还研究了不同样本量对两种规范方法精确度的影响。从传统规范中的八个年龄-性别组中，按照指定的样本量（80、160、240、320、400、480和520）抽取了等量的观察值，使用有放回抽样来确保代表性的平衡。每个样本量重复此过程1000次模拟，以捕捉估计值的变异性。

对于基于回归的规范，置信区间（CIs）是根据模型的预测值和每个年龄的标准误差计算得出的。由于回归为每个年龄提供了唯一的CI，因此计算了所有年龄组内每个年龄的中位数CI宽度（上下CI之间的中位数差异）和预测值的中位数，以便与传统规范进行比较。对于传统规范，使用自助法来计算每个组的估计均值，从而有效地解决了组间方差不均的问题。

计算了两种方法在所有年龄和性别下1000次模拟中的预测值的中位数95% CI宽度和预测值的标准差，以突出显示精确度如何随着样本量和方法论差异而变化。通过将回归方法的CI宽度除以传统方法的CI宽度来计算两种方法之间CI宽度的比率，比率小于1表示精度更高。

为了呈现最终选定的回归模型的规范数据，计算了每个年龄和性别的预测均值，以及50%、80%、90%和95%的预测区间。对于GAM模型，这些区间是通过基于估计的模型参数生成新的参数向量并模拟结果来推导出来的，以考虑参数的不确定性和自然数据的变化。在适用的情况下，对协方差矩阵应用了Cholesky分解，以保持参数相关性[49]。这种方法通过考虑两种不确定性来源来提高预测的可靠性[50, 51]。对于泊松模型，通过模拟每种预测变量组合的1000个泊松分布的计数来获得预测区间。

共有601名参与者参与研究，年龄范围从20岁到99岁（平均年龄=59.9岁），其中48%为男性。其中，453名参与者（75%）来自当前研究，148名（25%）来自之前的研究数据。表1展示了根据传统规范定义的参与者的年龄组和性别分布。

由于时间和咀嚼周期与年龄变量之间存在强烈的非线性关系和增加的方差，只有带有Gamma分布的GAM和带有Gamma分布的GLM满足假设。GAM Gamma模型的BIC和AIC值略低于GLM Gamma模型，因此被认为是首选模型（表2）。该模型考虑了年龄随性别变化的平滑效应，并使用REML进行估计。

对于咬合次数和吞咽次数，Conway-Maxwell-Poisson（COM-Poisson）模型是唯一满足假设的模型，因为数据的离散性和低计数特性。由于没有零值（例如，咬合或吞咽次数不能为零），而R中没有零截断的COM-Poisson模型，因此通过从每个观察值中减去1来调整结果变量，以允许分布中出现零值。这种转换没有影响模型预测，因此在计算预测值后，将1加回到报告的均值和置信区间中，以恢复原始比例。

对于基于回归的规范，由于时间和咀嚼周期与年龄变量之间存在强烈的非线性关系和增加的方差，只有带有Gamma分布的GAM和GLM满足假设。GAM Gamma模型的BIC和AIC值略低于GLM Gamma模型，因此被优先选择（表2）。

对于咬合次数和吞咽次数，Conway-Maxwell-Poisson（COM-Poisson）模型是唯一满足假设的模型，因为数据的离散性和低计数特性。由于R中没有零截断的COM-Poisson模型，结果变量通过从每个观察值中减去1来进行调整，以允许分布中出现零值。这种转换没有影响模型预测，因此在计算预测值后，将1加回到报告的均值和置信区间中，以恢复原始比例。

对于基于回归的规范，所有基于回归的规范模型的预测均值和95%、80%、90%的预测区间都被计算出来。对于GAM模型，这些区间是通过基于估计的模型参数生成新的参数向量并模拟结果来推导出来的，以考虑参数的不确定性和自然数据的变化。在适用的情况下，对协方差矩阵应用了Cholesky分解，以保持参数相关性[49]。这种方法通过考虑两种不确定性来源来提高预测的可靠性[50, 51]。

对于泊松模型，预测区间是通过模拟每种预测变量组合的1000个泊松分布的计数来获得的，基于模型的预测均值。

共有601名参与者参与研究，年龄范围从20岁到99岁（平均年龄=59.9岁），其中48%为男性。其中，453名参与者（75%）来自当前研究，148名（25%）来自之前的研究数据。表1展示了根据传统规范定义的参与者的年龄组和性别分布。

由于时间和咀嚼周期与年龄变量之间存在强烈的非线性关系和增加的方差，只有带有Gamma分布的GAM和GLM满足假设。GAM Gamma模型的BIC和AIC值略低于GLM Gamma模型，因此被优先选择（表2）。该模型考虑了年龄随性别的变化，并使用REML进行估计。

对于咬合次数和吞咽次数，Conway-Maxwell-Poisson（COM-Poisson）模型是唯一满足假设的模型，因为数据的离散性和低计数特性。由于R中没有零截断的COM-Poisson模型，结果变量通过从每个观察值中减去1来进行调整，以允许分布中出现零值。这种转换没有影响模型预测，因此在计算预测值后，将1加回到报告的均值和置信区间中，以恢复原始比例。

所有基于回归的规范模型的平均平方误差（MSE）和R平方（R-squared）值都高于传统规范，表明回归模型提供了更好的精度（表3）。基于回归的规范（GAM Gamma和COM-Poisson模型）在各个结果变量上显示出适度的改进，McFadden的伪R2提高了6%到43%。时间（+42.6%）和咀嚼周期（+36.9%）的相对改进最大，GAM模型展示了更好的模型拟合和预测准确性。对于咬合次数（+7.5%）和吞咽次数（+7.4%），差异较小，表明两种方法之间的性能相似。MSE值也遵循类似的趋势，基于回归的规范将预测误差降低了最多12%。

对于每个年龄组和样本量，基于回归的规范显示出更高的估计精度，这反映在中位数95% CI宽度的减小（图1）。对于较小的样本量、女性和较年长的年龄组，两种方法之间的差异最大，随着样本量的增加而逐渐减小。对于20-40岁和41-60岁组，这一差异在n=400（每个年龄组50人）时趋于平衡，而对于61-80岁和80岁以上组则略有优势。

对于咬合次数这一结果变量，传统规范方法的置信区间在男性中比女性更宽，表明这一测量中的变异性更大。对于基于回归的规范，CI宽度随着样本量的增加而保持稳定，仅略有减少。相比之下，传统规范的CI宽度随着样本量的增加而显著减小，表明它们对样本量波动更为敏感。

图1：此图像的替代文本可能是使用AI生成的。

图2：比较了基于回归的和传统的确定ToMaSS结果（咀嚼周期、时间、咬合次数、吞咽次数）的方法。图中显示了不同样本量、年龄组和性别的置信区间宽度。蓝线对应于基于回归的规范；绿线代表传统规范。

表4总结了所有样本量下传统和基于回归的规范方法的置信区间（CI）宽度的平均值、最小值和最大值。95% CI宽度比率范围从0.21到1.18，所有平均比率都小于1，表明基于回归的规范通常提供的CI比传统规范更窄。这种差异在较年长的年龄组中更为明显，他们的比率比年轻组小。61-80岁年龄组的咬合次数平均比率最低，为0.39，这意味着传统规范的CI宽度是基于回归的规范的2.56倍。20-40岁年龄组的女性的时间平均比率最高，为0.99，表明两种方法的精度几乎相同。

图2：比较了所有样本量下传统和基于回归的规范方法的平均（最小、最大）置信区间（CI）宽度比率。预测值方差以相应的ToMaSS结果变量为单位进行测量。图3中，该图像的替代文本可能是使用人工智能生成的。全尺寸图像显示了按年龄和性别划分的咀嚼周期、时间和吞咽次数的预测百分位数。数据点代表个体预测值，而阴影区域表示百分位数范围（第2.5-97.5百分位、第5-95百分位、第10-90百分位和第25-75百分位），以捕捉数据的变化性。

讨论
本研究表明，基于回归的方法在精炼ToMaSS标准数据方面比传统的分层方法具有显著优势，可能有助于提高ToMaSS分数的临床解释能力。以往使用ToMaSS的标准研究提供了不同饼干和不同人群的宝贵基线数据，但这些研究一直依赖于按年龄和性别分层的方法，且每个性别和年龄组的样本量相对较少。这种分层方法给所有属于任意广泛年龄和性别组的个体分配相同的参考值，导致数据细节信息的丢失。当患者的特征介于两组之间时，这个问题尤为突出。在本研究中，我们将基于回归的方法与传统的分层方法进行了比较，发现基于回归的方法在精确度（表现为更高的R平方值、更窄的置信区间和更低的均方误差MSE）方面优于传统方法。

基于回归的标准数据可以根据年龄和性别生成一个连续的性能函数，使临床医生能够根据患者的特定人口统计特征来解释其表现。这带来了几个临床优势：首先，它可以提高诊断精度，减少将正常的年龄相关变化误判为功能障碍的风险；其次，它能够更敏感地追踪随时间的变化，因为每年都可以检测到患者预测表现中的微小但具有临床意义的偏差；第三，基于回归的标准数据支持个性化评估，清楚地将患者的表现与具有相同人口统计特征的人进行比较。目前这些优势仍主要是推断性的（基于模型精度的提高和个性化），尚未在患者群体中进行验证。然而，总体而言，这些优势有可能通过更细致地区分正常变异和病理变化来提升ToMaSS的临床实用性，从而支持吞咽障碍评估和管理的基于证据的决策制定。

此外，即使样本量相对较小，回归模型也能提供准确的标准化估计和稳定的置信区间。这与传统的分层标准数据形成对比，后者通常需要较大规模的样本群体才能获得一致和可靠的估计结果。这些关键特性应能更有效地开发出稳健的ToMaSS标准数据，使其在多样化的临床环境和人群中得到广泛应用。研究结果表明，基于回归的标准数据在时间和咀嚼周期指标上提高了模型性能（分别提高了42.6%和36.9%），其中GAM模型有效地考虑了与年龄相关的非线性变化。这些模型表明，衰老对咀嚼所需的机械努力（可能与肌肉耐力下降有关）的影响可能比其他变量（如咬合次数和吞咽次数）更大，因为后两者是离散行为。虽然咬合次数（提高7.5%）和吞咽次数（提高7.4%）的模型拟合度差异较小，但基于回归的标准数据能够为任何给定年龄生成具体的百分位数，而不依赖于宽泛的20年年龄区间。

使用基于回归的ToMaSS标准数据对于临床研究和临床实践还有其他影响。ToMaSS本身是一种相对低成本的工具，只需饼干和计时器即可进行测试。基于回归的标准数据方法减少了大量招募参与者的需求，并更有效地利用了现有数据，从而提高了在资源有限的环境中实施这项测试的可行性。在临床实践中，这种方法的灵活性使得对个体的ToMaSS表现有更细致的了解，并允许随时间进行重复测试。这对于儿童、老年人和神经系统疾病患者尤为重要，因为这些群体的吞咽能力在短时间内可能会发生显著变化。

局限性
尽管基于回归的标准数据具有许多优势，但本研究也指出了一些局限性：首先，尽管模型在预测准确性上优于传统标准数据，但仍有相当部分的结果变异无法解释。这表明，可以纳入更多变量（例如牙齿状况、身体虚弱程度和药物使用情况）来优化预测并提高精确度。能够包含额外的解释变量和控制混杂因素是基于回归的方法的优势之一。未来的研究应探索纳入这些因素以进一步优化标准化预测。其次，实施基于回归的标准数据需要统计建模方面的专业知识，这可能限制了没有专门统计支持的临床中心的适用性。与传统的分层标准数据不同，后者可以通过简单的查找表轻松应用，而回归模型则需要专门的统计知识和软件进行数据分析和解释。因此，医疗机构可能需要依赖统计学家或专业人员来建立和维护其标准数据集。开发一个简单的应用程序或数据计算器应该相对容易。

第三，使用汇总的历史数据可能会引入特定人群的变异性和偏差风险。在这种情况下，所有数据集都是在同一实验室使用相同的程序、材料和参与者招募策略收集的，因此方法学一致性和参与者同质性得到了较好保持，我们相信历史数据代表了一个单一、控制良好的样本群体。值得注意的是，在这种情况下，使用一个控制良好的样本是一个相对的优势。然而，未来的研究应努力从广泛且具有普遍性的样本中收集数据。由于不同地区的饼干可获得性不同，且不同类型的饼干对ToMaSS结果的影响显著不同[24]，作者建议为每种饼干类型生成独立的基于回归的标准数据。最后，需要注意的是，本研究中使用的模型是为标准化预测（即估计连续平均值）而开发的，而非概率预测或风险分类。因此，不需要单独的校准阶段，因为校准已经通过标准的回归诊断方法自然完成，包括残差检查、模型假设评估和模型拟合统计量（如MSE、AIC/BIC）的评估。这些检查确认模型在年龄或性别上的预测结果没有系统性偏差。未来的工作可以评估新样本中的外部有效性，从而有机会正式评估不同人群之间的校准情况。

结论
基于回归的ToMaSS标准数据在精确度（表现为更高的R平方值、更窄的置信区间和更低的MSE）方面优于传统标准数据。基于回归的方法具有针对性和个性化，可以根据年龄和性别来评估患者的表现，而不仅仅是基于广泛的年龄区间进行解释。总体而言，这些发现强调了基于回归的标准数据是一种更高效和可扩展的方法，有助于建立ToMaSS的标准数据。这种方法在保证精确度的同时减少了所需参与者的数量，从而支持在不同环境中扩展ToMaSS标准数据集的运用，最终提高了这一评估方法的临床应用范围及其在多样化患者群体中的适用性。

热点排行