《经前症状筛查工具》中文版本的可靠性和有效性

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Brain and Behavior》：Reliability and Validity of the Chinese Version of the Premenstrual Symptoms Screening Tool

【字体：大中小】 时间：2026年05月02日 来源：Brain and Behavior 2.7

编辑推荐：

　　**摘要** **研究目的** 评估中文版的经前症状筛查工具（Premenstrual Symptoms Screening Tool, PSST）在中国女性大学生样本中的可靠性和有效性。 **研究方法** 共有1366名女性大学生完成了中文版的PSST、患者健康问卷

　　**摘要**

**研究目的**
评估中文版的经前症状筛查工具（Premenstrual Symptoms Screening Tool, PSST）在中国女性大学生样本中的可靠性和有效性。

**研究方法**
共有1366名女性大学生完成了中文版的PSST、患者健康问卷（Patient Health Questionnaire, PHQ）和广泛性焦虑障碍量表（Generalized Anxiety Disorder Scale, GAD）的填写。根据PSST的筛查标准，196名参与者被归类为经前综合征（Premenstrual Syndrome, PMS）组，24名参与者被归类为经前烦躁障碍（Premenstrual Dysphoric Disorder, PMDD）组，其余1146名被分配到健康对照组。为了评估重测信度，另一组50名女性大学生在28-32天的间隔内（平均间隔30.27天，标准差0.55天）再次完成了中文版的PSST。

**研究结果**
中文版PSST的症状维度、影响维度及总量表的Cronbach's α系数分别为0.95、0.93和0.91；相应的重测信度系数（组内相关系数[ICC]）分别为0.89、0.99和0.94。该量表显示出令人满意的实证有效性：PMS组和PMDD组中中度至重度症状（得分2-3分）的比例显著高于健康对照组（所有p<0.001）。PSST总分及其两个维度的得分与PHQ和GAD的得分呈显著正相关（所有p<0.001）。构建效度方面，验证性因子分析（Confirmatory Factor Analysis, CFA）显示中文版PSST具有两维结构（症状维度和影响维度），模型拟合指数良好（χ2/df=4.21，GFI=0.932，CFI=0.925，TLI=0.905，RMSEA=0.05），表明其具有良好的构建效度。

**研究结论**
中文版的PSST在中国女性大学生中表现出优异的可靠性和有效性，因此可作为筛查该人群中度至重度PMS的可靠工具。

## 1 引言
经前综合征（PMS）是一种临床综合征，其特征是在月经周期的黄体期出现周期性的情绪和身体症状，并在月经开始后不久消失。情绪上，主要表现为抑郁、焦虑和易怒；身体上，症状通常包括乳房胀痛、下腹部胀痛和头痛以及四肢肿胀（Due?as等人，2011年）。经前烦躁障碍（PMDD）是PMS的一种严重且具有临床意义的亚型，其症状更为剧烈，严重影响日常生活功能（Lustyk等人，2009年）。目前已开发出多种筛查工具和量表用于评估PMS，包括经前症状筛查工具（PSST）（Steiner等人，2003年）、经前综合征总症状问卷（PMS-TSQ）（Endicott等人，1995年）、问题严重程度每日记录（Daily Record of Severity of Problems, DRSP）（Endicott等人，1996年）和经前评估表（Premenstrual Assessment Form, PAF）（Halbreich等人，1982年）。然而，这些工具存在一些显著局限性，限制了它们的广泛应用：PMS-TSQ缺乏标准化的阳性临界值，不同研究中的报告阈值差异较大（范围从30到50分）；DRSP需要连续记录至少两个完整的月经周期，操作繁琐；PAF包含95个项目，完成时间约为20分钟，容易导致受访者疲劳，从而降低数据质量；此外，其症状项目主要针对西方人群的临床表现设计，对东方人群的文化适应性有限。当应用于年轻群体（如大学生）时，其维度区分效度也较差。相比之下，PSST结合了实用性和科学严谨性，克服了现有量表的局限性。它内容简洁（共19个项目），完成时间只需5-8分钟，并采用回顾性自我报告格式，无需长期每日记录，显著提高了参与者的依从性，适用于大规模人群筛查和快速临床评估。其维度框架以“症状表现+功能影响”为中心，不仅全面涵盖了《精神疾病诊断与统计手册》（Diagnostic and Statistical Manual of Mental Disorders, DSM）中的核心症状，还量化了症状对工作、家庭和社会功能的干扰，符合临床实践的实际需求。尽管如此，关于中文版PSST的可靠性和有效性的公开数据仍然有限，尤其是在应用于具有独特生理和心理特征的大学生群体时。因此，本研究的主要目的是系统评估中文版PSST在中国大学生中的可靠性和有效性，为该人群的PMS研究提供可靠的评估工具。

## 2 参与者和方法**

### 2.1 参与者
#### 2.1.1 第一组样本
采用方便抽样方法，从中国上海的六所大学招募了1500名女学生（包括本科生和硕士研究生）。为确保数据质量，排除了符合以下条件的问卷：回答不完整、所有项目答案相同、明显有规律且可能被伪造的回答、月经周期不规律、患有身体疾病或使用激素药物的情况。经过筛选后，保留了1366份有效问卷，有效回应率为91.07%。参与者的年龄范围为18-32岁，平均年龄为19.74岁（标准差SD=2.11岁），中位年龄为19.00岁。

#### 2.1.2 第二组样本
同样采用方便抽样方法，从上海的一所大学选择了60名女大学生。其中50名参与者完成了全部两轮测试，有效参与率为83.33%。参与者的年龄在19至20岁之间，平均年龄为19.14岁（标准差SD=0.35岁）。第二次测试与第一次测试之间的间隔时间为28-32天，平均间隔为30.27天。

### 2.2 仪器
#### 2.2.1 PSST
PSST是一种自我报告工具，用于筛查PMS和PMDD，涵盖所有类型的经前障碍（Steiner等人，2003年）。本研究使用的中文版PSST由南京大学的研究人员翻译。PSST包含19个项目，分为两个维度：
- **症状维度**：前14个项目评估女性参与者的经前症状严重程度；
- **影响维度**：最后5个项目评估这些症状（如果存在）对参与者生活多个领域（包括家庭关系、工作表现等）的影响。问卷回答采用4点李克特量表（Likert scale），评分范围从0（完全没有）到3（非常严重）。总分数越高，表示经前症状越严重或对生活的影响越大。
参与者的分类依据该量表原作者提出的筛查标准：
- **PMS**：如果参与者满足以下三个条件，则被诊断为PMS：
1. 项目1-4中至少有一个项目的得分为2；
2. 项目1-14中（不包括满足第一个条件的项目）至少有四个项目的得分为2；
3. 项目15-19中至少有一个项目的得分为2。
- **PMDD**：如果参与者满足以下三个条件，则被诊断为PMDD：
1. 项目1-4中至少有一个项目的得分为3；
2. 项目1-14中（不包括满足第一个条件的项目）至少有四个项目的得分为2；
3. 项目15-19中至少有一个项目的得分为3。

#### 2.2.2 患者健康问卷（PHQ）
PHQ是一种广泛使用的自我报告工具，用于筛查和评估抑郁症状，由Kroenke等人（2001年）开发。该量表包含9个项目，评估过去2周内出现的核心抑郁症状（如快感缺失、情绪低落、睡眠障碍和自杀念头）的频率。回答采用4点李克特量表评分，范围从0（完全没有）到3（几乎每天都有）。总分范围为0到27分，分数越高表示抑郁症状越频繁和严重。PHQ的临床验证临界值包括：0-4分（无抑郁症状），5-9分（轻度抑郁），10-14分（中度抑郁），15-19分（中度重度抑郁），20-27分（重度抑郁）。
中文修订版的PHQ在之前的验证研究中显示出良好的内部一致性，Cronbach's α系数为0.898（Zhang和Liu，2006年），与国际人群中的高可靠性一致（Cronbach's α=0.86-0.89）。

#### 2.2.3 广泛性焦虑障碍量表-7（GAD）
GAD是一种简短的自我报告工具，用于筛查广泛性焦虑障碍，由Spitzer等人（2006年）开发。虽然原始量表包含7个项目，用于评估关键焦虑症状（如过度担忧、坐立不安和难以放松），但本研究使用的7个项目版本保留了与过去2周焦虑频率相关的内容。与PHQ类似，回答采用4点李克特量表评分（0=完全没有到3=几乎每天都有）。总分与焦虑严重程度相关：0-4分（无焦虑），5-9分（轻度焦虑），10-14分（中度焦虑），≥15分（重度焦虑），得分≥10分表示需要进一步评估的临床显著焦虑。中文修订版的GAD表现出良好的心理测量特性，Cronbach's α系数为0.85（He等人，2010年），支持其在 Chinese 人群中的使用。

### 2.3 研究程序
共从中国上海的六所大学和305个班级招募了1500名女性大学生。调查由班级辅导员在上课时间统一进行。辅导员介绍了调查的目的和背景，并展示了调查的二维码，愿意参与的参与者通过扫描二维码在线完成问卷。在参与之前，所有参与者都提供了书面知情同意书，其中详细说明了研究目的、数据使用方式以及他们随时可以无惩罚地退出的权利。为了确保问卷填写的一致性，制定了标准化指导说明，包括：
1. 所有回答的保密性（数据将匿名处理，仅用于研究目的）；
2. 需要提供真实答案以确保数据有效性；
3. 完成问卷的注意事项（如避免匆忙回答）；
4. 填写方法的逐步指导。
对于第一组样本，参与者完成了三份问卷：中文版的PSST、PHQ和GAD。这些问卷的完成时间约为8分钟。对于第二组样本，参与者两次完成了中文版的PSST（符合重测设计）。每次PSST的完成时间约为5分钟，两次测试之间的间隔时间为28-32天（平均间隔30.27天，标准差0.55天，如2.1节所述）。

### 2.4 数据分析
所有统计分析均使用专业软件进行，根据所评估的心理测量指标类型选择相应的工具。SPSS 27.0用于以下分析：
- 所有参与者的基本人口统计特征（如年龄、身高、体重、月经周期）的描述性统计；
- PSST的内部一致性信度（通过Cronbach's α系数评估）；
- PSST的重测信度（使用组内相关系数[ICC]评估第二组测试之间的一致性）；
- PSST的实证有效性（通过分析PMS筛查结果及其组间差异来检验）；
- PSST的准则效度（通过PSST得分与PHQ和GAD得分之间的皮尔逊相关分析来评估，作为抑郁和焦虑症状的指标）。
AMOS 27.0用于验证PSST的构建效度。具体而言，进行了验证性因子分析（CFA），以检验所提出的两维结构（症状维度和影响维度）与第一组数据的一致性。为了确保数据使用的清晰性，分析按样本类型进行了分层：样本1（n = 1366）的数据用于人口统计特征分析、内部一致性可靠性、实证有效性、标准有效性和构念有效性；样本2（n = 50）的数据专门用于评估重测信度，因为其采用了重复测量设计。

3 结果

3.1 人口统计特征

根据PSST的筛选标准，样本1中有196名参与者被确定为患有经前综合症（PMS），24名被确定为患有经前烦躁障碍（PMDD）；其余1146名参与者被归类为健康对照组。PMS的检出率约为14.35%，PMDD的检出率约为1.76%。PMS组、PMDD组和健康对照组的人口统计特征总结在表1中。独立样本t检验显示，三组在年龄（t(1364) = 0.849, p > 0.05）、身高（t(1364) = 0.694, p > 0.05）或体重（t(1364) = 0.121, p > 0.05）方面没有统计学上的显著差异。

表1. PMS组和健康对照组的人口统计特征（平均值 ± 标准差）。总体（n = 1366）

| 组别 | 年龄 | 身高 | 体重 |
|-----------|-------------|------------|------------|
| PMS组 | 19.74 ± 2.11 | 164.51 ± 5.91 | 54.58 ± 7.49 |
| PMDD组 | 19.82 ± 2.17 | 164.48 ± 5.79 | 54.38 ± 7.00 |
| 健康对照组 | 20.00 ± 2.64 | 167.08 ± 7.88 | 56.73 ± 7.83 |

3.2 可靠性

3.2.1 内部一致性可靠性

使用Cronbach's α系数评估了中国版PSST的内部一致性可靠性，数据来源于样本1。结果显示，大学生的整体Cronbach's α系数为0.95。具体来说，症状维度子尺度的α系数为0.93，影响维度子尺度的α系数为0.91。

3.2.2 重测信度

通过分析样本2中两次测试得分的相关性，评估了PSST的重测信度。结果显示，总尺度的重测信度系数为0.94（p < 0.001）。对于子维度，症状维度的重测信度系数为0.89，影响维度的重测信度系数为0.99，这两个值都具有统计学意义（p < 0.001）。

3.3 有效性

3.3.1 实证有效性

根据开发 and 修订原始PSST时使用的方法学协议，计算了PMS组、PMDD组和健康对照组中对于每个条目表示“中度”（得分 = 2）或“非常严重”（得分 = 3）的参与者比例。进行了卡方（χ2）检验来比较这三组之间的响应比例，结果总结在表2中。

表2. PMS组、PMDD组和健康对照组中对每个PSST条目表示中度至严重反应的参与者比例

| 条目 | PMS组（n = 196） | PMDD组（n = 24） | 健康对照组（n = 1146） |
|-----------------|-------------|-------------|-----------------|
| 1. 愤怒/易怒 | 61.22% | 83.33% | 9.77% |
| 2. 焦虑/紧张 | 57.14% | 83.33% | 6.20% |
| 3. 易流泪/对拒绝敏感 | 76.53% | 91.67% | 16.32% |
| 4. 情绪低落/绝望感 | 76.53% | 95.83% | 9.25% |
| 5. 对工作活动兴趣下降 | 78.57% | 87.50% | 14.14% |
| 6. 对家庭活动兴趣下降 | 61.73% | 58.33% | 5.93% |
| 7. 对社交活动兴趣下降 | 67.86% | 79.17% | 8.73% |
| 8. 集中注意力困难 | 62.76% | 75.00% | 7.68% |
| 9. 疲劳/缺乏能量 | 85.71% | 95.83% | 32.98% |
| 10. 过度进食/食物渴望 | 68.88% | 58.33% | 20.77% |
| 11. 失眠 | 34.18% | 25.00% | 4.10% |
| 12. 多睡 | 69.90% | 83.33% | 18.41% |
| 13. 感到不堪重负或失控 | 51.53% | 87.50% | 3.23% |
| 14. 身体症状：乳房胀痛、头痛、关节/肌肉疼痛、腹胀、体重增加 | 71.94% | 75.00% | 20.24% |
| 15. 上述（1-14）症状影响工作效率或生产力 | 85.20% | 95.83% | 6.37% |
| 16. 上述（1-14）症状影响与同事的关系 | 43.88% | 66.67% | 1.57% |
| 17. 上述（1-14）症状影响与家庭的关系 | 42.86% | 45.83% | 1.40% |
| 18. 上述（1-14）症状影响社交生活 | 58.16% | 79.17% | 2.62% |
| 19. 上述（1-14）症状影响家庭责任 | 34.18% | 41.67% | 1.22% |

***p < 0.001。这些分析显示，PMS组、PMDD组和健康对照组在所有条目的“中度”或“非常严重”反应比例上存在统计学上的显著差异（所有p < 0.001）。具体来说，PMDD组的表现明显高于PMS组和健康对照组。

3.3.2 标准有效性

独立样本t检验显示，PMS/PMDD组和健康对照组在三个关键指标上存在统计学上的显著差异：（1）PMS严重程度（通过PSST评估）：PMS/PMDD组：平均值 = 31.57，标准差 = 7.98；健康对照组：平均值 = 11.14，标准差 = 7.90；t(1364) = 35.058，p < 0.001；（2）PHQ得分：PMS/PMDD组：平均值 = 8.93，标准差 = 5.38；健康对照组：平均值 = 3.88，标准差 = 3.88；t(1364) = 16.49，p < 0.001；（3）GAD得分：PMS/PMDD组：平均值 = 6.68，标准差 = 5.03；健康对照组：平均值 = 2.39，标准差 = 3.31；t(1364) = 16.02，p < 0.001。此外，PSST总分与其维度子和影响子尺度得分、PHQ得分和GAD得分之间的皮尔逊相关系数总结在表3中。

表3. PSST总分与子尺度得分、PHQ得分和GAD得分之间的相关性（n = 1366）

3.3.3 构念有效性

进行了CFA（因子分析）来检验中国版PSST的因子结构，结果符合原始量表开发中的假设。结果显示，两因子模型（症状维度和影响维度）的拟合指数良好：χ2/df = 4.21，GFI = 0.932，CFI = 0.925，TLI = 0.905，RMSEA = 0.05。这个两因子模型的拟合显著优于单因子模型（χ2/df = 5.88，GFI = 0.795，CFI = 0.875，TLI = 0.752，RMSEA = 0.09）。嵌套模型的卡方差异检验确认，两因子结构带来的模型拟合改进具有统计学意义（Δχ2 = 123.776，Δdf = 1，p < 0.001）。这些发现共同支持中国版PSST的两因子结构与当前样本数据更为一致。

4 讨论

本研究评估了中国版PSST在中国女大学生的心理测量特性，结果证实了其在PMS筛查方面的可靠性和有效性。

4.1 中国版PSST的心理测量特性

中国版PSST表现出出色的可靠性：总尺度的Cronbach's α系数为0.91，重测信度（ICC）达到0.94。这些值与原始量表（Steiner等人，2003年）及国际改编版本（包括伊朗版本（α = 0.93；Hariri等人，2013年）、巴西版本（α = 0.91；Camara等人，2017年）和土耳其版本（α = 0.92，ICC = 0.85；Gürses等人，2020年）一致。这种一致性表明，中国版PSST保持了良好的内部一致性（反映条目同质性）和时间稳定性（确保重复测量结果的一致性），这对于可靠的筛查工具至关重要。在有效性方面，PMS组和PMDD组的参与者在所有条目上一致报告了更高的“中度”（得分 = 2）和“非常严重”（得分 = 3）反应比例（所有p < 0.001）。这与原始量表的开发结果一致（Steiner等人，2003年），证实了中国版PSST能够区分有和没有临床相关经前症状的个体。在标准有效性方面，独立样本t检验显示，PMS/PMDD组的PHQ和GAD得分显著高于健康对照组（所有p < 0.001），皮尔逊相关性表明PSST得分（总量表和子尺度）与这两个标准测量的得分之间存在正相关。这些结果与PMS/PMDD与抑郁/焦虑症状之间的共病关系（ACOG 2022）一致，进一步验证了PSST捕捉临床意义症状严重性的能力。在构念有效性方面，CFA显示两因子模型（症状维度和影响维度）的拟合指数良好（χ2/df = 4.21，GFI = 0.932，CFI = 0.925，TLI = 0.905，RMSEA = 0.05），并且显著优于单因子模型（Δχ2 = 123.776，Δdf = 1，p < 0.001）。这支持了中国版PSST与原始量表的结构等效性，表明“症状严重性”和“功能影响”这两个潜在构念适用于中国大学生。

4.2 PMS检出率的比较

本研究报告上海女大学生的PMS检出率为14.35%，PMDD检出率为1.76%，低于以往国内研究的报告。例如，Yuan等人（2016年）使用基于ACOG的量表，在厦门的780名女大学生中发现了24.82%的PMS和PMDD合并发病率；Z. Z. Zhang和Song（2010年）使用基于John理论框架的量表，在青岛的845名学生中发现了45.4%的发病率（包括轻微症状）；Yu等人（2016年）使用与Zhang和Song相同的量表，在锦州的856名学生中发现了99.99%至少有轻微PMS症状（69.29%轻微，24.29%中度，6.43%严重）。几个因素可能解释了这种差异。首先，诊断标准和评估工具的差异：本研究使用了专注于中度至严重症状的PSST，而以往的研究要么采用了更广泛的诊断框架（例如，包括轻微症状），要么使用了非标准化量表，导致报告的发病率较高。其次，方法学上的差异：样本大小、抽样策略（例如，单所大学样本与多所大学样本）和数据分析阈值（例如，是否包括轻微症状）可能导致结果不一致。第三，地区间心理健康资源的差异：上海的大学通常提供更全面的精神健康教育和支持服务，这可能提高了学生对PMS和PMDD管理的认识，并减少了严重症状的报告（或改善了应对策略，减轻了症状的严重性）。值得注意的是，这是首次报告上海女大学生的PMS/PMDD检出率的研究，为未来的流行病学研究提供了宝贵的地区参考。

4.3 强点和局限性

本研究的一个关键优势是对中国版PSST进行了严格的心理测量评估，包括内部一致性、重测信度和多种有效性指标，结果与国际改编版本一致。使用两个独立样本（样本1用于有效性测试，样本2用于重测信度）增强了研究结果的普遍性。此外，关注中国大学生填补了现有文献的空白，因为大多数以前的改编版本针对的是西方或中东人群。然而，也应承认几个局限性。首先，样本仅限于上海的女大学生，这可能限制了结果对其他人群（例如，青少年、围绝经期妇女或农村地区学生）的普遍性。其次，横断面设计阻碍了对PMS症状与心理困扰（例如，抑郁/焦虑）之间关系的因果推断。第三，PSST的临界值（≥10分）采用了以往中国研究的值，没有针对大学生群体进行校准，可能会影响筛查的准确性。

4.4 未来研究方向

基于研究发现和局限性，未来的研究应关注以下领域：

4.4.1 跨文化适应和测量不变性

未来的研究应进行PSST维度结构的跨文化比较（例如，中国版与土耳其版、巴西版或伊朗版），以探索不同文化在条目区分有效性方面的差异，特别是影响维度。例如，“家庭功能影响”在中国学生中可能更为突出，而在西方人群中可能更强调“职业/学术功能影响”。应使用多组验证性因子分析（MG-CFA）来测试量表在不同文化中的测量不变性，明确条目在不同人群中的功能是否相似，并确定文化特定的调整（例如，修改或添加条目以反映文化价值观）。

4.4.2 文化特定的症状优化

国内研究已经发现东方女性中PMS症状的高发率，如腰痛、头晕和疲劳（Li等人，2021年），这些症状在原始PSST中可能被低估。未来的改编应进行文化特定的症状分析，补充或调整条目权重以增强对地区特定症状的覆盖。这将减少由文化差异引起的筛查偏差，并提高量表对中国人群的生态有效性。

4.4.3 人群特定的临界值校准

大多数中国版的PSST使用的是≥10分的通用临界值，但这尚未针对特定亚群体（例如，青少年、围绝经期妇女或临床人群）进行验证。应使用接收者操作特征（ROC）曲线分析来确定不同人群的最佳临界值，敏感度（≥80%）和特异性（≥75%）作为关键性能指标。这将提高量表在针对性筛查和诊断中的临床实用性。

4.5 结论

总之，中国版PSST在中国女大学生中表现出出色的可靠性和有效性，使其成为大规模PMS筛查的合适工具。研究结果为该量表在临床和研究环境中的应用提供了实证支持，同时指出了未来优化的方向，以提高其跨文化适应性和人群特定的实用性。作者贡献

王晓春：撰写、审阅与编辑工作，项目管理工作。李雪：数据收集与原始稿撰写。

致谢

我们衷心感谢所有参与本研究的女大学生，同时对所有为该项目提供支持和帮助的教师和同学表示感谢。

利益冲突

作者声明不存在任何利益冲突。

资金情况

作者无需报告任何与资金相关的问题。

知情同意

所有参与本研究的女大学生均已同意完成问卷调查，并同意本研究相关结果的发表。

数据公开声明

如需获取支持本研究结果的数据，可向相应作者提出合理请求。

联系信箱：

粤ICP备09063491号

热点排行