32至48岁年龄段：抑郁、焦虑与犯罪行为之间的关系——基于剑桥青少年犯罪发展研究的倾向得分匹配分析

《Criminal Behaviour and Mental Health》：Depression, Anxiety and Criminal Behaviour Between Ages 32 and 48: A Propensity Score Matching Analysis From the Cambridge Study in Delinquent Development

【字体：大中小】 时间：2026年05月10日 来源：Criminal Behaviour and Mental Health 1.3

编辑推荐：

　　**摘要** **背景** 抑郁症、焦虑症和犯罪行为之间常常存在关联，但这些关联的方向和性质仍存在争议。本研究旨在探讨32岁时抑郁症/焦虑症与犯罪行为以及48岁时抑郁症/焦虑症与犯罪行为之间的时间关系。 **方法** 利用《剑桥犯罪发展研究》（Cambridge St

　　**摘要**

**背景**
抑郁症、焦虑症和犯罪行为之间常常存在关联，但这些关联的方向和性质仍存在争议。本研究旨在探讨32岁时抑郁症/焦虑症与犯罪行为以及48岁时抑郁症/焦虑症与犯罪行为之间的时间关系。

**方法**
利用《剑桥犯罪发展研究》（Cambridge Study in Delinquent Development）的前瞻性纵向数据，我们采用倾向得分匹配（Propensity Score Matching, PSM）方法来估计以下关联：(a) 32岁时的抑郁症/焦虑症与48岁时的犯罪定罪；(b) 32岁时的犯罪定罪与48岁时的心理健康问题。倾向得分匹配用于调整一系列童年和青少年时期的犯罪或疾病风险因素。

**结果**
总体而言，抑郁症和焦虑症与后期犯罪行为之间存在显著关联。然而，在调整了童年时期的逆境因素后，这些关联消失了，这表明它们最好通过共同的童年逆境这一前置因素来解释。32岁之前的任何犯罪行为与48岁时测量的抑郁症或焦虑症之间不存在关联。

**结论**
尽管我们的研究受到心理健康测量与犯罪行为测量之间时间间隔过长的限制，但抑郁和焦虑在犯罪路径中可能起着重要作用，且这种关联在很大程度上可由共同的早期风险因素解释。然而，这也提示我们不要假设这些症状与犯罪之间存在直接的因果关系，无论其方向如何。识别早期的发展脆弱性并采取适当的干预措施可能是预防后期不良健康和犯罪行为的有效方法。

---

**1 引言**
心理健康问题与犯罪行为是全球面临的紧迫问题，这在联合国（UN）的可持续发展目标（SDGs）中有所体现。2015年，心理健康被正式视为一个核心的发展优先事项（Votruba等人，2016年），尽管可持续发展目标16强调了犯罪预防和司法改革的重要性。因此，心理健康与犯罪行为几乎被视为平行的政策问题。然而，它们之间的相互关系的程度和方向仍不明确（Ozkan等人，2019年）。抑郁症和焦虑症与犯罪行为之间的途径尚未得到充分记录。抑郁症和焦虑症是全球最常见的心理健康问题之一，影响着大约八分之一的人口（健康指标与评估研究所，2022年）。这两种情况都与社会经济劣势、社会排斥和刑事司法系统的卷入有关（Arias等人，2022年），但这些也是可能由这些经历之一或全部引起的。持续犯罪的社会成本很高，一名职业罪犯的终生成本估计高达3600万美元（M. A. Cohen，1998年；M. A. Cohen和Piquero，2009年），因此明确可治疗的心理健康问题与犯罪之间的关联方向和性质对于制定有效的预防和干预策略至关重要。先前的研究表明，内化的症状如抑郁症或焦虑症可能通过情绪调节受损、冲动性或适应不良的应对方式促进犯罪行为（Akse等人，2007年；Anderson等人，2015年）。另一些人认为，接触刑事司法系统会因制度化、污名化或生活中断而加剧心理痛苦（Marcotte和Markowitz，2011年；Siennick，2007年）。然而，这些关联也可能反映了共同的早期脆弱性，如童年逆境、家庭破裂或经济边缘化，而不仅仅是直接的因果关系（Moffitt，1993年；Silver和Teasdale，2005年；Rowe等人，2010年；Wiesner和Kim，2006年；Kim等人，2023年；Kim等人，2024年）。事实上，心理健康问题和犯罪行为可能源于共同的早期发展路径（Moffitt，1993年）。这类文献中的一个关键挑战是确定因果关系。许多现有研究是横断面的，无法确定时间顺序（Cook和Campbell，1979年）。即使是纵向研究也往往无法充分调整混杂因素。尽管随机对照试验（RCTs）可能为因果关系提供最有力的证据，但在这种情况下它们通常不可行或不道德（Farrington和Welsh，2005年）。在这种情况下，倾向得分匹配（PSM）提供了一种准实验方法来近似实验控制。通过根据早期生活特征（如不良童年经历ACEs）对个体进行匹配，PSM允许更严格地比较暴露组和非暴露组（Apel和Sweeten，2010年；Farrington等人，2020年）。虽然它不能消除未观察到的混杂因素，但PSM通过减少由于观察到的混杂因素造成的偏差来提高观察数据的因果推断可信度，同时承认未观察到的异质性是无法消除的。在本研究中，我们采用倾向得分匹配方法分析了《剑桥犯罪发展研究》（CSDD）的数据，该研究自童年起跟踪了伦敦市内411名男性。这项研究建立在Craig等人（2018年）的工作基础上，他们使用PSM来评估被捕经历对后期心理健康的影响。我们扩展了这项研究，测试了心理健康症状与犯罪之间的双向关联，并将抑郁症和焦虑症作为独立的构念进行分析。具体研究问题如下：

- 32岁时报告的抑郁症和焦虑症是否与48岁时的犯罪定罪有关？
- 32岁时的犯罪定罪是否与48岁时的抑郁症或焦虑症症状有关？通过调整一系列童年和青少年时期的风险因素，本研究测试了在考虑共享脆弱性后这些先前报告的关联是否仍然存在。通过这种方式，它为长期存在的争论提供了新的证据，并为理论、政策和早期干预设计提供了见解。

---

**2 方法**

**2.1 伦理**
《剑桥犯罪发展研究》（CSDD）的每一波数据收集都获得了伦敦大学精神病学研究所和剑桥大学犯罪学研究所的伦理批准（Skinner和Farrington，2021年，213页）。此次数据的二次分析不需要额外的批准。CSDD数据集提供了大量的童年风险因素测量指标，这些指标已在之前的倾向得分匹配分析中得到验证（Craig等人，2018年）。

**2.2 数据和样本**
本研究使用了《剑桥犯罪发展研究》（CSDD）的数据，这是一项前瞻性纵向研究，跟踪了伦敦市内411名男孩直至成年。参与者在1961-1962年期间（8-9岁）首次接受评估。根据他们父亲当时的职业，其中94%的人可以被归类为“工人阶级”（注册总署的III、IV或V类，分别对应熟练工人、半熟练工人或不熟练工人），而当时的全国比例为78%（Farrington等人，2021年，280页）。CSDD是最详细的生命历程犯罪学数据集之一，定期对参与者进行随访调查。参与者在8岁、10岁、14岁、16岁、18岁、21岁、25岁、32岁和48岁时接受了九次访谈。除了21岁和25岁之外，每次访谈都试图与所有仍然在世的人进行交流。由于资金不足，只有大约一半的人在21岁时接受了访谈，25岁时只有四分之一的人接受了访谈。然而，在所有其他访谈中，仍有很高比例的参与者接受了访谈：14岁时为405人（99%），16岁时为399人（97%），18岁时为389人（95%），32岁时为378人（92%），48岁时为365人（Farrington等人，2021年，281页）。每波数据的详细信息以及较高比例的参与者持续参与研究，为我们提供了跨越数十年的心理健康和犯罪行为的研究机会（Farrington等人，2013年）。本研究重点关注32岁至48岁之间抑郁症/焦虑症症状与犯罪行为之间的关联。使用8至18岁期间前瞻性测量的童年风险因素，通过倾向得分匹配来调整潜在的混杂因素。

**2.3 测量方法**
心理健康症状采用通用健康问卷（General Health Questionnaire, GHQ-30）进行评估，这是一种经过验证的自我报告筛查工具，用于社区样本中的非精神病性精神障碍症状（Goldberg，1972年）。该问卷包含30个项目，每个项目采用四点李克特量表评分（0 = “完全没有”至3 = “远远超过平常”），高分表示更大的痛苦程度，反映了评分前几周的状态。本研究分析了32岁和48岁的GHQ-30数据。探索性和验证性因子分析确认了焦虑和抑郁的可靠子量表（见下文分析）。需要注意的是，GHQ-30并非诊断工具，主要用作症状严重程度和近期生活影响的指标，而非必然的临床障碍。犯罪行为使用10至48岁的官方定罪记录进行评估，这些记录来自中央记录办公室（Central Record Office, CRO）、国家识别服务（National Identification Service, NIS）以及自1994年以来的警察国家计算机（Police National Computer, PNC）。仅包括严重犯罪（例如盗窃、入室盗窃和袭击）；轻微违规（例如交通违规和醉酒）被排除在外，以保持对持续性和严重犯罪的关注（Farrington等人，2013年）。最常见的犯罪包括盗窃、入室盗窃和未经授权的车辆取用，尽管也记录了暴力、破坏行为、欺诈和药物滥用（Farrington等人，2013年，13页）。使用8至18岁期间的130多个二进制指标测量了成年期心理健康问题或犯罪行为的童年风险因素，这些指标涵盖了个人特征（如冲动性或教育成就）、家庭背景（如父母犯罪或贫困）、同伴影响（例如不良朋友）以及自我报告的违法行为。教师和同伴的评价为参与者的行为提供了额外的视角（Farrington，2003年；Farrington等人，2015年）。这些基线风险因素用于在进一步分析前平衡各组之间的背景特征。

**2.4 数据分析策略**
分析分为四个主要阶段：
首先，我们处理了缺失数据。鉴于CSDD的纵向性质和本研究的多波设计，预计会有一些数据缺失，这是由于项目未回答和参与者随时间自然流失造成的。本研究使用的统计工具倾向得分匹配（Propensity Score Matching, PSM）无法处理缺失值（Thoemmes，2012年）。总体而言，缺失数据的比例在0到0.27之间，对于32岁时测量的相关GHQ项目，这一比例约为0.08；对于定罪变量，这一比例为0.01-0.10。48岁时测量的相关GHQ-30项目的缺失比例略高，介于0.16到0.17之间（Schafer和Graham，2002年）。背景风险因素的缺失比例在0到0.27之间。缺失数据的中位数比例为0.06。尽管如此，我们通过期望最大化（Expectation-Maximization, EM）算法（Dempster等人，1977年）对缺失值进行了插补，该算法基于观察到的数据模式迭代估计缺失值。这种方法假设数据是随机缺失的（Schafer和Graham，2002年；Enders，2001年；Allison，2002年）。因此，那些在48岁时已经死亡或永久迁移（例如移民到其他国家）而无法再次联系到的参与者（n = 19）被排除在外，因为他们的数据无法可靠地插补。其次，使用32岁和48岁期间收集的数据进行了因子分析（Factor Analysis, EFA，Klainin-Yobas和He，2014年；Huppert等人，1989年；Chan，1985年），以探索潜在的因子结构，随后进行验证性因子分析（Confirmatory Factor Analysis, CFA），以评估模型拟合度，这与Gerbing和Anderson（1988年）推荐的两步法一致。分析使用主轴因子分析（Principal Axis Factoring, PAF）和主成分分析（Principal Component Analysis, PCA），应用正交（varimax）和斜交（oblimin）旋转来识别最稳定和最易于解释的因子解（Costello和Osborne，2005年）。根据特征值大于1和因子载荷超过0.30的标准（Kaiser，1960年）保留了因子。检查了具有高交叉载荷的项目，以确保概念清晰性和内在一致性。第三，使用倾向得分匹配（PSM）来探讨32岁的抑郁症或焦虑症症状是否与48岁时的犯罪定罪有关。尽管GHQ-30的项目使用传统的0-1-2-3李克特评分（如CSDD中所采用的），但也使用了其他二进制评分方法，包括“GHQ评分”（Goldberg和Hillier，1979年），该方法仅根据问题的存在与否进行评分（0-0-1-1），而不考虑严重程度的差异。此外，还有一种称为“校正GHQ评分”（Goodchild和Duncan-Jones，1985年）的方法，它基于“GHQ评分”，但在负面项目中仅将“完全没有”反应视为健康状况不佳的标志。虽然已经有多项研究比较了不同的评分方法，但目前尚未得出哪种方法在检测“真实性”方面具有最佳敏感性和特异性的一致结论。关于当前研究的目的和目标，没有任何一种评分方法特别优选，因为GHQ-30的各个子量表没有标准化的临界值。最终，所有分析都基于四点李克特量表，因为有人认为两种二元评分方法都会不可避免地导致重要信息的丢失。决定使用项目提供的所有信息，并仅对最终总分进行二分处理，以更可靠地确定“病例”的临界值。进行倾向得分匹配需要二元分类。为了创建这种分类，如果参与者的得分达到或超过第95百分位数（大约是平均值的1.65个标准差），则将其归类为“有症状”。使用平均值的95%置信区间（CI）来选择临界值是一种常用方法（Singh 2006），该方法仅将最高的5%的得分识别为阳性病例。这一阈值提供了一个保守的指标，用于表示症状负担的增加，同时承认GHQ-30是一种筛查工具而不是诊断工具。这些二元分类仅用于匹配程序中的分析目的，并不表示临床诊断。在第四个也是最后一个阶段，使用倾向得分匹配来测试32岁时是否有犯罪记录（是/否）与48岁时的抑郁或焦虑症状之间的任何关系。使用Mann–Whitney检验来评估“治疗组”和“非治疗组”之间的平均差异，该检验适用于非参数样本。倾向得分匹配用于减少选择偏差（通过仔细匹配个体的童年风险因素）并加强从观察数据中得出任何可能的因果推断（Rosenbaum和Rubin 1983）。倾向得分代表了在给定观察到的协变量条件下，处于某种状态的概率——即有抑郁和/或焦虑症状或有犯罪记录。例如，在匹配32岁抑郁与非抑郁个体（PSM模型1；支持信息S1：在线表S2）以及32岁焦虑与非焦虑个体（PSM模型2；支持信息S1：在线表S3）时，我们使用了个体层面的童年风险因素（例如，反权威态度和不诚实）、家庭层面的童年风险因素（例如，父母犯罪和严厉的纪律）、学校层面的因素（例如，逃学和教师评价的攻击性）以及行为风险因素（例如，性滥交和反社会行为）。童年风险因素的测量范围是从8岁到18岁。匹配后（在模型1和2中），我们分别检查了48岁时抑郁/非抑郁组和焦虑/非焦虑组之间的犯罪行为差异，这与研究问题1一致。对于研究问题2，也采用了类似的分析方法。在本研究中使用的各种PSM模型中，童年风险因素是根据早期关于心理健康与犯罪之间联系的CSDD分析精心选择的（Farrington 2003；Reising, Farrington等人2019）。倾向得分是使用逻辑回归估计的，并使用最近邻匹配方法进行匹配，匹配标准是倾向得分对数的0.20个标准差（Austin 2011；Ho等人2007）。使用标准化平均差异（SMDs）来评估协变量平衡，值<0.25被认为是可接受的平衡（Rubin 2001）。未匹配的个体被排除在最终分析之外。完整的预匹配和匹配后协变量诊断信息提供在支持信息S1：在线表中。分析是在SPSS IBM版本21和R中使用的，使用的是Thoemmes（2012）在SPSS/R中开发的‘psmatching’插件。

3 结果

3.1 样本的一般描述

在这项研究中，我们使用了CSDD的前五波数据，这些数据涵盖了8至18岁的风险因素信息，以及第8波（32岁时）和第9波（48岁时）的随访中的心理健康和犯罪行为信息。大约有378名参与者完成了32岁的随访问卷（占基线受访者的92%），365名男性完成了48岁的问卷（占基线受访者的89%）。有十个问题用于测量焦虑。在第8波和第9波中，最常报告的症状包括持续感到紧张（分别为23%和19%）、夜晚难以入睡（分别为21%）、因担忧而失眠（分别为15%和16%）以及将事情看得过于严重（分别为14%和11%）。用于测量抑郁的四个项目中，男性报告的比例较低，包括感到自己毫无价值（分别为4%和6%）、认为生活完全 hopeless（分别为4%和5%）、神经紧张（分别为2%和6%）以及认为生活不值得过（分别为2%和6%；有关焦虑和抑郁分数的更多详细信息，请参见支持信息S1：在线表S1）。

3.2 GHQ-30的因素结构

因素分析支持使用GHQ-30来评估32岁和48岁时的内化症状。样本 Adequacy 很高（Kaiser–Meyer–Olkin（KMO）值在32岁时为0.93；在48岁时为0.91），超过了推荐的0.80的阈值（Hutcheson和Sofroniou 1999）。通过直接降维旋转（PAF）显示，在两个时间点上都存在一致的四个因素结构：焦虑、应对不足、抑郁和社会功能障碍。这些因素解释了32岁时总方差的45%（见表1）和48岁时总方差的49%（见表2）。项目清晰地加载到了预期的维度上，具有高共同性和概念上连贯的分组。关键子量表的内部一致性很高。焦虑的Cronbach's alpha值分别为32岁时的0.92和48岁时的0.94，抑郁的alpha值分别为32岁时的0.86和48岁时的0.87。这些统计结果证实了GHQ-30能够可靠地捕捉这个样本中随时间变化的内化症状领域。这些经过验证的子量表随后被用来为倾向得分匹配分析推导出抑郁和焦虑的综合指标。表1显示了32岁时GHQ-30的四个因素解决方案。项目

因子载荷
共同性
项目-总分相关性
因子λ1
因子λ2
因子λ3
因子λ4
h2
Rit

GHQ 14
持续感到紧张
0.84
0.07
-0.05
-0.04
0.65
0.74

GHQ 2
因担忧而失眠
0.74
0.10
-0.01
-0.03
0.51
0.66

GHQ 21
一切都变得难以承受
0.74
-0.09
0.12
0.08
0.67
0.79

GHQ 3
夜晚难以入睡
0.68
0.02
-0.05
-0.05
0.44
0.61

GHQ 18
将事情看得过于严重
0.63
0.10
0.05
-0.10
0.43
0.61

GHQ 16
生活充满挣扎
0.62
-0.10
0.08
0.03
0.49
0.66

GHQ 28
感到紧张
0.59
-0.05
0.29
0.03
0.61
0.73

GHQ 19
无理由的恐惧
0.53
-0.02
0.31
0.07
0.51
0.66

GHQ 15
未能克服困难
0.52
-0.16
0.11
-0.03
0.45
0.63

GHQ 23
失去信心
0.41
-0.17
0.38
0.04
0.56
0.66

GHQ 7
表现出色
-0.07
0.66
-0.05
0.03
0.52
0.63

GHQ 12
发挥积极作用
0.11
0.63
-0.10
0.15
0.51
0.59

GHQ 4
能够保持忙碌
0.10
0.61
-0.03
-0.04
0.32
0.46

GHQ 13
能够做出决策
0.08
0.46
-0.14
0.20
0.37
0.52

GHQ 8
对任务感到满意
-0.17
0.45
0.11
0.21
0.39
0.50

GHQ 1
能够集中注意力
-0.28
0.29
0.09
0.10
0.24
0.38

GHQ 26
对未来充满希望
-0.11
0.29
-0.17
0.18
0.30
0.44

GHQ 6
管理得当
-0.07
0.29
-0.17
0.18
0.30
0.44

GHQ 5
能够应对困境
0.03
0.22
-0.13
0.14
0.13
0.29

GHQ 29
生活不值得过
-0.03
0.09
0.84
-0.15
0.71
0.74

GHQ 24
你毫无价值
0.12
-0.17
0.74
0.15
0.69
0.71

GHQ 25
生活毫无希望
0.18
-0.03
0.65
-0.06
0.62
0.73

GHQ 30
神经太紧张
0.20
0.06
0.57
-0.06
0.48

GHQ 10
与他人相处容易
-0.06
-0.06
-0.08
0.73
0.56
0.60

GHQ 11
与他人交谈
0.06
0.02
0.05
0.49
0.23
0.33

GHQ 9
感受到温暖/关爱
-0.04
0.03
-0.05
0.45
0.25
0.45

GHQ 27
感到快乐
-0.14
0.20
-0.17
0.38
0.44
0.52

GHQ 17
享受日常活动
-0.32
0.19
0.10
0.35
0.38
0.46

GHQ 20
能够面对问题
-0.04
0.24
-0.24
-0.24
0.32
0.41

特征值
7.58
4.95
5.71
3.81
22.05
——

方差百分比
31.40
7.22
4.05
2.35
——

Alpha
0.92
0.77
0.86
0.72
——

注：基于392人，解释的总方差为45.01%。提取方法为主轴因子分析，系数经过“直接降维”旋转。粗体值表示每个项目的最高因子载荷，代表项目负荷最强的因素，有助于解释因素结构。

项目-总分相关系数来源于四个因素的个体可靠性分析。

表2显示了48岁时GHQ-30的四个因素解决方案。项目载荷
共同性
项目-总分相关性

GHQ 3
夜晚难以入睡
0.85
0.03
0.14
-0.04
0.60
0.72

GHQ 2
因担忧而失眠
0.83
-0.03
0.12
-0.05
0.59
0.72

GHQ 21
一切都变得难以承受
0.75
0.07
-0.09
0.03
0.65
0.78

GHQ 22
感到不快乐
0.75
0.01
-0.14
0.01
0.70
0.81

GHQ 14
持续感到紧张
0.74
0.07
-0.01
0.11
0.54
0.71

GHQ 16
生活充满挣扎
0.68
-0.04
-0.14
-0.14
0.66
0.78

GHQ 18
将事情看得过于严重
0.67
-0.03
-0.07
0.01
0.51
0.69

GHQ 23
失去信心
0.63
0.04
-0.34
0.06
0.76
0.82

GHQ 28
感到紧张
0.61
0.11
-0.25
0.04
0.62
0.74

GHQ 19
无理由的恐惧
0.61
-0.01
-0.23
-0.04
0.60
0.74

GHQ 15
未能克服困难
0.55
-0.13
-0.14
-0.17
0.47
0.65

GHQ 10
与他人相处容易
0.01
0.73
-0.09
0.10
0.49
0.60

GHQ 11
与他人交谈
-0.03
0.65
0.02
0.09
0.37
0.51

GHQ 12
发挥积极作用
-0.02
0.59
-0.09
-0.10
0.45
0.61

GHQ 6
管理得当
0.07
0.57
0.07
0.02
0.31
0.49

GHQ 8
对任务感到满意
-0.17
0.45
0.11
0.21
0.39
0.50

GHQ 1
能够集中注意力
-0.28
0.29
0.09
0.10
0.24
0.38

GHQ 26
对未来充满希望
-0.11
0.29
-0.17
0.18
0.30
0.44

GHQ 6
管理得当
-0.07
0.29
-0.17
0.18
0.30
0.44

GHQ 5
能够应对困境
-0.02
0.45
0.11
0.03
0.19
0.36

GHQ 9
感受到温暖/关爱
-0.03
0.44
-0.04
-0.20
0.33
0.51

GHQ 17
享受日常活动
-0.32
0.19
0.10
0.35
0.38
0.46

GHQ 20
能够面对问题
-0.04
0.24
-0.24
-0.24
0.32
0.41

特征值
7.58
4.95
5.71
3.81
22.05
——

方差百分比
31.40
7.22
4.05
2.35
——

Alpha
0.92
0.77
0.86
0.72
——

注：基于392人，解释的总方差为48.78%。提取方法为主轴因子分析。系数经过“直接降维”旋转。粗体值表示每个项目的最高因子载荷，代表项目负荷最强的因素，有助于解释因素结构。项目-总分相关系数来源于四个因素的个体可靠性分析。

3.3 抑郁和焦虑症状

GHQ上的综合得分范围是0到12分（用于抑郁）和0到30分（用于焦虑），得分越高表示症状越严重（详见支持信息S1：在线表S1）。根据综合得分，内化问题的症状之间高度相关。在32岁时表现出抑郁症状和焦虑症状之间存在显著关联，χ2 (1) = 38.91，p < 0.001。48岁时也有同样的情况（χ2 (1) = 156.17，p < 0.001）。内化症状似乎也随时间保持稳定。例如，32岁的抑郁与48岁的抑郁高度相关（χ2 (1) = 26.98，p < 0.001）。为了进行倾向得分匹配，如果参与者的得分达到或超过每个子量表的第95百分位数，则将其分类为症状严重。

3.4 32岁的抑郁和48岁的犯罪记录

在倾向得分匹配之前的完整样本中，32岁时抑郁症状严重的男性（即得分达到或超过第95百分位数的男性）在48时的犯罪记录明显更多（平均值M = 0.57），而没有严重症状的男性则为0.40（M = 4491.00，z = 2.使用倾向得分匹配法，将19名抑郁症状较重的男性（即抑郁症状处于或高于第95百分位的）与19名抑郁症状较轻的男性进行匹配，这两组男性在儿童和青少年时期的犯罪及精神障碍风险因素上具有相似性。协变量平衡性良好，只有一个变量（“8岁时的犯罪父母”）略高于标准平均差异阈值（d = ?0.323）。详细的匹配前和匹配后统计信息见支持性信息S1：在线表格S2。总体卡方平衡测试并不显著，确认了两组之间的总体等效性（χ2(29) = 28.19, p = 0.508）。由于根据倾向得分匹配的结果，两组在出现抑郁前的犯罪风险指标上没有差异，因此使用Mann–Whitney检验（非参数模型）来考察32岁时经历抑郁对48岁时后续犯罪行为的影响。在这个匹配样本中（N = 38），抑郁组和非抑郁组之间的犯罪率没有显著差异（M = 0.60 vs M = 0.59; U = 201.00, z = 0.71, p = 0.563, r = 0.04），这表明在未匹配的完整样本中观察到的关联可能是由于共同的早期生活风险因素，而不是抑郁对后续犯罪的直接效应。完整样本和匹配样本的总结统计信息见表3。

**表3. 匹配前后抑郁组和非抑郁组男性平均犯罪率的比较。**

| | 最小值 | 最大值 | 平均值 | 标准差 | 样本量 |
|---------|-------|-------|--------|--------|--------|
| 33至48岁的犯罪次数| | | | | |
| 完整样本32岁 | | | | | |
| 抑郁组 | | | | | |
| | | | | | |
| 匹配样本32岁 | | | | | |
| 抑郁组 | | | | | |
| | | | | | |
| | | | | | |
| | | | | | |
| | | | | | |
**注：**粗体值表示每个项目的最高因子载荷，代表该项目在该因子上的负荷最强，有助于解释因子结构。

**3.2 32岁的焦虑与48岁的犯罪率**

在未进行倾向得分匹配的完整样本中，对32岁时有焦虑症状（即症状处于或高于第95百分位的男性）和没有焦虑症状的男性进行粗略的组别平均比较后发现，32岁时经历焦虑与48岁的犯罪率呈正相关。有焦虑症状的男性随后被定罪的比率高于无焦虑症状的男性；32岁时焦虑症状较重的男性在48岁时的犯罪率显著更高（M = 0.80 vs M = 0.39; U = 4412.00, z = 2.022, p = 0.05, r = 0.10；详见表4）。

**表4. 匹配前后焦虑组和非焦虑组男性平均犯罪率的比较。**

| | 最小值 | 最大值 | 平均值 | 标准差 | 样本量 |
|---------|-------|-------|--------|--------|--------|
| 33至48岁的犯罪次数| | | | | |
| 完整样本32岁 | | | | | |
| 焦虑组 | | | | | |
| | | | | | |
| 匹配样本32岁 | | | | | |
| 焦虑组 | | | | | |
| | | | | | |
| | | | | | |
**注：**粗体值表示每个项目的最高因子载荷，代表该项目在该因子上的负荷最强，有助于解释因子结构。然而，在确认了两组在早期犯罪风险因素上的相似性后（χ2(32) = 25.07, p = 0.803；详见支持性信息S1：在线表格S3），使用Mann–Whitney检验（非参数模型）来考察32岁的焦虑与随后16年内新犯罪之间的关系。在38名男性样本中，焦虑组和非焦虑组在32至48岁之间的犯罪率没有差异（焦虑组M = 0.85 vs 非焦虑组M = 0.64; U = 204.00, z = 0.79, p = 0.506, r = 0.13）。这些发现再次表明，共同的早期脆弱性更能解释后来的犯罪行为。不过，匹配组的小样本量可能会降低统计功效。

**3.3 32岁的犯罪率与48岁的抑郁**

在第三组分析中，研究了截至32岁至少有一次犯罪记录的男性与16年后出现抑郁症状之间的关系。对32岁前至少有过一次犯罪记录的男性和没有犯罪记录的男性在48岁时的抑郁症状进行了初步的组别平均比较。两组在后续抑郁症状上没有差异（32岁前有犯罪记录的组平均抑郁得分 = 1.59；未犯罪记录的男性平均抑郁得分 = 1.20; U = 17,432.50, z = 1.43, p = 0.152, r = 0.07）。尽管这项初步分析没有发现显著关联，但仍应用了倾向得分匹配来检查两组在之前的抑郁风险上是否有所不同。详细的匹配前和匹配后统计信息见支持性信息S1：在线表格S4。在确认了两组在之前的抑郁风险上相同之后，使用Mann–Whitney检验（非参数模型）来考察32岁的犯罪记录与48岁抑郁之间的关系。有犯罪记录的男性在48岁的平均抑郁水平（M = 1.20）与未犯罪记录的男性没有显著差异（M = 2.06; U = 5572.00, z = ?0.78, p = 0.438, r = ?0.05）；事实上，有犯罪记录的男性抑郁水平略有下降（详见表5）。

**表5. 匹配前后有犯罪记录和未犯罪记录的男性平均抑郁得分的比较。**

**4. 讨论**

通过对一般健康问卷（General Health Questionnaire）测量的抑郁或焦虑数据以及更晚时期的犯罪行为进行分析，发现32岁的抑郁和/或焦虑与48岁的新犯罪行为之间存在关联，但这主要是由于儿童时期的犯罪风险因素所解释的。无论是否考虑了早期风险因素的潜在混淆效应，32岁之前的犯罪行为与48岁之后的焦虑或抑郁之间都没有关联。众所周知，不良的童年经历（Adverse Childhood Experiences, ACEs）与成年后的健康和社会结果较差有关（例如，Belsky等人2020；Kaplow和Widom 2007），一些早期研究也指出了童年风险因素与生活成功之间的明显剂量-反应效应（Craig等人2017）。尽管如此，人们可能会认为成年后的健康问题和犯罪行为之间可能存在一些额外的相互关系，但我们的研究结果表明这种关系不太可能是抑郁和焦虑的直接结果。尽管先前的研究强调了内化症状和外部化问题行为之间的双向联系（De Coster和Heimer 2001；Hagan和Foster 2003；Beyers和Loeber 2003），但很少有研究应用严格的准实验方法来评估这些关联是否主要可以由早期生活的不利因素解释。通过使用倾向得分匹配，我们的研究在自然环境中近似实现了实验控制。尽管倾向得分匹配不能确立因果关系，但它通过平衡各组之间的已知混杂因素，减少了个体间分析的选择偏差，从而增强了结果解释的信心（Apel和Sweeten 2010；Farrington等人2020）。关于童年问题少年和年轻罪犯更容易发展出健康问题的观点并不新鲜（Gottfredson和Hirschi 1990, 94–96；Robins 1978），内化症状和外部化症状之间的关联通常被认为是混杂因素的结果（Testa和Semenza 2020）。虽然先前的研究强调了内化症状和外部化问题行为之间的双向联系（De Coster和Heimer 2001；Hagan和Foster 2003；Beyers和Loeber 2003），但很少有研究应用严谨的准实验方法来评估这些关联是否主要由早期生活的不利因素解释。我们的研究通过使用倾向得分匹配，在自然环境中近似实现了实验控制。

**4.1 限制**

剑桥研究是一项重要的纵向研究，包含了关于不良童年经历（ACEs）、犯罪行为和心理健康的前瞻性测量数据。数据收集的前瞻性是其主要优势之一（Coleman等人2024；Farrington 2003）。尽管作为一项特别长期的前瞻性纵向研究，该研究仍存在不可避免的局限性。首先，样本仅包含来自伦敦内城的白人工人阶级男性，这可能限制了其结果的普适性。其次，犯罪行为的评估使用了官方的定罪数据，这可能会低估真实的犯罪行为（Farrington等人2014）。实际上，这本期刊的上一期专门讨论了自我报告和官方报告的犯罪行为之间的差异和一致性（Farrington和Ttofi 2014）。第三，GHQ-30问卷测量的是近期症状，并不能反映持久的或临床诊断的精神障碍。虽然这些子量表在本研究中通过因子分析得到了验证，并且在32岁和48岁的时间点上保持一致，但GHQ-30反映的是短期症状波动，可能无法捕捉到慢性或严重的精神疾病。此外，使用保守的统计阈值（前5%）来确定“患病”状态是倾向得分匹配中的一个有效方法论要求（Singh 2006），但这并不等同于临床诊断。样本量对于检测大多数主要的精神障碍来说较小；实际上，没有男性患有精神分裂症，而在进行倾向得分匹配后，患有抑郁或焦虑的样本数量也非常少。最后，测量时间间隔较长；即使是经验丰富的心理健康专业人士，也很难预期在某个时间点明确诊断出的临床抑郁或焦虑会对16年后的犯罪行为产生影响，或反之亦然。如果能有更频繁的随访评估，将会更加理想。尽管如此，研究发现表明：早期共同出现的先决条件可能比任何后期更直接的关系更能解释看似相关的现象，这一发现对实际应用和早期预防工作具有重要意义。未来的研究应该通过增加测量频率、考察个体内部的变化以及探索更广泛的症状领域来进一步扩展这一设计（Farrington等人，2002年；Hemphill等人，2015年）。纳入更多样化的样本（Gaba等人，2022年）和采用混合方法研究手段，可以为理解心理健康与犯罪行为之间的关联提供更深层次的见解。多波次的纵向研究还有助于明确心理健康问题或其症状的变化是否与行为结果存在时间上的相关性。跨卫生、教育和司法部门的合作对于制定有效的早期干预措施至关重要，这些干预措施旨在解决心理健康问题和犯罪行为的原因（Gebo，2022年；Shepherd和Farrington，1993年），并确保弱势群体能够获得更好的服务（Hardin等人，2020年）。

致谢：

本文献给已故的大卫·P·法林顿（David P. Farrington），他曾在两位作者的职业道路上的不同阶段担任宝贵的导师和同事。他对方法严谨性、纵向研究以及与政策相关的犯罪学研究的长期承诺对这项研究产生了重要影响。大卫·P·法林顿提供了研究所需的数据，并参与了研究的各个阶段；然而，他在讨论论文发表事宜之前已经离世。

数据可用性声明：

支持本研究发现的数据可从“剑桥青少年犯罪发展研究”（Cambridge Study in Delinquent Development, CSDD）获取。获取这些数据需要经过研究负责人及相关数据访问程序的批准。

热点排行