“我们现在可不会去翻那些石头……”:利益相关者视角下心理测量学方法在结果测量中的作用

《British Journal of Clinical Psychology》:‘We're not going to start lifting stones now…’: Stakeholder perspectives on the role of psychometric methods in outcome measurement

【字体: 时间:2026年05月20日 来源:British Journal of Clinical Psychology 3.1

编辑推荐:

  摘要 心理结果测量指导着研究与临床决策,然而许多广泛使用的工具在开发时并未具备充分的心理测量学严谨性。尽管项目反应理论(Item Response Theory, IRT)、结构方程模型(Structural Equation Modelling, SEM)等

  
摘要 心理结果测量指导着研究与临床决策,然而许多广泛使用的工具在开发时并未具备充分的心理测量学严谨性。尽管项目反应理论(Item Response Theory, IRT)、结构方程模型(Structural Equation Modelling, SEM)等先进方法现已普及,其在应用研究中的附加价值仍不明确,且应用研究者对此类方法的认知尚未得到探索。本研究旨在通过考察关键利益相关者的视角填补这一知识空白。为探究这些方法的认知状况,研究人员对21位来自心理测量学、临床实践、应用研究、统计学及学术界的利益相关者进行了半结构化访谈,数据采用反思性主题分析(Reflexive Thematic Analysis, RTA)进行处理。分析识别出三个核心主题:(1)日益认识到潜特质的异质性挑战了许多测量工具的底层假设;(2)尽管心理测量学表现薄弱,但根深蒂固的工具仍被持续使用;(3)关于先进方法何时能实质性影响研究发现的细致观点。参与者承认心理测量学素养存在缺口,并强调需要加强相关培训以及与心理测量学家的协作。研究结果凸显了测量实践中长期存在的局限性,明确了心理测量学方法能够产生真正价值的情境,并为加强心理学与精神病学研究中的结果测量指明了机会。

论文解读:《“我们现在可不会去翻那些石头……”》——心理测量学方法在结果测量中的现实困境与路径重构

研究背景与动因

在心理学、社会科学及健康科学领域,量化研究高度依赖由多项目组成的复合结果测量工具,用于评估态度、情绪状态、健康行为及症状负担等构念。传统的潜特质方法,如因子分析(Factor Analysis, FA)和项目反应理论(IRT),假定抑郁等特征是无法直接观测的潜在变量,并通过观测症状推断其存在。与之相对,网络分析(Network Analysis, NA)则摒弃了单一潜特质的设定,转而描绘症状间相互连接、互为因果的复杂系统。尽管这些方法可用于剔除冗余项目、计算加权分数以提升测量准确性,但现有常用工具的心理测量学质量却备受质疑。例如,长期被视为“金标准”的汉密尔顿抑郁量表(Hamilton Rating Scale for Depression, HRSD)被证实存在项目效度差、结构不一致等问题。虽然学界对于加权分数是否能比传统总分提供更准确的测量结果仍存在争议,但此前针对抗抑郁药临床试验数据的重新分析显示,不同心理测量学方法得出的模型差异巨大,且存在性别非不变性(sex non-invariance)问题,即男性和女性的得分可能不具备可比性。此外,先进方法是否真的能改变试验结果亦不明确。在此背景下,研究人员开展了一项混合方法研究,结合前期量化数据与质性访谈,旨在探讨心理测量学在心理学与精神病学研究中的实际地位与价值。

关键技术方法

本研究采用建构主义认识论下的经验性路径,主要依托反思性主题分析(RTA)对半结构化访谈数据进行分析。研究人员通过目的抽样与滚雪球抽样相结合的方式,招募了21位具有心理测量学、统计学、心理学或精神病学背景的利益相关者,其中包括教授、讲师及资深研究员。访谈前,研究人员向参与者展示了既往关于HRSD和蒙哥马利-阿斯伯格抑郁量表(Montgomery-?sberg Depression Rating Scale, MADRS)的量化分析结果,涵盖方法学概述、量表心理测量学表现及原始结果与校正结果的对比。访谈过程遵循包含14个问题的访谈指南,平均时长约99分钟。数据分析严格遵循Braun与Clarke提出的六阶段RTA流程,从数据沉浸、编码到主题生成,均通过研究团队及多学科指导委员会的反复审议,以确保解释的客观性与深度,规避方法崇拜(methodolatry)的偏见。

研究结果

1. 潜特质的异质性(Heterogeneity of Latent Traits)
参与者普遍批判了将抑郁等心理构念视为单一、同质实体的传统观念。他们指出,不同的测量工具涵盖了截然不同的症状条目,导致所谓的“重叠谬误”(jingle fallacy,即名称相同实则不同)与“区分谬误”(jangle fallacy,即名称不同实则相同)。这种异质性使得试图用自然科学的标准去固化心理测量的做法显得不合时宜。研究人员认为,心理学界应当拥抱这种“混乱的真相”,承认并不存在先验的理由假定所有人发明的构念对每个人都完全一致,共识努力往往只是达成了表面的统一而非触及真理。
2. 不良测量的遗留问题(A Legacy of Poor Measurement)
该主题包含两个子维度:
  • 心理测量的基础知识短板:参与者指出,心理测量学分析极具主观性与专业性,缺乏标准化流程,导致应用研究者普遍存在畏难情绪,甚至为了避免发现“石头下的不愉快”而拒绝深入审视测量工具的质量。这种对理论的回避被认为是导致心理学可重复危机的重要因素之一。多数研究者缺乏足够的量表构建与评价知识,而这种技能缺口可追溯至高等教育课程的缺失,形成了难以打破的代际循环。
  • 心理学研究中的不良实践:研究者往往陷入“仪式化”的方法崇拜,机械地套用模板,只关注信度而忽视效度检验。尽管教科书中宣称无效的量表会被淘汰,但现实中如HRSD这样效度存疑的工具依然因传统、便利及便于文献比较等原因而被广泛使用。参与者坦言,大家往往依赖于统计学家或心理测量学家来发现问题,却又很少去阅读相关的技术性文献。
3. 心理测量学何时有价值(When Psychometrics Matter)
对于前期量化研究中发现的效应量微小变化,参与者持谨慎态度,认为在原始效应量本就很小的情况下,比较微小的差异意义有限。然而,在量表开发与验证方面,心理测量学的价值得到了广泛认可。例如,通过心理测量学方法剔除冗余项目,编制简版量表(如MADRS优于HRSD),既能减轻受试者负担,提高依从性,又能提升测量的有效性。尽管有担忧认为缩短量表会增加测量误差,但研究证据表明,合理的精简反而可能提高模型拟合度与理论契合度。参与者一致认为,确保量表的效度是“好测量”的基础,也是所有研究的根本。

结论与讨论

本研究揭示了当前心理测量实践的严峻现状。研究人员指出,心理构念的动态复杂性导致了测量上的固有困难,而学术界在“标准实践”与“良好实践”之间存在显著脱节。这种脱节源于教育培训的系统性缺失以及研究者对“棘手问题”的回避。为了解决这些问题,研究人员提出了三项建议:首先,应用研究者应具备基本的心理测量学素养,能够批判性地审查量表的效度与适用性;其次,高等教育体系应强化心理测量学课程,本科生需了解概念,研究生则需掌握基本分析技能;最后,应促进心理学家与心理测量学家的实质性协作,并建议建立中央数据库,以通俗易懂的方式汇报现有测量工具的心理测量学属性,从而辅助研究者进行科学选择。该研究发表于《British Journal of Clinical Psychology》,为弥合心理测量理论与应用研究之间的鸿沟提供了重要的实证依据与实践路线图。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号