针对学生数学和英语学业自我概念的维度与时间比较的干预措施的长期效应：一项等待名单复现与扩展研究

《EDUCATIONAL PSYCHOLOGY REVIEW》：Long-Term Effects of an Intervention Targeting Dimensional and Temporal Comparisons on Students’ Math and English Academic Self-Concepts: A Waiting-List Replication and Extension Study

【字体：大中小】 时间：2026年05月10日 来源：EDUCATIONAL PSYCHOLOGY REVIEW 8.8

编辑推荐：

　　摘要：H?rsch等人（2026年）开发了COMPASS干预措施，旨在通过处理维度比较和时间比较（即，学生在不同学科中的表现与自己过去表现的比较）以及相关信念（数学能力和语言能力之间的正向相互依赖性以及能力的变化性），来培养学生的学科特定自我概念。干预措施实施后立即进行的评估显示

　　摘要：H?rsch等人（2026年）开发了COMPASS干预措施，旨在通过处理维度比较和时间比较（即，学生在不同学科中的表现与自己过去表现的比较）以及相关信念（数学能力和语言能力之间的正向相互依赖性以及能力的变化性），来培养学生的学科特定自我概念。干预措施实施后立即进行的评估显示，该干预措施有效提升了学生的数学和英语自我概念。在本研究中，我们检验了这些发现是否可以在同一项目中的另一个等待名单对照组中得到复制。此外，我们还通过三个月和六个月的随访来测试该干预措施的长期效果。共有600名来自德国中学（学术轨道）的9至11年级学生被分配到两个组：A组在第一次和第二次评估之间参与了干预，并在三个月和六个月后进行了随访评估；B组（等待名单组）在第二次和第三次评估之间参与了干预，并在三个月后进行了随访评估。基线变化模型表明，两组在干预后的即时评估中，学生的数学自我概念和相关信念都有所提高，尤其是在A组中。英语干预措施的效果在A组中在干预后立即以及随访评估中得到了验证。总体而言，这些结果表明，COMPASS干预措施可以持续提升学生的数学自我概念，并强调了处理比较和与比较相关的信念对于有效促进学生自我概念的潜力。

教育心理学中最重要的概念之一是学生的学术自我概念，定义为学生对不同学科中自身学术能力的心理表征（Trautwein & M?ller, 2016）。先前的研究已经确定各种比较是学生学术自我概念的相关预测因素（Wolff & M?ller, 2022）。基于此，H?rsch等人（2025, 2026）开发了COMPASS干预措施（“学生自我概念形成中的比较过程”缩写）。该干预措施通过教育学生了解这些比较过程对学术自我概念的影响（例如，Wolff等人2018a; Wolff和M?ller 2022; Zell等人2020），以及与这些比较效果强度相关的特定信念（例如，数学和语言能力之间的正向相互依赖性信念；M?ller等人，2006），来处理维度比较（即学生在不同学科中的表现比较；M?ller & Marsh, 2013）和时间比较（即学生当前表现与过去表现的比较；Albert, 1977），从而增强学生的学科特定自我概念。H?rsch等人（2025, 2026）在两项验证研究中测试了初始比较模块（2025）及其随后整合的COMPASS干预措施（2026）的有效性。两项研究的结果均显示，在干预后的即时评估中，学生的数学自我概念有显著提高，部分学生的英语自我概念也有提高。

尽管这些初步结果令人鼓舞，但COMPASS干预措施的效果是否能在不同样本中复制，以及该干预措施在长期内是否仍然有效仍是一个未解之谜。虽然关于自我概念干预的元分析提供了自我概念干预措施一般具有长期效果的证据（O’Mara等人，2006），但用于研究长期效果的元分析中并没有涉及学科特定自我概念或比较过程的作用。在这项具有累积目标的复制研究中，我们试图复制H?rsch等人（2026）关于COMPASS干预措施在干预后即时评估中提升学生自我概念和与比较相关的信念（数学和语言能力之间的正向相互依赖性以及能力的变化性）的有效性的发现。为此，我们分析了同一项目中的另一个组的数据。此外，我们使用包含四个测量点的等待名单对照组设计，跨越了总共六个月的时期，并在三个月和六个月后进行了随访评估，以此来检验COMPASS干预措施的长期效果。通过这种方式，我们通过研究处理比较和相关信念是否可以导致学科特定自我概念的长期提升，为自我概念研究做出了重要贡献。此外，这项研究具有很高的实践意义，因为有效的自我概念干预措施为教师提供了提升学生自我概念的有希望的机会。

研究表明，社会比较、维度比较和时间比较同时对学术自我概念有影响。这可以通过多种方法论方法得到证实，包括实验性情景研究（例如，Müller-Kalthoff等人，2017）、实验实验室研究（例如，Zell & Strickhouser，2020）、明确的成就比较（例如，Wolff等人2018b）、日记研究（例如，Petrak等人，2026）以及基于2I/E模型的研究（例如，Wolff & M?ller，2022）。Wolff等人（2025）提供了这些方法论方法的概述。研究表明，社会比较的影响最为显著（例如，Wolff等人，2025）。例如，广泛研究并确立的一种现象是“大鱼小鱼效应”（BFLPE），它描述了学生的学术自我概念受到他们与团队成员平均成就的社会比较的影响（例如，在他们的班级中；Marsh，1987；Marsh & Parker，1984）。进一步的研究表明，当班级作为参考群体时，BFLPE的影响最为强烈（例如，Liem等人，2013；Marsh等人，2014）。这一观察与“局部优势效应”（Alicke等人，2010）一致，该效应表明个体倾向于与邻近或本地的参考群体进行社会比较。根据“反射荣耀效应”（BIRGE；Cialdini & Richardson，1980；Marsh，1984），成为高成就同伴群体的一员可以提升学生的学术自我概念，因为他们可能从这种高成就群体中获得自豪感和能力感知。除了BFLPE和BIRGE之外，与社会比较相关的另一个重要现象是普遍倾向于向上比较。这一倾向在多项研究中得到了证实（例如，Blanton等人，1999；Huguet等人，2001，2009）。

然而，除了外部社会比较之外，内部比较也可能改善或削弱学生的学术自我概念：维度比较（M?ller & Marsh，2013；M?ller，2024）和时间比较（Albert，1977）。维度比较主要帮助学生识别他们在不同领域中的个人优势和劣势，而时间比较通常用于评估他们在特定学科中的表现（Gaspard等人2018；Wolff等人2018a）。此外，维度比较通常对学生学术自我概念的影响比时间比较更强（Wolff等人，2025；Zell等人，2020）。关于维度比较效应，Wolff和M?ller（2021）发现，当学生被要求更深入地思考他们在某一学科中的能力时，该学科的表现对其在另一学科中的自我概念的影响会增强。这表明，即使是简单的干预，如鼓励更深入的反思，也可以加强维度比较效应并影响学生在其他学科中的自我概念。此外，研究表明，维度比较效应的强度取决于学科之间的相似性。M?ller等人（2020）的元分析显示，当两个学科相似时（例如，两个都属于数学/科学领域的学科），学生对另一学科的自我概念的维度比较效应较弱；而当两个学科不相似时（例如，一个属于数学领域，一个属于语言领域），这种效应较强。此外，研究表明，学生对学科之间的相似性感知也与维度比较效应的强度相关，即对学科差异感知越大，对比效应越强（Helm等人，2016；Sticca等人，2023；Wolff等人，2021）。此外，维度比较效应的强度还取决于学生是否相信数学和语言能力之间存在负向相互依赖性（M?ller等人，2006；Wolff等人，2021）以及学生的固定心态（Petrak等人，2025；Song & Chung，2024）。具体来说，当学生认为在数学和语言领域很难取得高成就时，或者他们认为这些能力基本不变时，维度比较效应更强。将这些发现应用于实践，培养学生对数学和语言能力之间正向相互依赖性的信念以及成长型思维模式，可能有助于缓解维度对比效应，并支持学科间更平衡的自我概念发展。

关于时间比较效应，多项研究表明，学生学术表现的提高通常与更高的学术自我概念相关（例如，Wolff & M?ller，2022）。此外，强调学生个人进步的教师往往能促进学生更强的学术自我概念（例如，Helm等人，2023；Lüdtke等人，2005），可能是因为这些实践鼓励了时间上的自我比较。Wolff等人（2020b）观察到，学生在从小学转到高中后，他们的数学和英语自我概念以及表现都有所下降。这种下滑趋势与学生使用时间比较有关，特别是当他们将当前的表现与早期更成功的阶段进行对比时（Wolff & M?ller，2022）。如上所述，最近发现成长型思维模式（Dweck & Molden，2017）是维度比较效应的调节因素。然而，成长型思维模式也可能增强时间比较效应的积极影响（Gürel等人，2020）。具体来说，具有成长型思维模式的学生可能会将成就的提高视为能力提升的迹象，因为他们认为自己的能力具有可变性，从而增强他们的学术自我概念。相反，对于具有固定心态的学生来说，表现的改变对其自我概念的影响很小，因为这些学生不会将表现的变化与能力的变化联系起来（他们认为能力是相对稳定的）。此外，成长型思维模式可能缓解负面的时间比较效应：当表现暂时下降时，具有成长型思维模式的学生更有可能将挫折视为学习过程的一部分，而不是能力的证明（Burnette等人，2013；Dweck，2006）。因此，成长型思维模式不仅可以帮助学生从表现的提高中受益（以及知识和能力的提升），还可以在表现下降时保护他们的自我概念。鉴于最近的研究表明成长型思维模式与更高的学术自我概念正相关（例如，Seo等人，2019；Zander等人，2018），在开发COMPASS干预模块时，由于还不了解成长型思维模式对维度比较效应强度的影响（Petrak等人，2025；Song & Chung，2024），H?rsch等人（2025）将成长型思维模式概念化为与时间相关的信念。在综合的COMPASS干预项目中（H?rsch等人，2026年），为了保持一致性，保留了这一术语（尽管将数学和语言能力之间的负相关依赖性视为维度相关信念）。然而，应该注意的是，强化成长型思维模式可能有助于在处理时间和维度比较时促进学生的学术自我概念。基于比较效应的研究结果，H?rsch等人（2025年、2026年）开发了COMPASS干预项目。在这项项目中，他们首先设计了三个模块，分别关注社会比较、维度比较和时间比较以及与之相关的信念，以培养学生的学术自我概念。这些模块采用了不同的方法，如心理教育、练习和讨论。初步的干预研究结果未能证明这三个比较模块在德语学习中对提升自我概念的有效性。然而，在数学学习中，处理维度比较和时间比较的模块确实有效：参与这些模块后，学生的数学自我概念以及他们对数学和语言能力之间正相关依赖性的信念（维度比较相关信念）和对能力可改变性的信念（时间比较相关信念）都得到了增强。此外，自我概念的提升与信念的变化之间存在正相关关系，这与干预项目的预期一致（H?rsch等人，2025年）。这些发现支持了这样的理论假设：修改比较过程背后的信念可以增强学生的学术自我概念。

根据H?rsch等人（2025年）的研究成果，第二阶段中，H?rsch等人（2026年）将维度比较和时间比较模块整合到了最终的COMPASS干预项目中，旨在提升学生的数学或英语自我概念。因此，COMPASS代表了一种连贯的、基于理论的应用方法，它同时处理维度比较和时间比较过程及其相关的信念。此外，H?rsch等人（2026年）关于COMPASS干预项目短期效果的初步研究结果也是令人期待的：他们的结果显示，这种针对特定学科的综合干预显著提升了学生的数学和英语自我概念，其效果大小超过了之前试点研究中单独使用各个模块的效果（H?rsch等人，2025年）。图1展示了COMPASS干预项目的发展过程，并概述了H?rsch等人（2025年、2026年）验证研究的主要发现。

尽管社会比较很重要，但综合的COMPASS干预项目并未包含H?rsch等人（2025年）设计的社会比较模块。这一决定基于经验和理论考虑：首先，在H?rsch等人（2025年）的研究中，社会比较模块并未显著改变学生认为与同届所有学生比较而非仅与同学比较更有助于形成现实自我概念的信念；此外，该模块甚至在数学模块中导致了学生德语自我概念的下降。其次，通过扩大社会比较范围来提升学生自我概念的想法是为了促进学术轨道中学学生的自我概念发展，但这一方法不适用于非学术轨道学校的学生，因为这些学生在与整个年级的比较中通常表现较差（包括学术和非学术轨道的学生）。最后，专注于维度比较和时间比较机制使我们能够设计出更高效且理论上连贯的干预措施，适用于各种类型的学校。值得注意的是，维度比较和时间比较在概念上是紧密相关的，因为它们都涉及个体内部的参照框架。关注这些机制可以减少社会比较过程中固有的情感和社会地位混淆因素，从而在整合多个比较模块的综合干预中带来更清晰的理论预测和更易解释的效果。

除了初步表明不同类型比较模块的有效性外，试点研究（H?rsch等人，2025年）还首次揭示了这些模块在不同学科中的效果差异：虽然维度比较和时间比较模块在提升数学自我概念方面有效，但在提升德语自我概念方面却未能取得成功。从某种意义上说，这一现象与先前的研究结果一致，即学生的数学自我概念往往与学校相关经历和成绩反馈更紧密相关（Helm & M?ller, 2017; M?ller et al., 2009）。在数学学习中，累积的内容结构和明确的学习目标使学生能够直接进行维度比较和时间比较，这可能解释了相应模块的有效性。相比之下，第一语言的自我概念在更大程度上受到课外和日常经历的影响（例如，课堂外的语言使用和交流），这可能削弱了基于学校比较过程的干预效果。然而，在德语学习中，外语（如英语）的自我概念可能处于中间位置：尽管外语可能受到校外经历（如媒体使用）的影响，但学生通常将其视为具有明确课程目标的正式科目。因此，尽管COMPASS干预在数学方面最有效，但它也可能对学生的英语自我概念产生显著（尽管较弱）的影响。

在一项元分析中，O’Mara等人（2006年）调查了来自145项小学研究的200种自我概念干预措施的有效性。总体而言，这些干预措施在短期内是有效的。作者们还评估了干预措施在干预后的长期有效性，即这些效果是否在后续测试中得以维持。不同研究中的测试间隔时间从三周到14个月不等。在20项同时报告测试和后续测试结果的干预研究中，没有发现自我概念效果在测试和后续测试之间有显著变化，表明效果随时间保持稳定。然而，这些干预措施中没有一项专门针对比较过程以提升学生的学科特定自我概念。此外，这项元分析已经相当陈旧，可能不再反映最新情况。

据我们所知，迄今为止只有O’Mara等人（2006年）的元分析系统地评估了学术自我概念干预的有效性。鉴于自我概念提升在教育实践中的重要性，这种对元分析的关注度较低令人惊讶。可能的解释是干预措施在方法上的巨大差异，包括认知和动机方法以及基于身体的项目，这使得结果的综合变得复杂。此外，自我概念测量方法的多样性和干预措施的理论基础不同，也增加了跨研究比较的难度。尽管如此，迫切需要进一步的元分析工作，以更全面地了解自我概念干预的整体效果和机制。特别是在近年来，越来越多地发表仅显示显著效果的研究的情况下，这可能在之前的元分析中引入了出版偏见（Ferguson & Brannick, 2012）。因此，不仅未来需要进行新的元分析，而且还需要方法论上健全的（可重复的）研究来检验特定自我概念干预的有效性（例如，通过关注比较过程）。因此，对旨在改善比较过程的自我概念干预的长期有效性进行当前研究非常重要。最近的一项叙述性系统评价也支持这一观点，该评价专注于提升学生数学自我效能、自我概念和成就的干预措施（Granello等人，2025年）。作者将这些干预措施分为五类：自我调节策略干预、基于技术的干预、教学干预、自我能力来源干预和合作学习干预。在这五类中，基于技术的干预、合作学习干预和部分教学干预有效提升了学生的数学自我效能和自我概念（Granello等人，2025年）。然而，Granello等人（2025年）也指出了当前文献的一个主要局限性：缺乏研究这些干预措施的长期效果。只有两项研究进行了后续评估，且都没有专门关注学生的自我概念（Bentley & Yates, 2017; Kohen et al., 2022）。因此，旨在提升学生学科特定自我概念的干预措施的长期有效性仍有待实证研究。

在这项研究中，我们旨在调查COMPASS干预措施对提升学生数学或英语自我概念的有效性（H?rsch等人，2025年、2026年），并测试其短期和长期效果。为此，我们在六个月内进行了四次测量（T1–T4），并在班级层面随机将学生分为两组（A组和B组）参与COMPASS干预（见图2）。具体来说，A组在T1和T2之间完成了数学或英语的干预（对A组来说这两天是同一天）；B组在T2和T3之间作为等待名单对照组完成了数学或英语的干预（对B组来说这两天也是同一天）。两组的学生在所有测量点都完成了在线问卷调查，评估了他们的自我概念和比较相关信念。对于A组，T1代表干预前的评估，T2代表干预后的即时评估，T3代表三个月后的随访评估，T4代表六个月后的随访评估。对于B组，T2也代表干预前的评估，T3代表干预后的即时评估，T4代表三个月后的随访评估。

学生根据他们在最后成绩单上数学或英语成绩较低的情况被分配到相应的数学或英语COMPASS干预组。如果他们的数学和英语成绩相似，他们会被随机分配到其中一组。H?rsch等人（2026年）已经使用本研究的数据提供了初步证据，证明COMPASS干预在干预后立即提升了学生的数学和英语自我概念。不过，他们仅分析了A组和T1、T2的数据，而A组的T3和T4以及B组的所有测量点未包含在他们的研究中。本研究旨在通过将B组作为独立组别纳入同一项目，复制H?rsch等人（2026年）报告的A组干预后的即时效果。此外，本研究还旨在通过检查两组在后续评估中的干预效果，进一步验证干预效果的稳定性。

据我们所知，除了H?rsch等人（2025年、2026年）的研究外，目前还没有其他研究在自我概念干预中使用比较效应。因此，也没有研究分析这种自我概念干预的长期有效性。然而，COMPASS干预正是为长期效果而设计的：特别是信念应该发生持久性的变化，学术自我概念也应得到持续提升。这里的“持久性信念变化”指的是现有观念的持久且深入的重组，而不仅仅是暂时性的调整。这种理解与概念变化框架（Posner等人，1982年；Vosniadou, 2013年）一致，该框架认为，当个体对其原有观念感到不满，认为新的观念合理可行，并能将其有效地整合到认知系统中时，认知变化才会发生。从这个角度来看，COMPASS干预后的信念变化不能立即被有效评估，因为它需要时间和反复的反馈体验来巩固。在学校环境中，学生会持续收到反馈（尤其是通过成绩或教师反馈），这些反馈可能会加强或挑战他们更新的信念。在三个月的时间里，学生可能会收到大量的反馈。因此，我们的四波纵向设计在干预前、干预后以及三个月和六个月后进行评估，这种设计特别适合捕捉信念和自我概念随时间的稳定性变化。此外，在O’Mara等人（2006）的元分析中，所有研究长期效应的自我概念干预都显示出了稳定的效果。因此，我们通过分析受试者特定自我概念和比较相关信念的变化来研究COMPASS干预的长期有效性，并假设这些构念的增加不仅会在干预后立即显现，也会在后续的跟进中体现出来，从而得出以下假设（也见图3）：

假设1：参与数学（英语）干预的学生在干预前后，在（a）干预后立即进行的评估（组A和组B）、（b）三个月后的跟进（组A和组B）以及（c）六个月后的跟进（组A）中，他们的数学（英语）自我概念将显著提高。

假设2：参与数学（英语）干预的学生在干预前后，在（a）干预后立即进行的评估（组A和组B）、（b）三个月后的跟进（组A和组B）以及（c）六个月后的跟进（组A）中，他们对数学和语言能力之间正面相互依赖性的信念（“维度比较相关信念”）将显著增强。

假设3：参与数学（英语）干预的学生在干预前后，在（a）干预后立即进行的评估（组A和组B）、（b）三个月后的跟进（组A和组B）以及（c）六个月后的跟进（组A）中，他们对能力可变性（“时间比较相关信念”）的信念将显著增强。

假设4：在参与数学（英语）干预的学生中，他们的数学（英语）自我概念的变化与他们在干预前后对数学（英语）的维度比较相关信念的变化之间存在正相关关系，这一关系在（a）干预后立即进行的评估（组A和组B）、（b）三个月后的跟进（组A和组B）以及（c）六个月后的跟进（组A）中都会体现。

假设5：在参与数学（英语）干预的学生中，他们的数学（英语）自我概念的变化与他们在干预前后对数学（英语）的时间比较相关信念的变化之间存在正相关关系，这一关系在（a）干预后立即进行的评估（组A和组B）、（b）三个月后的跟进（组A和组B）以及（c）六个月后的跟进（组A）中都会体现。

图3

此图片的替代文本可能是使用人工智能生成的。

不同组中各构念的预期变化

方法

样本

我们的最终样本规模包括600名学生（数学干预：n=336，英语干预：n=264），来自德国三个联邦州的10所中学的33个班级，年级覆盖9至11年级（数学干预：平均年龄=15.11岁，标准差=0.84；女生68.7%，男生29.3%，其他性别2.0%；9年级50.5%，10年级38.1%，11年级11.4%；英语干预：平均年龄=15.07岁，标准差=0.83；女生58.2%，男生40.6%，其他性别1.2%；9年级50.2%，10年级37.1%，11年级12.7%）。在数学组中，组A有219名学生，组B有117名学生；在英语组中，组A有180名学生，组B有84名学生。最初，组A被分成两个小组，其中第二个小组也获得了在线学习视频的访问权限。然而，由于只有9名数学组和10名英语组的学生观看了这些视频，这些学生被排除在数据分析之外。为了完全透明，我们将包含原始三个组的数据分析结果存储在在线补充材料中（见https://osf.io/hsk3b/overview?view_only=53ded1b775ad457cbb6ef882cf2a490b）。

样本来自德国莱茵兰-普法尔茨州、石勒苏益格-荷尔斯泰因州和下萨克森州的十所中学的学术轨道学生。这些学校代表了城市、郊区和农村环境，平均每所学校约有780名学生，这与德国学术轨道学校的全国平均水平相当（约为每所学校719名学生；联邦统计局，2025年）。所有参与学校都遵循常规的学术课程。此外，其中一所学校是私立学校，这与全国学术轨道私立学校的比例相匹配（约为17%；联邦统计局，2025年）。因此，该样本可以代表德国的学术轨道学校群体。尽管学术轨道学校的平均成绩水平通常高于其他类型的中学，但强调在相对同质成绩群体内进行标准参照评估的评分方式（即曲线评分）会加剧社会比较过程，这反过来又在这些环境中导致学生学术自我概念的显著差异（例如，Marsh，1987；M?ller & Marsh，2013）。

如果满足以下条件，数据将被排除在分析之外：首先，为了确保只使用理解了干预核心内容的学生的数据，我们排除了德语非母语且在干预过程中表示有语言理解问题的学生。其次，排除了在干预结束时对六个简单问题（见在线资源A）中的两个以上问题回答错误的学生，以确保所考虑的学生是认真参与的。第三，为了确保学生认真填写了后续问卷，我们排除了在T4阶段在线问卷中错误回答了两个注意力测试题目的学生。第四，排除了那些在干预前自我概念评分为最高值的学生，因为预计干预对他们不会有进一步的改善作用。总而言之，这导致从最初的810名学生中排除了191名学生（数学干预：n=87，英语干预：n=104）。这一排除率与H?rsch等人（2025）的报告中的排除率相当。如上所述，我们还排除了另外19名观看了额外在线学习视频的剩余619名学生中的19名，最终样本规模为600名。招募是通过直接联系学校办公室来完成的。

测量

本节描述的所有变量都在每个组的每个测量点进行了测量。我们使用所有与学科相关的变量来研究干预在促进学生数学或英语自我概念方面的有效性。我们使用了H?rsch等人（2025, 2026）使用的相同条目，并在我们的在线补充材料中提供了本研究中使用的所有条目列表（见在线资源A）。

自我概念

我们使用五个条目来测量学生的数学和英语学术自我概念，这些条目已在许多先前的研究中使用过（例如，Helm和M?ller 2017；Wolff等人2018c）。一个例子条目是“我认为数学（英语）很难”。学生们在7点李克特量表上回答问题，范围从1=强烈不同意到7=强烈同意。所有条目都以随机顺序呈现，并进行了反向编码，以便更高的分数表示更强的自我概念。在数学干预的所有测量点（αT1=.94, ΩT1=.94；αT2=.94, ΩT2=.94；αT3=.94, ΩT3=.94；αT4=.95, ΩT4=.95）和英语干预中（αT1=.92, ΩT1=.92；αT2=.94, ΩT2=.94；αT3=.94, ΩT3=.94；αT4=.94, ΩT4=.94），这两个量表的可靠性都非常高。

比较相关信念

用于测量数学和语言能力之间正面相互依赖性信念（“维度比较相关信念”）的六个条目对数学和英语是相同的。这些条目之前已被M?ller等人（2006）和Wolff等人（2021）使用过。一个例子条目是“能力是特定于学科的。人们要么在数学上表现优异，要么在语言上表现优异”。对能力可变性信念（“时间比较相关信念”）的测量使用Butler（2000）开发的三个条目量表分别进行。一个例子条目是“一个人的数学（语言）能力是自己无法大幅改变的”。这个量表也在最近的研究中成功用于测量学生对能力可变性的信念（例如，Petrak等人，2025）。

学生们在一个7点李克特量表上回答问题，范围从1=强烈不同意到7=强烈同意。同样，条目以随机顺序呈现，并且反向编码了负面表述的条目，以确保更高的分数表示更强的信念，即干预旨在培养的信念。在数学干预中，这两种信念的可靠性都很好（维度：αT1=.83, ΩT1=.83；αT2=.90, ΩT2=.91；αT3=.89, ΩT3=.89；αT4=.90, ΩT4=.90；时间：αT1=.83, ΩT1=.83；αT2=.88, ΩT2=.88；αT3=.86, ΩT3=.86；αT4=.87, ΩT4=.88）和英语干预中（维度：αT1=.84, ΩT1=.85；αT2=.86, ΩT2=.86；αT3=.86, ΩT3=.87；αT4=.87, ΩT4=.88；时间：αT1=.76, ΩT1=.76；αT2=.84, ΩT2=.84；αT3=.83, ΩT3=.83；αT4=.82, ΩT4=.82）。

程序

研究的实施在2023年9月至2024年7月期间，在常规学校课程中由科学研究人员（“干预领导者”）进行。数据使用LimeSurvey 3.28（LimeSurvey GmbH，2017）在iPad上电子收集，这些iPad也用于干预练习。我们获得了相关部委和当地伦理委员会的批准来实施这项研究。参与是自愿的；然而，由于干预旨在提升学生的自我概念，因此鼓励学生参与。干预期间教师不在场，并要求教师为不参与的学生准备替代课程。包括干预前的预测试和干预后的后测试在内，干预的总持续时间略少于三个学时（120分钟）。

学生被分配到数学或英语干预取决于他们在最后的成绩单上分数较低的那门学科。我们这样做是因为学生往往会低估自己在表现较差的学科上的能力，这是由于维度比较造成的。如果他们的数学和英语成绩相似，他们将随机分配到这两门学科中的一门。为了确保积极的讨论参与，每组的规模限制在最多20名学生。干预过程中伴随着PowerPoint演示文稿来呈现科学信息，每个学生都有一台配备特定练习的iPad。此外，我们还准备了十二个纸板记忆句子，以在海报上突出自我概念干预的最关键方面，以便留在教室里（见我们的在线补充材料中的在线资源B，用于工作坊材料）。

干预内容

干预内容包括H?rsch等人（2025）开发的维度比较和时间比较模块。这些模块的详细描述可以在H?rsch等人（2025）中找到。在本节中，我们仅描述COMPASS干预的主要方面。

最初，干预领导者介绍了自己和干预主题。随后，学生完成了在线预测试问卷，接着进行了关于他们特定学科自我概念的初步想法的课堂讨论。干预的核心包括两个部分，分别处理维度比较和时间比较。这些部分包括关于相应比较类型及其对学生自我概念影响的讲座、课堂讨论和小组练习。

维度比较部分从关于维度比较对学生自我概念形成影响的讲座开始。此外，学生在课堂讨论中反思了他们是否将自己在一门学科中的表现与其他学科的表现进行比较。还有讲座展示了学生的数学（英语）成绩如何影响他们的英语（数学）自我概念，以及数学和语言能力不是互斥的（维度比较相关信念）。根据这些讲座，学生进行了多项练习。在一个思维实验中，学生们想象他们在干预所涉及的学科中的表现与其他所有学科的表现相同，而他们在其他所有学科中的表现较差。然后他们反思这可能如何影响他们的特定学科自我概念。根据关于维度比较相关信念的讲座，学生们还反思了自己是数学型还是语言型的人。在此过程中，他们了解了数学和语言能力不是互斥的。此外，他们选择了可以从其他学科转移到所涉及学科中的行为并进行了反思。

维度比较部分之后是时间比较部分。与维度比较部分类似，它也以关于时间比较及其对学术自我概念影响的讲座开始。此外，还有讲座讨论了尽管能力提高了，学生的成绩仍可能下降的情况。在课堂讨论中，学生们寻找了表现下降的（潜在）原因，并发现低学术自我概念可能是导致表现下降的一个因素。在另一场讲座中，学生们了解了能力的变化性（与时间比较相关的信念）。此外，学生们通过写下过去一年的三个关键学习点并进行讨论来反思他们的学习收获，以此强调他们的实际学习成果。在另一项活动中，学生们思考了可以采取哪些行为来实现自我设定的现实而雄心勃勃的表现目标。在干预活动结束时，干预负责人再次强调了维度比较和时间比较的影响，以及行为改变练习的关键信息。之后，学生们完成了在线问卷的后续测试。最后，干预负责人向学生们分发了一份包含记忆句式的海报。

统计分析
我们的分析使用了Mplus 8.11软件（Muthén & Muthén, 2017）在结构方程建模框架下进行。我们采用了鲁棒最大似然估计器（MLR）。这种估计器提供了校正数据非正态性的标准误差和拟合统计量。由于在某些测量点存在缺失值（详见在线补充材料中的在线资源E），我们使用了全信息最大似然法（FIML）来处理这些缺失值（Enders, 2010; Geiser, 2013）。为了评估数据聚类的程度，我们计算了每个量表和测量点的组内相关系数（ICCs）。ICCs通常较小，大多数值不超过0.10，表明聚类效应很小。有两个例外情况，数学维度比较相关的信念在T2时的ICC稍高（ICC = 0.25；英语时间比较相关的信念在T2时的ICC = 0.17），这表明这些特定测量项受到了一定程度的班级级影响（详见在线补充材料中的在线资源F）。由于即使是小的ICCs也可能影响标准误差，因此所有后续分析都使用了Mplus中的TYPE = COMPLEX校正方法。为了考虑指标层面的测量误差，我们最初将自我概念和信念指定为潜在变量。为此，我们使用了每个构念对应的量表条目作为指标。为了对构念进行标准化，我们采用了效应编码方法（Little et al., 2006），其中因子载荷之和等于指标数量，截距之和等于零。我们通过设置每个条目的因子载荷和截距随时间的不变性来确保标量不变性（Geiser, 2013; Little et al., 2007）。然而，根据H?rsch等人（2026）的建议，我们最终使用显性变量进行了所有分析，并在下面报告了结果。这种方法也是合理的，因为在检查潜在变量时并不总是能够确认时间上的测量不变性。尽管如此，我们也使用潜在变量进行了分析，这些分析的结果与使用显性变量得到的结果大致相同（详见在线补充材料中的在线资源D）。

为了检验假设1-3，我们为每个组（A组和B组）分别计算了两个不同的变化分数模型（一个针对数学，一个针对英语），以估计特定自我的自我概念、维度比较相关信念和时间比较相关信念随时间的变化（Geiser, 2013）。对于每个分析，我们计算了包括四个测量点（T1、T2、T3和T4）和三个变化分数的基线变化模型（Geiser, 2013）。由于A组的干预发生在T1和T2之间，B组的干预发生在T2和T3之间，我们使用A组的T1和B组的T2作为基线，以比较干预前后基线值的效果。因此，对于A组，我们自由估计了T1的绝对值以及T1与T2（Diff2_1）、T1与T3（Diff3_1）和T1与T4（Diff4_1）之间的变化分数。此外，我们将T1对T2、T1对T3、T1对T4、Diff2_1对T2、Diff3_1对T3以及Diff4_1对T4的效应固定为1。同时，我们将T2、T3和T4的残差方差设置为零。对于B组，我们自由估计了T2的绝对值以及T2与T1（Diff1_2）、T2与T3（Diff3_2）和T2与T4（Diff4_2）之间的变化分数。此外，我们将T2对T1、T2对T3、T2对T4、Diff1_2对T1、Diff3_2对T3以及Diff4_2对T4的效应固定为1，并将T1、T3和T4的残差方差设置为零。为了更好地了解情况，图4展示了一个组内构念的示例基线变化模型。为了检验假设4-5，我们还在模型中估计了比较相关信念的特定变化分数与特定自我的自我概念之间的相关性。为了估计效应大小，我们计算了Cohen的d作为效应大小指标（Cohen, 1988）。根据Lakens（2013）的方法，我们调整了合并标准差，以考虑基线值与其他测量点分数之间的相关性。结果在p < .05时被视为统计显著。遵循强调p值连续性和非二分性质的方法学建议（Cohen, 1994; Kline, 2016; Wasserstein & Lazar, 2016），并且考虑到我们检验的是方向性假设，我们还将p < .10的效应结果作为指示性趋势进行报告，而不将其视为统计显著。

图4
此图像的替代文本可能是通过AI生成的。

分析方法中的基线变化模型
语法和数据集可在在线补充材料中找到（见在线资源A和数据集）。读者可以利用这些资源完全重现分析并验证报告的发现。此外，所有变量和所有测量点的全面描述性统计信息也包含在在线补充材料中（在线资源E）。

结果
数学干预
表1展示了参与COMPASS干预的两组学生在T1水平（A组）、T2水平（B组）以及各种构念的不同变化分数的均值、标准误差和显著性水平。图5以图形方式展示了结果（见4a、4c和4e，了解COMPASS干预在数学方面的结果）。根据H1，两组学生在参与COMPASS干预后，他们的数学自我概念显著提高（A组：MDiff2_1 = 0.39，p < .001，d = 1.05，95% CI [0.86, 1.24]；B组：MDiff3_2 = 0.37，p < .001，d = 0.91，95% CI [0.65, 1.17]）。此外，与干预前相比，A组学生在三个月后（MDiff3_1 = 0.17，p =.015，d = 0.28，95% CI [0.09, 0.46）和六个月后（MDiff4_1 = 0.27，p =.017，d = 0.38，95% CI [0.19, 0.57）的数学自我概念也显著提高。而在B组，学生在参与COMPASS干预后三个月的数学自我概念没有显著提高（MDiff4_2 = 0.17，p =.109，d = 0.31，95% CI [0.05, 0.57]）。

表1：两组学生在数学基线变化模型中各构念的平均变化、标准误差和显著性水平

图5
此图像的替代文本可能是通过AI生成的。

使用基线变化模型分析两组学生在数学和英语自我概念及信念的变化
根据H2，两组学生在参与COMPASS干预后，他们的维度比较相关信念显著增加（A组：MDiff2_1 = 0.57，p < .001，d = 0.63，95% CI [0.43, 0.82]；B组：MDiff3_2 = 0.72，p < .001，d = 1.34，95% CI [1.07, 1.61]），以及三个月后（A组：MDiff3_1 = 0.37，p < .001，d = 0.46，95% CI [0.27, 0.65]；B组：MDiff4_2 = 0.40，p < .001，d = 0.63，95% CI [0.37, 0.89]）和六个月后（A组：MDiff4_1 = 0.27，p < .001，d = 0.29，95% CI [0.10, 0.48）也与干预前的信念相比有所提高。根据H3，两组学生在参与COMPASS干预后，他们的数学时间比较相关信念也显著增加（A组：MDiff2_1 = 0.53，p < .001，d = 0.58，95% CI [0.39, 0.77]；B组：MDiff3_2 = 0.63，p < .001，d = 0.74，95% CI [0.48, 1.01]），三个月后（A组：MDiff3_1 = 0.25，p < .001，d = 0.28，95% CI [0.09, 0.47]；B组：MDiff4_2 = 0.28，p =.012，d = 0.27，95% CI [0.02, 0.53]）和六个月后（A组：MDiff4_1 = 0.23，p =.048，d =.19，95% CI [0.00, 0.38]）。表2展示了组（A）中T1水平（基线值）与数学相关构念变化分数之间的相关性；表3展示了组（B）中T2水平（基线值）与数学相关构念变化分数之间的相关性。根据H4，两组学生在干预后，数学自我概念的变化分数与维度比较相关信念的变化分数呈正相关（A组：rDiff2_1 = .31，p < .001；B组：rDiff3_2 = .35，p =.001）。此外，在干预后三个月和六个月，变化分数之间也存在正相关性（A组：rDiff3_1 = .17，p =.021；rDiff4_1 = .28，p =.001；B组：rDiff4_2 = .26，p =.031）。根据H5，两组学生在干预后，数学自我概念的变化分数与时间比较相关信念的变化分数也呈正相关（A组：rDiff2_1 = .30，p < .001；B组：rDiff3_2 = .28，p < .001），以及三个月后（A组：rDiff3_1 = .23，p =.002；B组：rDiff4_2 = .41，p =.014）。干预后六个月，数学自我概念变化分数与时间比较相关信念的变化分数之间的相关性也为正（rDiff4_1 = .24，p < .001）。

表2：参与数学干预的A组学生基线值与变化分数之间的相关性、标准误差和显著性水平
表3：参与数学干预的B组学生基线值与变化分数之间的相关性、标准误差和显著性水平

英语干预
表4展示了参与COMPASS干预的两组学生在T1水平（A组）、T2水平（B组）以及各种构念的不同变化分数的均值、标准误差和显著性水平。图4以图形方式展示了结果（见4b、4d和4f，了解COMPASS干预在英语方面的结果）。

表4：两组学生在英语基线变化模型中各构念的平均变化、标准误差和显著性水平

根据H1，A组学生在参与COMPASS干预后，他们的英语自我概念显著提高（MDiff2_1 = 0.11，p =.036，d =.32，95% CI [0.11, 0.53]），而B组学生在参与COMPASS干预后仅呈趋势性提高（MDiff3_2 = 0.13，p =.061，d =.061，95% CI [0.13, 0.74]）。此外，A组学生在参与COMPASS干预后三个月和六个月，他们的英语自我概念显著提高（MDiff3_1 = 0.19，p =.007，d =.007，95% CI [0.23, 0.65]；MDiff4_1 = 0.14，p =.018，d =.018，95% CI [0.13, 0.54]）。而在B组，干预后三个月的英语自我概念没有显著变化（B组：MDiff4_2 = ?0.05，p =.661，d = ?0.20，95% CI [–0.50, 0.10]）。根据H2，两组学生在参与英语干预后，他们的维度比较相关信念显著提高（A组：MDiff2_1 = 0.54，p < .001，d =.75，95% CI [0.54, 0.96]；B组：MDiff3_2 = 0.49，p < .001，d =.010，95% CI [0.71, 1.34]）。此外，A组学生在参与COMPASS干预后三个月和六个月，他们的维度比较相关信念也显著提高（MDiff3_1 = 0.25，p =.005，d =.36，95% CI [0.15, 0.57]；MDiff4_1 = 0.34，p =.001，d =.35，95% CI [0.14, 0.56]）。然而，组B在COMPASS干预后的三个月内没有显著变化（MDiff4_2 = 0.14，p =.460，d = 0.15，95% CI [–0.15, 0.45]）。部分符合H3的预期，学生在时间比较相关信念方面有显著提升（组A：MDiff2_1 = 0.49，p <.001，d = 0.46，95% CI [0.25, 0.67]；组B：MDiff3_2 = 0.52，p <.001，d = 0.52，95% CI [0.21, 0.82]），在COMPASS干预后的三个月和六个月时同样如此（组A：MDiff3_1 = 0.19，p =.009，d = 0.14，95% CI [–0.06, 0.35]；MDiff4_1 = 0.19，p =.038，d = 0.14，95% CI [–0.07, 0.35]），而组B在COMPASS干预后的三个月内没有显著变化（MDiff4_2 = 0.09，p =.637，d = 0.09，95% CI [–0.21, 0.39]）。表5显示了组A中英语相关构念的T1水平（基线值）与变化分数之间的相关性，表6显示了组B中英语相关构念的T2水平（基线值）与变化分数之间的相关性。H4仅得到部分支持：在任何组中，英语自我概念的变化分数与时间比较相关信念的变化分数没有显著相关性（组A：rDiff2_1 = 0.14，p =.081；组B：rDiff3_2 = 0.13，p =.242）。然而，在干预后三个月，两组的变化分数都呈现正相关（组A：rDiff3_1 = 0.27，p <.001；组B：rDiff4_2 = 0.23，p =.017）。六个月后，组A的变化分数之间没有显著相关性（rDiff4_1 = 0.06，p =.486）。H5未得到支持：英语自我概念的变化分数与时间比较相关信念的变化分数在干预后三个月（组A：rDiff2_1 = 0.05，p =.470；组B：rDiff3_2 = 0.08，p =.442）、六个月后（组A：rDiff3_1 = 0.14，p =.173；组B：rDiff4_2 = 0.27，p =.140）均没有显著相关性。

讨论
本研究旨在通过干预后即时评估来复制H?rsch等人（2026年）的研究结果，检查一种促进学生学术自我概念的干预措施的有效性。此外，它还通过后续评估进一步扩展了之前的研究，探讨了该干预措施的有效性。具体来说，我们在一个包含四个测量点和两个组的研究设计中，考察了学生学术自我概念和比较相关信念的变化。这种设计使我们能够回应Granello等人（2025年）关于更多纵向研究的呼吁，不仅研究了COMPASS干预的短期效果，还研究了其长期效果，以改善学生的数学或英语自我概念及其比较相关信念。此外，我们还研究了干预后学术自我概念和比较相关信念变化之间的相关性，以便更好地理解干预背后的心理机制。

总体而言，学术自我概念在青春期表现出较高的稳定性（例如，Trautwein & M?ller, 2016）。尽管如此，先前的研究也发现，在这一阶段，学生的数学和语言自我概念在平均水平上会有显著下降（Orth et al., 2021; Scherrer & Preckel, 2019）。鉴于此，本研究的结果特别令人鼓舞：我们的发现表明，在干预后即时评估以及后续评估中，学生在数学和英语方面的自我概念和信念都有显著提升，尽管在一些后续效应中只出现在组A中。因此，似乎自我概念仍然会对反复触发评价性比较过程的结构化体验作出反应。

特别是数学干预的结果与O’Mara等人（2006年）的元分析结果一致，表明干预的效果具有稳定性。此外，干预后即时评估中数学方面的持续改进，以及数学自我概念和比较相关信念变化之间的相关性，与理论观点相符，这些观点强调学术自我概念，尤其是在数学方面，受到维度和时间比较过程的强烈影响（Albert, 1977; M?ller & Marsh, 2013; Wolff & M?ller, 2022）。这些结果也与成长型思维的研究相一致（例如，Burnette et al., 2023），这些研究表明，对能力可变性的信念可以支持学生对学习成果的信心，特别是在像数学这样的学科中，进步是显而易见的。此外，它们也与研究结果一致，即信念变化机制（例如学生对自身能力可变性的认知变化）可以增强对负面反馈的韧性，并随着时间的推移放大积极学习体验的影响（Dweck, 2006; Yeager & Dweck, 2020）。特别是对负面反馈的增强韧性，可能有助于解释干预在后续评估中的积极效果。在这一背景下，还值得注意的是，关于思维方式和自我概念干预的研究表明，这些效果往往在干预后的几个月内会巩固甚至增强，因为学生会将这些修订后的信念应用到持续的学校体验中（例如，Paunesku et al., 2015）。有趣的是，研究表明，这种干预在数学方面比在英语方面更有效。此外，组B的学生在英语干预后三个月的自我概念和信念方面的无显著效应与这项研究的其他一致发现相矛盾。这两个发现将在下文进行讨论。

关于COMPASS干预效果的学科特异性差异
COMPASS在英语方面效果较低的原因可能在于方法学和内容相关因素。方法学上的解释可能是相对的上限效应：尽管我们已经排除了所有在T1时自我概念最高的同学，但学生的英语自我概念的基线值已经相对较高，与数学自我概念相比几乎高出一个量表点。因此，参与英语COMPASS干预的学生改进的空间较小，这可能导致低估了COMPASS干预在英语方面的实际效果。

COMPASS在英语方面效果较低的内容相关因素可能是学生的学术自我概念在不同学科中对学校经验的依赖程度不同：正如其他研究已经假设的（Helm & M?ller, 2017; M?ller et al., 2009），语言自我概念可能比数学自我概念更独立于学校经验。与学校经验相比，其他日常生活活动，如经常使用的数字媒体，成为了学生英语能力的反馈来源，从而形成了他们的英语自我概念。

此外，一些干预练习，特别是那些涉及学科间行为转移（维度比较模块）或对先前学习成果的反思（时间比较模块）的练习，在数学中可能比在英语中更容易应用：德国中学9年级和10年级的数学课程引入了非常具体和明确的新主题（例如，平方根、勾股定理、三角函数和指数函数；教育、科学、青年和文化部，2007），这些为监控进展和发展针对特定任务的学习策略提供了明确的参考点。相比之下，英语教学包含较少的独立内容模块（例如，语法、文化教育、词汇），这可能使学生难以将干预任务与具体的最近学习经验联系起来。这种课程匹配可能增强了干预在数学方面的效果，而在英语方面效果较差。

关于COMPASS干预在英语方面效果的组别特异性差异
除了COMPASS干预效果的学科特异性差异外，不同组别在后续效应上的变化也值得进一步讨论。虽然在组A中所有变量在三个月和六个月的后续评估中都显示出显著改进，但在组B中，任何变量在三个月的后续评估中都没有显示出显著改进。英语组B的学生样本数量最少（n = 84）。由于样本量较小，这一组的非显著结果可能归因于统计功效不足。为了检验这一点，我们使用G*Power进行了重复测量设计的后验功效分析，该分析基于组B中观察到的效应大小（Cohen’s d = 0.43，相当于f = 0.22），结果显示功效为0.93。这一结果表明，非显著结果不太可能是由于统计功效不足造成的。

这种 surprising 差异的一个可能原因是两组在学年进展上的干预实施时间不同。组A的干预主要发生在学生收到成绩单前后的无年级阶段，而组B的大部分干预则发生在评分阶段。这种由此产生的压力水平差异可能导致组B对干预的动机较低，更加关注实际课程。此外，仅在T1时完成问卷可能导致对三个月后即将到来的干预的期望和动机降低，因为学生可能认为完成问卷是一项相当无聊的活动。其他生活环境和外部影响也可能是造成这种组别差异的原因：学校或家庭影响以及特定组别的压力事件，比如教师更换、特别差的班级测试或语言交换，都可能影响英语自我概念。例如，关于课堂连续性的研究表明，学年内的教师流动可能对学生的学习和参与度产生负面影响（Ronfeldt et al., 2013）。同样，较高的教师流动率（可以解释为教师不稳定性）与学生完成义务教育后的较低资格显著相关（Gibbons et al., 2021）。这种不连续性可能破坏课堂凝聚力，降低学生的学习进步和动机。

组B中相对较小的样本量以及干预发生在学期末前的事实表明，诸如教师更换等事件可能对组B的干预效果产生了较大影响。尽管如此，值得注意的是，我们不知道任何组在测量点之间发生的任何特殊事件。此外，还需要再次指出，组A和组B在干预效果上的差异主要表现在英语方面，而在数学方面则不明显。为了更准确地了解特殊事件对（英语）干预效果的可能影响，未来使用不同学年的不同样本进行研究，并记录所有可能影响干预效果的事件并在分析中加以考虑将是有用的。这些线索属于自我参照编码技术的范畴，其中自我参照线索与学生的学习材料相结合（d’Ailly等人，1997年；Mayer等人，2004年）。例如，Liu等人（2024年）对教育中的自我参照编码技术进行了元分析，结果显示使用这些技术通常可以提高学习效果。从实际角度来看，这项研究证明了COMPASS干预的有效性。值得注意的是，即使是一个简短的干预也能持续提升学生的学科特定自我概念。这一发现不仅支持了干预的有效性，还表明了其高效率。此外，这些发现表明COMPASS干预的时机可能对其效果起着关键作用。在学业压力较低的时候实施干预，比如在评分或考试阶段之外，可能会让学生更深入地参与项目的反思和自我调节部分。相反，在评分期间实施可能会因压力增大而降低学生进行自我反思的认知和情感能力，从而限制干预的效果。这一发现与研究表明的形成性评估相符，后者通常在高风险的评分或考试之外进行，能够比与表现压力和最终成绩密切相关的总结性评估更有效地减少考试焦虑、增强学术动机和改善自我调节（Ismail等人，2022年）。未来的研究应该探讨COMPASS干预的效果是否以及在多大程度上依赖于学业压力。为此，系统地测试干预在学年不同阶段的有效性将是有趣的，同时也可以探讨整合简短的压力管理措施（如放松练习）是否能提高其效果，尤其是在学业压力较大的时期。

此外，这项研究还揭示了关于比较及其相关信念（数学和语言能力的相互依赖性以及能力的变化性）的教育对促进学生学术自我概念的重要性：不仅要向学生介绍这些概念，还要帮助他们将这种理解应用于改变行为。例如，教育者应该强调每个学生的个人进步，支持他们的成长型思维，并鼓励他们表现出可以从其他学科中学到的有益行为。

尽管这项研究满足了需要更多研究长期评估自我概念干预效果的呼声，并采用了强有力的设计，在六个月内对两组学生进行了四次测量，但它也存在一些局限性，需要在未来的研究中加以解决。首先，该研究的主要局限性在于无法分析在线学习视频的有效性：由于只有极少数预定观看视频的学生真正观看了这些视频，我们将最初设计中的两组合并，并排除了实际观看视频的学生。虽然我们证明了COMPASS干预的有效性，但无法充分利用开发的在线学习视频来进一步加强干预在后续评估中的效果。不观看视频引发了如何激励学生在未来使用这些额外在线学习材料的问题。我们提供了预告片和教师提醒，但这些措施作为激励因素不够充分。相反，直接将视频整合到常规学校课程中可能更为合适。因此，未来的研究不仅应调查在线学习视频对持续提升学术自我概念的额外效果，还应探索提高学生使用在线学习材料参与度的途径。

进一步而言，这项研究还揭示了关于比较及其相关信念的教育对于促进学生学术自我概念的重要性：不仅需要向学生传授这些概念，还要帮助他们应用这些理解来调整行为。例如，教育者应强调每个学生的个人进步，支持他们的成长型思维，并鼓励他们展现出可以从其他学科中学到的有益行为。

尽管这项研究满足了更多评估自我概念干预长期效果的需求，并采用了强有力的设计，在六个月内对两组学生进行了四次测量，但它也存在一些局限性，需要在未来的研究中加以解决。首先，主要局限性在于无法分析在线学习视频的有效性：由于只有很少一部分学生观看了视频，我们合并了最初设计中的两组并排除了实际观看视频的学生。虽然我们证明了COMPASS干预的有效性，但无法充分利用开发的在线学习视频来加强后续评估中的干预效果。不观看视频引发了如何在未来激励学生使用这些额外在线学习材料的问题。我们提供了预告片和教师提醒，但这些措施作为激励因素不够充分。因此，未来的研究不仅应调查在线学习视频对学术自我概念持续提升的额外效果，还应探索利用在线学习材料提高学生参与度的可能性。其次，如上所述，仍需进一步查明为什么英语干预的效果在两组之间存在差异。未来的研究应进一步调查COMPASS干预在英语后续评估中的有效性，特别应包括外部事件以及可能解释干预效果差异的额外学生特征。第三，我们的研究对象包括来自学术轨道中九年级、十年级和十一年级的学生。虽然这个相对同质的群体是一个优势，但尚不清楚我们的结果是否可以推广到其他学生样本。尽管如此，这种干预方法无需任何调整即可应用于其他类型的学校，并且只需语言调整即可轻松应用于其他国家。因此，未来的研究应调查这些结果在不同类型学校和其他国家的普遍性。第四，干预的经济性在一定程度上可能是一个弱点。尽管干预在时间上较为经济，但需要专家知识来适当回应学生自发的、不可预测的需求。此外，外部干预领导者需要更多的规划和复杂的协调。因此，由教师自己实施的干预会更为经济。未来的研究应调查教师能够领导的调整后的干预效果（并提供额外材料以支持教师）。第五，虽然当前研究关注的是特质层面的学术自我概念，但最近的研究强调了区分自我概念的状态成分和特质成分的重要性（Niepel等人，2022年，2025年；Petrak等人，2026年）。在这场辩论中，研究人员区分了学术自我概念的特质成分（定义为对自身学术能力的习惯性心理表征）和状态成分（定义为短暂的心理表征）。由于我们的设计和测量方法不适合捕捉短期波动，我们没有探讨COMPASS干预对状态层面自我概念的影响。尽管如此，未来的研究可以采用密集的纵向或经验采样评估方法来研究COMPASS干预如何影响日常学校环境中状态自我概念的短期和长期动态。具体来说，这类研究可以探讨学生状态自我概念的暂时变化如何随时间发展并稳定为持久的特质自我概念变化，从而更全面地了解COMPASS干预等干预措施如何随时间产生影响。

第六个局限性涉及潜在的社会期望效应：由于学生被告知干预旨在增强他们的学术自我概念，他们的回答可能受到了期望的影响。然而，由于参与是自愿的并且所有数据都是匿名收集的，系统性偏见的可能性可能较低。尽管如此，也不能完全排除学生因为意识到干预的目标而报告略高的自我概念分数的可能性。未来的研究可以通过包括社会期望的控制措施或隐性的学术自我概念测量方法来解决这个问题（Wolff等人，2020a）。最后，尽管整合的COMPASS干预没有包含社会比较模块，但社会比较效应仍然是自我概念发展的重要机制。未来的研究可以基于我们的发现，改进和简化H?rsch等人（2025年）开发的社会比较模块，使其适用于不同类型的学校。例如，修订后的任务可以引导学生批判性地反思他们在何时以及为何进行社会比较，帮助他们区分有利于和不利于自我概念的比较情境。此外，未来的干预可以实验性地对比人际（社会）与人际内（维度和时间）比较模块的效果，以更好地理解这些过程如何共同塑造学生的学术自我概念。

我们研究了新开发的创新COMPASS干预措施，该措施关注比较过程，从而解决了影响学生学术自我概念的最重要预测因素之一。我们进行这项研究是为了复制H?rsch等人（2026年）的发现，通过在同一项目中对另一组学生进行干预后的即时评估来验证COMPASS干预的有效性，并在后续评估中检查其在两组学生中的有效性。通过这样做，我们回应了自我概念干预领域研究的不足（Granello等人，2025年；O’Mara等人，2006年）。我们的发现是有希望的：虽然COMPASS干预的效果并不完全一致，但我们总体上能够证明其在后续评估中对学生数学和英语自我概念的有效性。此外，我们发现的结果与假设的作用机制一致，因为学生数学自我概念的变化与干预所针对的信念变化相关。我们希望未来COMPASS干预能在实践中得到更频繁的应用，也许还能针对其他目标群体进行适应性调整。

热点排行