PISA 2022的创造性思维测试题目是否公平？一种基于树状结构的方法来检测试题难度差异（DIF，Difficulties in Items）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Thinking Skills and Creativity》：Are PISA 2022 creative thinking items fair? A tree-based approach to detecting DIF

【字体：大中小】 时间：2026年05月04日 来源：Thinking Skills and Creativity 4.5

编辑推荐：

　　李朱妍|张允顺|白秀贤韩国教育发展研究院学生与家长研究办公室 **摘要** 创造性思维被公认为21世纪的关键能力，并在PISA 2022评估中作为新的评估领域被引入。确保此类大规模评估的公平性对于有效的跨国解读至关重要。本研究采用基于树的方法（该方法运用递归划分来

　　李朱妍|张允顺|白秀贤
韩国教育发展研究院学生与家长研究办公室

**摘要**
创造性思维被公认为21世纪的关键能力，并在PISA 2022评估中作为新的评估领域被引入。确保此类大规模评估的公平性对于有效的跨国解读至关重要。本研究采用基于树的方法（该方法运用递归划分来探索超出预定义群体的差异），分析了PISA 2022中15个创造性思维（CT）题目的差异项目功能（DIF）。通过对所有完成第37份问卷的10,779名学生的回答进行部分信用树（PCtree）模型分析，研究了能够识别子群体的DIF题目。使用逻辑序数回归模型进一步分析了这些题目。PCtree模型识别出六个由移民背景、性别以及经济、社会和文化地位（ESCS）复杂交互作用定义的独特子群体，其中ESCS成为主要的划分因素。所有15个CT题目在多个子群体比较中均表现出DIF现象；然而，根据既定标准，个别效应大小可以忽略不计。尽管如此，微小的DIF效应可能会在题目间累积，从而在评估层面导致差异性捆绑功能（DBF）或差异性测试功能（DTF）。这些发现揭示了传统单变量DIF方法会忽略的复杂交叉模式，表明多种人口统计特征如何共同导致测量不平等。本研究强调了创造性评估中探索性验证策略的重要性，并强调了在解释PISA 2022 CT结果之前进行全面公平性验证的必要性。

**引言**
创造性思维被广泛认为是21世纪的关键能力，对于解决问题、创新和批判性思维至关重要。为了响应这一全球性关注，经合组织（OECD）在PISA 2022评估中将创造性思维作为一个独立的评估领域纳入其中。与任何新开发的测量工具一样，确保评估的公平性和有效性是实现有意义解读和负责任使用评估结果的关键步骤。评估验证的一个重要方面是检测差异项目功能（DIF）。当具有相同潜在特质水平的个体由于性别、年龄或社会经济地位（SES）等外部因素而对特定题目产生不同反应时，就会发生DIF。当评估题目中存在这种偏差时，可能会威胁评估的公平性和有效性，可能导致结果解读错误以及群体间的不公平结果。

本研究采用基于项目反应理论（IRT）和机器学习的新分析方法（Komboz等人，2018年；Strobl等人，2015年），调查了PISA 2022创造性思维（CT）题目中的潜在DIF。通过将此模型应用于PISA 2022 CT评估，本研究旨在识别可能在不同学生群体中表现不公的题目，从而提供评估有效性的实证证据。与依赖预定义分组变量（例如性别）的传统DIF检测方法不同，基于树的模型利用数据集中可用的背景变量（例如性别、国籍和SES）进行递归划分，探索所有可能的子群体划分。这种探索能力使该方法特别适合创造性评估，因为在这些评估中先前的证据有限，且多种特征之间的交互作用可能影响题目功能。

研究创造性思维的发展差异有助于理论理解创造性是如何形成并转化为具体产品的，从而指导促进各生命阶段创造力的实践。例如，Goecke等人（2026年）汇总了PISA 2022 CT评估的62个国家的结果，发现女性学生以及来自高SES家庭的学生通常更具创造力，这一发现具有全球一致性。如果假设评估能够准确反映学生的真实创造性思维能力，这一强有力的实证证据可以支持性别和SES对创造性发展的影响。然而，群体间的分数差距并不一定反映真实的才能差异；外部因素可能会扭曲结果。关于创造性群体比较的几项元分析表明，观察到的性别和SES差异往往受到发展阶段、文化价值观、家庭环境等因素的影响，而这些因素不一定与创造力相关。例如，两项最近的元分析（Abdulla Alabbasi等人，2025年；Taylor等人，2024年）都发现女性在创造性思维评估中的表现略优于男性，但这些差异很大程度上可归因于任务类型和文化背景。男性在强调细节的言语任务中表现出更大的变异性（Abdulla Alabbasi等人，2025年），这意味着言语能力和努力程度可能独立于实际创造力影响分数。然而，Taylor等人（2024年）指出，当考虑各种创造性思维任务和其他类型的创造性表现测量时，男性的这种较大变异性并不明显。相反，他们发现性别平等程度较高的社会中，性别变异性差距较小，这突显了社会规范、政策和实践等外部因素的影响。

外部影响也体现在SES与创造力的关联中。Acar等人（2023年）的元分析发现，家庭SES对创造力有轻微但显著的影响，尤其是当父母受教育程度较高时，这种影响更为明显——这可能是由于父母提供了丰富的创造力培养体验。虽然个人、家庭和社会因素可以塑造创造力，但尚不清楚分数差异是否反映了真实能力或与测量无关的变异。实际上，当群体间的分数变异性不同时，群体均值比较可能会产生误导。例如，He和Wong（2021年）研究了206名香港大学生的创造性思维任务，发现性别间的平均差异微乎其微，但男性的整体变异性更大——尤其是在图形创造力方面，男性在低分和高分极端群体中的比例都较高。Abdulla Alabbasi等人（2025年）的元分析汇总了187项专门研究差异思维（DT）的任务，一致发现男性的变异性大于女性，表明男性在DT任务中的分数分布比女性更广。相比之下，Taylor等人（2024年）在综合194项研究（包括创造性问题解决等不同类型的创造性思维任务）时发现性别变异性差异不大。然而，他们也包含了一些不一定评估创造性思维的任务，如创造性成果和产品参与度测量。尽管如此，两项近期元分析关于男性变异性的结果并不一致，需要进一步的实证证据。

有趣的是，Taylor等人（2024年）发现性别平等价值观（即促进性别平等的社会共享价值观）仍然会影响男性的变异性，表明与性别角色相关的文化期望或社会价值观可能间接影响性别变异性差距，这可能是通过机会和个人或集体信念的差异实现的。这种模式表明，某些题目可能对群体中的某些子群体有利或不利，当涉及社会背景因素时，情况变得更加复杂，这进一步强调了检查DIF的必要性——DIF是评估公平性的最常见方法之一。

尽管创造性评估中的公平性非常重要，但很少有研究对其进行心理测量学上的探讨，且研究结果不一。Qian和Wang（2020年）通过分析创造性思维量表发现，尽管女性、西班牙裔和英语学习者（ELL）学生的潜在创造力相同，他们在被标记为DIF的题目上得分较低。Cotter等人（2023年）也在艺术参与学生和非艺术学生之间的美学流畅性量表中发现了DIF，表明艺术接触可能会影响分数，无论其真实能力如何。相比之下，Dumas和Alexander（2018年）研究了一个关系推理量表——部分反映了远程联想思维——发现性别、语言或种族之间没有DIF，表明评估具有文化公平性。鉴于关于创造性思维评估的DIF结果不一致，这一公平性问题对于旨在进行跨群体（包括跨文化）比较的PISA CT尤为重要。目前关于PISA CT中DIF的研究很少。迄今为止，只有Jung和Chung（2025年）研究了韩国学生的PISA 2022 CT评估，发现迭代模型中没有一致的DIF现象，但这仅限于一个国家且仅测试了性别，限制了普遍性。

学者们强调在解释PISA CT中的群体差异时需谨慎。Rutkowski和Rutkowski（2025年）建议在进行跨群体比较之前先评估文化等价性和题目功能。álvarez-Huerta等人（2025年）也批评PISA的框架存在同质化风险，并忽视了文化细微差别，指出创造性思维的定义受到语言、价值观和当地范式的塑造。Taylor（2025年）建议在解释群体差异之前透明地报告公平性分析结果。总之，简单地比较群体均值可能会掩盖创造性评估中的潜在偏差。必须同时评估外部环境影响和心理测量学属性（如DIF和变异性），以确保群体比较反映的是创造力的真实差异而非测量 artifact。

国际大规模评估（ILSAs），如PISA和TIMSS，旨在比较不同国家之间的教育表现。为了在不同语言、文化和教育背景的国家之间进行有意义的比较，需要测量不变性。测量不变性是公平比较的基础，意味着对于相同能力水平的受访者，题目应具有相同的功能，无论其所属群体如何。DIF分析能够在题目层面检测到这一原则的违反，因此在ILSAs中被视为强制性而非可选的程序。现有研究表明，国际调查中的DIF确实普遍存在（Joo等人，2022年；Oliveri & von Davier，2014年）。鉴于参与国家地理区域、语言家族和教育传统的多样性，这些跨国比较特别具有挑战性，因此系统地处理DIF对于有效的国际排名和政策解读至关重要。PISA 2022的结果强调，跨国家和语言的可比性是指导工具开发和选择IRT缩放模型的核心考虑因素，具体规定了通过多群体IRT模型验证测量等价性的程序（OECD，2023年）。

PISA 2022 CT评估存在较高的DIF风险，因为它涉及开放式创造性回答，存在多种有效的评估方法，需要大量的人工判断，这引入了额外的偏差来源。高度依赖人工评分会导致跨文化背景下的系统偏差，其中92.36%的CT回答需要人工评估（OECD，2024b）。此外，CT项目的评分者一致性标准设定为70%，而其他领域为85%，反映了评估中的固有挑战（OECD，2024b）。尽管进行了全面的评分者培训，文化背景和隐性偏见仍可能影响创造性回答的解读，导致国家间的系统评分差异。在CT评估中，由于开放式回答需要大量人工评分，系统性的评分者效应或评分标准解释的差异可能会增加国家间DIF的可能性。这突显了进行多种DIF分析的必要性，以确保创造性评估的公平性和有效性。

传统上，DIF分析依赖于预定义的群体比较，研究人员根据理论或实证证据提前指定焦点群体和参考群体，然后检查在控制总体能力后，焦点群体和参考群体在题目上的正确回答概率是否系统性地不同。虽然这种方法概念上直观且能直接说明哪个群体受益或受损，但其范围有限：只有预先指定的群体才能检测到DIF，这意味着一些意外的但关键的DIF来源可能被忽略。此外，如果题目偏差源于多种背景特征之间的交互作用或不可观察的子群体，这种DIF可能无法被检测到。

另一种方法是基于潜在类别的DIF检测方法，该方法不需要预先指定群体。相反，潜在类别模型（如混合IRT模型）可以识别表现出不同题目参数估计的潜在子群体。这种方法在统计上更为严谨，能够揭示意外的DIF模式（Chen & Jiao，2014年；Cho等人，2016年；Cohen & Bolt，2005年；de Ayala等人，2002年）。然而，所得到的潜在类别往往难以解释，因为它们的定性特征通常不直观。为了解决这一限制，研究人员通常会进行事后分析，以查看观察到的协变量如何随识别的潜在类别变化。为了弥合这两种方法之间的差距，有人提出了将决策树模型与IRT等统计模型结合的基于树的方法（Komboz等人，2018年；Strobl等人，2015年）。本质上，在基于树的方法中，数据通过重复的统计测试进行递归划分，这些测试用于检查模型参数的差异（例如，IRT中的项目难度）。Rasch树（Strobl等人，2015年）是一种用于检测二元数据差异（DIF）的基于树的方法模型，而部分信用树和评分量表树（Komboz等人，2018年）则扩展用于多分类数据。这些模型中的划分过程遵循三个步骤。第一步是通过对整个数据拟合IRT模型（例如Rasch模型或部分信用模型）来估计项目参数。第二步是测试第一步中估计的项目参数的不稳定性，以评估数据中解释变量的显著差异。当检测到估计参数与给定解释变量之间存在系统模式时，认为该项目参数相对于该变量是不稳定的。对数据中所有可能的解释变量组合重复进行不稳定性测试，从而能够在单一的统一分析中检测到DIF。最后一步是根据表现出最大项目参数不稳定性的解释变量来分割数据。例如，如果项目参数相对于年龄的不稳定性最大，那么其模式显示15岁以下的学生的项目参数低于15岁及以上的学生。在这种情况下，数据被划分为两个子集：15岁以下的学生和15岁及以上的学生。在第一次数据分割后，通过将IRT模型拟合到每个子集上来重复估计步骤（即第一步），然后进行随后的两个步骤。这三个步骤不断迭代，直到在0.05的显著性水平上不再观察到项目参数的显著不稳定性。在实践中，通常还会应用额外的停止标准，如子集的最小规模，以避免过拟合并提高可解释性。计算细节在Strobl等人（2015年）和Strobl等人（2021年）的研究中提供。

总之，基于树的方法通过系统地探索所有可以从可用解释变量中定义的潜在子组来检测DIF（Effatpanah等人，2025年；Henninger等人，2025年；Strobl等人，2015年）。这种方法足够灵活，可以适应不同项目对不同子组可能表现出DIF的情况，需要针对每个假设的分组进行单独分析。例如，一个创造性思维任务可能表现出与学生语言背景相关的DIF，而另一个任务可能表现出与性别相关的DIF。基于树的方法自然地适应了这些变化，因为每个项目的DIF分析都是针对与该项目最相关的子组进行的。这种效率在检查大量项目时尤其有价值，如在PISA框架中，目标不仅是检测有偏差的项目，还要理解导致这种潜在偏差的背景和人口统计因素。此外，在基于树的方法模型中划分的子组可以通过多个解释变量的明确组合来定义（例如，家中说非测试语言的女学生），这是由于后续的数据分割。这在像PISA这样的大规模评估中尤为重要，因为背景因素之间的复杂交互作用可能会影响表现。此外，连续变量（如年龄）可以直接用作潜在的分割变量，而无需基于均值或众数等截点进行任意离散化，从而避免由于任意离散化而导致的信息损失。

鉴于这些考虑，本研究旨在使用PCtree模型来检查PISA 2022 CT评估中的DIF。具体来说，我们调查CT项目在不同性别、经济和社会文化地位（ESCS）以及移民背景定义的子组中的功能是否有所不同。使用PCtree，我们识别出表现出不同响应模式的子组，并通过逻辑序数回归评估项目级别的DIF。这种方法使我们能够检测到传统单变量方法可能忽略的复杂交叉DIF模式，从而为PISA 2022 CT评估的测量公平性提供实证证据。以下部分描述了本研究中使用的数据和分析程序。

**数据片段**

PISA 2022 CT评估设计为提供五个项目簇中的两个组合（OECD，2024b）。为了减轻由于评估设计和潜在项目顺序效应导致的系统缺失，分析仅限于具有固定项目簇组合和呈现顺序的项目响应。选择了包含15个项目（8个来自一个项目簇CT1，7个来自另一个项目簇CT2）的表37，因为其中包含的项目数量最多。

**识别表现出DIF的子组：PCtree模型**

应用PCtree模型来检查PISA 2022中学生对CT项目的响应是否因性别、ESCS和移民背景而有所不同。如图1所示，通过五个连续的分割节点（用圆形节点1、2、3、7和8表示），分类树产生了六个终端节点（即节点A ～ F）。这种树结构表明违反了测量不变性假设，即CT项目对所有学生群体的功能并不相同。

**讨论**

本研究使用PCtree模型研究了PISA 2022 CT项目中的DIF，这是一种基于树的方法，能够探索多个人口统计变量及其交互作用中的DIF。结果显示PISA 2022 CT项目存在DIF，所有15个项目在六个子组中都表现出DIF。需要注意的是，这些发现基于单个表（表37）中的15个项目，并不涵盖整个PISA 2022 CT项目池。尽管个别项目的效应大小...

**局限性和未来研究方向**

虽然PCtree方法成功识别了复杂的交叉DIF项目，但它也有一些局限性。交叉DIF模式并不一定转化为特定子组的系统优势或劣势，这在传统的DIF分析中通常是预期的。实际上，本研究中识别的九种DIF类型很难直观地解释哪些项目对特定群体有利。然而，重要的是PCtree...

**结论**

我们使用PCtree模型检查了PISA 2022 CT评估中的DIF，发现所有15个项目在多个人口统计因素中都表现出DIF。然而，个别项目的效应大小可以忽略不计。尽管如此，DIF在所有15个项目中都被系统地检测到这一点值得关注，因为累积效应可能导致评估层面的显著差异（DBF或DTF）。鉴于本研究仅分析了单个表（表37）中的15个项目...

**手稿准备过程中生成式AI和AI辅助技术的声明**

在准备这项工作时，作者使用了ChatGPT和Claude来确保手稿用正确的英语撰写。我们还利用ChatGPT来识别相关参考文献的来源。使用这些工具/服务后，作者根据需要审查和编辑了内容，并对已发表文章的内容负全责。

**CRediT作者贡献声明**

Juyeon Lee：撰写——原始草稿、验证、概念化。Yoonsun Jang：撰写——原始草稿、可视化、软件、方法论、正式分析、数据管理、概念化。Sue Hyeon Paek：撰写——原始草稿、验证、概念化。

**利益冲突声明**

作者声明没有利益冲突。

联系信箱：

粤ICP备09063491号

热点排行