评估本科生微观经济学课程中的能力：一种基于心理测量学的测试验证方法

《International Journal of Management Education》：Assessing competencies in undergraduate microeconomics: A psychometric approach to test validation

【字体：大中小】 时间：2026年05月10日 来源：International Journal of Management Education 7.4

编辑推荐：

　　曼努埃尔·萨拉斯-韦拉斯科格拉纳达大学，应用经济学系，卡图哈校区，18071，格拉纳达，西班牙 **摘要** 本研究探讨了长期以来缺乏经过心理统计验证的评估工具的问题，这些工具用于评估本科微观经济学中的高阶能力——这些能力对于与可持续发展目标4（优质教育）相一致的

　　曼努埃尔·萨拉斯-韦拉斯科
格拉纳达大学，应用经济学系，卡图哈校区，18071，格拉纳达，西班牙

**摘要**
本研究探讨了长期以来缺乏经过心理统计验证的评估工具的问题，这些工具用于评估本科微观经济学中的高阶能力——这些能力对于与可持续发展目标4（优质教育）相一致的可持续人力资本形成至关重要。本研究旨在设计和验证一种基于布鲁姆修订分类法的简短多维评估工具，涵盖概念推理、图形解释和定量问题解决能力。通过收集商科本科生的数据，实施了一套严格的心理统计流程，包括多维筛选、探索性因子分析、主成分分析、Rasch（项目反应理论，1PL）校准和验证性因子分析。最初的40个项目被缩减为简洁的12个项目，同时保持了测量精度。根据Rasch模型的要求，这些项目具有共同的区分参数，难度估计值落在推荐的-3到+3范围内。项目特征曲线（ICCs）显示适当的水平分散度：概念性项目集中在较低的难度级别，图形项目在潜在连续体上分布最广，定量项目的难度从容易到中等不等，其平行斜率支持1PL假设。三因子结构表现出极好的拟合度（RMSEA = 0.000；CFI = 1.000）。回归结果表明，定量能力（标准化β = 0.363，p < 0.001）和概念理解（标准化β = 0.238，p = 0.029）显著预测了课程表现，解释了26.2%的分数方差。未观察到性别或年级之间的项目功能差异。总体而言，研究结果证实了经济认知的多维性质，并为定量导向学科提供了可扩展的基于Rasch的评估框架。

**1. 引言**
本研究为实现联合国可持续发展目标（SDGs）做出了贡献，特别是在提高高等教育质量（SDG 4）和技能发展方面，尤其是目标4.4，该目标强调获得与就业相关的技能和技术能力。近期研究强调了教育和职场学习在促进疫情后可持续人力资本发展、韧性和创新方面的重要作用（例如，Piwowar-Sulej等人，2024；Piwowar-Sulej等人，2025）。有效的技能发展计划支持学生和员工之间的适应性和可转移能力，同时培养符合可持续性原则的生态创新和合作行为（Piwowar-Sulej等人，2025）。此外，COVID-19危机暴露了在不确定性下加强参与度、领导力和创业意愿的教育和组织干预的必要性（例如，Chahal等人，2023；Chauhan等人，2023；Gaan等人，2024）。通过整合这些见解，本文设计并验证了一种简要的评估工具，用于测量三种核心微观经济能力——概念推理、图形解释和定量问题解决，采用现代心理统计框架（Rasch/IRT）。这种方法不仅能够生成跨学生和年级的精确、可比的能力估计，还能促进可持续人力资本的形成（SDG 8），推动教学测量的创新（SDG 9），并实现跨年级的学生学习成果的可互操作监控（SDG 17）。

实证证据表明，毕业生劳动力市场最需要的能力主要是可转移技能——即在一个环境中获得的能力，可以在不同的职业场景中有效运用（Salas-Velasco，2014）。此外，雇主一直强调专业知识的重要性，特别是能够在特定学科或专业领域展示出精通程度的能力（Salas-Velasco，2014）。对于商科本科生来说，经济分析能力对于学术成就和就业准备至关重要。它使毕业生能够评估市场结构、预测经济趋势，并做出数据驱动的决策——这些技能在金融、咨询和政策等领域至关重要（Jackson，2016）。正如Jackson所指出的，表现出强大分析和问题解决能力的毕业生更有可能成功过渡到专业角色并适应复杂的工作环境。

尽管中级微观经济学课程旨在培养分析思维和问题解决能力，但越来越多人担心学生是否真正发展出了这些高阶认知技能。Sekwena（2023）指出，学生经常难以应对复杂的问题分析，主要是因为经济学教学仍然主要依赖于传统的以讲座为中心的方法。这些方法往往将学生视为信息的被动接收者，而不是学习过程中的积极参与者，限制了他们参与图形推理和分析问题解决任务的机会。因此，预期的认知发展可能不完整，这引发了关于当前教学实践在促进深度微观经济理解方面的有效性的质疑。为应对这些持续存在的问题，作者结合丰富的微观经济学教学经验，在多个学年中实施了主动学习作为核心教学方法。这种方法将微观经济学转变为一个参与式学习环境，促进学生的参与度，加深概念理解，并培养高阶思维能力。这种教学设计的核心是根据布鲁姆修订的分类法（Anderson & Krathwohl，2001）围绕三个主要认知维度组织课程：概念推理、图形解释和定量问题解决。为了支持这一教学转变，开发了一套全面的材料，包括理论教科书（Salas-Velasco，2018a）、练习册（Salas-Velasco，2018b）、微观经济学数学辅助手册（Salas-Velasco，2017）、公开可用的讲座幻灯片（Salas-Velasco，n.d.-a）以及涵盖理论和应用的免费视频（Salas-Velasco，n.d.-b）。该课程在全国范围内的商科本科课程中是必修课，但每个系在教学和评估方法上保持自主权。课程在一个学期内进行，每周有4小时的教学时间，分为三个部分，涵盖消费者、生产者和不同市场结构。

在这些创新的基础上，本研究旨在测量学生在中级微观经济学中培养的认知维度。开发了一种专门的评估工具，用于评估概念推理、图形解释和定量问题解决能力。虽然与该领域标准教学大纲中的基础主题一致（例如，Pindyck & Rubinfeld，2013；Varian，2002），但该工具通过强调学生与理论、视觉模型和数学分析的认知互动，区别于传统的评估方法。这种多维方法解决了文献中的两个长期存在的问题：缺乏针对高阶技能的简短、经过验证的工具，以及关于在真实课程环境中可靠性和公平性的证据有限（Bamiro等人，2024）。

项目分析采用项目反应理论中的一参数逻辑模型（1PL），该模型可以准确估计学生的潜在能力，并评估项目与个体之间的分离情况以及是否存在性别或年级差异。这是首次将Rasch模型具体应用于本科微观经济学能力评估，提供了一个可复制的心理统计框架，使评估能够超越表面层次的回忆，迈向细致的分析能力。通过提供跨学生和年级的可解释、可比的能力估计，这种方法支持基于证据的教学、有针对性的反馈和高等教育中的项目质量改进，同时有助于培养可持续的、可转移的、与劳动力相关的技能。

**1.1 研究问题、目标和创新性**
本研究解决了经济学教育中的一个长期存在的问题：缺乏能够捕捉高阶微观经济能力（超越事实回忆）的简短、经过心理统计验证的工具，并且能够在不同年级间提供可靠、公平和外部有效的评估。具体来说，现有的课堂评估很少提供项目级别的诊断、不变性测试或关于不同认知技能领域（概念、图形、定量）的理论一致证据。我们的目标是设计并验证一种基于布鲁姆修订分类法的简洁工具，使用Rasch（1PL）模型和验证性因子分析来测量这些能力，并明确测试单维度性、局部独立性、性别和年级差异项目功能以及与课程表现的相关有效性。本文的创新性在于，据我们所知，这是第一个明确针对中级微观经济学的基于Rasch的多维能力评估，它（i）展示了心理统计的合理性，（ii）在不同学生群体和年级中产生了可比的能力量表，（iii）表明定量和概念能力显著预测了课程结果，从而为教师提供了可扩展的、基于证据的工具，用于形成性诊断和项目质量改进。

**2. 理论背景**
本研究基于认知心理学的原理，该学科研究学习、推理和问题解决所涉及的心理过程。认知指的是与知识相关的所有心理能力和过程，包括注意力、记忆、判断、推理、问题解决和决策等其他重要功能。作为一门跨学科领域，认知科学分析这些心理功能和过程，以更好地理解个体如何获取和应用知识（Quinlan & Dyson，2008）。在教育研究中，这些认知过程通常通过如布鲁姆修订的分类法（Anderson & Krathwohl，2001；Krathwohl，2002）等框架进行结构化，该分类法将学习目标分为六个层次：记忆、理解、应用、分析、评估和创造。这一分类法为教学设计与期望的学习目标保持一致提供了教育框架，并能够系统地评估学生表现的认知复杂性。正如Metzgar（2023）所指出的，经济学教科书中的问题往往在不同认知复杂度水平上吸引学生，从基本回忆到高阶的分析和评估任务。

在微观经济学的背景下，这些认知过程体现在与学科内容的多种互动方式中，这些方式可以大致概括为三种互补的能力：概念推理、图形解释和定量问题解决。每种能力激活了布鲁姆修订分类法中分类的不同认知过程，使学生不仅能够记住和理解经济原理，还能基于经济模型和数据应用和分析解决方案。这些能力与布鲁姆认知框架的对应关系，以及来自核心微观经济学主题的示例图1中进行了展示。该图通过将每种认知维度与中级微观经济学课程中常见的具体学习目标和代表性任务联系起来，框定了微观经济学习的多维性质。

**2.1 概念推理能力**
认知心理学的研究强调记忆和理解如何支持理论原则的内化和应用，特别是在结构化的学习环境中（Kang，2024）。在微观经济学中，概念推理不仅仅涉及回忆定义和公式；它还包括理解潜在的经济机制，并将这些概念应用于各种情景。这一认知过程涵盖了布鲁姆修订分类法的多个层次，包括记忆、理解和应用（Anderson & Krathwohl，2001）。通过这些阶段的进展，学生不仅掌握了理论概念，还能够分析和应用它们到实际情境中。

第一个层次是记忆，指的是回忆基本经济事实和原理的能力。在微观经济学中，这包括记忆定义和公式，例如需求弹性。虽然重要，但这只是更深层次经济推理的起点。根据Kang（2024）的观点，记忆只是更广泛过程中的一个要素，理解和应用在强化对这些概念的理解中起着关键作用。最近在认知心理学和教育心理学中的研究表明，将主动回忆与应用学习活动相结合显著提高了长期记忆和概念理解（例如，Moreira等人，2019）。尽管这些结果来自更广泛的学习背景，但同样的机制——加强检索过程和促进知识的应用——可以直接应用于经济原理的学习。

下一个层次是理解，涉及理解驱动经济行为的机制。例如，学生必须理解垄断市场中三级价格歧视的运作方式——不仅仅是其定义，还包括垄断者如何通过向不同消费者群体收取不同价格来最大化利润。这一层次对于建立经济推理的基础至关重要，因为学生从被动回忆转向主动理解概念在动态系统中的相互关系。布鲁姆的分类法强调，理解不仅仅是识别概念，还包括理解它们的应用和影响（Krathwohl，2002）。能够用自己的话解释现象的学生更能理解这些概念在现实世界中的相关性（Rittle-Johnson等人，2017）。在微观经济学中，这意味着能够解释当前全球市场条件的变化（如近期原油价格的上涨）如何影响均衡结果。油价上涨增加了许多行业的生产和运输成本，有效地减少了供应并推高了均衡价格。能够用自己的话表达这些机制的学生展示了对理论模型如何映射到现实经济事件的深刻理解。

布鲁姆修订分类法中的最高层次是应用，指的是在现实世界情境中使用理论知识。在经济学中，这意味着能够将理论概念应用于解决复杂问题或分析经济政策。例如，在学习三级价格歧视时，学生不仅需要识别其特征，还要确定其适用情况，并评估其对福利的影响。这包括评估这种做法是否会导致市场更加高效或更不公平的结果。这类应用学习活动有助于学生将理论知识转化为实际的经济决策技能，这些技能在经济领域至关重要。此外，参与应用经济推理的学生更能够识别政策的经济影响，并基于经济模型做出明智的决策。

2.2. 图形推理能力
解读、分析和构建图形表示的能力对于理解和批判性评估经济现象是基本的，这一点通过最近关于经济图形能力的研究得到了加强，这些研究使用IRT（项目反应理论）来记录图形的中心性和持续的性能差距（Ring & Oberrauch, 2024）。在微观经济学领域，图形推理不仅仅是简单的视觉识别；它还包括解码符号关系、识别功能依赖性以及将抽象的理论模型转化为更容易操作和评估的空间表示——在这些方面，当任务要求跨不同表示形式进行整合和更复杂的视觉推断时，学生的准确性会显著下降（Ring & Oberrauch, 2024）。这些技能与布卢姆修订的分类法中描述的高级认知过程密切相关，特别是分析变量间关系、评估经济权衡以及跨多种表示形式综合信息的能力（Metzgar, 2023）。例如，当学生处理成本曲线（如平均总成本、平均可变成本和边际成本）时，他们不仅需要识别其形状，还需要理解背后的经济机制，包括收益递减和成本最小化行为；最近在经济学课程中使用Rasch/IRT的测量研究表明，题目难度正是沿着这些多曲线、概念加视觉任务逐步增加的（Chow & Shiu, 2020; Ibrahim et al., 2024）。关于经济学教育的文献一致指出，学生经常在图形表示方面遇到困难，尤其是在需要协调多条曲线或在代数形式和图形形式之间转换时（例如，B?zoi, former, & B?zoi, 2025; Chao & Maas, 2017; Cohn et al., 2004; Hill & Stegner, 2003; Takemura, 2020）。最近对图形能力工具的IRT分析证实，那些超出基本图形操作的题目（例如，解释无差异曲线、成本结构或供需变动）要困难得多（Ring & Oberrauch, 2024）。研究表明，这些困难源于概念误解和有限的视觉空间推理能力，这可能会妨碍对斜率、截距和均衡点的准确解读。此外，认知和教育测量研究表明，初学者倾向于表面化地处理图形——只关注显著特征——而专家则表现出更全面和关联的理解。最近将Rasch模型应用于大学评估的例子说明了这种专家与初学者的差异如何转化为可测量的题目难度和区分模式（Chow & Shiu, 2020）。这种差距强调了明确教授图形推理作为一种独立能力的重要性，而不是假设它能够隐性地发展，这一结论在最近关于图形能力和教学设计的经济学教育研究中得到了呼应（Ring & Oberrauch, 2024）。图形素养还构成了一套可转移的技能，其在经济学之外的领域（如数据科学、商业分析和公共政策）也有广泛的应用——在这些领域，对视觉证据的关键评估是不可或缺的。全球技能报告强调，视觉分析解释是21世纪的核心能力，具有劳动力市场的相关性（经济合作与发展组织[OECD], 2023, 2025）。随着图形被广泛用于传达复杂论点和实证结果，批判性评估视觉信息的能力变得越来越重要。国际技能展望和未来工作分析预测，各行业对这些能力的需求将持续存在（OECD, 2025; 世界经济论坛, 2025）。在微观经济学教育中，学生经常需要整合图形和分析推理——例如，使用成本曲线结合给定的市场价格来确定竞争性公司的利润最大化产出——这包括找到价格-边际成本交叉点、比较产出与平均总成本，并推断利润或损失。实证研究表明，正是这些多表示任务加剧了难度，并揭示了学生在图形概念整合方面的差异（Ring & Oberrauch, 2024）。这类活动表明，图形推理不仅支持程序性问题解决，还支持更深层次的概念理解和经济直觉；最近在经济学教育中使用Rasch的课程嵌入式评估展示了如何通过校准题目来诊断这些混合的概念-视觉能力，以便提供教学反馈（Chow & Shiu, 2020; Ibrahim et al., 2024）。

2.3. 定量推理能力
定量推理能力是指理解、解释、分析和解决涉及数字、数据和数学关系问题的认知能力。它涉及应用数学程序、逻辑推理以及基于数字和定量表示制定解决方案（Amland et al., 2025）。在经济学教育中，定量推理被广泛认为是发展领域特定专业知识的核心前提，因为它使学生能够将理论构建转化为正式模型，并使用数学工具评估经济结果。最近的高等教育研究表明，商业和经济学中的定量推理不仅仅是一般的数学能力，而是一种特定领域的认知技能，这种技能在学生处理嵌入在真实学科任务中的数字信息时显现出来。Schmidt等人（2023）将领域特定的定量推理定义为在现实世界的经济和商业背景下使用数字、算术运算、图形和定量模式进行推理的能力。他们的结果表明，这种技能可以与一般经济知识区分开来，并且可以使用现有的评估工具（如TUCE和EGEL）可靠地测量，突显了它对学生经济学问题解决表现的独特贡献。从认知角度来看，定量问题解决激活了程序性和分析性认知，要求学习者协调符号操作、概念理解和战略推理（Star & Newton, 2009）。这些认知需求在微观经济学中尤为明显，学生必须解释功能关系、操作代数表达式并评估边际条件——这些技能与高级分析思维密切相关。例如，当学生制定并解决生产者的双重优化问题时，他们必须在技术约束下最小化总生产成本，这通常由生产函数表示。这项任务需要将数学推理与经济直觉相结合，应用拉格朗日优化技术，并解释由此产生的条件因子需求（Varian, 2014）。此外，实证证据表明，具有较强定量推理能力的学生更好地理解经济权衡、评估政策影响，并能够基于正式模型做出明智的决策（Caplin et al., 2023）。因此，定量推理作为抽象理论与应用经济推理之间的认知桥梁，在培养经济专业知识方面发挥着核心作用。正如Schmidt等人（2023）所论述的，加强领域特定的定量推理不仅对学术成功至关重要，也有助于学生应对复杂的数据丰富环境。

图2提供了第2节回顾文献的结构化总结，重点介绍了关键作者、他们的贡献及其与当前研究的相关性。例如，解决微观经济学中的定量练习通常需要扎实的概念基础；在这种情况下应用边际分析，往往需要熟悉效用理论、成本结构以及使用导数或其他定量方法的能力。同样，解释图表不仅需要视觉解码技能，还需要能够将图表表示与潜在的理论原则联系起来。因此，最初的假设是，项目回应可能同时受到多种潜在能力的影响，而这些能力可能是相互关联的，而不是彼此独立的。在这种情况下，应该应用多维度项目反应理论（MIRT）模型（Embretson & Yang, 2006）。3.3.1. 认知维度的多维度IRT建模为了准确地建模我们研究中涉及的潜在特征，我们首先采用了多维度IRT方法。使用R语言中的mirt包，我们估计了多维度Rasch模型，该模型允许根据认知维度对项目进行分组，同时评估潜在特征之间的协方差。这种方法提供了一个实证框架，以确定微观经济学的概念、图形和定量维度是否作为独立但可能存在关联的能力。如果发现潜在特征是独立的，那么我们可以继续拟合三个单独的单维度Rasch模型（1 PL），每个认知维度一个：概念理解、图形推理和数学推理。然而，在这样做之前，评估每个维度的内部结构是至关重要的，以确保分组项目内的单维度性，因为违反这一假设可能导致单维度IRT模型中的参数估计不准确（Embretson & Yang, 2006）。3.3.2. 潜在结构的探索性分析在实践中，单维度性意味着测试中的所有项目都是为测量单一的潜在维度而设计的。最直接的实证方法是通过因子分析来测试这一假设，具体来说是通过评估单因素模型对数据集的拟合度（De Champlain, 2010）。在Lumsden的方法中，进行因子分析，并移除不测量在因子解决方案中识别出的主要因素的项目（Hambleton & Swaminathan, 1985）。在本研究中，使用多项式相关性的探索性因子分析（EFA）来验证每个认知维度内的单维度性，这是Stata对二元数据的默认方法（StataCorp, 2024），该方法为二元项目回应提供了稳健的估计（Flora & Flake, 2017）。为了明确测试单维度性，分析被限制在每个认知维度的一个因子提取上。检查了每个维度的因子载荷，并保留了对潜在特征有显著贡献的项目。为了进一步评估单维度性，进行了主成分分析（PCA），并检查了碎石图。明显的“肘部”和第一个成分后的特征值大幅下降被解释为主要因素和单维度结构的证据。确立单维度性确保每个维度内的项目回应主要由一个潜在特征驱动，这对于IRT模型中的有效参数估计至关重要。一旦在每个认知维度内实证支持了单维度性，就拟合了三个独立的一参数逻辑（1 PL）项目反应理论模型，以估计项目难度和参与者的潜在能力。3.3.3. 项目反应理论（IRT）和Rasch模型项目反应理论（IRT），也称为现代测试理论，是一个用于建模个体潜在特征（如能力）与其对评估项目回应之间关系的框架。IRT将对项目的特定回应的概率表示为项目参数（例如难度）和个人参数（例如能力）的函数。有各种IRT模型；关键区别在于包含的项目参数数量。有关该领域的全面概述，请参见De Ayala (2022)。一参数逻辑（1 PL）IRT模型，也称为Rasch模型，仅基于个人能力和项目难度之间的差异来描述正确回应的概率：P(correct) = e^(θ?b)/(1 + e^(θ?b))，其中θ = 个人能力，b = 项目难度。Rasch模型假设所有项目都具有相同的区分度——只有项目难度不同。个人能力和项目难度都被映射到一个单一的尺度上。这意味着个体和项目都在同一个连续体（尺度）上表示，其中较低的值对应较低的能力或难度，较高的值对应较高的能力或难度。能力θ是不可观测的，但可以根据受试者对一组项目的回应来估计（Hambleton & Swaminathan, 1985）。能力θ最重要的属性是它独立于受试者回答的项目集以及其他受试者的表现（Hambleton & Swaminathan, 1985）。1 PL模型的一个核心组成部分是项目特征曲线（ICC），它图形化了正确回应的概率作为受试者能力的函数。ICC遵循S形逻辑函数，说明了正确回应的概率随能力单调增加。ICC的x轴对应于能力估计。项目难度对应于受试者有0.5概率正确回答项目的能力水平。在一参数逻辑模型中，项目特征曲线是不相交的，并且仅在不同能力尺度上有水平位移。具有这种特征曲线的项目仅在难度参数上有所不同（Hambleton & Swaminathan, 1985）。3.3.4. 设计一个有效且可靠的测试来衡量微观经济能力如前所述，初始的40个项目根据其目标认知维度（概念、图形和定量）进行了分类，这是基于该工具的理论框架。然后指定了一个确认性的多维度Rasch（MIRT）模型，并将其拟合到完整的项目集上，每个项目仅加载在其假设的维度上。该模型用于评估所提出的三维结构是否得到数据的支持，并检查潜在能力之间的关系。估计的因子相关性很小且不显著，表明样本中的认知维度之间没有显著的关联。因此，分析继续对每个维度进行独立的单维度校准。在每个维度内，进一步使用EFA和PCA检查单维度性，仅保留加载在主要单一因子上的项目。随后使用单维度Rasch（1 PL）模型对精炼的项目子集进行校准，以估计项目难度参数和个人能力水平。这种顺序建模策略——从理论基础上的确认性多维度模型开始，然后简化为单独的单维度模型——确保了一种统计上连贯且简洁的量表开发方法。基于这些心理测量分析，最终构建了一个简洁可靠的工具，用于评估三个认知维度上的微观经济能力。具体来说，开发了一个包含12个项目的微观经济学测试，以评估概念理解、图形解释和定量推理。在经典和现代测试理论中，总体目标是获得达到足够可靠性所需的最少项目数量（Ashraf & Jaseem, 2020）。接下来介绍了最终12个项目微观经济能力测试的心理测量评估。首先，对精炼的12个项目集进行了确认性因子分析（CFA），以评估之前的探索性因子分析（EFA）所建议的因子结构。CFA检查了项目是否一致地加载在三个认知维度（概念、图形和定量）上，并使用多个拟合指数（例如Chi-square、CFI、RMSEA）来评估所提出结构的适当性。检查了因子载荷，以确保每个项目对其预期维度都有有意义的贡献。这项分析对12个项目测试的因子结构进行了确认性评估，支持将项目组织到三个认知维度中，以便进行后续的心理测量分析。其次，在因子确认之后，分别对每个认知维度内的项目应用了一维1 PL IRT模型。这些模型产生了对应于测试测量的三种不同微观经济推理能力的潜在特征估计（θ）。为了进一步说明项目表现，为最终的12个项目测试生成了项目特征曲线（ICCs），描绘了正确回应的概率作为每个项目的潜在能力（θ）的函数。第三，从可靠性和标准相关效度的角度评估了测试的心理测量质量。测试可靠性指的是评估在重复施测过程中产生一致、稳定和精确结果的程度。一个可靠的测试在一致条件下会产生相似的分数，表明随机误差的影响最小。在项目反应理论（IRT）框架内，使用测试信息函数（TIF）在局部评估了可靠性，该函数反映了测试在每个潜在特征水平（θ）下的精确度。经典可靠性度量，如Cronbach's alpha，在IRT框架内不适用。标准相关效度是指测试分数与适当反映所测量构念的外部标准之间的相关性程度。在这项研究中，进行了回归分析，其中因变量是微观经济学的最终课程成绩，自变量是从12个项目测试中估计的三个微观经济能力。这种方法通过检查测试测量的认知技能如何解释学生的学术表现来提供标准相关效度的证据。最后，为了对外部评估该工具，使用了参加测试的最新学生群体的数据。不同群体之间的教师、课程内容和评估方法是相同的。只要项目参数（即难度参数b）相对于能力来说是稳定且独立的，就认为外部有效性得到了维持。此外，外部有效性被定义为工具分数（即每个认知维度的潜在能力估计θ）解释微观经济学课程最终成绩的程度。为了便于复制并向读者提供我们分析方法的简洁视觉概述，我们在本节的最后提供了一个完整的心理测量流程的示意图。该图综合了方法论的每个步骤——从构念定义和项目库开发到维度分析、Rasch校准、测试构建和有效性评估——突出了过程的逻辑顺序及其在其他学科背景下的适用性（图3）。下载：下载高分辨率图像（2MB）下载：下载全尺寸图像图3. 能力测试开发的全面心理测量流程。4. 结果4.1. 认知技能的多维度Rasch建模多维度项目反应理论（MIRT）通过同时建模多个潜在特征及其相互关系，扩展了传统的单维度IRT模型（1 PL、2 PL、3 PL），并估计每个项目如何贡献于一个或多个技能维度。当潜在维度是独立的——即能力之间存在显著相关性时——MIRT就变得 unnecessary，单独的单维度IRT模型提供了一个更简洁和易于解释的替代方案。首先对我们的微观经济学评估应用了一个多维度Rasch模型，该模型包含40个项目，分为三个不同的微观经济技能：概念理解、图形能力和定量/数学能力（附录表A1）。每个项目都被分配到其对应的技能簇中。使用R语言中的mirt包进行了估计（确认性MIRT），这使我们能够评估潜在特征之间的相关性。估计的因子相关矩阵表明，在这个样本中（N = 80），三个潜在技能维度——概念、图形和定量——之间的相关性很小且不显著。然而，鉴于样本量有限以及检测中等相关性的统计功效较低，这些结果应谨慎解释。结果表明，在这个样本中这些维度可能相对独立运作，但需要更大样本的进一步研究来得出关于它们结构独立性的明确结论。总之，三个认知技能之间小的和不显著的相关性表明，为每个技能领域分别使用单独的单维度1 PL（Rasch）模型进行后续分析是合理的。此外，鉴于样本量有限和多维度IRT估计的复杂性，这种方法有助于更稳定的估计以及更清晰地解释每个认知领域的学生能力，同时保持模型的简洁性。4.2. 心理测量分析和项目选择过程尽管在这个样本中估计的三个认知技能之间的相关性在统计上不显著，表明这些维度相对独立，但这并不一定意味着每个维度都是严格单维的。为了探索每个认知技能领域内的潜在子维度，进行了单独的EFA。考虑到研究的探索性质、三个不同的项目维度和相对较小的样本量（N = 80），决定将项目保留的最小载荷阈值设为0.25，这与对二元项目的探索性分析的建议一致（Comrey & Lee, 1992; Flora & Flake, 2017）。这一阈值与补充的PCA诊断方法一起使用——包括特征值、解释的方差比例以及对碎石图的仔细检查——以确保清晰的主成分是显而易见的。首先，对表A1中显示的17个概念项目进行了EFA（因子分析）。五个载荷低于0.25的项目被排除，随后进行了PCA作为补充的诊断程序。第一个主成分的特征值为2.39，解释了大约20%的总方差。碎石图在第一个成分之后显示出一个明显的拐点，表明存在一个主导的潜在因素，没有实质性的次要维度。这些结果支持了单一性假设，并证明了使用1PL IRT模型对表1中显示的12个项目子集是合理的。

表1. 横跨认知维度的经典项目和IRTbased项目分析。

对于表A1中显示的10个图形项目，也采用了类似的程序。在移除了3个载荷低于0.27的项目后，对剩余的子集进行了PCA。第一个成分解释了25.83%的总方差（特征值为1.81），碎石图再次显示出一个明显的拐点，表明这7个项目适合使用IRT模型进行建模。

最后，对表A1中显示的13个定量项目也采用了相同的方法。在排除了6个载荷低于0.27的项目后，PCA结果证实了单一性，第一个成分解释了28.27%的总方差（特征值为1.98），碎石图再次显示出了一个主导的主因子。因此，将1PL IRT应用于这7个项目子集（见表1）。

总之，在最初的40个项目中，通过EFA和PCA评估未能满足维度内单一性的项目被移除，剩下26个项目用于进一步分析。然后使用1PL IRT模型对这些保留的项目进行了分析，分别应用于对应于三个认知维度的微观经济学项目子集。表1显示了每个项目的估计难度参数b（最后一列）。1PL模型在考察的三个微观经济学技能维度上都得到了适当的收敛，对数似然值稳定（概念维度约为?474，图形维度为?347，定量维度为?344）。然而，项目难度的分布在不同能力之间有所不同。在概念维度中，大多数项目的难度值为负，表明这一部分主要由相对容易的项目组成。相比之下，图形维度的项目难度范围更均衡，从简单到具有挑战性的项目都有，从而更全面地覆盖了潜在特征。由于在1PL IRT模型中，区分参数在所有项目之间是共享的，我们通过经典项目分析（CIA）来进一步评估单个项目的功能。CIA提供了可靠的指标，如项目难度和项目区分度（Wang & Osterlind, 2013）。项目区分度是一种统计度量，用于评估测试项目在区分高表现和低表现学生方面的能力。对于每个认知维度，我们计算了每个选定项目与其对应维度总分之间的点二列相关性。这使我们能够评估每个项目在其单一维度背景下的区分能力。在CIA中，项目区分度值至少为0.3通常被认为是可接受的（Reynolds et al., 2021）。结果表明，这三个技能领域中的所有项目都表现出令人满意的区分度，大多在0.40到0.60之间，这表明使用假设恒定区分度的1PL-IRT模型是合理的。我们还计算了经典项目难度指数以供比较，该指数衡量回答每个项目正确的学生比例；对于大多数教育评估，0.2到0.8之间的值被认为是合适的。

与单一性密切相关的一个概念是局部独立性，这也是IRT的另一个关键假设。局部独立性意味着，在考虑了考生的能力之后，不同项目之间的考生回答之间不存在残余关系（Hambleton et al., 1991）。为了检验局部项目独立性，我们遵循了Yen（1984）提出的方法。首先，分别对每个认知技能领域（表1中显示的26个项目）拟合了1PL IRT（Rasch）模型。接下来，预测了每个项目的正确回答的预期概率，并计算了观察到的回答与这些预期概率之间的差异作为残差。构建了一个对称的残差相关矩阵来分析项目之间的依赖性。残差在项目之间基本上是不相关的，只有少数项目对的关联范围在0.2到0.3之间。这种模式表明局部独立性的假设得到了普遍满足，并支持1PL IRT模型对数据的整体拟合是可接受的结论。

从表1中显示的26个项目过滤后的集合中，有三个概念项目因过于简单而被排除，从而得到了一个包含23个项目的集合。从这个集合中，选择了一个最终的12个项目微观经济学测试——每个认知技能领域四个项目——以构建对感兴趣的核心能力的简洁评估，具体细节将在下面的小节中详细说明。项目难度（b值）是此过程中的关键标准（AlKhuzaey et al., 2021），只有估计难度在?3到+3之间的项目被保留，因为超出这个范围的值通常表明项目要么太容易要么太难（Baker, 2001）。被排除的项目在表1中用斜体标出。

4.3. 设计有效的微观经济学评估工具
验证性因子分析（CFA）是一种统计技术，用于测试一组观察变量是否代表一些潜在的构念（Flora & Flake, 2017）。在这项研究中，它被用来验证测试项目的理论分组，以便设计一个能够有效评估核心微观经济学能力的简短测试。我们进行了一系列验证性因子分析，以改进和验证微观经济学测试的结构。这个迭代过程使我们能够确定最适合评估核心认知维度的项目。最终创建的12个问题的测试，用于评估学生在中级微观经济学——概念理解、图形推理和定量分析——方面的能力及其解答，附录中提供了这些内容。附录还展示了最终测试的项目特征曲线（ICCs）。

CFA是在R环境中使用lavaan包对二元测试项目进行的，估计器设置为“WLSMV”（加权最小二乘均值和方差调整），这对于分类变量是合适的。表2、表3和表4报告的结果提供了强有力的证据，支持最终12个项目微观经济学测试的内部结构有效性。指定的三因素结构表现出极好的整体拟合，RMSEA（均方根误差近似）为0.000（包括其置信区间），CFI（比较拟合指数）为1.000，表明与数据非常吻合。非显著的卡方检验进一步支持了因子结构的适当性。标准化因子载荷从中等偏高（大约0.43到0.97），表明这些项目是它们各自潜在构念的强指标。此外，三个因素之间的低且不显著的协方差支持了这些维度代表概念上不同认知能力的解释。

表2. 三因素测量模型的拟合指数。
| 指数 | 解释 | 备注 |
|--------------|------------------------------|------------------|
| 卡方（χ2） | 48.12 | 非显著（p = 0.589），拟合良好 |
| 检验精确拟合；非显著p值表示模型推断的协方差与观察到的协方差之间没有显著差异 |
| 自由度（df） | 51 | |
| 测量模型中的自由参数数量 |
| RMSEA | 0.000 | 拟合极好（<0.05） |
| RMSEA 90%置信区间下限 | 0.000 | |
| RMSEA 90%置信区间上限 | 0.033 | |
| p值 H0: RMSEA ≤0.05 | 0.982 | 高p值表明拟合良好 |
| p值 H0: RMSEA ≥0.08 | 0.001 | 低p值表明拟合非常差 |
| SRMR | 0.125 | 略高但可接受 |
| 标准化均方根残差；衡量平均差异；值<0.08是理想的，但在具有二元项目的小组中可能更高 |
| CFI | 1.000 | 拟合极好（>0.90） |
| TLI | 1.156 | 高于1表示拟合非常好 |
| Tucker-Lewis指数 | 值>1可能表示过拟合或样本特定效应 |
| 观测数量（样本大小）： | 80 |

注：RMSEA：均方根误差近似。SRMR：标准化均方根残差。CFI：比较拟合指数。TLI：Tucker-Lewis指数。

表3. 按项目和因素的标准化因子载荷。
| 因素 | 标准化因子载荷 |
|--------------|---------------------------|
| 概念 | 0.593 |
| 问题08 | 0.475 |
| 问题19 | 0.431 |
| 问题20 | 0.966 |
| 图形 | 0.721 |
| 问题01 | 0.451 |
| 问题03 | 0.535 |
| 问题01 | 0.537 |
| 定量 | 0.510 |
| 问题03 | 0.790 |
| 问题06 | 0.905 |
| 问题02 | 0.489 |

表4. 潜在因素之间的协方差。
| 因素 | 协方差 | p值 |
|-------------|---------------------------|
| 概念 | ～图形 | 0.136 |
| 概念 | ～定量 | 0.101 |
| 图形 | ～定量 | 0.060 |
| 定量 | 0.448 |

总之，这项分析确认了最终12个问题的测试具有清晰且理论上的合理因子结构。项目有效地衡量了它们各自的潜在构念，认知维度——概念理解、图形推理和定量分析——是不同且连贯的。统计模型很好地拟合了观察到的数据。这些结果为我们自信地进入下一阶段分析提供了坚实的基础。我们现在使用单参数逻辑斯蒂（1PL）项目反应理论（IRT）模型，基于最终选定的测试项目集，来估计每个认知维度的能力。

4.4. 测量概念、图形和定量技能
在展示了覆盖三个认知技能维度的最终12个项目工具后，我们使用IRT框架估计了个别学生的能力。由于这些维度在样本中独立运作，因此分别对每个维度应用了独立的单一Rasch模型，为每个学生在三个维度上提供了不同的能力估计。对80名学生的概念理解（theta_concept）、图形解释（theta_graph）和定量技能（theta_quant）的能力估计进行了分析，并在表5中呈现。每个维度的平均分数接近零，与样本内的标准化或均值中心能力一致。这表明学生的能力在各个维度上平衡，没有系统性地偏向于某个特定领域的更高或更低能力。

表5. 认知能力的描述性统计。
| 变量 | 平均值 | 标准差 | 最小值 | 最大值 |
|--------------|--------------|--------------|--------------|--------------|
| theta_concept | 80 | ?0.000 | 14.83 | 27.6 |
| | 0.73 | | 25.4 |
| theta_graph | 80 | 0.000 | 12.1 | 10.6 |
| | 0.69 | | 39.9 |
| | 0.87 | | 39.5 |
| theta_quantity | 80 | 0.000 | 0.29 | 20.7 |
| | 0.76 | | 34.3 |
| | 0.99 | | 29.6 |
| | 0.11 | | 13.2 |
| | 0.73 | | 30.7 |

标准差显示了学生在每个维度内的中等变异性。定量技能表现出最大的变异性（SD = 0.765），表明与其他维度相比，熟练程度范围更广。概念理解其次（SD = 0.733），而图形解释的变异性最小（SD = 0.696）。这些模式反映了学生在定量能力上的变化最大，而图形技能趋向于更加均匀。在IRT框架中，能力估计（θ）以零为中心的标准化尺度表示；因此，正值表示相对于样本平均能力的较高水平，而负值表示低于平均能力的水平。观察到的最小和最大分数表明样本中既有表现低的学生也有表现高的学生，概念理解的范围大约在?1.45到0.88之间，图形推理在?0.99到1.32之间，定量技能在?1.41到1.12之间。这种变化突显了每个认知维度内能力水平的多样性。三个维度之间的相关性较低且不显著：概念和图形（r = 0.12），图形和定量（r = 0.09），以及概念和定量（r = 0.16）。这些结果支持了三个认知技能领域代表不同且独立的学生能力方面的解释。例如，图形推理的强表现不一定意味着高数学能力，反之亦然。这种维度之间的独立性增强了工具的区分有效性，表明每组项目捕捉到了不同的微观经济能力。从教育的角度来看，这些结果为更个性化的干预措施打开了大门。由于这些技能是不相关的，因此可以识别出具有特定优势和劣势的差异化学生档案。这使得能够设计出更好地针对个体需求的教学策略，促进关键认知能力的更均衡发展。心理测量评估：信度与效度关联
我们使用单维Rasch模型评估了学生在概念、图形和数量维度上的能力，并随后评估了该测试的信度和效度关联。在项目反应理论（IRT）中，信度是通过测试信息函数（TIF）在每个潜在特质水平（θ）上来评估的，该函数显示了测试的精确度。x轴代表θ（能力或特质水平），而y轴表示信息量（数值越大，精确度越高）。在给定的θ下，高信息量表明测试对于该能力水平的学生特别可靠。

为了评估2023-2024学年的微观经济学最终测试的信度，我们检查了每个认知维度的TIF。TIF揭示了潜在特质连续体上能力估计的精确度：较高的信息值对应较低的标准误差，因此信度更高。通过分析TIF曲线，我们确定了测试信息量最大的能力范围，确认该工具提供了可靠的测量结果，特别是对于最能代表我们学生样本的能力水平。

图4展示了微观经济学中概念理解维度的TIF曲线。该曲线在潜在特质水平（θ）接近-0.5时达到约2.6的信息值峰值，表明该测试在评估略低于平均水平的学生的能力时具有最高的精确度和可靠性。此时相应的标准误差（SE）约为0.6，反映了中等程度的测量精确度。在θ=-0.5处的局部信度估计约为0.62，意味着该能力范围内的分数方差中有62%是由于真实的能力差异而非测量误差造成的。随着θ远离这一点，测试信息逐渐下降，在θ值接近-1.8和0.8时约为2.0，对应的标准误差约为0.71，局部信度降低到大约0.50。尽管如此，这些值表明该测试在一定的能力范围内保持了合理的测量一致性。总体而言，TIF分析证实该测试在微观经济学概念能力的核心范围内提供了可靠的局部信度。

图5展示了微观经济学中图形推理维度的TIF曲线。该曲线在潜在特质水平（θ）接近+0.5时达到约2.2的信息值峰值，表明该测试在评估略高于平均水平的学生的能力时具有最高的精确度和可靠性。此时相应的标准误差（SE）约为0.67，反映了中等水平的测量准确性。在θ=+0.5处的局部信度估计约为0.55，意味着该能力水平的分数方差中有55%反映了真实的图形推理差异而非测量误差。信息值在θ值接近-1.8和2.1时逐渐下降到约1.5，对应的标准误差约为0.82，局部信度降低到大约0.33。尽管如此，这些值表明该测试在相当广泛的能力范围内保持了合理的可靠性，尤其是在测量平均及以上水平的图形推理技能方面特别有效。

图6展示了微观经济学中数量推理维度的TIF曲线。该曲线呈现钟形模式，在潜在特质水平（θ）接近零时达到约2.7的信息值峰值，表明该测试在评估具有平均数量推理能力的学生时具有最高的精确度和可靠性。此时相应的标准误差（SE）约为0.61，反映了良好的测量准确性。信息值在θ值接近-1.8和1.8时逐渐下降到约2.0，此时SE略有增加，约为0.71，表明精确度略有下降但仍然可以接受。这种模式表明该测试在广泛的能力范围内保持了良好的可靠性，特别是在准确测量目标平均能力范围内的数量推理能力方面表现突出。

在效度关联方面，我们研究了12项测试的表现是否与最终课程成绩相关。我们进行了多元线性回归分析，将最终成绩与三个单独的能力评分进行回归，同时控制了性别变量。这使我们能够评估每种认知技能对学术成绩的独特贡献，并考虑潜在的性别相关效应。回归结果见表6。回归系数的显著性和整体模型拟合为测试预测相关教育成果的有效性提供了额外支持。

表6. 核心微观经济能力对学业成绩的影响：未标准化和标准化估计。

从表6可以看出，数量推理（theta_quant）是最终考试成绩的最强预测因子，其系数（p<0.001）和标准化贝塔值（=0.363）均显著较高，表明在数学推理方面表现优秀的学生在微观经济学中更有可能取得成功。这与最终考试中包含开放式数学题目的结构相符，这些题目很可能评估了这一能力。其次，概念理解（theta_concept）也显示出统计学上的显著效应（p=0.029，标准化贝塔值=0.238），表明扎实掌握微观经济学原理对学业成绩有重要贡献。这与社会考试中包含多项选择题理论题目的情况一致。最后，尽管图形推理（theta_graph）与考试成绩呈正相关，但其统计显著性较低（p=0.115，标准化贝塔值=0.159），可能反映了考试中图形分析内容的有限性，而不是这种技能对学科本身的相关性较低。性别（female=1）对成绩没有显著影响（p=0.910），表明评估工具和最终考试均无性别偏见。

总体而言，该模型解释了最终考试成绩方差的约26.2%（R2=0.2619），这在教育研究中是一个合理的解释程度——特别是考虑到学业成绩的多方面性质以及所包含的预测因子数量有限。这些结果强化了微观经济学教学培养了可测量且能预测学生成功能力的观点。该测试在最终考试前进行，成功捕捉到了两个最相关的技能——数量推理和概念推理，证明了其作为诊断和评估工具的价值。然而，图形推理缺乏显著性引发了重要的教育问题。如果这种能力对于微观经济学思维至关重要，那么将其排除在高风险评估之外可能会降低其重要性。这指出了需要一个更综合的评价结构——一个平衡概念、图形和数量技能评估的结构，以更准确地反映经济推理的多维度性质。

4.6. 差异项目功能（DIF）
“围绕测试最受争议的问题，也是公众最关心的问题，可能是测试的公平性”（Hambleton等人，1991年，第109页）。差异项目功能（DIF）一词常用于识别可能存在偏见的测试项目。根据Hambleton等人（1991年，第110页）的说法，“如果具有相同能力但来自不同群体的个体回答项目的正确概率不同，则项目存在DIF”。在进行DIF分析时，我们提供了关于结构有效性的证据，特别是关于工具的不变性和在不同群体中测量结构的无偏性。在我们的研究中，我们使用逻辑回归分析了DIF。交互项（能力×性别）用于测试潜在能力与项目反应之间的关系是否因性别而异。如果这种交互不显著，就意味着项目难度（b）不依赖于性别，因此该项目对两组者的功能是等同的。如附录中的表A2所示，在提出的12项微观经济学测试中，未检测到任何性别差异。这表明对于具有相同能力水平的男性和女性，项目的功能是等同的。

4.7. 针对三种认知能力的微观经济学测试的外部有效性评估
4.7.1. 跨群体项目不变性分析
为了评估旨在评估微观经济能力的工具的心理测量稳定性，我们在两个连续的学生群体中进行了DIF分析。最近的群体（2024-2025学年）在可比的实地条件和相同的评估程序下完成了与2023-2024学年相同的40项测试。两个群体的课程内容和教师保持不变，确保了教学环境的一致性。共有75名学生参与了2024-2025学年的研究。对于最终的12项工具，包括三个不同的微观经济技能维度，我们也使用Rasch模型（1PL）估计了每个维度的潜在能力，并应用逻辑回归模型来检查群体间的潜在项目差异。通过潜在能力与群体之间的交互项（能力×群体）具体评估了项目不变性。非显著的交互表明，对于具有相同能力水平的学生，项目在各个群体中的功能是等同的。值得注意的是，只要量表属性（参数b）不依赖于群体的能力，外部有效性就得以保持。

附录中的表A3总结了主要结果。在所有维度上，都没有项目表现出统计学上的显著DIF。在每个回归模型中，潜在能力与群体之间的交互系数均不显著（p>0.05），表明项目的难度参数在各群体中保持稳定。综合来看，这些结果为评估工具的外部有效性和时间稳定性提供了有力证据。所有三个维度上均无DIF的存在，证实了该工具在群体间的操作一致性，从而能够有意义地纵向比较学生在微观经济学方面的表现。

4.7.2. 工具外部效度的回归证据
在IRT中，外部有效性还指测试估计的潜在能力在其校准的特定样本之外保持其预测能力的程度。在我们的研究中，外部有效性被认为是工具分数（即认知维度或θ）预测相关学术成果的能力——即微观经济学课程的最终成绩。值得注意的是，两个学年的最终考试格式是相同的，这意味着因变量在两个群体中都使用相同的量表进行测量。为此，我们估计了一个以总体课程成绩（最终成绩）为因变量的线性回归模型。结果显示模型具有统计显著性，F(8,146)=6.85，p<0.001，并解释了大约20%的学生成绩方差。使用稳健的标准误差，我们发现概念理解（theta_concept）和数量分析能力（theta_quant）都是成绩的显著正预测因子（系数分别为0.48，p=0.035；和0.79，p<0.001），表明这些认知维度可靠地解释了学术成就的差异。图形推理（theta_graph）与课程表现呈现出正相关但不显著的关联（系数=0.40，p=0.11）。群体与认知维度之间的交互项均未达到统计显著性（p值：0.148、0.120、0.221），这表明theta的预测关系在不同群体中是稳定的。也就是说，这种预测关系具有普遍性，超出了校准组的范围，这是外部效度的关键标准之一。关于协变量，性别显示出正向但不显著的影响（系数=0.43，p>0.05）。然而，群体归属本身对课程表现有显著的负面影响（系数=-0.70，p=0.017），表明较新的群体平均成绩略低于较早的群体。表7. 预测效度分析：IRT能力估计作为学术成就的预测因子。

变量系数坚固标准误差 p值
概念理解（theta_concept） 0.478 0.224 0.035
图形推理（theta_graph） 0.399 0.248 0.110
定量推理（theta_quant） 0.791 0.210 <0.001
群体（2024-25 = 1） -0.695 0.289 0.017
性别（女性 = 1） 0.428 0.252 0.091
群体 × Theta_Concept -0.564 0.388 0.148
群体 × Theta_Graph 0.589 0.376 0.120
群体 × Theta_Quant -0.613 0.499 0.221
常数 6.018 0.216 <0.001
F(8, 146) = 6.85。Prob. > F = < 0.001
R平方 = 0.1943
观察数 = 155
因变量是微观经济学的最终课程成绩，采用从0到9的连续量表进行衡量。原始的10分评分标准排除了分配给团队活动的1分，以及一些学生在测试中获得的额外加分。通过使用相同的考试结构确保了不同群体之间的分数等价。

如前所述，与图形推理相关的非显著系数与微观经济学考试的性质一致，这些考试主要由关于理论概念的选择题和开放式定量练习组成。然而，这些结果也强调了一个重要考虑因素：如果图形推理确实是经济素养和专业能力的一个核心组成部分，那么在这种情况下其预测作用不显著可能只是课程评价设计的结果，而不是其价值缺失的证据。先前的研究强调，解释和构建图表的能力不仅对于掌握经济学这一学科至关重要（例如，Friel等人，2001年；Ring & Oberrauch，2024年），而且是一项在职场上受到重视的可转移技能（例如，OECD，2017年）。从这个角度来看，我们的结果表明，微观经济学的评估形式以及教学实践应该更加重视涉及图形分析的任务，从而使评估实践与学科要求和劳动力市场的期望相一致。

图表（图7）展示了从验证性多维分析（支持不同的技能领域）到维度内EFA/PCA筛选、26个项目的1PL Rasch校准、随后移除三个过于简单的概念项目（得到23个项目的精简版本），以及最终形成12个项目简版的证据流。然后，图表突出了核心结果——最终版本的CFA拟合度优秀、能力估计的分布、通过测试信息函数的可靠性概况、与课程成绩的相关效度，以及跨性别和群体的公平性/不变性。

下载：下载高分辨率图像（2MB）
下载：下载全尺寸图像
图7. 主要实证结果和最终测试构建的流程图。

5. 讨论
微观经济学仍然是商业教育的基石，但很少有工具能够高效可靠地评估学生在这一领域的认知表现，而不需要依赖冗长或内容过于繁重的测试。因此，所提出的测试旨在评估三个核心认知维度上的微观经济能力：概念推理、图形解释和定量分析。通过优先考虑认知技能而非主题广度，该测试与当前商业教育趋势相一致，其中批判性思维和分析推理越来越被认为是不同商业学科课程设计中的核心能力（例如，Calma & Davies，2021年；Rossouw & Steenkamp，2025年）。通过基于Bloom修订的分类法进行测试设计，并采用项目反应理论（特别是Rasch模型）的稳健方法，该工具超越了主要关注内容回忆的传统评估方法。相反，它强调了概念理解、图形解释和定量推理的平衡评估。实证结果证实，这三个认知子领域代表了学生之间统计上独立且不同的技能集。这一结果表明，教育者应该认识到经济认知的多方面性质，而不应将经济知识视为单一维度结构。

最终的12个项目测试在本科生群体的典型能力范围内显示出较强的可靠性，其有效性也通过与学生学业表现的有意义相关性得到了加强。重要的是，定量推理成为中级微观经济学课程成功最强的预测因子，其次是概念理解。图形推理相对较低且统计上不显著的预测能力提出了重要的考虑。这可能反映了在总结性课程评估中对图形技能的重视不足，这可能会无意中降低对这些能力的认识。这一观察结果要求重新审视评估实践，以便更好地将图形分析整合到评估框架中，确保全面的技能发展和认可。此外，认知测量方面不存在性别差异，这进一步证明了该工具在人口统计群体之间的公平性评估。这与更广泛的教育目标——公平性和包容性——是一致的。

本研究的方法论，特别是多维Rasch模型的应用和严格的项目选择过程，为未来经济学教育和研究提供了一个可复制的框架。该工具与在线管理的兼容性进一步增强了其实用性，鉴于数字学习环境的日益普及，这一点变得越来越重要。

5.1. 方法论的实际效用和可转移性
除了在中级微观经济学中的具体应用外，本研究的核心贡献在于提供了一个可复制的评估流程，任何教师都可以利用它从更大的项目库中构建简洁、以技能为中心的测试。该流程整合了（i）项目到认知维度的明确映射，（ii）通过MIRT验证维度独立性，（iii）维度内的单维性实证筛选（EFA/PCA），（iv）每个维度的单独1PL Rasch校准，以及（v）确认性验证和公平性检查（CFA、TIF、DIF）。这产生了提供可解释尺度上能力估计的简短工具，并且这些估计与认知上有意义的技能相匹配，而不仅仅是内容的回忆。

首先，教师可以从大量的选择题项目（例如，来自之前的考试、教科书或课程库）开始，通过实证方法提炼出一套测量目标技能且具有记录在案的心理测量质量的项目。其次，因为项目和人员位于一个共同的尺度上，所以得到的测量结果支持诊断决策（例如，识别需要概念支持还是定量支持的学生），教学对齐（挑选测试显示最高信息量的活动），以及公平评估（通过常规的DIF检查）。第三，这种方法对于高注册量的课程来说效率很高：基于Rasch的能力估计的简短、机器评分的测试可以作为课前/课中/课后评估，以跟踪特定能力的发展。

该方法是对内容中立的：相同的流程可以应用于会计、运营、市场分析、金融或数据素养模块，无论教师的目标是从“知识主题”转向可测量的认知技能（例如，关于模型的概念推理、商业数据的图形/视觉解释或定量问题解决）。唯一的学科特定步骤是对项目库的初始认知映射；所有后续分析（MIRT→EFA/PCA→Rasch→CFA→TIF/DIF→外部效度）保持不变。这确保了寻求学习保证的项目能够在课程之间标准化方法论，同时根据本地情况调整项目内容。

因为最终工具为每个认知维度提供了单独的能力估计，并提供了测试信息函数，教师可以（a）针对测量最精确的技能水平提供反馈，（b）重新设计评估以平衡评估不足的技能（例如，图形推理），以及（c）将能力与有意义的结果（例如，课程成绩）联系起来，以实现项目层面的标准相关效度。同一框架通过DIF进行群体比较和时间稳定性检查，通过群体和外部效度分析，促进了课程设计的持续改进和问责制。

最后，该程序支持数字环境中的可持续评估：项目可以逐步编写、迭代筛选，并随着新群体的数据贡献而定期重新校准。随着时间的推移，各部门可以针对每个能力编写经过验证的迷你测试包，确保简短评估在预期的能力范围内既可靠又在学生群体间公平。这种实用的、数据驱动的路径——从大型项目库到简洁的、经过验证的、基于技能的测试——构成了本文对管理教育利益相关者的主要实际价值。

5.2. 在线评估和数字评价
最后，讨论在线评估的作用很重要，因为所有数据都是通过在线测量平台收集的。COVID-19大流行加速了数字评估工具的采用，教育工作者和研究人员越来越感兴趣于了解它们的有效性、可靠性和对学习成果的影响（例如，Hosseini等人，2021年；Imran等人，2023年；Ng等人，2023年）。尽管关注度增加，但在在线评估对学生表现的影响方面仍相对缺乏探索。主要挑战之一在于建立在线测试与学术成就之间的因果关系，因为学生的成绩受到多种相互作用因素的影响。需要稳健的实验设计或适当的统计技术，如倾向得分匹配（PSM），来分离在线评估干预的效果并准确评估其对学习成果的贡献（Fan & Nowell，2011年）。

在线教育平台和虚拟教学环境的扩展使得理解数字测试的有效性变得日益重要。在线评估提供了几个优势，包括可扩展性、即时评分和自动反馈，这可以增强教学对齐和诊断洞察的时效性。此外，在线管理便于在多个时间点进行重复测量，从而能够长期跟踪学生在特定认知领域的能力发展。这种能力与本研究采用的方法论相匹配，其中基于Rasch的在线测试提供了可解释的、特定于维度的能力估计，涉及概念、图形和定量推理。

然而，向在线测试的转变也引入了新的挑战。学生获取技术的可变性、数字素养的差异以及潜在的外部干扰可能会影响表现，从而在设计和分析中必须仔细考虑这些测量误差的来源。新兴的AI技术增加了复杂性，因为它们可能与传统评估模型相互作用，支持或损害在线评估的有效性、公平性和完整性（Geerling等人，2023年；Rejeb等人，2024年；Roll等人，2021年；Sifaleras & Lin，2024年）。理解这些动态对于开发不仅能够准确测量能力，还能确保不同学生群体之间公平性的在线评估工具至关重要。

在本研究的背景下，基于在线Rasch的测试表明，即使在完全数字化的环境中也能实现对学生能力的可靠和有效测量。在线管理允许精确估计学生在多个认知维度上的能力，同时保持公平性和可解释性。这种方法展示了如何将严格的心理测量方法适应在线平台，为寻求实施可扩展的、数据驱动的评估的教学工作者和机构提供了实用指导，这些评估符合高等教育的当代趋势。通过整合在线管理的优势和稳健的统计建模，该研究为数字评估提供了可复制的框架，支持明智的教学决策、持续的课程评估和学生成果的持续改进。

5.3. 局限性和未来研究
虽然本研究是在单一机构的本科生样本中进行的，但严格的心理测量验证程序和方法论透明度为内部一致性和测量质量提供了强有力的证据。尽管如此，未来的研究应考虑更大的样本，这将允许使用更复杂的IRT模型并检查影响学生能力的额外因素。测试的模块化结构便于适应评估额外的技能或整合到其他课程中，从而增强了其作为灵活和通用工具的潜力。我们不将局限性视为固有的弱点，而是将其视为经济教育领域持续改进和协作进步的有意义机会。

6. 结论
微观经济学仍然是本科商业教育的基石，然而教师仍然缺乏高效且心理测量上可靠的工具来评估学生的认知表现，而无需依赖冗长或内容繁重的考试。为了应对这一差距，本研究开发并验证了一个简洁的12个项目微观经济学测试，专门用于测量三个核心认知维度：概念推理、图形解释和定量问题解决。该工具基于Bloom修订的分类法，并在项目反应理论框架内进行估计，优先考虑高阶认知技能，而不仅仅是孤立主题和定义的回忆。

测试的构建遵循了一个严格的多步骤心理测量流程。最初的40个选择题项目被映射到三个目标维度上，并使用确认性多维Rasch模型进行分析，以验证潜在的结构并探索潜在能力之间的关系。估计的因子相关性较低且不显著，这表明在所研究的学生成群中，概念性、图形性和定量技能作为微观经济能力中不同且相对独立的方面发挥作用。这证明了为每个维度分别进行单维Rasch校准是合理的，从而可以实现简约的建模并更清晰地解释能力估计结果。在每个维度内，通过探索性因子分析仔细评估了单维性，并辅以主成分分析和scree图的可视化检查。那些没有在主要因素上显示出有意义负荷的题目被移除，确保每个量表中保留的题目测量的是单一的潜在特质。然后通过单参数逻辑IRT建模和经典项目分析进一步精炼题目集，最终得到23个可接受的题目，形成了一个简短的12题目测试，每个认知维度包含4个题目。保留的题目在难度参数上符合教育评估的推荐范围，表明它们适合用于典型本科生的可靠测量。

使用验证性因子分析检验了12题目工具的内部结构。对应于概念性、图形性和定量子量表的三因素模型表现出优秀的整体拟合指标（例如，RMSEA接近零，CFI等于或高于常规切点，卡方检验不显著），以及项目间的中等至高的标准化因子负荷。这些结果为测试的内部结构有效性提供了强有力的证据，并确认这些题目能够有效地反映各自的认知维度。此外，潜在因子之间的低且不显著的协方差进一步证实了这三个维度捕捉的是微观经济推理的不同方面，而不是单一的、未分化的能力。

除了结构方面，该研究还通过每个维度的测试信息函数（Test Information Functions）评估了工具的测量精度。概念子量表在略低于平均能力水平时提供了最高的信息量，图形子量表在略高于平均能力水平时达到峰值，而定量子量表在接近平均能力水平时显示出最大的精度。在每种情况下，信息值在相当广泛的能力范围内都保持在可接受的水平，说明这个12题目测试可以为通常在本科生中观察到的能力范围提供足够可靠的分数。这些结果在需要平衡简短性和心理测量质量的情境中尤其相关。

标准相关有效性分析进一步强调了该工具的实际适用性。在预测最终课程成绩的回归模型中，定量推理作为最强的、最一致的学术表现预测因子出现，其次是概念理解。这两个维度都显示出统计上显著的系数和有意义的标准化效应，突显了它们在微观经济学成绩中的核心作用，特别是考虑到考试对开放式定量练习和理论选择题的重视。相比之下，图形推理与最终成绩之间的关联为正但不显著，表明这种能力在高风险评估中往往被忽视，尽管它在经济推理中具有理论上的重要性。教学理念与评估实践之间的这种不匹配引发了关于考试和课程评估设计的重要问题，即如何培养真正多维度的能力。

重要的是，该研究还考察了潜在的公平性和普遍性问题。在三个认知维度中均未发现显著的性别差异，而且在考虑了能力因素后，性别也不能预测课程表现，说明该工具对男女学生来说是公平的。此外，关于项目不变性和跨群体外部有效性的回归分析未发现项目功能的差异，也没有发现能力与群体成员之间的显著交互作用。这些结果表明，项目参数和预测关系随时间保持稳定，这是将该工具用于 longitudinally 评估和学习保证过程的关键要求。

从学术角度来看，这些结果对微观经济学及相关商业课程的课程设计和评估有几个启示。首先，概念性、图形性和定量技能之间的独立性表明，教师应避免将经济知识视为单一特征，而应明确规划针对每个认知维度的差异化学习成果和教育活动。例如，擅长解决定量问题的学生可能在图形解释或概念迁移方面仍有困难，反之亦然；这个简短的测试提供了一种实用的诊断工具，可以在课程早期识别这些差异。其次，图形技能在预测考试成绩方面的作用相对较弱，表明理论上的重视（全面的经济推理）与实践中的奖励（主要是定量和概念任务）之间存在偏差。解决这种不平衡可能需要重新设计考试、习题集和课堂活动，以确保图形分析在总结性评估中得到足够的重视。

这项工作的另一个贡献在于其方法论的可转移性。所采用的心理测量流程——认知映射、验证性多维Rasch建模、维度内的EFA和PCA、单维Rasch校准、最终形式的CFA、测试信息函数以及外部有效性检查——在很大程度上不受内容限制，可以适应其他管理和商业学科。在会计、金融、运营或数据分析等领域，教育者面临着类似的挑战，即在不过度加重学生负担的情况下评估高阶思维。当前的方法展示了如何将大量题目逐步精炼为简洁的、基于技能的工具，同时保持强大的心理测量特性和清晰的解释能力。此外，该测试与在线管理的兼容性使其能够整合到数字学习环境和学习管理系统中，实现可扩展的数据收集、定期重新校准和题库的持续改进。

尽管有这些优点，这项研究也存在一些局限性，需要谨慎对待，并指明了未来研究的方向。试点样本仅来自一个商业项目，规模相对较小，这限制了检测认知维度间微妙相关性的能力以及探索更复杂的多维模型的能力。未来的工作应使用更大、更多样化的学生群体进行重复和扩展分析，包括不同的机构背景和文化环境。此外，虽然12题目的格式在简洁性和实施便利性方面具有明显优势，但它必然限制了每个维度的内容覆盖范围。后续研究可以尝试平行短形式、计算机化自适应版本或特定领域的模块（例如消费者理论、生产、市场结构），以进一步提高诊断细致度和内容有效性。

总之，这项研究引入了一个简短且心理测量学上可靠的工具，能够捕捉微观经济推理的三个不同认知维度，并证明了其可靠性、结构有效性、预测有效性、公平性和时间稳定性的坚实证据。通过强调认知技能而非主题列表，该测试与现代基于能力的商业教育方法一致，为教师提供了形成性诊断和总结性评估的实用工具。更广泛地说，这种方法论框架提供了一种可复现的、数据驱动的途径，从大量题目中生成简洁且经过验证的评估工具，支持基于证据的课程设计和学习保证措施。

伦理批准和知情同意：所有参与者通过自愿完成评估提供了默示同意。由于参与者是作者教授的微观经济学课程的学生，并且数据收集是在标准教学条件下进行的，因此不需要额外的伦理批准。

资金声明：这项研究没有从公共、商业或非营利部门的任何资助机构获得特定资助。

热点排行