探究英语作为附加语言（EAP）口语评估中的批判性思维能力：一项基于论点的验证研究

《Thinking Skills and Creativity》：Examining critical thinking in EAP speaking assessment: An argument-based validation study

【字体：大中小】 时间：2026年05月11日 来源：Thinking Skills and Creativity 4.5

编辑推荐：

　　圣凯殷教育、艺术与社区学院，澳大利亚联邦大学，澳大利亚墨尔本摘要人们普遍认为，批判性思维（CT）能力应该是任何学术英语口语评估（EAP）的一部分；然而，目前可供评估这种能力的经过验证的工具却很少。没有有效的评估工具，就无法从评估结果中得出有意义、恰当且有用的结论。本研究通

　　圣凯殷教育、艺术与社区学院，澳大利亚联邦大学，澳大利亚墨尔本

摘要

人们普遍认为，批判性思维（CT）能力应该是任何学术英语口语评估（EAP）的一部分；然而，目前可供评估这种能力的经过验证的工具却很少。没有有效的评估工具，就无法从评估结果中得出有意义、恰当且有用的结论。本研究通过验证一项适用于中国大规模EAP口语测试的评分量表来具体化批判性思维的概念，即大学英语测试——口语测试。在基于论证的验证方法指导下，研究者收集了多种证据来验证该评分量表。六名经过培训的评分者使用完全交叉的评分设计，对大学生的128次个人演讲和64次小组讨论进行了评分。多因素Rasch测量方法被用来检验评分者的一致性、评分者的偏见/交互作用、量表的功能以及量表的结构维度。研究结果表明，该批判性思维评分量表是一个有效且可靠的评估工具。通过系统地分析其有效性证据，本研究扩展了EAP语境下有限的批判性思维评估研究，并为将批判性思维明确纳入EAP口语评估提供了实证支持。

1. 引言

近期关于学术英语教学（EAP）的文献已经超越了单纯关注语言准确性的范畴，开始强调在多模式和数字化学习环境中发展学术素养的重要性，其中批判性思维（CT）被认为是有效学术交流的核心（Bakhshayesh等人，2023；Chen等人，2025；Li等人，2026）。批判性思维被广泛定义为运用分析、评估和推理等认知思维技能，系统地分析问题并得出合理的结论（Ennis，1987；Facione，1990b；Halpern，2013）。在EAP教学中，培养批判性思维技能可以提高学生的学术语言能力，并为构建批判性论据和论证性话语打下基础（Li等人，2026；Liu & Stapleton，2018）。因此，应将其置于“学术英语教学的核心”（de Chazal，2014，第12页）。

语言评估中的一个基本考虑因素是定义要评估的知识、技能或能力的结构（Bachman，2007）。学术英语测试的设计应该反映目标语言使用（TLU）领域中的语言应用情况，即教育中的学术研究，在这方面批判性思维起着关键作用。尽管人们认识到批判性思维在学术交流中的重要性，但在学术英语评估中，它的概念化和操作化仍然不足，导致批判性思维在评估结构中被“定义不清”和“理论化不足”（Schmitt & Hamp-Lyons，2015，第1页）。现有的EAP批判性思维评估研究主要集中在写作和阅读方面（例如，Dong，2017；Sato，2022；Wilson，2016），而在EAP口语评估方面的研究则相对匮乏（Author，2025a）。此外，许多研究直接采用了标准化的批判性思维测试或与语言教育无关的广泛概念框架（例如，Bakhshayesh等人，2023；Dong，2017；Sato，2022）。这些方法往往在没有严格验证的情况下被采用，引发了关于结构代表性不足或相关性问题的担忧。它们还可能将认知能力与语言熟练度混为一谈，或者未能考虑到学术交流特有的语言和互动要求。这些问题在EAP口语评估中尤为突出。与写作不同，口语需要考生在时间限制下即时整合语言资源和批判性思维，以发展、论证并清晰地表达观点（Chamot & O’malley，1994）。

迄今为止，很少有研究系统地评估专门为EAP口语评估设计的批判性思维评分量表的质量。这一空白具有一定的重要性，因为在基于表现的评估中，评估结构不仅通过规定的描述符来操作化，还通过评分标准、评分者的判断和考生表现之间的相互作用形成。正如McNamara等人（2002，第229页）所指出的，评分标准及其评分者的解释实际上构成了语言评估的结构。因此，分数解释的有效性在很大程度上取决于这些结构在实践中的操作化和解释方式。本研究通过基于论证的验证方法，系统地验证了EAP口语的批判性思维评分量表，探讨了考生讨论的主题、他们提出和评估观点的方式，以及他们的推理在学术背景下的意义。本研究通过论证框架中的评估、概括和解释推理，试图证明该量表得分能够作为考生批判性思维能力的有效证据。它主要在两个方面为相关研究做出了贡献：首先，它通过评分量表的验证，提供了对批判性思维在EAP口语评估结构中如何操作化的更细致理解；其次，它通过展示一个逻辑推理链来说明论证框架的应用方法，从而有助于研究人员和实践者将该框架应用于类似的评估情境。

2. 背景

2.1. 语言教育中的批判性思维评估

虽然很难给出批判性思维的精确定义，但人们普遍认同批判性思维者所具备的技能和态度（Hitchcock，2017）。比较不同的定义可以发现，批判性思维的组成技能具有相当大的共性。这些技能得到了不同研究群体的认可，包括：“解释”、“推理/解释”、“自我调节”、“评估”、“分析”和“推理”（Ennis，1987；Facione，1990b，2011；Halpern，2013；Paul & Elder，2001）。特别是，“评估”、“分析”和“推理”技能被认为是批判性思维能力的核心，并且最常出现在需要批判性思维的学术对话中（Cui & Teo，2023；Dwyer等人，2014；Facione，1990b，2011）。随着人们对EAP中批判性思维重要性的认识日益增强以及对其评估需求的增加，语言教育领域已经开发出多种引发和评估批判性思维的方法。这些评估方法可以分为三类：基于测量的、注重表现的和以要素为导向的。

基于测量的语言教育研究主要采用和使用了标准化的批判性思维评估工具（例如，Bakhshayesh等人，2023；Li & Liu，2024；Li等人，2026），包括加州批判性思维技能测试（CCTST；Facione，1990a）、加州批判性思维倾向量表（CCTDI；Facione & Facione，1992）和HEIghten批判性思维评估（Liu等人，2016）。例如，Li等人（2026）使用CCTDI评估了EAP课程中的学习者的批判性思维倾向，而Li和Liu（2024）则调整了CCTST来评估中国中学生英语学习者的批判性思维能力。尽管这些工具能够提供关于学习者整体批判性思维能力的有用信息，但它们并未设计用来捕捉语言使用中的批判性思维表现，也没有考虑学术交流的具体任务要求，从而影响了内容有效性。

注重表现的评价方法，如作文，可以在语言教育背景下提供更详细的信息。其明显的原因在于这种方法具有最高的表面有效性，提供了“最真实和最可信的批判性思维测量方法”（Braun等人，2020，第1页）。基于表现，人们制定了评估推理质量和判断的标准和原则（Paul和Elder，2001，2014）。他们提出了九项标准（在语言评估中称为评估标准），认为这些标准适用于“所有文化和领域的所有学科”（Paul & Elder，2014，第128页）。这些标准概述了学生有效展示推理所需的认知行为，包括清晰性、准确性、精确性、相关性、深度、广度、逻辑性和重要性。这些批判性思维标准及其相关的认知能力一直是评估EAP学习者的主要研究焦点，并为大量第二语言相关研究提供了指导（例如，Dong，2017；Leist等人，2012；Sato，2022）。例如，Dong（2017）开发了一套用于评估第二语言学术写作中的批判性思维的评分标准，并结合Paul和Elder（2001）的九项标准进行了综合阅读和写作评估（Leist等人，2012）。然而，有些标准在概念上存在重叠（例如，准确性和精确性），可能会增加评分者的认知负担。此外，仅仅依赖高评分者间一致性并不能保证结构有效性，因为评分一致并不一定意味着对批判性思维评价的理解一致。

以要素为导向的研究关注与批判性思维能力密切相关的EAP任务表现要素。例如，论证性/说服性写作和口语被认为是EAP中最成熟和最广泛使用的学术文体（de Chazal，2014，第171页），其中主要论点、支持论点、定义和评估等要素是不可或缺的。Toulmin（1958）的论证结构模型被广泛用于捕捉EAP情境中的说服性和论证性写作和口语的特点。该模型详细描述了论证结构的几个关键要素，如主张、数据、反论点主张、反论点数据、反驳主张和反驳数据。有效构建、支持和反驳论点所需的技能本质上与批判性思维能力相一致（Author，2025a；Stapleton，2001；Stapleton & Wu，2015）。基于Toulmin的模型，Stapleton（2001）提出了一个评估日本第二语言学习者批判性思维的模型，通过识别学生论证性写作表现数据中的关键批判性思维要素（即论点、证据、对立面的识别、对立面的反驳和谬误）。然而，这一模型仅适用于要求学生回应挑衅性文章的典型写作任务。

上述研究为探讨第二语言写作中批判性思维标准和标准的选择提供了丰富的依据，但针对EAP口语表现中的批判性思维的研究较少。Wagner（2019）的一项研究为公共演讲课程专门设计了一个批判性思维模型，整合了Paul和Elder（2001）的框架。该模型识别了提升演讲准备和表达的关键批判性思维过程，包括提出问题、评估信息、识别假设、推理和有效传达论点。该模型还强调了清晰性、逻辑性、广度和重要性等智力标准，以促进学生的自我反思。最近，Author（2025a）通过一个包含六个评估标准的评分量表，旨在评估第二语言学生的批判性思维技能，这些标准包括解释、分析、评估、解释、推理和自我调节。

尽管这些研究为批判性思维教学法和表现描述符提供了重要的概念性见解，但它们在验证方法和论证评估工具有效性的支持方面存在局限性。首先，一些研究仅提供了有限的有效性证据，主要依赖于内部一致性指标（如Cronbach的α系数），而未进一步探讨分数解释（例如，Bakhshayesh等人，2023）。其次，关于评分者一致性和评分者解释和应用评分标准的过程的证据往往不足（例如，Sato，2022）。第三，描述符的功能（如类别区分）很少得到系统研究（例如，Author，2025a）。第四，关于分数使用和解释方式的实证支持也有限（例如，Wagner，2019）。最后，结构代表的合理性往往不够充分，结构往往没有具体针对语言教育情境（例如，Dong，2017）。这些局限性表明，如果没有明确的验证框架，很难充分评估测试的有效性和分数解释的意义（Nguyen等人，2024）。

2.2. 基于论证的验证

有效性被认为是开发和评估测试的最基本方面（AERA等人，2014）。根据《教育和心理测试标准》（AERA等人，2014），有效性指的是“证据和理论支持测试分数解释的程度，以适应测试的预期用途”；而验证则被视为“构建和评估支持和反对测试分数预期解释的过程及其相关性”（第11页）。基于论证的有效性框架在过去二十年里在语言评估领域得到了越来越多的采用。该框架基于图尔敏（Toulmin，1958, 2003）的推理结构，允许人们清晰地表达有效性主张并收集支持这些主张的证据。在图尔敏的模型中（见图1），确定了六个要素，包括数据、根据、限定词、主张、支持和例外情况。每个推理都从一个数据开始，以一个主张结束，即我们所做出的结论。推理通过根据得到证明，并由支持来加强。例外情况是可以削弱或破坏结论的反驳意见。

这种基于论证的方法由凯恩（Kane，例如1992, 2006, 2013）在教育评估中进行了描述。凯恩（Kane，1992）开发了一个解释性论证模型，其中验证是一个评估推理与支持假设之间联系的过程。在基于论证的框架中，验证分为两个连续的步骤：首先是解释性和使用性论证（IUA），然后是有效性论证（Kane，2013）。验证过程的第一步是构建IUA，在此过程中，主张通过逻辑推理链将测试表现与评估决策联系起来。这些主张得到了假设的支持，这些假设建立了推理成立的条件。第二步侧重于构建有效性论证，通过不同的推理来系统地评估这些主张。

受凯恩的验证模型（Kane，2006）的启发，诺赫（Knoch）和查佩尔（Chapelle，2018）提出了一个专门用于验证评分过程的基于论证的框架。该框架从观察考生的行为开始，然后沿着推理链展开：[观察到的行为] → [评估] → [观察到的分数] → [预期分数] → [解释] → [分数解释（语言能力构念)] → [推断] → [在EAP口语评估中的预期语言表现] → [决策] → [分数使用] → [后果] → [washingback]。这种以实践为导向且结构化的验证方法被本研究采用有几个关键原因。首先，诺赫和查佩尔（Knoch & Chapelle，2018）的方法通过考察与评分相关的根据、假设和支持，在现有研究中填补了一个重要空白。这种方法有助于更精确地理解分数的解释、使用和后果，因此对于当前研究尤其相关。其次，基于论证的框架提供了一个逻辑和系统的指导，使研究能够以连贯和逐步的方式进行。IUA框架中的每个推理指导验证过程的具体阶段，从而加强了整体的有效性论证。此外，IUA框架的适应性不仅包含了相同的根据和假设，还允许构建特定于本研究目标的情境有效性论证（即验证用于EAP口语评估的新构念的评分量表）。这种灵活性使得IUA框架更像是一个“工具包”而不是一个“检查清单”，对其关注评分相关问题的研究具有实际价值（Koch & Chapelle，2018，第19页）。由于本研究的范围，我重点关注在验证阶段检验评估、概括和解释推理的合理性。

到目前为止，还没有发表的研究系统性地检验过专门为EAP口语评估设计的CT评分量表的有效性。为了填补这一空白，本研究旨在考察CT评分量表是否能够可靠且有效地衡量学生在EAP口语评估中的CT能力。

**3. 本研究**
本研究旨在验证一个用于EAP口语评估的CT评分量表。该研究基于大学英语测试-口语测试6级（CET-SET6）的背景进行，这是一种全国性的EAP口语测试，旨在评估大学生在学术环境中的口语能力。本研究中考察的CT评分量表最初是作为一项更广泛研究项目的一部分开发的，该项目旨在概念化和操作化EAP口语中的CT（作者，2025b）。
CET-SET6包括两种口语任务类型：个人陈述和配对讨论。在陈述任务中，考生就需要讨论的话题发表简短的议论文，要求他们阐述观点并证明自己的立场。在讨论任务中，随机配对的考生就同一话题交换意见，进行协作性论证和观点谈判。这两种任务都与学术口语实践高度一致，并有助于通过论证和推理激发CT能力（Davies，2015）。

CET-SET6使用一个包含三个标准的分析性评分量表进行评分，即准确性和范围、规模和话语管理以及灵活性和适当性，总分为15分。测试结果以A、B、C、D四个等级报告，其中A代表最高水平，D表示不及格。13.5到15分对应的等级为A，11到13.4分为B，8到10.9分为C，低于7.9分为D。CET-SET6的目标对象是英语水平相对较高的大学生。根据最近的一项研究，将CET-SET6与其他公认的语言标准进行比较，得分在9到12分和13分及以上的学生分别大约处于欧洲语言共同参考框架（CEFR）的B2和C1水平（Jin等人，2022）。尽管这些任务具有很强的激发CT能力的潜力，但现有的评分量表主要集中在语言表现上，而没有明确捕捉到批判性思考的能力。

本研究中考察的CT评分量表包含五个等级和三个标准：观点呈现的功能、观点发展的方式以及观点影响的推理，这些标准都是为CET-SET6量身定制的（见附录）。这个评分量表的详细开发过程在作者（Author，2025b）的文章中有所报道。这些标准旨在捕捉考生谈论的内容、他们如何发展和支持自己的论点，以及为什么他们的推理在学术语境中是连贯、合理且有意义的，无论是在个人陈述还是配对讨论任务中。观点呈现的功能反映了考生理解、组织和传达观点的能力，即话题的内容。观点发展的方式关注论点是如何发展、评估和通过相关证据以及与不同观点的互动来支持的。观点影响的推理则关注论点的重要性，强调证明主张、建立逻辑联系和得出合理结论的能力。这三个标准的描述结合了绩效导向和要素导向研究的见解，不仅通过CT标准捕捉了思考过程的质量，还捕捉了CT在口语表现中体现出的显著认知要素。由于CET-SET6使用五级评分量表，因此开发的量表采用了相同的等级数量，以与现有的评分实践保持一致，减少了评分者的认知负担，并便于将其整合到现有评分量表中。

本研究重点验证这个开发的CT评分量表。具体来说，提出了三个研究问题，分别涉及基于论证的验证框架中的评估、概括和解释推理：
1. 该评分量表在评估EAP口语方面的内部结构和类别表现如何运作？
2. CT分数在不同评分者之间的敏感性如何？
3. CT评分量表在多大程度上反映了EAP口语中的连贯构念？

**4. 方法**
**4.1. 研究设计**
CT评分量表的验证遵循了诺赫和查佩尔（Knoch & Chapelle，2018）提出的基于论证的验证框架。鉴于本研究的范围，在验证阶段，使用定量研究方法检验了三个关键推理的合理性，即评估、概括和解释。
在验证的第一步中，通过定义每个推理背后的主张、根据和假设来构建IUA。IUA建立了考生表现与评估决策之间的逻辑联系，确保通过CT评分量表给出的分数能够准确反映CET-SET6中的CT能力。以下分别解释这三个推理。

**评估推理**
在本研究中，评估推理的主张是，考生在CET-SET6中的个人陈述和配对讨论任务的表现可以评分，以产生反映其CT技能的观察分数。这一推理基于评分量表的属性符合量表开发者的意图这一根据。相关的假设是评分标准中的步骤距离能够准确反映考生的不同能力水平。

**概括推理**
概括推理认为观察分数反映了CET-SET6中平行主题以及不同评分者之间的预期分数。这一推理基于评分者对相同回答给出相同评分的根据，并假设评分者在不同主题和任务类型之间表现出高度一致性。

**解释推理**
解释推理认为考生的预期分数可以归因于CET-SET6中的CT构念。这一推理基于评分标准基于明确定义的构念这一根据。两个基本假设是：该量表无偏见地清晰反映了CT构念，并且在心理测量学上是单维的。

在验证的第二步中，通过收集实证证据来评估IUA主张的合理性，以检验每个假设。这是通过系统地回答总体研究问题来完成的：该评分量表是否能够可靠且有效地衡量学生在CET-SET6中的CT能力？更具体地说，第一个研究问题通过检验评分量表的功能（包括其内部结构和评分类别的表现）来讨论评估推理；第二个研究问题通过关注评分者在不同主题和任务类型之间的一致性以及评分者严格程度的潜在影响来讨论概括推理；第三个研究问题通过检验评分量表在多大程度上反映了EAP口语中的连贯批判性思维构念来讨论解释推理。这些关系在提出的有效性论证中进行了总结（见图2），该论证将每个推理与其对应的研究问题和每个根据的证据来源进行了对应。

**4.2. 参与者**
本研究涉及两组参与者：学生和评分者。收集了128名学生的口语样本。学生参与者包括91名女性和37名男性，来自中国不同的大学，年龄在20至23岁之间。根据CET-SET6的分类，他们的口语水平分布如下：A（n=37）、B（n=66）、C（n=21）和D（n=4）。根据背景、经验和可用性，招募了六名评分者（见表1）。这些评分者是具有丰富基于表现评估培训经验的EAP讲师和语言评估专家。他们的选拔基于某些标准，包括在CET-SET中的评分经验和教授EAP/大学英语的经验。

| 参与者 | 专业领域 | 最高学历 | 职称 | 性别 | CET-SET评分经验年限 |
|------------|--------------|------------------|---------------|-------------|
| 评分者1 | EAP | 博士 | 讲师 | 男性 | 5年 |
| 评分者2 | EAP | 博士 | 讲师 | 女性 | 8年 |
| 评分者3 | EAP | 博士（副教授） | 女性 | 20年 |
| 评分者4 | EAP | 博士（副教授） | 女性 | 15年 |
| 评分者5 | EAP | 博士（副教授） | 男性 | 15年 |
| 评分者6 | EAP | 博士（副教授） | 女性 | 20年 |

共收集了128个个人陈述（单独任务）和64个配对讨论（双人任务）的口语表现，涉及三个主题（见下文）。为了最大化性别和水平的多样性，学生在三个主题之间进行了分配。

**4.3. 工具**
本研究包括六个关于三个主题的口语任务。选择了CET-SET6中的个人陈述和配对讨论任务，以激发考生的CT能力。在陈述任务中，考生需要对给定话题发表演讲；而在配对讨论任务中，两名考生就需要讨论一个相关话题。为了涵盖多样化的主题，选择了三个任务主题：进口商品、人工智能和求职（见表2）。

| 主题 | 任务类型 | 准备/回应时间 |
|------------|--------------|----------------------|
| 主题1：消费商品需求的变化 | 个人陈述 | 1.5分钟 |
| 主题1：进口商品总是更优吗？ | 配对讨论 | 0.3分钟 |
| 主题2：人工智能技术进步的影响 | 个人陈述 | 1.5分钟 |
| 主题2：人工智能会导致许多人失业吗？ | 配对讨论 | 0.3分钟 |
| 主题3：求职时的主要考虑因素 | 个人陈述 | 1.5分钟 |
| 主题3：年龄应否是筛选申请的主要考虑因素？ | 配对讨论 | 0.3分钟 |

参与者有60秒的时间准备，90秒的时间来完成任务。对于配对讨论任务，学生有3分钟的时间进行无准备讨论。

**4.4. 数据收集和分析程序**
鉴于高风险评估数据的敏感性和机密性，数据集不会公开。该研究获得了中国和澳大利亚管理机构的人类研究伦理委员会的正式伦理批准。CET-SET6口语数据的访问是通过正式的审批流程，并在严格控制的 research 条件下获得的。所有口语表现都在分析前进行了完全匿名处理，在研究的任何阶段都无法访问任何个人身份信息。该研究遵守了管理人类研究数据使用的既定伦理指南，包括《国家人类研究伦理行为声明》中概述的原则。评分过程借鉴了《教育与心理测试标准》（美国教育研究协会等，2014年）中的评分程序标准（标准4.15-4.23）和测试评分标准（标准6.8及标准6.9）。这些标准包括了足够的细节和清晰的评分标准、使用评分量的说明、充分的培训材料以及评分质量的详细记录。为了确保对新开发的CT评分量进行全面理解和一致应用，为评分者团队举办了一个在线培训研讨会。在评分者培训之前，向他们发送了一份包含三个部分的评分协议。第一部分介绍了EAP口语评估中CT的概念，定义了关键的CT技能及其相关性。第二部分展示了CT评分量，概述了三个评估标准：“观点表达的功能”、“观点发展的方式”以及“观点含义的推理”，每个标准都有五个表现等级和详细的描述符。最后一部分包括了带有标注分数的口语样本，说明了评分标准是如何应用的。这种结构化的协议确保了评分的一致性，并为评分者提供了评估CET-SET6中CT的明确指导。研讨会分为三个部分：第一部分简要介绍了项目，包括研究概述、评分量开发过程的简要解释以及关于标准和等级描述符的讨论；第二部分向评分者提供了评分量和协议材料，详细说明了每个标准及其描述符；第三部分进行了实际评分练习。评分者使用CT评分量评估了CET-SET6中的六个演讲和三个配对讨论，随后进行了小组讨论以解释他们的评分决定。通过这一过程，他们达成了最终分数的一致意见，确保了评分量应用的一致性。评分者培训研讨会结束后，每位评分者收到了一份包含128个演讲样本和64个配对讨论样本的资料，涵盖三个不同的主题。除了样本外，评分者还获得了任务提示、CT评分量和评估标准的详细描述。为了确保评分的全面性和可靠性，采用了完全交叉的评分设计，即所有六位评分者都评估了每个考生的单独演讲和配对讨论表现；尽管讨论任务是合作完成的，但每位考生的评分都是独立进行的，分数反映了他们自己对互动的贡献。

为了回答研究问题，采用了多面Rasch测量（MFRM）。MFRM是Rasch模型的扩展，旨在在一个框架内分析评估的多个方面，如考生能力、评分者严格性、任务难度和评分量功能（Linacre，1989年）。MFRM考虑了这些方面之间的相互作用，从而能够细致地评估评分的一致性和公平性。通过基于这些相互作用的因素建模给定分数的概率，MFRM可以提供检查考生、评分者和任务之间相互作用的方法，增强对评分者行为的理解，包括他们的严格性、一致性和评分模式系统的程度（Sawaki，2007年）。在本研究中，使用MFRM方法（Linacre，1989年）和FACETS软件（版本3.82.2）（Linacre，2018a）计算了测量估计值（例如，校准的对数几率估计、标准误差和拟合指数）。MFRM允许研究人员除了项目和对象外，还包括感兴趣的变量（“方面”）。本研究包括了五个方面：考生、评分者、主题、任务类型和评分量标准。FACETS程序通过将这些方面校准到同一个线性对数几率尺度上来建模它们之间的关系，从而允许在分析中直接比较不同的方面。MFRM分析使用了部分信用模型（PCM），该模型允许不同项目的响应阈值数量和校准有所不同。这种混合模型提供了关于分析评分量的更多信息，而不是假设它们在评分量模型（RSM）中都具有相同的尺度结构（McNamara等，2019年）。PCM考虑了不同项目或标准之间的不同评分量结构，而RSM则故意忽略了这些差异。由于口语表现是在三个不同主题和两种不同类型的任务中收集的，因此采用了PCM。

MFRM模型可以用以下数学方程表示：
ln(PnijklmqPnijklm(q?1)) = Bn?Di?Cj?Ek?Gm?Hq
其中：
Pnijklmq = 考生n在任务类型j、主题k下，由评分者m给予标准i评分q的概率
Pnijklm(q-1) = 考生n在任务类型j、主题k下，由评分者m给予标准i评分q-1的概率
bn = 考生n的表现水平
Di = 标准i的难度水平
Cj = 任务类型j的难度水平
Ek = 主题k的难度水平
Gm = 评分者m的严格性水平
Hq = 相对于标准q-1的尺度级别q的难度

该方程模拟了考生在给定标准下获得特定评分的概率，同时考虑了评分者严格性、任务难度、主题差异和类别阈值的变化。

检测不一致的响应模式是MFRM分析的关键部分，因为这些模式可能导致对考生能力或项目难度的估计不准确（McNamara等，2019年）。可以通过多种方法识别模式。例如，拟合统计量评估观察到的响应模式与模型预期的匹配程度。在Rasch模型中，拟合统计量量化了与预期模式的偏差。分析由考生的能力和项目难度之间的相互作用定义。如果考生的响应模式与模型预期显著偏离，则被认为是“不匹配的”，表明评分模式不规则或存在由于每个考生观察有限而产生的噪声。拟合统计量有助于识别不匹配的响应，其中考生或评分者表现出意外的评分行为。过拟合发生在尽管能力水平不同但考生得到相同分数的情况下，这表明存在光环效应，即评分在各个标准上保持一致（Bonk & Ockey，2003年）。不匹配和过拟合都表明考生能力没有被准确测量。然而，不匹配通常被认为是更严重的问题，因为它反映了评分过程中更大的不一致性（McNamara，1996年）。

MFRM分析通过两个卡方值报告了个体级别的统计量，以描述每个考生、评分者和标准在MFRM中的匹配程度：不适配均方残差（即outfit MnSq）和适配均方残差（即infit MnSq）。理想情况下，适配和不适配统计量都应接近1，在评估评分一致性时应更重视适配（Barkaoui，2013年）。适配MnSq值低于1表示可预测性，表明评分者倾向于分配一致的分数；而适配值高于1表示更高的变异性，表明评分具有随机性（Linacre，1989年）。MnSq值在0.5到1.7之间被认为是可接受的，Bond和Fox（2013年）建议这在低风险测试情境或临床观察中适用。大多数研究人员使用均方值而不是标准化值，因为它们对样本量的敏感性较低，并且权重由响应中的信息决定（Bonk & Ockey，2003年）。因此，我选择了使用适配均方值。此外，当≤5%的标准化残差的绝对值大于2，且≤1%的标准化残差的绝对值大于3时，认为全局数据模型拟合良好（Linacre，2018年）。然而，对于实证研究，并没有普遍接受的MnSq拟合值的临界范围，因为这些指导原则是基于经验法则的，可能会受到样本大小的影响（Smith等，1998年）。还使用Winsteps（Linacre，2018b）调查了心理测量数据的维度。通过对标准化残差进行主成分分析（PCA），以检测主要测量标准未能捕捉到的任何实质性且有意义的方差（Fan & Bond，2019年）。根据Linacre（2018a），如果第一个对比（残差相关矩阵中的第一个PCA成分）的特征值小于2.0，则表明残差基本上是随机噪声。相反，如果特征值大于2.0，则表明除了主要Rasch维度之外还存在“第二个维度”。

为了探讨潜在的偏差和不同方面之间的相互作用，特别是评分者与特定标准之间的相互作用，进行了偏差/相互作用分析。通过检查某些评分者是否始终对特定任务类型或主题给予较高或较低的分数，该分析提供了对评分者倾向和可能系统偏差的洞察。

5. 结果
本节展示了Rasch分析的结果，包括评分量的关键方面，如全局模型拟合、变量映射和总结统计量、评分量功能以及偏差/相互作用分析。

5.1. Rasch分析的变量映射和总结统计量
在进行进一步分析之前，首先检查了全局数据模型拟合情况，以确保结果具有意义（参见McNamara等，2019年）。检查了两个拟合统计量，包括全局皮尔逊卡方统计量和基于残差的统计量（标准化残差）。全局皮尔逊卡方统计量总结了所有数据对Rasch模型的拟合情况。皮尔逊卡方统计量的非显著结果（χ2 = 4615.42，自由度=4585，p = .37）表明观测数据近似于Rasch模型生成的预期数据（参见Linacre，2018年）。对于基于残差的统计量，超出±2范围和±3范围的意外标准化残差的百分比分别为2.2%（N = 100）和0.5%（N = 21），低于建议的最大值5%和1%（参见Linacre，2018年）。这两个值表明数据对Rasch模型的拟合情况令人满意。

MFRM分析的总体结果以变量映射和所有方面的总结统计量的形式呈现在下面的图3和表2中。

下载：下载高分辨率图片（435KB）
下载：下载全尺寸图片
图3. 所有方面的变量映射。

MFRM分析的变量映射以图形描述的形式展示了所有五个方面的关系，即考生、评分者、主题、任务类型和标准。映射中的第一列代表对数几率尺度。每个方面内的每个元素都根据这个尺度进行校准，允许直接比较考生的能力、评分者的严格性、主题难度、任务难度和评分标准的功能。对数几率尺度或测量“尺规”以0为中心，范围为9.47个对数几率单位，最高值为5.23，最低值为-4.24。代表考生能力、评分者严格性、主题难度、任务难度和标准难度的元素根据其估计值定位在这个尺度上。根据教育测量的标准惯例（Linacre，2018年），本研究中的学生方面是正向排列的（带有“+”符号），意味着CT能力较高的考生位于顶部，而能力较低的考生位于底部（带有“-”符号）。相比之下，所有其他方面（即评分者、主题、任务和标准）是反向排列的，意味着对数几率尺度上的较高Rasch测量值表示评分者的严格性较高，主题和任务的难度较高。

第二列显示了考生能力的估计值。这些是在对数几率尺度上的单个数字摘要，表示每个考生在不同评分者和口语任务下获得高或低评分的概率。得分较高的考生位于列的顶部，而得分较低的考生位于底部（范围：5.23到-4.24个对数几率单位）。考生的分布比评分者（第3列）、主题（第4列）、任务类型（第5列）和标准（第6列）更广泛，表明考生的CT能力变化大于任务难度、主题难度和评分标准的变化。总体而言，CET-SET6中的任务对于这部分考生来说稍微容易一些，这可以从变量图中看出，大部分考生的得分分布位于主题和任务类型的分布之上。第三列显示了评分者在评价口语样本时的严格程度或宽容程度的差异。评分者的平均宽容度（第三列）大约在0.00 logit左右，表明总体而言，他们在评分时既不过于严格也不过于宽容。评分者的宽容度分布较为均匀，而考生的平均能力得分为1.25 logits（表2）。这表明评分者在评分时稍微严格了一些。六位评分者之间存在统计学上的显著差异，固定卡方值为504.0（p = .00）。

第四列比较了三个不同口语主题的相对难度。第五列比较了个人演讲和小组讨论两种口语任务模式的相对难度。如变量图所示，这些主题和任务类型的得分相似，尽管主题之间的差异（χ2 = 12.1, d.f. = 2, p < .05）和任务类型之间的差异（χ2 = 19.5, d.f. = 1, p < .05）具有统计学意义（表2）。然而，需要强调的是，固定卡方值对样本量很敏感，即使实际难度水平之间的差异很小，这些值也可能具有统计显著性（Myford & Wolfe, 2004b）。

第六和第七列展示了评分者用于评分的5分CT评分量表。第七列中的水平线代表Rasch-Andrich阈值（即相邻等级之间的距离），表示达到下一个更高等级的可能性开始超过达到下一个更低等级的可能性的点。例如，对于“观点表达”7F1（S.1），能力得分在-5到-1.5 logits之间的考生更可能得到2分；在-1.5到1.5 logits之间的考生更可能得到3分；在1.5到4.8 logits之间的考生更可能得到4分；在4.8到6 logits之间的考生更可能得到5分。这三个标准被发现在难度上有所不同（固定卡方值=1122.4, p < .05）。“观点内涵”比其他两个标准更难，其平均得分为1.06 logits，而“观点表达”最简单，平均得分为-0.91 logits。

5.2. 评分量表的功能
针对RQ1，评估了评分量表的整体功能以及每个单独标准的功能。任何不寻常的统计趋势可能表明评分者在应用量表时存在困难。变量图显示，评分标准在难度上针对了大部分考生的情况，表明量表描述大多编写得当（Bonk & Ockey, 2003）。表3提供了评分标准的测量报告，以说明各个标准的功能情况。

5.3. 标准难度估计
根据RQ1的反馈，评分量表的功能无论是整体还是每个单独标准都得到了评估。任何异常的统计趋势都可能表明评分者在应用量表时遇到了困难。变量图显示，评分标准在难度上针对了大部分考生，表明量表描述符的编写较为合理（Bonk & Ockey, 2003）。表3展示了评分标准的测量报告，以说明各个标准的功能情况。表3显示，“观点内涵”是最难的，平均得分为1.06 logits，而“观点表达”是最简单的，平均得分为-0.91 logits。

关于标准难度估计，“观点内涵”是最难的，平均得分为1.06 logits，而“观点表达”是最简单的，平均得分为-0.91 logits。由于使用大量数据（表3第三列中的1,536个评分）来估计难度，并且每个标准的均值标准误差较小，因此测量精度很高。这与评分量表三个标准的拟合统计结果一致，表明这些标准符合Rasch期望，它们都在测量CT能力的潜在结构。此外，“观点表达”（0.78）、“观点发展”（0.75）和“观点内涵”（0.75）的高正点测量相关性（最后一列的Corr PtBis）表明这三个标准与CT能力的潜在结构对齐良好。

5.4. 评分量表类别统计
为了评估评分量表的有效性，我应用了Linacre（2002）提出的指导原则，这些原则概述了理想评分量表所需的关键特性。这些原则用于解释类别统计并评估评分量表的总体功能。第一个原则指出，每个类别的平均得分应该是单调的（即，较高水平的观察值对应学生的较高能力）。第四列显示，每个类别的平均得分（AvgeMeas）呈单调递增，表明评分者对CT能力较低的考生给予较低分数，对CT能力较高的考生给予较高分数。因此，满足了第一个原则。第二个原则指出，阈值顺序也应单调递增。Rasch-Andrich阈值（类别阈值）也随着类别的增加而单调递增，其值在1.4到5 logits之间（见表4、5、6的第六列）。此外，相邻类别之间的距离在Linacre（2002）的可接受范围内（大于1 logit且小于5 logits），表明评分者按照预期使用了这些等级。第三个原则指出，每个量表等级的响应数量应至少有10个观察值。然而，在“观点表达”这一最低等级中，评分者的使用频率较低（少于10个响应）。第四个原则关注评分量表的模型拟合情况。没有哪个类别的均方拟合统计量超过2.0，表明数据符合模型。

5.5. RQ3 – 评分者的使用
为了回答RQ2，对评分者的行为进行了详细分析。关于评分者的一致性，表7显示了评分者的拟合统计量，拟合值和适配值都在0.5到1.5的范围内，表明评分者之间具有高水平的内部一致性（Linacre, 2018）。MFRM还根据总体得分以及模型校准的预期一致性评估了评分者在口语任务上的一致性。Rasch模型假设评分者存在一定程度的个性差异，将评分者视为独立的专家（Eckes, 2011）。因此，经过培训的评分者之间的实际一致性通常略高于预期的一致性（Linacre, 2012）。表7的最后一行显示，评分者之间的实际一致性为33.6%，略高于预期的32.2%。由于观察到的同意值与预期值非常接近，这表明评分者的行为类似于“独立专家”而不是“评分机器”（Eckes, 2011, p. 91）。换句话说，评分者的整体评估是一致的，尽管在某些具体评分细节上存在一些差异。

5.6. 构念表示
为了调查评分量表中的构念统计（或等级），还审查了类别统计（见表4、5、6）。为了评估评分量表的有效性，我应用了Linacre（2002）提出的指导原则。这些原则用于解释类别统计并评估评分量表的总体功能。第一个原则指出，每个类别的平均得分应该是单调的。第四列显示，每个类别的平均得分呈现单调递增，表明评分者对CT能力较低的考生给予较低分数，对CT能力较高的考生给予较高分数。因此，满足了第一个原则。第二个原则指出，阈值顺序也应单调递增。Rasch-Andrich阈值（类别阈值）也随着类别的增加而单调递增，其值在1.4到5 logits之间（见表4、5、6的第六列）。此外，相邻类别之间的距离在Linacre（2002）的可接受范围内（大于1 logit且小于5 logits），表明评分者按照预期使用了这些等级。第三个原则指出，每个量表等级的响应数量应至少有10个观察值。然而，在“观点表达”这一最低等级中，评分者的使用频率较低（少于10个响应）。第四个原则关注评分量的模型拟合情况。没有哪个类别的均方适配统计量超过2.0，表明数据符合模型。

5.7. RQ2 – 评分者的行为
为了回答RQ2，对评分者的行为进行了详细分析。关于评分者的一致性，表7显示了评分者的拟合统计量，拟合值和适配值都在0.5到1.5的范围内，表明评分者之间具有高水平的内部一致性（Linacre, 2018）。MFRM还根据总体得分以及模型校准的预期一致性评估了评分者在口语任务上的一致性。Rasch模型假设评分者存在一定程度的个性差异，将评分者视为独立的专家（Eckes, 2011）。因此，经过培训的评分者之间的实际一致性略高于预期的一致性（Linacre, 2012）。表7的最后一行显示，评分者之间的实际一致性为33.6%，略高于预期的32.2%。因为观察到的同意值与预期值非常接近，这表明评分者的行为类似于“独立专家”而不是“评分机器”（Eckes, 2011, p. 91）。换句话说，评分者的整体评估是一致的，尽管在某些具体评分细节上存在一些差异。

在评估评分者与其它评分者的一致性（或偏差）方面（由单一对评分者/其余评分者的相关性SR/ROR表示），评分者1和评分者6显示出最高的值（CorrPitBis = 0.79），而只有一个评分者（评分者3）略低于最佳值0.7（CorrPitBis = 0.64）（Myford & Wolfe, 2004a）。总之，所有评分者都具有一致性。评分量表的评分者间可靠性表明评分者对CT构念有共同的理解。

在严格程度/宽容程度方面，进行了固定卡方分析以检验所有评分者处于相同严格程度的零假设。表7底部的输出表明评分者之间的严格程度存在显著差异（χ2 = 504.0, d.f. = 5, p < .001）。评分者分组分离比（G = 9.06）和评分者分组指数（H = 12.41）以及高评分者分离可靠性统计量（R = 0.99）提供了类似的证据，表明Rasch模型能够区分评分者之间的12个统计上不同的严格程度等级，从而表明他们并不是作为一个同质群体进行评分。评分者严格程度的这种差异可以归因于评分者的测量误差较小，以及完全交叉的评分设计（McNamara et al., 2019）。这种严格程度的差异与评分者首次使用新评分量表时的预期情况一致（Eckes, 2011）。在个体层面，评分者的严格程度用logits表示，变量图中最顶端的是最严格的评分者（最高logit），最底下的是最宽容的评分者（最低logit）（见图3）。表7的第六列显示，评分者的严格程度范围从0.79 logits到-0.64 logits，评分者5是最严格的，评分者3是最宽容的（也见变量图）。然而，评分者的严格程度测量值紧密分布在零附近（M = 0.00, SD = 0.55），所有评分值都在logit中点的正负一个logit范围内（也见变量图），表明没有评分者过于严格或宽容。评分者严格程度的这种差异与评分者首次使用新评分量表时的预期情况一致（Eckes, 2011）。结果表明，与考生的能力水平的差异相比，评分者的严格程度差异较小，说明评分者的严格程度对考生的得分影响有限。

5.4. RQ3 – 构念表示
为了研究评分者评分中的心理测量数据维度模式（RQ3），进行了标准残差的PCA分析和交互/偏差分析，以检查评分者与标准之间是否存在任何交互作用。PCA用于确定评分量表是否主要测量单一构念，通过识别可能表明额外维度的残差方差模式（见McNamara et al., 2019）。它检查了CT评分量表中的三个标准是否共同作用形成了一个单一的潜在构念，即CT能力。如果提取出强烈的单向构念，则满足了Rasch模型的另一个关键假设——局部独立性（Bond & Fox, 2013）。表8显示，第一个对比的欧几里得值（残差相关矩阵中的第一个PCA组分）为1.7，低于Linacre（2016）的临界值2.0，表明模型残差之间的相关性是随机噪声。结果确认了量表的单维性，并确保了局部独立性。

5.5. MFRM中的偏差/交互分析
MFRM中的偏差/交互分析用于检查评估设置的任何特定方面是否一致引入了偏见评分模式，通过比较数据中的预期值和观测值（即残差）来进行（见McNamara, 1996）。在这项研究中，MFRM交互作用/偏差分析包括了作为偏差项的标准（即，评分者×标准），以确定每个评分者在三个标准上是否保持了一致的严格程度。评分者和标准的偏差分析按照偏差大小的降序排列在表9中；最大的偏差值显示在顶部，最小的显示在底部。偏差大小以logit为单位表示，显示了偏差所代表的差异程度。显著的p值（p < .05）表明两个因素之间存在交互作用。偏差/交互作用分析可以为评分者提供关于他们表现出的任何偏差的反馈，并允许研究人员确定评分者是否对每个标准有共同的理解（McNamara等人，2019；Myford & Wolfe，2003）。在18个交互作用中，有5个实例的偏差在表6.10的概率列中显示出显著的p值。评分者3在使用“想法呈现”标准时更为宽容（偏差=0.32，SE=0.12，p < .05）。评分者2在应用“想法含义”标准时更为宽容（偏差=0.25，SE=0.10，p < .05），但在评估“想法含义”时更为严格（偏差=-0.37，SE=0.11，p < .05）。评分者5在使用“想法呈现”标准时更为宽容（偏差=0.22，SE=0.11，p < .05），但在评估“想法含义”时更为严格（偏差=-0.24，SE=0.09，p < .05）。所有这五个实例中的偏差大小都很小，所有测量值都低于0.5 logits，表明它们不会显著影响学生的分数（McNamara等人，2019）。这一发现支持了该评分量表用于评估学生CT能力的适当性。

表9. 标准化残差方差（以特征值单位表示）。

表10. “评分者”和“标准”方面的偏差分析。

图4显示了评分者与评分标准之间的交互作用。该图直观地展示了评分者在三个标准上的偏差情况，x轴代表标准，y轴表示评分者的严格程度。y轴标题中的负号（“-”）表示较高的测量值对应较低的分数，表明评分的难度和严格程度较高（Linacre，2018a）。图表揭示了一种模式：评分者在评估“想法呈现”时较为宽容，而在评分“想法含义”时更为严格，这一趋势与第5.2节的研究结果一致。

总体而言，Rasch分析的结果表明，评分者在任务层面表现出令人满意的评分者间可靠性，并且在不同主题和不同任务类型之间保持了一致的评分。评分量表的水平有效地区分了学生的CT能力水平，表明该量表按预期发挥了作用。此外，尽管观察到了一些评分者严格程度的变化，但这些变化都在可接受的范围内。这些结果为评分量表的有效性和可靠性提供了实证支持，解决了关于该量表是否适合评估CET-SET6中CT能力的关键问题。在本节中，这些发现将针对有效性论证进行讨论，以确定它们是否充分支持研究设计中概述的假设和推论，从而为CT教学提供启示。

Kane（2013）指出，在基于论证的验证框架中，评估阶段起着核心作用，通常涉及对解释和使用论证中最具疑问的假设进行实证调查。这一阶段也适用于Knoch和Chapelle（2018）的验证框架。在本研究中，每个论据都经过了批判性评估，以确定其连贯性和合理性，从而确定其在多大程度上支持推论。根据证据的质量，论据被分类为“充分支持”、“部分支持”或“不支持”。需要注意的是，由于本研究的范围有限，我只关注了基于论证的验证框架中的三个推论，即评估、概括和解释，而外推和利用的推论并未包括在内。

具体来说，评估假设的前提是评分量表中的步骤对评分者来说是有意义的，并期望他们能够准确地使用这些步骤将考生划分为不同的能力水平。这一假设的依据可以在MFRM分析结果中找到，并在图5中总结。一个值得注意的例外是，在“想法呈现”的评分标准中，第1级的使用有限，评分者的回答数量不到10个。这一发现挑战了量表所有级别都同等有效的假设。然而，第1级使用的频率较低可能归因于CET-SET6考生的语言能力相对较高，他们很少在理解或解释给定主题时遇到显著困难。因此，研究人员应进一步调查“想法呈现”标准中这一级别的功能。这些证据为评估推论提供了部分支持。

评估和解释推论的有效性论证需要证据来支持这样一种假设：在概括宇宙中的预期分数能够准确反映TLU领域中的潜在结构。这一推论对于验证评分量表至关重要，因为定义一个结构可能具有挑战性。解释假设探索了评分者在测量单一结构时无偏地应用子量表的情况。支持这一假设的证据包括拟合统计、点测量双列相关性和Rasch残差的PCA。结果显示，残差中没有出现有意义的子维度，表明“想法呈现的功能”、“想法发展的方式”和“想法含义的推理”都可以归结为单一的测量维度，即CT。然而，一个值得注意的结果是偏差大小，偏差大小以logit为单位进行测量，以估计评分者的不同严格程度效应。在18个偏差大小中，有5个估计在统计上显著（p < .05）。这些结果可能归因于每个评分者的观察次数有限（即，每个评分者768次计数），这可能会严重影响统计显著性检验（Eckes，2009）。同时，所有评分者的拟合结果都是可接受的，表明量表的应用总体上是一致的。综合来看，维度分析显示，尽管三个评分类别代表了CT的不同心理方面，但它们共同且心理测量上测量了相同的潜在结构：考生在EAP口语中的CT能力。因此，从Rasch分析中收集的证据为解释推论提供了部分支持。

尽管并非所有三个推论都得到了支持，但似乎对这些研究结果没有产生严重影响。并且，验证应该被视为一个持续的过程；因此，评分量表似乎有效地捕捉了CT的关键特征，并对测试结构提供了全面的覆盖，且“结构收缩”最小（Knoch等人，2020年，第1页）。改进CET-SET6中CT评分量表评估和解释推论支持的一种方法是提供持续的培训，以确保其有效性。在这项研究中，所有评分者都接受了广泛的培训，以准确和一致地应用CT评分量表，评分过程有明确的绩效描述来指导。尽管评分者之间存在个体差异，但培训计划旨在标准化评分实践并最小化主观偏差。进行了持续的监控和校准会议，以确保评分者在评估中保持高水平的一致性。尽管关于持续培训的有效性存在不同的发现，表明评分者的变异性无法完全控制（Knoch，2011），但研究表明，反复培训和监控可以在某些情况下减少偏差和极端评分倾向（Davis，2016；Shaw，2002；Wigglesworth，1993），并可以提高分数的可靠性（McNamara，1996）。

经过验证的CT评分量表为概念定义、课堂教学法以及EAP口语评估中的分数解释和使用提供了实际的桥梁。更广泛地说，这项研究通过提供实证证据来说明CT如何在特定的EAP口语背景下进行操作化、测量和解释，这一领域在现有研究中仍不发达。从理论上讲，三个标准，即“想法呈现的功能（WHAT）”、“想法发展的方式（HOW）”和“想法含义的推理（WHY）”以评分者可以解释的方式操作化了CT，并对EAP教师具有教学意义。理论结构与操作化结构之间的对齐至关重要，因为CT不是一套通用的技能；相反，它应该根据任务、主题和学生可以依赖的知识来源来具体化（Li等人，2026；Liu & Stapleton，2018）。这项研究还加强了这样的论点：CT应该被视为语言评估中的核心结构，而不仅仅是一个次要特征（作者，2024）。这与口语评估中的新兴学术趋势一致，即内容阐述、想法发展和推理深度越来越被认为是语言能力的重要指标（Khabbazbashi等人，2023；Palmour，2024）。因此，我提倡扩展EAP口语结构，将CT评估作为一个不可或缺的维度，而不仅仅是一个隐含的、次要的标准。

从方法论上讲，这项研究解决了之前EAP和CT评估研究中的一个关键局限，即缺乏对评估工具的系统性验证，采用了基于论证的验证方法。通过使用MFRM分析，该研究提供了对评分者行为的稳健评估，包括严格程度模式、评分者偏差和量表功能。这促进了MFRM在语言评估研究中的日益应用，展示了基于Rasch的建模如何促进人类评分评估的可解释性。重要的是，这种方法回应了早期研究的局限性，这些研究依赖于在特定EAP评估背景下直接调整CT工具，而没有进行充分的验证（例如，Bakhshayesh等人，2023；Dong，2017；Sato，2022），并提供了如何实证验证有效性论证的更透明的解释。在CET-SET6的背景下，经过验证的标准及其相关描述符可以用于设计论证教学，评估者可以可靠地区分以下方面：构建和解释话题以确立一个可论证的立场（WHAT），提出带有相关理由和可信支持的论点（HOW），以及明确表明需要得出结论的推理联系和含义（WHY）。由于Rasch分析结果表明“观点含义”是最难的标准，并且“观点呈现”的最低等级很少被使用，教师可能需要投入大量的教学时间来训练学生使用Toulmin的论证结构（例如，为论点提供依据、详细阐述相关性、明确后果），同时确保低水平学习者在理解话题和采取不同观点方面得到充分的支持。这意味着课程应按照一定的顺序进行：学生首先掌握构建观点和控制多角度探索的能力，然后逐步学习证据评估和反驳不同观点，最后发展更强的论证链条和含义推理能力。

6.3. 局限性
本研究存在一些局限性。首先，参与的学生都是相对高级的英语学习者，这可能限制了研究结果在较低英语水平学习者中的普遍适用性。其次，在基于论证的验证框架中，只考察了三种推理类型，即评估、概括和解释，而外推和利用推理超出了本研究的范围。最后，还需要进一步的研究来探讨语言能力与论证能力（CT）之间的复杂关系。

7. 结论
总之，研究结果为在英语学术写作（EAP）口语中使用CT评分量表提供了支持证据，尽管这些证据在不同有效性方面的强度有所不同。虽然该量表在捕捉话语层面的推理方面表现出良好的特性，但仍需进一步改进以增强其功能和完善其结构。这些发现强调了将论证能力纳入EAP口语评估的重要性。它们还表明，评估实践不仅应关注语言特征（如复杂性、流利度和准确性），还应关注应试者如何在口头表达中构建、证明和发展观点。

附件：CET-SET6的CT评分量表

**表现标准（学生运用了...技能）**

**评估标准**
- **高级** 5
- **熟练** 4
- **合格** 3
- **有限** 2
- **初级** 1

**观点呈现的功能**
- @@@@@
- **理解和传达讨论中的问题**：从不同角度审视问题。
- 提供充分、准确且相关的背景信息。
- 从多个角度创造性且富有洞察力地讨论问题。
- 提出探究性问题，促进对讨论问题的深入理解，并以清晰且相关的方式回应问题和对方的观点。
- 提供充分、准确且相关的背景信息，深入全面地讨论问题。

- @@@@
- 提出不同的问题，促进对讨论问题的深入理解，并以相关的方式回应问题和对方的观点。
- 提供部分充分、准确且相关的背景信息，从多个角度讨论问题。
- 提出简单的问题，促进对问题的进一步理解，并以相关但缺乏创意的方式回应问题和对方的观点。

- @@@@
- 提供有限的背景信息，仅从一个角度讨论问题。
- 提出简单的问题，并提供有限的相关信息，以简单或不相关的方式回应问题和对方的观点。
- 不提供任何背景信息，从无关的角度讨论问题。

- @@@@
- 不提出任何问题，也不做任何回应。

**观点发展的方式**
- **评估和使用信息作为证据支持论点**：
- 提供多个理由来支持论点，所有理由都相关、可信且合理。
- 充分意识到反对意见，并通过提供令人信服的证据来回应这些观点。
- 提供多个论点或反论点的理由，大部分理由相关、可信且合理，但有一两个较弱。
- 提供一些论点理由，但证据的相关性或可信度有限。
- 没有提供论点理由。

**观点含义的推理**
- **使用推理来阐述证据如何支持论点**：
- 以逻辑和富有洞察力的方式清楚地阐述证据与论点之间的关系。
- 在处理任务或回应对方观点时，得出合理且令人信服的结论。
- 提供对证据与论点之间关系的阐述，但缺乏揭示思想深度的见解。
- 提供不充分的阐述。
- 提供基本的阐述。
- 不提供任何阐述。

**关于本文档中使用生成式AI和AI辅助技术的声明**
在准备最终提交稿件期间，作者使用了CLAUD AI工具进行校对。使用该工具/服务后，作者根据需要审查和编辑了内容，并对出版物的内容承担全部责任。

**未引用的参考文献**
Chuang and Yan, 2022; Paul, 1992; Watson and Glaser, 2002; Zwiers, 2008; Bloom, 1956

**CRediT作者贡献声明**
Shengkai Yin：撰写——原始草稿；可视化；验证；软件；资源；项目管理；方法论；研究设计；资金筹集；正式分析；数据管理；概念化。

热点排行