生成式AI素养:本科生需要知道什么与实际知道什么?中文标题

《Computers and Education: Artificial Intelligence》:What undergraduate students need to know and actually know about generative AI

【字体: 时间:2026年02月23日 来源:Computers and Education: Artificial Intelligence CS28.7

编辑推荐:

  为应对ChatGPT等生成式AI工具在大学校园的快速普及与学生对其能力认知模糊的现状,本研究构建了一个融合知识(基础、能力与局限、社会影响)与感知(民间理论)的生成式AI素养理论框架,并开发了信效度良好的评估量表。两项针对美国本科生的研究发现,尽管约60%的学生每周或每天使用AI聊天机器人,但普遍高估其能力,尤其是推理与计数任务,且常将其拟人化或误解为搜索引擎。计算机科学专业学生和频繁使用者知识得分更高,而更高的概念知识显著关联于更低的模型能力高估。研究为高等教育中超越工具使用的、旨在纠正误解和促进负责任使用的AI素养教育计划提供了理论依据与评估工具。

  
自2022年11月ChatGPT横空出世,生成式人工智能(Generative AI, GenAI)聊天机器人便以前所未有的速度席卷全球,尤其成为高等教育领域不可忽视的一股力量。学生们开始将这类工具用于作业辅导、写作协助乃至个人决策咨询。然而,在一片火热的浪潮之下,潜藏着一个关键问题:学生们真的了解他们每天都在使用的这些“智能助手”吗?他们是否清楚这些工具如何运作、它们真正的能力边界在哪里,以及可能带来的社会影响?目前,虽然教育研究者、技术专家和政策制定者都在积极探讨GenAI在教育中的机遇与挑战(如学术诚信问题),但关于学生究竟对这些工具有何认知、持有何种信念,以及他们的“知”与“信”如何影响其使用行为的系统性研究,尚属空白。这正是本研究试图填补的重要缺口。
为了深入探究本科生对生成式AI的认知现状,来自加州大学尔湾分校教育学院的Sina Rismanchian、Eesha Tur Razia Babar和Shayan Doroudi在《Computers and Education: Artificial Intelligence》期刊上发表了一项研究。他们指出,与关注“学生能用GenAI做什么”的现有“能力本位”AI素养框架不同,一个全面的GenAI素养评估必须同时包含学生“应该知道什么”(概念知识)和他们“实际相信什么”(民间理论)。基于这一理念,研究者提出了一个创新的理论框架,将GenAI素养定义为两大相互交织的组成部分:概念知识(涵盖大型语言模型(LLM)的基础原理、能力与局限性、社会影响)与感知(即学生对AI聊天机器人能力的信念与民间理论)。为了检验这一框架并摸清学生底数,他们开发并验证了一份GenAI素养调查问卷。
研究人员开展了两项互补的研究。研究一(Study 1)调查了一所美国大型公立R1大学两门课程的学生,一门是计算机科学(CS)专业的AI导论课(不含高级LLM内容),另一门是心理学与教育科学专业的认知与学习课程。研究二(Study 2)则通过在线平台Prolific招募了更具全国代表性的美国本科生样本。两项研究共收集了568名本科生的有效数据。
主要技术方法
研究核心是自主研发的GenAI素养调查问卷。问卷包含知识问题(14道多选题,基于文献设计,对应理论框架的三大知识构念)和感知问题(17道五点李克特量表题,评估学生对聊天机器人完成特定任务可能性的预估)。为确保效度,研究者邀请自然语言处理专家进行审阅,并让本科生参与前测以优化题目表述。数据分析方面,使用项目反应理论(IRT) 建模分析知识题的信效度,并检验了测量不变性;通过比较学生对能力的预估与GPT-3.5、GPT-4、Gemini/Bard三种主流聊天机器人的实际表现(各任务测试5次取平均)来计算高估/低估百分比;最后,采用K-modes聚类分析来探索学生中存在的不同信念模式。
研究结果
  • 4.1. 测量
    • 通过三参数IRT模型分析,确认了知识问卷具有良好的信效度和测量不变性,适合用于跨群体比较。
  • 4.2. 大学学生在GenAI素养调查中的表现如何?
    • 知识水平:总体而言,R1大学的CS学生在知识测试中表现显著优于非STEM专业学生。在两项研究中,更高频率的聊天机器人使用都与更高的概念知识得分显著相关。有趣的是,在R1大学样本中,女性学生表现优于男性,而使用付费版GPT-4的学生知识得分反而更低,但这一模式未在全国样本中复现。研究假设H1(使用频率与知识得分相关)和H3(CS学生知识水平更高)在R1大学得到验证,但H3在全国样本中不成立。
  • 4.3. 学生对生成式AI的感知如何?
    • 4.3.1. 学生经常高估GenAI的能力
      • 研究假设H2得到证实:学生普遍倾向于高估而非低估聊天机器人的能力。例如,84%的学生认为AI“极有可能”正确完成一个需要列举包含两个字母“a”的单词(如“again”)的计数任务,而实际测试显示LLM缺乏精确计数能力。非STEM学生的高估程度平均高于其他群体。相比之下,R1大学的CS学生则表现出更高的低估倾向。
    • 4.3.2. 更多知识减少高估
      • 核心假设H4得到强有力的支持:在控制了人口学变量后,更高的概念知识得分与显著更低的能力高估百分比相关。在R1大学和全国样本中,知识得分每提高1分,高估程度分别降低5.01%和6.55%。这表明,对GenAI的理解越深入,学生对其能力的判断就越准确。
    • 4.3.3. 参与者的信念是什么?
      • 通过K-modes聚类分析识别出三类主要的学生信念模式。其中,最大的一个集群(占28%)表现出显著的拟人化倾向(如认为LLM像人类一样分步计算乘法)和搜索引擎误解(认为LLM通过搜索数据库来生成答案或代码)。该集群中的学生(60%为非STEM专业)在感知问题中普遍选择“极有可能”,显示出对模型能力的最高期望。
结论与讨论
本研究成功构建并验证了一个整合概念知识与学生感知的生成式AI素养框架及评估工具,首次大规模揭示了美国本科生对GenAI的认知现状。研究结果表明,尽管AI聊天机器人使用广泛,但学生普遍存在对其能力的高估,特别是在推理和计数任务上,且常持有拟人化或将其等同于搜索引擎等民间理论。更重要的是,研究证实了概念知识是校准学生感知的关键:知识越丰富,高估越少。这凸显了单纯鼓励使用不足以培养负责任的AI素养,必须辅以针对性的教育来澄清误解、传授核心概念。
研究的局限包括知识题目数量有限,且对民间理论的探索仅为初步。未来研究可扩展题库,并采用定性方法深入挖掘学生的具体信念。此外,鉴于K-12教师也越来越多地在课堂中使用GenAI工具,评估教师的GenAI素养同样至关重要。
本研究为高等教育中的AI素养倡议提供了重要启示。教育者可以利用本研究的框架和调查工具,诊断学生的知识盲点与错误信念,并以此为基础设计教学内容。例如,可以引导学生比较人类智能与AI的差异,或通过实际任务(如要求AI进行精确计数)来暴露其局限性,从而将学生的民间理论转化为深化理解的起点。最终,培养具备批判性思维和负责任使用能力的“数字公民”,是应对生成式AI时代教育挑战的关键。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号