生成式AI素养：本科生需要知道什么与实际知道什么？中文标题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computers and Education: Artificial Intelligence》：What undergraduate students need to know and actually know about generative AI

【字体：大中小】 时间：2026年02月23日 来源：Computers and Education: Artificial Intelligence CS28.7

编辑推荐：

　　为应对ChatGPT等生成式AI工具在大学校园的快速普及与学生对其能力认知模糊的现状，本研究构建了一个融合知识（基础、能力与局限、社会影响）与感知（民间理论）的生成式AI素养理论框架，并开发了信效度良好的评估量表。两项针对美国本科生的研究发现，尽管约60%的学生每周或每天使用AI聊天机器人，但普遍高估其能力，尤其是推理与计数任务，且常将其拟人化或误解为搜索引擎。计算机科学专业学生和频繁使用者知识得分更高，而更高的概念知识显著关联于更低的模型能力高估。研究为高等教育中超越工具使用的、旨在纠正误解和促进负责任使用的AI素养教育计划提供了理论依据与评估工具。

自2022年11月ChatGPT横空出世，生成式人工智能（Generative AI， GenAI）聊天机器人便以前所未有的速度席卷全球，尤其成为高等教育领域不可忽视的一股力量。学生们开始将这类工具用于作业辅导、写作协助乃至个人决策咨询。然而，在一片火热的浪潮之下，潜藏着一个关键问题：学生们真的了解他们每天都在使用的这些“智能助手”吗？他们是否清楚这些工具如何运作、它们真正的能力边界在哪里，以及可能带来的社会影响？目前，虽然教育研究者、技术专家和政策制定者都在积极探讨GenAI在教育中的机遇与挑战（如学术诚信问题），但关于学生究竟对这些工具有何认知、持有何种信念，以及他们的“知”与“信”如何影响其使用行为的系统性研究，尚属空白。这正是本研究试图填补的重要缺口。

为了深入探究本科生对生成式AI的认知现状，来自加州大学尔湾分校教育学院的Sina Rismanchian、Eesha Tur Razia Babar和Shayan Doroudi在《Computers and Education: Artificial Intelligence》期刊上发表了一项研究。他们指出，与关注“学生能用GenAI做什么”的现有“能力本位”AI素养框架不同，一个全面的GenAI素养评估必须同时包含学生“应该知道什么”（概念知识）和他们“实际相信什么”（民间理论）。基于这一理念，研究者提出了一个创新的理论框架，将GenAI素养定义为两大相互交织的组成部分：概念知识（涵盖大型语言模型（LLM）的基础原理、能力与局限性、社会影响）与感知（即学生对AI聊天机器人能力的信念与民间理论）。为了检验这一框架并摸清学生底数，他们开发并验证了一份GenAI素养调查问卷。

研究人员开展了两项互补的研究。研究一（Study 1）调查了一所美国大型公立R1大学两门课程的学生，一门是计算机科学（CS）专业的AI导论课（不含高级LLM内容），另一门是心理学与教育科学专业的认知与学习课程。研究二（Study 2）则通过在线平台Prolific招募了更具全国代表性的美国本科生样本。两项研究共收集了568名本科生的有效数据。

主要技术方法

研究核心是自主研发的GenAI素养调查问卷。问卷包含知识问题（14道多选题，基于文献设计，对应理论框架的三大知识构念）和感知问题（17道五点李克特量表题，评估学生对聊天机器人完成特定任务可能性的预估）。为确保效度，研究者邀请自然语言处理专家进行审阅，并让本科生参与前测以优化题目表述。数据分析方面，使用项目反应理论（IRT） 建模分析知识题的信效度，并检验了测量不变性；通过比较学生对能力的预估与GPT-3.5、GPT-4、Gemini/Bard三种主流聊天机器人的实际表现（各任务测试5次取平均）来计算高估/低估百分比；最后，采用K-modes聚类分析来探索学生中存在的不同信念模式。

研究结果

•
4.1. 测量
- •
  通过三参数IRT模型分析，确认了知识问卷具有良好的信效度和测量不变性，适合用于跨群体比较。
•
4.2. 大学学生在GenAI素养调查中的表现如何？
- •
  知识水平：总体而言，R1大学的CS学生在知识测试中表现显著优于非STEM专业学生。在两项研究中，更高频率的聊天机器人使用都与更高的概念知识得分显著相关。有趣的是，在R1大学样本中，女性学生表现优于男性，而使用付费版GPT-4的学生知识得分反而更低，但这一模式未在全国样本中复现。研究假设H1（使用频率与知识得分相关）和H3（CS学生知识水平更高）在R1大学得到验证，但H3在全国样本中不成立。
•
4.3. 学生对生成式AI的感知如何？
- •
  4.3.1. 学生经常高估GenAI的能力
  - •
    研究假设H2得到证实：学生普遍倾向于高估而非低估聊天机器人的能力。例如，84%的学生认为AI“极有可能”正确完成一个需要列举包含两个字母“a”的单词（如“again”）的计数任务，而实际测试显示LLM缺乏精确计数能力。非STEM学生的高估程度平均高于其他群体。相比之下，R1大学的CS学生则表现出更高的低估倾向。
- •
  4.3.2. 更多知识减少高估
  - •
    核心假设H4得到强有力的支持：在控制了人口学变量后，更高的概念知识得分与显著更低的能力高估百分比相关。在R1大学和全国样本中，知识得分每提高1分，高估程度分别降低5.01%和6.55%。这表明，对GenAI的理解越深入，学生对其能力的判断就越准确。
- •
  4.3.3. 参与者的信念是什么？
  - •
    通过K-modes聚类分析识别出三类主要的学生信念模式。其中，最大的一个集群（占28%）表现出显著的拟人化倾向（如认为LLM像人类一样分步计算乘法）和搜索引擎误解（认为LLM通过搜索数据库来生成答案或代码）。该集群中的学生（60%为非STEM专业）在感知问题中普遍选择“极有可能”，显示出对模型能力的最高期望。

结论与讨论

本研究成功构建并验证了一个整合概念知识与学生感知的生成式AI素养框架及评估工具，首次大规模揭示了美国本科生对GenAI的认知现状。研究结果表明，尽管AI聊天机器人使用广泛，但学生普遍存在对其能力的高估，特别是在推理和计数任务上，且常持有拟人化或将其等同于搜索引擎等民间理论。更重要的是，研究证实了概念知识是校准学生感知的关键：知识越丰富，高估越少。这凸显了单纯鼓励使用不足以培养负责任的AI素养，必须辅以针对性的教育来澄清误解、传授核心概念。

研究的局限包括知识题目数量有限，且对民间理论的探索仅为初步。未来研究可扩展题库，并采用定性方法深入挖掘学生的具体信念。此外，鉴于K-12教师也越来越多地在课堂中使用GenAI工具，评估教师的GenAI素养同样至关重要。

本研究为高等教育中的AI素养倡议提供了重要启示。教育者可以利用本研究的框架和调查工具，诊断学生的知识盲点与错误信念，并以此为基础设计教学内容。例如，可以引导学生比较人类智能与AI的差异，或通过实际任务（如要求AI进行精确计数）来暴露其局限性，从而将学生的民间理论转化为深化理解的起点。最终，培养具备批判性思维和负责任使用能力的“数字公民”，是应对生成式AI时代教育挑战的关键。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号