《Computers and Education Open》:Design and validation of a questionnaire on teachers' uses of generative artificial intelligence
编辑推荐:
本研究針對缺乏工具系統評估中學教師使用生成式人工智能(GAI)的現狀,設計並驗證了一份包含30個題項的問卷。研究結果確立了一個包含教師管理、教學材料創建、學生評估、學生賦能、關注多樣性和學生動機等六個維度的可靠評估工具,為量化教師的GAI使用模式、指導教師培訓與教育政策制定提供了實證基礎。
隨著生成式人工智能(Generative Artificial Intelligence, GAI)如ChatGPT的快速發展,其影響已滲透到教育領域的方方面面。在中學教育中,GAI工具正在重塑教師的教學實踐與學生的學習體驗,從自動化行政文書到個性化學習內容生成,潛力巨大。然而,關於教師究竟如何將GAI整合到日常教學中,學界尚缺乏清晰的圖景。現有研究要么過於寬泛,要么聚焦於特定學科或案例,缺乏能夠系統、可靠地評估教師GAI使用情況的標準化工具。這一工具的缺失,使得我們難以基於實證數據來理解教師的實際需求、評估GAI的整合效果,也無法為教師培訓和相關教育政策的制定提供有力指導。為填補這一空白,一項發表在《Computers and Education Open》上的研究應運而生,旨在設計並驗證一份專門用於評估中學教師GAI使用情況的問卷。
為解決上述問題,研究團隊開展了一項定量研究,旨在開發一份有效且可靠的心理測量問卷。研究主要採用了問卷調查法,具體步驟包括:首先,通過系統的文獻綜述和專家評判,構建初始題項庫;然後,對來自西班牙486名中學教師的樣本(通過便利抽樣獲取)施測問卷初稿;最後,利用IBM SPSS Statistics和JASP軟體進行嚴格的統計分析,包括驗證性因素分析(Confirmatory Factor Analysis, CFA)、信度分析和效度檢驗,以驗證問卷的結構。
研究結果
- •
4.1. 數據清洗與準備
研究對收集到的數據進行了清理和描述性統計分析。所有題項的偏度(Skewness)和峰度(Kurtosis)值均在可接受範圍內,表明數據分佈符合常態性假設,適合進行後續的最大概似法(Maximum Likelihood, ML)因素分析。所有題項的標準化因素負荷量(standardized factor loadings)均顯著,範圍在0.76至0.96之間,遠高於0.50的推薦閾值,且決策係數(R2)均高於0.50,表明各題項能很好地被其對應的潛在因子所解釋。
- •
4.2. 信度
問卷整體的克隆巴赫係數(Cronbach‘s alpha)為0.92,顯示出極高的內部一致性。六個維度的信度係數分別為:教師管理(α = 0.91)、教學材料創建(α = 0.92)、學生評估(α = 0.90)、學生賦能(α = 0.89)、關注多樣性(α = 0.86)和學生動機(α = 0.90),均超過0.70的推薦標準,表明各子量表也具有出色的信度。
- •
4.3. 內容效度
內容效度通過專家評判法進行評估。六位專家從清晰度、相關性和適切性三個維度對初始的60個題項進行評分。採用Aiken’s V係數評估評分者間一致性,大多數題項的V值超過0.80,顯示出高度的專家共識。最終保留的30個題項在三個標準上的平均分均不低於4.8,且V值不低於0.78,確保了問卷題項的質量。
- •
4.4. 建構效度
驗證性因素分析結果支持了預先提出的六因子理論模型。多個模型適配度指標均達到或超過推薦標準,如比較適配指數(Comparative Fit Index, CFI)= 0.963,Tucker-Lewis指數(TLI)= 0.955,漸進誤差均方根(Root Mean Square Error of Approximation, RMSEA)= 0.045,標準化殘差均方根(Standardised Root Mean Square Residual, SRMR)= 0.04。儘管卡方檢定(χ2)結果顯著,但考慮到大樣本量(N=486)下卡方檢定過於敏感,綜合其他指標來看,模型與數據的適配度良好。
- •
4.5. 收斂效度
通過計算平均變異數萃取量(Average Variance Extracted, AVE)和組合信度(Composite Reliability, CR)來評估收斂效度。所有六個因子的AVE值(範圍0.70-0.90)均高於0.50的門檻值,CR值(範圍0.92-0.98)也遠高於0.70的推薦標準,這表明各因子內的題項能很好地測量同一構念,具有充分的收斂效度。
- •
4.6. 區別效度
通過兩種方法評估區別效度。首先,各因子之間的皮爾森相關係數在0.52至0.67之間,呈中等程度相關,表明各維度既相關又有所區別。其次,計算了因子間相關係數的平方(r2),並與各因子的AVE值進行比較。結果顯示,每個因子的AVE值均大於其與其他因子之間的r2值,這為問卷六個維度具有良好的區別效度提供了有力證據。
結論與討論
本研究成功設計並驗證了一份用於評估中學教師使用生成式人工智能(GAI)的問卷,達成了研究目標。最終的問卷包含30個題項,涵蓋六個明確的維度:教師管理、教學材料創建、學生評估、學生賦能、關注多樣性和學生動機。問卷展現了極高的內部一致性信度和良好的結構效度、收斂效度與區別效度。
討論部分指出,這六維度結構為理解教師的GAI使用提供了細緻的視角。它部分印證了先前文獻中的分類(如Martínez-Comesa?a等人提出的管理、教學和學習三類),但進行了更精細的劃分。研究結果表明,教師將GAI視為一種多功能工具,既能優化自身的專業任務(如自動化行政、創建資源、輔助評估),也能豐富學生的學習體驗(如促進個性化學習、提升動機、賦予學生自主權)。這與Ouyang和Jiao提出的AI整合範式(AI支持與AI賦能)共存的观点相吻合。
具體來看,各維度與現有文獻高度一致:“教師管理”維度印證了AI減輕教師行政負擔的潛力;“教學材料創建”反映了教師利用GAI開發個性化教學資源的普遍實踐;“學生評估”作為獨立維度出現,表明GAI在測評過程中的應用日益增多;“關注多樣性”顯示教師認可GAI在滿足學生多樣化需求、促進教育公平方面的價值;“學生動機”維度肯定了GAI在提升學生參與度和興趣方面的作用;“學生賦能”則表明教師開始利用GAI培養學生的自主學習能力和批判性思維,使學生從知識的接收者轉變為AI輔助下的主動創造者。
研究同時指出了若干局限性:樣本僅限於西班牙的中學教師,採用便利抽樣,可能限制了結果的普適性;數據基於自我報告,可能受社會期許偏誤影響;GAI技術發展迅速,問卷未來可能需要更新以涵蓋新興應用。未來的研究方向包括在不同國家和教育階段進行跨文化驗證、探究GAI使用與教育結果(如學業成績、學生參與度)的關聯、開展縱向研究追蹤使用模式的演變,以及結合質性方法深入理解教師的實踐經驗。
總之,這項研究貢獻了一個嚴謹的測量工具和實證證據。該問卷可作為診斷工具,用於評估教師在GAI整合不同維度的現狀,識別優勢與不足,從而為制定有針對性的教師培訓計劃、優化學校資源配置以及制定相關教育政策提供數據支持。在GAI深刻變革教育的關鍵時刻,這項工作有助於推動生成式人工智能在中學課堂中更有效、更負責任的整合,最終惠及教育者和學生雙方。