學習分析

多模態 VLM 課堂協調：預測學生分心的精確時刻

Did You Lose Them? Predicting the Exact Moment of Disengagement via Multimodal VLM Classroom Orchestration in Education

E. N. Furqon and C.-K. Chang IEEE ICALT 2026

教學問題

傳統課堂中，教師難以即時察覺學生注意力的動態變化。當分心跡象明顯時，關鍵的學習時刻往往已經流失。現有的 AI 監控系統多聚焦於單一視覺模態，缺乏教學脈絡的理解，且容易引發學生的監控焦慮，反而降低了學習參與度。

研究方法

本研究提出一套多模態視覺語言模型（VLM）框架，作為數位教學協調者。系統整合三種資料流：透過 YOLOv12 與 DINOv2 進行隱私保護的視覺行為特徵擷取、使用 TrOCR 分析投影片語意複雜度、以及透過 Fairseq S2T 處理教師語音模式，最終由 Llama 2 架構的 VLM 進行跨模態推理與融合。實驗於國立中央大學 Python 程式設計課程中進行，參與學生超過 30 位。

主要發現

系統在五類參與度分類中達到 83.22% 整體準確率，分心偵測 F1-score 達 0.81
精確偵測分心起始時刻的準確率為 81.62%，平均偵測延遲僅 12.3 秒
相較於純視覺基線（67.31%），多模態融合顯著提升偵測準確度
VLM 能產生情境感知的教學建議，例如簡化內容、調整語速或增加互動

對教學的啟示

本研究倡導「同步教學法」（Synchronous Pedagogy）的典範轉移—— AI 不是監控工具，而是倫理的認知協駕（cognitive co-pilot），在保護學生隱私與尊嚴的前提下，協調教學意圖與學生參與度，讓教師能在課堂進行中即時調整教學策略。

在 Uedu 上的實踐：課堂參與度即時分析

此研究的技術架構與 Uedu 的螢幕錄製及課堂分析功能密切相關。未來計畫將即時參與度分析整合至 ClassroomGPT 教師端儀表板，讓教師在授課過程中即時掌握學生的參與狀態並獲得教學調整建議。

前往使用

引用資訊

E. N. Furqon and C.-K. Chang, "Did You Lose Them? Predicting the Exact Moment of Disengagement via Multimodal VLM Classroom Orchestration in Education," in 2026 IEEE International Conference on Advanced Learning Technologies (ICALT), Jul. 2026.

上一篇從穿戴裝置到課堂：評估基於 HRV 的生理監測應用於學習分析下一篇透過嵌入幾何驗證基於自然語言的教育數位孿生於 Python 課程

想做類似研究？

我們提供研究設計諮詢、IRB 支援與資料匯出，讓您的教學實踐也能成為學術研究。

預約討論

--

3

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定