EPFL 研究調查 AI 助手對教育的潛在影響,發現 GPT-4 之類的系統可以正確回答 85% 大學的试题。
ChatGPT 在 2022 年末爆紅,僅首月就吸引了超過 1 億名使用者;此後,人工智能已经改变了社會的许多层面。尤其有越来越多高等教育的学生使用 AI 。雖然這些工具提供了改善教學與教育的機會,也為學習成果帶來了重大挑戰,然而目前為止,仍未全面研究這些工具對学习評估方法可能造成的影響。
EPFL 瑞士洛桑联邦理工学院(École Polytechnique Fédérale de Lausanne)計算機與通訊科學的研究人員在美國國家科學院院刊 (PNAS) 發表的新論文中提到,他們針對 50 門 EPFL 課程進行了大規模研究,衡量大型語言模型目前在高等教育課程評估上的表現。選定的課程取樣自 9 個學士、碩士和線上課程,涵蓋廣泛的 STEM 學科,包括電腦科學、數學、生物、化學、物理和材料科學。
「自然語言處理實驗室 (NLP) 主管兼 EPFL AI 中心成員 Antoine Bosselut 助理教授解釋道,他们從各學位課程获得了多樣化的教材,這些資料被整理成最类似學生会提供給AI模型的格式,然後再评估模型產生的回答。
研究人員以 GPT-3.5 和 GPT-4 為重點,使用八種提示策略產生回應,發現 GPT-4 平均能正確回答 65.8% 的問題,甚至能跨過至少一種提示策略產生 85.1% 問題的正確答案。
「我們對這個結果感到非常驚訝,沒有人料到 AI 會在這麼多門課程中取得這麼高的正確答案比例。重要的是,65% 的問題正確答案是使用最基本的無知識提示策略達到的,因此任何人在不瞭解任何技術的情況下,都可以達到這個目標。論文的共同作者、NPL 科學家 Anna Sotnikova 說,甚至只要有一些科目基本知識,就有可能達到 85% 的成功率,這實在令人震驚。
研究人員接着“玩弄”這些人工智能系統,評估其脆弱性,也就是這些系統是否會被用來規避學生學習所需學術技能的典型認知路徑。
「我們擔心的是,如果這些模型真如我們所指出的那樣有能力,那麼使用這些模型的學生可能會縮短學習新概念的過程。這可能會讓某些技能的基礎在較早階段就變得較弱,使得日後學習更複雜的概念變得更困難。助理教授Bosselut 说:「也許這需要討論我們應該先教什麼,才能讓我們所擁有的技術與學生在未來數十年所做的事產生最佳的協同效應。
AI 助手發展的另一個關鍵點是,它們不會變差,只會變得更好。
「人工智能在很多方面對高等教育機構提出了挑戰,例如:未來的畢業生需要哪些新技能,哪些技能正在變得過時,我們如何才能提供規模化的反饋,以及我們如何衡量知識?EPFL 負責學術事務的副校長 Pierre Dillenbourg 表示:「這些問題幾乎在 EPFL 的每次管理會議中都會出現,而最重要的是我們的團隊所啟動的專案,能夠儘可能為這些問題提供以實證為基礎的答案。
長期而言,教育系統顯然需要適應AI的存在。
“… 我覺得現在與 LLM 的一個很好的類比就是計算機,當計算機被引入時,人們也有類似的擔心,擔心孩子們不再學習數學。現在,在教育的早期階段,通常不允許使用計算機,但到了高中及以上的階段,計算機就會出現,在學生學習依賴計算機的進階技能時,計算機也能兼顧較低層次的工作,” NLP 的博士生 Beatriz Borges 補充道。
The article is first published by EPFL. Author: Tanya Petersen
(CC BY-SA 4.0)
Comments