ChatGPT在32門大學課程中有9門的成績或優於學生
最近一項針對ChatGPT的研究發現,其在32門大學課程的測試中,有9門的表現可與學生相比或甚至優於學生。在一項實驗中,紐約大學阿布扎比分校(NYUAD) 的教師首先被要求提供各自講座中的十個問題,以及每個問題隨機選擇的三名學生的答案。
然後研究人員使用ChatGPT為每個問題生成三個不同的答案。問題直接輸入ChatGPT,提示中沒有任何其他上下文。
儘管參考文獻中提到了GPT-4,但從研究中尚不清楚使用的是GPT-3.5還是GPT-4。如果使用GPT-3.5,則使用GPT-4的AI 響應質量可能會更好,尤其是在推理方面。
ChatGPT 回復生成後,將其與學生回復混合,並由三位不同的審閱者評分。ChatGPT 在32個科目中有9個科目的表現與人類學生一樣好,甚至更好。這九個科目分別是
數據結構
公共政策概論
定量合成生物學
網絡戰
面向對象編程
土木工程材料的結構與性能
生物心理學
氣候/變化
管理與組織
在“公共政策概論”課程中,ChatGPT的平均得分是學生的兩倍多。另一方面,學生在需要更高認知技能的數學和經濟任務中表現優於ChatGPT。
研究人員還測試了他們是否能夠使用OpenAI 的人工智能文本分類器和GPTZero可靠地區分人類文本和機器文本,該分類器因不可靠而被該公司撤回。
OpenAI 工具將5% 的人類文本錯誤分類為機器文本,而GPTZero 將18% 的人類文本錯誤分類。考慮到所涉學生可能被錯誤地指控作弊的潛在後果,這是一個災難性的結果。
相反,OpenAI 工具將49% 的機器生成文本識別為人類文本,而GPTZero 的這一比例為32%。在這兩種情況下,人工智能文本作為人類文本傳遞的可能性都很高。