ChatGPT在32門大學課程中有9門的成績或優於學生

最近一項針對ChatGPT的研究發現，其在32門大學課程的測試中，有9門的表現可與學生相比或甚至優於學生。在一項實驗中，紐約大學阿布扎比分校（NYUAD）的教師首先被要求提供各自講座中的十個問題，以及每個問題隨機選擇的三名學生的答案。

然後研究人員使用ChatGPT為每個問題生成三個不同的答案。問題直接輸入ChatGPT，提示中沒有任何其他上下文。

儘管參考文獻中提到了GPT-4，但從研究中尚不清楚使用的是GPT-3.5還是GPT-4。如果使用GPT-3.5，則使用GPT-4的AI 響應質量可能會更好，尤其是在推理方面。

ChatGPT 回復生成後，將其與學生回復混合，並由三位不同的審閱者評分。ChatGPT 在32個科目中有9個科目的表現與人類學生一樣好，甚至更好。這九個科目分別是

數據結構

公共政策概論

定量合成生物學

網絡戰

面向對象編程

土木工程材料的結構與性能

生物心理學

氣候/變化

管理與組織

在“公共政策概論”課程中，ChatGPT的平均得分是學生的兩倍多。另一方面，學生在需要更高認知技能的數學和經濟任務中表現優於ChatGPT。

研究人員還測試了他們是否能夠使用OpenAI 的人工智能文本分類器和GPTZero可靠地區分人類文本和機器文本，該分類器因不可靠而被該公司撤回。

OpenAI 工具將5% 的人類文本錯誤分類為機器文本，而GPTZero 將18% 的人類文本錯誤分類。考慮到所涉學生可能被錯誤地指控作弊的潛在後果，這是一個災難性的結果。

相反，OpenAI 工具將49% 的機器生成文本識別為人類文本，而GPTZero 的這一比例為32%。在這兩種情況下，人工智能文本作為人類文本傳遞的可能性都很高。

WONGCW 網誌