使用GPT-4 學渣比學霸更有優勢

2024-02-17 Comments 0 Comment

如果允許學生用AI“作弊”，他們的成績分佈會發生怎樣的變化？針對這個問題，真有幾位大學教授正兒八經研究了一番，並寫下了長達62頁的研究論文。結果發現，使用GPT-4後，學生的“能力曲線被壓縮了”，差生和優等生的差距縮小。

華頓商學院教授分享了這項研究後，引起不少網友討論。網友對這樣的結果也覺得很意外：

和我的預期完全不符啊，還以為所有人分數都會提高。

還有網友稱這是「真正的遊戲規則改變者」：

AI正在改變教育格局，在縮小差距的同時提高標準。

不過也有網友持不同觀點：

擅長使用AI的人可能表現會非常出色，那種看起來差距縮小的情況可能只是因為有滿績點4.0這一上限：

AI會是「平衡器」嗎？

除了上面所說的，我們查看論文，發現研究人員也得出了這些結論：

使用GPT-4對參與者整體任務完成的品質影響較小且不穩定；使用GPT-4顯著減少了參與者完成任務的時間；平時技能水準較低的參與者在使用GPT-4後，任務完成品質提升最為顯著，本就能獨立高品質完成任務的參與者所獲得的品質提升較小；GPT-4能為所有學生節省相似的時間，無論他們原本完成任務的速度如何；即便參與者不了解自己在各項任務上的具體成績，他們也能明確指出GPT-4最有效的應用場景。

下面一起來看實驗詳情。

具體來說，來自南加州大學Gould法學院、明尼蘇達大學法學院的幾位教授，以研究AI輔助對法律分析的影響為例。

給參與實驗的60位來自明尼蘇達大學法學院的學生提出了四項初級律師常見的任務：起訴狀起草（Complaint Drafting）、合約起草（Contract Drafting）、員工手冊起草（EE Handbook）和客戶備忘錄起草（ Client Memo）。

不同的是，這些參與者隨機分成兩組（A組、B組），每組30人。 A組參與者需使用GPT-4完成起訴狀起草、合約起草任務，而B組使用GPT-4完成員工手冊起草和客戶備忘錄起草任務。

實驗前，所有學生都接受了約2小時的培訓，了解如何有效使用GPT-4進行法律分析。完成任務過程中，參與者需記錄完成任務的時間。

然後，研究人員在不知道參與者身分和其他資訊的情況下，匿名完成所有作品的評分。

具體實驗結果如下。

在4.0績點機制上，使用GPT-4輔助後，學生在四項任務中的平均分數波動幅度為+0.17、+0.24、+0.07、-0.07。

可視化圖表更直觀：

總的來說，僅合約起草任務的表現在95%置信水準上展現出了統計學意義上的顯著提升。

再來看使用與不使用GPT-4參與者，完成任務平均花費的時間：

可以直觀地看到，參與者完成任務時間大大縮減：

更多數據和分析內容，有興趣的朋友可查看論文。

值得一提的是，幾位教授在論文最後，也寫下了長達12頁的啟示，針對律師、法律客戶、法官以及法學院、法學院學生提出了不同的建議。

其中指出：法學院需要重新考慮學生使用AI的時機和方法，以及在何種情況下應限制AI的應用，以便更好地適應未來實踐的需求。

此外，針對不同族群的類似研究也不在少數。

職場中AI會是「平衡器」嗎？

來自哈佛商學院、華頓商學院、MIT斯隆管理學院等的研究人員聯合波士頓顧問公司做了一項研究。

他們選取了波士頓顧問公司中的部分高知員工，讓他們運用AI輔助完成分析、創意構思和說服技巧等18項任務測驗。

結果發現，原本表現位於團隊下半層的顧問們在AI輔助下成果品質提升了43%；而平時表現在上半層的顧問僅提升了17%。

在使用GPT-4之前，頂尖員工與其他員工之間的平均差距為22%；使用後，這一差距顯著縮小至4%。

MIT的一項研究同樣表明，使用ChatGPT之後，高水準寫作者和低水準寫作者的表現差異縮減了一半。

創意寫作領域亦見相似現象，倫敦大學學院、埃克塞特大學研究人員的一項實驗表明，創意作家技能差距縮小，GPT-4提供的五個創意靈感「有效地平衡了不同創造力水平作家的創造力評分」。

不過，儘管有多項研究顯示使用AI可以縮減人們之間的技能差距，但正如論文分享者、華頓商學院教授Ethan Mollick所言：

技能的造王者（King Maker）、加速器（Escalator）、平衡器（Leveler），AI究竟會扮演哪一種角色，並不是總是很清楚。

那麼，你認為AI在你身邊正扮演著哪一種角色？

來源：量子位

相關

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。