使用GPT-4 學渣比學霸更有優勢
如果允許學生用AI“作弊”,他們的成績分佈會發生怎樣的變化?針對這個問題,真有幾位大學教授正兒八經研究了一番,並寫下了長達62頁的研究論文。結果發現,使用GPT-4後,學生的“能力曲線被壓縮了”,差生和優等生的差距縮小。
華頓商學院教授分享了這項研究後,引起不少網友討論。網友對這樣的結果也覺得很意外:
和我的預期完全不符啊,還以為所有人分數都會提高。
還有網友稱這是「真正的遊戲規則改變者」:
AI正在改變教育格局,在縮小差距的同時提高標準。
不過也有網友持不同觀點:
擅長使用AI的人可能表現會非常出色,那種看起來差距縮小的情況可能只是因為有滿績點4.0這一上限:
AI會是「平衡器」嗎?
除了上面所說的,我們查看論文,發現研究人員也得出了這些結論:
使用GPT-4對參與者整體任務完成的品質影響較小且不穩定;使用GPT-4顯著減少了參與者完成任務的時間;平時技能水準較低的參與者在使用GPT-4後,任務完成品質提升最為顯著,本就能獨立高品質完成任務的參與者所獲得的品質提升較小;GPT-4能為所有學生節省相似的時間,無論他們原本完成任務的速度如何;即便參與者不了解自己在各項任務上的具體成績,他們也能明確指出GPT-4最有效的應用場景。
下面一起來看實驗詳情。
具體來說,來自南加州大學Gould法學院、明尼蘇達大學法學院的幾位教授,以研究AI輔助對法律分析的影響為例。
給參與實驗的60位來自明尼蘇達大學法學院的學生提出了四項初級律師常見的任務:起訴狀起草(Complaint Drafting)、合約起草(Contract Drafting)、員工手冊起草(EE Handbook)和客戶備忘錄起草( Client Memo)。
不同的是,這些參與者隨機分成兩組(A組、B組),每組30人。 A組參與者需使用GPT-4完成起訴狀起草、合約起草任務,而B組使用GPT-4完成員工手冊起草和客戶備忘錄起草任務。
實驗前,所有學生都接受了約2小時的培訓,了解如何有效使用GPT-4進行法律分析。完成任務過程中,參與者需記錄完成任務的時間。
然後,研究人員在不知道參與者身分和其他資訊的情況下,匿名完成所有作品的評分。
具體實驗結果如下。
在4.0績點機制上,使用GPT-4輔助後,學生在四項任務中的平均分數波動幅度為+0.17、+0.24、+0.07、-0.07。
可視化圖表更直觀:
總的來說,僅合約起草任務的表現在95%置信水準上展現出了統計學意義上的顯著提升。
再來看使用與不使用GPT-4參與者,完成任務平均花費的時間:
可以直觀地看到,參與者完成任務時間大大縮減:
更多數據和分析內容,有興趣的朋友可查看論文。
值得一提的是,幾位教授在論文最後,也寫下了長達12頁的啟示,針對律師、法律客戶、法官以及法學院、法學院學生提出了不同的建議。
其中指出:法學院需要重新考慮學生使用AI的時機和方法,以及在何種情況下應限制AI的應用,以便更好地適應未來實踐的需求。
此外,針對不同族群的類似研究也不在少數。
職場中AI會是「平衡器」嗎?
來自哈佛商學院、華頓商學院、MIT斯隆管理學院等的研究人員聯合波士頓顧問公司做了一項研究。
他們選取了波士頓顧問公司中的部分高知員工,讓他們運用AI輔助完成分析、創意構思和說服技巧等18項任務測驗。
結果發現,原本表現位於團隊下半層的顧問們在AI輔助下成果品質提升了43%;而平時表現在上半層的顧問僅提升了17%。
在使用GPT-4之前,頂尖員工與其他員工之間的平均差距為22%;使用後,這一差距顯著縮小至4%。
MIT的一項研究同樣表明,使用ChatGPT之後,高水準寫作者和低水準寫作者的表現差異縮減了一半。
創意寫作領域亦見相似現象,倫敦大學學院、埃克塞特大學研究人員的一項實驗表明,創意作家技能差距縮小,GPT-4提供的五個創意靈感「有效地平衡了不同創造力水平作家的創造力評分」。
不過,儘管有多項研究顯示使用AI可以縮減人們之間的技能差距,但正如論文分享者、華頓商學院教授Ethan Mollick所言:
技能的造王者(King Maker)、加速器(Escalator)、平衡器(Leveler),AI究竟會扮演哪一種角色,並不是總是很清楚。
那麼,你認為AI在你身邊正扮演著哪一種角色?
來源:量子位