讓GPT-4幫人類訓練GPT-4! OpenAI推出新模型CriticGPT
OpenAI稱,如果透過CriticGPT 獲得幫助審查ChatGPT編寫的程式碼,人類訓練者的審查效果比沒有獲得這種幫助的人強60%;在CriticGPT 幫助下,他們得出的批評結論比自己單獨做的更全面。以ChatGPT掀起這輪AI應用熱潮的OpenAI正在用行動證明,在基於人類回饋的強化學習(RLHF)領域,它也是先行者。
美東時間6月27日週四,OpenAI公佈,其研究人員訓練了一個基於GPT-4 的模型,它被稱為CriticGPT,用於捕捉ChatGPT 代碼輸出中的錯誤。簡單來說就是,CriticGPT讓人能用GPT-4 找出GPT-4 的錯誤。它可以寫出使用者對ChatGPT回應結果的批評評論,從而幫助人類訓練者在RLHF期間發現錯誤。
OpenAI發現,如果透過CriticGPT獲得幫助審查ChatGPT編寫的程式碼,人類訓練師的審查效果比沒有獲得幫助的人強60%。 OpenAI稱,正著手將類似CriticGPT 的模型整合到旗下RLHF 標記管道中,為自己的訓練師提供明確的AI幫助。
OpenAI稱,因為沒有更好的工具,所以人們目前難以評估高階的AI系統的表現。而CriticGPT意味著,OpenAI朝著能夠評估高階AI系統輸出的目標邁進了一步。 ,
OpenAI舉了一個例子,如下圖所示,對ChatGPT提出一個用Python 編寫指定函數的任務,對於ChatGPT根據要求提供的程式碼,CriticGPT點評了其中一條指令,提議換成效果更好的。
OpenAI稱,CriticGPT 的建議並不是全都正確無誤,但OpenAI的人員發現,相比沒有這種AI的幫助,有了它,訓練師可以發現更多模型編寫答案的問題。
此外,當人們使用CriticGPT 時,這種AI模型會增強他們的技能,從而得出的批評結論比單單人類訓練師做的更全面,並且比AI模型單獨工作時產生的幻覺錯誤更少。
在OpenAI的實驗中,在60%以上的時間裡,隨機選擇的訓練師都更喜歡來自人類與CriticGPT 合作的批評結論,而不是來自沒有CriticGPT協助的人類訓練師批評。
OpenAI同時提到了目前開發CriticGPT的四點限制。其中之一是,OpenAI用ChatGPT 的簡短答案訓練CriticGPT,因此未來需要發掘能幫助訓練師理解冗長且複雜任務的方法。
第二點是,模型仍然會產生幻覺,有時訓練師在看到這些幻覺後會犯下標記錯誤。第三點是,有時現實世界中的錯誤可能分散在答案的許多部分之中,OpenAI目前的工作重點是讓模型指出一處的錯誤,未來還需要解決分散在不同位置的錯誤。
第四點,OpenAI指出,CriticGPT 只能提供有限的幫助:如果ChatGPT面對的任務或回應極為複雜,即使是有模型幫助的專家也可能無法正確評估。
最後,OpenAI表示,為了協調日益複雜的AI 系統,人們需要更好的工具。在對CriticGPT 的研究中,OpenAI發現,將RLHF 應用於GPT-4 有望幫助人類為GPT-4 產生更好的RLHF 數據。 OpenAI計劃,進一步擴大這項工作,並將其付諸實踐。
OpenAI在原名Twitter的社群媒體X上公佈了新車型CriticGPT後,一則按讚超1萬的網友評論稱,自我改進已經開始了。
另一篇讚上萬的熱截取了OpenAI的相關研究文章結論,其中提到,在智能方面,大語言模型(LLM)和LLM的批評都只會繼續改進,而人類的智能不會,這條評論感嘆,真是悲觀。
還有網友引用了漫威超級英雄電影《復仇者聯盟》中薩諾斯的一句台詞,點評OpenAI所說的用GPT-4找GPT-4的錯誤:“我用寶石摧毀了寶石。”