用GPT-4糾錯GPT-4 OpenAI推出CriticGPT模型

2024-06-28 Comments 0 Comment

根據OpenAI週四（6月27日）發布的新聞稿，該公司新推出了一個基於GPT-4的模型——CriticGPT，用於捕捉ChatGPT程式碼輸出中的錯誤。 CriticGPT的作用相當於讓人們用GPT-4來找出GPT-4的錯誤。該模型可以對ChatGPT反應結果做出批評評論，從而幫助人工智慧訓練師在「基於人類回饋的強化學習（RLHF）」過程中發現的錯誤，為人工智慧訓練師提供明確的人工智慧協助。

這項新模型的發布意在向投資者傳達，OpenAI在RLHF賽道上的領先地位。 RLHF的關鍵部分是收集比較，讓人工智慧訓練師對不同的ChatGPT回答進行評分，並回饋給ChatGPT。

研究發現，當訓練家使用CriticGPT來審查ChatGPT輸出代碼時，他們的表現比沒有得到幫助的人高出60%。並且，在CriticGPT的幫助下，他們的指正比自己單獨做的更全面。

CriticGPT的審查

隨著大模型在推理和行為方面的進步，ChatGPT變得更加準確，它的錯誤也變得更加微妙。這可能會使人工智慧訓練師很難發現其中不準確的情況，從而使RLHF的比較任務更加困難。

若是沒有更好的工具，人們很難對這些系統進行評估。而OpenAI指出，CriticGPT模型將有能力評估先進人工智慧系統的輸出。

OpenAI舉了一個例子：使用者對ChatGPT下達「用Python編寫指定函數」的任務，ChatGPT根據這個指令給了相關程式碼。對於ChatGPT給出的代碼，CriticGPT點評了其中一條，並給出了效果更好的替代方案。

還有一項數據顯示，在OpenAI的實驗中，隨機訓練師在超過60%的時間裡更傾向於人類與CriticGPT合作後得出的指正，而不是單純由人類訓練師所做的批評。

不過，OpenAI也指出，CriticGPT的建議並不總是正確的，但與沒有人工智慧的幫助相比，它還是可以幫助訓練師找出模型中的更多問題。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

用GPT-4糾錯GPT-4 OpenAI推出CriticGPT模型

2024-06-28 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆