當要求GPT-4進行自我檢討時其準確性提高了30%
研究人員已經讓GPT-4對自己的工作進行了檢討,進而使其性能提高了30%。研究人員Noah Shinn和Ashwin Gopinath寫道:”人類不是每天都在開發新技術,利用曾經被認為是人類智能所特有的決策過程來達到最先進的標準。但是,這正是我們所做的。”

“反思”技術採用了GPT-4已經令人印象深刻的執行各種測試的能力,並引入了”一個框架,允許人工智能代理模仿人類一樣的自我反思並評估其性能”。有效地,它引入了額外的步驟,讓GPT-4設計測試來批判自己的答案,尋找錯誤和誤區,然後根據發現的問題重寫其解決方案。

在HumanEval編碼測試中,GPT-4的準確率從67%提高到88%,這是一個令人印象深刻的飛躍,使用的是自我反省循環。
該團隊在一些不同的性能測試中使用其技術。在HumanEval測試中,由模型從未見過的164個Python編程問題組成,GPT-4的得分創下了67%的記錄,但使用Reflexion技術,其得分躍升至非常令人印象深刻的88%。
在Alfworld測試中,該測試挑戰人工智能通過在各種互動環境中執行幾種不同的允許行動來做出決定和解決多步驟任務的能力,Reflexion技術將GPT-4的表現從73%左右提升到接近完美的97%,在134項任務中只有4項失敗。
在另一項名為HotPotQA的測試中,語言模型被賦予了對維基百科的訪問權,然後在可能的13000個問題/答案對中給出100個,可以”挑戰代理人對內容的解析和對幾個支持文件的推理”。在這項測試中,GPT-4的準確率只有34%,但帶有Reflexion的GPT-4設法做得更好,達到54%。
越來越多的時候,解決人工智能問題的方法似乎是更多的人工智能本身。在某些方面,這感覺有點像生成式對抗網絡,其中兩個人工智能互相磨練技能,例如,一個試圖生成無法與”真實”圖像區分的圖像,而另一個試圖區分假的和真的。但在這種情況下,GPT既是作者又是編輯,努力改善自己的輸出。
這篇論文可以在Arxiv上找到。