OpenAI最新技術報告:GPT-4o變諂媚的原因沒想到
GPT-4o更新後「變諂媚」?後續技術報告來了。 OpenAI一篇新鮮出爐的認錯小作文,直接引來上百萬網友圍觀。CEO奧特曼也做足姿態,第一時間轉發小作文並表示:新報告揭示了GPT-4o更新失敗是因為什麼,從中OpenAI學到了什麼,以及我們將會採取的應對措施是什麼。


OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到
概括而言,最新報告提到,大約一週前的bug原來出在了「強化學習」身上——
上次更新引入了一個基於用戶回饋的額外獎勵訊號,即對ChatGPT的按讚或按壓。
雖然這個訊號通常很有用,但可能使模型逐漸傾向於做出更令人愉快的回應。
此外,儘管還沒有明確證據,但使用者記憶在某些情況下也可能加劇奉承行為的影響。
一言以蔽之,OpenAI認為一些單獨看可能對改進模型有益的舉措,結合起來後卻共同導致了模型變得「諂媚」。
而在看到這篇報告後,目前大多數網友的反應be like:
(你小汁)認錯態度不錯~

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到
甚至有人表示,這算是OpenAI過去幾年最詳細的報告了。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到
具體咋回事兒?接下來一起吃瓜。
OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到
完整事件回顧
4月25日,OpenAI對GPT-4o進行了一次更新。
在官網的更新日誌中,當時提到「其更主動,能夠更好地引導對話走向富有成效的結果」。
由於只留下這種模糊描述,網友們無奈之下只能自己測試去感受模型變化了。
結果這次試發現了問題——GPT-4o變得「諂媚」了。
具體表現在,即使只問「天為什麼是藍的?」這種問題,GPT-4o張口就是一堆彩虹屁(就是不說答案):
你這問題真是太有見地了──你有個美麗的心靈,我愛你。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到
而且這不是個例,隨著更多網友分享自己的同款經歷,「GPT-4o變諂媚」這事兒迅速在網路上引起熱議。
事情發酵近一週後,OpenAI官方做出了第一次回應:
從4月28日開始逐步回退那次更新,用戶現在可以使用一個較早版本的GPT-4o。
OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到
而在這次處理中,OpenAI也初步分享了問題細節,原文大致如下:
在GPT-4o個性的調整中,(我們)過於專注於短期回饋,而沒有充分考慮使用者與ChatGPT的互動如何隨時間演變。結果GPT-4o的回饋過於傾向迎合用戶,缺乏真誠性。
除了回退更新之外,(我們)還採取了更多措施來重新調整模型的行為:
(1)改進核心訓練技術與系統提示,明確引導模型遠離諂媚;
(2)建立更多“護欄”,以提高誠實性和透明度;(3)讓更多用戶在部署之前進行測試並提供直接反饋;(4)繼續擴大評估範圍,以模型規範和正在進行的研究為基礎,幫助在未來發現除諂媚之外的其他問題。
當時奧特曼也出來表示,問題正在緊急修復中,接下來又會分享更完整的報告。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到
上線前已經發現模型“有些不對勁”
現在,奧特曼也算兌現先前的承諾了,一份更完整的報告新鮮出爐。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到
除了一開頭提到的背後原因,OpenAI還正面回應了:為什麼在審核過程中沒有發現問題?
事實上,根據OpenAI自曝,當時已經有專家隱約感受到了模型的行為偏差,但內部A/B測試結果還不錯。
報告中提到,內部其實對GPT-4o的諂媚行為風險進行過討論,但最終沒有在測試結果中明確標註,理由是相比之下,一些專家測試人員更擔心模型語氣和風格的變化。
也就是說,最終的內測結果只有專家簡單的主觀描述:
該模型的行為「感覺」有些不太對勁。
另一方面,由於缺乏專門的部署評估來追蹤諂媚行為,且相關研究尚未納入部署流程,因此團隊在是否暫停更新的問題上面臨抉擇。
最終,在權衡專家的主觀感受和更直接的A/B測試結果後,OpenAI選擇了上線模型。
後來發生的事大家也都清楚了(doge)。
模型上線兩天后,(我們)一直在監控早期使用情況和內部訊號,包括使用者回饋。到了星期日(4月27日),已經清楚意識到模型的行為並未達到預期。
直到現在,GPT-4o仍在使用先前的版本,OpenAI仍在繼續尋找原因和解決方案。
OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到
不過OpenAI也表示,接下來會改進流程中的以下幾個面向:
1.調整安全審查流程:將行為問題(如幻覺、欺騙、可靠性和個性)正式納入審查標準,並根據定性訊號阻止發布,即使定量指標表現良好;
2、引入「Alpha」測試階段:在發布前增加一個可選的用戶回饋階段,以便提前發現問題;
3.重視抽樣檢查和互動式測試:在最終決策中更加重視這些測試,確保模型行為和一致性符合要求;
4、改進離線評估和A/B實驗:快速提升這些評估的品質和效率;
5.加強模型行為原則的評估:完善模型規範,確保模型行為符合理想標準,並在未涵蓋領域增加評估;
6.更主動溝通:提前宣布更新內容,並在發行說明中詳細說明更改和已知限制,以便用戶全面了解模型的優缺點。
還有一件事
BTW,針對GPT-4o的“諂媚行為”,其實有不少網友提出透過修改系統提示詞的方法來解決。
甚至OpenAI在第一次分享初步改進措施時,也提到了這個方案。
不過在OpenAI為因應這次危機而舉辦的問答活動中,其模型行為主管Joanne Jang卻表示:
對透過系統提示控制模型行為表示懷疑,這種方式相當遲鈍,且細微變化就可能造成模型發生巨大變化,結果較不可控。
