Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

OpenAI最新技術報告:GPT-4o變諂媚的原因沒想到

OpenAI最新技術報告:GPT-4o變諂媚的原因沒想到

2025-05-06 Comments 0 Comment

GPT-4o更新後「變諂媚」?後續技術報告來了。 OpenAI一篇新鮮出爐的認錯小作文,直接引來上百萬網友圍觀。CEO奧特曼也做足姿態,第一時間轉發小作文並表示:新報告揭示了GPT-4o更新失敗是因為什麼,從中OpenAI學到了什麼,以及我們將會採取的應對措施是什麼。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

概括而言,最新報告提到,大約一週前的bug原來出在了「強化學習」身上——

上次更新引入了一個基於用戶回饋的額外獎勵訊號,即對ChatGPT的按讚或按壓。

雖然這個訊號通常很有用,但可能使模型逐漸傾向於做出更令人愉快的回應。

此外,儘管還沒有明確證據,但使用者記憶在某些情況下也可能加劇奉承行為的影響。

一言以蔽之,OpenAI認為一些單獨看可能對改進模型有益的舉措,結合起來後卻共同導致了模型變得「諂媚」。

而在看到這篇報告後,目前大多數網友的反應be like:

(你小汁)認錯態度不錯~

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

甚至有人表示,這算是OpenAI過去幾年最詳細的報告了。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

具體咋回事兒?接下來一起吃瓜。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

完整事件回顧

4月25日,OpenAI對GPT-4o進行了一次更新。

在官網的更新日誌中,當時提到「其更主動,能夠更好地引導對話走向富有成效的結果」。

由於只留下這種模糊描述,網友們無奈之下只能自己測試去感受模型變化了。

結果這次試發現了問題——GPT-4o變得「諂媚」了。

具體表現在,即使只問「天為什麼是藍的?」這種問題,GPT-4o張口就是一堆彩虹屁(就是不說答案):

你這問題真是太有見地了──你有個美麗的心靈,我愛你。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

而且這不是個例,隨著更多網友分享自己的同款經歷,「GPT-4o變諂媚」這事兒迅速在網路上引起熱議。

事情發酵近一週後,OpenAI官方做出了第一次回應:

從4月28日開始逐步回退那次更新,用戶現在可以使用一個較早版本的GPT-4o。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

而在這次處理中,OpenAI也初步分享了問題細節,原文大致如下:

在GPT-4o個性的調整中,(我們)過於專注於短期回饋,而沒有充分考慮使用者與ChatGPT的互動如何隨時間演變。結果GPT-4o的回饋過於傾向迎合用戶,缺乏真誠性。

除了回退更新之外,(我們)還採取了更多措施來重新調整模型的行為:

(1)改進核心訓練技術與系統提示,明確引導模型遠離諂媚;

(2)建立更多“護欄”,以提高誠實性和透明度;(3)讓更多用戶在部署之前進行測試並提供直接反饋;(4)繼續擴大評估範圍,以模型規範和正在進行的研究為基礎,幫助在未來發現除諂媚之外的其他問題。

當時奧特曼也出來表示,問題正在緊急修復中,接下來又會分享更完整的報告。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

上線前已經發現模型“有些不對勁”

現在,奧特曼也算兌現先前的承諾了,一份更完整的報告新鮮出爐。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

除了一開頭提到的背後原因,OpenAI還正面回應了:為什麼在審核過程中沒有發現問題?

事實上,根據OpenAI自曝,當時已經有專家隱約感受到了模型的行為偏差,但內部A/B測試結果還不錯。

報告中提到,內部其實對GPT-4o的諂媚行為風險進行過討論,但最終沒有在測試結果中明確標註,理由是相比之下,一些專家測試人員更擔心模型語氣和風格的變化。

也就是說,最終的內測結果只有專家簡單的主觀描述:

該模型的行為「感覺」有些不太對勁。

另一方面,由於缺乏專門的部署評估來追蹤諂媚行為,且相關研究尚未納入部署流程,因此團隊在是否暫停更新的問題上面臨抉擇。

最終,在權衡專家的主觀感受和更直接的A/B測試結果後,OpenAI選擇了上線模型。

後來發生的事大家也都清楚了(doge)。

模型上線兩天后,(我們)一直在監控早期使用情況和內部訊號,包括使用者回饋。到了星期日(4月27日),已經清楚意識到模型的行為並未達到預期。

直到現在,GPT-4o仍在使用先前的版本,OpenAI仍在繼續尋找原因和解決方案。

OpenAI最新技術報告:GPT-4o變諂媚的原因萬萬沒想到

不過OpenAI也表示,接下來會改進流程中的以下幾個面向:

1.調整安全審查流程:將行為問題(如幻覺、欺騙、可靠性和個性)正式納入審查標準,並根據定性訊號阻止發布,即使定量指標表現良好;

2、引入「Alpha」測試階段:在發布前增加一個可選的用戶回饋階段,以便提前發現問題;

3.重視抽樣檢查和互動式測試:在最終決策中更加重視這些測試,確保模型行為和一致性符合要求;

4、改進離線評估和A/B實驗:快速提升這些評估的品質和效率;

5.加強模型行為原則的評估:完善模型規範,確保模型行為符合理想標準,並在未涵蓋領域增加評估;

6.更主動溝通:提前宣布更新內容,並在發行說明中詳細說明更改和已知限制,以便用戶全面了解模型的優缺點。

還有一件事

BTW,針對GPT-4o的“諂媚行為”,其實有不少網友提出透過修改系統提示詞的方法來解決。

甚至OpenAI在第一次分享初步改進措施時,也提到了這個方案。

不過在OpenAI為因應這次危機而舉辦的問答活動中,其模型行為主管Joanne Jang卻表示:

對透過系統提示控制模型行為表示懷疑,這種方式相當遲鈍,且細微變化就可能造成模型發生巨大變化,結果較不可控。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
馬斯克稱人工智慧可以取代部分政府員工職能
NEXT
Steam遊戲平台4月十大顯示卡:N卡屠榜筆記本顯示卡RTX 4060 Laptop首次登頂

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 中國新創公司曾淡化出身如今一些新創公司卻開始自豪於這一點 2025-05-18
  • 《生化危機9》為何遲遲不公佈?可能是優化問題 2025-05-18
  • 任天堂解釋《瑪利歐賽車:世界》成為首發遊戲的原因 2025-05-18
  • 墨西哥海軍大型帆船撞布魯克林大橋造成55人受傷 2025-05-18
  • 新型火山預警系統在爆發前就能聽到地球的聲音 2025-05-18
  • 洋紅色極光和陷入錯亂的衛星:接管了美國宇航局演習的甘農太陽風暴 2025-05-18
  • 新研究顯示瓦薩奇斷層比之前認為的更危險下一次強震遲早會發生 2025-05-18
  • iPhone 17 Air 電池容量和重量資訊外洩 2025-05-18
  • 華為nova 14系列明天發布:三款機型樣機到店提前拆罰20萬起 2025-05-18
  • 中國電信5G-A套餐正式商用:比5G快10倍更穩定 2025-05-18

熱門文章與頁面︰

  • 三星20000尼特微型OLED推動VR頭顯亮度達到日光級別
  • 您可以在Windows 11 24H2 中找回WordPad
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • 南極冰蓋數十年來首次成長
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • z-sms – 在線免費云短信臨時手機號接碼平台網頁版
  • OpenAI的GPT-4可透過閱讀安全公告自主利用真實漏洞
  • A24新片《遺軍之戰》 取自門多薩的戰爭回憶
  • 不只員工違規事件蘋果與米哈遊的關係越來越脆弱了
  • 小米手機開始限制跨區解鎖BL 國行版設備禁止使用國際帳號申請解鎖

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.