Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

GPT-4變笨引爆輿論OpenAI剛剛回應了降本減料質疑

GPT-4變笨引爆輿論OpenAI剛剛回應了降本減料質疑

2023-06-02 Comments 0 Comment

大模型天花板GPT-4,它是不是……變笨了?先是少數用戶提出質疑,隨後大量網友表示自己也注意到了,還貼出不少證據。有人反饋,把GPT-4的3小時25條對話額度一口氣用完了,都沒解決自己的代碼問題。無奈切換到GPT-3.5,反倒解決了。

總結下大家的反饋,最主要的幾種表現有:

以前GPT-4能寫對的代碼,現在滿是Bug

回答問題的深度和分析變少了

響應速度比以前快了

這就引起不少人懷疑,OpenAI是不是為了節省成本,開始偷工減料?

兩個月前GPT-4是世界上最偉大的寫作助手,幾週前它開始變得平庸。我懷疑他們削減了算力或者把它變得沒那麼智能。

這就不免讓人想起微軟新必應“出道即巔峰”,後來慘遭“前額葉切除手術”能力變差的事情……

網友們相互交流自己的遭遇後,“幾週之前開始變差”,成了大家的共識。

一場輿論風暴同時在Hacker News、Reddit和Twitter等技術社區形成。

這下官方也坐不住了。

OpenAI開發者推廣大使Logan Kilpatrick,出面回復了一位網友的質疑:

API 不會在沒有我們通知您的情況下更改。那裡的模型處於靜止狀態。

不放心的網友繼續追問確認“就是說GPT-4自從3月14日發布以來都是靜態的對吧?”,也得到了Logan的肯定回答。

“我注意到對於某些提示詞表現不一致,只是由於大模型本身的不穩定性嗎?”也得到了“Yes”的回复。

但是截至目前,針對網頁版GPT-4是否被降級過的兩條追問都沒有得到回答,並且Logan在這段時間有發布別的內容。

那麼事情究竟如何,不如自己上手測試一波。

對於網友普遍提到GPT-4寫代碼水平變差,我們做了個簡單實驗。

實測GPT-4“煉丹”本領下降了嗎?

3月底,我們曾實驗過讓GPT-4“煉丹”,用Python寫一個多層感知機來實現異或門。

△ShareGPT截圖,界面稍有不同

讓GPT-4改用numpy不用框架後,第一次給出的結果不對。

在修改兩次代碼後,運行得到了正確結果。第一次修改隱藏神經元數量,第二次把激活函數從sigmoid修改成tanh。

6月2日,我們再次嘗試讓GPT-4完成這個任務,但換成了中文提示詞。

這回GPT-4第一次就沒有使用框架,但給的代碼仍然不對。

後續只修改一次就得到正確結果,而且換成了力大磚飛的思路,直接增加訓練epoch數和學習率。

回答的文字部分質量也未觀察到明顯下降,但響應速度感覺確實有變快。

由於時間有限,我們只進行了這一個實驗,且由於AI本身的隨機性,也並不能否定網友的觀察。

最早4月19日就有人反饋

我們在OpenAI官方Discord頻道中搜索,發現從4月下旬開始,就不時有零星用戶反饋GPT-4變差了。

但這些反饋並未引發大範圍討論,也沒有得到官方正式回應。

5月31日,Hacker News和Twitter同天開始大量有網友討論這個問題,成為整個事件的關鍵節點。

HackerNews一位網友指出,在GPT-4的頭像還是黑色的時候更強,現在紫色頭像版在修改代碼時會丟掉幾行。

在Twitter上較早提出這個問題的,是HyperWrite(一款基於GPT API開發的寫作工具)的CEO,Matt Shumer。

但這條推文卻引發了許多網友的共鳴,OpenAI員工回复的推文也正是針對這條。

不過這些回應並沒讓大家滿意,反而討論的範圍越來越大。

比如Reddit上一篇帖子提到,原來能回答代碼問題的GPT-4,現在連哪些是代碼哪些是問題都分不出來了。

在其他網友的追問下,帖子作者對問題出現的過程進行了概述,還附上了和GPT的聊天記錄。

對於OpenAI聲稱模型從三月就沒有改動過,公開層面確實沒有相關記錄。

ChatGPT的更新日誌中,分別在1月9日、1月30日、2月13日提到了對模型本身的更新,涉及改進事實準確性和數學能力等。

但自從3月14日GPT-4發布之後就沒提到模型更新了,只有網頁APP功能調整和添加聯網模式、插件模式、蘋果APP等方面的變化。

假設真如OpenAI所說,GPT-4模型本身的能力沒有變化,那麼這麼多人都感覺它表現變差是怎麼回事呢?

很多人也給出了自己的猜想。

第一種可能的原因是心理作用。

Keras創始人Fran?ois Chollet就表示,不是GPT的表現變差,而是大家渡過了最初的驚喜期,對它的期待變高了。

Hacker News上也有網友持相同觀點,並補充到人們的關注點發生了改變,對GPT失誤的敏感度更高了。

拋開人們心理感受的差異,也有人懷疑API版本和網頁版本不一定一致,但沒什麼實據。

還有一種猜測是在啟用插件的情況下,插件的額外提示詞對要解決的問題來說可能算一種污染。

△WebPilot插件中的額外提示詞

這位網友就表示,在他看來GPT表現變差正是從插件功能開始公測之後開始的。

也有人向OpenAI員工詢問是否模型本身沒變,但推理參數是否有變化?

量子位也曾偶然“拷問”出ChatGPT在iOS上的系統提示詞與網頁版並不一致。

如果在手機端開啟一個對話,它會知道自己在通過手機與你交互。

會把回答控制在一到兩句話,除非需要長的推理。

不會使用表情包,除非你明確要求他使用。

△不一定成功,大概率拒絕回答

那麼如果在網頁版繼續一個在iOS版開啟的對話而沒意識到,就可能觀察到GPT-4回答變簡單了。

總之,GPT-4自發布以來到底有沒有變笨,目前還是個未解之謎。

但有一點可以確定:

3月14日起大家上手玩到的GPT-4,從一開始就不如論文裡的。

與人類對齊讓AI能力下降

微軟研究院發表的150多頁刷屏論文《AGI的火花:GPT-4早期實驗》中明確:

他們早在GPT-4開發未完成時就得到了測試資格,並進行了長期測試。

後來針對論文中很多驚艷例子,網友都不能成功用公開版GPT-4復現。

目前學術界有個觀點是,後來的RLHF訓練雖然讓GPT-4更與人類對齊——也就更聽從人類指示和符合人類價值觀——但讓也讓它自身的推理等能力變差。

論文作者之一、微軟科學家張弋在中文播客節目《What’s Next|科技早知道》S7E11期中也提到:

那個版本的模型,比現在外面大家都可以拿得到的GPT-4還要更強,強非常非常多。

舉例來說,微軟團隊在論文中提到,他們每隔相同一段時間就讓GPT-4使用LaTeX中的TikZ畫一個獨角獸來追踪GPT-4能力的變化。

論文中展示的最後一個結果,畫得已經相當完善。

但論文一作Sebastien Bubeck後續在MIT發表演講時透露了更多信息。

後來當OpenAI開始關注安全問題的時候,後續版本在這個任務中變得越來越糟糕了。

與人類對齊但並不降低AI自身能力上限的訓練方法,也成了現在很多團隊的研究方向,但還在起步階段。

除了專業研究團隊之外,關心AI的網友們也在用自己的辦法追踪著AI能力的變化。

有人每天讓GPT-4畫一次獨角獸,並在網站上公開記錄。

從4月12日開始,直到現在也還沒看出來個獨角獸的大致形態。

當然網站作者表示,自己讓GPT-4使用SVG格式畫圖,與論文中的TikZ格式不一樣也有影響。

並且4月畫的與現在畫的似乎只是一樣差,也沒看出來明顯退步。

來源:量子位

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
SpaceX貨運龍飛船準備發射新的太陽能電池板和太空行走在等待中
NEXT
果然不是結束《速度與激情》確認製作獨立電影

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2023 年 6 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
2627282930  
« 5 月   7 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 【美學小課堂】臉部輪廓解析:外輪廓×內輪廓×T區立體感|一次搞懂輪廓固定關鍵 2025-07-15
  • 美國商務部正在調查無人機和多晶矽進口 2025-07-15
  • 女子網購未殺菌現擠鮮奶直接喝感染布魯氏菌病反覆發燒咳嗽 2025-07-15
  • 索尼手機縮減歐洲市場業務已撤出芬蘭 2025-07-15
  • 特斯拉Robotaxi服務區域形狀引質疑媒體:迎合馬斯克惡趣味 2025-07-15
  • 深圳地鐵配送機器人首跑自己會搭地鐵送貨 2025-07-15
  • 格陵蘭居民一覺醒來看到一座冰山豎在門口 2025-07-15
  • Google 確認計劃將ChromeOS 合併到Android 中 2025-07-15
  • Google Chrome 將終止對macOS 11 Big Sur 的支持 2025-07-15
  • 馬來西亞擬要求高級AI晶片出口需申請許可防止轉售給中國 2025-07-15

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • 造成惡劣影響出軌外國電力競選手Zeus女生擬遭學校開除
  • 新型便攜非侵入式設備可成功檢測出阿茲海默症和帕金森氏症生物標記
  • 擺脫垮臉焦慮,現在就解鎖你的年輕密碼!
  • Photon Matrix:針對蚊子的“防空系統”
  • CCleaner全家桶激活密鑰
  • 美國FAA擬收"天空過路費" 馬斯克發射火箭一年或多交上百萬美元
  • 鳥寶寶有多內捲?為了讓父母投餵自己長出恐怖的嘴巴
  • Office 2013-2021 C2R Install v7.3.1 正式版-Office 2013/2016/2019/2021自定義組件安裝工具

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.