GPT-4突然降智爆料稱OpenAI重新設計構架官方闢謠網友卻不買賬
最近眾多網友反應GPT-4不好用了,後悔充值了。後來網友爆出OpenAI採用MOE重新設計了構架,導致性能收到影響,但是官方一直沒有明確答复。最近一段時間,很多OpenAI的用戶反應,GPT-4變傻了!
大家普遍認為GPT-4從5月份開始,生成內容的速度變快了,但是內容的質量下降很嚴重。
甚至有OpenAI論壇中的用戶把自己生成的內容貼了出來,說對比2個月前相同的prompt生成的內容,現在GPT-4的能力最多能叫GPT-3.6。
紛紛表態心疼自己出的這每個月的20刀。
不過看完這麼多GPT-4重度用戶的吐槽之後,小編突然開始感嘆:
GPT-4確實是領先太多了。
領先程度已經到了,其他家的大模型都在加班加點的幾天出一個更新版本,希望盡快趕上OpenAI。
他自己家倒好,悄悄“降本增效”“反向升級”,當起了大模型圈裡的“反內捲標兵”。
可能導致性能衰退的原因
對於GPT-4表現降級,用戶似乎都已經達成共識,已經開始討論GPT-4“衰退”的原因了。
根據外媒報導,有些語言模型領域內的專家猜測,OpenAI正在創建多個行為類似於大型模型但運行成本較低的小型GPT-4模型。
根據一個名叫Sharon Zhou的專家的說法,OpenAI採用了一種稱為“混合專家模型”(Mixture of Experts,MOE)的構架來搭建GPT-4。
每個較小的專家模型都在不同的任務和主題領域進行訓練。
可能會有一個專門針對生物學的迷你GPT-4模型,或者其他專門針對物理、化學等領域的迷你模型。
當一個GPT-4用戶提問時,新系統判斷之後會把提示發送給某一個或者幾個專家模型。
“這個思路已經存在一段時間了,這是一個自然的發展方向。”Zhou說。
Zhou將這種情況比作“忒修斯之船”,船上的各個部件被逐漸更換,整條船慢慢變成了一條新船。
她說:“OpenAI正在將GPT-4變成一支由小型船隻組成的船隊。
從我的角度來看,這是一個新模型,但是可能很多人也不會在意這個變化。”
在本週網上洩露了關於GPT-4大量參數細節之後,很多大佬們也針對裡面提到的MoE部分給出了自己的評價。
Allen人工智能研究所創始首席執行官Oren Etzioni在外媒的採訪中寫到:“我覺得這些猜測大致是準確的,雖然沒有辦法確切證實。”
他解釋說,使用MOE有兩個主要原因:更好的生成響應和更便宜、更快的響應。
Etzioni補充說:“正確的搭配混合專家模型將同時保證這兩方面的優勢,但和任何事情一樣,成本和質量之間通常是需要取捨的。”
如果這種假設成立的話,OpenAI在降低成本方面可能確實犧牲了一些質量。
另一個佐證就是,OpenAI的創始人Greg Brockman曾在自己共同參與的研究中提到了MOE這一技術路徑。
“通過混合專家模型的(MoE)方法,每次只使用網絡的一小部分來計算任何一個輸入的輸出。這可以在不增加計算成本的情況下增加更多參數。”Brockman和他的同事Lilian Weng在論文中寫道。
性能下降可能和消除有害內容有關
除了大佬從技術層面的解析外,網友也紛紛從各個角度進行揣測。
有些網友覺得可能是OpenAI相對保守的道德政策降低了模型回复的質量。
在OpenAI官方論壇中GPT相關的子版塊,那些認為ChatGPT的性能遭到了“降級”的帖子中,許多人提到了ChatGPT在OpenAI採取新的內容限制之前對於Prompt的包容性有了很大的變化。
側面支持了OpenAI可能出於安全性的考慮,控制了模型的輸出能力和範圍的觀點。
在YCombinator的討論中,有網友提出,從OpenAI開始宣布關注安全問題以後,模型的表現就越來越糟糕。
以GPT-4在最初發布報告中,讓GPT-4使用TikZ(TikZ可能是在LaTex中創建圖形元素的最複雜,最強大的工具)繪製獨角獸這一任務為例,在後續發布的GPT-4中難以復現報告上的結果,而且表現也越來越差。
另一方面,網友認為GPT-4性能衰退的原因,可能是人類出於安全考慮向GPT-4灌輸了一套相互矛盾的信念。
而這種為了安全選擇消除“壞念頭”的做法,顯而易見會阻止GPT-4對事物更加深刻的認識和理解。
事實上,OpenAI設置了各種過濾器來防止惡意行為,例如暴力,種族主義或仇恨言論。
但是,這些過濾器通常會干擾正常的使用,例如小說寫作、思想頭腦風暴以及其他形式的創作。
雖然很難衡量這些變化的影響,但OpenAI的創始人Sam Altman承認了政策限制會干擾用戶體驗。
除此之外,在5月29日Humanloop聯合創始人Raza與Sam Altman的對話中,Altman提到了OpenAI目前嚴重受到GPU數量的限制。
在ChatGPT突破了1億用戶大關、月活達到18億次的情形下,OpenAI的服務器經常超負荷運轉。
而算力的緊缺不僅推遲了他們許多短期計劃,也導致了許多來自客戶對GPT回答內容可靠性的抱怨和爭議。
也許原因在這屆網友身上?
在官方技術發言人Logan.GPT的回應中,表明了GPT-4在API模式中質量並沒有下降。
而就在昨天,OpenAI產品副總裁Peter Welinder評論了這一傳言。
“不,我們沒有讓GPT-4變笨,恰恰相反:我們讓每個新版本都比前一個版本更聰明。”
對於網友提出的問題,他的理解是,“當你更多地使用它時,你會開始注意到以前沒有註意到的問題。”
言下之意是,GPT-4本來就沒之前那麼強,現在的GPT-4才是它真正的實力。
有那麼一絲凡爾賽的感覺。
果然網友不是很買賬,在推文下不停回懟。
你說你沒改過,然後又說每個版本都更好了,不是自相矛盾嗎?
你說的這個假設不成立,同樣的提示詞7月的回答就是比6月的差!
不過,確實有網友對GPT-4的性能衰退也有不同的解釋:
從感知退化的心理學角度來說,在GPT-4初次曝光帶給人們的驚喜消失,並逐漸深入我們日常生活使用後,人們就會對它的能力習以為常。
新鮮勁兒一過,用戶對其的容忍度也隨之降低,轉而更加關注技術和使用上的缺陷。
此外,在Reddit 上發帖認為GPT-4性能衰退的網友,在最近的更新中表明,那天的提問可能是受到了心態的影響,因為在這之後的GPT-4工作一直都很順利。