用過GPT-4 Turbo以後,我們再也回不去了
昨天,很多人徹夜未眠── 全球科技圈都把目光聚焦在了美國舊金山。在短短45 分鐘裡,OpenAI CEO 山姆・奧特曼向我們介紹了迄今為止最強的大模型,和基於它的一系列應用,一切似乎就像當初ChatGPT 一樣令人震撼。OpenAI 在本週一的首個開發者日上推出了GPT-4 Turbo,新的大模型更聰明,文字處理上限更高,價格也更便宜,應用商店也開了起來。現在,用戶還可以根據需求建立自己的GPT。
根據官方說法,這一波GPT 的升級包括:
更長的上下文長度:128k,相當於300 頁文字。
更高的智能程度,更好的JSON / 函數呼叫。
更高的速度:每分鐘兩倍token。
知識更新:目前的截止日期為2023 年4 月。
客製化:GPT3 16k、GPT4 微調、客製化模型服務。
多模態:Dall-E 3、GPT4-V 和TTS 模型現已在API 中。
Whisper V3 開源(即將推出API)。
與開發者分享收益的Agent 商店。
GPT4 Turbo 的價格約為GPT4 的1/3。
發表會一開完,人們蜂擁而入開始嘗試。GPT4 Turbo 的體驗果然不同凡響。首先是快,快到和以前所有大模型拉開了代差:
然後是功能增多,畫畫的時候,一有靈感就可以直接說話讓AI 負責實現:
設計個UI,幾個小時的工作變成幾分鐘:
我直接不裝了,截張圖複製貼上別人的網站,產生自己的,只用40 秒:
利用ChatGPT 與Bing 的瀏覽功能以及與DALL-E 3 圖像生成器的集成,沃頓商學院教授Ethan Mollick 分享了一段視頻,展示了他的名為“趨勢分析器”的GPT 工具,其可查找市場特定細分市場的趨勢,然後創建新產品的原型圖像。
Octane AI 執行長Matt Schlicht 的Simponize Me GPT 會自動套用提示來轉換使用者上傳的個人資料照片,產生《辛普森家庭》的風格,做這個小應用程式只花了不到十分鐘。
GPT-4 Turbo 具有創紀錄的準確率,在PyLLM 基準上,GPT-4 Turbo 的準確率是87%,而GPT-4 的準確率是52%,這是在速度幾乎快了四倍多的情況下(每秒48 token)實現的。
至此,生成式AI 的競爭似乎進入了新的階段。很多人認為,當競爭對手們依然在追求更快、能力更強的大模型時,OpenAI 其實早就已經把所有方向都試過了一遍,這一波更新會讓一大批創業公司作古。
也有人表示,既然Agent 是大模型重要的方向,OpenAI 也開出了Agent 應用商店,接下來在智慧體領域,我們會有很多機會。
競爭者們真的無路可走了嗎?價格降低,速度變快以後,大模型的效能還能同時變得更好?這必須要看實踐,在OpenAI 的部落格中,其實說法是這樣的:在某些格式的輸出下,GPT-4 Turbo 會比GPT-4 結果更好。那麼整體情況會如何?
在新模型發布的24 小時內,就有研究者在Aider 上進行了AI 生成程式碼的能力測試。
在gpt-4-1106-preview 模型上,僅使用diff 編輯方法對GPT-4 模型進行基準測試得出的結論是:
新的gpt-4-1106-preview 模型似乎比早期的GPT-4 模型快得多;
第一次嘗試時似乎更能產生正確的程式碼,能正確完成約57% 的練習,而先前的模型在第一次嘗試時只能正確完成46-47% 的練習;
在檢查測試套件錯誤輸出而獲得第二次修正錯誤的機會後,新模型的表現(~66%) 似乎與舊模型(63-64%) 相似。
接下來是使用whole 和diff 編輯格式對GPT-3.5 模型進行的基準測試。結果表明,似乎沒有一個gpt-3.5 模型能夠有效地使用diff 編輯格式,包括最新的11 月出現的新模型( 簡稱1106)。以下是一些whole 編輯格式結果:
新的gpt-3.5-turbo-1106 型號完成基準測試的速度比早期的GPT-3.5 型號快3-4 倍;
首次嘗試後的成功率為42%,與先前的6 月(0613) 型號相當。1106 模型和0613 模型都比原來的0301 第一次嘗試的結果更差,為50%;
新模型在第二次嘗試後的成功率為56%,似乎與3 月的模型相當,但比6 月的模型要好一些,6 月的模型為50% 得分。
這項測試是如何進行的呢,具體而言,研究者讓Aider 嘗試完成133 個Exercism Python 編碼練習。對於每個練習,Exercism 都提供了一個起始Python 文件,文件包含所要解決問題的自然語言描述以及用於評估編碼器是否正確解決問題的測試套件。
基準測試分為兩步:
第一次嘗試時,Aider 向GPT 提供要編輯的樁代碼檔案以及描述問題的自然語言指令。這些指令反映了使用者如何使用Aider 進行編碼。用戶將原始碼檔案新增至聊天並要求更改,這些更改會自動套用。
如果測試套件在第一次嘗試後失敗,Aider 會將測試錯誤輸出提供給GPT,並要求其修復程式碼。Aider 的這種互動式方式非常便捷,使用者使用/run pytest 之類的命令來執行pytest 並在與GPT 的聊天中共享結果。
然後就有了上述結果。至於Aider ,對於那些不了解的小夥伴,接下來我們簡單介紹一下。
Aider 是一個命令列工具,可讓使用者將程式與GPT-3.5/GPT-4 配對,以編輯本機git 儲存庫中儲存的程式碼。使用者既可以啟動新項目,也可以使用現有儲存庫。Aider 能夠確保GPT 中編輯的內容透過合理的提交訊息提交到git。Aider 的獨特之處在於它可以很好地與現有的更大的程式碼庫配合使用。
簡單總結就是,借助該工具,用戶可以使用OpenAI 的GPT 編寫和編輯程式碼,輕鬆地進行git commit、diff 和撤消GPT 提出的更改,而無需複製/ 粘貼,它還具有幫助GPT-4 理解和修改更大程式碼庫的功能。
為了達到上述功能,Aider 需要能夠準確地識別GPT 何時想要編輯使用者原始碼,還需要確定GPT 想要修改哪些檔案並對GPT 所做的修改進行準確的應用。然而,要做好這項「程式碼編輯」任務並不簡單,需要功能較強的LLM、準確的提示以及與LLM 互動的良好工具。
操作過程中,當有修改發生時,Aider 會依賴程式碼編輯基準(code editing benchmark)來定量評估修改後的效能。例如,當使用者變更Aider 的提示或驅動LLM 對話的後端時,可以透過執行基準測試以確定這些變更產生多少改進。
另外還有人用GPT-4 Turbo 簡單和其他模型比較了一下美國高考SAT 的成績:
同樣,看起來聰明的程度並沒有拉開代差,甚至還有點退步。不過必須要指出的是,實驗的樣本數很少。
綜上所述,GPT-4 Turbo 的這一波更新更重要的是完善了功能,增加了速度,準確度是否提高仍有疑慮。這或許與整個大模型業界目前的潮流一致:重視優化,面向應用。業務落地速度慢的公司要小心了。
另一方面,從這次開發者日的發佈內容來看,OpenAI 也從一個極度追求前沿技術的創業公司,變得開始關注起用戶體驗和生態構建,更像大型科技公司了。
再次顛覆AI 領域的GPT-5,我們還得再等一等。
來源:機器之心