谷歌新Bard逆襲GPT-4衝上LLM排行榜第二Jeff Dean高喊我們回來了
一夕之間,Bard逆襲GPT-4,性能直逼最強GPT-4 Turbo!這個聽起來似乎像是夢裡的事情,確確實在實地發生了。就在昨天,Google首席Jeff Dean發推文提前透露了Google的最新版模型-Gemini Pro-scale。
基於此,Bard相較於3月的首次亮相,不僅在表現上有了顯著的提升,而且還具備了更多的能力。
可以看到,在最新的Gemini Pro-scale加持下,Bard直接躥升到了排行榜第二名的位置。
一口氣把之前的兩款GPT-4模型斬於馬下,甚至和排名第一的GPT-4 Turbo的差距也非常小。
雖然Jeff Dean並沒有具體闡述「scale」的含義,但從名稱上推測,很可能是一個比初代Gemini Pro規模更大的版本。
而根據前段時間外媒曝光的內部郵件,搭載Gemini Ultra的Bard Advanced已經全面開放給Google員工試用。
也就是說,距離Google最強模型的上線,已經不遠了。
隨著Google對Gemini Pro更新後不斷大幅上漲的表現,也讓所有人對完全體Gemini Ultra的能力有了更多的期待。
不過,新推出的Bard目前只接受了約3,000次評價,而GPT-4的評價次數已高達30,000次。因此,這個結果後續很可能還會改變。
但不管怎樣,這對Google來說是一項令人矚目的成就,也讓人對即將發布的、預期將超過Gemini Pro-Scale性能的最強AI模型Gemini Ultra充滿期待。
GoogleBard超越GPT-4躍居第二
簡單介紹一下,這個由UC伯克利主導,CMU,UCSD等頂級高校共同參與創建的聊天機器人競技場“Chatbot Arena”,是學術圈內一個很權威的大模型對話能力排行榜。
名單透過類似Moba遊戲中的「排位賽」機制,讓各家大模型透過PvP的方式排出效能高低。
期間,使用者會與模型(不知道具體型號)進行互動,並選擇他們更喜歡的答案。而這些投票將會決定模型在排行榜上的名次。
這種方式能夠有效地避免許多PvE基準測試中可能出現的,透過「刷題」來提高成績的問題,被業界認為是比較客觀的大模型能力排行榜。
為了方便區分,LMSYS Org指出,目前Gemini Pro市面上總共有3個版本:
– Gemini Pro API:使用者可以透過Google雲端的Vertex AI API存取
– Gemini Pro(dev)API:開發者API可以透過Google AI Studio進行訪問
– Bard(1月4日更新的Gemini Pro):是目前唯一可以訪問1月24日更新的Gemini Pro的方式
同時,GoogleBard計畫的高級總監Sadovsky也透露,排行榜上的Bard和Gemini Pro(API)是兩個在微調層面不同的模型,而且Bard可以檢索網路上的資訊。
在ChatBot Arena中,1月24號更新的Bard由於支援檢索互聯網,相較於先前釋放的Gemini Pro(API)對於即時資訊問題的回應提升龐大。
從Google的這波更新可以看出,Gemini Pro的潛力似乎遠遠沒有被完全釋放,希望Google能再接再厲,對OpenAI一家獨大的格局形成挑戰。
以下是1月14號更新的Bard在ChatBot Arena中的成績的明細:
模型A相對於模型B在所有非平手對決中獲勝的比例
不同模型組合間對決的次數統計(排除平手狀況)
透過1000輪隨機抽樣對Elo評分進行的自舉法(Bootstrap)估計
在假設等機率抽樣和不存在平手的情況下,相對於所有其他模型的平均勝率
Elo評分系統
Elo等級分制度(Elo rating system)是一種計算玩家相對技能水準的方法,廣泛應用於競技遊戲和各類運動當中。其中,Elo評分越高,那就表示這個玩家越厲害。
例如英雄聯盟、Dota 2以及吃雞等等,系統給玩家排名的就是這個機制。
舉個例子,當你在英雄聯盟裡面打了很多場排位賽後,就會出現一個隱藏分數。這個隱藏分數不僅決定了你的段位,也決定了你打排位時碰到的對手基本上也是類似水平的。
而且,這個Elo評分的數值是絕對的。也就是說,當未來加入新的聊天機器人時,我們依然可以直接透過Elo的評分來判斷哪個聊天機器人比較厲害。
具體來說,如果玩家A的評分為Ra,玩家B的評分為Rb,玩家A獲勝機率的精確公式(使用以10為底的logistic曲線)為:
然後,玩家的評分會在每場對戰後線性更新。
假設玩家A(評分為Ra)預計獲得Ea分,但實際獲得Sa分。更新該玩家評分的公式為:
網友熱議
對此,網友提問:現在能夠訪問的Bard就是這個排名第二的Bard了嗎?
Google官方回复,是的,而且現在訪問的Bard比排行榜的上的Bard還能支援更多的像地圖擴展等應用。
不過還是有網友吐槽,即使在PvP排行榜上Bard已經取得了很好的成績,但是對於理解用戶需求和解決實際問題的能力,Bard和GPT-4依然還有很大差距。
也有網友認為,用能連網的Bard和離線的GPT-4打有失公平。甚至,就這樣還沒打過…
而最有趣的,還要數網友在排行榜中發現的「華點」了:號稱是GPT-4最大競品的Claude居然越更新越弱了。
對此,先前有分析認為,Anthropic一直在大力發展的與人類對齊,會嚴重影響模型的表現。
GPT-4 Turbo超長上下文A/B測試
有趣的是,這個連Jeff Dean都親自下場的“刷榜”,正巧就在OpenAI連發5款新模型的第二天。
根據OpenAI的介紹,新版GPT-4 Turbo——gpt-4-0125-preview,不僅大幅改善了模型「偷懶」的情況,而且還大大提升了程式碼產生的能力。
不過,正如大家對Bard的懷疑,GPT-4這次到底有沒有變強也有待驗證。
對此,AI公司Smol的創始人Shawn Wang,就在超過100k單字的超長上下文中,對比測試了新舊GPT4-Turbo的總結能力。
Wang表示,兩次測驗使用的是完全相同提示詞,以及基本上相同的語料庫。
雖然沒有嚴格嚴格,但每個模型都進行了超過300次的API調用,因此對於總結任務而言,這一結果還是具有一定參考價值的。
結果顯示,2024年1月的GPT4-Turbo花了19分鐘來產生20,265個單詞,相較之下,2023年11月的用16分鐘生成了18,884個單字。
也就是說,新模型的生成速度大約慢了18%,且生成文字的長度平均偏長約7%。
品質方面:
– 2024年1月的模型在主題選擇上略有改善,但仍有問題
– 2023年11月的模型會產生更多錯誤訊息
– 2024年1月的模型在總結中添加小標題的能力略有提升
– 2024年1月的模型出現了一次嚴重的格式錯誤,而這在之前是極為罕見的
– 2023年11月的模型文本詳情更加豐富
整體而言,新版GPT4-Turbo在總結此應用場景上有所退步。
左側:2023年11月;右側:2024年1月(左右滑動查看全部)
OpenAI最後的「開源遺作」兩週年
不得不說,AI領域的發展過於迅猛,甚至讓人對時間的流速都產生了錯覺。
今天,英偉達高級科學家Jim Fan發推文紀念了InstructGPT發行二週年。
在這裡,OpenAI定義了一套標準流程:預訓練-> 監督式微調-> RLHF。直到今天,這仍然是大家遵循的基本策略(儘管有些許變化,例如DPO)。
它不僅僅是大語言模型從學術探索(GPT-3)到轉化為具有實際影響力的產品(ChatGPT)的關鍵轉折點,也是最後一篇OpenAI詳細說明他們如何訓練前沿模型的論文。
論文網址:https://arxiv.org/abs/2203.02155
– InstructGPT在2022年的NeurIPS會議上首次亮相,但它並不是RLHF的發明者。實際上,相關部落格將讀者引向了OpenAI團隊在2017年完成的原始RLHF研究。
這項研究最初的目的是解決模擬機器人領域中難以明確定義的任務——透過一名人類標註者提供的900個二選一偏好,RLHF讓一個簡單的「跳躍」機器人在模擬環境中學會了後空翻。
論文網址:https://arxiv.org/abs/1706.03741v4
– 模型提供了三種規模:1.3B、6B、175B。與舊的、需要複雜提示設計的GPT-3-175B相比,標註者明顯更喜歡Instruct-1.3B。微軟最知名的「小模型」Phi-1也是1.3B。
– InstructGPT展示如何精彩地呈現研究成果。三個步驟的圖表清晰易懂,並且成為AI領域最標誌性的圖像之一。引言部分直接了當,用粗體突顯了8個核心觀點。對限制和偏見的討論實事求是、坦誠直接。