GPT-5來了？OpenAI被曝加急訓練多模態大模型Gobi

2023-09-19 Comments 0 Comment

在多模態大模型的戰場上，已有人聞到風聲。根據外媒爆料，OpenAI的全新多模態模型Gobi似乎已在籌備中。谷歌和OpenAI的這場對決，似乎已是箭在弦上了。隨著今年秋天的臨近，Google和OpenAI的多模態模型之戰，也進入白熱化階段。

就在上週，Google已經對一些外部公司開放了多模態大模型Gemini的功能。

而OpenAI，當然不會坐以待斃。他們正爭分奪秒地把多模態功能整合進GPT-4裡，爭取推出功能與Gemini類似的多模態大模型，一舉殺死Google。

傳說中的多模態功能，在今年3月OpenAI那場震驚全世界的GPT-4發布會上，已經被展示過——

在紙上畫個草圖，拍個照發給GPT-4，說一聲「給我照這個版做個網站」，它立刻就寫出了網頁程式碼。

老闆Greg Brockman親自上線演示

不過隨後，多模態彷彿曇花一現，再也沒人見過產品化的實體功能。

所以，Google和OpenAI的多模態大戰，終於要來了嗎？

對戰谷歌，OpenAI搶發多模態大模型

面對傳聞中Google要殺死自己的這款大殺器，OpenAI當然不會無動於衷。

根據外媒The Information爆料，一款名為Gobi的全新多模態大模型，已經在緊鑼密鼓地籌備了。

OpenAI計劃，在Gemini發布之前就推出多模態LLM，徹底擊敗Google。

OpenAI的Greg Brockman vs 谷歌的Demis Hassabis

其實，在3月推出GPT-4多模態功能的預覽後，OpenAI已經向一家名為Be My Eyes的公司推出了這項功能，但並沒有向其他公司提供。

從名字就可以看出來，這家公司正在研發讓盲人或視力不佳人群看得更清楚的技術。

最近，OpenAI打算更廣泛地推出名為GPT-Vision的功能。

OpenAI為什麼花了這麼長時間？

最主要的原因，是他們擔心新的視覺功能會被不法分子利用，例如透過自動破解驗證碼來冒充人類，或透過臉部辨識來追蹤人類。

不過，對於這些法律上的安全風險，OpenAI的工程師似乎已經解決了。

同樣，一位谷歌發言人也表示：谷歌已經採取了一些措施，防止Gemini被濫用。

在7月做出的承諾中，Google保證會在所有產品中開發負責任的人工智慧。

Gobi能成為GPT-5嗎？

在GPT-Vision之後，OpenAI有可能會推出更強大的多模態大模型，代號為Gobi。

跟GPT-4不同，Gobi從一開始就是以多模態模型建構出來的。

所以，Gobi就是傳說中的GPT-5嗎？

現在，我們還無法知曉。Gobi訓練到哪一步了，也沒有確切消息。

在9月初，DeepMind聯合創始人、現Inflection AI的CEO Mustafa Suleyman，在採訪時曾放出一枚重磅炸彈——據他猜測，OpenAI正在秘密訓練GPT-5。

Suleyman認為，Sam Altman最近說他們沒有訓練GPT-5，可能沒有說實話。（原話是：Come on. I don’t know. I think it’s better that we’re all just straight about it.）

而在這邊，根據試用過Gemini的人士，Gemini產生的幻覺，會比現有的模型都更少。原因詳見下文。

總之，Google和OpenAI的這場多模態模型大戰，可以說是AI版的iPhone和Android對決。

一個是稱霸AI領域多年的矽谷巨頭，一個是風頭無兩的頂流AI新創公司，二者差距有多大，所有人都屏息等待。

谷歌秘密測試Gemini

另一邊，Google也開始邀請部分外部開發者加急測試，即將推出的下一代多模態大模型Gemini 。

上週，The Information獨家報導稱，Gemini可能很快準備好進行測試發布，並將整合到像Google Cloud Vertex AI等服務中。

在今年的GoogleI/O開發者大會上，劈柴曾公開介紹Gemini，是個多模態模型、高效整合工具、API。

為了合力乾大事，Google也將Google大腦，與DeepMind實驗室進行了合併。

據稱，至少有20多位高階主管參與了Gemini的研發，DeepMind的創辦人Demis Hassabis領導，Google創辦人Sergey Brin參與研發。

還有GoogleDeepMind組成的數百名員工，其中包括前谷歌大腦主管Jeff Dean等等。

一位測試過的人士說，Gemini至少在一個方面比GPT-4有優勢：除了網路上的公開資訊外，該模型還利用了大量Google消費產品（搜尋、Youtube）的專有數據。

因此，Gemini在理解使用者對特定查詢的意圖時應該特別準確，而且它產生的錯誤答案，即幻覺，似乎更少。

根據先前SemiAnalysis分析師的爆料，Google的下一代大模型Gemini，已經開始在新的TPUv5 Pod上進行訓練，算力高達~1e26 FLOPS，比訓練GPT-4的算力還要大5倍。

另外，Gemini的訓練資料庫包含Youtube上936億分鐘的影片字幕，總資料集規模約為GPT-4的兩倍。

據稱，Google下一代大模型也是由多種規模組成，可能使用了MoE架構，以及投機採樣技術。

透過小模型提前產生token並傳遞給大模型進行評估，以提高模型的整體推理速度。

谷歌DeepMind的負責人Hassabis在訪談中曾表示，Gemini預計花費數千萬到數億美元，與開發GPT-4的成本相當。

Gemini會整合AlphaGo所使用的技術，這將賦予系統全新的規劃、解決問題的能力。

可以這麼說，Gemini把AlphaGo系統的一些優勢，和大語言模型驚人的語言能力結合在一起了。並且，我們還有一些其他有趣的創新。

AlphaGo背後的技術，就是強化學習，這是DeepMind首創的技術。

RL代理隨著時間的推移與環境交互，透過反覆試驗來學習策略，從而最大限度地提高長期累積獎勵

透過強化學習，AI能夠透過反覆嘗試和接受回饋來調整自己的表現，因而學會處理很棘手的問題，例如在圍棋或電子遊戲中選擇如何採取下一步行動。

另外，AlphaGo也使用了蒙特卡羅樹搜尋（MCTS）方法，來探索並記住棋盤上所有可能的動作。

現有模型相比，Gemini將大大提高軟體開發人員的程式碼產生能力，Google希望用它來追趕微軟的GitHub Copilot程式碼助理。

谷歌內部也討論了，使用Gemini來實現圖表分析等功能，例如要求模型解釋完成圖表的含義，以及使用文字或語音指令來瀏覽網頁瀏覽器或其他軟體。

谷歌雲端開發者平台Google Cloud Vertex AI也將得到Gemini加持，大小版本都有，讓開發人員可以付費購買小模式在個人裝置上運作。

現在，Google已經在全力備戰，就等著Gemini開啟逆襲之路。

gpt-3.5-turbo-instruct發布

7月，OpenAI曾公佈GPT-4 API全面可用，並且在接下來幾個月要推出新模型。

不，就在今天，網友紛紛收到了gpt-3.5-turbo-instruct新模型發布的郵件，以代替舊模型text-davinci-003。

據介紹，gpt-3.5-turbo-instruct是InstructGPT風格的模型，其訓練方式與text-davinci-003類似。

使用方法和先前的Prompt-Completion類似，依照提示字的指令補全。

就價格來說，gpt-3.5-turbo 4K保持一致。

有網友已經開始使用了最新模型，去玩1800 Elo左右的西洋棋。

而他先前還發現GPT根本做不到這一點，但現在看來這只是RLHF聊天模型的問題，而純Completion模型就成功了。

在對弈中，gpt-3.5-turbo-instruct輕鬆擊敗了Stockfish 4級（1700 分），在5級（2000 分）的比賽中仍不落下風。

它從不走非法棋步，使用巧妙的開局犧牲，以及令人難以置信的卒與王將死，允許對手毫無實際意義地晉級。

網友用的是以下PGN風格的提示來模擬大師級遊戲。高亮顯示有點錯誤。GPT自己走棋，他手動輸入了Stockfish的棋步。

順便提一句，OpenAI即將在11月召開的首屆開發者大會，已經開始註冊了，快上手申請吧。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

WONGCW 網誌

記錄生活經驗與點滴

GPT-5來了？OpenAI被曝加急訓練多模態大模型Gobi

2023-09-19 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆