OpenAI春季發表會:這是”Moss”的誕生人類究竟該何去何從?
OpenAI又又又開發布會了。在大眾心裡,現在基本上也都知道,奧特曼是個賊能PR的人。每一次的PR的時間點,都拿捏的極度到位,精準的狙擊其他廠商。比如說上次Sora,其實你會發現從頭到尾就是一個PR的舉動,2月16號發的,特麼的快3個月了,什麼影子都沒有。而這次,OpenAI把發表會從9號改到了今天,也不知道哪個倒楣蛋造到狙擊了,反正我只知道,明天Google要開開發者大會,就差懟臉了…
不過,今天OpenAI的東西,直接殺瘋了。完全不給友商活路。
震撼的我頭皮發麻。
最核心的就是它的新模型:GPT-4o,和基於GPT-4o打造的全新ChatGPT。
1. 新模型GPT-4o
OpenAI正式發布了新的模型GPT-4o。
GPT-4o,這個o就是”Omni”,Omni是拉丁文字根,意為”全體”、”所有”或”全面的”。
在英語中,”omni”常被用作前綴,表示”所有的”或”全體的”。例如,”omniscient”意味著”無所不知的”,”omnipotent”意味著”全能的”,”omnipresent”意味著”無所不在的”。
所以可想而知,OpenAI這次對GPT-4o的期待有多高。
omnimodel指的是文字、語音、圖片、視訊統一的模型,這是跟以往的GPT-4V最大的差別。
這是正兒八經的原生多模態。
更重要的是可以實時推理音頻、視覺和文本,注意這裡是實時,實時,實時,推理的不是文本,是音頻!視覺!
殺瘋了。
而之前一直在大模型競技場上大殺特殺的im-also-a-good-gpt2-chatbot,就是這個玩意。之前所有人都在猜測這個神祕的GPT2就是GPT4.5,這次看來是猜對了。
去年Gemini1.5所謂的原生多模態,炒的賊火,但最後被報出來是剪輯,這次直接被GPT-4o在地上摁著打,Google真的是…。 。
這個GPT-4o的整體能力,在統一模態的基礎上。
文字、程式碼能力也基本能跟GPT-4 Turbo打平。
文字能力:
音訊能力:
各語言的考試能力:
最核心的是最後一個:
在一些多模態的基準測試集上全面碾壓之前模型,資料集主要圍繞包括對各種科學問題或數學問題進行圖表理解和視覺回答,可以看到GPT-4o 在視覺感知基準上實現了碾壓。
能力強到爆炸。
不僅在傳統的文字能力上GPT-4 Turbo的效能相當,在API 方面也更快速,價格更便宜50%。總結來說,與GPT-4 Turbo 相比,GPT-4o 速度提高了2 倍,價格減半,限制速率提高了5 倍。
2. 新ChatGPT
新的ChatGPT基於GPT-4o,基本上原地起飛,我甚至不想稱他為ChatGPT,而是想稱它為一個國人更為熟悉的代號:Moss。
新版的ChatGPT得益於GPT-4o新模型,在語音對話中,幾乎沒有延遲,而且可以隨時插嘴,模型即時回應。
甚至,模型可以聽懂你的情緒、甚至人的喘息和呼吸。
而且模型自己的自己的情緒,幾乎無敵,跟真人一模一樣。
甚至,它還能模擬機器人和唱歌的聲音…
看的時候,聽到它唱歌的那一刻,我的雞皮疙瘩真的起來了。
Jim Fan在發表會開始前,發了一篇文,我覺得闡述的非常正確。
過往的人與AI進行語音對話,其實跟人與人之間的對話還差太多太多了。
人與人之間的即時對話,其實是充斥了無數的即時反映、打斷、預測等等的,還有各種各樣的語氣助詞的,比如嗯嗯啊啊啥的。
而人與AI語音對話時不是這樣。
人跟AI進行語音對話,基本上都會經歷3步:
1. 你說的話,AI進行語音識別,即音頻轉文本;
2. 大模型拿到這段文本,進行回复,產出文本;
3. 講大模型的產出文字進行語音合成,變成語音,這就是TTS。
這樣的方式,有絕對逃不開的延時,現在的業界可能會壓得很低,但是2秒的延時肯定是會有的,而且只有一來一回的回合製。即使你的語音音色和情緒再真實,使用者一定能感受到,對面不是人。只是機器。
這個沉浸感是有巨大的滑坡的。
而且最核心的是,這種轉三道的方式,先把語音變成文字後,是有損的。文字上並不會保留你的語音情緒,我的生氣、開心、憤怒、憂傷,全都沒了。
人與人的交談,從來不是這樣的。
而這一次,OpenAI做到了。直接語音輸入語音輸出,不再需要語音到文字的轉換。
而且,不只語音,甚至,它還有了視覺。
是的,視覺,不是傳一張圖上去,而是,直接打開鏡頭,即時看發生了什麼事。
現場直接打開了鏡頭,OpenAI的人直接開始現場寫數題,所有的一切ChatGPT都看在眼裡,OpenAI的人一邊寫,ChatGPT一遍給答案。
做了三個問題之後,OpenAI直接給它寫了一個紙條,上面寫著「我愛ChatGPT」。
而ChatGPT看到這個小紙條後,跟小女生一樣害羞的尖叫了起來,那種情緒的真實,那種真情實感,你跟我說這是AI?
《流浪地球2》中Moss的一切,正在我們面前真實的發生。
不僅可以開啟鏡頭,還可以基於OpenAI新推出的Mac客戶端,直接看螢幕,對著螢幕直接寫程式碼。
甚至,可以直接視訊對話,「她」可以看到你所有的表情和情緒變化。
這個全新版本的ChatGPT,會在幾週內推出。
寫在最後
以上就是這次OpenAI春季發表會的全部內容了。
去年11月的OpenAI開發者大會,我在當時的總結文章中寫了一句話:
“我消滅你,與你無關“
上一次,OpenAI的隨手更新,讓無數的新創公司直接消亡在原地。
那是一次關於產品的更新,並沒有秀出太多的OpenAI的肌肉。
而2月,Sora的橫空出世,秀肌肉的目的是達到了,但是這種To VC的宣發,也給OpenAI和奧特曼帶來了很多的詬病。
在這場發表會之前,無數人曾在猜測,OpenAI到底會發一些什麼王炸,什麼才能配得上奧特曼口中的”magic”。
那現在,OpenAI做到了,他們用GPT-4o依然證明了,他們是AI屆的王者。
新版的ChatGPT,在我看來,這是”Moss”的誕生。
甚至,他們還有很多新的能力,甚至沒有在發表會上發出來。
比如生成3D。
我甚至一邊看一邊想:我們人類究竟該何去何從。
不過看完了之後,我更期待的是接下來的產品評測。
太強了,真的讓我忍不住的興奮。
但是最後,我一直有一個在我心中徘徊了很久疑問,就是——
OpenAI,你們的伺服器,到底什麼時候才能穩定不崩啊? ? ?