免費GPT-4o來襲音頻視覺文本實現“大一統”
即北京時間5月14日1點整,OpenAI 召開了首場春季發布會,CTO Mira Murati 在台上和團隊用短短不到30分鐘的時間,揭開了最新旗艦模型GPT-4o的神秘面紗,以及基於GPT-4o 的ChatGPT,均為免費使用。
此前,有傳言稱OpenAI 將推出AI 搜尋引擎,旨在與Google明天舉辦的I/O 開發者大會一較高下,一度引發了公眾的熱烈討論。
不過Sam Altman 隨後在X(原Twitter)上表示,要展示的並非GPT-5 或搜尋引擎,而是一些令人期待的創新成果,他本人對此充滿期待,認為其像魔法一樣神奇。
那麼,GPT-4o 是否真的如Sam Altman 所說,是OpenAI 帶來的「新魔法」呢?
1
多模態即時語音助手
更快更全更有情感
登台後,Mira Murati 宣布了ChatGPT 的桌面版本和新UI,緊接著就介紹了本場發布會的主角——GPT-4o 。
在發布會上,Mira Murati 與團隊成員Mark Chen、Barret Zoph一起,重點展示了基於GPT-4o 的ChatGPT 在不同任務中的實際表現,尤其展現了其語音能力。
若用關鍵字加以總結,搭載GPT-4o 的ChatGPT 可謂又快、又全、又有情感。
與ChatGPT 對話時,使用者不必等ChatGPT 說完,可以隨時插話;模型能夠即時回應,不存在尷尬的幾秒延遲。
在Mark 表示自己很緊張且捕捉到他急促的呼吸後,ChatGPT 也會提醒需要冷靜情緒,辨識其呼吸節奏並引導他做深呼吸。
模型能夠以各種不同的風格產生聲音。無論對話時讓ChatGPT 用唱歌的方式、機器人機械音還是戲劇化的語氣講故事,它都能迅速反應並輸出。
基於GPT-4o 強大的視覺能力,使用者還可以語音讓ChatGPT 分析頁面上的資料圖表。
更強大的是,打開攝影機後寫下一道數學題,ChatGPT 還會一步步引導該如何解下一步,其講解的清晰度與耐心堪比幼教。
ChatGPT的「同傳能力」也不容小覷,OpenAI 團隊還在現場展示了一波英語和義大利語的即時互譯,中間實現零延遲。
更有趣的是,ChatGPT 在對話中也會使用語氣詞,甚至是向OpenAI 團隊開玩笑和表達感謝。在「看到」他們寫下「我愛ChatGPT」的文字後,ChatGPT 甚至會在發出撒嬌的聲音後,再表揚其貼心。
ChatGPT 甚至還能和用戶「視訊聊天」。在演示中,Barret 讓ChatGPT 猜測自己的情緒,在他開始露出笑臉後,ChatGPT 直接語音回复“你看起來很開心,笑容燦爛,還有點激動。”
英偉達首席AI 科學家Jim Fan 曾講述過當前即時語音助理(如Siri )的困境,即很難創造出沉浸式的使用體驗。
使用者在和AI 語音助理對話時要經歷三個階段:語音辨識(ASR),將音頻轉換為文本,例如Whisper;大語言模型(LLM)規劃接下來的話語,將第一階段的文本轉換為新的文字; 語音合成(TTS),將新文字轉換回音頻,如ElevenLabs 或VALL-E 。
如果簡單地按順序執行,就會產生巨大的延遲,特別是當每一步都需要等待幾秒時,用戶體驗就會急劇下降,即使合成的音訊聽起來非常真實,也會讓用戶格外「齣戲”,就更別提沉浸式的使用體驗了。
以往的ChatGPT 語音模式也是如此,依賴三個獨立模型工作,平均延遲時間為2.8 秒(GPT-3.5) 和5.4 秒(GPT-4),語音助理也總是會出現資訊遺失,既不能判斷語調、多個說話者或背景噪音,也不能輸出笑聲、唱歌或表達情感。
而現在,GPT-4o 的音訊輸入反應時間最短為232毫秒,平均反應時間為320毫秒,與人類在對話中的反應時間極為相似。
作為一個全新的單一模型,GPT-4o 能端到端地跨文本、視覺和音頻,所有輸入和輸出都由同一個神經網絡處理,直接一步到位,在用戶輸入後(文本、語音、圖像、視頻均可)直接產生音頻回答。
2
GPT-4o
一款免費的全能GPT-4
Mira Murati 在發表會上表示,GPT-4o 最棒的地方在於,它將GPT-4 的智慧提供給每個人,包括免費用戶,將在未來幾週內迭代式地在公司產品中推出。
GPT-4o 中的字母o 指omni,在拉丁語詞根中是「全」的意思,是涵蓋了文字、語音、圖片、視頻的多模態模型,接受任何模態的組合作為輸入,並能生成任何模態的組合輸出。
根據OpenAI 官網,GPT-4o 不僅在文字和程式碼處理的效能上與GPT-4 Turbo持平,而且在API 呼叫上速度更快,價格更是降低了50%。
文字能力測驗。
與GPT-4比較多語言測驗能力。
更重要的是,GPT-4o 的視覺理解能力在相關基準上取得了壓倒性的勝利。
在音訊方面,GPT-4o 的語音辨識(ASR)也比OpenAI 的語音辨識模型Whisper 表現更佳(越低越好)。
與Meta、Google的語音轉寫模型相比,GPT-4o 同樣領先(越高越好)。
若落實到實際生活的使用中,GPT-4o 究竟能為普羅大眾帶來什麼改變呢?
OpenAI的官網展示了GPT-4o 在海報創作、三維重建、字體設計、會議總結等等一系列充滿可能性的應用。
例如,在輸入人物圖片、海報元素以及想要的風格後,GPT-4o 就能為使用者產生一張電影海報。
或者,根據輸入的詩歌文本,GPT-4o 能產生用手寫體寫著詩歌、畫著畫的單行本圖片。
在輸入6張OpenAI 的logo圖後,GPT-4o 能三維重建出其立體動圖。
甚至可以讓GPT-4o 幫忙把logo 印在杯墊上。
「今天,有1 億人使用ChatGPT 來創作、工作、學習,以前這些高級工具只對付費用戶可用,但現在,有了GPT-4o 的效率,我們可以將這些工具帶給每個人。」Mira Murati如是說道。
3
寫在後面
發表會之外,OpenAI 研究員William Fedus 透露,先前在大模型競技場參與A/B測試並碾壓全場的模型“im-also-a-good-gpt2-chatbot”,就是本次登場的GPT- 4o 。
截至2024年3月,OpenAI 在不到十年的營運時間內,已經完成了10輪的融資,累計籌集資金超過了140億美元,其估值在2月的融資交易中已經飆升至800億美元。
伴隨著狂飆的市值,OpenAI 的技術版圖已經橫跨了多個AI 的關鍵領域,形成了一個全面而深入的產品矩陣。
API 產品線提供了包括GPT 模型、DALL·E 模型、Whisper 語音辨識模型在內的多樣化服務,並透過對話、量化、分析、微調等高級功能,為開發者提供技術支援;ChatGPT 為核心的產品線分別推出了個人版和企業版。
在音樂生成領域,OpenAI 也有一定的技術積累,例如經過訓練的深度神經網路MuseNet,可預測並產生MIDI 音樂檔案中的後續音符,以及能產生帶有人聲音樂的開源演算法Jukebox。
再加上年初春節假期期間毫無徵兆推出的AI 視頻生成大模型Sora,更是讓網友們感嘆“現實,不存在了。”
毋庸置疑,OpenAI 是大模型這場擂台賽中當之無愧的擂主,其技術與產品的迭代更是整個行業的風向標,不少大模型創業者都遇過“OpenAI 不做,沒人投;OpenAI 一做,人人投」的融資奇觀。
但隨著Claude 3 和Llama 3 的緊追與GPT Store 上線2個月慘遭“滑鐵盧”,不少AI 行業從業者開始對OpenAI 祛魅,認為“大模型護城河很淺,一年就趕上了。 」
現在看來,OpenAI 果然還是OpenAI。