免費GPT-4o來襲音頻視覺文本實現“大一統”

2024-05-14 Comments 0 Comment

即北京時間5月14日1點整，OpenAI 召開了首場春季發布會，CTO Mira Murati 在台上和團隊用短短不到30分鐘的時間，揭開了最新旗艦模型GPT-4o的神秘面紗，以及基於GPT-4o 的ChatGPT，均為免費使用。

此前，有傳言稱OpenAI 將推出AI 搜尋引擎，旨在與Google明天舉辦的I/O 開發者大會一較高下，一度引發了公眾的熱烈討論。

不過Sam Altman 隨後在X（原Twitter）上表示，要展示的並非GPT-5 或搜尋引擎，而是一些令人期待的創新成果，他本人對此充滿期待，認為其像魔法一樣神奇。

那麼，GPT-4o 是否真的如Sam Altman 所說，是OpenAI 帶來的「新魔法」呢？

多模態即時語音助手

更快更全更有情感

登台後，Mira Murati 宣布了ChatGPT 的桌面版本和新UI，緊接著就介紹了本場發布會的主角——GPT-4o 。

在發布會上，Mira Murati 與團隊成員Mark Chen、Barret Zoph一起，重點展示了基於GPT-4o 的ChatGPT 在不同任務中的實際表現，尤其展現了其語音能力。

若用關鍵字加以總結，搭載GPT-4o 的ChatGPT 可謂又快、又全、又有情感。

與ChatGPT 對話時，使用者不必等ChatGPT 說完，可以隨時插話；模型能夠即時回應，不存在尷尬的幾秒延遲。

在Mark 表示自己很緊張且捕捉到他急促的呼吸後，ChatGPT 也會提醒需要冷靜情緒，辨識其呼吸節奏並引導他做深呼吸。

模型能夠以各種不同的風格產生聲音。無論對話時讓ChatGPT 用唱歌的方式、機器人機械音還是戲劇化的語氣講故事，它都能迅速反應並輸出。

基於GPT-4o 強大的視覺能力，使用者還可以語音讓ChatGPT 分析頁面上的資料圖表。

更強大的是，打開攝影機後寫下一道數學題，ChatGPT 還會一步步引導該如何解下一步，其講解的清晰度與耐心堪比幼教。

ChatGPT的「同傳能力」也不容小覷，OpenAI 團隊還在現場展示了一波英語和義大利語的即時互譯，中間實現零延遲。

更有趣的是，ChatGPT 在對話中也會使用語氣詞，甚至是向OpenAI 團隊開玩笑和表達感謝。在「看到」他們寫下「我愛ChatGPT」的文字後，ChatGPT 甚至會在發出撒嬌的聲音後，再表揚其貼心。

ChatGPT 甚至還能和用戶「視訊聊天」。在演示中，Barret 讓ChatGPT 猜測自己的情緒，在他開始露出笑臉後，ChatGPT 直接語音回复“你看起來很開心，笑容燦爛，還有點激動。”

英偉達首席AI 科學家Jim Fan 曾講述過當前即時語音助理（如Siri ）的困境，即很難創造出沉浸式的使用體驗。

使用者在和AI 語音助理對話時要經歷三個階段：語音辨識（ASR），將音頻轉換為文本，例如Whisper；大語言模型（LLM）規劃接下來的話語，將第一階段的文本轉換為新的文字；語音合成（TTS），將新文字轉換回音頻，如ElevenLabs 或VALL-E 。

如果簡單地按順序執行，就會產生巨大的延遲，特別是當每一步都需要等待幾秒時，用戶體驗就會急劇下降，即使合成的音訊聽起來非常真實，也會讓用戶格外「齣戲”，就更別提沉浸式的使用體驗了。

以往的ChatGPT 語音模式也是如此，依賴三個獨立模型工作，平均延遲時間為2.8 秒(GPT-3.5) 和5.4 秒(GPT-4)，語音助理也總是會出現資訊遺失，既不能判斷語調、多個說話者或背景噪音，也不能輸出笑聲、唱歌或表達情感。

而現在，GPT-4o 的音訊輸入反應時間最短為232毫秒，平均反應時間為320毫秒，與人類在對話中的反應時間極為相似。

作為一個全新的單一模型，GPT-4o 能端到端地跨文本、視覺和音頻，所有輸入和輸出都由同一個神經網絡處理，直接一步到位，在用戶輸入後（文本、語音、圖像、視頻均可）直接產生音頻回答。

GPT-4o

一款免費的全能GPT-4

Mira Murati 在發表會上表示，GPT-4o 最棒的地方在於，它將GPT-4 的智慧提供給每個人，包括免費用戶，將在未來幾週內迭代式地在公司產品中推出。

GPT-4o 中的字母o 指omni，在拉丁語詞根中是「全」的意思，是涵蓋了文字、語音、圖片、視頻的多模態模型，接受任何模態的組合作為輸入，並能生成任何模態的組合輸出。

根據OpenAI 官網，GPT-4o 不僅在文字和程式碼處理的效能上與GPT-4 Turbo持平，而且在API 呼叫上速度更快，價格更是降低了50%。

文字能力測驗。

與GPT-4比較多語言測驗能力。

更重要的是，GPT-4o 的視覺理解能力在相關基準上取得了壓倒性的勝利。

在音訊方面，GPT-4o 的語音辨識（ASR）也比OpenAI 的語音辨識模型Whisper 表現更佳（越低越好）。

與Meta、Google的語音轉寫模型相比，GPT-4o 同樣領先（越高越好）。

若落實到實際生活的使用中，GPT-4o 究竟能為普羅大眾帶來什麼改變呢？

OpenAI的官網展示了GPT-4o 在海報創作、三維重建、字體設計、會議總結等等一系列充滿可能性的應用。

例如，在輸入人物圖片、海報元素以及想要的風格後，GPT-4o 就能為使用者產生一張電影海報。

或者，根據輸入的詩歌文本，GPT-4o 能產生用手寫體寫著詩歌、畫著畫的單行本圖片。

在輸入6張OpenAI 的logo圖後，GPT-4o 能三維重建出其立體動圖。

甚至可以讓GPT-4o 幫忙把logo 印在杯墊上。

「今天，有1 億人使用ChatGPT 來創作、工作、學習，以前這些高級工具只對付費用戶可用，但現在，有了GPT-4o 的效率，我們可以將這些工具帶給每個人。」Mira Murati如是說道。

寫在後面

發表會之外，OpenAI 研究員William Fedus 透露，先前在大模型競技場參與A/B測試並碾壓全場的模型“im-also-a-good-gpt2-chatbot”，就是本次登場的GPT- 4o 。

截至2024年3月，OpenAI 在不到十年的營運時間內，已經完成了10輪的融資，累計籌集資金超過了140億美元，其估值在2月的融資交易中已經飆升至800億美元。

伴隨著狂飆的市值，OpenAI 的技術版圖已經橫跨了多個AI 的關鍵領域，形成了一個全面而深入的產品矩陣。

API 產品線提供了包括GPT 模型、DALL·E 模型、Whisper 語音辨識模型在內的多樣化服務，並透過對話、量化、分析、微調等高級功能，為開發者提供技術支援；ChatGPT 為核心的產品線分別推出了個人版和企業版。

在音樂生成領域，OpenAI 也有一定的技術積累，例如經過訓練的深度神經網路MuseNet，可預測並產生MIDI 音樂檔案中的後續音符，以及能產生帶有人聲音樂的開源演算法Jukebox。

再加上年初春節假期期間毫無徵兆推出的AI 視頻生成大模型Sora，更是讓網友們感嘆“現實，不存在了。”

毋庸置疑，OpenAI 是大模型這場擂台賽中當之無愧的擂主，其技術與產品的迭代更是整個行業的風向標，不少大模型創業者都遇過“OpenAI 不做，沒人投；OpenAI 一做，人人投」的融資奇觀。

但隨著Claude 3 和Llama 3 的緊追與GPT Store 上線2個月慘遭“滑鐵盧”，不少AI 行業從業者開始對OpenAI 祛魅，認為“大模型護城河很淺，一年就趕上了。」

現在看來，OpenAI 果然還是OpenAI。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

免費GPT-4o來襲音頻視覺文本實現“大一統”

2024-05-14 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆