OpenAI新一代旗艦生成模型:GPT-4o完全免費即時語音視訊互動直接進入科幻時代
ChatGPT 問世才17 個月,OpenAI 就拿出了科幻電影裡的超級AI,而且完全免費,人人可用。太震撼了!當各家科技公司還在追趕大模型多模態能力,把總結文本、P 圖等功能放進手機裡的時候,遙遙領先的OpenAI 直接開了大招,發布的產品連自家CEO 奧特曼都驚嘆:就像電影裡一樣。
5 月14 日凌晨,OpenAI 在首次「春季新品發表會」上搬離了新一代旗艦生成模型GPT-4o、桌面App,並展示了一系列新能力。這次,科技顛覆了產品形態,OpenAI 用行動給全世界的科技公司上了一課。
今天的主持人是OpenAI 的技術長Mira Murati,她表示,今天主要講三件事:
第一,以後OpenAI 做產品就是要免費優先,為的就是讓更多的人能使用。
第二,因此OpenAI 這次發布了桌面版本的程式和更新後的UI,其使用起來更簡單,也更自然。
第三,GPT-4 之後,新版的大模型來了,名字叫GPT-4o。 GPT-4o 的特別之處在於它以極為自然的互動方式為每個人帶來了GPT-4 級別的智能,包括免費用戶。
ChatGPT 的這次更新以後,大模型可以接收文字、音訊和影像的任意組合作為輸入,並即時產生文字、音訊和影像的任意組合輸出—— 這就是屬於未來的互動方式。
最近,ChatGPT 不用註冊也可以使用了,今天又增加了桌面程序,OpenAI 的目標就是讓人們可以隨時隨地的無感使用它,讓ChatGPT 整合在你的工作流程中。這AI 現在就是生產力了。
GPT-4o 是面向未來人機互動範式的全新大模型,具有文字、語音、圖像三種模態的理解力,反應極快還帶有感情,也很通人性。
在現場,OpenAI 的工程師拿出一個iPhone 示範了新模型的幾種主要能力。最重要的是即時語音對話,Mark Chen 說:「我第一次來直播的發表會,有點緊張。」ChatGPT 說,要不要你深呼吸。
好的,我深呼吸。
ChatGPT 立刻回答說,你這不行,喘得也太大了。
如果你之前用過Siri 之類的語音助手,這裡就可以看出明顯的不同了。首先,你可以隨時打斷AI 的話,不用等它說完就可以繼續下一輪對話。其次,你不用等待,模型反應極快,比人類的回應還快。第三,模型能夠充分理解人類的情感,自己也能展現各種感情。
隨後是視覺能力。另一個工程師在紙上現寫的方程,讓ChatGPT 不是直接給答案,而是讓它解釋要一步一步怎麼做。看起來,它在教人做題目方面很有潛力。
ChatGPT 說,每當你為數學焦頭爛額的時候,我就在你身邊。
接下來嘗試GPT-4o 的程式碼能力。這裡有一些程式碼,打開電腦裡桌面版的ChatGPT 用語音和它交互,讓它解釋一下程式碼是用來做什麼的,某個函數是在做什麼,ChatGPT 都對答如流。
輸出代碼的結果,是一個溫度曲線圖,讓ChatGPT 以一句話的方式回應所有有關此圖的問題。
最熱的月份在幾月,Y 軸是攝氏度還是華氏度,它都能回答得上來。
OpenAI 也回應了一些X/Twitter 上網友們即時提出的問題。例如即時語音翻譯,手機可以拿來當翻譯機來回翻譯西班牙語和英語。
又有人問道,ChatGPT 能辨識你的表情嗎?
看起來,GPT-4o 已經能夠做到即時的視訊理解了。
接下來,就讓我們詳細了解下OpenAI 今天放出的核彈。
全能模型GPT-4o
首先介紹的是GPT-4o,o 代表Omnimodel(全能模型)。
第一次,OpenAI 在一個模型中整合了所有模態,大幅提升了大模型的實用性。
OpenAI CTO Muri Murati 表示,GPT-4o 提供了「GPT-4 水準」的智能,但在GPT-4 的基礎上改進了文字、視覺和音訊方面的能力,將在未來幾週內「迭代式」地在公司產品中推出。
「GPT-4o 的理由橫跨語音、文字和視覺,」Muri Murati 說:「我們知道這些模型越來越複雜,但我們希望互動體驗變得更自然、更簡單,讓你完全不用專注於使用者介面,而只關注與GPT 的協作。
GPT-4o 在英語文字和程式碼上的表現與GPT-4 Turbo 的效能相匹配,但在非英語文字上的效能顯著提高,同時API 的速度也更快,成本降低了50%。與現有模型相比,GPT-4o 在視覺和音訊理解方面尤其出色。
它最快可以在232 毫秒的時間內響應音訊輸入,平均響應時長320 毫秒,與人類相似。在GPT-4o 發布之前,體驗過ChatGPT 語音對話能力的使用者能夠感知到ChatGPT 的平均延遲時間為2.8 秒(GPT-3.5) 和5.4 秒(GPT-4)。
這種語音回應模式是由三個獨立模型組成的pipeline:一個簡單模型將音頻轉錄為文本,GPT-3.5 或GPT-4 接收文本並輸出文本,第三個簡單模型將該文本轉換回音頻。但OpenAI 發現這種方法意味著GPT-4 會失去大量訊息,例如模型無法直接觀察音調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。
而在GPT-4o 上,OpenAI 跨文字、視覺和音訊端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網路處理。
「從技術角度來看,OpenAI 已經找到了一種方法,可以將音訊直接映射到音訊作為一級模態,並將視訊即時傳輸到transformer。這些需要對token 化和架構進行一些新的研究,但總體來說是一個數據和系統優化問題(大多數事情都是如此)。
GPT-4o 可以跨文字、音訊和視訊進行即時推理,這是向更自然的人機互動(甚至是人- 機器- 機器互動)邁出的重要一步。
OpenAI 總裁Greg Brockman 也在線上“整活”,不僅讓兩個GPT-4o 實時對話,還讓它們即興創作了一首歌曲,雖然旋律有點“感人”,但歌詞涵蓋房間的裝飾風格、人物穿著特點以及期間發生的小插曲等。
此外,GPT-4o 在理解和生成影像方面的能力比任何現有模型都要好得多,此前許多不可能的任務都變得「易如反掌」。
例如,你可以讓它幫忙把OpenAI 的logo 印到杯墊上:
經過這段時間的技術攻關,OpenAI 應該已經完美解決了ChatGPT 生成字體的問題。
同時,GPT-4o 也擁有3D 視覺內容生成的能力,能夠從6 個生成的影像進行3D 重建:
這是一首詩,GPT-4o 可以將其排版為手寫樣式:
更複雜的排版風格也能搞定:
與GPT-4o 合作,你只需要輸入幾段文字,就能得到一組連續的漫畫分鏡:
而下面這些玩法,應該會讓很多設計師有點驚訝:
這是一張由兩張生活照演變而來的風格化海報:
還有一些小眾的功能,像是「文字轉藝術字」:
GPT-4o 性能評估結果
OpenAI 技術團隊成員在X 上表示,先前在LMSYS Chatbot Arena 上引起廣泛熱議的神秘模型「im-also-a-good-gpt2-chatbot」就是GPT-4o 的一個版本。
在比較困難的prompt 集合上- 特別是編碼方面:GPT-4o 相較於OpenAI 之前的最佳模型,表現提升幅度尤其顯著。
具體來說,在多項基準測試中,GPT-4o 在文字、推理和編碼智慧方面實現了GPT-4 Turbo 等級的效能,同時在多語言、音訊和視覺功能上實現了新高。
推理提升:GPT-4o 在5-shot MMLU(常識問題)上創下了87.2% 的新高分。 (註:Llama3 400b 還在訓練中)
音訊ASR 效能:GPT-4o 相比Whisper-v3 顯著提高了所有語言的語音辨識效能,特別是對於資源匱乏的語言。
GPT-4o 在語音翻譯方面取得了新的SOTA 水平,並且在MLS 基準測試中優於Whisper-v3。
M3Exam 基準測試既是多語言評估基準也是視覺評估基準,由來自多個國家/ 地區的標準化測試多項選擇題組成,並包括圖形、圖表。在所有語言基準測試中,GPT-4o 都比GPT-4 更強。
未來,模型能力的提升將實現更自然、即時的語音對話,並能夠透過即時視訊與ChatGPT 進行對話。例如,用戶可以向ChatGPT 展示一場現場體育比賽,並要求它解釋規則。
ChatGPT 用戶將免費獲得更多進階功能
每週都有超過一億人使用ChatGPT,OpenAI 表示GPT-4o 的文字和圖像功能今天開始免費在ChatGPT 中推出,並向Plus 用戶提供高達5 倍的消息上限。
現在打開ChatGPT,我們發現GPT-4o 已經可以使用了。
使用GPT-4o 時,ChatGPT 免費用戶現在可以存取以下功能:體驗GPT-4 等級智慧;使用者可以從模型和網路獲取回應。
此外,免費用戶還可以有以下選擇—
分析數據並建立圖表:
和拍攝的照片對話:
上傳文件以獲取總結、寫作或分析方面的協助:
發現並使用GPTs 和GPT 應用程式商店:
以及使用記憶功能打造更有幫助的體驗。
不過,根據使用情況和需求,免費用戶可以使用GPT-4o 發送的訊息數量會受到限制。當達到限制時,ChatGPT 將自動切換到GPT-3.5,以便使用者可以繼續對話。
此外,OpenAI 還將在未來幾週內在ChatGPT Plus 中推出新版本的語音模式GPT-4o alpha,並透過API 向一小部分值得信賴的合作夥伴推出對GPT-4o 更多新的音訊和視訊功能。
當然了,透過多次的模型測試和迭代,GPT-4o 在所有模態下都存在一些限制。在這些不完美的地方,OpenAI 表示正努力改進GPT-4o。
可以想到的是, GPT-4o 音訊模式的開放肯定會帶來各種新的風險。在安全性問題上,GPT-4o 透過過濾訓練資料和透過訓練後細化模型行為等技術,在跨模態設計中內建了安全性。 OpenAI 還創建了新的安全系統,為語音輸出提供防護。
新的桌面app 簡化使用者工作流程
對於免費和付費用戶,OpenAI 也推出了適用於macOS 的新ChatGPT 桌面應用程式。透過簡單的鍵盤快速鍵(Option + Space),使用者可以立即向ChatGPT 提問,此外,使用者還可以直接在應用程式中截取螢幕截圖並進行討論。
現在,用戶還可以直接從電腦與ChatGPT 進行語音對話,GPT-4o 的音訊和視訊功能將在未來推出,透過點擊桌面應用程式右下角的耳機圖示來開始語音對話。
從今天開始,OpenAI 將向Plus 用戶推出macOS 應用程序,並將在未來幾週內更廣泛地提供該應用程式。此外今年稍後OpenAI 會推出Windows 版本。
奧特曼:你們開源,我們免費
在發布結束後,OpenAI CEO 山姆・奧特曼久違地發表了一篇部落格文章,介紹了推動GPT-4o 工作時的心路歷程:
在我們今天的發布中,我想強調兩件事。
首先,我們使命的關鍵部分是將強大的人工智慧工具免費(或以優惠的價格)提供給人們。我非常自豪地宣布,我們在ChatGPT 中免費提供世界上最好的模型,沒有廣告或類似的東西。
當我們創立OpenAI 時,我們的最初構想是:我們要創造人工智慧並利用它為世界創造各種利益。現在情況有所變化,看起來我們將創造人工智慧,然後其他人將使用它來創造各種令人驚奇的事物,我們所有人都會從中受益。
當然,我們是一家企業,會發明很多收費的東西,這將幫助我們為數十億人提供免費、出色的人工智慧服務(希望如此)。
其次,新的語音和視訊模式是我用過的最好的計算互動介面。感覺就像電影裡的人工智慧一樣,我還是有點驚訝於它竟然是真的。事實證明,達到人類層面的反應時間和表達能力是一個巨大的飛躍。
最初的ChatGPT 暗示了語言介面的可能性,而這個新事物(GPT-4o 版本)給人的感覺有本質上的不同—— 它快速、聰明、有趣、自然且能給人帶來幫助。
對我來說,與電腦互動從來都不是很自然的事情,事實就是如此。而當我們添加(可選)個人化、存取個人資訊、讓AI 代替人採取行動等等能力時,我確實可以看到一個令人興奮的未來,我們能夠使用電腦做比以往更多的事情。
最後,非常感謝團隊為實現這一目標付出了巨大的努力!
值得一提的是,上個星期奧特曼在一次採訪中表示,雖然全民免費收入(universal basic income)難以實現,但我們可以實現「全民免費計算universal basic compute」。未來,所有人都可以免費獲得GPT 的算力,可以使用、轉售或捐贈。
「這個想法是,隨著AI 變得更加先進,並嵌入到我們生活的方方面面,擁有像GPT-7 這樣的大語言模型單元可能比金錢更有價值,你擁有了部分生產力,」奧特曼解釋道。
GPT-4o 的發布,或許就是OpenAI 朝著這方面努力的一個開始。
是的,這還只是個開始。
最後提一句,今天OpenAI 博客中展示的“Guessing May 13th’s announcement.”的視頻,幾乎完全撞車Google明天I/O 大會的一個預熱視頻,這無疑是對Google的貼臉開大。不知道看完今天OpenAI 的發布,Google有沒感到巨大壓力?
參考內容:
https://openai.com/index/hello-gpt-4o
https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free
https://blog.samaltman.com/gpt-4o
https://www.businessinsider.com/openai-sam-altman-universal-basic-income-idea-compute-gpt-7-2024-5