ChatGPT-4o：OpenAI的一小步人類「AI助理」的一大步

2024-05-14 Comments 0 Comment

OpenAI 用一場春季發布會，再次攪動了整個AI 產業。在Sam Altman 缺席的情況下，OpenAI CTO Mira Murati 擔綱介紹了新的ChatGPT 產品ChatGPT-4o。短短26 分鐘的發表會，卻幾乎是科幻電影《Her》的現實演繹。當你打開ChatGPT，你面對的不再是一個只會幫你生成內容、或進行僵硬語音聊天的工具——你喚起的將是一個「無所不能」的語音助手，或者說，一個越來越接近人類的「物種」。

它長出了“眼睛”，可以透過攝影機看到你，例如它透過研究員上揚的嘴角判斷他的心情、透過他周圍的環境背景判斷了他正在做什麼、甚至給出了造型建議；它能“看到”你的電腦桌面，直接幫你查看寫的程式碼有什麼問題。

它有了更靈敏的“耳朵”，能聽懂的不只是語言，還能聽懂研究員過於急促的呼吸聲，並引導他慢慢平穩呼吸、放鬆下來。

OpenAICTO Mura Murati 宣布推出ChatGPT-4o | 圖片來源：OpenAI

它有了更靈活的“嘴巴”，對話不再有延時，你能隨時打斷它、它能隨時接住你的話。它的聲音能帶入感情，例如更冷靜一點、更激昂一點、甚至諷刺一點。它還能唱歌。

它也有了更聰明的「大腦」。它能幫研究員一步步解不等式，還可以做同聲翻譯、你可以透過它跟不同語種的人交流。

這些強大的能力背後，源自OpenAI 推出的新模型GPT-4o。與現有模型相比，GPT-4o 的最大進步在於，它可以即時對音訊、視覺和文字進行推理——換句話說，它讓ChatGPT實現了真正意義上的多模態互動。

這不僅是技術進步的追求，更是應用普及的追求。 OpenAI 的使命之一是讓AI 普惠每個人，讓使用者能順滑地用上AI 是至關重要的。在「模型即應用」的時代，這種互動體驗最終還是靠模型能力的提升。 OpenAI 稱，GPT-4o（「o」代表「omni」）是邁向更自然的人機互動的一步。

在發表會上，Mira Murati 宣布ChatGPT-4o 將免費向所有用戶開放，而付費和企業用戶，可以搶先獲得體驗。

電影《Her》上映於2013 年，它講述了一位人類愛上一位人工智慧語音助理的故事。從今天ChatGPT 所呈現的能力來看，這樣的想像正在加速成為現實。

ChatGPT 的驚人進步：變身人類“超級助理”，甚至不需要人類參與

在OpenAI 的官方網站上，呈現了ChatGPT 作為個人語音「超級助理」的更多驚人應用場景。

首先是面向單一用戶，和人一樣，它提供的主要是「情緒價值」與「認知價值」。例如它能講笑話、唱生日快樂歌、玩遊戲、逗小狗、給人催眠、讓人放鬆等等；它能充當面試官，給人提供面試建議；它還能給一位盲人提供環境觀察，給他講述看到的景色、提醒他過馬路的路況。

盲人使用者使用ChatGPT-4o「觀察」整個世界| 圖片來源：OpenAI

接著是面向多個用戶，它提供的更多是一種「協同價值」。例如給兩個語言不通的人充當翻譯，讓他們能無障礙溝通；給兩個人做「剪刀石頭布」的遊戲裁判，先喊口令讓遊戲開始、之後還能準確判斷是哪個人贏了；充當一名“家教”，幫一位父親輔導他的孩子做作業；甚至作為一名“會議第三方”，主持和記錄多人會議。

最有趣的還是，不同ChatGPT 之間的對話。這種無需人類參與的溝通，不僅充滿了科幻感，更讓人開始想像無需人類協作、而讓機器取代人類協作的未來。在一段演示中，一位用戶要求一部手機的ChatGPT 代表自己，向另一部手機的ChatGPT 申請售後，結果這兩個ChatGPT 毫無阻礙地聊了兩分鐘，順利幫這位用戶「換了貨」。而OpenAI 總裁Greg Brockman 則做了一個調皮的演示，他讓兩個ChatGPT 互動並唱了歌。

OpenAI 總裁Greg Brockman 示範兩個GPT 的互動｜圖片來源：OpenAI

一位曾在10 年前就開始做“AI 語音助理”的前大廠高管對極客公園表示，他當時就設想過AI 助理的終極形態應該是“多模態、無所不能”，但彼時科技並不支持，他認為ChatGPT 會加速這種設想實現的可能──只是他沒想到，這個過程會來得這麼快。

他認為，實現AGI 的一個關鍵標誌是，機器是否能具備了自主學習、自主迭代、自主解決問題等能力。這個突破看起來很遙遠，但當兩個ChatGPT 開始互相聊天的時候，這個鴻溝看起來似乎淺了一點。

GPT-4o 多模態大模型的技術進步、以及安全性

這些驚豔的產品表現，根本上源自於GPT-4o 多模態大模型的技術進步。後者分為文字、語音、圖像三個部分，GPT-4o 在這三塊都有提升，尤其是後兩者。

在文本方面，根據OpenAI 的技術報告，GPT-4o 在MMLU（語言）、GPQA（知識）、MATH（數學）、HumanEval（程式設計）的評測指標上，都超出了GPT-4T、GPT-4 (23年3 月最初發布版本)，以及競品Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。例如在0-shot COT MMLU 上，GPT-4o 創下了88.7% 的新高分。

GPT-4o 在文中的成績相當優異|圖片來源：OpenAI

最關鍵的，是音訊、多語言和視覺上的進步。

在音訊方面，過去ChatGPT 的音訊缺陷是需要經過三個獨立的模型，從而存在延遲、且無法承載豐富資訊。它先由第一個模型將音頻轉錄為文本，再由GPT-3.5 或GPT-4 接收文本並輸出文本，最後由第三個模型將該文本轉換回音頻——一方面，它使得音頻的傳輸有延遲，GPT-3.5 的平均延遲為2.8 秒，GPT-4 的平均延遲為5.4 秒。另一方面，模型會失去大量訊息，無法直接觀察音調、多個說話者或背景噪音，也無法輸出笑聲、歌唱或表達情感。

而GPT-4o 的解決方法是，跨文字、視覺和音訊端到端地訓練了一個新模型，這意味著所有輸入和輸出都由同一神經網路處理。 OpenAI 稱這是其突破深度學習界限的最新舉措。目前，GPT-4o 可以在短至232 毫秒、平均320 毫秒的時間內回應音訊輸入，與人類的反應時間相似。同時在音訊ASR 效能和翻譯效能上，GPT-4o 都比Whisper-v3（OpenAI 的語音辨識模型）的效能更優。

M3Exam 基準測試既能用於多語言評估，也可以用於視覺評估。它由多項選擇題組成，包括圖形和圖表。在所有語言的基準測試中，GPT-4o 都比GPT-4 更強。另外在視覺理解評估上，GPT-4o 在視覺感知基準上都實現了最先進的性能。

GPT-4o 在視覺理解上同樣能力好| 圖片來源：OpenAI

一位大模型訓練者曾對極客公園表示，模型的技術領先性從來不是靠打榜評分，而是靠使用者最真實的感受和體驗。從這個角度來說，GPT-4o 的技術領先性將很容易見分曉。

OpenAI 表示，GPT-4o 的文字和圖像功能將於發布會當天在ChatGPT 中推出。免費用戶就可以使用，不過Plus 付費用戶能享有高達5 倍的訊息容量。在未來幾週內，OpenAI 將在ChatGPT Plus 中推出新版本的語音模式GPT-4o alpha。

而開發人員現在就可以在API 中存取GPT-4o 的文字和視覺模型。與GPT-4 Turbo 相比，GPT-4o 速度提高了2 倍、價格降低了一半、速率限制提高了5 倍。在未來幾週內，OpenAI 計劃向一小部分值得信賴的合作夥伴推出GPT-4o 的新音訊和視訊功能。

一項強大的技術最令外界擔憂的，就是它的安全可控性。這也是OpenAI 最核心的考量之一。

OpenAI 表示，GPT-4o 透過過濾訓練資料和透過訓練後細化模型行為等技術，在跨模式設計中內建了安全性。其還創建了新的安全系統，為語音輸出提供防護。為了確保更好的安全性，OpenAI 表示在接下來的幾週和幾個月裡，將致力於技術基礎設施、培訓後的可用性以及發布其他模式所需的安全性。

OpenAI 從來沒有讓外界失望，再次引領科技圈的未來

作為這波AI 浪潮的開啟者、引領者，OpenAI 的每一次發布和更新，都關係著其龐大用戶量的漲跌、公司競爭的進退、以及整個行業的關注和走向。

在這次發表會之前，外界對OpenAI 頗多謠傳、也包括質疑。一週前，外媒報導這次OpenAI 要發布的是一款搜尋引擎——在一年最重要的新聞發布時刻，這家公司沒有推出GPT-5，這引來外界對其創新力的頗多懷疑。而如果無法拿出足夠創新力的技術和產品，這家公司將難以重振用戶的成長、滿足整個市場對它的期望。

自2022 年底推出ChatGPT 後，這家公司的用戶量經歷了大起大落。根據Similarweb 估計，其全球訪問量在2023 年5 月達到18 億次的峰值。但進入2023 年下半年後，其用戶量則有所下降，至今仍未追平去年5 月的全球訪問量高峰紀錄。

自2022 年11 月以來，ChatGPT 在全球和美國的流量成長｜圖片來源：Similarweb

這次發表會，直接關係著其用戶量的成長。

外界對搜尋引擎還是頗為關注的，Similarweb 表示這個消息當天讓ChatGPT 流量大漲。不過，在發表會前兩天，OpenAI CEO Sam Altman 才對外澄清，這次既不會發GPT-5、也不會發搜尋引擎，「但我們一直在努力開發一些我們認為人們會喜歡的新東西！

或許，人們是在一種低期待中觀看這次OpenAI 的發表會。但最終，他們收穫到的是強烈的震撼。這或許正是OpenAI 想要的反差效果。

無論是最初的GPT-3.5，或是去年這個時候的GPT-4，還是去年底的GPTs，又或者是今年年初的Sora——OpenAI 再一次證明，它不會讓世人失望。儘管Google、Claude、Character AI、Perplexity 等競爭對手正攫走更多新用戶、以及資本的青睞，但OpenAI 依然證明自己有能力引領著科技創新的「高地」。

ChatGPT 和其他聊天機器人的訪問量比較｜圖片來源：Similarweb

在此次OpenAI 推出基於GPT-4o 的「超級智慧助理」之後，這似乎也將成為接下來各科技大廠爭先追趕的方向。

根據外媒報道，近期Google一直在測試使用人工智慧打電話。傳聞，它將推出一款名為“Pixie”的多模態個人助理，作為“Google Assistant”的替代品。它可以透過攝影機查看物體，並執行人類指令。這在明天的Google I/O 大會上就會見分曉。

而近日，外媒亦報道，蘋果即將與OpenAI 達成協議——在6 月份蘋果舉辦的年度全球開發者大會上，蘋果或將在iOS 18 中引入由ChatGPT 提供支持的“聊天機器人”，這或將對蘋果的個人語音助理Siri 帶來顛覆性影響。

難以想像，短短一年半的時間，OpenAI 就將科技推到了今天這個地步、讓「超級助理」的想像這麼快發生在我們眼前。然而，這也只是OpenAI 釋放的技術實力的一角。畢竟，我們今天談到的只是GPT-4 的更新，還沒有說到GPT-5。 OpenAI 到底會帶給我們多少震撼、以及隨之會產生多少憂慮，都是未知的問題。

如果站在科技的未來隧道往回看，今天GPT-4o「超級語音助理」的誕生，或許會成為科技史上一個標誌性的時刻。但或許又如同OpenAI 首席營運長Brad Lightcap 幾天前所說，“在接下來的12 個月裡，我們應該會覺得今天使用的（AI）系統糟糕得可笑。 ”

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

ChatGPT-4o：OpenAI的一小步人類「AI助理」的一大步

2024-05-14 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆