Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

OpenAI新一代旗艦生成模型:GPT-4o完全免費即時語音視訊互動直接進入科幻時代

OpenAI新一代旗艦生成模型:GPT-4o完全免費即時語音視訊互動直接進入科幻時代

2024-05-14 Comments 0 Comment

ChatGPT 問世才17 個月,OpenAI 就拿出了科幻電影裡的超級AI,而且完全免費,人人可用。太震撼了!當各家科技公司還在追趕大模型多模態能力,把總結文本、P 圖等功能放進手機裡的時候,遙遙領先的OpenAI 直接開了大招,發布的產品連自家CEO 奧特曼都驚嘆:就像電影裡一樣。

5 月14 日凌晨,OpenAI 在首次「春季新品發表會」上搬離了新一代旗艦生成模型GPT-4o、桌面App,並展示了一系列新能力。這次,科技顛覆了產品形態,OpenAI 用行動給全世界的科技公司上了一課。

今天的主持人是OpenAI 的技術長Mira Murati,她表示,今天主要講三件事:

第一,以後OpenAI 做產品就是要免費優先,為的就是讓更多的人能使用。

第二,因此OpenAI 這次發布了桌面版本的程式和更新後的UI,其使用起來更簡單,也更自然。

第三,GPT-4 之後,新版的大模型來了,名字叫GPT-4o。 GPT-4o 的特別之處在於它以極為自然的互動方式為每個人帶來了GPT-4 級別的智能,包括免費用戶。

ChatGPT 的這次更新以後,大模型可以接收文字、音訊和影像的任意組合作為輸入,並即時產生文字、音訊和影像的任意組合輸出—— 這就是屬於未來的互動方式。

最近,ChatGPT 不用註冊也可以使用了,今天又增加了桌面程序,OpenAI 的目標就是讓人們可以隨時隨地的無感使用它,讓ChatGPT 整合在你的工作流程中。這AI 現在就是生產力了。

GPT-4o 是面向未來人機互動範式的全新大模型,具有文字、語音、圖像三種模態的理解力,反應極快還帶有感情,也很通人性。

在現場,OpenAI 的工程師拿出一個iPhone 示範了新模型的幾種主要能力。最重要的是即時語音對話,Mark Chen 說:「我第一次來直播的發表會,有點緊張。」ChatGPT 說,要不要你深呼吸。

好的,我深呼吸。

ChatGPT 立刻回答說,你這不行,喘得也太大了。

如果你之前用過Siri 之類的語音助手,這裡就可以看出明顯的不同了。首先,你可以隨時打斷AI 的話,不用等它說完就可以繼續下一輪對話。其次,你不用等待,模型反應極快,比人類的回應還快。第三,模型能夠充分理解人類的情感,自己也能展現各種感情。

隨後是視覺能力。另一個工程師在紙上現寫的方程,讓ChatGPT 不是直接給答案,而是讓它解釋要一步一步怎麼做。看起來,它在教人做題目方面很有潛力。

ChatGPT 說,每當你為數學焦頭爛額的時候,我就在你身邊。

接下來嘗試GPT-4o 的程式碼能力。這裡有一些程式碼,打開電腦裡桌面版的ChatGPT 用語音和它交互,讓它解釋一下程式碼是用來做什麼的,某個函數是在做什麼,ChatGPT 都對答如流。

輸出代碼的結果,是一個溫度曲線圖,讓ChatGPT 以一句話的方式回應所有有關此圖的問題。

最熱的月份在幾月,Y 軸是攝氏度還是華氏度,它都能回答得上來。

OpenAI 也回應了一些X/Twitter 上網友們即時提出的問題。例如即時語音翻譯,手機可以拿來當翻譯機來回翻譯西班牙語和英語。

又有人問道,ChatGPT 能辨識你的表情嗎?

看起來,GPT-4o 已經能夠做到即時的視訊理解了。

接下來,就讓我們詳細了解下OpenAI 今天放出的核彈。

全能模型GPT-4o

首先介紹的是GPT-4o,o 代表Omnimodel(全能模型)。

第一次,OpenAI 在一個模型中整合了所有模態,大幅提升了大模型的實用性。

OpenAI CTO Muri Murati 表示,GPT-4o 提供了「GPT-4 水準」的智能,但在GPT-4 的基礎上改進了文字、視覺和音訊方面的能力,將在未來幾週內「迭代式」地在公司產品中推出。

「GPT-4o 的理由橫跨語音、文字和視覺,」Muri Murati 說:「我們知道這些模型越來越複雜,但我們希望互動體驗變得更自然、更簡單,讓你完全不用專注於使用者介面,而只關注與GPT 的協作。

GPT-4o 在英語文字和程式碼上的表現與GPT-4 Turbo 的效能相匹配,但在非英語文字上的效能顯著提高,同時API 的速度也更快,成本降低了50%。與現有模型相比,GPT-4o 在視覺和音訊理解方面尤其出色。

它最快可以在232 毫秒的時間內響應音訊輸入,平均響應時長320 毫秒,與人類相似。在GPT-4o 發布之前,體驗過ChatGPT 語音對話能力的使用者能夠感知到ChatGPT 的平均延遲時間為2.8 秒(GPT-3.5) 和5.4 秒(GPT-4)。

這種語音回應模式是由三個獨立模型組成的pipeline:一個簡單模型將音頻轉錄為文本,GPT-3.5 或GPT-4 接收文本並輸出文本,第三個簡單模型將該文本轉換回音頻。但OpenAI 發現這種方法意味著GPT-4 會失去大量訊息,例如模型無法直接觀察音調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。

而在GPT-4o 上,OpenAI 跨文字、視覺和音訊端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網路處理。

「從技術角度來看,OpenAI 已經找到了一種方法,可以將音訊直接映射到音訊作為一級模態,並將視訊即時傳輸到transformer。這些需要對token 化和架構進行一些新的研究,但總體來說是一個數據和系統優化問題(大多數事情都是如此)。

GPT-4o 可以跨文字、音訊和視訊進行即時推理,這是向更自然的人機互動(甚至是人- 機器- 機器互動)邁出的重要一步。

OpenAI 總裁Greg Brockman 也在線上“整活”,不僅讓兩個GPT-4o 實時對話,還讓它們即興創作了一首歌曲,雖然旋律有點“感人”,但歌詞涵蓋房間的裝飾風格、人物穿著特點以及期間發生的小插曲等。

此外,GPT-4o 在理解和生成影像方面的能力比任何現有模型都要好得多,此前許多不可能的任務都變得「易如反掌」。

例如,你可以讓它幫忙把OpenAI 的logo 印到杯墊上:

經過這段時間的技術攻關,OpenAI 應該已經完美解決了ChatGPT 生成字體的問題。

同時,GPT-4o 也擁有3D 視覺內容生成的能力,能夠從6 個生成的影像進行3D 重建:

這是一首詩,GPT-4o 可以將其排版為手寫樣式:

更複雜的排版風格也能搞定:

與GPT-4o 合作,你只需要輸入幾段文字,就能得到一組連續的漫畫分鏡:

而下面這些玩法,應該會讓很多設計師有點驚訝:

這是一張由兩張生活照演變而來的風格化海報:

還有一些小眾的功能,像是「文字轉藝術字」:

GPT-4o 性能評估結果

OpenAI 技術團隊成員在X 上表示,先前在LMSYS Chatbot Arena 上引起廣泛熱議的神秘模型「im-also-a-good-gpt2-chatbot」就是GPT-4o 的一個版本。

在比較困難的prompt 集合上- 特別是編碼方面:GPT-4o 相較於OpenAI 之前的最佳模型,表現提升幅度尤其顯著。

具體來說,在多項基準測試中,GPT-4o 在文字、推理和編碼智慧方面實現了GPT-4 Turbo 等級的效能,同時在多語言、音訊和視覺功能上實現了新高。

推理提升:GPT-4o 在5-shot MMLU(常識問題)上創下了87.2% 的新高分。 (註:Llama3 400b 還在訓練中)

音訊ASR 效能:GPT-4o 相比Whisper-v3 顯著提高了所有語言的語音辨識效能,特別是對於資源匱乏的語言。

GPT-4o 在語音翻譯方面取得了新的SOTA 水平,並且在MLS 基準測試中優於Whisper-v3。

M3Exam 基準測試既是多語言評估基準也是視覺評估基準,由來自多個國家/ 地區的標準化測試多項選擇題組成,並包括圖形、圖表。在所有語言基準測試中,GPT-4o 都比GPT-4 更強。

未來,模型能力的提升將實現更自然、即時的語音對話,並能夠透過即時視訊與ChatGPT 進行對話。例如,用戶可以向ChatGPT 展示一場現場體育比賽,並要求它解釋規則。

ChatGPT 用戶將免費獲得更多進階功能

每週都有超過一億人使用ChatGPT,OpenAI 表示GPT-4o 的文字和圖像功能今天開始免費在ChatGPT 中推出,並向Plus 用戶提供高達5 倍的消息上限。

現在打開ChatGPT,我們發現GPT-4o 已經可以使用了。

使用GPT-4o 時,ChatGPT 免費用戶現在可以存取以下功能:體驗GPT-4 等級智慧;使用者可以從模型和網路獲取回應。

此外,免費用戶還可以有以下選擇—

分析數據並建立圖表:

和拍攝的照片對話:

上傳文件以獲取總結、寫作或分析方面的協助:

發現並使用GPTs 和GPT 應用程式商店:

以及使用記憶功能打造更有幫助的體驗。

不過,根據使用情況和需求,免費用戶可以使用GPT-4o 發送的訊息數量會受到限制。當達到限制時,ChatGPT 將自動切換到GPT-3.5,以便使用者可以繼續對話。

此外,OpenAI 還將在未來幾週內在ChatGPT Plus 中推出新版本的語音模式GPT-4o alpha,並透過API 向一小部分值得信賴的合作夥伴推出對GPT-4o 更多新的音訊和視訊功能。

當然了,透過多次的模型測試和迭代,GPT-4o 在所有模態下都存在一些限制。在這些不完美的地方,OpenAI 表示正努力改進GPT-4o。

可以想到的是, GPT-4o 音訊模式的開放肯定會帶來各種新的風險。在安全性問題上,GPT-4o 透過過濾訓練資料和透過訓練後細化模型行為等技術,在跨模態設計中內建了安全性。 OpenAI 還創建了新的安全系統,為語音輸出提供防護。

新的桌面app 簡化使用者工作流程

對於免費和付費用戶,OpenAI 也推出了適用於macOS 的新ChatGPT 桌面應用程式。透過簡單的鍵盤快速鍵(Option + Space),使用者可以立即向ChatGPT 提問,此外,使用者還可以直接在應用程式中截取螢幕截圖並進行討論。

現在,用戶還可以直接從電腦與ChatGPT 進行語音對話,GPT-4o 的音訊和視訊功能將在未來推出,透過點擊桌面應用程式右下角的耳機圖示來開始語音對話。

從今天開始,OpenAI 將向Plus 用戶推出macOS 應用程序,並將在未來幾週內更廣泛地提供該應用程式。此外今年稍後OpenAI 會推出Windows 版本。

奧特曼:你們開源,我們免費

在發布結束後,OpenAI CEO 山姆・奧特曼久違地發表了一篇部落格文章,介紹了推動GPT-4o 工作時的心路歷程:

在我們今天的發布中,我想強調兩件事。

首先,我們使命的關鍵部分是將強大的人工智慧工具免費(或以優惠的價格)提供給人們。我非常自豪地宣布,我們在ChatGPT 中免費提供世界上最好的模型,沒有廣告或類似的東西。

當我們創立OpenAI 時,我們的最初構想是:我們要創造人工智慧並利用它為世界創造各種利益。現在情況有所變化,看起來我們將創造人工智慧,然後其他人將使用它來創造各種令人驚奇的事物,我們所有人都會從中受益。

當然,我們是一家企業,會發明很多收費的東西,這將幫助我們為數十億人提供免費、出色的人工智慧服務(希望如此)。

其次,新的語音和視訊模式是我用過的最好的計算互動介面。感覺就像電影裡的人工智慧一樣,我還是有點驚訝於它竟然是真的。事實證明,達到人類層面的反應時間和表達能力是一個巨大的飛躍。

最初的ChatGPT 暗示了語言介面的可能性,而這個新事物(GPT-4o 版本)給人的感覺有本質上的不同—— 它快速、聰明、有趣、自然且能給人帶來幫助。

對我來說,與電腦互動從來都不是很自然的事情,事實就是如此。而當我們添加(可選)個人化、存取個人資訊、讓AI 代替人採取行動等等能力時,我確實可以看到一個令人興奮的未來,我們能夠使用電腦做比以往更多的事情。

最後,非常感謝團隊為實現這一目標付出了巨大的努力!

值得一提的是,上個星期奧特曼在一次採訪中表示,雖然全民免費收入(universal basic income)難以實現,但我們可以實現「全民免費計算universal basic compute」。未來,所有人都可以免費獲得GPT 的算力,可以使用、轉售或捐贈。

「這個想法是,隨著AI 變得更加先進,並嵌入到我們生活的方方面面,擁有像GPT-7 這樣的大語言模型單元可能比金錢更有價值,你擁有了部分生產力,」奧特曼解釋道。

GPT-4o 的發布,或許就是OpenAI 朝著這方面努力的一個開始。

是的,這還只是個開始。

最後提一句,今天OpenAI 博客中展示的“Guessing May 13th’s announcement.”的視頻,幾乎完全撞車Google明天I/O 大會的一個預熱視頻,這無疑是對Google的貼臉開大。不知道看完今天OpenAI 的發布,Google有沒感到巨大壓力?

參考內容:

https://openai.com/index/hello-gpt-4o

https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free

https://blog.samaltman.com/gpt-4o

https://www.businessinsider.com/openai-sam-altman-universal-basic-income-idea-compute-gpt-7-2024-5

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
谷歌展示了透過虛擬機器在Android上運行的ChromeOS系統
NEXT
GPT-4o重磅演示後奧特曼發聲:預見一個激動人心的未來我對此感到自豪

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 5 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 4 月   6 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • NVIDIA TensorRT帶來效能倍增支援所有RTX顯示卡 2025-05-20
  • 聯發科宣布首款2nm晶片9月流片 2025-05-20
  • Intel日本官網提及銳炫B750 引發對後續產品的猜測 2025-05-20
  • 英偉達推出人形機器人基礎模型N1.5:開發週期從三個月縮短至36小時 2025-05-20
  • 魏建軍談國產車高端化:中國車企缺乏文化與調性 2025-05-20
  • 美團AI編程工具“NoCode”即將上線讓程式設計“像點外賣一樣簡單” 2025-05-20
  • 小島秀夫亮相坎城影展《死亡擱淺2》新畫面曝光 2025-05-20
  • 馬斯克稱Colossus 2將是全球首個吉瓦級的AI訓練超級集群 2025-05-20
  • 本田縮減電動車投資專注於開發混動車型 2025-05-20
  • 下一代Xbox可能會運行Windows 支援Steam並完全向後相容 2025-05-20

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • Red Hat Enterprise Linux 10 正式發布
  • Autodesk AutoCAD 2020.1 正式版-簡體中文/繁體中文/英文
  • ROG NUC 2025迷你遊戲PC上市:Ultra 9 275HX+RTX 5080首發24999元
  • 惠普收購Autonomy世紀詐欺案主謀被判無罪
  • 新冠病毒又抬頭了嗎鐘南山發聲:沒必要恐慌預計6月底前結束
  • 華為nova 14、MateBook Fold等17款新價格總表
  • 揭密蘋果製造工廠:每年的支出可以造兩艘航母
  • 拆解報告:20000mAh 18W PD雙向快充版小米移動電源3 PLM18ZM
  • Windows 11 LTSC 2024官方精簡版開放下載安裝包4.9GB

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.