Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

免費GPT-4o來襲音頻視覺文本實現“大一統”

免費GPT-4o來襲音頻視覺文本實現“大一統”

2024-05-14 Comments 0 Comment

即北京時間5月14日1點整,OpenAI 召開了首場春季發布會,CTO Mira Murati 在台上和團隊用短短不到30分鐘的時間,揭開了最新旗艦模型GPT-4o的神秘面紗,以及基於GPT-4o 的ChatGPT,均為免費使用。

此前,有傳言稱OpenAI 將推出AI 搜尋引擎,旨在與Google明天舉辦的I/O 開發者大會一較高下,一度引發了公眾的熱烈討論。

不過Sam Altman 隨後在X(原Twitter)上表示,要展示的並非GPT-5 或搜尋引擎,而是一些令人期待的創新成果,他本人對此充滿期待,認為其像魔法一樣神奇。

那麼,GPT-4o 是否真的如Sam Altman 所說,是OpenAI 帶來的「新魔法」呢?

1

多模態即時語音助手

更快更全更有情感

登台後,Mira Murati 宣布了ChatGPT 的桌面版本和新UI,緊接著就介紹了本場發布會的主角——GPT-4o 。

在發布會上,Mira Murati 與團隊成員Mark Chen、Barret Zoph一起,重點展示了基於GPT-4o 的ChatGPT 在不同任務中的實際表現,尤其展現了其語音能力。

若用關鍵字加以總結,搭載GPT-4o 的ChatGPT 可謂又快、又全、又有情感。

與ChatGPT 對話時,使用者不必等ChatGPT 說完,可以隨時插話;模型能夠即時回應,不存在尷尬的幾秒延遲。

在Mark 表示自己很緊張且捕捉到他急促的呼吸後,ChatGPT 也會提醒需要冷靜情緒,辨識其呼吸節奏並引導他做深呼吸。

模型能夠以各種不同的風格產生聲音。無論對話時讓ChatGPT 用唱歌的方式、機器人機械音還是戲劇化的語氣講故事,它都能迅速反應並輸出。

基於GPT-4o 強大的視覺能力,使用者還可以語音讓ChatGPT 分析頁面上的資料圖表。

更強大的是,打開攝影機後寫下一道數學題,ChatGPT 還會一步步引導該如何解下一步,其講解的清晰度與耐心堪比幼教。

ChatGPT的「同傳能力」也不容小覷,OpenAI 團隊還在現場展示了一波英語和義大利語的即時互譯,中間實現零延遲。

更有趣的是,ChatGPT 在對話中也會使用語氣詞,甚至是向OpenAI 團隊開玩笑和表達感謝。在「看到」他們寫下「我愛ChatGPT」的文字後,ChatGPT 甚至會在發出撒嬌的聲音後,再表揚其貼心。

ChatGPT 甚至還能和用戶「視訊聊天」。在演示中,Barret 讓ChatGPT 猜測自己的情緒,在他開始露出笑臉後,ChatGPT 直接語音回复“你看起來很開心,笑容燦爛,還有點激動。”

英偉達首席AI 科學家Jim Fan 曾講述過當前即時語音助理(如Siri )的困境,即很難創造出沉浸式的使用體驗。

使用者在和AI 語音助理對話時要經歷三個階段:語音辨識(ASR),將音頻轉換為文本,例如Whisper;大語言模型(LLM)規劃接下來的話語,將第一階段的文本轉換為新的文字; 語音合成(TTS),將新文字轉換回音頻,如ElevenLabs 或VALL-E 。

如果簡單地按順序執行,就會產生巨大的延遲,特別是當每一步都需要等待幾秒時,用戶體驗就會急劇下降,即使合成的音訊聽起來非常真實,也會讓用戶格外「齣戲”,就更別提沉浸式的使用體驗了。

以往的ChatGPT 語音模式也是如此,依賴三個獨立模型工作,平均延遲時間為2.8 秒(GPT-3.5) 和5.4 秒(GPT-4),語音助理也總是會出現資訊遺失,既不能判斷語調、多個說話者或背景噪音,也不能輸出笑聲、唱歌或表達情感。

而現在,GPT-4o 的音訊輸入反應時間最短為232毫秒,平均反應時間為320毫秒,與人類在對話中的反應時間極為相似。

作為一個全新的單一模型,GPT-4o 能端到端地跨文本、視覺和音頻,所有輸入和輸出都由同一個神經網絡處理,直接一步到位,在用戶輸入後(文本、語音、圖像、視頻均可)直接產生音頻回答。

2

GPT-4o

一款免費的全能GPT-4

Mira Murati 在發表會上表示,GPT-4o 最棒的地方在於,它將GPT-4 的智慧提供給每個人,包括免費用戶,將在未來幾週內迭代式地在公司產品中推出。

GPT-4o 中的字母o 指omni,在拉丁語詞根中是「全」的意思,是涵蓋了文字、語音、圖片、視頻的多模態模型,接受任何模態的組合作為輸入,並能生成任何模態的組合輸出。

根據OpenAI 官網,GPT-4o 不僅在文字和程式碼處理的效能上與GPT-4 Turbo持平,而且在API 呼叫上速度更快,價格更是降低了50%。

文字能力測驗。

與GPT-4比較多語言測驗能力。

更重要的是,GPT-4o 的視覺理解能力在相關基準上取得了壓倒性的勝利。

在音訊方面,GPT-4o 的語音辨識(ASR)也比OpenAI 的語音辨識模型Whisper 表現更佳(越低越好)。

與Meta、Google的語音轉寫模型相比,GPT-4o 同樣領先(越高越好)。

若落實到實際生活的使用中,GPT-4o 究竟能為普羅大眾帶來什麼改變呢?

OpenAI的官網展示了GPT-4o 在海報創作、三維重建、字體設計、會議總結等等一系列充滿可能性的應用。

例如,在輸入人物圖片、海報元素以及想要的風格後,GPT-4o 就能為使用者產生一張電影海報。

或者,根據輸入的詩歌文本,GPT-4o 能產生用手寫體寫著詩歌、畫著畫的單行本圖片。

在輸入6張OpenAI 的logo圖後,GPT-4o 能三維重建出其立體動圖。

圖片

甚至可以讓GPT-4o 幫忙把logo 印在杯墊上。

圖片

「今天,有1 億人使用ChatGPT 來創作、工作、學習,以前這些高級工具只對付費用戶可用,但現在,有了GPT-4o 的效率,我們可以將這些工具帶給每個人。」Mira Murati如是說道。

3

寫在後面

發表會之外,OpenAI 研究員William Fedus 透露,先前在大模型競技場參與A/B測試並碾壓全場的模型“im-also-a-good-gpt2-chatbot”,就是本次登場的GPT- 4o 。

圖片

截至2024年3月,OpenAI 在不到十年的營運時間內,已經完成了10輪的融資,累計籌集資金超過了140億美元,其估值在2月的融資交易中已經飆升至800億美元。

伴隨著狂飆的市值,OpenAI 的技術版圖已經橫跨了多個AI 的關鍵領域,形成了一個全面而深入的產品矩陣。

API 產品線提供了包括GPT 模型、DALL·E 模型、Whisper 語音辨識模型在內的多樣化服務,並透過對話、量化、分析、微調等高級功能,為開發者提供技術支援;ChatGPT 為核心的產品線分別推出了個人版和企業版。

在音樂生成領域,OpenAI 也有一定的技術積累,例如經過訓練的深度神經網路MuseNet,可預測並產生MIDI 音樂檔案中的後續音符,以及能產生帶有人聲音樂的開源演算法Jukebox。

再加上年初春節假期期間毫無徵兆推出的AI 視頻生成大模型Sora,更是讓網友們感嘆“現實,不存在了。”

毋庸置疑,OpenAI 是大模型這場擂台賽中當之無愧的擂主,其技術與產品的迭代更是整個行業的風向標,不少大模型創業者都遇過“OpenAI 不做,沒人投;OpenAI 一做,人人投」的融資奇觀。

但隨著Claude 3 和Llama 3 的緊追與GPT Store 上線2個月慘遭“滑鐵盧”,不少AI 行業從業者開始對OpenAI 祛魅,認為“大模型護城河很淺,一年就趕上了。 」

現在看來,OpenAI 果然還是OpenAI。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
三星計畫在越南追加72億元年度投資加速產業發展
NEXT
OpenAI春季發表會:這是”Moss”的誕生人類究竟該何去何從?

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
赫思醫美
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 5 月
一 二 三 四 五 六 日
 12345
6789101112
13141516171819
20212223242526
2728293031  
« 4 月   6 月 »

分類

  • 網站公告
  • 赫思醫美
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 暑假矯正季,讓笑容更閃亮! 2025-07-18
  • 告別鬆弛皺紋!熱瑪姬的『射頻技術』如何打造凍齡肌膚? 2025-07-18
  • Firefox新版本將支援Chrome已有多年的WebGPU功能 2025-07-17
  • 彩虹正式上架統信UOS 直接運行Windows應用 2025-07-17
  • 美團高層承諾:將保證美團騎士收入永遠站穩藍領第一梯隊 2025-07-17
  • 科尼賽克CEO直言:電動超跑沒有靈魂我們不造 2025-07-17
  • HTC預告VIVE神秘新品或為首款智慧眼鏡 2025-07-17
  • 據傳PS5 Pro將在明年5月進行性能升級推測為《GTA6》做準備 2025-07-17
  • 德國玩家偏愛A卡銷量佔65%超NV:RX9070XT賣最好 2025-07-17
  • 三星和SK海力士因意外需求推遲DDR4記憶體淘汰計劃 2025-07-17

熱門文章與頁面︰

  • 無3C行動電源禁止登機一文看懂到底什麼是3C認證、如何分辨真偽
  • 您可以在Windows 11 24H2 中找回WordPad
  • Autodesk AutoCAD 2020.1 正式版-簡體中文/繁體中文/英文
  • 氣像模型預測澳洲將面臨史無前例、長達20年的大洪災
  • CCleaner全家桶激活密鑰
  • 一鍵GHOST v2020.07.20 正式版-硬盤版/光盤版/優盤版/軟盤版
  • 色斑的成因、類型與防治:全面解析皮膚色素沉積問題
  • 科學家開發新型“智能”繃帶將利用光來指示感染情況
  • 打車叫到特斯拉不會開門很尷尬?官方介紹開關門方法
  • 告別鬆弛皺紋!熱瑪姬的『射頻技術』如何打造凍齡肌膚?

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

赫思醫美

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.