OpenAI發布最新旗艦生成式AI模型GPT-4o 改進文字、視覺和音訊功能

2024-05-14 Comments 0 Comment

OpenAI 發布了一個名為GPT-4o 的新旗艦生成式人工智慧模型，並將在未來幾週內”迭代式”地在公司產品中推出。OpenAI 技術長穆里-穆拉提（Muri Murati）說，GPT-4o 提供了”GPT-4 級”智能，但在GPT-4 的基礎上改進了文字、視覺和音訊功能，所有用戶都可以免費使用，付費用戶將繼續”擁有五倍於免費用戶的容量限制”。

穆拉提在OpenAI 辦公室舉行的主題演講上說：GPT-4o 的理由橫跨語音、文字和視覺。 OpenAI 將發布桌面版ChatGPT 和全新的使用者介面。

穆拉提說：『我們知道這些模型越來越複雜，但我們希望互動體驗變得更自然、更簡單，讓你完全不用專注於使用者介面，而只專注於與GPT的協作。這一點非常重要，因為我們正在展望人類與機器之間互動的未來。

GPT-4是OpenAI之前的領先模型，它是圖像和文字的結合體，可以分析圖像和文本，完成從圖像中提取文本甚至描述圖像內容等任務。但GPT-4o 增加了語音功能。

這具體能帶來什麼？很多方面。

Screenshot_2024_05_13_at_1.05.28_PM_1__1_.webp

GPT-4o 大大改善了ChatGPT 的體驗–ChatGPT 是OpenAI 的病毒式人工智慧聊天機器人。 ChatGPT 長期以來一直提供語音模式，使用文字轉語音模式轉錄ChatGPT 中的文字。但GPT-4o 對此進行了改進，讓使用者可以更像使用助手一樣與ChatGPT 互動。

例如，使用者可以向由GPT-4o 支援的ChatGPT 提問，並在ChatGPT 回答時打斷它。 OpenAI 表示，該模型能提供”即時”回應，甚至能捕捉使用者聲音中的情感，並產生”一系列不同情感風格”的語音。

GPT-4o 也改進了ChatGPT 的視覺功能。有了照片或桌面螢幕，ChatGPT 現在可以快速回答相關問題，從”這個軟體代碼是怎麼回事”到”這個人穿的是什麼牌子的襯衫？

GPT-4o 即日起在ChatGPT 的免費等級中推出，OpenAI 的高級ChatGPT Plus 和Team 用戶可使用”高出5 倍”的訊息限制，企業選項”即將推出”。 (OpenAI指出，當使用者達到使用閾值時，ChatGPT將自動切換到GPT-3.5）。 OpenAI 表示，它將在下個月左右向Plus 用戶推出GPT-4o 改良的語音體驗。

穆拉提說：”我們知道這些模型越來越複雜，但我們希望互動體驗變得更自然、更簡單，讓你完全不用專注於使用者介面，而只專注於與[GPT] 的協作。”

OpenAI 聲稱，GPT-4o 的多語言能力也會更強，在50 種不同語言中的效能都有提升。在OpenAI 的API 中，GPT-4o 的速度是GPT-4（特別是GPT-4 Turbo）的兩倍，價格為GPT-4 Turbo 的一半，速率限制較高。

使用者只需發出簡單的”嘿，ChatGPT”語音提示，就會收到來自代理商的熱情洋溢的口語回應。然後，用戶使用簡單的口語提交查詢，並在必要時附上文字、音訊和/或視覺效果–後者可以包括照片、手機相機的即時畫面或代理能”看到”的任何其他內容。

在音訊輸入方面，人工智慧的平均反應時間為320 毫秒，該公司稱這與人與人類對話中的人類反應時間相似。在今天的演示中，代理的回答沒有出現令人尷尬的滯後現象，這無疑包含了許多類似人類的情感。此外，使用者還可以打斷代理的回答，而不會影響前後的資訊流。

在演示中，GPT-4o 還充當了兩個人之間意大利語和英語對話的口譯員；幫助一個人解決手寫的代數方程式；分析編程代碼的某些部分；甚至還為一個機器人的睡前故事配上了廣告詞。

目前，GPT-4o 應用程式介面中還沒有為所有客戶提供語音功能。 OpenAI 以濫用風險為由表示，計劃在未來幾週內首先向”一小部分可信賴的合作夥伴”推出對GPT-4o 新音訊功能的支援。

其他方面，OpenAI 將在網路上發布煥然一新的ChatGPT UI，新的主螢幕和訊息佈局”更具對話性”，同時還將發布桌面版的ChatGPT for Mac，用戶可以透過鍵盤快捷鍵向ChatGPT 提問，也可以透過打字或說話截圖並進行討論。 (從今天開始，Plus 用戶將首先獲得存取權限，Windows 版本的應用程式將於今年稍後推出）。此外，ChatGPT 的免費用戶現在還可以存取GPT Store（OpenAI 基於其人工智慧模型建立的第三方聊天機器人庫）。

GPT-4o 的文字和圖像功能現已開始向付費ChatGPT Plus 和Team 用戶推出，企業用戶也即將推出。免費用戶也將開始使用，但有費率限制。

語音版GPT-4o 將”在未來幾週內”開始提供。

開發人員將能夠使用GPT-4o 的文字和視覺模式，並在未來幾週內向”一小部分值得信賴的合作夥伴”提供音訊和視訊功能。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

WONGCW 網誌

記錄生活經驗與點滴

OpenAI發布最新旗艦生成式AI模型GPT-4o 改進文字、視覺和音訊功能

2024-05-14 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆