OpenAI發布最新旗艦生成式AI模型GPT-4o 改進文字、視覺和音訊功能
OpenAI 發布了一個名為GPT-4o 的新旗艦生成式人工智慧模型,並將在未來幾週內”迭代式”地在公司產品中推出。OpenAI 技術長穆里-穆拉提(Muri Murati)說,GPT-4o 提供了”GPT-4 級”智能,但在GPT-4 的基礎上改進了文字、視覺和音訊功能,所有用戶都可以免費使用,付費用戶將繼續”擁有五倍於免費用戶的容量限制”。
穆拉提在OpenAI 辦公室舉行的主題演講上說:GPT-4o 的理由橫跨語音、文字和視覺。 OpenAI 將發布桌面版ChatGPT 和全新的使用者介面。
穆拉提說:『我們知道這些模型越來越複雜,但我們希望互動體驗變得更自然、更簡單,讓你完全不用專注於使用者介面,而只專注於與GPT的協作。這一點非常重要,因為我們正在展望人類與機器之間互動的未來。
GPT-4是OpenAI之前的領先模型,它是圖像和文字的結合體,可以分析圖像和文本,完成從圖像中提取文本甚至描述圖像內容等任務。但GPT-4o 增加了語音功能。
這具體能帶來什麼?很多方面。
GPT-4o 大大改善了ChatGPT 的體驗–ChatGPT 是OpenAI 的病毒式人工智慧聊天機器人。 ChatGPT 長期以來一直提供語音模式,使用文字轉語音模式轉錄ChatGPT 中的文字。但GPT-4o 對此進行了改進,讓使用者可以更像使用助手一樣與ChatGPT 互動。
例如,使用者可以向由GPT-4o 支援的ChatGPT 提問,並在ChatGPT 回答時打斷它。 OpenAI 表示,該模型能提供”即時”回應,甚至能捕捉使用者聲音中的情感,並產生”一系列不同情感風格”的語音。
GPT-4o 也改進了ChatGPT 的視覺功能。有了照片或桌面螢幕,ChatGPT 現在可以快速回答相關問題,從”這個軟體代碼是怎麼回事”到”這個人穿的是什麼牌子的襯衫?
GPT-4o 即日起在ChatGPT 的免費等級中推出,OpenAI 的高級ChatGPT Plus 和Team 用戶可使用”高出5 倍”的訊息限制,企業選項”即將推出”。 (OpenAI指出,當使用者達到使用閾值時,ChatGPT將自動切換到GPT-3.5)。 OpenAI 表示,它將在下個月左右向Plus 用戶推出GPT-4o 改良的語音體驗。
穆拉提說:”我們知道這些模型越來越複雜,但我們希望互動體驗變得更自然、更簡單,讓你完全不用專注於使用者介面,而只專注於與[GPT] 的協作。”
OpenAI 聲稱,GPT-4o 的多語言能力也會更強,在50 種不同語言中的效能都有提升。在OpenAI 的API 中,GPT-4o 的速度是GPT-4(特別是GPT-4 Turbo)的兩倍,價格為GPT-4 Turbo 的一半,速率限制較高。
使用者只需發出簡單的”嘿,ChatGPT”語音提示,就會收到來自代理商的熱情洋溢的口語回應。然後,用戶使用簡單的口語提交查詢,並在必要時附上文字、音訊和/或視覺效果–後者可以包括照片、手機相機的即時畫面或代理能”看到”的任何其他內容。
在音訊輸入方面,人工智慧的平均反應時間為320 毫秒,該公司稱這與人與人類對話中的人類反應時間相似。在今天的演示中,代理的回答沒有出現令人尷尬的滯後現象,這無疑包含了許多類似人類的情感。此外,使用者還可以打斷代理的回答,而不會影響前後的資訊流。
在演示中,GPT-4o 還充當了兩個人之間意大利語和英語對話的口譯員;幫助一個人解決手寫的代數方程式;分析編程代碼的某些部分;甚至還為一個機器人的睡前故事配上了廣告詞。
目前,GPT-4o 應用程式介面中還沒有為所有客戶提供語音功能。 OpenAI 以濫用風險為由表示,計劃在未來幾週內首先向”一小部分可信賴的合作夥伴”推出對GPT-4o 新音訊功能的支援。
其他方面,OpenAI 將在網路上發布煥然一新的ChatGPT UI,新的主螢幕和訊息佈局”更具對話性”,同時還將發布桌面版的ChatGPT for Mac,用戶可以透過鍵盤快捷鍵向ChatGPT 提問,也可以透過打字或說話截圖並進行討論。 (從今天開始,Plus 用戶將首先獲得存取權限,Windows 版本的應用程式將於今年稍後推出)。此外,ChatGPT 的免費用戶現在還可以存取GPT Store(OpenAI 基於其人工智慧模型建立的第三方聊天機器人庫)。
GPT-4o 的文字和圖像功能現已開始向付費ChatGPT Plus 和Team 用戶推出,企業用戶也即將推出。免費用戶也將開始使用,但有費率限制。
語音版GPT-4o 將”在未來幾週內”開始提供。
開發人員將能夠使用GPT-4o 的文字和視覺模式,並在未來幾週內向”一小部分值得信賴的合作夥伴”提供音訊和視訊功能。