新的語音模式將於下周向ChatGPT Plus 用戶開放

2024-07-27 Comments 0 Comment

今年5 月，OpenAI發布了其新的旗艦前沿模型GPT-4o（”o”代表”omni”），該模型的音訊理解能力得到了突出。 GPT-4o 模型可以在平均320 毫秒的時間內回應音訊輸入，這與人類在典型對話中的反應時間相似。 OpenAI 也宣布，ChatGPT 的語音模式功能將利用GPT-4o 模型的音訊能力為使用者提供無縫的語音對話體驗。

OpenAI 團隊撰文介紹了GPT-4o 的語音功能：

“透過GPT-4o，我們在文字、視覺和音訊領域端到端訓練了一個單一的新模型，這意味著所有輸入和輸出都由同一個神經網路處理。由於GPT-4o 是我們第一個將所有這些模式結合起來的模型，因此我們在探索該模型的功能及其局限性方面仍處於起步階段。

今年6 月，OpenAI 宣布，原計劃於6 月底向一小部分ChatGPT Plus 用戶推出的高級語音模式將推遲一個月推出。 OpenAI 提到，需要更多時間來提高該模式檢測和拒絕某些內容的能力。此外，它還在準備基礎設施，以便在保持即時回應的同時將其擴展到數百萬名用戶。

今天，OpenAI 執行長Sam Altman 透過X 確認，語音模式alpha 版本將於下週將推出ChatGPT Plus 用戶。

由於平均2.8 秒（GPT-3.5）和5.4 秒（GPT-4）的顯著延遲，ChatGPT 目前的語音模式並不直觀。即將推出的基於GPT-4o 的高級語音模式將使ChatGPT 用戶能夠無延遲地進行無縫對話。

與此相關的是，OpenAI 今天展示了它期待已久的網路搜尋體驗–SearchGPT。目前，SearchGPT 只是一個原型，它提供的人工智慧搜尋功能可以從清晰、相關的來源為您提供快速、及時的答案。

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

WONGCW 網誌

記錄生活經驗與點滴

新的語音模式將於下周向ChatGPT Plus 用戶開放

2024-07-27 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆