新的語音模式將於下周向ChatGPT Plus 用戶開放
今年5 月,OpenAI發布了其新的旗艦前沿模型GPT-4o(”o”代表”omni”),該模型的音訊理解能力得到了突出。 GPT-4o 模型可以在平均320 毫秒的時間內回應音訊輸入,這與人類在典型對話中的反應時間相似。 OpenAI 也宣布,ChatGPT 的語音模式功能將利用GPT-4o 模型的音訊能力為使用者提供無縫的語音對話體驗。
OpenAI 團隊撰文介紹了GPT-4o 的語音功能:
“透過GPT-4o,我們在文字、視覺和音訊領域端到端訓練了一個單一的新模型,這意味著所有輸入和輸出都由同一個神經網路處理。由於GPT-4o 是我們第一個將所有這些模式結合起來的模型,因此我們在探索該模型的功能及其局限性方面仍處於起步階段。
今年6 月,OpenAI 宣布,原計劃於6 月底向一小部分ChatGPT Plus 用戶推出的高級語音模式將推遲一個月推出。 OpenAI 提到,需要更多時間來提高該模式檢測和拒絕某些內容的能力。此外,它還在準備基礎設施,以便在保持即時回應的同時將其擴展到數百萬名用戶。
今天,OpenAI 執行長Sam Altman 透過X 確認,語音模式alpha 版本將於下週將推出ChatGPT Plus 用戶。
由於平均2.8 秒(GPT-3.5)和5.4 秒(GPT-4)的顯著延遲,ChatGPT 目前的語音模式並不直觀。即將推出的基於GPT-4o 的高級語音模式將使ChatGPT 用戶能夠無延遲地進行無縫對話。
與此相關的是,OpenAI 今天展示了它期待已久的網路搜尋體驗–SearchGPT。目前,SearchGPT 只是一個原型,它提供的人工智慧搜尋功能可以從清晰、相關的來源為您提供快速、及時的答案。