OpenAI向部分用戶開放GPT-4o語音模式今秋將擴大至所有付費用戶

美國人工智慧（AI）研究公司OpenAI宣布，即日起開始向部分ChatGPT Plus用戶推出GPT-4o的語音模式。根據OpenAI介紹，進階語音模式能提供更自然的即時對話，讓使用者隨時打斷，並能感知和回應使用者的情緒。即時回應和可打斷對話是目前語音助理公認的技術困難。

OpenAI在今年5月推出了新版本大模型GPT-4o，同時也展現了語音模式。該公司原定於6月底開始逐步向用戶開放語音模式，但最終決定延後至7月發布。語音模式將於今年秋季開放給所有ChatGPT Plus用戶。

OpenAI週二表示：「透過逐步推出，我們可以密切監控使用情況，並根據實際回饋不斷改進模型的能力和安全性。」該公司還透露，它仍在開發5月發布會期間展示的視訊和螢幕共享功能。這些功能尚未確定推出時間。

因此，語音模式初期的功能將比較有限。例如，ChatGPT將無法使用電腦視覺功能，該功能可讓聊天機器人透過智慧型手機的攝影機對使用者的舞蹈動作提供語音回饋。

目前GPT-4o語音模式可使用四種預設聲音，Juniper、Breeze、Cove和Ember，這些聲音是與付費配音員合作製作的。

此前，ChatGPT一款名為Sky的女性配音被指與好萊塢明星史嘉蕾喬韓森十分相似。在收到約翰遜團隊的律師函後，OpenAI暫停使用Sky語音。

OpenAI還表示，它已引入了新的過濾器，以確保軟體能夠發現並拒絕某些生成音樂或其他形式的受版權保護的音訊的請求。對AI公司而言，避免陷入法律糾紛已成為格外需要警惕的事項。

WONGCW 網誌