OpenAI 升級其轉錄和語音生成AI 模型
OpenAI 正在為其API 引入新的轉錄和語音生成AI 模型,該公司聲稱這些模型比以前的版本有所改進。對OpenAI 來說,這些模型符合其更廣泛的「代理」願景:建立能夠代表使用者獨立完成任務的自動化系統。 「代理」的定義可能存在爭議,但OpenAI 產品負責人Olivier Godemont 描述了一種解釋,即可以與企業客戶交談的聊天機器人。

OpenAI 聲稱,其新的文字轉語音模型「gpt-4o-mini-tts」不僅可以提供更細緻入微、聽起來更逼真的語音,而且比上一代語音合成模型更「可控」。開發人員可以指導gpt-4o-mini-tts 如何用自然語言說話——例如,「像瘋狂的科學家一樣說話」或「像正念老師一樣用平靜的聲音說話」。
以下是「真實犯罪風格」的飽經風霜的聲音:
以下是女性「專業」聲音的樣本:
OpenAI 產品人員 Jeff Haris 表示,他們的目標是讓開發人員能夠客製化語音「體驗」和「語境」。
「在不同的情況下,你不想要平淡、單調的聲音,」哈里斯繼續說道。 “如果你在客戶支援體驗中,並且希望語音因為犯了一個錯誤而道歉,那麼你實際上可以讓語音帶有這種情感……我們最大的信念是,開發人員和用戶不僅希望真正控制所說的內容,還希望控制說話的方式。”

至於OpenAI 的新語音轉文字模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”,它們實際上取代了該公司久經考驗的Whisper 轉錄模型。 OpenAI 聲稱,新模型經過「多樣化、高品質的音訊資料集」訓練,即使在混亂的環境中也能更好地捕捉帶有口音和變化的語音。
哈里斯補充說,他們也不太可能產生幻覺。眾所周知,耳語者傾向於在談話中捏造詞語,甚至是整段話,從種族評論到想像中的醫療治療,無所不包。
「這些模型在這方面比Whisper 有了很大改進,」哈里斯說。 “確保模型準確對於獲得可靠的語音體驗至關重要,準確(在這種情況下)意味著模型準確地聽到了單詞,並且不會填充它們沒有聽到的細節。”
根據OpenAI 的內部基準測試,gpt-4o-transcribe 是兩種轉錄模型中更準確的一種,對於泰米爾語、泰盧固語、馬拉雅拉姆語和卡納達語等印度語和德拉威語,其「單字錯誤率」接近30%。這意味著模型在這些語言中每10 個單字中就會漏掉大約3 個。


OpenAI 內部語音辨識基準的結果。圖片來源: OpenAI
與傳統不同的是,OpenAI 並不打算公開其新的轉錄模型。該公司過去曾根據MIT 許可發布Whisper 的新版本,供商業使用。
哈里斯表示,gpt-4o-transcribe 和gpt-4o-mini-transcribe“比Whisper 大得多”,因此不適合公開發布。
「它們不是那種可以在筆記型電腦上本地運行的模型,就像Whisper 一樣,」他繼續說道。 “我們希望確保,如果我們要以開源形式發布產品,我們會深思熟慮,並且我們有一個真正針對特定需求而精心打造的模型。我們認為,終端用戶設備是開源模型最有趣的案例之一。”