OpenAI 升級其轉錄和語音生成AI 模型

2025-03-21 Comments 0 Comment

OpenAI 正在為其API 引入新的轉錄和語音生成AI 模型，該公司聲稱這些模型比以前的版本有所改進。對OpenAI 來說，這些模型符合其更廣泛的「代理」願景：建立能夠代表使用者獨立完成任務的自動化系統。「代理」的定義可能存在爭議，但OpenAI 產品負責人Olivier Godemont 描述了一種解釋，即可以與企業客戶交談的聊天機器人。

OpenAI 聲稱，其新的文字轉語音模型「gpt-4o-mini-tts」不僅可以提供更細緻入微、聽起來更逼真的語音，而且比上一代語音合成模型更「可控」。開發人員可以指導gpt-4o-mini-tts 如何用自然語言說話——例如，「像瘋狂的科學家一樣說話」或「像正念老師一樣用平靜的聲音說話」。

以下是「真實犯罪風格」的飽經風霜的聲音：

以下是女性「專業」聲音的樣本：

OpenAI 產品人員 Jeff Haris 表示，他們的目標是讓開發人員能夠客製化語音「體驗」和「語境」。

「在不同的情況下，你不想要平淡、單調的聲音，」哈里斯繼續說道。 “如果你在客戶支援體驗中，並且希望語音因為犯了一個錯誤而道歉，那麼你實際上可以讓語音帶有這種情感……我們最大的信念是，開發人員和用戶不僅希望真正控制所說的內容，還希望控制說話的方式。”

至於OpenAI 的新語音轉文字模型“gpt-4o-transcribe”和“gpt-4o-mini-transcribe”，它們實際上取代了該公司久經考驗的Whisper 轉錄模型。 OpenAI 聲稱，新模型經過「多樣化、高品質的音訊資料集」訓練，即使在混亂的環境中也能更好地捕捉帶有口音和變化的語音。

哈里斯補充說，他們也不太可能產生幻覺。眾所周知，耳語者傾向於在談話中捏造詞語，甚至是整段話，從種族評論到想像中的醫療治療，無所不包。

「這些模型在這方面比Whisper 有了很大改進，」哈里斯說。 “確保模型準確對於獲得可靠的語音體驗至關重要，準確（在這種情況下）意味著模型準確地聽到了單詞，並且不會填充它們沒有聽到的細節。”

根據OpenAI 的內部基準測試，gpt-4o-transcribe 是兩種轉錄模型中更準確的一種，對於泰米爾語、泰盧固語、馬拉雅拉姆語和卡納達語等印度語和德拉威語，其「單字錯誤率」接近30%。這意味著模型在這些語言中每10 個單字中就會漏掉大約3 個。

OpenAI 內部語音辨識基準的結果。圖片來源： OpenAI

與傳統不同的是，OpenAI 並不打算公開其新的轉錄模型。該公司過去曾根據MIT 許可發布Whisper 的新版本，供商業使用。

哈里斯表示，gpt-4o-transcribe 和gpt-4o-mini-transcribe“比Whisper 大得多”，因此不適合公開發布。

「它們不是那種可以在筆記型電腦上本地運行的模型，就像Whisper 一樣，」他繼續說道。 “我們希望確保，如果我們要以開源形式發布產品，我們會深思熟慮，並且我們有一個真正針對特定需求而精心打造的模型。我們認為，終端用戶設備是開源模型最有趣的案例之一。”

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

WONGCW 網誌

記錄生活經驗與點滴

OpenAI 升級其轉錄和語音生成AI 模型

2025-03-21 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆