OpenAI可能會推出像Jarvis一樣的個人助理新商標Voice Engine資訊總表
OpenAI申請商標Voice Engine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標Voice Engine,商標的覆蓋範圍主要是圍繞語音識別、語音合成和語音生成幾個方面。這暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或服務,很有可能是類似Siri那樣的個人助理產品。
儘管這是商標申請,但Google前員工透露的資訊以及上個月洩漏的OpenAI正在開發的Agent產品都似乎印證著OpenAI要做的事情:
開發一個全球最強的個人助理,接管個人設備,以Jarvis那樣的形式提供服務!
Voice Engine商標內容
Voice Engine是OpenAI最近提交一個商標名稱,其內容主要包含了與語音辨識和語音合成相關的內容。
這個商標背後可能提供的產品和服務涵蓋了廣泛的電腦軟體和開發工具領域,特別是在語音和自然語言處理技術方面。具體來說,可能提供的產品和服務包括但不限於:
- 自動語音辨識與產生軟體:用於自動辨識和產生語音的軟體,可能在虛擬助理、智慧家庭設備等場景中有廣泛應用。
- 基於自然語言提示產生語音和音訊輸出的軟體:這類軟體能夠根據文字、語音、視覺提示、圖像或視訊產生語音和音訊輸出,可用於各種應用,如內容創作、教育、娛樂等。注意,這不是文字轉語音,而是根據文字提示產生語音結果!
- 數位語音助理開發工具:提供用於建構數位語音助理的軟體和開發工具,有助於開發者創建智慧互動應用。雖然是工具,但顯然這是可以用於開發個人助理的工具!
- 回應使用者提示產生音訊或語音的軟體:這類軟體能夠根據使用者的提示產生對應的音訊或語音輸出,可能用於互動媒體、遊戲或其他應用程式中。這個目前在ChatGPT客戶端也有了,就是用語音回應用戶輸入。
- 機器學習基礎的自然語言和語音處理軟體:涉及使用機器學習技術進行自然語言和語音的處理、識別和分析的軟體。
- 多語言語音辨識、翻譯和轉錄軟體:支援多語言的語音辨識、翻譯和轉錄功能的軟體,適用於國際化應用、內容創作等場景。
- 應用程式介面(API)軟體和軟體開發套件(SDKs):提供可作為API使用的軟體,可能支援開發者在各種應用和服務中整合語音和自然語言處理功能。
綜上所述,VOICE ENGINE™旨在為開發者和創新者提供一系列強大的工具和軟體,以便在各種平台和設備上開發和整合先進的語音互動和自然語言處理功能。
而這其中最令人關注的應該是下面的2個內容:一個是可以配合Sora視訊生成的功能,為視訊配音;另一個則是作為個人助理,支援語音互動!
為Sora視訊配音的語音生成功能
傳統的語音領域的模型主要方向包括2類:一個是語音合成,即Text to speech(TTS):將文字轉成語音。另一個是自動語音辨識(Auto Speech Recognition,ASR),即辨識語音轉成文字。
但是,根據這個描述響應用戶提示產生音訊或語音的軟體,這個能力應該是類似視訊生成和圖片生成那種,基於文字prompt,來產生相應的語音結果。
例如,你可以給系統說,產生一段音樂或老虎在野外和獅子戰鬥的聲音。然後模型返回對應的語音結果。這不是一種文字轉語音而是語音生成的能力。
在最近爆火的OpenAI的Sora演示中(OpenAI最強的視頻生成大模型: OpenAI發布全新文本生成視頻大模型Sora,可以生成無比逼真的最長60秒的視頻,且生成的視頻尺寸可以任意指定),所有的影片都沒有聲音。OpenAI官方說目前他們還沒有實現為生成的視訊配音的功能。但是未來會支持。這意味著基於文字生成音訊應該也是類似的技術了。
與Agent傳言互相印證:OpenAI的Jarvis產品
在前面的商標描述中提到,OpenAI的Voice Engine可以提供回應使用者提示產生音訊或語音的軟體。這幾乎就是一個個人數位助理的形態,它不同於語音合成或語音辨識。而是根據使用者的輸入進行語音的回應。這意味著用戶可以透過文字、語音來輸入,然後服務直接用語音回覆結果。
從技術角度來說,傳統的語音助理應該是先透過ASR辨識使用者的語音,再轉成文本,GPT再根據文字產生答案,再由TTS技術合成語音輸出。這個逐步系統最大的缺點就是時延以及準確性!三個步驟,每個步驟準確率90%,最終的回覆準確率可能只有72.9%了!如果這是一個端到端的模型(符合OpenAI當前的技術趨勢),那麼時延和準確性都值得期待!
此外,結合先前的傳言說GPT可能要連接個人本地電腦系統,那作為一個個人助手完全是沒問題的。
同時,Google前員工Jonathan Chavez在前段時間也發布過一個消息,他說OpenAI在今年會推出一個全球最好的個人助理產品,就像鋼鐵人中的Jarvis。
Jarvis除了需要有GPT-4那種強大的語言反應能力外,還有一個重要的特點是語音的輸入與輸出。雖然在目前的ChatGPT客戶端和網頁版中已經實現了語音互動以及文字轉語音的能力。但是,它本身是為了支撐ChatGPT的功能存在的,範圍就限制在ChatGPT的對話過程中。一旦如果像Jonathan Chavez所說是一個前所未有最強大的個人助理,那麼這意味著它可以幫助我們操作我們的電腦和手機,使用APP等。
這個消息和上個月洩漏的OpenAI正在做一個強大的AI Agent也有很大的相關性:OpenAI正在開發一個全新的基於大模型的Agent產品。
在這個傳言中,OpenAI所做的事情描述如下:
OpenAI正在開發的這個Agent形式的產品,透過有效地接管使用者的裝置來讓複雜任務被自動執行。然後,使用者可以請求ChatGPT將資料從文件轉移到電子表格中進行分析,或自動填寫費用報告並將其輸入會計軟體。這類請求將觸發ChatGPT來執行點擊、遊標移動、文字輸入以及人們在使用不同應用程式時進行的其他操作。