Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

OpenAI可能會推出像Jarvis一樣的個人助理新商標Voice Engine資訊總表

OpenAI可能會推出像Jarvis一樣的個人助理新商標Voice Engine資訊總表

2024-03-24 Comments 0 Comment

OpenAI申請商標Voice Engine,暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或服務,很有可能是類似Siri那樣的個人助理產品。OpenAI正在申請一個新商標Voice Engine,商標的覆蓋範圍主要是圍繞語音識別、語音合成和語音生成幾個方面。這暗示著OpenAI可能即將推出圍繞語音引擎開發的產品或服務,很有可能是類似Siri那樣的個人助理產品。

儘管這是商標申請,但Google前員工透露的資訊以及上個月洩漏的OpenAI正在開發的Agent產品都似乎印證著OpenAI要做的事情:

開發一個全球最強的個人助理,接管個人設備,以Jarvis那樣的形式提供服務!

Voice Engine商標內容

Voice Engine是OpenAI最近提交一個商標名稱,其內容主要包含了與語音辨識和語音合成相關的內容。

這個商標背後可能提供的產品和服務涵蓋了廣泛的電腦軟體和開發工具領域,特別是在語音和自然語言處理技術方面。具體來說,可能提供的產品和服務包括但不限於:

  • 自動語音辨識與產生軟體:用於自動辨識和產生語音的軟體,可能在虛擬助理、智慧家庭設備等場景中有廣泛應用。
  • 基於自然語言提示產生語音和音訊輸出的軟體:這類軟體能夠根據文字、語音、視覺提示、圖像或視訊產生語音和音訊輸出,可用於各種應用,如內容創作、教育、娛樂等。注意,這不是文字轉語音,而是根據文字提示產生語音結果!
  • 數位語音助理開發工具:提供用於建構數位語音助理的軟體和開發工具,有助於開發者創建智慧互動應用。雖然是工具,但顯然這是可以用於開發個人助理的工具!
  • 回應使用者提示產生音訊或語音的軟體:這類軟體能夠根據使用者的提示產生對應的音訊或語音輸出,可能用於互動媒體、遊戲或其他應用程式中。這個目前在ChatGPT客戶端也有了,就是用語音回應用戶輸入。
  • 機器學習基礎的自然語言和語音處理軟體:涉及使用機器學習技術進行自然語言和語音的處理、識別和分析的軟體。
  • 多語言語音辨識、翻譯和轉錄軟體:支援多語言的語音辨識、翻譯和轉錄功能的軟體,適用於國際化應用、內容創作等場景。
  • 應用程式介面(API)軟體和軟體開發套件(SDKs):提供可作為API使用的軟體,可能支援開發者在各種應用和服務中整合語音和自然語言處理功能。

綜上所述,VOICE ENGINE™旨在為開發者和創新者提供一系列強大的工具和軟體,以便在各種平台和設備上開發和整合先進的語音互動和自然語言處理功能。

而這其中最令人關注的應該是下面的2個內容:一個是可以配合Sora視訊生成的功能,為視訊配音;另一個則是作為個人助理,支援語音互動!

為Sora視訊配音的語音生成功能

傳統的語音領域的模型主要方向包括2類:一個是語音合成,即Text to speech(TTS):將文字轉成語音。另一個是自動語音辨識(Auto Speech Recognition,ASR),即辨識語音轉成文字。

但是,根據這個描述響應用戶提示產生音訊或語音的軟體,這個能力應該是類似視訊生成和圖片生成那種,基於文字prompt,來產生相應的語音結果。

例如,你可以給系統說,產生一段音樂或老虎在野外和獅子戰鬥的聲音。然後模型返回對應的語音結果。這不是一種文字轉語音而是語音生成的能力。

在最近爆火的OpenAI的Sora演示中(OpenAI最強的視頻生成大模型: OpenAI發布全新文本生成視頻大模型Sora,可以生成無比逼真的最長60秒的視頻,且生成的視頻尺寸可以任意指定),所有的影片都沒有聲音。OpenAI官方說目前他們還沒有實現為生成的視訊配音的功能。但是未來會支持。這意味著基於文字生成音訊應該也是類似的技術了。

與Agent傳言互相印證:OpenAI的Jarvis產品

在前面的商標描述中提到,OpenAI的Voice Engine可以提供回應使用者提示產生音訊或語音的軟體。這幾乎就是一個個人數位助理的形態,它不同於語音合成或語音辨識。而是根據使用者的輸入進行語音的回應。這意味著用戶可以透過文字、語音來輸入,然後服務直接用語音回覆結果。

從技術角度來說,傳統的語音助理應該是先透過ASR辨識使用者的語音,再轉成文本,GPT再根據文字產生答案,再由TTS技術合成語音輸出。這個逐步系統最大的缺點就是時延以及準確性!三個步驟,每個步驟準確率90%,最終的回覆準確率可能只有72.9%了!如果這是一個端到端的模型(符合OpenAI當前的技術趨勢),那麼時延和準確性都值得期待!

此外,結合先前的傳言說GPT可能要連接個人本地電腦系統,那作為一個個人助手完全是沒問題的。

同時,Google前員工Jonathan Chavez在前段時間也發布過一個消息,他說OpenAI在今年會推出一個全球最好的個人助理產品,就像鋼鐵人中的Jarvis。

Jarvis除了需要有GPT-4那種強大的語言反應能力外,還有一個重要的特點是語音的輸入與輸出。雖然在目前的ChatGPT客戶端和網頁版中已經實現了語音互動以及文字轉語音的能力。但是,它本身是為了支撐ChatGPT的功能存在的,範圍就限制在ChatGPT的對話過程中。一旦如果像Jonathan Chavez所說是一個前所未有最強大的個人助理,那麼這意味著它可以幫助我們操作我們的電腦和手機,使用APP等。

這個消息和上個月洩漏的OpenAI正在做一個強大的AI Agent也有很大的相關性:OpenAI正在開發一個全新的基於大模型的Agent產品。

在這個傳言中,OpenAI所做的事情描述如下:

OpenAI正在開發的這個Agent形式的產品,透過有效地接管使用者的裝置來讓複雜任務被自動執行。然後,使用者可以請求ChatGPT將資料從文件轉移到電子表格中進行分析,或自動填寫費用報告並將其輸入會計軟體。這類請求將觸發ChatGPT來執行點擊、遊標移動、文字輸入以及人們在使用不同應用程式時進行的其他操作。

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
俄羅斯科學家透露:癌症疫苗有望在三年內發展成功
NEXT
David Baker團隊另一個突破:首次利用生成式AI設計出全新抗體

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2024 年 3 月
一 二 三 四 五 六 日
 123
45678910
11121314151617
18192021222324
25262728293031
« 2 月   4 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • 中國新創公司曾淡化出身如今一些新創公司卻開始自豪於這一點 2025-05-18
  • 《生化危機9》為何遲遲不公佈?可能是優化問題 2025-05-18
  • 任天堂解釋《瑪利歐賽車:世界》成為首發遊戲的原因 2025-05-18
  • 墨西哥海軍大型帆船撞布魯克林大橋造成55人受傷 2025-05-18
  • 新型火山預警系統在爆發前就能聽到地球的聲音 2025-05-18
  • 洋紅色極光和陷入錯亂的衛星:接管了美國宇航局演習的甘農太陽風暴 2025-05-18
  • 新研究顯示瓦薩奇斷層比之前認為的更危險下一次強震遲早會發生 2025-05-18
  • iPhone 17 Air 電池容量和重量資訊外洩 2025-05-18
  • 華為nova 14系列明天發布:三款機型樣機到店提前拆罰20萬起 2025-05-18
  • 中國電信5G-A套餐正式商用:比5G快10倍更穩定 2025-05-18

熱門文章與頁面︰

  • 「多喝水」真的有用研究顯示有助於減肥、治療腎結石
  • 美國議員稱TP-Link超低價助長中國網路攻擊支持銷售禁令
  • 《不可能的任務8:最終清算》定檔5月30日阿湯哥最後一搏震撼打響
  • 北京地鐵扶梯上多了兩隻黃色腳印不必“左行右立”
  • CentOS7.2 调整mysql数据库最大连接数
  • "91大神"偷拍百名女性獲刑:曾任外企高管年薪百萬
  • 《死神來了6》打破系列紀錄北美首日票房達2100萬美元
  • Bungie承認《馬拉松》素材抄襲有可能會跳票
  • 洋紅色極光和陷入錯亂的衛星:接管了美國宇航局演習的甘農太陽風暴
  • 劉強東捐贈京東群學大樓啟用8年前捐3億創紀錄

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.