Skip to content
WONGCW 網誌
  • 首頁
  • 論壇
  • 微博
  • 壁紙下載
  • 免費圖床
  • 視頻下載
  • 聊天室
  • SEO工具
  • 支援中心
  • 表格製作
  • More
    • 在線名片
    • 網頁搜索
    • 天氣預報
    • 二維碼生成器
  • Search Icon

WONGCW 網誌

記錄生活經驗與點滴

能聽懂口音的開源語音系統來了:OpenAI出品支持99種語言

能聽懂口音的開源語音系統來了:OpenAI出品支持99種語言

2022-09-24 Comments 0 Comment

逼近人類水平的語音識別系統來了?沒錯,OpenAI新開源了一個名為「Whisper」的新語音識別系統,據稱在英文語音識別方面擁有接近人類水平的魯棒性和準確性!不僅如此,對於不同口音、專業術語的識別效果也是槓槓的!一經發布就在推特上收穫4800+點贊,1000+轉發。

網友們紛紛對它意料之外的強大功能表示驚訝。

不僅是英文,有人用法國詩人波德萊爾的《惡之花》進行了語音測試,得到的文本幾乎與原文一致。

OpenAI聯合創始人&首席科學家Ilya Sutskever就表示:終於有一個靠譜的語音識別系統能聽懂我的口音了。

前任特斯拉人工智能總監Andrej Karpathy甚至轉發評論:OpenAI正處於最好的狀態中。

話不多說,讓我們看看這個被“好評如潮”的語音系統究竟是怎麼回事。

逼近人類水平的語音識別系統

首先,Whisper最大特點是它使用的超大規模訓練集:

它使用從網絡上收集的68萬小時的多語言、多任務監督數據進行訓練。

這導致數據集的內容非常多元化,涵蓋了許多不同環境、不同錄音設備下、不同語言的音頻。

具體而言,65%(438218小時)是英語音頻和匹配的英語文本,大約18%(125739小時)是非英語音頻和英語文本,而最後17%(117113小時)則是非英語音頻和相應的文本。

其中,非英語部分共包含98種不同語言。

不過,雖然音頻質量的多樣性可以幫助提高訓練模型的魯棒性,但轉錄文本質量的多樣性並不是同樣有益的。

初步檢查顯示,原始數據集中有大量不合格的、現有自動語音識別(ASR)系統生成的轉錄文本。

而以往的研究表明,在人工和機器混合生成的數據集上進行訓練,會顯著損害翻譯系統的性能。

為了解決這個問題,研究團隊開發了幾種自動過濾方法來識別和刪除低質量的數據源。

但值得一提的是,沒有說話內容的片段會被留下,作為語音活動檢測的訓練數據。

其次,Whisper體系結構是一種簡單的端到端方法,具體來說就是Transformer的編碼器-解碼器格式。

輸入音頻被分成30秒的片段,再轉換成log-Mel譜圖,然後傳入編碼器。

解碼器被訓練來預測相應的文本標題,並混合特殊標記,指示單一模型執行諸如語言識別、多語言語音轉錄和英語語音翻譯等任務。

除此之外,研究人員還為Whisper設置了5種不同的型號,以下是各模型大致的內存需求和相對速度,使用者可以自行選擇。

但需要注意的是,只有“large”型號支持多語言,前4個模型都只支持英語。

不過不需要擔心,與其他模型相比,英文語音識別正是Whisper的核心競爭力。

實驗結果證明,Whisper在Librispeech test-clean測試的錯誤率達到2.7%。

雖然這一數值與Wav2vec 2.0一樣,但在零樣本性能上,Whisper明顯更穩健,平均誤差減少了55%。

甚至零樣本Whisper模型還縮小了與人類魯棒性之間的差距。

可以看出,與人類Alec相比,LibriSpeech模型的錯誤率大約是人類的兩倍,而Whisper模型的魯棒性邊界則包括Alec95%的置信區間。

研究團隊

Whisper的研究團隊來自OpenAI,共同一作有兩位:Alec Radford、Jong Wook Kim。

Alec Radford,OpenAI的機器學習研究員,也是indico.io的聯合創始人。

Jong Wook Kim,在紐約大學獲得了音樂技術專業的博士學位,研究方向包括多模態深度學習和音樂理解,目前是OpenAI的研究人員。

值得一提的是,研究團隊指出,雖然目前Whisper還沒有實時功能,但它的運行速度和內存大小表明,在這一基礎上搭建實時語音識別和翻譯功能是可行的。

他們希望Whisper的高精度和易用性,將允許開發人員將語音接口添加到更廣泛的應用程序中。

論文和GitHub鏈接附在文末,感興趣的小伙伴們可以自取~

論文鏈接:

按一下以存取 whisper.pdf

GitHub鏈接:

https://github.com/openai/whisper#approach

參考鏈接:

[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb

[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter

[3]https://news.ycombinator.com/item?id=32927360

[4]https://twitter.com/alecrad

[5]https://jongwook.kim/

來源:量子位

分享此文:

  • 按一下即可分享至 X(在新視窗中開啟) X
  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 分享到 WhatsApp(在新視窗中開啟) WhatsApp
  • 按一下以分享到 Telegram(在新視窗中開啟) Telegram
  • 分享到 Pinterest(在新視窗中開啟) Pinterest
  • 分享到 Reddit(在新視窗中開啟) Reddit
  • 按一下即可以電子郵件傳送連結給朋友(在新視窗中開啟) 電子郵件
  • 點這裡列印(在新視窗中開啟) 列印

相關


網絡資訊

Post navigation

PREVIOUS
我國新能源汽車出口爆發:特斯拉佔比超1/3
NEXT
國產手機高端化突圍,消費者願意買單嗎?

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

More results...

Generic filters
Exact matches only
Search in title
Search in content
Search in excerpt
Filter by 分類
網站公告
Featured
限時免費
Windows 軟件下載
系統軟件
辦公軟件
圖像處理
影音媒體
網絡軟件
應用軟件
Mac 軟件下載
安卓軟件下載
網絡資訊
Mac資訊
Linux資訊
VPS資訊
NASA資訊
WordPress資訊
WeChat資訊
PHP資訊
教學資源
開源程序
網頁工具
SEO工具
醫療健康
其他資訊
Content from
Content to
2022 年 9 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
2627282930  
« 8 月   10 月 »

分類

  • 網站公告
  • 限時免費
  • Windows 軟件下載
  • 系統軟件
  • 辦公軟件
  • 圖像處理
  • 影音媒體
  • 網絡軟件
  • 應用軟件
  • Mac 軟件下載
  • 安卓軟件下載
  • 網絡資訊
  • Mac資訊
  • Linux資訊
  • VPS資訊
  • NASA資訊
  • WordPress資訊
  • WeChat資訊
  • PHP資訊
  • 教學資源
  • 開源程序
  • 網頁工具
  • SEO工具
  • 醫療健康
  • 其他資訊

彙整

近期文章

  • NVIDIA TensorRT帶來效能倍增支援所有RTX顯示卡 2025-05-20
  • 聯發科宣布首款2nm晶片9月流片 2025-05-20
  • Intel日本官網提及銳炫B750 引發對後續產品的猜測 2025-05-20
  • 英偉達推出人形機器人基礎模型N1.5:開發週期從三個月縮短至36小時 2025-05-20
  • 魏建軍談國產車高端化:中國車企缺乏文化與調性 2025-05-20
  • 美團AI編程工具“NoCode”即將上線讓程式設計“像點外賣一樣簡單” 2025-05-20
  • 小島秀夫亮相坎城影展《死亡擱淺2》新畫面曝光 2025-05-20
  • 馬斯克稱Colossus 2將是全球首個吉瓦級的AI訓練超級集群 2025-05-20
  • 本田縮減電動車投資專注於開發混動車型 2025-05-20
  • 下一代Xbox可能會運行Windows 支援Steam並完全向後相容 2025-05-20

熱門文章與頁面︰

  • 您可以在Windows 11 24H2 中找回WordPad
  • Red Hat Enterprise Linux 10 正式發布
  • Autodesk AutoCAD 2020.1 正式版-簡體中文/繁體中文/英文
  • ROG NUC 2025迷你遊戲PC上市:Ultra 9 275HX+RTX 5080首發24999元
  • 惠普收購Autonomy世紀詐欺案主謀被判無罪
  • 華為nova 14、MateBook Fold等17款新價格總表
  • 揭密蘋果製造工廠:每年的支出可以造兩艘航母
  • 新冠病毒又抬頭了嗎鐘南山發聲:沒必要恐慌預計6月底前結束
  • 拆解報告:20000mAh 18W PD雙向快充版小米移動電源3 PLM18ZM
  • Microsoft Office 2016 4in1 201912 綠色精簡版

投遞稿件

歡迎各界人士投遞稿件到admin@wongcw.com

請提供以下資料:

1.你的名字

2.你的電郵

3.分類目錄

4.文章標題

5.文章摘要

6.文章內容

7.文章來源

 

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

快帆

MALUS

極度掃描

DMCA.com Protection Status

WONGCW 網誌

  • 免責聲明
  • 捐助我們
  • ThemeNcode PDF Viewer
  • ThemeNcode PDF Viewer SC
  • Events

服務器提供

本站使用之服務器由ikoula提供。

聯繫我們

查詢,投稿,商務合作:
​admin@wongcw.com
​技術支援:
​support@wongcw.com
​客户服務:
​cs@wongcw.com

QQ群:833641851

© 2025   All Rights Reserved.