IBM 發布了自動為新聞播報生成字幕的AI 模型
近日,IBM研究院發布了自動為新聞播報生成字幕AI模型的研究報告。據兩項測試實驗的結果顯示,該語音識別系統的錯誤率分別為6.5%和5.9%,而人類識別的錯誤率分別為3.6%和2.8%。
△ 圖源:IBM,下同
早在兩年前,IBM 就已經創造了對話式電話語音領域(CTS)轉錄的性能記錄。在這個領域,語音識別系統需要做的工作很多。例如,系統必須處理失真、以及來自多個不同電話通道的即興演講,並且這些對話式語音還可能有多個對話者重疊、中斷、重新開始或重複確認的情況。
新聞播報(BN)的語音識別任務也很有挑戰性。語音識別系統需要處理多種說話風格、背景噪音以及廣泛的新聞領域內容。一些情況下系統還得處理多種題材混合的語音材料——像是現場採訪、電視節目的剪輯內容等。
△ 研究進展:CTS 及BN 測試集單詞錯誤率逐年降低
為了成功地識別複雜的語音內容、給新聞播報內容生成字幕,IBM 研究團隊通過語音識別技術,建立了一套深度神經網絡。該深度神經網絡在整合了長短期記憶網絡和深度殘差網絡(residual network,ResNet)的基礎上,結合了輔助的語言模型。其中,以ResNet 為基礎打造的聲學模型是含有多達25 個卷積層的深度卷積網路,使用1,300 個小時、多種不同的新聞內容資料來訓練生成字幕的AI 模型。
雖然機器的語音識別正在逐漸接近人類水準,但目前的實驗數據顯示,人類的語音識別表現仍舊好得多。IBM 也表示,在這一領域仍有很大技術改進的空間。