「古騰堡計畫」利用神經文字轉語音技術發布5000本免費有聲讀物
近年來,有聲書因其易讀性而大受歡迎,但錄製有聲書既困難又昂貴。最近,研究人員展示了一種使用合成文字轉語音的自動方法,解決了該技術面臨的許多問題,使一般使用者也能製作有聲書。現在,讀者可以透過古騰堡計畫免費收聽數以千計的經典文學有聲書和其他公共領域的資料。微軟和麻省理工學院的研究人員透過文字轉語音軟體對書籍進行掃描,並創建了這套書集。
這些文字包括莎士比亞、阿加莎-克里斯蒂、珍-奧斯汀、達文西等人的作品。用戶可以在Internet Archive、Spotify、Apple Podcasts 和Google Podcasts 上收聽:
https://marhamilresearch4.blob.core. Windows .net/gutenberg-public/Website/index.html
GitHub 上提供了用於建立有聲書合集的程式碼:
https://github.com/microsoft/SynapseML
蘋果公司於今年1 月開始利用自動文字轉語音技術銷售有聲書。然而,這項嘗試受到了批評蘋果商業目標的文學界人士和為公司的人工智慧提供訓練的配音演員的質疑。古騰堡的做法由於是開源的,沒有獲利動機,可能會引起不同的反應。
古騰堡計畫花了幾十年的時間建立了一個文字格式的免費文獻庫,供人們免費廣泛使用,但有聲書可以讓人們更容易取得這些資料。有聲書對開車、處理多項任務、視力受損、學習閱讀或學習新語言的讀者很有幫助。
使用傳統方法製作有聲讀物,需要花費時間和金錢請人朗讀整本書。手動錄製每本值得一讀的書的音訊版本並不划算。文字轉語音技術更適合古滕貝格計畫。然而,研究人員的機器學習工具面臨多重障礙。
第一個也是最重要的問題是確定軟體可以解析哪些數位圖書。古騰堡計劃以多種格式收集資料,其中許多文件包含錯誤或不完美的掃描。因此,研究人員將重點放在以HTML 檔案格式儲存的書籍上,並建立了一個工具(如上圖所示)來發現哪些項目顯示了類似的格式。
研究人員解決的另一個問題是確保系統知道哪些文本需要閱讀或忽略。它涉及目錄、頁碼、腳註、表格和其他無關材料等組件。
此外,結果聽起來需要足夠接近自然人的語音。研究人員重點研究了最適合非虛構作品和旁白的聲音表達方式,但使用者也可以調整軟體,嘗試戲劇性的朗讀。
研究人員計劃舉行一次演示,讓使用者用自己的聲音產生有聲書。在錄製幾句話訓練演算法後,每位參與者都可以先聽一段樣本,然後再讓軟體朗讀整本書。他們還將透過電子郵件收到有聲書的副本。使用者可以從合成聲音中進行選擇,自訂每本有聲書。