谷歌AI新突破:實時聊天中識別“誰說了什麼”正確率高達92%
分割聚類(Diarization)是指根據“誰說了什麼”將多人語言樣本分割成相應的碎片段,再對所有碎片段進行聚類,把屬於同一個說話人的片段都聚在一起,標註出這些碎片段屬於誰。對於機器來說整個處理過程並不能像人類那樣得心應手,而且機器學習算法的培訓也要比想像中的更難。一個強大的分割聚類系統還要識別出此前並未關聯的新語音碎片段。
不過朝著高性能模式發展的道路上,谷歌的人工智能研究部門已經取得了令人鼓舞的突破性進展。在最新發表的論文“Fully Supervised Speaker Diarization”[ PDF ]以及官方博文中,谷歌研究人員描述了一種全新的人工智能係統,能夠讓系統以更又有效的方式來使用聲音樣本標籤。
這篇論文的核心算法在NIST SRE 2000 CALLHOME的跑分中,能夠在實時語音聊天應用中將在線分割聚類錯誤率(EDR)降低至7.6%。而谷歌此前在GitHub上開源的方式EDR為8.8%。谷歌研究人員的新方法就是通過遞歸神經網絡(RNN)模擬說話者的輸入(例如用數字方法表示說話者的單詞和短語),這種機器學習模型類型能夠使用內部狀態來處理輸入序列。