谷歌新系統:能在視頻電話中檢測到正在做手語的“講話者”
據外媒報導,在視頻通話來說,系統是可以通過切換的方式以突出誰在說話,然而不幸的是,對於像手語這樣的無聲語言其則無法觸發這些算法,但現在谷歌的一項研究可能會改變這一點。這是是一個實時手語檢測引擎,它可以分辨出某人何時在做手語以及何時結束。
谷歌研究人員一篇在ECCV上發表的新論文描述瞭如何高效、幾乎沒有延遲地完成這項工作。如果手語檢測成功了但卻導致視頻延遲或降級那就無法達到目的,所以他們的目標是確保模型既輕便又可靠。
據了解,該系統首先會通過一個名為PoseNet的模型來運行視頻,該模型會估計每一幀中身體和四肢的位置。這個簡化的視覺信息會被發送給一個模型,而該模型能根據使用German Sign Language(德國手語)的視頻中的姿勢數據進行訓練,然後它將現場圖像跟其認為的手語的樣子進行比較。
這個簡單的過程已經在預測一個人是否在做手語方面實現了80%的準確率,另外再加上一些額外優化的話,準確率則達到了91.5%。
為了不向現有電話添加新的“某人正在做手語”的信號,該系統採用了一個巧妙的小技巧。其使用一個虛擬音源來產生20kHz的音調,這雖然超出了人類的聽覺範圍但卻能被計算機音頻系統注意到。這個信號在人們做手語的時候就會產生從而使語音檢測算法認為他們是在大聲說話。
目前,該系統還只是一個演示。