來自麻省理工學院和微軟的新型雲遊戲傳輸技術可保持視頻和音頻同步
研究人員開發出一種新的雲遊戲系統,利用低水平白噪聲精確同步分離的音頻和視頻流。即使麥克風質量不佳或存在背景噪音,這種獨特的方法也能讓玩家在正確的時間看到和聽到東西。當COVID-19 肆虐全球時,雲遊戲才真正興起,因為我們中的許多人都不得不呆在家裡。根據Statista 的數據,2019 年全球用戶數量為4590 萬;截至目前,2023 年用戶總數為2.95 億。
在典型的雲遊戲架構中,服務器接收來自控制器和耳機等遊戲配件的遊戲輸入和音頻聊天流。作為回應,服務器同時為玩家生成兩個獨立的媒體流。第一個是遊戲屏幕流,包括遊戲音頻和視頻,用於電視或平板電腦等屏幕設備。第二個是遊戲附件流,用於控制器和遊戲音頻耳機,包括遊戲音頻、玩家聊天和触覺反饋(如控制器振動)。
這兩個流通常通過不同的網絡傳輸,這可能導致兩者之間缺乏同步,即流間延遲,從而造成視頻延遲、觸覺反應遲鈍和糟糕的遊戲體驗。麻省理工學院的研究人員與微軟研究院合作開發了Ekho 系統,該系統採用獨特的技術來解決流間延遲問題。他們將在9 月10 日至14 日於紐約哥倫比亞大學舉行的2023 年ACM 數據通信特別興趣小組(SIGCOMM)會議上發表論文,介紹他們的系統。
研究人員首先研究了流間延遲的核心問題:時鐘同步。
論文第一作者普亞-哈馬達尼安(Pouya Hamadanian)說:”如果控制器和屏幕能同時看表,看到相同的東西,那麼我們就能讓一切與時鐘同步。但大量關於時鐘同步的理論研究表明,有些界限是永遠無法逾越的。”
解決時鐘同步問題的一種常見方法是Ping消息傳遞,即設備向服務器發送一條Ping消息,服務器回應一條Ping消息;消息往返所需的時間被用來計算網絡延遲。然而,這種方法可能並不可靠,因為信息到達服務器的時間可能比返回信息的時間更長。研究人員說,一旦流間延遲達到10 毫秒,人類就能感知到。
“因此,如果屏幕上發生了什麼,我們希望控制器上也能在10 毫秒內發生,”Hamadanian 說。
為了提高同步性,他們設計了Ekhho,以便在遊戲音頻流傳到玩家屏幕之前添加”偽噪音”–人類聽不到的低音量白噪音。Ekho-Estimator 模塊會在遊戲音頻中添加相同序列的偽噪聲;然後,當它從控制器接收錄製的遊戲音頻時,就會監聽這些序列,並嘗試將音頻流排列起來。Ekho-Estimator 模塊會將這些信息發送給Ekhho-Compensator 模塊,後者會跳過幾毫秒的聲音,或者在服務器發送的遊戲音頻中加入幾毫秒的靜音,以實現音頻流的同步。
當研究人員在真實的雲流媒體會話中測試Ekho 系統時,他們發現該系統可以亞毫秒級的精度計算流間延遲。即使在麥克風質量較差或接收到背景噪聲的情況下,Ekho 也能在86.6% 的時間內將流間延遲限制在10 毫秒以內。
該論文的共同作者之一克里希納-欽塔拉普迪(Krishna Chintalapudi)說:”傳統的方法是通過底層網絡來測量同步誤差,而這種方法的誤差要大得多。當我們開始這個項目時,我們還不確定是否能做到這一點。但我們通過Ekho 可以達到亞毫秒級的精度,這是前所未聞的。”
受到研究結果的鼓舞,研究人員計劃看看Ekho 如何將五個控制器同步到同一屏幕設備上。目前,由於Ekho 是專為雲遊戲設計的,其使用範圍有限。未來的工作可能是提高系統的續航能力,以便在更遠的距離上使用。
“這項研究的合著者穆罕默德-阿里扎德(Mohammad Alizadeh)說:”使用聽不見的白噪聲作為一種’計時器’是一個很好的例子,說明了發散性思維可以產生意想不到的結果。這項技術可以改善用戶體驗,不僅在雲遊戲中,在任何多設備流媒體場景中都有可能。”
將在SIGCOMM 2023 會議上發表的論文可以在這裡找到PDF 格式: