人工智能模型消化80小時的視頻以學習手語
對於聾人和重聽者來說,像Alexa和Siri這樣的語音識別技術反而可能是有效溝通的障礙。研究人員利用人工智能開發了一種將手語轉換為文本的工具,可能會增加聾人社區的包容性和可及性。
翻譯手語需要精確理解手語者的姿勢,以產生準確的文字轉寫。巴塞羅那超級計算中心(BSC)和加泰羅尼亞理工大學(UPC)的研究人員利用人工智能開發了一種改進手語翻譯的工具,這是允許聾人和重聽者與技術互動並獲得為口語設計的數字服務的重要一步。
研究人員使用了一個轉化器式的機器學習模型,與ChatGPT等其他人工智能工具背後的模型類似。變壓器之所以有用,主要有兩個原因。第一,這些模型特別善於學習如何應用上下文,這是因為架構中存在自我注意機制–自我注意是神經網絡如何通過查看文本中的其他詞彙來確定詞彙的上下文。其次,當從訓練實例中學習時,它們允許更快的吞吐量,使更多的訓練數據在特定時間內被使用。
這裡的訓練數據集來自How2Sign,這是一個公開可用的大規模、多模態和多視圖數據集,包括80小時的美國手語教學視頻和相應的英語文字記錄。
該研究的主要作者Laia Tarrés說:”所開發的新工具是以前同樣由BSC和UPC發布的名為How2Sign的出版物的延伸,在那裡,訓練模型所需的數據(超過80小時的視頻,其中美國手語翻譯人員翻譯了烹飪食譜或DIY技巧等視頻教程)被公佈。有了這些已經可用的數據,該團隊開發了一個新的開源軟件,能夠學習視頻和文本之間的映射。”
用於訓練人工智能的How2Sign視頻數據集的一個例子,以及該工具做出的預測How2Sign/巴塞羅那超級計算中心
對於研究人員來說,使用連續簽名的視頻而不是孤立的簽名是很重要的,因為它更真實地反映了說話者是如何自然地使用一連串的詞(連接)來構建句子的,這對確定一個句子的含義是至關重要的。
研究人員面臨的一個挑戰是手語的多變性和復雜性,它可能受到諸如手語者的背景、背景和外表的影響。為了在這方面有所幫助,他們使用膨脹式三維網絡(I3D)對數據進行了預處理,這是一種視頻提取方法,對視頻進行三維過濾,允許直接從視頻中獲取時空信息。
研究人員發現,文本預處理也大大改善了簽名到文本的翻譯。為了預處理原始文本,他們將其全部轉換為小寫字母,從而降低了詞彙的複雜性。
總體而言,他們發現他們的模型能夠產生有意義的翻譯,但並不完美。”研究人員說:”雖然我們的工作顯示出有希望的結果,但仍有改進的餘地。
由於該模型仍處於實驗階段,研究人員將繼續努力創建一個工具,使聾人和重聽者能夠獲得與無聽力損失者相同的技術。
Tarrés說:”這個自動手語翻譯的開放工具是對關注無障礙環境的科學界的寶貴貢獻,它的發表代表了向為所有人創造更具包容性和無障礙的技術邁出的重要一步。”
該研究報告在線發表在arXiv上。