密西根大學開發的AI工具可以透過狗叫聲分辨出是否具有攻擊性
你是否曾經希望自己能聽懂你的狗想對你說什麼?密西根大學的研究人員正在探索人工智慧的可能性,他們開發的工具可以識別狗的叫聲是在表達玩耍還是在表達攻擊。同樣的模型還能從動物的發聲中收集其他信息,如動物的年齡、品種和性別。
這項研究是與墨西哥普埃布拉國家天文物理學、光學和電子學研究所(INAOE)合作進行的,研究發現,最初針對人類語言訓練的人工智慧模型可以作為一個起點,用來訓練針對動物交流的新系統。
相關成果已在計算語言學、語言資源和評估聯合國際會議上公佈。
“透過使用最初在人類語音基礎上訓練的語音處理模型,我們的研究打開了一扇新窗口,讓我們了解如何利用迄今為止在語音處理方面所取得的成果,開始理解狗叫聲的細微差別, “馬大計算機科學與工程系Janice M. Jenkins 學院教授兼人工智慧實驗室主任Rada Mihalcea說。
“對於與我們共同生活在這個世界上的動物,我們還有很多不了解的地方。人工智慧的進步可以用來徹底改變我們對動物交流的理解,而我們的研究結果表明,我們也許不必從頭開始”。
開發能夠分析動物發聲的人工智慧模型的主要障礙之一是缺乏公開可用的數據。雖然記錄人類語音的資源和機會很多,但從動物身上收集這類數據卻比較困難。
“動物的發聲在邏輯上更難收集和記錄,”第一作者、馬薩諸塞大學計算機科學與工程系博士生Artem Abzaliev 說。 “它們必須在野外被動地記錄下來,如果是家養寵物,則必須徵得主人的同意”。
由於缺乏可用數據,分析狗發聲的技術難以開發,而現有的技術也因缺乏訓練材料而受到限制。研究人員透過重新利用現有模型克服了這些挑戰,該模型最初是為分析人類語音而設計的。
這種方法使研究人員能夠利用強大的模型,這些模型構成了我們今天使用的各種語音技術的支柱,包括語音到文字和語言翻譯。這些模型經過訓練,可以分辨出人類語音中的細微差別,如語調、音調和口音,並將這些資訊轉換成電腦可以用來識別所說詞語、識別說話人等的格式。
“這些模型能夠學習和編碼人類語言和語音中極其複雜的模式,”Abzaliev 說。 “我們想了解能否利用這種能力來辨別和解讀狗叫聲。”
研究人員使用了74隻不同品種、年齡和性別的狗在各種情況下發出的聲音資料集。亨伯托-佩雷斯-埃斯皮諾薩(Humberto Pérez-Espinosa)是INAOE的合作者,他所領導的團隊負責收集資料集。然後,阿布扎利耶夫利用這些錄音修改了一個機器學習模型–一種能辨識大型資料集中模式的電腦演算法。該團隊選擇了一種名為Wav2Vec2 的語音表示模型,該模型最初是在人類語音資料上訓練出來的。
有了這個模型,研究人員就能產生從狗身上收集到的聲音數據的表示,並解釋這些表示。他們發現,Wav2Vec2 不僅在四項分類任務中取得了成功,而且其準確率高達70%,超過了專門針對狗叫聲資料訓練的其他模型。
“這是首次將針對人類語音進行優化的技術用於幫助解碼動物交流,”Mihalcea 說。 “我們的研究結果表明,從人類語音中得出的聲音和模式可以作為分析和理解動物發聲等其他聲音的聲學模式的基礎。”
除了建立人類語言模型作為分析動物溝通的有用工具–這將使生物學家、動物行為學家等受益之外,這項研究對動物福利也有重要意義。研究人員說,了解狗發聲的細微差別可以大大改善人類解讀和回應狗的情感和生理需求的方式,從而加強對它們的照顧,防止潛在的危險情況發生。