生成式AI帶來的全面革命:最快5年內破解第一種動物語言
ChatGPT用它自己的方式來理解世界,類似的技術是否也能用來學習動物的語言?所羅門能夠與動物溝通並不是因為他擁有魔法物品,而是因為他有觀察的天賦。——康拉德・勞倫茲《所羅門王的指環》在《獅子王》、《瘋狂動物城》等以動物為中心的作品中,作者經常會將角色擬人化,用人類的思考和交流方式來推進劇情。
不過,這類作品也會導致認知失調,當我們與動物溝通時,可能會把自己的想法和偏見投射到動物身上,例如「羔羊跪乳」與感恩、孝道無關,而是因為羊特殊的胃部構造,但人類會把自身投射到羊羔的行為上。
傳統的動物認知工作主要是建立一個詞彙表,但例如「水」、「喝」、「乾燥」等概念在水生生物的世界中可能不存在或沒有意義,在動物交流中也就不存在和人類概念之間的對應;動物之間的交流也不一定透過發聲,還包括手勢、動作序列或皮膚紋理的變化等。
從理論上講,機器學習模型要比人類更擅長總結出詞彙之間鬆散的相關性,神經網路的輸入不對輸入資料的性質做任何假設,只要某種模式頻繁出現,就有可能發現動物交流中蘊含的訊息。
由紐約市立大學、、UC柏克萊、MIT、哈佛、Google研究院和《國家地理》等研究機構發起的鯨語翻譯計畫(Cetacean Translation Initiative, CETI),使用自然語言處理系統分析海量抹香鯨數據,並規劃未來與野外抹香鯨直接對話。
Aza Raskin等人共同創立的地球物種計畫(Earth Species Project,ESP)開源了首個動物發聲基準BEANS,可以測量機器學習演算法在生物聲學數據上的表現;也開發了首個用於動物發聲的基礎模型AVES,可用於如訊號偵測和分類等各種任務。
隨著生成式AI技術的進步,或許某天我們真有可能揭開動物溝通背後的真正意義。
複雜的動物王國
1974年,哲學家托馬斯·內格爾發表了一篇開創性的論文,名為《當蝙蝠是什麼感覺?》(What Is It Like to Be a Bat?」),他認為,蝙蝠的生活與人類的生活有著非常大的差異,以至於人類可能永遠無法真正知道這個問題的答案。
我們對世界的理解是由人類的概念所塑造的,想要知道蝙蝠會是什麼樣子的唯一方法就是成為蝙蝠,並擁有蝙蝠的概念。
不過,我們還是可以推測出蝙蝠的部分思維方式,例如蝙蝠生活在高處,可能上下的概念是顛倒的,透過迴聲定位等,但我們無法擁有蝙蝠的生活體驗。
如果獅子會說話,我們也無法理解它,因為人類的大腦無法在共情獅子語言中傳達的感受和概念。——Ludwig Wittgenstein
但並非所有動物的思維都與人類迥然不同,從心理上講,人類與其他靈長類動物的共同點比章魚和魷魚更多:人類與黑猩猩的最後一個共同祖先生活在600萬到800萬年前,而與章魚的最後一個共同祖先則生活在大約6億年前的前寒武紀海洋中。
經過教導後,黑猩猩可以學會人類的手語,甚至能夠理解複雜的人類指令,並使用鍵盤符號進行交流,但也正如開頭所說的,我們可能也過度擬人化地理解了猩猩的行為。
對於與人類關係更遠的物種,理解他們的溝通方式變得更困難,例如蜜蜂和一些鳥類可以看到可見光譜中的紫外線,蝙蝠、海豚、狗和貓能聽到超音波等,每個物種都有其獨特性。
用AI理解動物
地球物種計畫(Earth Species Project)的電腦科學家Britt Selvitelle表示,他們正在努力破解第一種非人類語言,並且有可能在五到十年內實現。
在動物語言領域,雖然研究人員數十年來已經積累了大量知識,但世界上還不存在一塊能夠翻譯人類語言和動物語言的“羅塞塔石碑”,也就不存在“動物語言”的標註金標準。
從根本上說,人工智慧是一種數據驅動的工具,預訓練語言模型可以透過大量數據,以無監督的形式學習到數據的內部表徵。
從ChatGPT強大的表現來看,生成式AI技術可能有自己獨特的內部表徵方法,而非套用人類的概念,所以研究者開始轉向AI技術來分析數據,取得對動物有意義的術語。
在地球物種計畫中,收集的數據形式包括聲音、運動和視頻,涵蓋野外或圈養環境中的動物,數據中還附有生物學家對動物當時在做什麼和在什麼背景下做什麼的註釋。
隨著物聯網的成熟,將廉價可靠的記錄設備(如麥克風或生物記錄儀)放在野外動物身上也越來越容易,可以提供大量數據供人工智慧工具進行組織和分析,以幫助發現數據背後的意義,然後使用生成式方法進行測試,最終實現重新創建動物的聲音,進行雙向交流。
動物聲音基準BEANS
在生物聲學領域,基於機器學習技術的成功應用需要在特定任務上精心策劃出一組高品質數據,但在此之前還不存在一個涵蓋多任務、多物種的公共基準,無法以受控和標準化的方式測量機器學習技術的性能並將新提出的技術與現有技術進行基準測試。
論文連結:https://arxiv.org/pdf/2210.12300.pdf
資料連結:https://github.com/earthspecies/beans
BEANS((the BEnchmark of ANimal Sounds,動物聲音的基準)是一個生物聲學任務和公共資料集的集合,專門用於測量生物聲學領域機器學習演算法的性能,包括生物聲學中的兩個常見任務:分類和檢測。
BEANS中包括12個資料集,涵蓋多個物種,包括鳥類、陸地和海洋哺乳動物、無尾兩棲動物和昆蟲。
除了資料集,文中也提出了一組標準機器學習方法的表現作為任務表現的基線。
基準和基線程式碼都已開源公開,研究人員希望BEANS可以為基於機器學習的生物聲學研究建立一個新的標準資料集。
動物發聲大模型AVES
在生物聲學領域,由於缺乏標註好的訓練數據,極大阻礙了該領域以有監督方式訓練的大規模神經網路模型的使用。
為了利用大量未標註的音頻數據,研究人員提出了AVES(Animal Vocalization Encoder based on Self-Supervision,基於自我監督的動物發聲編碼器),一種自監督的、基於Transformer模型的音頻表徵模型,可用於編碼動物發聲。
論文連結:https://arxiv.org/pdf/2210.14493.pdf
模型連結:https://github.com/earthspecies/aves
研究人員在一組不同的無標註音訊資料集上對AVES模型進行預訓練,並針對下游生物聲學任務對模型進行微調。
分類和檢測任務的綜合實驗表明,AVES優於所有強基線,甚至優於在註釋的音訊分類資料集上訓練的有監督topline模型。
實驗結果還表明,精心設計出一個與下游任務相關的小訓練子集是訓練高品質音訊表示模型的有效方法。
倫理問題
1970年代,當西方社會第一次發現鯨魚的歌聲後,人類社會暫停了對深海鯨魚的捕殺,並促成了環保署(Environmental Protection Agency)的成立。
隨著地球物種計畫技術路線圖的推進,我們可以更了解周圍的生物,進行更多的數據收集,並開發新的基準和基礎模型,從而可以更好地保護這顆藍色星球。
Raskin認為,在未來12-36個月內,團隊就可以實現與動物交流,例如做出人造鯨魚或烏鴉,能以一種無法分辨的方式與鯨魚或烏鴉交談,不過關鍵點在於,我們也需要理解模型在說什麼,才能進一步對話。
Raskin團隊也在討論如何負責任地使用這些人工智慧方法,目前已經規定在任何測試中都要準備好這些方法,技術路線中指出了潛在的風險,如乾擾狩獵和覓食或交配,也可能發送錯誤給動物。
人類是在10萬到30萬年前才學會如何用聲音說話和交流的,而鯨魚和海豚用聲音來傳承文化和歌曲已經有3400萬年曆史了。
如果隨意在鯨群中發送AI音頻,可能會對3400萬年的文化造成破壞。
這就是為什麼到目前為止,地球物種計畫中的大部分工作都是在收集數據和創建基礎,即推動未來進步的基準和基礎模型,與世界各地的公司和組織每天利用人工智慧和機器學習所做的事情沒有什麼不同,只是規模更宏大。
如果人工智慧可以幫助我們理解動物在說什麼,那麼我們使用人工智慧的能力的限制是什麼?
如果人工智慧可以幫助我們了解動物,那麼它會教我們關於人類的什麼?
Raskin 和Zacarian希望動物語言的最終翻譯成為世界歷史上的轉折點之一,就像鯨魚的歌聲首次被發現或1990年藍點(A Pale Blue Dot)的照片一樣,這些時刻改變了我們對世界的看法和理解。