為了實現跨物種交流 科學家正在翻譯鯨魚的語言?
在科幻電影《降臨》當中,一群外星人乘著12艘飛船造訪地球。 人類無法準確把握其意圖,而由語言學家班克斯領導的一支跨學科專家隊伍,被賦予瞭解碼「七肢桶」(Heptapod) 外星人語言,與其實現對話,理解其意圖的重要使命。
所幸的是,班克斯率領的美國團隊掌握了外星人的符號語言,實現了和外星人的對話,並且成功通過避免了因為預料不全和翻譯誤差而導致人類和外星人,甚至人類不同國家之間的全面戰爭。
這部電影改編自美國作家姜峯楠的星雲獎獲獎作品《你一生的故事》。 雖然人類希望交流的對像是外星生物,這部作品和一些古埃及、古羅馬傳說,以及安徒生童話、愛麗絲夢遊仙境等文學作品,仍然可以屬於同一個母題:跨物種交流。
而在真實世界當中,一群來自世界各地知名院校的跨學科研究者,也在做著和電影當中類似的事情。 他們的物件,不是外星人,而是我們地球的海洋中,一個十分令人著迷,極有可能具有智慧和情感的物種:抹香鯨。
這些研究者,希望翻譯鯨魚的語言,實現人鯨對話。
Project CETI:藉助ML的力量,實現跨物種翻譯
哈佛大學拉德克里夫學院 (HRI)是該校專門為彙集來自全世界的優秀專家進行跨學科研究而運作的機構。 2017年,一群海洋生物學家、信號學家和計算機科學家聚在這裡,談天說地。
來自加州大學伯克利分校的計算機和加密學教授Shafi Goldwasser走在樓道里,路過海洋生物學家David Gruber的辦公室時,聽到了一種奇怪但又熟悉的滴答聲(Clicks)。
其實,Goldwasser聽到的是抹香鯨發出的聲音。
抹香鯨是一種聽覺極其敏感的海洋生物。 其所有滴答聲中,大約有70%用於回聲定位和捕獵等。 海洋生物學家經過大量的研究,認為其餘大約20-25%的滴答聲,極有可能是用於鯨魚之間的交互溝通的。
——這部分的滴答聲,被稱為”密碼曲” 。
而Goldwasser對這些聲音感到熟悉,是因為它們很自己的信號學專業很接近,有點類似摩爾斯電碼,也有點像故障的電路板元器件會發出的聲音。
這位2012年圖靈獎得主發現自己的興趣被莫名調動起來了。 她當時隨口一提,表示:「或許我們應該搞一個專案,把這些聲音翻譯出來讓人能聽懂。 ”
當時她也沒想到,這個非常隨機的想法,居然在三年後,促成了一個雄心壯志的的跨學科前沿研究專案:Project CETI。
Project CETI 全稱Cetacean Translation Initiative(鯨類翻譯計劃),由來自紐約城市大學、UC伯克利、MIT、哈佛、Google研究院和《國家地理》等知名學府、研究和環保機構的專家共同組成。
這些專家涵蓋了AI、機器人、信號學、語言學、水下聲學、海洋生物學等多個學科。 鯨類翻譯計劃脫胎於哈佛拉德克里夫學院,也繼承了該校的跨學科研究思路。 成員們認為,只靠一兩種技術是無法實現他們的目標的。 如果要對鯨類語言獲得更加全面和深入的了解,必須採用這種跨學科研究的研究思路,讓不同專業的專業知識在專案里融會貫通。
這個計劃,獲得了知名科普機構 TED大會旗下The Audacious Project 的資助支持,並且按照501c3非營利機構的模式,在美國和多明尼加運作。
在多明尼加海岸以外的一塊大約20平方公里的海域上,海洋生物學家已經對當地的抹香鯨群落進行了十多年的觀察,記錄了大量的數據。 而這些專家也帶著數據加盟了鯨類翻譯計劃,讓團隊實力顯著增強。 今後,項目團隊將進一步擴大抹香鯨的觀察研究,以及密碼曲數據的記錄。
整個專案的工作內容和階段目標,主要如下:
1)從多明尼加海域開始,對當地的抹香鯨種群進行大規模的長期追蹤研究
2)大規模收集適合機器學習方式處理的聲音數據和其他元數據(如鯨魚的位置、動作、姿態等)
3)了解鯨魚之間的互動方式,特別是聲學溝通的方式
4)建立聲音表達和行為模式之間的關聯
5)更多瞭解幼鯨的溝通能力是如何發展的
6)初步目標:找到更多語言結構存在的證據,例如類似於語法的高級別溝通方式
7)訓練一個「鯨語聊天機器人」,嘗試對抹香鯨的表達做出回應,並進一步觀察是否能夠發生有意義的交流
8)學習更多的對話數據中,增加對抹香鯨語言的句法、語義等要素的理解
8)超長期的終極目標:實現人鯨對話,對族群和物種有更多的瞭解。
圖片來源:Project CETI
Michael Bronstein是鯨類翻譯計劃的機器學習負責人。 他自嘲這輩子到現在還沒見過真的鯨魚。 儘管如此,當Goldwasser 和 Gruber找他來聊想法的時候,他對數據的敏感程度,以及對用於NLP(自然語言處理)的無監督深度學習模型的了解,還是令他立刻意識到這個專案是絕對可以做的。 雖然註定很艱難,但如果真的做出來的話, 對於人類文明的進步、環境保護的推動,帶來的積極影響將會是難以估量的。
在一場矽星人參加的線上研討會中,Bronstein列舉了一組重要的數據:
假設一片海域有50-400隻抹香鯨(數量浮動很大,因為它們也會遷徙),每年能夠錄得的Click數量可能在4到40億次之間——從數據量的規模來看,這個專案做下去的話,是完全可以和一些深度學習語言模型(比如 BERT)相提並論的。
Project CETI和一些主流語言模型的數據量對比 圖片來源:Michael Bronstein
Bronstein透露,自己到現在大體上對於鯨魚還是”一無所知”。 但是,他和團隊當中負責機器學習部分的小夥伴們,已經對之前錄下來的數十萬個獨立的抹香鯨密碼曲數據單元進行了分析。
不懂鯨魚的人也來做鯨魚研究? 如果在一般的學術環境下,這種行為早就要被人笑掉大牙了。 然而其實這樣完全沒問題,因為這跟機器學習(準確來說是無監督深度學習)的邏輯是完全一樣的。
以面向文本生成的深度神經網路模型為例。 其實神經網路根本不懂它說的語言,也不知道自己輸出的句子到底什麼意思。 儘管如此,這些模型在語言生成上面仍然非常出色,其實是因為統計學做的好。 它學習了大量的語料數據之後,其實已經從統計的角度掌握了句子的構成結構、語法的規律等。
甚至在翻譯任務中,新的無監督神經網路,可以在不需要平行語料庫(也即同一內容兩種語言對照的語料)的前提下,僅通過大量學習互聯網上的內容,演算法就能自己掌握翻譯的能力。
巨大的科學賭注
Bronstein坦誠地表示,鯨類翻譯計劃的基礎,其實是一個特別大膽、高風險的科學假設。 也即:抹香鯨的「密碼曲」是足以構成一種語言,或者至少是一種接近於語言的聲學表意方式。
這裡需要明確的是:不是所有的發聲都是語言。 比如貓狗的叫聲就不構成語言;學舌的鸚鵡就算模仿人類說出了一句話,它多半也只是想要獲取主人的注意,而不是真的理解學出來那句話的含義,同樣不屬於語言表達。
鯨類翻譯計劃的假設,基本就是:
1)抹香鯨發出的滴答聲組成的「密碼曲」當中,是存在單詞或片語的。 一些特定結構的滴答聲,在整個抹香鯨物種當中(或者至少在一個族群當中)是具有固定的含義的——也即語義的存在。
2)這些「密碼曲」當中有語法的存在,哪怕是最簡單的語法。 比如山雀在特定威脅發生的時候會連續發出兩種聲音,作為對其它同類的警告,或者抹香鯨在用密碼曲”自報家門”的時候可能會採用某種特定的報告順序,這都是簡單語法可能存在的例證。
3)抹香鯨的密碼曲不是天生就會,而是在社會化的族群生活中,通過不斷觀察學習其他同類而獲得的。 只有後天習得的語音表達能力,才有可能構成語言。
以上這幾點假設,目前都沒有足夠的、科學上絕對靠得住的證據和學術研究能夠證實。 不過,目前團隊已經積累了一些數據資料,似乎預示著他們的方向是正確的,假設是合理的。
其中一個證據:抹香鯨的一段單獨的密碼曲一般由5個間隔各不相同的滴答聲組成。 不同的鯨魚會使用不同的間隔方式。 而通過大量的觀察和研究,目前海洋生物學家的共識是,抹香鯨的密碼曲當中編碼了其所屬的族群、家庭,以及其個體身份的資訊。 甚至還有研究發現,一些抹香鯨在不同的環境、處境下,發出的密碼曲的頻譜和振幅都不一樣,就好像在說”方言”一樣。
抹香鯨的密碼曲 (codas) 示意 圖片來源:Michael Bronstein
“對於其它物種是否有類似人類的語言,以及我們是否可以理解它們的語言…… 如果這個方向有什麼動物值得研究,那肯定是抹香鯨了。 “Bronstein 表示。
抹香鯨是哺乳動物,人類也是哺乳動物
抹香鯨有發育良好的大腦——全宇宙最大的大腦,是人類的6倍
抹香鯨以家庭為生活單位,可以說有著和人類類似的家庭文化
抹香鯨有著複雜的溝通系統,並且很有可能具有對話的能力。 Gruber 有一次在多明尼加曾經旁聽了兩隻位置靜止的抹香鯨之間,用密碼曲斷斷續續的”對話”,長達40分鐘,幾乎每一句都不重樣,並且伴各種動作
“既然我們知道抹香鯨有著濃厚的家庭意識,萬一這是兩隻母鯨在拉家常、分享育兒心得呢?”
如果抹香鯨確實有語言的話,那麼用 NLP 深度學習的思路,套用到翻譯密碼曲的任務,就非常合適了。 你可以這樣理解:深度學習不懂英語和中文,但是通過大量學習語料就可以獲得中英互譯的能力。
那麼就算我們人類無法理解鯨語,但深度學習或許能夠從大量鯨語語料中找到文本的構成規律。 如果這能實現的話,在人類語言和鯨語之間實現互譯,甚至人鯨對話似乎並不是一件遙不可及的事。
Bronstein說,這是他學術生涯目前為止參與過的最瘋狂的一個專案,並且希望能夠說服人們,他們的設想並不是一個夢,而是真的有可能實現海洋生物學和生態環境保護方面的一個重大突破。
“等我們能和鯨魚對話的那一天,萬一它們想要告訴人類,’不要再捕殺我們了,不要再破壞環境了’呢?”
Michael Bronstein在2015年國際圖像處理大會上演講
數據收集和項目進展
這個專案聽起來特別的宏大,但說句實話,現在整個研究的進度並沒有我們想像的那麼深入,還沒有什麼特別值得宣告的進展。 目前,團隊仍處在數據獲取的階段。 想要高效率地收集高品質的抹香鯨聲音數據,簡直太難了。
在機器學習領域,為了訓練神經網路,需要大規模構建標註數據集,而缺乏優質標註數據、標註能力不足,一度制約了技術發展。
而在鯨類翻譯計劃這裡,團隊面臨同樣的問題:要獲取數據,就得跟蹤抹香鯨的位置,而這又是一種聽力極好,對聲音/噪音極其敏感的動物,想要跟蹤他們並且”偷聽”,非常費時費力。 其次,因為人類的航海活動,最適合抹香鯨生活的海域噪音也非常大,也會影響數據收集的品質。
為了更好地收集數據,鯨類翻譯計劃專門吸納了機器人和信號學方面的專家。 團隊計劃開發幾種不同的數據收集裝置,實現「全方位全天候覆蓋」:
第一種是常規的水下麥克風,通過浮標的方式安放在海域固定位置和固定深度。
這種感測器,和軍事場景偵測潛水艇的技術差不多,好處是成本較低,能夠全天候收集大量的背景聲音數據(如下圖所示)。
這種固定麥克風的劣勢在於容易受到噪音的影響,且追蹤特定鯨魚的能力較差。 所以就需要其他的感測器來補充。
第二種感測器叫做”Tag”(標籤),也就是吸附在每一條抹香鯨身上,針對性地只收集這一隻(以及附近和它交流的其他鯨魚)的聲音數據。 這些標籤不僅收錄聲音,還可以同時記錄其更多類型的行為數據位置、深度、速度、動作、姿態等等:
第三種就是水下/空中無人機,具有導航、追蹤、視頻音訊記錄功能用來覆蓋前集中數據收集方式的盲區。 在未來,一部分水下無人機還可以改造成「鯨語聊天機器人」。
至於鯨類翻譯計劃目前的進展:這個專案是去年正式組建的,今年前不久剛獲得更多外部機構的資助和學術支援。 Bronstein告訴矽星人,團隊預計將在明年陸續完成各種數據收集裝置的開發,並開始收集更多數據。
鯨類翻譯計劃的團隊成員們一廂情願地認為,自己的研究方向是正確的,一方面是考慮到之前有針對海豚等其他海洋生物的類似專案取得了成果,另一方面也因為前文提到的,基於機器學習(也即統計學)的研究方法,無論如何都是能用的。
在學術界中,支持和質疑該項目的聲音此起彼伏。 但不管怎麼樣,由於研究物件和研究方式的限制,鯨類翻譯計劃無法在短期(一兩年內)取得關鍵突破的。 這註定是一個超長期的專案——無論結果如何,團隊成員的猜想最終是否應驗,這個專案都將幫助人類,增進對抹香鯨以及更多智慧生物溝通方式的瞭解。
跨物種溝通的「羅塞塔石碑”
兩個完全不同的物種想要進行平等的溝通是非常困難的。 幸運的是,人類對於語言這門巨大的學問已經掌握了非常多科學的方法。
文章一開始提到的《降臨》電影,就是一個非常好的例子。 片中,人類一開始錯以為七肢桶發出的聲音是他們在說話,後來主角語言學家班克斯成功”啟動”了外星人,讓他們用真正的文字語言(圓環狀的符號)進行溝通。 有了文字,班克斯的團隊進一步構建出了共用詞彙,進而雙方之間的溝通效率極大提升。
在古埃及歷史文化中,「羅塞塔石碑」(Rosetta Stone) 是一個極其重要的存在。 這是一塊刻有托勒密五世詔書的石碑,同一段內容用了埃及草書、古希臘文,以及失傳了上千年的古埃及象形文,三語對照的寫法。
毫無疑問,這塊石碑,就是這三種語言最古老的”詞典”,或者用今天機器學習的術語來說,這是最古老的平行語料庫。 通過它,考古學家解讀出了失傳上千年的古埃及象形文的意義、結構,甚至還發現象形文字也具有表音的作用。 羅塞塔石碑也被公認為後世瞭解古埃及語言和文化的關鍵基礎。
而在今天機器學習方式,特別是無監督深度學習的方法,為人類處理語言任務,甚至拓展語言研究的邊界,開啟了一種全新的思路。
在翻譯這一經典任務上,機器不需要理解語言,而是僅靠單一語言的語料,即可掌握該語言的句法、語法等關鍵要素。
Bronstein表示,在神經網路處理翻譯任務的時候,研究者有一個重要的發現:英語和義大利語,在詞、句、語法等各方面差異巨大的兩種語言,在表達同一句話時,在神經網路內部的Word Embedding模式驚人的近似。
這一情況的存在,讓鯨類翻譯計劃的成員們對於未來非常期待。 邏輯簡單形容一下其實是這樣的:
這兩種語言都是人類說的↓
人類是智力高度發達的哺乳動物↓
抹香鯨也是智力高度發達的哺乳動物↓
那麼,人類的語言和抹香鯨的「語言」,是否至少存在那麼一點點相似之處,可以用機器學習/語言/統計學的思路,來打開一個突破口?
這也是鯨類翻譯專案的存在之外的另一個啟發:在機器學習技術飛躍的時代,”羅塞塔石碑”或許不再是詞彙表,而是跨物種之間共通的,只有依靠先進科學才能夠識別出的,隱性的規律。
也許經過多年的研究,人鯨對話將成為現實。