Google推出DolphinGemma 旨在幫助人們理解海豚的語言的大模型
在推出由Gemini 2.5 Pro Experimental 提供支援的深度研究幾天后,Google再次推出了一個新模型DolphinGemma 。這個大型語言模型旨在幫助科學家“研究海豚如何溝通”,並“希望也能了解它們在說什麼”。

該公司正與佐治亞理工學院的研究人員以及由創始人丹尼斯·赫辛博士領導的野生海豚計畫(WDP)合作。正如您可能猜到的那樣,WDP 的主要任務是透過「非侵入性、長期的實地研究」來觀察、記錄和報告野生海豚(特別是大西洋斑點海豚(Stenella frontalis))的自然行為、社會結構、交流模式和棲息地。
多年來,WDP 收集的數據使其能夠將某些海豚的聲音與行為關聯起來。例如:
- 標誌性的口哨聲(獨特的名字),可供母像和小象團聚時使用
- 打架時常聽到的脈衝“尖叫聲”
- 求偶或追逐鯊魚時常用的「嗡嗡」聲
谷歌表示,“分析海豚自然而複雜的交流是一項艱鉅的任務,而WDP 龐大的標記數據集為尖端人工智能提供了獨特的機會。”
這就是DolphinGemma 的作用所在。簡單來說,它是Google在WDP 資料集上開發的人工智慧模型,它使用Google自己的SoundStream 分詞器將海豚的叫聲分解成更易於管理的音訊單元。
然後,這些資料會透過一個專門設計的模型架構運行,該架構旨在理解複雜的序列。整個系統包含約4 億個參數,因此足夠輕量,可以在WDP 研究人員隨身攜帶的Pixel 手機上原生運作。

與傳統的機器學習模型不同,DolphinGemma 不處理文字或影像;它嚴格意義上來說只處理音訊輸入和音訊輸出。它接收海豚的自然發聲序列,採用一種受大型語言模型理解人類語音啟發的方法進行處理,並預測序列中最可能的下一個聲音。
丹尼斯·赫爾辛博士將其比作自動完成功能,只不過它針對的是海豚的哨聲、脈衝串和咔噠聲序列。它經過訓練,可以識別這些聲音的模式、結構和進展,就像基於文字的模型根據上下文預測句子中的下一個單字一樣。
在Google推出DolphinGemma 之前,鯨魚聽覺增強遙測技術(CHAT) 的研究團隊一直在探索與海豚進行雙向溝通的可能性。 CHAT 的目標並非破解海豚語言的全部複雜性,而是建構一套更簡單、更通用的互動詞彙。
該系統的工作原理是將CHAT 創造的新型合成哨聲與海豚似乎喜歡的特定物體聯繫起來。例如馬尾藻、海草,甚至是研究人員使用的圍巾。
希望透過反覆將這些合成的口哨聲與物體聯繫起來,海豚會開始模仿聲音來「要求」這些物品。
CHAT 使用Google Pixel 6 運行,該設備可以即時處理高品質的音訊分析。使用現成的手機意味著團隊無需客製化設備。這使得設備體積更小、成本更低、效率更高,也更容易在公海維護。
對於即將到來的季節,他們將升級到Pixel 9,它增加了更好的揚聲器和麥克風功能,並且有足夠的能力同時運行深度學習模型和模式匹配。

搭載最新CHAT 系統硬體的Google Pixel 9
與其他Gemma 模型一樣,Google表示,今年夏天將推出DolphinGemma 作為開放模型,希望「為世界各地的研究人員提供工具來挖掘他們自己的聲學數據集,加速對模式的搜索,並共同加深我們對這些智能海洋哺乳動物的了解」。
Gemma 是Google 開發的輕量級大型語言模型系列。該系列的最新成員是 Gemma 3,提供四種規模:10 億、40 億、120 億和270 億個參數。