Google推出DolphinGemma 旨在幫助人們理解海豚的語言的大模型

2025-04-15 Comments 0 Comment

在推出由Gemini 2.5 Pro Experimental 提供支援的深度研究幾天后，Google再次推出了一個新模型DolphinGemma 。這個大型語言模型旨在幫助科學家“研究海豚如何溝通”，並“希望也能了解它們在說什麼”。

該公司正與佐治亞理工學院的研究人員以及由創始人丹尼斯·赫辛博士領導的野生海豚計畫(WDP)合作。正如您可能猜到的那樣，WDP 的主要任務是透過「非侵入性、長期的實地研究」來觀察、記錄和報告野生海豚（特別是大西洋斑點海豚（Stenella frontalis））的自然行為、社會結構、交流模式和棲息地。

多年來，WDP 收集的數據使其能夠將某些海豚的聲音與行為關聯起來。例如：

標誌性的口哨聲（獨特的名字），可供母像和小象團聚時使用
打架時常聽到的脈衝“尖叫聲”
求偶或追逐鯊魚時常用的「嗡嗡」聲

谷歌表示，“分析海豚自然而複雜的交流是一項艱鉅的任務，而WDP 龐大的標記數據集為尖端人工智能提供了獨特的機會。”

這就是DolphinGemma 的作用所在。簡單來說，它是Google在WDP 資料集上開發的人工智慧模型，它使用Google自己的SoundStream 分詞器將海豚的叫聲分解成更易於管理的音訊單元。

然後，這些資料會透過一個專門設計的模型架構運行，該架構旨在理解複雜的序列。整個系統包含約4 億個參數，因此足夠輕量，可以在WDP 研究人員隨身攜帶的Pixel 手機上原生運作。

與傳統的機器學習模型不同，DolphinGemma 不處理文字或影像；它嚴格意義上來說只處理音訊輸入和音訊輸出。它接收海豚的自然發聲序列，採用一種受大型語言模型理解人類語音啟發的方法進行處理，並預測序列中最可能的下一個聲音。

丹尼斯·赫爾辛博士將其比作自動完成功能，只不過它針對的是海豚的哨聲、脈衝串和咔噠聲序列。它經過訓練，可以識別這些聲音的模式、結構和進展，就像基於文字的模型根據上下文預測句子中的下一個單字一樣。

在Google推出DolphinGemma 之前，鯨魚聽覺增強遙測技術(CHAT) 的研究團隊一直在探索與海豚進行雙向溝通的可能性。 CHAT 的目標並非破解海豚語言的全部複雜性，而是建構一套更簡單、更通用的互動詞彙。

該系統的工作原理是將CHAT 創造的新型合成哨聲與海豚似乎喜歡的特定物體聯繫起來。例如馬尾藻、海草，甚至是研究人員使用的圍巾。

希望透過反覆將這些合成的口哨聲與物體聯繫起來，海豚會開始模仿聲音來「要求」這些物品。

CHAT 使用Google Pixel 6 運行，該設備可以即時處理高品質的音訊分析。使用現成的手機意味著團隊無需客製化設備。這使得設備體積更小、成本更低、效率更高，也更容易在公海維護。

對於即將到來的季節，他們將升級到Pixel 9，它增加了更好的揚聲器和麥克風功能，並且有足夠的能力同時運行深度學習模型和模式匹配。

搭載最新CHAT 系統硬體的Google Pixel 9

與其他Gemma 模型一樣，Google表示，今年夏天將推出DolphinGemma 作為開放模型，希望「為世界各地的研究人員提供工具來挖掘他們自己的聲學數據集，加速對模式的搜索，並共同加深我們對這些智能海洋哺乳動物的了解」。

Gemma 是Google 開發的輕量級大型語言模型系列。該系列的最新成員是 Gemma 3，提供四種規模：10 億、40 億、120 億和270 億個參數。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

WONGCW 網誌

記錄生活經驗與點滴

Google推出DolphinGemma 旨在幫助人們理解海豚的語言的大模型

2025-04-15 Comments 0 Comment

相關

發表迴響取消回覆

分享此文：

相關

發表迴響取消回覆