高馬爾
一個信息發佈的網站

海豚語言被谷歌大模型破譯!跨物種交流大門打開,哈薩比斯:下一個是狗

今天小編(郟君昊)要和大家分享的是海豚語言被谷歌大模型破譯!跨物種交流大門打開,哈薩比斯:下一個是狗,歡迎閱讀~

神奇!人類和海豚真的能實現跨物種交流了?!

當地時間 4 月 14 日(也是世界海豚日),谷歌 CEO 皮猜激動官宣:

隆重推出 DolphinGemma,基于多年積累的海豚聲音數據訓練而成,有助于實現跨物種交流。

劃重點,這個海豚模型參數僅400M,小到能直接在谷歌 Pixel 9 手機上運行。

而且皮猜還說了,預計今年夏天會将其開源以促進科學合作。

這一消息也迅速引來大量網友圍觀,評論區一整個 " 哇聲一片 ":

更有意思的是,谷歌和 OpenAI 這對老冤家這一次又雙叒對上了,OpenAI 那邊發布了 GPT 4.1。

有網友直接辣評:GPT 4.1 很好,但我對 DolphinGemma 更感興趣。(你是懂拉踩的 doge)

谷歌大模型破解海豚叫聲

谷歌這次發布的 AI 基礎模型 DolphinGemma,經過訓練可以學習海豚的發聲結構,并生成類似的聲音序列。

這和大語言模型中的預測下一個 token 類似,通過識别輸入的海豚音頻,來預測後續可能出現的聲音,并最終解鎖這些聲音隐藏的潛在含義。

根據介紹,這一模型使用了谷歌獨特的音頻技術。

其中,SoundStream 分詞器能快速把海豚聲音變成計算機能理解的信号,随後由适合處理復雜序列的模型架構進行處理。

當然,除了訓練技術,最重要的環節還是在于獲取數據

谷歌這次找了 WDP( Wild Dolphin Project)合作,這家機構研究海豚社會數十年,擁有極為豐富的數據集。

具體而言,自 1985 年以來,WDP 研究了巴哈馬群島中一個跨世代的野生大西洋斑點海豚(Stenella frontalis)群落。

通過這一 " 世界上持續時間最長的水下海豚研究項目 ",最終積攢了數十年的水下視頻和音頻,并且每個海豚的身份、生活史和觀察到的行為擁有細致匹配。

比如下面這些能夠将海豚聲音和行為聯系起來的例子:

标志性的口哨聲,一般出現在母子相遇的場景

打鬥時經常會聽到脈衝 " 尖叫聲 "

求偶或追逐鲨魚時常用 " 嗡嗡 " 聲

下圖展示了第一種情形。

左圖:一只斑點海豚媽媽在幼崽覓食時觀察着它,等幼崽覓食完畢後,它會用自己獨特的口哨聲呼喚它回來。

右圖:聲譜圖顯示的口哨聲。

因此最終,DolphinGemma 是基于 WDP 的野生大西洋斑點海豚聲學數據庫進行廣泛訓練。

另一方面,除了研究海豚的交流方式,WDP 還進一步探索了 " 人機互動 " 方式。

該機構與佐治亞理工學院合作,開發了 CHAT ( Cetacean Hearing Augmentation Telemetry ) 這款水下應用,其設計目的并非直接解讀海豚復雜的自然語言,而是建立一套更簡單的共享詞匯。

具體來說,CHAT 會将生成的合成哨聲與海豚喜歡的特定物體聯系起來,比如海藻、海草或研究人員使用的圍巾。

然後通過人類教導,讓天生好奇的海豚學會模仿這些哨聲來請求這些物品。

最終,随着對海豚更多自然聲音的理解,這些聲音也可以被加入到系統中。

CHAT 示意圖

概括而言,CHAT 設備通過水下揚聲器和麥克風實現聲音的發送和接收,通過嘗試模仿海豚發出的哨聲來建立一種基本的溝通橋梁。

谷歌表示,Pixel 6(谷歌 2021 年 10 月發布)已經能夠實時處理高保真海豚聲音分析,而即将發布的 Pixel 9(計劃于 2025 年夏季投入使用)将在此基礎上進行更新。

Pixel 9 将集成揚聲器和麥克風功能,并利用手機強大的處理能力同時運行深度學習模型和模板匹配算法。

這将使研究人員能夠更高效地分析海豚的聲音,并與海豚進行更復雜的互動。

One More Thing

也有人好奇,為什麼谷歌選了海豚而非更常見的貓狗來研究?

雖然官方這次未明确提及背後原因,但查閱廣泛研究資料後可以得出一個結論:

這是因為海豚的 " 語言 " 和人類語言高度接近

一項發表在《皇家社會生物學通訊》的研究表明,海豚相互間交流的方式近乎于人類。

當一些海豚發出像吹口哨一樣的聲音時,這些聲音是由特定組織震動發出的,其運作原理類似于人類和許多陸生生物的聲帶振動。

論文一作彼得 · 麥德森曾表示:

實際上,它們是通過鼻腔中結締組織的共振頻率來發聲的,而且它們能随意調節肌肉緊張度和通過的氣流。這和人類用聲帶說話時做的一模一樣。

和海豚類似,事實上谷歌 2024 年 9 月還推出了一款鲸魚聲音識别模型,它能夠識别出八種鲸魚的獨特叫聲,并精細區分其中兩種鲸魚的不同發聲類型。

而鲸魚也和海豚一樣,其語言和人類語言也具有相似性。

今年年初發表在《科學》雜志上的一項研究驚奇地發現,通過模仿兒童學習語言的過程,鲸魚的歌聲與人類使用的語言存在統計相似性。

這一發現不僅揭開了鲸歌的部分秘密,還為理解跨物種交流乃至 AI 語言模型提供了全新視角。

可以看到,谷歌首先考慮的還是這些與人類語言更接近的物種。

不過别着急,從 DeepMind 聯創兼 CEO 哈薩比斯透露的想法來看,沒準下一個就是狗了。 ( doge)

參考鏈接:

[ 1 ] https://blog.google/technology/ai/dolphingemma/

[ 2 ] https://x.com/demishassabis/status/1911875286070923624

[ 3 ] https://www.science.org/doi/10.1126/science.adq7055

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—    —

不到一周!中國 AIGC 產業峰會觀眾正在火熱報名中  ‍♀️

全部嘉賓已就位   百度、華為、AWS、MSRA、無問芯穹、數勢科技、面壁智能、生數科技等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~

4 月 16 日周三,就在北京,一起來深度求索 AI 怎麼用  

一鍵星标

科技前沿進展每日見

關于海豚語言被谷歌大模型破譯!跨物種交流大門打開,哈薩比斯:下一個是狗就分享完了,您有什麼想法可以聯系小編(郟君昊)。