谷歌将开源会讲“海豚语”的大模型

它们是海洋中的智慧精灵,能合作、互教、甚至在镜中认出自己——海豚的聪慧早已不是秘密。数十年来,科学家们一直试图破译它们那由一连串复杂哨声和咔哒声组成的“语言”系统。如今,借助 Google 的开源 AI 模型和几部 Pixel 手机,这项充满挑战的研究或许将迎来一丝曙光。
当科技巨头遇上深海研究
当 Google 将生成式 AI 融入其几乎所有业务时,与“野生海豚项目”(Wild Dolphin Project, WDP)的合作似乎也顺理成章。这个成立于 1985 年的研究组织,一直致力于以非侵入性的方式追踪和研究巴哈马海域的一个特定大西洋斑点海豚群落。通过大量的影像、声音记录,辅以详尽的行为观察笔记,WDP 积累了宝贵的资料。
WDP 的核心目标之一,便是深入分析海豚的发声方式及其在社会互动中的作用。基于数十年的水下录音,研究人员已能将一些基本行为与特定声音联系起来。例如,大西洋斑点海豚拥有独特的“标志性哨声”,如同人类的名字,帮助特定个体在水中找到彼此;而在争斗中,它们则会稳定地发出一种“嘎嘎”声。
然而,这是否意味着海豚拥有真正意义上的“语言”?WDP 的研究员丹妮斯·赫尔辛(Denise Herzing)坦言:“我们尚不清楚动物是否拥有‘词汇’。”理解海豚发声的结构和模式,是判断其交流复杂程度是否达到语言层级的关键一步。最终极的目标——倘若海豚语言真的存在——是能够与之“对话”。为了这个宏伟目标,WDP 创建了一个庞大且经过精细标记的数据集,而这,正是 Google 眼中训练生成式 AI 的理想“教材”。
DolphinGemma:为海豚“定制”的语言模型
于是,DolphinGemma 应运而生。当前消费科技领域无处不在的大语言模型(LLMs),本质上是模式预测器:输入信息,模型便预测下一个最可能的“词元”(token),不断重复直至生成完整输出。一个训练有素的模型,其输出可以非常接近人类的表达。Google 与 WDP 希望,DolphinGemma 能为海洋哺乳动物的声音做类似的事情。
DolphinGemma 基于 Google 的开源 Gemma 模型(与商业化的 Gemini 模型同源),并采用了一种名为 SoundStream 的音频技术,将海豚的发声“标记化”(tokenize),使其能被 AI 模型直接处理。Google 表示,他们利用 WDP 庞大的声学档案库对模型进行了训练。这是一个“音频输入-音频输出”的模型:输入一段海豚的声音,模型就像处理人类语言一样,预测接下来最可能出现的声音片段。如果其工作方式与标准 LLM 类似,那么这些被预测出的声音,或许正是其他海豚能够理解的“回应”。
研究团队希望 DolphinGemma 能帮助揭示海豚声音中极其复杂的模式,进而可能建立一套可供理解的“共享词汇表”。Google 指出,让人类去手动分析如此海量的数据,其耗费的时间将是惊人的。
从实验室到海洋:Pixel 手机助力前线研究
Google 在设计 DolphinGemma 时,充分考虑了 WDP 的实地研究需求。研究团队在野外使用 Pixel 手机,因此模型必须足够高效。在资源受限的智能手机上运行 AI 模型通常是一大挑战,模型越大、能力越强,对内存和处理能力的要求就越高。DolphinGemma 包含约 4 亿个参数,在 LLM 中属于相对较小的规模。
由于团队需要在水下观察野生海豚,他们需要紧凑便携的音频系统。过去几年,WDP 一直在使用由佐治亚理工学院开发的、基于 Pixel 6 的设备 CHAT(鲸豚类听觉增强遥测系统)。通过 CHAT,研究人员可以生成合成的海豚声音,尝试将其与特定物体关联,并监听海豚是否会发出模仿的回应。
据 Google 透露,WDP 团队将在 2025 年夏季的研究季用上基于新款 Pixel 9 的 CHAT 设备。升级后的设备将能同时运行深度学习模型和模板匹配算法,能力得到显著提升。不过,目前团队似乎并未打算将 DolphinGemma 生成的声音直接通过 CHAT 的音频传感器播放给海豚听。AI 的进展无疑会惠及 CHAT 的应用,但这仍是两个并行探索的研究方向。
没有人期望 DolphinGemma 和新版 CHAT 能立刻让人类流利地与海豚“交谈”,但假以时日,这套系统或许能为我们与这些智慧生物进行基础互动铺平道路。
与面向人类语言的 Gemma 模型一样,DolphinGemma 也将是一个开源项目。Google 计划于今年(2025 年)夏季向全球研究人员发布该模型。虽然 DolphinGemma 主要使用大西洋斑点海豚的声音进行训练,但 Google 暗示,通过微调,该模型将有望应用于其他鲸豚类物种的研究。人类倾听并理解海洋邻居心声的漫长探索,或许正因 AI 的介入,翻开了新的一页。
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: