谷歌DeepMind在AI生物声学领域取得重大突破——Perch 2.0模型原本基于鸟鸣训练,却能通过迁移学习识别鲸鱼叫声。
这一发现颠覆了跨物种音频识别的传统认知。鸟类的啁啾、颤音和鸣叫在空气中传播,而鲸鱼的嗡嗡声、"生物弹拨"和哨声则在水中振动——两者在声音特征和传播介质上存在显著差异。然而Perch 2.0却成功跨越了这一鸿沟。
迁移学习的运作原理
Perch 2.0基于数百万条鸟类及陆生动物(包括两栖动物、昆虫和哺乳动物)的录音进行训练。谷歌DeepMind和谷歌研究院的研究人员随后应用迁移学习测试这个以鸟类为中心的模型是否能识别鲸鱼 vocalization。
谷歌研究院数据科学家Lauren Harrell解释称:"如果Perch 2.0在鲸鱼用例上表现良好,那就意味着我们无需构建一个全新的鲸鱼模型——可以直接在此基础上构建。"
该技术通过"回收所有已完成的训练,只需在最后为特定用例构建一个小模型"来大幅降低计算时间和实验成本。
评估与结果
团队在三个包含鲸鱼声音和其他水生噪音的海洋音频数据集上测试了Perch 2.0。他们将每个五秒音频窗口转换为频谱图——一种随时间显示频率上声音强度的可视化形式。这些图像被输入模型以生成保留最显著属性的嵌入向量。
随后,研究人员使用随机选择的嵌入向量(每个数据集最少4个、最多32个)训练了一个逻辑回归分类器。结果表明,即使仅使用少量嵌入向量也能获得良好性能,且性能随嵌入数量增加而提升。
对海洋研究的意义
谷歌从事鲸鱼生物声学研究已近十年,包括检测座头鲸叫声的算法,以及一个能够识别八个不同物种和其中两个物种多种叫声的更新的多物种鲸鱼模型。
Perch 2.0方法提供了更大的灵活性。Harrell指出:"我们总是不断发现新的叫声类型,总是不断了解水下声音的新知识。海洋中还有太多神秘的声音,不可能只用一种固定模型。"
该研究结果已发表于去年12月的NeurIPS非人类动物通信AI研讨会。