产品 综合自 1 个来源

Google发布离线转写应用 Gemma剑指Whisper王座

要点

  • Google发布基于Gemma开源模型的离线转写应用
  • 无需互联网,完全本地运行
  • 在隐私和定价上直接挑战Wispr Flow
  • Gemma剑指Whisper端侧语音AI地位
  • 目前仅登陆iOS,Android版本未定
  • 具体定价方案尚未公布
参考来源 (1)
  1. [1] Google推出基于Gemma的离线语音输入 — TechCrunch AI

你正坐在飞越太平洋的航班上,Wi-Fi收费12美元一小时,而你在落地前急需整理完采访录音。这曾经意味着要么掏腰包,要么干等落地。Google刚刚让这个问题变得不再存在。

这家科技巨头上周悄然在iOS平台发布了一款完全离线运行的转写应用,基于其Gemma开源模型打造。无需互联网,无需云端处理,没有订阅费悬在头顶。对于任何曾在飞机上、信号盲区,或单纯不想让医疗记录、心理咨询、董事会会议记录经过他人服务器的人来说,这改变了一切。

该应用直接对标Wispr Flow,这家专注转写的工具已积累了记者、医生和效率狂人的忠实用户群。Wispr Flow高级功能收费,处理依赖云端。Google的入局在两个维度形成冲击——默认离线运行,基于开源基础构建,任何人都可以审查和修改。这一动向对Whisper的意义同样深远:后者长期以来是开发者构建端侧语音识别时的默认选择。Gemma性能排行榜上持续攀升,Google此次部署表明其相信自家模型能够达到用户接受的实时转写质量水准。

技术面支撑这一判断。Gemma近期迭代在语音相关基准测试中表现强劲,端侧运行效率显著提升。本地转写意味着延迟持续保持低位且稳定——对于曾目睹云端服务在信号不佳时卡顿的用户,这点至关重要。这也意味着隐私倡导者获得胜利:敏感录音永不离开设备。

该iOS应用定价尚不明朗,Google未回应关于其作为独立产品还是捆绑服务推出的问询。这一点值得持续关注。若免费或捆绑至Android系统,将成为Google生态系统的有力差异化卖点。若定价与Wispr Flow相当,竞争将直指质量本身——届时Google需要在实际表现中赢得口碑,而非仅靠基准测试。

战略信号清晰:Google选择转写这一场景切入——在这里用户有具体、反复的需求,云端依赖曾是真实痛点——实际上是对Gemma的现实压力测试。转写不够光鲜,不像Gemini图像生成那样制造病毒传播。但恰恰是这类任务会影响用户切换生态的决策。若Gemma做好这一点,端侧AI优于云端AI的论断将更难被忽视。

应用已于上周悄然登陆iOS,支持英语,其他语言版本预计跟进。安卓用户暂时需要等待,这意味着Google的端侧AI实验目前运行在苹果硬件上。

0:00