谷歌对Gemini语音转录按分钟收费,微软却把同级别模型扔进了开源社区——MIT许可证,无配额限制,无需API密钥。
VibeVoice于2026年1月发布,直到本周才引发开发者社区关注。这个17.3GB的模型将语音识别和说话人分离(diarization)两项能力集成在一起。说话人分离——即区分会议录音中"发言人1"和"发言人2"——本是谷歌Gemini的付费功能。微软直接将其作为开源模型的基础能力开源,任何人都可以下载、微调或本地部署。
技术博主Simon Willison在128GB内存的M5 Max MacBook Pro上测试了4-bit MLX量化版本(仅5.71GB)。处理一小时播客耗时8分45秒,生成阶段达到每秒38.5个token,峰值内存占用30.44GB(预处理阶段曾飙升至61.5GB)。
实际使用仅需一行命令。通过`--max-tokens`参数控制输出长度——默认8192只能覆盖约25分钟音频,需设为32768才能完整处理长录音。输出直接包含说话人标签,无需后续处理管道。对开发者而言,这意味着构建会议纪要、播客工具或通话分析系统时,不再依赖云端API。
微软开源AI产品线正在快速扩张:语言模型有Phi系列,多模态有Magma,音频领域则推出VibeVoice。策略逻辑清晰——找出谷歌通过Gemini收费的能力,用宽松许可证复制,让开发者社区共同优化。
GitHub显示该项目获得302个star、166条评论。对于垂类模型,这个热度已属可观。语音AI从业者的反馈务实:可用、消费级硬件能跑、商用部署无许可证障碍。
真正的竞争不在token生成速度,而在于每分钟转录的成本。以每秒38.5 token的速度本地推理,边际成本只剩电费。对于 Transcription 赛道的创业公司,这是谷歌难以用闭源策略对等的结构性优势。