开源综合自 2 个来源

微软开源语音AI剑指Gemini闭源生态

要点

• M5 Max MacBook Pro上实测每秒38.5 token
• MIT许可证解除商业部署限制
• 内置说话人分离功能绕过Gemini每分钟0.006美元收费
• 4-bit MLX版本仅5.71GB，可在苹果芯片本地运行
• 处理音频成本从API积分变为电费

参考来源 (2)

[1] 微软开源VibeVoice前沿语音AI模型 — TechCrunch AI ↗
[2] 微软开源VibeVoice语音模型，支持说话人分离 — Simon Willison's Weblog ↗

谷歌对Gemini语音转录按分钟收费，微软却把同级别模型扔进了开源社区——MIT许可证，无配额限制，无需API密钥。

VibeVoice于2026年1月发布，直到本周才引发开发者社区关注。这个17.3GB的模型将语音识别和说话人分离（diarization）两项能力集成在一起。说话人分离——即区分会议录音中"发言人1"和"发言人2"——本是谷歌Gemini的付费功能。微软直接将其作为开源模型的基础能力开源，任何人都可以下载、微调或本地部署。

技术博主Simon Willison在128GB内存的M5 Max MacBook Pro上测试了4-bit MLX量化版本（仅5.71GB）。处理一小时播客耗时8分45秒，生成阶段达到每秒38.5个token，峰值内存占用30.44GB（预处理阶段曾飙升至61.5GB）。

实际使用仅需一行命令。通过`--max-tokens`参数控制输出长度——默认8192只能覆盖约25分钟音频，需设为32768才能完整处理长录音。输出直接包含说话人标签，无需后续处理管道。对开发者而言，这意味着构建会议纪要、播客工具或通话分析系统时，不再依赖云端API。

微软开源AI产品线正在快速扩张：语言模型有Phi系列，多模态有Magma，音频领域则推出VibeVoice。策略逻辑清晰——找出谷歌通过Gemini收费的能力，用宽松许可证复制，让开发者社区共同优化。

GitHub显示该项目获得302个star、166条评论。对于垂类模型，这个热度已属可观。语音AI从业者的反馈务实：可用、消费级硬件能跑、商用部署无许可证障碍。

真正的竞争不在token生成速度，而在于每分钟转录的成本。以每秒38.5 token的速度本地推理，边际成本只剩电费。对于 Transcription 赛道的创业公司，这是谷歌难以用闭源策略对等的结构性优势。