在Mac上运行大模型的开发者终于有了停止支付云端GPU费用的理由。Ollama v0.19于4月1日发布,原生支持苹果的MLX框架,带来早期测试者所描述的M系列芯片性能质的飞跃。
MLX是苹果专为Apple Silicon设计的开源机器学习库。不同于传统CPU推理或通用GPU后端,MLX直接利用苹果的统一内存架构——这正是Mac上训练速度优于同类硬件的原因。当模型通过MLX运行时,数据永远不会离开神经引擎和CPU共享的内存池,消除了本地推理历史上体验迟缓的核心瓶颈。
对开发者而言,这改变了何时选择云端的考量。延迟改善相当显著,交互式工作流——AI辅助调试、实时编码辅助、提示词快速迭代——现在感觉原生而非勉强嫁接。一位正在构建检索增强生成管道的开发者告诉Ars Technica,他们现在可以在M3 MacBook Pro上完整运行70亿参数模型,无需看着风扇加速。
时机恰到好处,因为本地AI的爱好者生态已经爆发。开源模型微调项目OpenClaw在3月突破30万GitHub星标——这一增速令连见多识广的观察者都始料未及。该项目在中国的成功——云端API成本叠加本地算力优势——反映了一个更广泛的转变:开发者想要的是对推理基础设施的控制权,而不仅仅是访问权。
Ollama v0.19还改进了缓存机制,并实验性支持英伟达的NVFP4压缩格式,针对的是不同市场的用户——希望在强大CUDA硬件上获得内存效率提升的开发者。但这次的头条功能是MLX。随着Apple Silicon已装机超过一亿台Mac,本地与云端的差距正在缩小,2026年的核心问题不再是是否在本地运行模型。而是选择在哪台机器上运行。