开发工具综合自 2 个来源

Ollama升级MLX M系列Mac本地AI提速

要点

• Ollama v0.19新增Apple Silicon原生MLX推理支持
• MLX利用统一内存消除CPU-GPU传输瓶颈
• OpenClaw项目2026年3月GitHub星标突破30万
• NVFP4压缩格式同步上线，支持英伟达硬件

参考来源 (2)

[1] Ollama新增Apple MLX加速，本地AI运行更快 — Ars Technica AI ↗
[2] Ollama v0.19实现苹果芯片本地加速 — Product Hunt ↗

在Mac上运行大模型的开发者终于有了停止支付云端GPU费用的理由。Ollama v0.19于4月1日发布，原生支持苹果的MLX框架，带来早期测试者所描述的M系列芯片性能质的飞跃。

MLX是苹果专为Apple Silicon设计的开源机器学习库。不同于传统CPU推理或通用GPU后端，MLX直接利用苹果的统一内存架构——这正是Mac上训练速度优于同类硬件的原因。当模型通过MLX运行时，数据永远不会离开神经引擎和CPU共享的内存池，消除了本地推理历史上体验迟缓的核心瓶颈。

对开发者而言，这改变了何时选择云端的考量。延迟改善相当显著，交互式工作流——AI辅助调试、实时编码辅助、提示词快速迭代——现在感觉原生而非勉强嫁接。一位正在构建检索增强生成管道的开发者告诉Ars Technica，他们现在可以在M3 MacBook Pro上完整运行70亿参数模型，无需看着风扇加速。

时机恰到好处，因为本地AI的爱好者生态已经爆发。开源模型微调项目OpenClaw在3月突破30万GitHub星标——这一增速令连见多识广的观察者都始料未及。该项目在中国的成功——云端API成本叠加本地算力优势——反映了一个更广泛的转变：开发者想要的是对推理基础设施的控制权，而不仅仅是访问权。

Ollama v0.19还改进了缓存机制，并实验性支持英伟达的NVFP4压缩格式，针对的是不同市场的用户——希望在强大CUDA硬件上获得内存效率提升的开发者。但这次的头条功能是MLX。随着Apple Silicon已装机超过一亿台Mac，本地与云端的差距正在缩小，2026年的核心问题不再是是否在本地运行模型。而是选择在哪台机器上运行。