开发工具 综合自 2 个来源

Ollama升级MLX M系列Mac本地AI提速

要点

  • Ollama v0.19新增Apple Silicon原生MLX推理支持
  • MLX利用统一内存消除CPU-GPU传输瓶颈
  • OpenClaw项目2026年3月GitHub星标突破30万
  • NVFP4压缩格式同步上线,支持英伟达硬件
参考来源 (2)
  1. [1] Ollama新增Apple MLX加速,本地AI运行更快 — Ars Technica AI
  2. [2] Ollama v0.19实现苹果芯片本地加速 — Product Hunt

在Mac上运行大模型的开发者终于有了停止支付云端GPU费用的理由。Ollama v0.19于4月1日发布,原生支持苹果的MLX框架,带来早期测试者所描述的M系列芯片性能质的飞跃。

MLX是苹果专为Apple Silicon设计的开源机器学习库。不同于传统CPU推理或通用GPU后端,MLX直接利用苹果的统一内存架构——这正是Mac上训练速度优于同类硬件的原因。当模型通过MLX运行时,数据永远不会离开神经引擎和CPU共享的内存池,消除了本地推理历史上体验迟缓的核心瓶颈。

对开发者而言,这改变了何时选择云端的考量。延迟改善相当显著,交互式工作流——AI辅助调试、实时编码辅助、提示词快速迭代——现在感觉原生而非勉强嫁接。一位正在构建检索增强生成管道的开发者告诉Ars Technica,他们现在可以在M3 MacBook Pro上完整运行70亿参数模型,无需看着风扇加速。

时机恰到好处,因为本地AI的爱好者生态已经爆发。开源模型微调项目OpenClaw在3月突破30万GitHub星标——这一增速令连见多识广的观察者都始料未及。该项目在中国的成功——云端API成本叠加本地算力优势——反映了一个更广泛的转变:开发者想要的是对推理基础设施的控制权,而不仅仅是访问权。

Ollama v0.19还改进了缓存机制,并实验性支持英伟达的NVFP4压缩格式,针对的是不同市场的用户——希望在强大CUDA硬件上获得内存效率提升的开发者。但这次的头条功能是MLX。随着Apple Silicon已装机超过一亿台Mac,本地与云端的差距正在缩小,2026年的核心问题不再是是否在本地运行模型。而是选择在哪台机器上运行。

0:00