模型发布 综合自 6 个来源

六大平台同日力挺,谷歌开源模型合围生态成型

要点

  • 六大平台2026年4月2日同步发布或优化Gemma 4支持
  • Apache 2.0许可取代谷歌此前自定义的Gemma许可限制
  • 26B MoE推理时仅激活38亿参数,效率提升4倍
  • Docker单命令部署:docker model pull gemma4
  • E2B模型可在Jetson Nano模块上近零延迟运行
参考来源 (6)
  1. [1] 英伟达优化Gemma 4适配RTX与边缘设备 — NVIDIA AI Blog
  2. [2] 谷歌Gemma 4多模态端侧模型发布 — Hugging Face Blog
  3. [3] 谷歌发布Gemma 4开源模型 — Simon Willison's Weblog
  4. [4] llm-gemini插件新增Gemma 4支持 — Simon Willison's Weblog
  5. [5] 谷歌开源Gemma 4转用Apache 2.0许可 — Ars Technica AI
  6. [6] Gemma 4以OCI制品形式登陆Docker Hub — Docker Blog

2026年4月2日,六家公司和开发者社区同时发布、宣布或优化支持Gemma 4——这是谷歌单次开源权重模型发布从未获得过的生态系统协同关注度。谷歌DeepMind发布旗舰模型,英伟达数小时内便发布RTX GPU、Jetson Orin Nano和DGX Spark的优化基准,Docker Hub将其列为OCI制品,Hugging Face托管权重,独立开发者Simon Willison已在llm-gemini CLI工具中完成集成。这不是自然发酵的病毒传播,而是经过精心编排的发布策略,旨在消除从下载到部署的每一个摩擦点。

Gemma 4提供四种配置:E2B(20亿有效参数,4.41GB)、E4B(40亿有效参数,6.33GB)、26B-A4B专家混合模型(17.99GB,推理时仅激活38亿参数)、以及31B Dense(19.89GB,上下文窗口256K)。"E"标记源于谷歌的层嵌入技术,为每个解码层配置专用嵌入表,以高效设备查询替代堆叠参数。26B MoE变体是技术亮点:推理时计算资源消耗与40亿参数密集模型相当,却能提供大模型级别的推理质量。

英伟达基准测试展示了实际性能上限。在GeForce RTX 5090上运行Q4_K_M量化权重,通过llama.cpp推理,26B MoE变体达到每秒180+tokens的生成速度,足够支撑交互式应用。E2B模型可在Jetson Nano模块上完全离线运行,延迟接近零。31B Dense模型以bfloat16格式未量化运行需要单块80GB H100 GPU(价值约20万美元),但量化后可部署在双RTX消费级硬件上。

许可协议的决策影响可能超过模型架构本身。谷歌弃用自定义Gemma许可,转向Apache 2.0协议,与Meta的Llama许可开放程度对标。开发者现在可以自由微调、商业化和再分发,无需谈判条款或担忧追溯限制。Docker的一命令部署——`docker model pull gemma4`——消除了继续使用闭源替代方案的最后借口:无专有认证、无定制工具链、无摩擦体验。

六方协同发布揭示了谷歌的战略逻辑。云端AI创造营收,但开源权重模型构建生态系统。当英伟达硬件路线图、Docker部署工具链、Hugging Face模型中心、独立开发者集成全部围绕Gemma 4对齐,谷歌交付的不只是一个模型——而是引力中心。竞争对手现在必须说服整个工具链转投,而非仅需匹配一个基准分数。

0:00