模型发布综合自 6 个来源

六大平台同日力挺，谷歌开源模型合围生态成型

要点

• 六大平台2026年4月2日同步发布或优化Gemma 4支持
• Apache 2.0许可取代谷歌此前自定义的Gemma许可限制
• 26B MoE推理时仅激活38亿参数，效率提升4倍
• Docker单命令部署：docker model pull gemma4
• E2B模型可在Jetson Nano模块上近零延迟运行

参考来源 (6)

[1] 英伟达优化Gemma 4适配RTX与边缘设备 — NVIDIA AI Blog ↗
[2] 谷歌Gemma 4多模态端侧模型发布 — Hugging Face Blog ↗
[3] 谷歌发布Gemma 4开源模型 — Simon Willison's Weblog ↗
[4] llm-gemini插件新增Gemma 4支持 — Simon Willison's Weblog ↗
[5] 谷歌开源Gemma 4转用Apache 2.0许可 — Ars Technica AI ↗
[6] Gemma 4以OCI制品形式登陆Docker Hub — Docker Blog ↗

2026年4月2日，六家公司和开发者社区同时发布、宣布或优化支持Gemma 4——这是谷歌单次开源权重模型发布从未获得过的生态系统协同关注度。谷歌DeepMind发布旗舰模型，英伟达数小时内便发布RTX GPU、Jetson Orin Nano和DGX Spark的优化基准，Docker Hub将其列为OCI制品，Hugging Face托管权重，独立开发者Simon Willison已在llm-gemini CLI工具中完成集成。这不是自然发酵的病毒传播，而是经过精心编排的发布策略，旨在消除从下载到部署的每一个摩擦点。

Gemma 4提供四种配置：E2B（20亿有效参数，4.41GB）、E4B（40亿有效参数，6.33GB）、26B-A4B专家混合模型（17.99GB，推理时仅激活38亿参数）、以及31B Dense（19.89GB，上下文窗口256K）。"E"标记源于谷歌的层嵌入技术，为每个解码层配置专用嵌入表，以高效设备查询替代堆叠参数。26B MoE变体是技术亮点：推理时计算资源消耗与40亿参数密集模型相当，却能提供大模型级别的推理质量。

英伟达基准测试展示了实际性能上限。在GeForce RTX 5090上运行Q4_K_M量化权重，通过llama.cpp推理，26B MoE变体达到每秒180+tokens的生成速度，足够支撑交互式应用。E2B模型可在Jetson Nano模块上完全离线运行，延迟接近零。31B Dense模型以bfloat16格式未量化运行需要单块80GB H100 GPU（价值约20万美元），但量化后可部署在双RTX消费级硬件上。

许可协议的决策影响可能超过模型架构本身。谷歌弃用自定义Gemma许可，转向Apache 2.0协议，与Meta的Llama许可开放程度对标。开发者现在可以自由微调、商业化和再分发，无需谈判条款或担忧追溯限制。Docker的一命令部署——`docker model pull gemma4`——消除了继续使用闭源替代方案的最后借口：无专有认证、无定制工具链、无摩擦体验。

六方协同发布揭示了谷歌的战略逻辑。云端AI创造营收，但开源权重模型构建生态系统。当英伟达硬件路线图、Docker部署工具链、Hugging Face模型中心、独立开发者集成全部围绕Gemma 4对齐，谷歌交付的不只是一个模型——而是引力中心。竞争对手现在必须说服整个工具链转投，而非仅需匹配一个基准分数。