阿姆斯特丹KubeCon Europe现场,NVIDIA将一块运行在Linux内核中的基础设施控制权交给了云原生计算基金会。GPU动态资源分配驱动的捐赠被包装成标准的开源贡献叙事。但策略显然另有深意。
这不是施舍。Kubernetes已成为AI基础设施的操作系统,而上层的抽象层正在威胁硬件的commoditization。NVIDIA选择在上游埋设接口——谁控制这个junction,谁就控制了工作负载的调度效率和硬件门槛。向上游捐赠驱动,NVIDIA消除了GPU与Kubernetes之间最后的对接摩擦。这不是拱手相让,是将自家硬件焊入云原生堆栈的核心层。
技术内容货真价实。驱动支持多实例GPU和多进程服务,允许将单卡划分为多个隔离计算单元。原生Multi-Node NVLink支持意味着Kubernetes可直接调度跨GPU集群的分布式训练任务,无需定制插件。这些是开发者真实需要的能力——但它们同时是只有NVIDIA硬件才能充分发挥的特性。
CNCF首席技术官Chris Aniszczyk称这是"开源Kubernetes和AI基础设施的重要里程碑"。他没说错里程碑。但他可能低估了里程碑发起方的意图。当一家占据数据中心GPU市场八成以上份额的公司,将每个Kubernetes节点与GPU对话的内核接口向上游捐赠时,这并非在拉平赛场,而是在将赛场边界重新划定,让中央草坪更加肥沃。
Kata Containers合作进一步印证了这一模式。机密计算场景下的GPU支持,将硬件加速延伸至内存隔离的轻量级虚拟机。这是市场真正需要的安全能力,也是让NVIDIA GPU成为机密AI管线天然选择的机制——隔离运行在NVIDIA硬件上,而非中性抽象层。
多年来构建可移植工作负载的开发者需要看清正在发生的事。主导供应商的开源贡献本质上非善非恶,但绝非中立。每一条将NVIDIA GPU视为规范案例的代码,每一个假设NVLink拓扑的调度决策,每一层构建在NVIDIA机密计算栈上的安全原语——都会累积成一套比进入时更难离开的生态系统。
DRA驱动将在Kubernetes治理下维护。AMD、英特尔和开源社区的贡献者可以提出修改。但定义驱动主要用例的硬件归属于一家公司。这种不对称性不会因为仓库迁移到另一个GitHub组织就消失。
NVIDIA声称目标是"提高透明度和效率"。这些词是真话,也是残缺的真话。被优化的效率属于NVIDIA GPU基础设施。被提供的透明度是进入一个更深依赖的可见度。