模型发布 综合自 3 个来源

英伟达30B参数模型九倍效率碾压六项基准

要点

  • 30B-A3B混合专家架构,吞吐量较竞品提升9倍
  • 视频音频图像文本单次推理完成处理
  • 斩获文档智能与多模态理解六项基准测试榜首
  • CRADIO v4-H视觉编码器整合Parakeet语音编码器
  • 128K上下文窗口支撑长视频跨模态推理
参考来源 (3)
  1. [1] NVIDIA开源统一多模态模型Nemotron 3 Nano Omni — NVIDIA AI Blog
  2. [2] 英伟达发布Nemotron 3多模态模型 — Hugging Face Blog
  3. [3] NVIDIA 30B参数多模态模型上线SageMaker — AWS Machine Learning Blog

一个AI智能体能否同时观看屏幕、倾听客服通话、阅读PDF文档?直到今天,这仍是奢望。大多数代理系统需要拼凑视觉、语言、语音三个独立模型,数据在模型间来回传递,不仅割裂上下文,还造成算力浪费。英伟达新发布的Nemotron 3 Nano Omni终结了这一困境。

4月28日发布的这款开源多模态模型,可在同一推理过程中处理视频、音频、图像和文本,无需跨模型路由、无需上下文切换、无需累积延迟。它采用30B-A3B混合专家架构,每次前向传播仅激活30亿参数,却能调用全部300亿参数,实现比同类开源全模态模型高出9倍的吞吐量。

架构整合三大专业编码器:CRADIO v4-H负责视觉理解,处理屏幕、文档、图表和视频帧;Parakeet处理音频,涵盖通话录音、语音备忘、环境声音;Mamba2 Transformer主干的128K上下文窗口支撑跨模态推理,统一生成文本输出。

法国虚拟助手H Company已将此模型投入生产部署。CEO高蒂耶·克卢瓦表示:"构建实用智能体时,模型解析屏幕不能等待数秒。基于Nemotron 3 Nano Omni,我们的智能体能够快速解读全高清屏幕录制,这在以往并不现实。"

该模型在文档智能与多模态理解的六项基准测试中均位居榜首。企业用户涵盖鸿海、Palantir和DocuSign,戴尔、甲骨文、印孚瑟斯正在评估中。模型已在亚马逊SageMaker JumpStart上以FP8精度运行,发布首日即登陆Hugging Face及25个以上平台。

Nemotron 3 Nano Omni将曾经的编排噩梦压缩为单次模型调用。开发者无需再同步视觉、音频、语言三个模型,也无需承担三次独立推理的费用。碎片化的代价是延迟,统一的代价是精度——这一权衡公式,如今看来已被改写。

0:00