模型发布综合自 3 个来源

英伟达30B参数模型九倍效率碾压六项基准

要点

参考来源 (3)

一个AI智能体能否同时观看屏幕、倾听客服通话、阅读PDF文档？直到今天，这仍是奢望。大多数代理系统需要拼凑视觉、语言、语音三个独立模型，数据在模型间来回传递，不仅割裂上下文，还造成算力浪费。英伟达新发布的Nemotron 3 Nano Omni终结了这一困境。

4月28日发布的这款开源多模态模型，可在同一推理过程中处理视频、音频、图像和文本，无需跨模型路由、无需上下文切换、无需累积延迟。它采用30B-A3B混合专家架构，每次前向传播仅激活30亿参数，却能调用全部300亿参数，实现比同类开源全模态模型高出9倍的吞吐量。

架构整合三大专业编码器：CRADIO v4-H负责视觉理解，处理屏幕、文档、图表和视频帧；Parakeet处理音频，涵盖通话录音、语音备忘、环境声音；Mamba2 Transformer主干的128K上下文窗口支撑跨模态推理，统一生成文本输出。

法国虚拟助手H Company已将此模型投入生产部署。CEO高蒂耶·克卢瓦表示："构建实用智能体时，模型解析屏幕不能等待数秒。基于Nemotron 3 Nano Omni，我们的智能体能够快速解读全高清屏幕录制，这在以往并不现实。"

该模型在文档智能与多模态理解的六项基准测试中均位居榜首。企业用户涵盖鸿海、Palantir和DocuSign，戴尔、甲骨文、印孚瑟斯正在评估中。模型已在亚马逊SageMaker JumpStart上以FP8精度运行，发布首日即登陆Hugging Face及25个以上平台。

Nemotron 3 Nano Omni将曾经的编排噩梦压缩为单次模型调用。开发者无需再同步视觉、音频、语言三个模型，也无需承担三次独立推理的费用。碎片化的代价是延迟，统一的代价是精度——这一权衡公式，如今看来已被改写。