一个AI智能体能否同时观看屏幕、倾听客服通话、阅读PDF文档?直到今天,这仍是奢望。大多数代理系统需要拼凑视觉、语言、语音三个独立模型,数据在模型间来回传递,不仅割裂上下文,还造成算力浪费。英伟达新发布的Nemotron 3 Nano Omni终结了这一困境。
4月28日发布的这款开源多模态模型,可在同一推理过程中处理视频、音频、图像和文本,无需跨模型路由、无需上下文切换、无需累积延迟。它采用30B-A3B混合专家架构,每次前向传播仅激活30亿参数,却能调用全部300亿参数,实现比同类开源全模态模型高出9倍的吞吐量。
架构整合三大专业编码器:CRADIO v4-H负责视觉理解,处理屏幕、文档、图表和视频帧;Parakeet处理音频,涵盖通话录音、语音备忘、环境声音;Mamba2 Transformer主干的128K上下文窗口支撑跨模态推理,统一生成文本输出。
法国虚拟助手H Company已将此模型投入生产部署。CEO高蒂耶·克卢瓦表示:"构建实用智能体时,模型解析屏幕不能等待数秒。基于Nemotron 3 Nano Omni,我们的智能体能够快速解读全高清屏幕录制,这在以往并不现实。"
该模型在文档智能与多模态理解的六项基准测试中均位居榜首。企业用户涵盖鸿海、Palantir和DocuSign,戴尔、甲骨文、印孚瑟斯正在评估中。模型已在亚马逊SageMaker JumpStart上以FP8精度运行,发布首日即登陆Hugging Face及25个以上平台。
Nemotron 3 Nano Omni将曾经的编排噩梦压缩为单次模型调用。开发者无需再同步视觉、音频、语言三个模型,也无需承担三次独立推理的费用。碎片化的代价是延迟,统一的代价是精度——这一权衡公式,如今看来已被改写。