Nemotron 3 Nano 30B:轻量却深度推理,专为高吞吐多智能体而生
采用 Mamba‑2 与 Transformer 混合架构、稀疏 MoE、1M 上下文窗口,并通过 SFT + RLVR + RLHF 打磨推理与工具链能力。 以 31.6B 总参数、单 token 激活约 3.6B,实现最高达 4 倍于上一代的推理效率。
上下文
1M tokens
吞吐提升
≈3.3×
vs Qwen3-30B @H200
推理控制
ON/OFF
可设思考预算
开放许可
NVIDIA OML
Hybrid Mamba-Transformer
MoE · 6/128 Expert 路由
上下文训练
512k CPT + 4k 混合
加速框架
vLLM / SGLang
推理控制
思考预算可配置
部署接口
OpenRouter · build.nvidia.com
TL;DR
模型亮点速览
架构
Mamba-2 + Transformer + 稀疏 MoE
混合序列建模叠加 GQA 注意力,MoE 路由激活 6/128 专家,兼顾长上下文与精细推理。
效率
高吞吐低延迟
单 H200 8K→16K 场景,吞吐约为 Qwen3‑30B 的 3.3×、GPT‑OSS‑20B 的 2.2×,高并发智能体不再卡顿。
推理控制
思考开关 + 预算
多轮任务支持 Reasoning ON/OFF,并可设置思考 token 上限,让成本可预测。
上下文
1,000,000 tokens
通过 512k CPT 与 4k 混合训练延伸上下文,适配长链条决策、长文档检索与持久记忆。
开放度
全栈开放
开放权重、数据、训练配方和代码;许可为 NVIDIA Open Model License,便于集成与复现。
适用场景
推理、工具、智能体
跨数学、代码、工具使用与多步代理任务保持高准确率,面向多智能体和高频调用。
性能与架构
用更小激活取得大模型推理力
Nemotron 3 Nano 以 31.6B 总参数、单 token 仅激活约 3.6B,通过 MoE 提升推理力同时保持轻量吞吐。
注意力
GQA + 思考预算
MoE 路由
6 / 128 专家
上下文
1M 长上下文
推理模式
Reasoning ON / OFF
适配关键场景
-
多智能体 / 高并发
轻量激活与高吞吐,降低并发成本,适合复杂分工和协作式 agent 体系。
-
长链条推理与工具调用
Reasoning ON 保存链式思考,OFF 保持对话简洁;配合思考预算防止 token 失控。
-
检索增强 / 持久记忆
1M 上下文覆盖多文档、多跳信息汇聚,支持研发、法律、运维等长文档场景。
数据与训练
从 25T 预训练到大规模 RL 的全链路开放
预训练、长上下文扩展、SFT、RLVR、RLHF 全流程开放数据与配方,开发者可复现与定制。
预训练
25 万亿 token 语料,其中 2.5T 为新增 Common Crawl;阶段一覆盖多样长尾,阶段二用高质量语料收敛。
新开源数据
额外 3T token
更密集的代码、数学与推理合成数据。
长上下文扩展
512k 连续预训练(CPT)与 4k 混合,保留短文本精度的同时获得 1M 窗口;合成数据覆盖多跳检索、跨文档聚合与长程推理。
训练信号
多文档 · 长期记忆
防止长程衰减并保持短序列表现。
后训练
SFT + RLVR + RLHF 三阶段:跨数学、代码、工具、结构化输出的多环境 RL,辅以 GenRM 带来的对话奖励。
SFT 数据
1300 万样本
RL 环境
10+ · 90 万任务
安全追踪
~1.1 万 agent traces
奖励模型
GenRM (GRPO)
NeMo Gym
为 RL 而建的开放体操房
针对多步 rollout、工具易碎、规模化采样难等痛点,NeMo Gym 统一环境、数据与代码,让 RL 训练走向大众。
解决的难题
-
多步 rollout 协同困难 → 提供同步 GRPO 管线,跨环境统一调度。
-
工具集成脆弱 → 标准化工具与训练循环接口,减少逻辑冲突。
-
高质量环境闭源 → 开源数学、代码、日程等 10+ 环境与 90 万任务。
开发者收益
-
即拿即用的 RL 环境,便捷复现 Nemotron 3 的 RLVR 与 RLHF 配方。
-
开放的追踪与安全数据,提前诊断工具使用中的风险与漂移。
-
与 vLLM / SGLang 等推理框架兼容,便于从训练到部署的一体化交付。
开放资源