核心规格
- 架构:Mamba‑2 + Transformer + 稀疏 MoE(6/128 专家路由)
- 总参数:31.6B,激活参数约 3.6B / token
- 上下文:1,000,000 tokens(512k CPT + 4k 混合训练)
- 注意力:GQA + 思考预算,可配置 Reasoning ON/OFF
- 输出:BF16 权重,兼容 vLLM / SGLang 部署
模型参数
Nemotron 3 Nano 30B:混合 Mamba-Transformer 稀疏 MoE,6/128 专家路由,1M 上下文窗口,约 3.6B 激活参数,支持 Reasoning ON/OFF 与思考预算,适配多智能体与工具调用。
默认 1,000,000 tokens,通过 512k 连续预训练与 4k 混合训练获得。
支持 Reasoning ON/OFF,并可设置思考 token 预算,控制成本和隐私。
官方兼容 vLLM 与 SGLang,可在 H200 等 GPU 上获得高吞吐。