N3

Nemotron

下一代开放智能模型

模型参数

Nemotron 3 Nano 30B 模型规格与 1M 上下文

Nemotron 3 Nano 30B:混合 Mamba-Transformer 稀疏 MoE,6/128 专家路由,1M 上下文窗口,约 3.6B 激活参数,支持 Reasoning ON/OFF 与思考预算,适配多智能体与工具调用。

获取权重
Nemotron 3 Nano 参数Nemotron 3 1M contextMamba Transformer MoE6/128 专家长上下文模型

核心规格

  • 架构:Mamba‑2 + Transformer + 稀疏 MoE(6/128 专家路由)
  • 总参数:31.6B,激活参数约 3.6B / token
  • 上下文:1,000,000 tokens(512k CPT + 4k 混合训练)
  • 注意力:GQA + 思考预算,可配置 Reasoning ON/OFF
  • 输出:BF16 权重,兼容 vLLM / SGLang 部署

适用场景

  • 长链条推理与工具调用,降低多步任务成本
  • 多智能体高并发调用,提升吞吐与稳定性
  • 长文档检索 / 法务 / 研发报告等 1M 上下文场景

开放与许可

  • 权重、数据、训练配方开放,便于复现与二次开发
  • 许可:NVIDIA Open Model License (OML),支持商用集成

常见问题

Nemotron 3 Nano 30B 的上下文是多少?

默认 1,000,000 tokens,通过 512k 连续预训练与 4k 混合训练获得。

是否支持 Reasoning 开关?

支持 Reasoning ON/OFF,并可设置思考 token 预算,控制成本和隐私。

推理部署推荐哪种框架?

官方兼容 vLLM 与 SGLang,可在 H200 等 GPU 上获得高吞吐。