N3

Nemotron

下一代开放智能模型

性能对比

Nemotron 3 基准性能:吞吐、延迟与对比

Nemotron 3 在 H200 上 8K→16K 吞吐约为 Qwen3-30B 的 3.3×,激活参数仅 ~3.6B/token,适合高并发与长上下文。

nemotron 3 benchmarksnemotron 3 throughputqwen3 对比h200 nemotronnemotron latency

关键指标

  • 吞吐:单 H200,8K→16K 提升约 3.3× vs Qwen3-30B
  • 激活:~3.6B / token,约 11% 活跃参数
  • 上下文:1M 窗口,长文档与多轮推理稳定

测试设置

  • 硬件:H200,fp16/bf16,开启 GQA 与 KV cache
  • 软件:vLLM / SGLang,batch 调优以提升并发

最佳实践

  • 短对话开启 Reasoning OFF,减少思考 token 开销
  • 长链条任务使用思考预算上限,防止爆 token
  • 调整 batch size 与并行度,观察 p99 延迟再扩容

常见问题

吞吐提升来自哪里?

稀疏 MoE 6/128 + 3.6B 激活参数,降低每 token 计算量。

上下文 1M 对性能影响大吗?

在长上下文场景,合理控制 max_tokens 和 batch,可保持稳定吞吐。

是否有公开基准脚本?

可基于 vLLM/SGLang 官方 benchmark 脚本复现,调整 max length 即可。