性能对比

Nemotron 3 基准性能：吞吐、延迟与对比

Nemotron 3 在 H200 上 8K→16K 吞吐约为 Qwen3-30B 的 3.3×，激活参数仅 ~3.6B/token，适合高并发与长上下文。

nemotron 3 benchmarksnemotron 3 throughputqwen3 对比h200 nemotronnemotron latency

关键指标

吞吐提升来自哪里？

稀疏 MoE 6/128 + 3.6B 激活参数，降低每 token 计算量。

上下文 1M 对性能影响大吗？

在长上下文场景，合理控制 max_tokens 和 batch，可保持稳定吞吐。

是否有公开基准脚本？

可基于 vLLM/SGLang 官方 benchmark 脚本复现，调整 max length 即可。