关键指标
- 吞吐:单 H200,8K→16K 提升约 3.3× vs Qwen3-30B
- 激活:~3.6B / token,约 11% 活跃参数
- 上下文:1M 窗口,长文档与多轮推理稳定
性能对比
Nemotron 3 在 H200 上 8K→16K 吞吐约为 Qwen3-30B 的 3.3×,激活参数仅 ~3.6B/token,适合高并发与长上下文。
稀疏 MoE 6/128 + 3.6B 激活参数,降低每 token 计算量。
在长上下文场景,合理控制 max_tokens 和 batch,可保持稳定吞吐。
可基于 vLLM/SGLang 官方 benchmark 脚本复现,调整 max length 即可。