核心差异
- 吞吐:Nemotron 3 Nano 30B 在 H200 上约 3.3× Qwen3-30B(8K→16K)。
- 上下文:Nemotron 1M vs Qwen3 默认 32k/128k 级别。
- 推理控制:Reasoning ON/OFF + 预算 vs 常规对话模式。
模型对比
Nemotron 3 Nano 30B 在 H200 上吞吐约 3.3× Qwen3-30B,提供 1M 上下文与 Reasoning ON/OFF + 预算控制,适合多智能体和长链条任务。
Nemotron 使用稀疏 MoE 与较低活跃参数,降低计算量。
Qwen3 也有扩展版,但默认窗口较短;Nemotron 开箱即 1M。
API 兼容 vLLM/SGLang,保持 prompt 与工具 schema 基本可直接切换。