N3

Nemotron

下一代开放智能模型

上手指南

如何运行 Nemotron 3:本地与云端部署指南

一步启动 Nemotron 3:vLLM/SGLang 部署命令、模型下载、硬件建议与高并发优化,覆盖本地与云端环境。

查看 vLLM 命令
how to run nemotron 3nemotron 3 部署vLLM nemotron3SGLang nemotronNemotron 3 H200 推理

快速启动(vLLM)

  • 准备 GPU:建议 H100/H200 单卡或多卡,80GB 显存优先。
  • 下载权重:`huggingface-cli download nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16`
  • 启动:`python -m vllm.entrypoints.api_server --model <path> --max-model-len 1024000 --enforce-eager`

SGLang 部署

  • 命令:`sglang serve --model-path <path> --max-length 1024000 --tp 2`
  • 建议开启张量并行(TP)与 KV cache 压缩,以提升并发吞吐。

高并发优化

  • 开启 Reasoning OFF 处理非推理对话,降低 token 消耗。
  • 控制 `--max-num-batched-tokens`,在长上下文下保持响应稳定。
  • 监控延迟:优先优化 prompt 长度与 budget,再调节并行度。

常见排错

  • 显存不足:降低 `--max-model-len` 或开启量化(如 fp8/awq)。
  • 吞吐低:检查 GPU 利用率,确保网络存储不成为瓶颈。
  • 响应截断:确认路由层 max_tokens 和 budget 设置。

常见问题

最少需要什么硬件?

建议至少 80GB 显存的 H100/H200,或多卡张量并行。

支持量化吗?

可使用 fp8/awq 等量化方案降低显存占用,但需验证精度影响。

最大上下文怎么配置?

在 vLLM/SGLang 设置 `--max-model-len 1024000`,并确保显存充足。