上手指南

如何运行 Nemotron 3：本地与云端部署指南

一步启动 Nemotron 3：vLLM/SGLang 部署命令、模型下载、硬件建议与高并发优化，覆盖本地与云端环境。

how to run nemotron 3nemotron 3 部署vLLM nemotron3SGLang nemotronNemotron 3 H200 推理

快速启动（vLLM）

准备 GPU：建议 H100/H200 单卡或多卡，80GB 显存优先。
下载权重：`huggingface-cli download nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16`
启动：`python -m vllm.entrypoints.api_server --model <path> --max-model-len 1024000 --enforce-eager`

最少需要什么硬件？

建议至少 80GB 显存的 H100/H200，或多卡张量并行。

支持量化吗？

可使用 fp8/awq 等量化方案降低显存占用，但需验证精度影响。

最大上下文怎么配置？

在 vLLM/SGLang 设置 `--max-model-len 1024000`，并确保显存充足。