快速启动(vLLM)
- 准备 GPU:建议 H100/H200 单卡或多卡,80GB 显存优先。
- 下载权重:`huggingface-cli download nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16`
- 启动:`python -m vllm.entrypoints.api_server --model <path> --max-model-len 1024000 --enforce-eager`
上手指南
一步启动 Nemotron 3:vLLM/SGLang 部署命令、模型下载、硬件建议与高并发优化,覆盖本地与云端环境。
建议至少 80GB 显存的 H100/H200,或多卡张量并行。
可使用 fp8/awq 等量化方案降低显存占用,但需验证精度影响。
在 vLLM/SGLang 设置 `--max-model-len 1024000`,并确保显存充足。