N3

Nemotron

下一代开放智能模型

API & SDK

Nemotron 3 API 调用方式与示例

通过 vLLM、SGLang 或 OpenRouter 访问 Nemotron 3,提供示例请求、思考预算控制与多智能体调用建议。

nemotron 3 apinemotron openrouternemotron 3 sglang apinemotron 3 budgetnemotron tool calling

REST 示例(vLLM)

  • POST `/generate` with JSON: `{ "prompt": "<text>", "max_tokens": 256 }`
  • 思考预算:传入 `extra_stop_tokens` 或在 prompt 中声明 budget。
  • 流式:使用 `Accept: text/event-stream` 获取 SSE 片段。

SGLang 调用

  • Python: `from sglang import client; client.chat(model="nemotron3", messages=[...])`
  • 工具调用:在 schema 中声明函数,Reasoning ON 时保留链式思考。

OpenRouter / build.nvidia.com

  • OpenRouter: `model: nvidia/nemotron-3-nano-30b-instruct`,支持思考预算控制。
  • 企业内网:建议使用 build.nvidia.com 提供的托管推理服务。

多智能体调用建议

  • 高并发时优先开启 Reasoning OFF,必要时按任务切换 ON。
  • 统一工具 schema,避免多 agent 间的函数格式差异。
  • 监控 token 使用,结合 budget 日志优化成本。

常见问题

API 是否支持流式输出?

是,vLLM 与 OpenRouter 均支持 SSE 流式返回。

如何控制思考预算?

在 prompt 或 request 中声明最大思考 token,并结合 Reasoning ON/OFF 切换。

工具调用是否开箱可用?

支持函数调用/工具调用,建议提供结构化 schema 并限制函数数量以控成本。