REST 示例(vLLM)
- POST `/generate` with JSON: `{ "prompt": "<text>", "max_tokens": 256 }`
- 思考预算:传入 `extra_stop_tokens` 或在 prompt 中声明 budget。
- 流式:使用 `Accept: text/event-stream` 获取 SSE 片段。
API & SDK
通过 vLLM、SGLang 或 OpenRouter 访问 Nemotron 3,提供示例请求、思考预算控制与多智能体调用建议。
是,vLLM 与 OpenRouter 均支持 SSE 流式返回。
在 prompt 或 request 中声明最大思考 token,并结合 Reasoning ON/OFF 切换。
支持函数调用/工具调用,建议提供结构化 schema 并限制函数数量以控成本。