N3

Nemotron

下一代开放智能模型

推理控制

Reasoning ON/OFF 与思考预算:Nemotron 3 控制指南

用 Reasoning ON/OFF 与思考预算控制链式思考深度,在保持准确率的同时优化 token 成本与隐私。

nemotron reasoningthinking budgetreasoning on offchain of thought 控制nemotron 预算

Reasoning ON/OFF

  • ON:保留链式思考,适合多步推理、工具规划与数学推导。
  • OFF:关闭思考展开,回复更短,适合闲聊与高并发场景。

思考预算

  • 在 prompt 或 API 请求中声明最大思考 token,上限即预算。
  • 结合 ON 模式可控成本,防止链式思考过长。

最佳实践

  • 高频调用默认 OFF,特殊任务切换 ON 并设定预算。
  • 对话安全:OFF 模式减少泄露中间推理,敏感场景优先。
  • 监控:记录思考 token 使用量,迭代 prompt 约束。

常见问题

如何在 API 中设置预算?

在请求体中声明思考 token 上限,或在 prompt 中指令限制思考长度。

Reasoning OFF 会影响准确率吗?

对简单问答影响小;复杂推理建议开启 ON 并设预算。

能否动态切换?

可以按请求级别切换 ON/OFF,结合场景灵活使用。