Nemotron
下一代开放智能模型
推理控制
用 Reasoning ON/OFF 与思考预算控制链式思考深度,在保持准确率的同时优化 token 成本与隐私。
在请求体中声明思考 token 上限,或在 prompt 中指令限制思考长度。
对简单问答影响小;复杂推理建议开启 ON 并设预算。
可以按请求级别切换 ON/OFF,结合场景灵活使用。