step-3.5-flash,step-3和step-r1-v-mini。
step-3.5-flash是阶跃星辰最强大的开源基座模型。它专为极致效率而生,具备前沿的推理能力和卓越的智能体(Agent)性能。该模型基于稀疏混合专家(MoE)架构,尽管拥有 1960 亿参数,但处理每个 Token 时仅需选择性激活 110 亿参数。这种极高的“智能密度”使其推理深度足以媲美顶级闭源模型,同时兼顾了实时交互所需的敏捷响应速度。
step-3 是一款多模态推理模型,能够同时处理图文输入并输出文字回复。具备深度思考自主开展推理过程的能力。即在生成最终输出前完成一段“思考”过程(例如通过 reasoning 字段展示思考信息),提高最终结果的准确性和推理深度。在调用时,开发者无需预设过多的系统提示(sys_prompt),模型可自动发挥内在的深度思考能力。
step-r1-v-mini也是多模态推理模型,它具备强大的图像理解和深度思考能力,能够处理复杂的逻辑推理、数学问题、代码生成等任务。
step-3.5-flash
step-3.5-flash的使用与其他两款推理模型的使用类似。请参考以下构建对话的示例。
step-3 模型最佳实践
step-3 作为多模态推理模型,其温度参数 temperature 一般设置为 0.7 并可根据实际需求调整温度。我们推荐将温度设置在 0.1 ~ 1.0 之间。
此外,在使用过程中,我们建议开发者不要设置 max_tokens 参数。因为 step-3 模型会根据问题的复杂度和内容自动调整输出长度,设置 max_tokens 可能会导致无法输出完整的 reasoning 和 content。在不设置时,模型的上下文总长为 65536 ,并根据问题的复杂度进行长短不一的思考。
step-3 模型特性
- 全能理解:像人脑一样同时”看懂”图片和”理解”文字,比如你能发一张图表图片+一段问题,它会先分析图片里的数据,再结合文字内容综合回答。
- 深度思考过程:遇到难题时会先自己”想一想”,比如解数学题时会列出解题步骤、分析问题关键点,这个思考过程还会显示出来,就像你解题时的草稿纸。
- 不用复杂指令:不需要你写很多提示词,它自己就能发挥推理能力。比如你说”看看这张地图,告诉我最佳路线”,它就能自动分析地图并规划路径。
- 多才多艺:会解数学题、能看懂图表、还能帮你写代码。
- 学习能力强:通过海量虚拟训练(比如用合成数据模拟各种场景),让它在处理复杂任务时更可靠,已经在很多专业测试里拿了高分。
核心示例代码
以下使用最简单的代码实现 step-3 模型对图片进行分析。copy
获取 Reasoning 内容
阶跃星辰的推理大模型在处理复杂问题时,会在输出中包含 reasoning 字段,展示模型的思考过程。开发者可以通过判断该字段是否存在来获取模型的思考信息。通过 reasoning_content 字段,获取模型的思考过程。
如果你目前使用的推理模型中已经使用 reasoning_content 字段,可以继续使用该字段。阶跃星辰的推理模型也支持这一字段,开发者可以根据自己的需求选择使用。
只需要在请求时传入 reasoning_format="deepseek-style" 即可。(如使用 OpenAI SDK,则需要通过 extra_body 字段传入)
多模态模型使用注意事项
- 深度思考优势:模型在接收到图片及文字提示后,会首先经过内部思考(reasoning)再输出最终结果。这一过程有助于完成复杂的关联和因果推理,但可能会使响应时间略有延迟,应据此考虑超时设置。
- JSON 模式与联网搜索限制:当前版本暂时不支持 JSON mode 以及联网搜索功能。开发者在使用过程中请以当前能力为准,确保设计逻辑不依赖联网检索结果。
- 图片数据格式:确保传入的图片数据使用正确的 Base64 编码格式,并按照 API 要求指定图片类型(如 JPG/JPEG、PNG、静态GIF、WebP等)和细节参数,保证推理的准确性。详见文档
- 错误处理与日志记录:在输出时已加入Trace ID,若遇到模型推理问题,可将此ID反馈给我们。