共 5 个分类入口,便于按能力快速浏览公开模型
- 官方推荐模型
- 全部模型
- 文本与推理
- 视觉
- 语音
推荐模型
官方推荐模型
step-3.5-flash-2603
Agent 优化
最大上下文
256K
基于 Step 3.5 Flash 针对高频 Agent 场景优化,在保留旗舰推理与工具调用能力的同时,进一步提升 Token 效率与推理速度,并支持切换低推理模式以降低消耗。对 Coding 与 Agent 框架兼容性也做了专项优化。
step-3.5-flash
旗舰推理
最大上下文
256K
旗舰级推理模型,专为智能体构建而生。推理深度比肩顶尖闭源模型,同时具备极速响应与稳定可靠的工具调用能力。在通用推理能力基础之上,更擅长复杂项目规划与长程任务执行。
step-3
多模态推理
最大上下文
64K
兼顾智能与效率的高性价比推理模型,典型应用场景有图片内容识别和提取、图片分析和推理、逻辑与数学问题回答、代码生成和补全、智能助手和日常问答、复杂问题调研和解答等。
step-2-mini
极速文本
最大上下文
32K
典型应用场景有文本创意改写、文本摘要生成、文本内容翻译、专业问题回答、角色扮演、信息提取与合并、query指令补全等。
step-1o-turbo-vision
推荐视觉
最大上下文
32K
典型应用场景有社媒发帖文案创作、AI问答助手、图片与视频理解等。单次请求限制输入最多50张,总大小控制在20M以内的图片,输入视频为小于128MB的MP4文件。
step-tts-mini
高表现力 TTS
最大上下文
≤1000 字符
支持中、英、日语、粤语、四川话,提供19种官方音色,兼具出色的音色复刻能力,支持中、英、日语复刻。适合客服外呼、情感陪伴、智能助手语音交互等对发音真人感要求高的场景。
step-tts-vivid
高拟真 TTS
最大上下文
≤1000 字符
支持中、英、日语、粤语、四川话,支持情绪控制、风格控制、语速控制,同时兼具强大的音频复刻能力,支持中、英、日语复刻。可出色满足有声书生成、音视频创作、游戏NPC音频生成等场景的需求。