跳转到主要内容

共 5 个分类入口,便于按能力快速浏览公开模型

推荐模型

官方推荐模型

推理 / 文本推荐

step-3.5-flash-2603

Agent 优化

最大上下文

256K

基于 Step 3.5 Flash 针对高频 Agent 场景优化,在保留旗舰推理与工具调用能力的同时,进一步提升 Token 效率与推理速度,并支持切换低推理模式以降低消耗。对 Coding 与 Agent 框架兼容性也做了专项优化。

推理Agent低推理模式
推理 / 文本推荐

step-3.5-flash

旗舰推理

最大上下文

256K

旗舰级推理模型,专为智能体构建而生。推理深度比肩顶尖闭源模型,同时具备极速响应与稳定可靠的工具调用能力。在通用推理能力基础之上,更擅长复杂项目规划与长程任务执行。

推理工具调用网络搜索
推理 / 文本推荐

step-3

多模态推理

最大上下文

64K

兼顾智能与效率的高性价比推理模型,典型应用场景有图片内容识别和提取、图片分析和推理、逻辑与数学问题回答、代码生成和补全、智能助手和日常问答、复杂问题调研和解答等。

推理图片理解
文本 / 代码推荐

step-2-mini

极速文本

最大上下文

32K

典型应用场景有文本创意改写、文本摘要生成、文本内容翻译、专业问题回答、角色扮演、信息提取与合并、query指令补全等。

文本代码工具调用
视觉推荐

step-1o-turbo-vision

推荐视觉

最大上下文

32K

典型应用场景有社媒发帖文案创作、AI问答助手、图片与视频理解等。单次请求限制输入最多50张,总大小控制在20M以内的图片,输入视频为小于128MB的MP4文件。

图片理解视频理解文本生成
语音合成推荐

step-tts-mini

高表现力 TTS

最大上下文

≤1000 字符

支持中、英、日语、粤语、四川话,提供19种官方音色,兼具出色的音色复刻能力,支持中、英、日语复刻。适合客服外呼、情感陪伴、智能助手语音交互等对发音真人感要求高的场景。

语音生成音色复刻情绪风格
语音合成推荐

step-tts-vivid

高拟真 TTS

最大上下文

≤1000 字符

支持中、英、日语、粤语、四川话,支持情绪控制、风格控制、语速控制,同时兼具强大的音频复刻能力,支持中、英、日语复刻。可出色满足有声书生成、音视频创作、游戏NPC音频生成等场景的需求。

语音生成真人感情绪风格