跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://platform.stepfun.com/docs/llms.txt

Use this file to discover all available pages before exploring further.

共 5 个分类入口,便于按能力快速浏览公开模型

推荐模型

官方推荐模型

推理 / 文本推荐

Step 3.5 Flash 2603

Agent 优化

最大上下文

256K

基于 step-3.5-flash 针对高频 Agent 场景优化,在保留旗舰推理与工具调用能力的同时,进一步提升 Token 效率与推理速度,并支持切换低推理模式以降低消耗。对 Coding 与 Agent 框架兼容性也做了专项优化。

推理Agent低推理模式

相关入口

实时语音推荐

StepAudio 2.5 Realtime

活人感实时语音大模型

交互模态

语音 ↔ 语音

真正具备”活人感”的实时语音大模型。继承 StepAudio 2.5 TTS 表现力,结合行业顶级副语言感知能力——读懂语气中的迟疑与轻笑,输出契合度拉满的高情商反馈。支持千万人设完全自定义,可细颗粒度定义性格、口癖与情绪边界。适合情感陪伴、日常交流、百科问答、任务助手等实时对话场景。

实时语音副语言感知人设自定义

相关入口

语音对话推荐

StepAudio 2.5 Chat

活人感对话大模型

输出模态

仅文本

真正具备”活人感”的对话大模型,仅文本返回。能深度理解复杂语意、机智抛梗,具备行业顶级副语言感知力——读懂语气中的迟疑与轻笑,输出高情商反馈。支持千万人设完全自定义,细颗粒度定义性格特征、专属口癖与情绪边界。

对话副语言感知人设自定义

相关入口

语音合成推荐

StepAudio 2.5 TTS

Contextual TTS

单次输入上限

1000 字符

真正具有声音表演能力的语音合成模型,首次将语境理解能力引入语音生成全流程。通过 Global Context(全局语境)+ Inline Context(文中语境)双档控制,配合 Zero-shot Clone,让合成语音有呼吸感、轻重主次和情绪弧线,适合有声书、短剧配音、广告旁白、情感叙事等高表现力场景。

Contextual TTS双档语境控制Zero-shot Clone

相关入口

语音识别推荐

StepAudio 2.5 ASR

新一代流式 ASR 旗舰

模型规模

4B MTP

阶跃新一代语音识别模型,4B 参数 + Multi-Token Prediction(MTP)架构,单步并行预测多个 Token,5 分钟音频 1 秒内完成转写。在保持 SOTA 转写精度的同时大幅降低时延,适合 Voice Agent、大规模批量转写、实时字幕 / 直播等场景。

极速推理SOTA 精度中英双语

相关入口

推理 / 文本推荐

Step 3.5 Flash

旗舰推理

最大上下文

256K

旗舰级推理模型,专为智能体构建而生。推理深度比肩顶尖闭源模型,同时具备极速响应与稳定可靠的工具调用能力。在通用推理能力基础之上,更擅长复杂项目规划与长程任务执行。

推理工具调用

相关入口

推理 / 文本推荐

Step 3

多模态推理

最大上下文

64K

兼顾智能与效率的高性价比推理模型,典型应用场景有图片内容识别和提取、图片分析和推理、逻辑与数学问题回答、代码生成和补全、智能助手和日常问答、复杂问题调研和解答等。

推理图片理解

相关入口

文本 / 代码推荐

Step 2 Mini

极速文本

最大上下文

32K

典型应用场景有文本创意改写、文本摘要生成、文本内容翻译、专业问题回答、角色扮演、信息提取与合并、query 指令补全等。

文本代码工具调用

相关入口

视觉推荐

Step-1o Turbo Vision

推荐视觉

最大上下文

32K

典型应用场景有社媒发帖文案创作、AI 问答助手、图片与视频理解等。单次请求限制输入最多60张图片,总大小控制在20M 以内,输入视频为小于128MB 的 MP4文件。

图片理解视频理解文本生成

相关入口

语音合成推荐

Step TTS Mini

高表现力 TTS

单次输入上限

1000 字符

支持中、英、日语、粤语、四川话,提供19种官方音色,兼具出色的音色复刻能力,支持中、英、日语复刻。适合客服外呼、情感陪伴、智能助手语音交互等对发音真人感要求高的场景。

语音生成音色复刻情绪风格

相关入口

图像生成 / 编辑推荐

Step Image Edit 2

文生图 + 图像编辑一体化

单次响应

1-2 秒

阶跃星辰最新迭代的轻量级编辑模型,单模型同时支持文生图与图像编辑。在 6B 以下参数规模内实现同量级性能标杆,可跨量级对标 12B-20B 级开源大模型,重塑实时交互修图体验。

文生图图像编辑极速响应