Model Lab
Model Lab 是阶跃星辰的实验性模型开放实验室。开发者可以在这里体验到阶跃星辰所提供的最新模型;Model Lab 的模型将免费开放给开发者使用。需要注意,Model Lab 中的模型在快速迭代中,建议用于测试环境及本地开发使用,不建议用于生产环境。
模型上新:Step-GUI
Step-GUI是针对图形界面交互(GUI)相关任务设计的多模态视觉大模型。通过视觉理解、步骤推理和动作执行等闭环能力,能够像人类一样在各类 GUI界面上完成连续多步骤任务.
端到端的复杂任务处理能力
模型具备强大的视觉感知、理解能力,包括:
- 精准视觉解析:识别并理解通用UI控件、布局结构、交互逻辑以及内容语义等;
- 类人动作推理:支持点击、输入、滑动、长按、拖拽等基本原子操作;
- 跨界面、跨app连续任务规划:无需预先定义执行工作流即可自动完成完整端到端任务; 可支持的代表性任务包括:
- 生活场景:刷feed流、订机票、点外卖、回复社媒消息、比价等;
- 办公场景:执行自动化流程、跨软件信息整理、数据操作等; Step-GUI的能力可作为无API可用的智能体任务场景中的“通用双手”,为更广泛的其他智能体提供可靠的支持,打破有脑无手的困局,助力各种智能体成为用户日常生活工作中的“全能助手”;
高准确率的单步理解
除了端到端的多步骤复杂任务,Step-GUI在单步级别的感知与推理能力上同样表现突出,能实现稳定、可靠的单步决策:
- 当前GUI屏幕的即时理解:能够基于当前 GUI 屏幕内容进行快速、准确的语义理解,包括UI控件识别、可交互区域判断、页面状态识别等;
- 精准下一步推理:在任意可见页面上直接给出高准确率的下一步动作推理;
人机协同交互能力
在探索更自然、更灵活的新一代“可对话、可协同、可纠错”人机交互范式时,Step-GUI的模型能力可与其他智能体实现深度协同:
- 丰富的交互行为:模型支持等待加载、向用户发起追问、主动向用户报告执行结果等可控操作;在高敏感环节(如涉及金钱操作的支付转账等,模型会主动终止任务,并报告给用户)
- 实时人机协同:在与其他智能体或系统深度集成的情况下,Step-GUI 支持用户随时打断、变更意图等;
异常处理与纠错能力
Step-GUI模型可以识别并处理真实环境中的常见异常,包括但不限:
- 即时通知消息
- 网络/加载失败
- 页面跳转异常
- 文本或控件动态变化
- 意外弹窗(系统弹窗、隐私协议、升级提示)
- …等等 在实际任务执行过程中动态观察界面变化,并在进入任务非预期页面时,自动恢复、重新定位并继续任务;
API 操作指南
为了方便用户更好的体验GUI模型能力,我们为大家准备了模型的开发使用指南供大家参考Step-GUI API 小白使用指南 。同时为了方便用户快速实现模型能力调用和功能开发,我们推出了Step-GUI MCP ,将 GUI 操作功能封装为标准化的 MCP 工具,使开发者能够更快速的使用Step-GUI作为执行tool(sub agent/agent as a tool)被大脑作为工具委派。通过统一接口协议,可随时调用,详情见Step-GUI MCP 小白使用指南
场景案例
| 任务场景 | 任务描述/prompt | 视频效果 |
|---|---|---|
| 比价采购 | 看到这个图了吗?帮我去京东淘宝和拼多多搜同款比个价。每次报告搜索结果第一项即可。![]() | |
| 比价选票 | 我计划16号到20号 要去上海出差,你在需要: 1. 分别帮我去携程 查一下16号早上从北京去上海,20晚上返程的飞机和高铁票,报告最便宜的给我。嘱咐agent 报告,飞机航班号或车次,预期出发到达时间和价格。给agent 的指令应该明确筛选条件。 2. 查询一下,上海桔子酒店徐汇区体育场店,16-20号的住宿价格。 3. 编辑一条请假消息去飞书发给王卓宇,内容需包含差旅预算范围。 | |
| 社媒聊天 | 你是我的专业助理。我正在和soul app 的联系人,小野猫谈恋爱。你需要代替我和小野猫调情。我的人设: 我是一个温柔、聪明、让人信任的男生,擅长与女孩子自然、轻松、暧昧但不油腻的聊天。 我的魅力来自情绪价值、洞察力、共情能力与自然幽默感,而不是油滑或套路。你说话有分寸、不过界、不强求、不自大,让人感到轻松愉快、像春风一样舒服。 hint,ask agent 时每次都要强调,去xx app; hint,第一次发送成功后,除非遇到失败或需要切换app,后续都尽量用continue 接口提升速度。 你的任务是: 1. 给小野猫写一首中文小诗,发送给他。 2. 之后帮我和小野猫聊 10 句天,具体而言,你需要将下列流程执行 10 次: step 1. ask agent 去看看小野猫说了什么;你要嘱咐agent:如果对方最后一条消息是语音,应该使用long press 将语音条将其转成文字。(除非发生错误,否则尽量用continue 接口) step 2. 根据小野猫说的内容,给她一句合适的回复。你需要想好这个文案,之后要求agent 发送给小野猫。应该按照我的人设,使用中文进行回复。(除非发生错误否则尽量用continue 接口) 直到最后一次和小野猫成功对话后,你可以结束流程,并向我报告你们的聊天内容。 | |
| 旅行规划 | 我计划21号去上海玩,帮我去美团找一下,上海外滩附近的餐厅。要求3公里以内,销量最多的一家,记下来。我计划请朋友去那里聚聚。之后帮我在高德地图将其分别收藏。看下明天疯狂动物城2 最早的场次,记录电影院和放映时间信息。将查到的内容汇总后,以得体的口吻,通过飞书发给王卓宇。 |
使用过程中,欢迎您通过表单 提交您的 Good Case,被选中的 Good Case 我们将会给予现金激励。
模型列表
| 模型名 | 模型介绍 | 模型 ID(用于 API 中) | 可用 API |
|---|---|---|---|
| step-gui | 该模型专可处理长步骤复杂任务、模糊任务、个性化推荐任务以及跨app任务(比如比价任务),具备强泛化性(能在陌生界面中保持稳定表现)、高可靠性和强可控性; | step-gui | 新手指南 创建Chat |
| step-2x-large | 阶跃星辰新一代生图模型,该模型专注于图像生成任务,能够根据用户提供的文本描述,生成高质量的图像。新模型生成图片质感更真实,中英文文字生成能力更强。 | step-2x-large | 图片生成 |
| step-1x-edit | 该模型专注于图像编辑任务,能够根据用户提供的图片和文本描述,对图片进行修改和增强。支持多种输入格式,包括文本描述和示例图像。模型能够理解用户的意图,并生成符合要求的图像编辑结果。 | step-1x-edit | 图片编辑 |
模型限制
- Model Lab 内的模型将限制支持并发为 1 ;
- Model Lab 内的模型将不保证始终在线,并会在运营期结束后下线。
- 如需更多资源或希望在生产环境中使用,可联系 platform@stepfun.com
Last updated on
