模型上新:Step-GUI
Step-GUI是针对图形界面交互(GUI)相关任务设计的多模态视觉大模型。通过视觉理解、步骤推理和动作执行等闭环能力,能够像人类一样在各类 GUI界面上完成连续多步骤任务.端到端的复杂任务处理能力
模型具备强大的视觉感知、理解能力,包括:- 精准视觉解析:识别并理解通用UI控件、布局结构、交互逻辑以及内容语义等;
- 类人动作推理:支持点击、输入、滑动、长按、拖拽等基本原子操作;
- 跨界面、跨app连续任务规划:无需预先定义执行工作流即可自动完成完整端到端任务; 可支持的代表性任务包括:
- 生活场景:刷feed流、订机票、点外卖、回复社媒消息、比价等;
- 办公场景:执行自动化流程、跨软件信息整理、数据操作等; Step-GUI的能力可作为无API可用的智能体任务场景中的“通用双手”,为更广泛的其他智能体提供可靠的支持,打破有脑无手的困局,助力各种智能体成为用户日常生活工作中的“全能助手”;
高准确率的单步理解
除了端到端的多步骤复杂任务,Step-GUI在单步级别的感知与推理能力上同样表现突出,能实现稳定、可靠的单步决策:- 当前GUI屏幕的即时理解:能够基于当前 GUI 屏幕内容进行快速、准确的语义理解,包括UI控件识别、可交互区域判断、页面状态识别等;
- 精准下一步推理:在任意可见页面上直接给出高准确率的下一步动作推理;
人机协同交互能力
在探索更自然、更灵活的新一代“可对话、可协同、可纠错”人机交互范式时,Step-GUI的模型能力可与其他智能体实现深度协同:- 丰富的交互行为:模型支持等待加载、向用户发起追问、主动向用户报告执行结果等可控操作;在高敏感环节(如涉及金钱操作的支付转账等,模型会主动终止任务,并报告给用户)
- 实时人机协同:在与其他智能体或系统深度集成的情况下,Step-GUI 支持用户随时打断、变更意图等;
异常处理与纠错能力
Step-GUI模型可以识别并处理真实环境中的常见异常,包括但不限:- 即时通知消息
- 网络/加载失败
- 页面跳转异常
- 文本或控件动态变化
- 意外弹窗(系统弹窗、隐私协议、升级提示)
- …等等 在实际任务执行过程中动态观察界面变化,并在进入任务非预期页面时,自动恢复、重新定位并继续任务;
API 操作指南
为了方便用户更好的体验GUI模型能力,我们为大家准备了模型的开发使用指南供大家参考Step-GUI API 小白使用指南。同时为了方便用户快速实现模型能力调用和功能开发,我们推出了Step-GUI MCP ,将 GUI 操作功能封装为标准化的 MCP 工具,使开发者能够更快速的使用Step-GUI作为执行tool(sub agent/agent as a tool)被大脑作为工具委派。通过统一接口协议,可随时调用,详情见Step-GUI MCP 小白使用指南场景案例
使用过程中,欢迎您通过表单提交您的 Good Case,被选中的 Good Case 我们将会给予现金激励。
模型列表
| 模型名 | 模型介绍 | 模型 ID(用于 API 中) | 可用 API |
|---|---|---|---|
| step-gui | 该模型专可处理长步骤复杂任务、模糊任务、个性化推荐任务以及跨app任务(比如比价任务),具备强泛化性(能在陌生界面中保持稳定表现)、高可靠性和强可控性; | step-gui | 新手指南 创建Chat |
| step-2x-large | 阶跃星辰新一代生图模型,该模型专注于图像生成任务,能够根据用户提供的文本描述,生成高质量的图像。新模型生成图片质感更真实,中英文文字生成能力更强。 | step-2x-large | 图片生成 |
| step-1x-edit | 该模型专注于图像编辑任务,能够根据用户提供的图片和文本描述,对图片进行修改和增强。支持多种输入格式,包括文本描述和示例图像。模型能够理解用户的意图,并生成符合要求的图像编辑结果。 | step-1x-edit | 图片编辑 |
模型限制
- Model Lab 内的模型将限制支持并发为 1 ;
- Model Lab 内的模型将不保证始终在线,并会在运营期结束后下线。
- 如需更多资源或希望在生产环境中使用,可联系 platform@stepfun.com
