Documentation Index
Fetch the complete documentation index at: https://platform.stepfun.com/docs/llms.txt
Use this file to discover all available pages before exploring further.
step-3.7-flash 可以把图片、视频和文本放在同一次对话中理解,适合把现实世界里的视觉信息转成计划、表格、代码草稿或问题诊断。本文收集一些常见场景的 prompt 模板,帮助你快速判断任务该怎么组织输入和输出。
使用建议
- 先明确输出格式:让模型输出 Markdown 表格、JSON、CSV 行或任务清单。
- 对关键字段要求保留证据:例如金额、日期、图表数值、任务 owner,需要让模型说明来源或不确定项。
- 不要让模型猜缺失信息:看不清、无法判断的字段应输出
null、空字符串或“无法确认”。
- 涉及财务、报销、合同、医疗等高风险数据时,需要人工复核。
白板转计划
适合处理会议白板、便利贴墙、手写流程图、项目讨论照片。目标是把松散信息转成可执行计划,而不是逐字转录。
这是一张项目讨论白板照片。请完成:
1. 提取白板中的主要议题和结论
2. 整理成一份项目计划,包含目标、关键里程碑、风险和待确认事项
3. 生成任务清单,字段包括:任务、负责人(如无法判断则为 null)、优先级、依赖项、建议截止时间
4. 单独列出识别不清或需要人工确认的内容
推荐输出:
## 项目计划
## 任务清单
## 风险与依赖
## 待确认事项
图表转数据
适合处理报告截图、仪表盘截图、柱状图、折线图、饼图等。目标是把图表内容转成结构化数据,并保留不确定性。
请从这张图表中提取数据,并按 JSON 返回:
{
"chart_type": "",
"title": "",
"x_axis": "",
"y_axis": "",
"series": [
{
"name": "",
"points": [
{"label": "", "value": null, "confidence": "high|medium|low"}
]
}
],
"insights": [],
"uncertain_fields": []
}
要求:
- 如果数值只能估算,请把 confidence 标为 low 或 medium
- 不要编造图中没有的信息
- 如果坐标轴、单位或图例看不清,请写入 uncertain_fields
图表截图中的数值可能受分辨率、压缩和坐标轴比例影响。需要精确计算时,应优先使用原始数据源;模型提取结果适合作为初稿或人工录入辅助。
票据转表格
适合处理收据、发票、报销单、购物小票等。目标是转成可直接写入表格的行数据,便于复制进表格或继续写入系统。
请从这张票据图片中提取结构化信息,按 JSON 返回:
{
"merchant": "",
"date": "",
"currency": "",
"total_amount": null,
"tax_amount": null,
"items": [
{
"name": "",
"quantity": null,
"unit_price": null,
"amount": null
}
],
"payment_method": "",
"uncertain_fields": []
}
要求:
- 金额必须来自票据画面,不要自行推断
- 看不清的字段填 null,并写入 uncertain_fields
- 保留原始币种和日期格式
如果你希望直接粘贴到电子表格,可以让模型改成 CSV:
请把票据中的明细输出为 CSV,列为:
merchant,date,item_name,quantity,unit_price,amount,currency,confidence
截图生成代码
适合处理网页、移动端界面、组件截图和设计稿截图。目标是得到可继续修改的 HTML / React / Tailwind 初稿。
这是一张网页界面截图。请用 React + Tailwind CSS 复刻这个页面。
要求:
1. 先描述页面结构、布局和主要视觉元素
2. 再给出可运行的 React 组件代码
3. 使用语义化命名,不要依赖截图中的真实品牌资产
4. 对无法确认的图片或图标,用占位元素表示
5. 保持移动端和桌面端都有合理布局
如果截图里包含大量文字,建议先让模型做一次“页面结构分析”,再让它生成代码。这样更容易减少布局遗漏。
录屏问题诊断
适合处理软件操作录屏、Bug 复现视频、App 使用路径、客服排障录屏等。目标是让模型还原用户动作、定位异常点并给出排查建议。
这是一个软件操作录屏。请分析:
1. 用户按时间顺序做了哪些操作
2. 哪一步开始出现异常
3. 异常表现是什么
4. 可能原因有哪些,请按可能性排序
5. 给出排查步骤和建议修复方向
请按 Markdown 输出,并把无法确认的内容单独列为“需要补充的信息”。
推荐输出:
## 操作时间线
## 异常点
## 可能原因
## 排查步骤
## 需要补充的信息
多图对比
适合比较设计改版前后、商品图片差异、截图中的 UI 状态差异、文档扫描页差异等。
请比较这几张图片,输出:
1. 相同点
2. 差异点,按视觉布局、文字内容、数据数值、状态变化分类
3. 可能影响
4. 需要人工复核的差异
如果某个差异无法确认,请明确说明原因,不要猜测。
结构化输出建议
当你需要把结果接入程序或表格时,建议显式要求 JSON 或 CSV,并说明空值策略:
请只返回合法 JSON,不要返回 Markdown。
如果字段无法从图片中确认,请填 null。
如果存在识别不确定的字段,请把字段名和原因写入 uncertain_fields。
如果下游程序需要稳定解析 JSON,可以配合 response_format 开启 JSON Mode。具体用法见 JSON Mode 使用建议 和 Chat Completions API。
对于需要人工复核的任务,可以让模型同时给出 confidence:
{
"field": "total_amount",
"value": 128.5,
"confidence": "medium",
"evidence": "票据底部 Total 一行"
}
下一步
多模态快速上手
学习图片、视频、Base64 和 Files API 的基础调用方式。
Chat Completions API
查看 messages、image_url、video_url、reasoning_effort 等参数。
手机操作 Agent
通过 GELab-Zero 连接 Android 真机,让模型规划手机操作。