视频理解 Hello World
通过 Chat API,在user message 中传入 video_url 格式的视频链接,并写入你希望模型做的事情,即可让大模型理解视频内容,并基于视频内容来完成生成。
暂不支持本地视频文件上传,仅支持网络视频链接。且视频链接需为可直接访问的 mp4 视频地址。比如,如下是一个简单的基于视频写游记的例子:
在夕阳的余晖中,他们相依相偎,静享这一刻的宁静与美好。酒杯中的液体在微风中轻轻摇曳,仿佛在诉说着他们甜蜜的时光。这一刻,世界仿佛静止,只有他们的心跳声在回响。你可以参考上述 cURL 的用法,修改 Prompt 并改成你自己想要实现的目标,来让大模型帮助你完成任务。
视频理解价格预估
视频理解模型的价格会受到 Prompt 长度和视频长度的影响,视频越长,价格越高。这里有一些不同长度的视频在 step-1o-turbo-vision 下的价格预估供你参考。| 视频分辨率 | 视频长度 | 输入 token | 预估输入价格 |
|---|---|---|---|
| 3840x2160 | 00:14 | 5238 | 0.013095 元 |
| 4096x2160 | 01:02 | 24064 | 0.06016元 |
引入 Prompt 缓存降低费用
注意事项
- 在使用时,强烈建议将视频放在指令前,这样可以让大模型获得更好的效果。
- 视频存在下载和审核的过程,耗时较长,因此在设计产品时,可设计相应的等待交互,帮助用户降低焦虑。
- step-1o-turbo-vision 模型暂时只支持 1 个小于 128MB 的 MP4 视频文件 URL,如果你需要上传更大的视频或其他格式,可以使用 ffmpeg 将视频切割为多个小于 128MB 的 MP4 视频,具体操作方式可参考下方说明。
- 由于视频文件需要从你的服务器下载到阶跃星辰的服务器,所以下载速度将会直接影响最终返回的速度,你可以将视频文件放在可被高速访问的地址(如对象存储),以便于阶跃星辰服务器下载视频用于视频理解。
常见问题
使用 Files API 加速视频理解
在使用视频理解时,如果传入的是外部的 URL,阶跃星辰的服务器将会请求外部 URL,获取视频内容并进行生成。生成的速度将会受到视频下载速度的影响,因此,我们推荐将视频放置在 CDN 或具有较大下载带宽的对象存储上,以便于对视频进行更快的下载。但如果你的视频需要重复使用,比如用来做 Few-shot,则可以考虑将视频使用阶跃星辰 Files API 上传至阶跃星辰文件存储服务上,以避免重复下载,产生持续的流量消耗。
stepfile://,用于标注这个图片从阶跃星辰文件服务中获取,后续模型在推进推理时,将会从阶跃星辰文件存储服务上获取文件,从而降低下载文件所需的时间,提升整体推理的时延。