模型概览
视觉理解大模型在文本大模型的基础上,增加了图像和视频输入能力,以实现更全面、更准确的理解和推理。 当前阶跃星辰已推出step系列视觉理解大模型:模型列表
step-1o-turbo-vision
推荐使用。该模型拥有强大的图像理解和视频理解能力,暂时只开放文本、图像和视频输入,且仅支持文本生成。该模型在数理、代码领域强于step-1o-vision-32k。模型比step-1o-vision-32k更小,输出速度更快,上下文长度为 32k。step-1o-vision-32k
该模型拥有强大的图像理解能力,暂时只开放文本和图像输入,且仅支持文本生成。上下文长度为 32k。相比于 step-1v 系列模型,拥有更强的视觉性能。step-1v
该模型拥有强大的图像理解能力,暂时只开放文本和图像输入,且仅支持文本生成。上下文长度分别为8k和32k。关键术语
- 图像分辨率:通常指长宽像素数量,分辨率越高,图像能表达的信息越丰富,模型推理成本越高,如更高的网络传输时间、首字延迟和费用消耗。建议长或宽不要超过4096像素。
- 图像的Token数量:与图像的分辨率有关,目前自适应缩放到最佳大小。
- 支持的图像格式:JPG/JPEG、PNG、静态GIF、WebP
- URL格式:
- http/https协议的网络资源:要求中国大陆互联网可访问,且资源加载时间会影响推理首字延迟。
- base64编码:遵循RFC2394规范,基本格式为
data:[<mediatype>][;base64],<data>。示例data:image/jpeg;base64,<base64_data_string> - 参考资源: RFC2397、Data URL Format
使用限制
- 单次请求图像数量上限:除了模型长下文长度约束,step-1v系列模型限制了单次请求图像不能超过50张。轮次较多的对话,建议先通过多模态模型对图像进行描述或总结,再放入轮次历史作为文本理解的上下文。
- 单次请求图像体积大小限制:多张图片总大小控制在20M以内。
- 图像元数据:模型无法获得图像元数据信息,如文件路径、文件名、文件大小、原始分辨率、作者、相机型号、地理位置信息等。在输入模型前,预处理阶段会将元数据清除,以免泄露隐私。此外,图像也会被缩放到最佳尺寸。
- 字体过小的文本:文字过小可能会影响识别效果。
- 旋转和裁切:不完整或非正位可能会影响识别效果。
- 计数:模型输出的数值可能不是完全精确,而是估算的值。
- 准确性:在某些情况下,模型可能会生成不正确的描述或标题。请勿在有严重后果的场景依赖模型推理结果。
模型快速入门
从 OpenAI 迁移至阶跃星辰
使用兼容 OpenAI 的调用方式,快速切换到视觉理解模型。
实现图片理解
让模型结合图片内容进行问答、描述和多模态理解。
实现视频理解
传入视频链接,让模型读取并理解视频中的关键信息。
实现多轮对话
结合上下文历史,构建连续稳定的视觉对话体验。
实现文档问答
解析文档内容并结合视觉模型完成问答、抽取和理解任务。
输出 JSON
让视觉理解结果按 JSON 结构返回,方便程序处理。
流式输出
在模型生成过程中实时返回内容,提升交互体验。
实现 Tool Call
让多模态模型结合外部工具完成更复杂的任务。
实现 联网搜索
接入互联网搜索,为模型补充最新信息与外部知识。
Prompt 缓存
缓存重复上下文,优化长对话和复杂多模态输入场景。