视觉理解大模型

视觉理解大模型在文本大模型的基础上，增加了图像和视频输入能力，以实现更全面、更准确的理解和推理。

当前阶跃星辰已推出step系列视觉理解大模型：

step-1o-turbo-vision（推荐使用）
该模型拥有强大的图像理解能力，暂时只开放文本和图像输入，且仅支持文本生成。该模型在数理、代码领域强于1o。模型比1o更小，输出速度更快，上下文长度为 32k。

step-1o-vision-32k
该模型拥有强大的图像理解能力，暂时只开放文本和图像输入，且仅支持文本生成。上下文长度为 32k。相比于 step-1v 系列模型，拥有更强的视觉性能。

step-1v
该模型拥有强大的图像理解能力，暂时只开放文本和图像输入，且仅支持文本生成。上下文长度分别为8k和32k。

step-1.5v-mini
该模型拥有强大的视频理解能力，暂时只开放文本、图像和视频输入，且仅支持文本生成。上下文长度为 32k。

图像分辨率：通常指长宽像素数量，分辨率越高，图像能表达的信息越丰富，模型推理成本越高，如更高的网络传输时间、首字延迟和费用消耗。建议长或宽不要超过4096像素。
图像的Token数量：与图像的分辨率有关，目前自适应缩放到最佳大小。
支持的图像格式：JPG/JPEG、PNG、静态GIF、WebP
URL格式：
- http/https协议的网络资源：要求中国大陆互联网可访问，且资源加载时间会影响推理首字延迟。
- base64编码：遵循RFC2394规范，基本格式为data:[<mediatype>][;base64],<data>。示例data:image/jpeg;base64,<base64_data_string>
- 参考资源： RFC2397 (opens in a new tab)、Data URL Format (opens in a new tab)

单次请求图像数量上限：除了模型长下文长度约束，step-1v系列模型限制了单次请求图像不能超过50张。轮次较多的对话，建议先通过多模态模型对图像进行描述或总结，再放入轮次历史作为文本理解的上下文。
单次请求图像体积大小限制：多张图片总大小控制在20M以内。
图像元数据：模型无法获得图像元数据信息，如文件路径、文件名、文件大小、原始分辨率、作者、相机型号、地理位置信息等。在输入模型前，预处理阶段会将元数据清除，以免泄露隐私。此外，图像也会被缩放到最佳尺寸。
字体过小的文本：文字过小可能会影响识别效果。
旋转和裁切：不完整或非正位可能会影响识别效果。
计数：模型输出的数值可能不是完全精确，而是估算的值。
准确性：在某些情况下，模型可能会生成不正确的描述或标题。请勿在有严重后果的场景依赖模型推理结果。