> ## Documentation Index
> Fetch the complete documentation index at: https://platform.stepfun.com/docs/llms.txt
> Use this file to discover all available pages before exploring further.

# 基本介绍

## 关键概念

### 文本大模型

> 文本大模型，例如 step-1系列，基于生成式人工智能技术，通过在大量数据上进行训练，以理解和生成自然语言。

**文本大模型可以用于但不限于以下任务：**

* **内容生成**：生成文章、故事、对话等。
* **代码生成**：根据描述生成代码片段。
* **摘要**：将长篇文章或文档缩减为简短的摘要。
* **翻译**：将一种语言翻译成另一种语言。
* **问答**：回答各种问题，从简单的事实查询到复杂的推理问题。
* **创意写作**：创作诗歌、歌词或其他形式的创意文本。
* **语言理解**：进行情感分析、文本分类等。
* **对话系统**：与用户进行自然语言对话，模拟聊天机器人或虚拟助手。

使用这些模型时，通常需要提供一个 `prompt`，即一段引导性的文本，它告诉模型需要执行的任务类型以及相关的上下文信息。设计一个有效的 `prompt` 是至关重要的，因为它直接影响到模型输出的质量和相关性。

### 多模态大模型

> 多模态大模型，在文本大模型基础上，增加了对多种模态（如图像、音频、视频等）数据的处理能力，如 `step-3.7-flash`，目前能够理解处理文本、图像与视频。
> 多模态大模型的核心优势在于更符合人类认知世界的习惯，因为人类通过多种感官接收多模态信息，这些信息通常是互补和协同的，使用多模态大模型可以更好地理解这些信息以及进行推理。

**多模态大模型可以用于但不限于以下任务：**

* **图像到文本的翻译**：为图像生成描述性文本。
* **对话系统**：结合文本和图像信息回答复杂问题。
* **创作**：根据图像和文本创作文学作品。
* **医疗影像诊断**：结合医学影像（如 X 光片、MRI 图像）和病人的病历文本，多模态模型可以帮助医生更准确地诊断疾病。
* **搜索引擎**：搜索引擎可以利用多模态技术来理解用户的查询意图，结合文本、图像，提供更相关的搜索结果。
* **自动驾驶**：自动驾驶汽车可以使用多模态模型来处理来自多个传感器（如摄像头、雷达、激光雷达）的数据，以更好地理解周围环境并做出驾驶决策。

### 文生图模型

> 文生图模型，例如 `step-1x` 系列，基于生成式人工智能技术，通过在大量数据上进行训练，学习自然语言与图像的对应关系，从而能根据文本描述生成相应的图像。

**文生图大模型可以用于但不限于以下任务：**

* **图像生成**: 根据文本描述生成相应的图像，如风景、人物、物体等。
* **艺术创作**: 结合文本和图像进行艺术创作，如绘画、插画、设计等。

使用这些模型时，通常需要提供一个 `prompt`，即一段引导性的文本，它告诉模型需要生成的图像类型以及相关的上下文信息。设计一个有效的 `prompt` 是至关重要的，因为它直接影响到模型输出的图像质量和相关性。

### Context 长度

> **Context 长度**指的是在自然语言处理任务中，模型在生成响应或进行预测时所考虑的输入文本的字符数量。这个长度限制了模型单次处理信息的范围。

**重要性**

* **效果影响**：Context 长度决定了模型能够记忆和处理的信息量，影响其理解和生成文本的效果。
* **性能影响**：较大的 Context 长度可以提高模型的准确性，但同时也会增加计算资源的消耗。
* **费用影响**：开发者需要在效果和成本之间做出权衡，较长的 Context 如下应用场景中所述可能提高效果，但也会增加使用成本。

**应用场景**

* **对话系统**：在对话系统中，Context 长度影响对话的连贯性和上下文理解。
* **创作**：在文学创作中，较长的 Context 长度可以生成更连贯和逻辑性更强的文本。
* **学术论文和研究**：学术论文通常很长，包含大量的背景信息、实验数据和详细讨论，较长的 Context 长度可以帮助模型更好地理解和总结这些文档。
* **小说和文学作品**：对于文学作品的分析和理解，较长的 Context 长度可以帮助模型捕捉到故事的情节发展和角色之间的关系。

### Token

> 在文本大模型中，Token 是处理文本的基本单位，它代表了文本中的一个有意义的字符序列。Token 可以是单个字符、单词、短语，甚至是句子，具体取决于模型的设定和训练数据的特点。在中文文本中，Token 的划分尤为关键，因为中文字符不像英文那样以空格分隔单词，而是以单个汉字或汉字组合来表达意思。

**Token 的长度**

* **汉字与 Token 的关系**：一般而言，一个 Token 大约相当于 1.5 到 2 个汉字。这个比例是根据模型对中文文本的常规处理方式得出的，但实际的 Token 数量可能会因文本内容的不同而有所变化。

**模型的上下文长度限制**

* **最大上下文长度**：文本模型在处理输入（Input）和输出（Output）时，需要遵守模型的最大上下文长度限制。这意味着输入和输出的 Token 总数不能超过模型设定的最大值。
* **长度限制的重要性**：这一限制确保了模型能够有效地处理信息，避免因处理过长文本而导致的性能下降或错误。

**实际应用中的考量**

* **文本长度的规划**：在实际应用中，需要根据模型的最大上下文长度来规划文本的长度，以确保文本能够被模型完整地理解和生成。
* **Token 优化**：在某些情况下，可能需要对文本进行优化，比如通过减少不必要的 Token 或者重新组织文本结构，以适应模型的上下文长度限制。

### 速率限制

> 速率限制是确保服务稳定性和公平性的重要机制，它通过限制用户在特定时间内可以发起的请求数量来工作。以下是速率限制的3种主要衡量方式：

**RPM (每分钟请求数)**: RPM 限制是基于时间的，它规定了用户在一分钟内可以发起的请求数量。例如，如果 RPM 限制是20，那么用户在任何连续的一分钟时间段内最多只能发起20个请求。

**TPM(每分钟 Token 数)**: TPM 限制同样是基于时间的，但它衡量的是用户在一分钟内可以传输的 Token 数量。Token 通常是指请求以及响应中的数据单位，如果用户的请求非常简短，即使在一分钟内发起了很多请求，也可能不会达到 TPM 限制。

**并发数(同时在线请求数)**: 并发 限制基于同一时刻在线的推理请求数量。例如，如果并发限制是20，那么同时在线的请求数量最多只能是20个，超过并发限制的请求会被拒绝，除非旧的推理请求被处理完毕，新的推理请求才会被允许进入模型推理。

**速率限制的触发**: 速率限制可能会在以上任何一种选项中达到，具体取决于哪种限制先被触发。例如：

```text theme={null}
假如当前用户的速率限制规则RPM是20，TPM是200K，如果用户向 `ChatCompletions` 发送了20个请求，每个请求包含100个 Token，
即使TPM未达到200K，但是由于RPM已经达到20，也会触发速率限制
```