基本介绍

关键概念

文本大模型

文本大模型，例如step-1系列，基于生成式人工智能技术，通过在大量数据上进行训练，以理解和生成自然语言。

文本大模型可以用于但不限于以下任务：

内容生成：生成文章、故事、对话等。
代码生成：根据描述生成代码片段。
摘要：将长篇文章或文档缩减为简短的摘要。
翻译：将一种语言翻译成另一种语言。
问答：回答各种问题，从简单的事实查询到复杂的推理问题。
创意写作：创作诗歌、歌词或其他形式的创意文本。
语言理解：进行情感分析、文本分类等。
对话系统：与用户进行自然语言对话，模拟聊天机器人或虚拟助手。

使用这些模型时，通常需要提供一个prompt，即一段引导性的文本，它告诉模型需要执行的任务类型以及相关的上下文信息。设计一个有效的prompt是至关重要的，因为它直接影响到模型输出的质量和相关性。

多模态大模型

多模态大模型，在文本大模型基础上，增加了对多种模态（如图像、音频、视频等）数据的处理能力，如step-1v系列，目前能够理解处理文本以及图像。多模态大模型的核心优势在于更符合人类认知世界的习惯，因为人类通过多种感官接收多模态信息，这些信息通常是互补和协同的，使用多模态大模型可以更好地理解这些信息以及进行推理。

多模态大模型可以用于但不限于以下任务：

图像到文本的翻译：为图像生成描述性文本。
对话系统：结合文本和图像信息回答复杂问题。
创作：根据图像和文本创作文学作品。
医疗影像诊断：结合医学影像（如X光片、MRI图像）和病人的病历文本，多模态模型可以帮助医生更准确地诊断疾病。
搜索引擎：搜索引擎可以利用多模态技术来理解用户的查询意图，结合文本、图像，提供更相关的搜索结果。
自动驾驶：自动驾驶汽车可以使用多模态模型来处理来自多个传感器（如摄像头、雷达、激光雷达）的数据，以更好地理解周围环境并做出驾驶决策。

文生图模型

文生图模型，例如step-1x系列，基于生成式人工智能技术，通过在大量数据上进行训练，学习自然语言与图像的对应关系，从而能根据文本描述生成相应的图像。

文生图大模型可以用于但不限于以下任务：

图像生成: 根据文本描述生成相应的图像，如风景、人物、物体等。
艺术创作: 结合文本和图像进行艺术创作，如绘画、插画、设计等。

使用这些模型时，通常需要提供一个 prompt，即一段引导性的文本，它告诉模型需要生成的图像类型以及相关的上下文信息。设计一个有效的 prompt 是至关重要的，因为它直接影响到模型输出的图像质量和相关性。

Context长度

Context长度指的是在自然语言处理任务中，模型在生成响应或进行预测时所考虑的输入文本的字符数量。这个长度限制了模型单次处理信息的范围。

重要性

效果影响：Context长度决定了模型能够记忆和处理的信息量，影响其理解和生成文本的效果。
性能影响：较大的Context长度可以提高模型的准确性，但同时也会增加计算资源的消耗。
费用影响：开发者需要在效果和成本之间做出权衡，较长的Context如下应用场景中所述可能提高效果，但也会增加使用成本。

应用场景

对话系统：在对话系统中，Context长度影响对话的连贯性和上下文理解。
创作：在文学创作中，较长的Context长度可以生成更连贯和逻辑性更强的文本。
学术论文和研究：学术论文通常很长，包含大量的背景信息、实验数据和详细讨论，较长的Context长度可以帮助模型更好地理解和总结这些文档。
小说和文学作品：对于文学作品的分析和理解，较长的Context长度可以帮助模型捕捉到故事的情节发展和角色之间的关系。

Token

在文本大模型中，Token 是处理文本的基本单位，它代表了文本中的一个有意义的字符序列。Token 可以是单个字符、单词、短语，甚至是句子，具体取决于模型的设定和训练数据的特点。在中文文本中，Token 的划分尤为关键，因为中文字符不像英文那样以空格分隔单词，而是以单个汉字或汉字组合来表达意思。

Token 的长度

汉字与 Token 的关系：一般而言，一个 Token 大约相当于 1.5 到 2 个汉字。这个比例是根据模型对中文文本的常规处理方式得出的，但实际的 Token 数量可能会因文本内容的不同而有所变化。

模型的上下文长度限制

最大上下文长度：文本模型在处理输入（Input）和输出（Output）时，需要遵守模型的最大上下文长度限制。这意味着输入和输出的 Token 总数不能超过模型设定的最大值。
长度限制的重要性：这一限制确保了模型能够有效地处理信息，避免因处理过长文本而导致的性能下降或错误。

实际应用中的考量

文本长度的规划：在实际应用中，需要根据模型的最大上下文长度来规划文本的长度，以确保文本能够被模型完整地理解和生成。
Token 优化：在某些情况下，可能需要对文本进行优化，比如通过减少不必要的 Token 或者重新组织文本结构，以适应模型的上下文长度限制。

速率限制

速率限制是确保服务稳定性和公平性的重要机制，它通过限制用户在特定时间内可以发起的请求数量来工作。以下是速率限制的3种主要衡量方式：

RPM (每分钟请求数): RPM 限制是基于时间的，它规定了用户在一分钟内可以发起的请求数量。例如，如果RPM限制是20，那么用户在任何连续的一分钟时间段内最多只能发起20个请求。

TPM(每分钟Token数): TPM 限制同样是基于时间的，但它衡量的是用户在一分钟内可以传输的 Token 数量。Token 通常是指请求以及响应中的数据单位，如果用户的请求非常简短，即使在一分钟内发起了很多请求，也可能不会达到TPM限制。

并发数(同时在线请求数): 并发限制基于同一时刻在线的推理请求数量。例如，如果并发限制是20，那么同时在线的请求数量最多只能是20个，超过并发限制的请求会被拒绝，除非旧的推理请求被处理完毕，新的推理请求才会被允许进入模型推理。

速率限制的触发: 速率限制可能会在以上任何一种选项中达到，具体取决于哪种限制先被触发。例如：


假如当前用户的速率限制规则RPM是20，TPM是200K，如果用户向 `ChatCompletions` 发送了20个请求，每个请求包含100个 Token，
即使TPM未达到200K，但是由于RPM已经达到20，也会触发速率限制