关键概念
文本大模型
文本大模型,例如step-1系列,基于生成式人工智能技术,通过在大量数据上进行训练,以理解和生成自然语言。
文本大模型可以用于但不限于以下任务:
- 内容生成:生成文章、故事、对话等。
- 代码生成:根据描述生成代码片段。
- 摘要:将长篇文章或文档缩减为简短的摘要。
- 翻译:将一种语言翻译成另一种语言。
- 问答:回答各种问题,从简单的事实查询到复杂的推理问题。
- 创意写作:创作诗歌、歌词或其他形式的创意文本。
- 语言理解:进行情感分析、文本分类等。
- 对话系统:与用户进行自然语言对话,模拟聊天机器人或虚拟助手。
使用这些模型时,通常需要提供一个prompt
,即一段引导性的文本,它告诉模型需要执行的任务类型以及相关的上下文信息。设计一个有效的prompt
是至关重要的,因为它直接影响到模型输出的质量和相关性。
多模态大模型
多模态大模型,在文本大模型基础上,增加了对多种模态(如图像、音频、视频等)数据的处理能力,如step-1v系列,目前能够理解处理文本以及图像。 多模态大模型的核心优势在于更符合人类认知世界的习惯,因为人类通过多种感官接收多模态信息,这些信息通常是互补和协同的,使用多模态大模型可以更好地理解这些信息以及进行推理。
多模态大模型可以用于但不限于以下任务:
- 图像到文本的翻译:为图像生成描述性文本。
- 对话系统:结合文本和图像信息回答复杂问题。
- 创作:根据图像和文本创作文学作品。
- 医疗影像诊断:结合医学影像(如X光片、MRI图像)和病人的病历文本,多模态模型可以帮助医生更准确地诊断疾病。
- 搜索引擎:搜索引擎可以利用多模态技术来理解用户的查询意图,结合文本、图像,提供更相关的搜索结果。
- 自动驾驶:自动驾驶汽车可以使用多模态模型来处理来自多个传感器(如摄像头、雷达、激光雷达)的数据,以更好地理解周围环境并做出驾驶决策。
文生图模型
文生图模型,例如step-1x系列,基于生成式人工智能技术,通过在大量数据上进行训练,学习自然语言与图像的对应关系,从而能根据文本描述生成相应的图像。
文生图大模型可以用于但不限于以下任务:
- 图像生成: 根据文本描述生成相应的图像,如风景、人物、物体等。
- 艺术创作: 结合文本和图像进行艺术创作,如绘画、插画、设计等。
使用这些模型时,通常需要提供一个 prompt
,即一段引导性的文本,它告诉模型需要生成的图像类型以及相关的上下文信息。设计一个有效的 prompt
是至关重要的,因为它直接影响到模型输出的图像质量和相关性。
Context长度
Context长度指的是在自然语言处理任务中,模型在生成响应或进行预测时所考虑的输入文本的字符数量。这个长度限制了模型单次处理信息的范围。
重要性
- 效果影响:Context长度决定了模型能够记忆和处理的信息量,影响其理解和生成文本的效果。
- 性能影响:较大的Context长度可以提高模型的准确性,但同时也会增加计算资源的消耗。
- 费用影响:开发者需要在效果和成本之间做出权衡,较长的Context如下应用场景中所述可能提高效果,但也会增加使用成本。
应用场景
- 对话系统:在对话系统中,Context长度影响对话的连贯性和上下文理解。
- 创作:在文学创作中,较长的Context长度可以生成更连贯和逻辑性更强的文本。
- 学术论文和研究:学术论文通常很长,包含大量的背景信息、实验数据和详细讨论,较长的Context长度可以帮助模型更好地理解和总结这些文档。
- 小说和文学作品:对于文学作品的分析和理解,较长的Context长度可以帮助模型捕捉到故事的情节发展和角色之间的关系。
Token
在文本大模型中,Token 是处理文本的基本单位,它代表了文本中的一个有意义的字符序列。Token 可以是单个字符、单词、短语,甚至是句子,具体取决于模型的设定和训练数据的特点。在中文文本中,Token 的划分尤为关键,因为中文字符不像英文那样以空格分隔单词,而是以单个汉字或汉字组合来表达意思。
Token 的长度
- 汉字与 Token 的关系:一般而言,一个 Token 大约相当于 1.5 到 2 个汉字。这个比例是根据模型对中文文本的常规处理方式得出的,但实际的 Token 数量可能会因文本内容的不同而有所变化。
模型的上下文长度限制
- 最大上下文长度:文本模型在处理输入(Input)和输出(Output)时,需要遵守模型的最大上下文长度限制。这意味着输入和输出的 Token 总数不能超过模型设定的最大值。
- 长度限制的重要性:这一限制确保了模型能够有效地处理信息,避免因处理过长文本而导致的性能下降或错误。
实际应用中的考量
- 文本长度的规划:在实际应用中,需要根据模型的最大上下文长度来规划文本的长度,以确保文本能够被模型完整地理解和生成。
- Token 优化:在某些情况下,可能需要对文本进行优化,比如通过减少不必要的 Token 或者重新组织文本结构,以适应模型的上下文长度限制。
速率限制
速率限制是确保服务稳定性和公平性的重要机制,它通过限制用户在特定时间内可以发起的请求数量来工作。以下是速率限制的3种主要衡量方式:
RPM (每分钟请求数): RPM 限制是基于时间的,它规定了用户在一分钟内可以发起的请求数量。例如,如果RPM限制是20,那么用户在任何连续的一分钟时间段内最多只能发起20个请求。
TPM(每分钟Token数): TPM 限制同样是基于时间的,但它衡量的是用户在一分钟内可以传输的 Token 数量。Token 通常是指请求以及响应中的数据单位,如果用户的请求非常简短,即使在一分钟内发起了很多请求,也可能不会达到TPM限制。
并发数(同时在线请求数): 并发 限制基于同一时刻在线的推理请求数量。例如,如果并发限制是20,那么同时在线的请求数量最多只能是20个,超过并发限制的请求会被拒绝,除非旧的推理请求被处理完毕,新的推理请求才会被允许进入模型推理。
速率限制的触发: 速率限制可能会在以上任何一种选项中达到,具体取决于哪种限制先被触发。例如:
假如当前用户的速率限制规则RPM是20,TPM是200K,如果用户向 `ChatCompletions` 发送了20个请求,每个请求包含100个 Token,
即使TPM未达到200K,但是由于RPM已经达到20,也会触发速率限制