世界热议:大模型开发者必备手册:这些数字值得记住

来源: 量子位

GPT-4 的使用成本,竟然是 GPT-3.5 的 50 倍之多;

而让大语言模型同时处理 25 个请求的时间,仅是处理单个请求的 2 倍……

这些数据听上去可能有些出乎意料,但都是真实的。


【资料图】

它们出自一篇名为《大语言模型(LLM)开发者必须知道的数字》的 GitHub 文章。

文章发布之后仅 1 天,便获得了 1200 次星标。

文章基于真实的开发经验,介绍了提示工程、硬件资源、价格等方面的数据。

就算没有成为开发者的打算,拿来扩充一下知识储备也是极好的。

都有哪些数字值得关注

我们不妨先来看一下文章作者制作的速览图表:

接下来,我们就来详细介绍一下这些数据。

提示工程

40-90%:在提示词中加入 "Be Concise" 节约的成本

使用 LLM 是按照回复的 token 数量付费的,因此让 LLM 的回答简明扼要可以节约成本。

在提示词中加入 "Be Concise"(答案简明些),可以节约 40-90% 的成本。

1.3:每个单词的平均 token 数

LLM 是对 token 进行操作的,token 可能包含完整单词或其中的一部分。

如 "eating" 是由 "eat" 和后缀 "ing" 两个 token 组成。

一篇 750 词的英文文章中大约含有 1000 个 token。

而对于其他语言,每个词所含的 token 数量可能更多。

价格

价格数据会存在波动,本节的价格数据主要参考 OpenAI,但其他公司数据也相似。

约 50 倍:GPT-4 与 GPT-3.5 花费的比值

效果上,GPT-4 的表现明显好于 GPT-3.5,但其成本约为后者的 50 倍之多。

因此,对于诸如总结这类 GPT-3.5 也能出色完成的任务,可以考虑不使用更昂贵的 GPT-4。

5 倍:GPT-3.5-Turbo 生成与使用 OpenAI embedding 的成本比

诸如 " 美国的首都是哪里 " 这类可以通过检索得到答案的问题,让 LLM 生成答案的成本是检索的 5 倍。

而如果使用 GPT-4,成本差异将高达 250 倍。

10 倍:OpenAI embedding 与自建 embedding 的成本比

这一数字为大约数值,实际情况可能随着 embedding 的规模而变化。

6 倍:微调版与基本版 OpenAI 模型的成本比值

尽管成本较为昂贵,但对基本 OpenAI 模型的微调是有意义的。

对基本模型进行微调的效益明显高于定制模型。

1 倍:自建模型是否进行微调的成本比

由于参数量相同,是否进行微调对自建模型的成本几乎没有影响。

训练与微调

约 100 万美元:在 1.4 万亿 token 上训练 130 亿参数模型的成本

这一数字是建立在一切工作都十分顺利、没有发生崩溃的前提下计算出的。

Meta 的大语言模型 LLaMA 的论文当中显示,用 2048 块 80GB A100 GPU 进行训练 LLaMA 一共花费了 21 天。

<0.001:微调与从头开始训练的成本比

这一数据有一些笼统,但微调的成本几乎可以忽略不计。

对一个 60 亿参数模型进行微调的成本大约是 7 美元。

即使是最贵的 OpenAI 模型 Davinci,1000 个 token 的微调成本也只有 3 美分。

相对于对一部莎士比亚全集进行微调也只需要 40 美元。

GPU 消耗

如果你要自建模型,了解其 GPU 消耗十分重要。

本节所列数据仅是推理过程所消耗的资源量,训练和微调过程还需要更多资源。

V100: 16GB, A10G: 24GB, A100: 40/80GB:GPU 内存大小

GPU 内存大小决定了 LLM 的参数量上限。

24GB 的 A10G 在亚马逊云服务中的价格为 1.5-2 美元每小时。

参数量的 2 倍:LLM 的典型 GPU 内存需求

例如,7B 参数量的 LLM 需要消耗 14GB 的 GPU 内存。

这是因为大多数时候,每个参数需要 16bit 浮点空间。

通常情况下不需要使用超过 16bit 的精度,8bit 则会显著降低结果精准度。

约 1GB:嵌入式模型的典型 GPU 内存需求

嵌入式模型消耗的本地 GPU 资源是很小的。

甚至可以在一块 GPU 上同时运行多个嵌入式模型。

超过 10 倍:批量处理 LLM 请求带来的吞吐量改善

在 GPU 上运行 LLM 时往往会有较大延迟。

一次请求消耗的时间可能长达 5 秒,相对于每秒仅能处理 0.2 个。

但如果同时发送两个请求,消耗的时间约为 5.2 秒。

而将 25 个请求捆绑发出的耗时约为 10 秒,相对于每秒可处理 2.5 个请求。

约 1MB:130 亿参数模型输出 1 个 token 所需的 GPU 内存

内存消耗量与生成 token 数成正比。

512 个 token(约 380 个英文单词)需要消耗 512MB 的空间。

作者简介

这篇文章的作者来自开源人工智能框架 Ray 的开发公司 Anyscale。

主要贡献者是 Google 前首席工程师 Waleed Kadous。

他也曾担任 Uber CTO 办公室工程战略负责人。

其中一位华人合作者是 Google 前员工 Huaiwei Sun。

他来自江苏昆山,本科毕业于上海交通大学工业设计专业。

期间,他参加了耶鲁大学 summer school 并取得了满绩。

此后他取得了佐治亚理工学院硕士学位,研究方向为人机交互。

此外还有其他作者也参与了这篇文章的工作,未来也可能有更多人加入。

参考链接:

[ 1 ] https://github.com/ray-project/llm-numbers

[ 2 ] https://www.linkedin.com/in/scottsun94/

相关新闻