File tree 1 file changed +2
-6
lines changed 1 file changed +2
-6
lines changed Original file line number Diff line number Diff line change 6
6
在大模型预训练的指南中在遇到显存不足时我们曾经提到了模型量化,大模型量化(Quantization)是一种重要的模型压缩技术,它通过将模型中的参数从高精度(如 FP32)转换为低精度(如 INT8 或 FP16),以减小模型的体积、降低显存占用、加快推理速度,同时保持较好的模型性能。
7
7
8
8
模型量化的目标是在尽量不损失精度的前提下,让模型尽量更小更快。常见的量化类型如下:
9
- | 类型 | 示例 | 是否需训练 | 说明 |
10
- | --------------------------------- | ---------------------- | ----- | ------------- |
11
- | ** 权重量化(Weight Quantization)** | GPTQ, AWQ | 不一定 | 对模型参数进行压缩 |
12
- | ** 激活量化(Activation Quantization)** | SmoothQuant | 可选 | 对推理时中间激活值量化 |
13
9
14
- * 权重量化: 例如将模型的参数值由 FP32转为 INT8,一个参数就能节省24位 。
15
- * 激活量化:将模型的中间值用更小的整数来表示 。
10
+ * 权重量化(Weight Quantization):对模型参数进行压缩, 例如将模型的参数值由 FP32转为 INT8。
11
+ * 激活量化(Activation Quantization):对推理时中间激活值量化 。
16
12
17
13
<div align =" center " >
18
14
<img width="800" alt="llm" src="https://github.com/PaddlePaddle/PaddleNLP/assets/63761690/fe8f941b-4b35-48ca-814f-96533d7e24ce">
You can’t perform that action at this time.
0 commit comments