Skip to content

Commit 01515b1

Browse files
authored
[Docs] del tables in quantization_tutorial.md
1 parent f6820fd commit 01515b1

File tree

1 file changed

+2
-6
lines changed

1 file changed

+2
-6
lines changed

llm/docs/quantization_tutorial.md

Lines changed: 2 additions & 6 deletions
Original file line numberDiff line numberDiff line change
@@ -6,13 +6,9 @@
66
在大模型预训练的指南中在遇到显存不足时我们曾经提到了模型量化,大模型量化(Quantization)是一种重要的模型压缩技术,它通过将模型中的参数从高精度(如 FP32)转换为低精度(如 INT8 或 FP16),以减小模型的体积、降低显存占用、加快推理速度,同时保持较好的模型性能。
77

88
模型量化的目标是在尽量不损失精度的前提下,让模型尽量更小更快。常见的量化类型如下:
9-
| 类型 | 示例 | 是否需训练 | 说明 |
10-
| --------------------------------- | ---------------------- | ----- | ------------- |
11-
| **权重量化(Weight Quantization)** | GPTQ, AWQ | 不一定 | 对模型参数进行压缩 |
12-
| **激活量化(Activation Quantization)** | SmoothQuant | 可选 | 对推理时中间激活值量化 |
139

14-
* 权重量化例如将模型的参数值由 FP32转为 INT8,一个参数就能节省24位
15-
* 激活量化:将模型的中间值用更小的整数来表示
10+
* 权重量化(Weight Quantization):对模型参数进行压缩,例如将模型的参数值由 FP32转为 INT8。
11+
* 激活量化(Activation Quantization):对推理时中间激活值量化
1612

1713
<div align="center">
1814
<img width="800" alt="llm" src="https://github.com/PaddlePaddle/PaddleNLP/assets/63761690/fe8f941b-4b35-48ca-814f-96533d7e24ce">

0 commit comments

Comments
 (0)