Fix int4 quantization

malfet · web-flow · commit d47461659560 · 2024-04-05T13:08:44.000-07:00
Discovered by @HDCharles
diff --git a/quantize.py b/quantize.py
@@ -486,7 +486,7 @@ def __init__(
             bias=True, device=None, dtype=None, groupsize: int = 128, inner_k_tiles: int = 8, use_cuda=True,
     ) -> None:
         super().__init__()
-        self.padding = _check_linear_int4_k(in_features, groupsize, inner_k_tiles)
+        self.padding = not _check_linear_int4_k(in_features, groupsize, inner_k_tiles)
         if self.padding:
             from model import find_multiple
             self.origin_in_features = in_features