hust17yixuan
diff --git a/‎tests/ut/torchair/test_utils.py‎
Lines changed: 9 additions & 0 deletions b/‎tests/ut/torchair/test_utils.py‎
Lines changed: 9 additions & 0 deletions
diff --git a/‎vllm_ascend/torchair/models/torchair_deepseek_v2.py‎
Lines changed: 2 additions & 2 deletions b/‎vllm_ascend/torchair/models/torchair_deepseek_v2.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎vllm_ascend/torchair/quantization/__init__.py‎ b/‎vllm_ascend/torchair/quantization/__init__.py‎
diff --git a/‎vllm_ascend/torchair/quantization/torchair_quantizer.py‎
Lines changed: 29 additions & 0 deletions b/‎vllm_ascend/torchair/quantization/torchair_quantizer.py‎
Lines changed: 29 additions & 0 deletions
@@ -7,6 +7,7 @@
 
 from tests.ut.base import TestBase
 from vllm_ascend.torchair import utils
+from vllm_ascend.quantization.quantizer import SUPPORT_ASCEND_QUANTIZER_TYPE
 
 
 class TestTorchairUtils(TestBase):
@@ -120,3 +121,11 @@ def test_converting_weight_acl_format_format_true(self, mock_npu_cast,
 
         utils.converting_weight_acl_format(model, ACL_FORMAT_FRACTAL_NZ)
         mock_npu_cast.assert_not_called()
+
+    def test_torchair_quant_method_register(self):
+        
+        TorchairW8A8DYNAMICQuantizer = SUPPORT_ASCEND_QUANTIZER_TYPE["W8A8_DYNAMIC"] 
+        TorchairW4A8DYNAMICQuantizer = SUPPORT_ASCEND_QUANTIZER_TYPE["W4A8_DYNAMIC"]
+        utils.torchair_quant_method_register()
+        self.assertNotEqual(TorchairW8A8DYNAMICQuantizer, SUPPORT_ASCEND_QUANTIZER_TYPE["W8A8_DYNAMIC"])
+        self.assertNotEqual(TorchairW4A8DYNAMICQuantizer, SUPPORT_ASCEND_QUANTIZER_TYPE["W4A8_DYNAMIC"])
@@ -71,7 +71,7 @@
 
 from vllm_ascend.ascend_config import get_ascend_config
 from vllm_ascend.quantization.quant_config import AscendLinearMethod
-from vllm_ascend.quantization.w8a8_dynamic import AscendW8A8DynamicLinearMethod
+from vllm_ascend.torchair.quantization.torchair_w8a8_dynamic import TorchairAscendW8A8DynamicLinearMethod
 from vllm_ascend.torchair.ops.torchair_fused_moe import TorchairAscendFusedMoE
 from vllm_ascend.utils import dispose_tensor, npu_prefetch
 
@@ -262,7 +262,7 @@ def __init__(
         if isinstance(quant_method, UnquantizedLinearMethod):
             self.act_fn = TorchairDeepseekV2SiluAndMul()
         elif (isinstance(quant_method, AscendLinearMethod) and isinstance(
-                quant_method.quant_method, AscendW8A8DynamicLinearMethod)):
+                quant_method.quant_method, TorchairAscendW8A8DynamicLinearMethod)):
             # TODO(sdmyzlp): Currently preserved as before:
             # 1. The only quantization supported for silu is W8A8Dynamic
             # 2. Output dtype of gate_up/down is fixed to be int32/bfloat16
 
@@ -0,0 +1,29 @@
+from vllm_ascend.quantization.quantizer import VLLMAscendQuantizer
+from vllm_ascend.torchair.quantization.torchair_w4a8_dynamic import (
+    TorchairAscendW4A8DynamicFusedMoEMethod,
+    TorchairAscendW4A8DynamicLinearMethod)
+from vllm_ascend.torchair.quantization.torchair_w8a8_dynamic import (
+    TorchairAscendW8A8DynamicFusedMoEMethod,
+    TorchairAscendW8A8DynamicLinearMethod)
+
+
+class TorchairW8A8DYNAMICQuantizer(VLLMAscendQuantizer):
+
+    @staticmethod
+    def build_linear_method():
+        return TorchairAscendW8A8DynamicLinearMethod()
+
+    @staticmethod
+    def build_moe_method():
+        return TorchairAscendW8A8DynamicFusedMoEMethod()
+
+
+class TorchairW4A8DYNAMICQuantizer(VLLMAscendQuantizer):
+
+    @staticmethod
+    def build_linear_method():
+        return TorchairAscendW4A8DynamicLinearMethod()
+
+    @staticmethod
+    def build_moe_method():
+        return TorchairAscendW4A8DynamicFusedMoEMethod()