hust17yixuan
diff --git a/‎tests/ut/torchair/test_utils.py‎
Lines changed: 13 additions & 0 deletions b/‎tests/ut/torchair/test_utils.py‎
Lines changed: 13 additions & 0 deletions
diff --git a/‎vllm_ascend/torchair/models/torchair_deepseek_v2.py‎
Lines changed: 5 additions & 3 deletions b/‎vllm_ascend/torchair/models/torchair_deepseek_v2.py‎
Lines changed: 5 additions & 3 deletions
diff --git a/‎vllm_ascend/torchair/quantization/__init__.py‎ b/‎vllm_ascend/torchair/quantization/__init__.py‎
diff --git a/‎vllm_ascend/torchair/quantization/torchair_quantizer.py‎
Lines changed: 29 additions & 0 deletions b/‎vllm_ascend/torchair/quantization/torchair_quantizer.py‎
Lines changed: 29 additions & 0 deletions
@@ -6,6 +6,7 @@
 import torch
 
 from tests.ut.base import TestBase
+from vllm_ascend.quantization.quantizer import SUPPORT_ASCEND_QUANTIZER_TYPE
 from vllm_ascend.torchair import utils
 
 
@@ -120,3 +121,15 @@ def test_converting_weight_acl_format_format_true(self, mock_npu_cast,
 
         utils.converting_weight_acl_format(model, ACL_FORMAT_FRACTAL_NZ)
         mock_npu_cast.assert_not_called()
+
+    def test_torchair_quant_method_register(self):
+        
+        TorchairW8A8DYNAMICQuantizer = SUPPORT_ASCEND_QUANTIZER_TYPE[
+            "W8A8_DYNAMIC"]
+        TorchairW4A8DYNAMICQuantizer = SUPPORT_ASCEND_QUANTIZER_TYPE[
+            "W4A8_DYNAMIC"]
+        utils.torchair_quant_method_register()
+        self.assertNotEqual(TorchairW8A8DYNAMICQuantizer,
+                            SUPPORT_ASCEND_QUANTIZER_TYPE["W8A8_DYNAMIC"])
+        self.assertNotEqual(TorchairW4A8DYNAMICQuantizer,
+                            SUPPORT_ASCEND_QUANTIZER_TYPE["W4A8_DYNAMIC"])
@@ -71,8 +71,9 @@
 
 from vllm_ascend.ascend_config import get_ascend_config
 from vllm_ascend.quantization.quant_config import AscendLinearMethod
-from vllm_ascend.quantization.w8a8_dynamic import AscendW8A8DynamicLinearMethod
 from vllm_ascend.torchair.ops.torchair_fused_moe import TorchairAscendFusedMoE
+from vllm_ascend.torchair.quantization.torchair_w8a8_dynamic import \
+    TorchairAscendW8A8DynamicLinearMethod
 from vllm_ascend.utils import dispose_tensor, npu_prefetch
 
 
@@ -261,8 +262,9 @@ def __init__(
         quant_method = self.gate_up_proj.quant_method
         if isinstance(quant_method, UnquantizedLinearMethod):
             self.act_fn = TorchairDeepseekV2SiluAndMul()
-        elif (isinstance(quant_method, AscendLinearMethod) and isinstance(
-                quant_method.quant_method, AscendW8A8DynamicLinearMethod)):
+        elif (isinstance(quant_method, AscendLinearMethod)
+              and isinstance(quant_method.quant_method,
+                             TorchairAscendW8A8DynamicLinearMethod)):
             # TODO(sdmyzlp): Currently preserved as before:
             # 1. The only quantization supported for silu is W8A8Dynamic
             # 2. Output dtype of gate_up/down is fixed to be int32/bfloat16
 
@@ -0,0 +1,29 @@
+from vllm_ascend.quantization.quantizer import VLLMAscendQuantizer
+from vllm_ascend.torchair.quantization.torchair_w4a8_dynamic import (
+    TorchairAscendW4A8DynamicFusedMoEMethod,
+    TorchairAscendW4A8DynamicLinearMethod)
+from vllm_ascend.torchair.quantization.torchair_w8a8_dynamic import (
+    TorchairAscendW8A8DynamicFusedMoEMethod,
+    TorchairAscendW8A8DynamicLinearMethod)
+
+
+class TorchairW8A8DYNAMICQuantizer(VLLMAscendQuantizer):
+
+    @staticmethod
+    def build_linear_method():
+        return TorchairAscendW8A8DynamicLinearMethod()
+
+    @staticmethod
+    def build_moe_method():
+        return TorchairAscendW8A8DynamicFusedMoEMethod()
+
+
+class TorchairW4A8DYNAMICQuantizer(VLLMAscendQuantizer):
+
+    @staticmethod
+    def build_linear_method():
+        return TorchairAscendW4A8DynamicLinearMethod()
+
+    @staticmethod
+    def build_moe_method():
+        return TorchairAscendW4A8DynamicFusedMoEMethod()