whx-sjtu
diff --git a/‎tests/ut/models/conftest.py‎
Lines changed: 1 addition & 15 deletions b/‎tests/ut/models/conftest.py‎
Lines changed: 1 addition & 15 deletions
diff --git a/‎tests/ut/models/test_deepseek_mtp.py‎
Lines changed: 0 additions & 2 deletions b/‎tests/ut/models/test_deepseek_mtp.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎tests/ut/models/test_deepseek_v2.py‎
Lines changed: 0 additions & 107 deletions b/‎tests/ut/models/test_deepseek_v2.py‎
Lines changed: 0 additions & 107 deletions
diff --git a/‎tests/ut/ops/test_llm_head.py‎
Lines changed: 42 additions & 0 deletions b/‎tests/ut/ops/test_llm_head.py‎
Lines changed: 42 additions & 0 deletions
diff --git a/‎vllm_ascend/models/__init__.py‎
Lines changed: 0 additions & 8 deletions b/‎vllm_ascend/models/__init__.py‎
Lines changed: 0 additions & 8 deletions
@@ -90,25 +90,11 @@ def mock_distributed():
     mock_vllm_config.scheduler_config = Mock(max_num_seqs=256)
     mock_vllm_config.model_config = Mock(max_model_len=2048, quant_config=None)
 
-    with patch("vllm_ascend.models.deepseek_v2.get_tensor_model_parallel_rank", return_value=0), \
-            patch("vllm_ascend.models.deepseek_v2.get_tensor_model_parallel_world_size", return_value=1), \
-            patch("vllm_ascend.models.deepseek_v2.get_tp_group", return_value=tp_group), \
-            patch("vllm_ascend.models.deepseek_v2.get_pp_group", return_value=pp_group), \
-            patch("vllm_ascend.models.deepseek_v2.get_pp_group",
-                  return_value=Mock(is_first_rank=False, is_last_rank=False)), \
-            patch("vllm_ascend.ops.fused_moe.get_current_vllm_config", return_value=mock_vllm_config), \
+    with patch("vllm_ascend.ops.fused_moe.get_current_vllm_config", return_value=mock_vllm_config), \
             patch("vllm_ascend.ops.moe.token_dispatcher.torch.distributed.get_rank", return_value=0), \
             patch("vllm_ascend.ops.moe.token_dispatcher.get_ascend_soc_version", return_value=None), \
             patch.dict("vllm.distributed.parallel_state.__dict__", _TP=tp_group, _EP=ep_group, _DP=dp_group,
                        _PP=pp_group), \
             patch.dict("vllm_ascend.distributed.parallel_state.__dict__", _MC2=ep_group), \
             patch("torch.npu.current_device", return_value=0):
         yield
-
-
-@pytest.fixture
-def mock_forward_context():
-    forward_context = Mock(in_profile_run=False, with_prefill=False)
-    with patch("vllm_ascend.models.deepseek_v2.get_forward_context",
-               return_value=forward_context):
-        yield
@@ -37,8 +37,6 @@ def setup_mtp_layer(self, mocker: MockerFixture, vllm_config: VllmConfig,
         mocker.patch(
             "vllm_ascend.ops.vocab_parallel_embedding.AscendVocabParallelEmbedding.__init__",
             return_value=None)
-        mocker.patch("vllm_ascend.models.deepseek_v2.get_ascend_config",
-                     return_value=mocker.Mock())
 
         mtp_layer = CustomDeepSeekMultiTokenPredictorLayer(config, "0", None)
         mocker_deepseek_v2_decode_layer.assert_called_once()
 
@@ -0,0 +1,42 @@
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# This file is a part of the vllm-ascend project.
+#
+from unittest.mock import patch
+
+import torch
+from vllm.model_executor.layers.logits_processor import LogitsProcessor
+from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+
+
+def test_deepseek_v2_lmhead():
+    class SimpleConfig:
+
+        def __init__(self):
+            self.vocab_size = 10000
+            self.hidden_size = 128
+
+    config = SimpleConfig()
+
+    lmhead = ParallelLMHead(config.vocab_size, config.hidden_size)
+    logits_processor = LogitsProcessor(config.vocab_size)
+
+    mock_output = torch.randn(2, 4, config.hidden_size)
+    mock_logits = torch.randn(2, 4, config.vocab_size)
+
+    with patch.object(lmhead.quant_method, "apply", return_value=mock_logits):
+        with patch.object(logits_processor,
+                          "_gather_logits",
+                          return_value=mock_logits):
+            logits = logits_processor(lmhead, mock_output)
+    assert logits.shape == (2, 4, config.vocab_size)
@@ -29,14 +29,6 @@ def register_model():
             "vllm_ascend.models.qwen2_5_vl_without_padding:AscendQwen2_5_VLForConditionalGeneration_Without_Padding"
         )
 
-    ModelRegistry.register_model(
-        "DeepseekV2ForCausalLM",
-        "vllm_ascend.models.deepseek_v2:CustomDeepseekV2ForCausalLM")
-
-    ModelRegistry.register_model(
-        "DeepseekV3ForCausalLM",
-        "vllm_ascend.models.deepseek_v2:CustomDeepseekV3ForCausalLM")
-
     ModelRegistry.register_model(
         "DeepSeekMTPModel",
         "vllm_ascend.models.deepseek_mtp:CustomDeepSeekMTP")