[Refactor] The sequence parallelism characteristics in the MoE and Dense models are integrated into a single solution.

weijinqian_v1 · weijinqian_v1 · commit 3166dde1b6c3 · 2025-09-23T14:47:33.000+08:00
Signed-off-by: weijinqian_v1 &lt;weijinqian@huawei.com&gt;
diff --git a/vllm_ascend/ops/linear_op.py b/vllm_ascend/ops/linear_op.py
@@ -91,8 +91,6 @@ def apply_impl(self, input_):
     # Replace layer.forward to customize the layer computation process.
     def apply(self, input_):
         output, output_bias = self.apply_impl(input_)
-        if dense_optim_enable():
-            torch.ops.vllm.maybe_prefetch_mlp_gate_up_proj(output, self.prefix)
         if not self.return_bias:
             return output
         return output, output_bias
@@ -123,6 +121,14 @@ def update_attrs(self):
         self.reduce_results = self.layer.reduce_results
         self.input_size_per_partition = self.layer.input_size_per_partition
 
+    def apply(self, input_):
+        output, output_bias = self.apply_impl(input_)
+        if dense_optim_enable():
+            torch.ops.vllm.maybe_prefetch_mlp_gate_up_proj(output, self.prefix)
+        if not self.return_bias:
+            return output
+        return output, output_bias
+
 
 class MLPColumnParallelOp(CustomColumnParallelOp):