Override inductor default mm with batch invariant one for B200

PaulZhang12 · PaulZhang12 · commit f827c176b55b · 2025-11-02T20:05:35.000-08:00
diff --git a/vllm/config/compilation.py b/vllm/config/compilation.py
@@ -15,6 +15,9 @@
 from vllm.compilation.inductor_pass import CallableInductorPass, InductorPass
 from vllm.config.utils import config
 from vllm.logger import init_logger
+from vllm.model_executor.layers.batch_invariant import (
+    vllm_is_batch_invariant,
+)
 from vllm.platforms import current_platform
 from vllm.utils.import_utils import resolve_obj_by_qualname
 from vllm.utils.torch_utils import is_torch_equal_or_newer
@@ -579,6 +582,16 @@ def __post_init__(self) -> None:
             self.inductor_compile_config["combo_kernels"] = True
             self.inductor_compile_config["benchmark_combo_kernel"] = True
 
+        # Batch invariance on Blackwell doesn't work with cuda graphs
+        if vllm_is_batch_invariant() and current_platform.is_device_capability(100) >= (
+            10,
+            0,
+        ):
+            logger.warning(
+                "Disabling Cudagraphs: Batch invariance on Blackwell doesn't work with cuda graphs"
+            )
+            self.cudagraph_mode = CUDAGraphMode.NONE
+
         # migrate the deprecated flags
         if not self.use_cudagraph:
             logger.warning(