PaddlePaddle
diff --git a/‎csrc/gpu/sage_attn_kernels/sageattn_fused.cu
Lines changed: 1027 additions & 0 deletions b/‎csrc/gpu/sage_attn_kernels/sageattn_fused.cu
Lines changed: 1027 additions & 0 deletions
diff --git a/‎csrc/gpu/sage_attn_kernels/sageattn_qk_int_sv_f16_kernel_sm80.cu
Lines changed: 1571 additions & 0 deletions b/‎csrc/gpu/sage_attn_kernels/sageattn_qk_int_sv_f16_kernel_sm80.cu
Lines changed: 1571 additions & 0 deletions
diff --git a/‎csrc/gpu/sage_attn_kernels/sageattn_qk_int_sv_f8_dsk_kernel_sm90.cu
Lines changed: 1108 additions & 0 deletions b/‎csrc/gpu/sage_attn_kernels/sageattn_qk_int_sv_f8_dsk_kernel_sm90.cu
Lines changed: 1108 additions & 0 deletions
diff --git a/‎csrc/gpu/sage_attn_kernels/sageattn_qk_int_sv_f8_kernel_sm89.cu
Lines changed: 1832 additions & 0 deletions b/‎csrc/gpu/sage_attn_kernels/sageattn_qk_int_sv_f8_kernel_sm89.cu
Lines changed: 1832 additions & 0 deletions
diff --git a/‎csrc/gpu/sage_attn_kernels/sageattn_qk_int_sv_f8_kernel_sm90.cu
Lines changed: 994 additions & 0 deletions b/‎csrc/gpu/sage_attn_kernels/sageattn_qk_int_sv_f8_kernel_sm90.cu
Lines changed: 994 additions & 0 deletions
diff --git a/‎csrc/gpu/sage_attn_kernels/sageattn_utils.cuh
Lines changed: 2741 additions & 0 deletions b/‎csrc/gpu/sage_attn_kernels/sageattn_utils.cuh
Lines changed: 2741 additions & 0 deletions
diff --git a/‎csrc/setup_cuda.py
Lines changed: 26 additions & 1 deletion b/‎csrc/setup_cuda.py
Lines changed: 26 additions & 1 deletion
diff --git a/‎paddlenlp/experimental/transformers/fused_transformer_layers.py
Lines changed: 109 additions & 36 deletions b/‎paddlenlp/experimental/transformers/fused_transformer_layers.py
Lines changed: 109 additions & 36 deletions
@@ -168,6 +168,31 @@ def get_gencode_flags():
         "gpu/fp8_gemm_with_cutlass/fp8_fp8_fp8_dual_gemm.cu",
     ]
 
+if cc >= 80 and cuda_version >= 12.4:
+    nvcc_compile_args += [
+        "-std=c++17",
+        "--use_fast_math",
+        "--threads=8",
+        "-D_GLIBCXX_USE_CXX11_ABI=1",
+    ]
+    sources += ["./gpu/sage_attn_kernels/sageattn_fused.cu"]
+    if cc >= 80 and cc < 89:
+        sources += [
+            "./gpu/sage_attn_kernels/sageattn_qk_int_sv_f16_kernel_sm80.cu"
+        ]
+        nvcc_compile_args += ["-gencode", f"arch=compute_80,code=compute_80"]
+    elif cc >= 89 and cc < 90:
+        sources += [
+            "./gpu/sage_attn_kernels/sageattn_qk_int_sv_f8_kernel_sm89.cu"
+        ]
+        nvcc_compile_args += ["-gencode", f"arch=compute_89,code=compute_89"]
+    elif cc >= 90:
+        sources += [
+            "./gpu/sage_attn_kernels/sageattn_qk_int_sv_f8_kernel_sm90.cu",
+            "./gpu/sage_attn_kernels/sageattn_qk_int_sv_f8_dsk_kernel_sm90.cu"
+        ]
+        nvcc_compile_args += ["-gencode", f"arch=compute_90a,code=compute_90a"]
+
 if cc >= 90 and cuda_version >= 12.0:
     os.system("python utils/auto_gen_fp8_fp8_gemm_fused_kernels_sm90.py --cuda_arch 90")
     os.system("python utils/auto_gen_fp8_fp8_gemm_fused_kernels_ptr_scale_sm90.py --cuda_arch 90")
@@ -188,7 +213,7 @@ def get_gencode_flags():
     name=ops_name,
     ext_modules=CUDAExtension(
         sources=sources,
-        extra_compile_args={"cxx": ["-O3"], "nvcc": nvcc_compile_args},
+        extra_compile_args={"cxx": ["-O3", "-fopenmp", "-lgomp", "-std=c++17", "-DENABLE_BF16"], "nvcc": nvcc_compile_args},
         libraries=["cublasLt"],
         library_dirs=[library_path],
     ),
 
@@ -71,6 +71,7 @@ def use_cutlass_fp8_gemm():
             transpose_remove_padding,
             write_cache_kv,
         )
+
     except:
         pass
 
@@ -2969,18 +2970,42 @@ def compute_mla_absorb(
         if kwargs["max_enc_len_this_time"]:  # prefill phase
             query, key, value = self.compute_qkv_linear(ln_out, i, latent_cache=latent_cache, **kwargs)
 
-            fmha_out_prefill = paddle.nn.functional.flash_attention.flash_attn_unpadded(
-                query,
-                key,
-                value,
-                kwargs.get("cu_seqlens_q", None),
-                kwargs.get("cu_seqlens_k", None),
-                kwargs.get("max_enc_len_this_time", -1),
-                kwargs.get("max_enc_len_this_time", -1),
-                self.softmax_scale,
-                causal=True,
-                training=False,
-            )[0]
+            from paddlenlp.utils.env import PREFILL_USE_SAGE_ATTN
+
+            if PREFILL_USE_SAGE_ATTN:
+                from .sageattention import sageattn_qk_int8_pv_fp8_cuda_dsk_sm90
+
+                query_192 = paddle.unsqueeze(query, axis=0)
+                key_192 = paddle.unsqueeze(key, axis=0)
+
+                value_128, _ = paddle.split(value, [128, 64], axis=-1)
+                value_128 = paddle.unsqueeze(value_128, axis=0)
+
+                fmha_out_prefill = sageattn_qk_int8_pv_fp8_cuda_dsk_sm90(
+                    query_192,
+                    key_192,
+                    kwargs.get("cu_seqlens_q", None),
+                    kwargs.get("cu_seqlens_k", None),
+                    value_128,
+                    is_causal=True,
+                    sm_scale=self.softmax_scale,
+                    tensor_layout="NHD",
+                )
+                fmha_out_prefill = paddle.nn.functional.pad(fmha_out_prefill, (0, 192 - 128))
+                fmha_out_prefill = paddle.squeeze(fmha_out_prefill, axis=0)
+            else:
+                fmha_out_prefill = paddle.nn.functional.flash_attention.flash_attn_unpadded(
+                    query,
+                    key,
+                    value,
+                    kwargs.get("cu_seqlens_q", None),
+                    kwargs.get("cu_seqlens_k", None),
+                    kwargs.get("max_enc_len_this_time", -1),
+                    kwargs.get("max_enc_len_this_time", -1),
+                    self.softmax_scale,
+                    causal=True,
+                    training=False,
+                )[0]
 
             fmha_out_prefill = fmha_out_prefill.reshape([-1, self.num_heads, self.config.mla_config.qk_head_dim])
             fmha_out_prefill = fmha_out_prefill[:, :, : self.config.mla_config.v_head_dim]
@@ -3302,18 +3327,42 @@ def compute_mla_absorb(
         if kwargs["max_enc_len_this_time"]:  # prefill phase
             query, key, value = self.compute_qkv_linear(ln_out, i, latent_cache=latent_cache, **kwargs)
 
-            fmha_out_prefill = paddle.nn.functional.flash_attention.flash_attn_unpadded(
-                query,
-                key,
-                value,
-                kwargs.get("cu_seqlens_q", None),
-                kwargs.get("cu_seqlens_k", None),
-                kwargs.get("max_enc_len_this_time", -1),
-                kwargs.get("max_enc_len_this_time", -1),
-                self.softmax_scale,
-                causal=True,
-                training=False,
-            )[0]
+            from paddlenlp.utils.env import PREFILL_USE_SAGE_ATTN
+
+            if PREFILL_USE_SAGE_ATTN:
+                from .sageattention import sageattn_qk_int8_pv_fp8_cuda_dsk_sm90
+
+                query_192 = paddle.unsqueeze(query, axis=0)
+                key_192 = paddle.unsqueeze(key, axis=0)
+
+                value_128, _ = paddle.split(value, [128, 64], axis=-1)
+                value_128 = paddle.unsqueeze(value_128, axis=0)
+
+                fmha_out_prefill = sageattn_qk_int8_pv_fp8_cuda_dsk_sm90(
+                    query_192,
+                    key_192,
+                    kwargs.get("cu_seqlens_q", None),
+                    kwargs.get("cu_seqlens_k", None),
+                    value_128,
+                    is_causal=True,
+                    sm_scale=self.softmax_scale,
+                    tensor_layout="NHD",
+                )
+                fmha_out_prefill = paddle.nn.functional.pad(fmha_out_prefill, (0, 192 - 128))
+                fmha_out_prefill = paddle.squeeze(fmha_out_prefill, axis=0)
+            else:
+                fmha_out_prefill = paddle.nn.functional.flash_attention.flash_attn_unpadded(
+                    query,
+                    key,
+                    value,
+                    kwargs.get("cu_seqlens_q", None),
+                    kwargs.get("cu_seqlens_k", None),
+                    kwargs.get("max_enc_len_this_time", -1),
+                    kwargs.get("max_enc_len_this_time", -1),
+                    self.softmax_scale,
+                    causal=True,
+                    training=False,
+                )[0]
 
             fmha_out_prefill = fmha_out_prefill.reshape([-1, self.num_heads, self.config.mla_config.qk_head_dim])
             fmha_out_prefill = fmha_out_prefill[:, :, : self.config.mla_config.v_head_dim]
@@ -4997,18 +5046,42 @@ def compute_mla_absorb(
         if kwargs["max_enc_len_this_time"]:  # prefill phase
             query, key, value = self.compute_qkv_linear(ln_out, i, latent_cache=latent_cache, **kwargs)
 
-            fmha_out_prefill = paddle.nn.functional.flash_attention.flash_attn_unpadded(
-                query,
-                key,
-                value,
-                kwargs.get("cu_seqlens_q", None),
-                kwargs.get("cu_seqlens_k", None),
-                kwargs.get("max_enc_len_this_time", -1),
-                kwargs.get("max_enc_len_this_time", -1),
-                self.softmax_scale,
-                causal=True,
-                training=False,
-            )[0]
+            from paddlenlp.utils.env import PREFILL_USE_SAGE_ATTN
+
+            if PREFILL_USE_SAGE_ATTN:
+                from .sageattention import sageattn_qk_int8_pv_fp8_cuda_dsk_sm90
+
+                query_192 = paddle.unsqueeze(query, axis=0)
+                key_192 = paddle.unsqueeze(key, axis=0)
+
+                value_128, _ = paddle.split(value, [128, 64], axis=-1)
+                value_128 = paddle.unsqueeze(value_128, axis=0)
+
+                fmha_out_prefill = sageattn_qk_int8_pv_fp8_cuda_dsk_sm90(
+                    query_192,
+                    key_192,
+                    kwargs.get("cu_seqlens_q", None),
+                    kwargs.get("cu_seqlens_k", None),
+                    value_128,
+                    is_causal=True,
+                    sm_scale=self.softmax_scale,
+                    tensor_layout="NHD",
+                )
+                fmha_out_prefill = paddle.nn.functional.pad(fmha_out_prefill, (0, 192 - 128))
+                fmha_out_prefill = paddle.squeeze(fmha_out_prefill, axis=0)
+            else:
+                fmha_out_prefill = paddle.nn.functional.flash_attention.flash_attn_unpadded(
+                    query,
+                    key,
+                    value,
+                    kwargs.get("cu_seqlens_q", None),
+                    kwargs.get("cu_seqlens_k", None),
+                    kwargs.get("max_enc_len_this_time", -1),
+                    kwargs.get("max_enc_len_this_time", -1),
+                    self.softmax_scale,
+                    causal=True,
+                    training=False,
+                )[0]
 
             fmha_out_prefill = fmha_out_prefill.reshape([-1, self.num_heads, self.config.mla_config.qk_head_dim])
             fmha_out_prefill = fmha_out_prefill[:, :, : self.config.mla_config.v_head_dim]