Add pow_2_scales param

lshpku · lshpku · commit 13d4924fc81e · 2025-05-28T11:32:15.000Z
diff --git a/slm/model_zoo/gpt-3/external_ops/fused_quanted_ops/fused_transpose_split_quant.cu b/slm/model_zoo/gpt-3/external_ops/fused_quanted_ops/fused_transpose_split_quant.cu
@@ -64,15 +64,15 @@ __device__ void BlockColumnMax(const __nv_bfloat16 input[4][4],
   }
 }
 
-template <typename OutT, int VecSize>
+template <typename OutT, bool Pow2Scales, int VecSize>
 __device__ void BlockStoreScale(float* scale,
                                 __nv_bfloat16 amax[4],
                                 float scale_inv[4],
                                 size_t K) {
   float scale_out[4];
   for (int i = 0; i < 4; i++) {
-    float amax_fp32 = static_cast<float>(amax[i]);
-    scale_inv[i] = ComputeScale<__nv_bfloat16, OutT, true>(amax_fp32, 0.0f);
+    scale_inv[i] = ComputeScale<__nv_bfloat16, OutT, Pow2Scales>(
+        static_cast<float>(amax[i]), 0.0f);
     scale_out[i] = __frcp_rn(scale_inv[i]);
   }
   if (threadIdx.y == 0) {
@@ -129,7 +129,7 @@ __device__ void BlockStoreOut(OutT* out,
   }
 }
 
-template <typename OutT, int VecSize>
+template <typename OutT, bool Pow2Scales, int VecSize>
 __global__ void __launch_bounds__(1024, 2) FusedTransposeSplitQuantKernel(
     const phi::bfloat16* __restrict__ X,
     OutT* __restrict__ out,
@@ -149,7 +149,7 @@ __global__ void __launch_bounds__(1024, 2) FusedTransposeSplitQuantKernel(
 
   // Compute scale and scale_inv, then store scale back
   float scale_inv[4];
-  BlockStoreScale<OutT, VecSize>(scale, amax, scale_inv, K);
+  BlockStoreScale<OutT, Pow2Scales, VecSize>(scale, amax, scale_inv, K);
 
   // Scale X and save into shared memory with transposed layout
   for (int i = 0; i < 4; i++) {
@@ -187,7 +187,9 @@ __global__ void __launch_bounds__(1024, 2) FusedTransposeSplitQuantKernel(
  *   2) K <= 65535 * 128
  */
 std::vector<paddle::Tensor> fused_transpose_split_quant(
-    const paddle::Tensor& X, const std::vector<int64_t>& tokens_per_expert) {
+    const paddle::Tensor& X,
+    const std::vector<int64_t>& tokens_per_expert,
+    bool pow_2_scales) {
   PD_CHECK(X.dtype() == paddle::DataType::BFLOAT16);
 
   std::vector<int64_t> shape = X.shape();
@@ -242,21 +244,29 @@ std::vector<paddle::Tensor> fused_transpose_split_quant(
   dim3 grid(M / 128, (K + 127) / 128);
   dim3 block(32, 32);
 
-#define LAUNCH_KERNEL(VEC_SIZE) \
-  FusedTransposeSplitQuantKernel<phi::float8_e4m3fn, VEC_SIZE> \
-      <<<grid, block>>>(X.data<phi::bfloat16>(), \
-                        out.data<phi::float8_e4m3fn>(), \
-                        scale.data<float>(), \
-                        tokens_per_expert_gpu.data<int64_t>(), \
-                        tokens_per_expert.size(), \
+#define LAUNCH_KERNEL(POW_2_SCALES, VEC_SIZE)                                \
+  FusedTransposeSplitQuantKernel<phi::float8_e4m3fn, POW_2_SCALES, VEC_SIZE> \
+      <<<grid, block>>>(X.data<phi::bfloat16>(),                             \
+                        out.data<phi::float8_e4m3fn>(),                      \
+                        scale.data<float>(),                                 \
+                        tokens_per_expert_gpu.data<int64_t>(),               \
+                        tokens_per_expert.size(),                            \
                         K);
+#define LAUNCH_KERNEL_POW_2_SCALES(VEC_SIZE) \
+  if (pow_2_scales) {                        \
+    LAUNCH_KERNEL(true, VEC_SIZE);           \
+  } else {                                   \
+    LAUNCH_KERNEL(false, VEC_SIZE);          \
+  }
+
   if (K % 4 == 0) {
-    LAUNCH_KERNEL(4);
+    LAUNCH_KERNEL_POW_2_SCALES(4);
   } else if (K % 2 == 0) {
-    LAUNCH_KERNEL(2);
+    LAUNCH_KERNEL_POW_2_SCALES(2);
   } else {
-    LAUNCH_KERNEL(1);
+    LAUNCH_KERNEL_POW_2_SCALES(1);
   }
+#undef LAUNCH_KERNEL_POW_2_SCALES
 #undef LAUNCH_KERNEL
 
   return {out, scale};
@@ -265,5 +275,5 @@ std::vector<paddle::Tensor> fused_transpose_split_quant(
 PD_BUILD_OP(fused_transpose_split_quant)
     .Inputs({"X"})
     .Outputs({"output", "scale"})
-    .Attrs({"tokens_per_expert: std::vector<int64_t>"})
+    .Attrs({"tokens_per_expert: std::vector<int64_t>", "pow_2_scales: bool"})
     .SetKernelFn(PD_KERNEL(fused_transpose_split_quant));
diff --git a/tests/ops/test_fused_transpose_split_quant.py b/tests/ops/test_fused_transpose_split_quant.py
@@ -12,37 +12,50 @@ def restore_transpose_split_quant(out, scale):
     return out * scale
 
 
-def run():
-    tokens_per_expert = [24*128, 50*128, 1*128, 128*128, 13*128]
+def test_fused_transpose_split_quant(tokens_per_expert, seq_len, pow_2_scales):
+    print(tokens_per_expert, seq_len)
+
+    x = paddle.randn([sum(tokens_per_expert), seq_len], dtype='bfloat16')
+    x = paddle.clip(x, min=-50, max=50)
+
+    out_raw, scale_raw = FQO.fused_transpose_split_quant(
+        x, tokens_per_expert, pow_2_scales
+    )
+
+    out, scale = [], []
+    token_offset = 0
+    for tokens in tokens_per_expert:
+        out_offset = seq_len * token_offset
+        out_size = seq_len * tokens
+        out.append(
+            out_raw[out_offset : out_offset + out_size]
+                .reshape([seq_len, tokens])
+        )
+        scale.append(
+            scale_raw[token_offset // 128 : (token_offset + tokens) // 128]
+        )
+        token_offset += tokens
 
-    for seq_len in [1, 127, 2562, 4001, 7168]:
-        print(tokens_per_expert, seq_len)
+    x_restore = restore_transpose_split_quant(out, scale)
+    x_cast = x.astype('float32')
 
-        x = paddle.randn([sum(tokens_per_expert), seq_len], dtype='bfloat16')
-        x = paddle.clip(x, min=-50, max=50)
+    np.testing.assert_allclose(x_cast, x_restore, rtol=0.01, atol=0.3)
 
-        out_raw, scale_raw = FQO.fused_transpose_split_quant(
-            x, tokens_per_expert
-        )
 
-        out, scale = [], []
-        token_offset = 0
-        for tokens in tokens_per_expert:
-            out_offset = seq_len * token_offset
-            out_size = seq_len * tokens
-            out.append(
-                out_raw[out_offset : out_offset + out_size]
-                    .reshape([seq_len, tokens])
-            )
-            scale.append(
-                scale_raw[token_offset // 128 : (token_offset + tokens) // 128]
-            )
-            token_offset += tokens
-
-        x_restore = restore_transpose_split_quant(out, scale)
-        x_cast = x.astype('float32')
-
-        np.testing.assert_allclose(x_cast, x_restore, rtol=0.01, atol=0.3)
+def run():
+    test_fused_transpose_split_quant([128], 1, False)
+    test_fused_transpose_split_quant([3*128, 4*128, 5*128], 127, True)
+    test_fused_transpose_split_quant(
+        [24*128, 128, 50*128, 16*128], 2162, False
+    )
+    test_fused_transpose_split_quant(
+        [7*128, 29*128, 3*128, 128*128, 13*128], 4000, True
+    )
+    test_fused_transpose_split_quant(
+        [18*128, 5*128, 24*128, 1*128, 6*128, 14*128, 27*128, 7*128],
+        7168,
+        False
+    )
 
 
 if __name__ == '__main__':