mv cu_seqlens in ssm kernel to smem

zigzagcai · zigzagcai · commit 210b6f6ffba7 · 2024-08-07T15:04:10.000+08:00
diff --git a/csrc/selective_scan/selective_scan_bwd_kernel.cuh b/csrc/selective_scan/selective_scan_bwd_kernel.cuh
@@ -142,7 +142,15 @@ void selective_scan_bwd_kernel(SSMParamsBwd params) {
         : reinterpret_cast<scan_t *>(params.x_ptr) + (batch_id * params.dim + dim_id) * (params.n_chunks) * params.dstate;
     float dD_val = 0;
     float ddelta_bias_val = 0;
-    long *cu_seqlens = reinterpret_cast<long *>(params.cu_seqlens_ptr) + batch_id * params.u_batch_stride;
+    
+    // Load cu_seqlens into shared memory
+    const int cu_seqlens_size = params.cu_seqlens_size;
+    long *cu_seqlens = reinterpret_cast<long *>(params.cu_seqlens_ptr);
+    __shared__ long smem_cu_seqlens[1024];  // Adjust size as needed
+    for (int i = threadIdx.x; i < cu_seqlens_size; i += blockDim.x) {
+        smem_cu_seqlens[i] = cu_seqlens[i];
+    }
+    __syncthreads();
 
     constexpr int kChunkSize = kNThreads * kNItems;
     u += (params.n_chunks - 1) * kChunkSize;
@@ -255,15 +263,17 @@ void selective_scan_bwd_kernel(SSMParamsBwd params) {
 
                     // Reset A bar for cumulative sequences (Real)
                     int left = 1;
-                    int right = params.cu_seqlens_size - 2;
+                    int right = cu_seqlens_size - 2;
+                    int idx = threadIdx.x * kNItems + i + chunk * kChunkSize;
                     while (left <= right) {
-                        if (cu_seqlens[(left + right) >> 1] == threadIdx.x * kNItems + i + chunk * kChunkSize) {
+                        int mid = (left + right) >> 1;
+                        if (smem_cu_seqlens[mid] == idx) {
                             delta_a_exp = 0.f;
                             break;
-                        } else if (cu_seqlens[(left + right) >> 1] < threadIdx.x * kNItems + i + chunk * kChunkSize) {
-                            left = ((left + right) >> 1) + 1;
+                        } else if (smem_cu_seqlens[mid] < idx) {
+                            left = mid + 1;
                         } else {
-                            right = ((left + right) >> 1) - 1;
+                            right = mid - 1;
                         }
                     }
 
@@ -358,16 +368,18 @@ void selective_scan_bwd_kernel(SSMParamsBwd params) {
 
                     // Reset A bar for cumulative sequences (Complex)
                     int left = 1;
-                    int right = params.cu_seqlens_size - 2;
+                    int right = cu_seqlens_size - 2;
+                    int idx = threadIdx.x * kNItems + i + chunk * kChunkSize;
                     while (left <= right) {
-                        if (cu_seqlens[(left + right) >> 1] == threadIdx.x * kNItems + i + chunk * kChunkSize) {
+                        int mid = (left + right) >> 1;
+                        if (smem_cu_seqlens[mid] == idx) {
                             delta_a_exp.real_ = 0.f;
                             delta_a_exp.imag_ = 0.f;
                             break;
-                        } else if (cu_seqlens[(left + right) >> 1] < threadIdx.x * kNItems + i + chunk * kChunkSize) {
-                            left = ((left + right) >> 1) + 1;
+                        } else if (smem_cu_seqlens[mid] < idx) {
+                            left = mid + 1;
                         } else {
-                            right = ((left + right) >> 1) - 1;
+                            right = mid - 1;
                         }
                     }
 
diff --git a/csrc/selective_scan/selective_scan_fwd_kernel.cuh b/csrc/selective_scan/selective_scan_fwd_kernel.cuh
@@ -112,7 +112,16 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
     weight_t *C = reinterpret_cast<weight_t *>(params.C_ptr) + dim_id * kNRows * params.C_d_stride;
     input_t *Cvar = reinterpret_cast<input_t *>(params.C_ptr) + batch_id * params.C_batch_stride + group_id * params.C_group_stride;
     scan_t *x = reinterpret_cast<scan_t *>(params.x_ptr) + (batch_id * params.dim + dim_id * kNRows) * params.n_chunks * params.dstate;
-    long *cu_seqlens = reinterpret_cast<long *>(params.cu_seqlens_ptr) + batch_id * params.u_batch_stride;
+    
+    // Load cu_seqlens into shared memory
+    const int cu_seqlens_size = params.cu_seqlens_size;
+    long *cu_seqlens = reinterpret_cast<long *>(params.cu_seqlens_ptr);
+    __shared__ long smem_cu_seqlens[1024];  // Adjust size as needed
+    for (int i = threadIdx.x; i < cu_seqlens_size; i += blockDim.x) {
+        smem_cu_seqlens[i] = cu_seqlens[i];
+    }
+    __syncthreads();
+
 
     float D_val[kNRows] = {0};
     if (params.D_ptr != nullptr) {
@@ -224,15 +233,17 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
                         
                         // Reset A bar for cumulative sequences (Real)
                         int left = 1;
-                        int right = params.cu_seqlens_size - 2;
+                        int right = cu_seqlens_size - 2;
+                        int idx = threadIdx.x * kNItems + i + chunk * kChunkSize;
                         while (left <= right) {
-                            if (cu_seqlens[(left + right) >> 1] == threadIdx.x * kNItems + i + chunk * kChunkSize) {
+                            int mid = (left + right) >> 1;
+                            if (smem_cu_seqlens[mid] == idx) {
                                 thread_data[i].x = 0.f;
                                 break;
-                            } else if (cu_seqlens[(left + right) >> 1] < threadIdx.x * kNItems + i + chunk * kChunkSize) {
-                                left = ((left + right) >> 1) + 1;
+                            } else if (smem_cu_seqlens[mid] < idx) {
+                                left = mid + 1;
                             } else {
-                                right = ((left + right) >> 1) - 1;
+                                right = mid - 1;
                             }
                         }
 
@@ -249,19 +260,22 @@ void selective_scan_fwd_kernel(SSMParamsBase params) {
 
                         // Reset A bar for cumulative sequences (Complex)
                         int left = 1;
-                        int right = params.cu_seqlens_size - 2;
+                        int right = cu_seqlens_size - 2;
+                        int idx = threadIdx.x * kNItems + i + chunk * kChunkSize;
                         while (left <= right) {
-                            if (cu_seqlens[(left + right) >> 1] == threadIdx.x * kNItems + i + chunk * kChunkSize) {
+                            int mid = (left + right) >> 1;
+                            if (smem_cu_seqlens[mid] == idx) {
                                 thread_data[i].x = 0.f;
                                 thread_data[i].y = 0.f;
                                 break;
-                            } else if (cu_seqlens[(left + right) >> 1] < threadIdx.x * kNItems + i + chunk * kChunkSize) {
-                                left = ((left + right) >> 1) + 1;
+                            } else if (smem_cu_seqlens[mid] < idx) {
+                                left = mid + 1;
                             } else {
-                                right = ((left + right) >> 1) - 1;
+                                right = mid - 1;
                             }
                         }
 
+
                         if constexpr (!Ktraits::kIsEvenLen) {  // So that the last state is correct
                             if (threadIdx.x * kNItems + i >= params.seqlen - chunk * kChunkSize) {
                                 thread_data[i] = make_float4(1.f, 0.f, 0.f, 0.f);