mat-transpose实现重复 #260

fpeanut · 2025-03-19T05:20:09Z

关于转置的实现，这其中有两个核函数，这两个核函数是不是重复了，我看转置计算的代码分解开其实是一样的，你只是调换了global_x和global_y，但本质展开计算的代码是一样的

fpeanut · 2025-03-19T06:18:27Z

还有，global void mat_transpose_f32x4_shared_col2row2d_kernel 及以下的函数测试的结果都不正确，是有什么操作不对吗

hebangwen · 2025-03-28T11:05:59Z

关于转置的实现，这其中有两个核函数，这两个核函数是不是重复了，我看转置计算的代码分解开其实是一样的，你只是调换了global_x和global_y，但本质展开计算的代码是一样的

这个你可以理解为 col2row 是按照输入矩阵逐元素起线程；row2col 是按照输出矩阵逐元素起线程。

每个线程处理 1 个元素：col2row 和 row2col 一样，对应你提出的这种情况。我觉得应该是用来做一个小练习。
每个线程处理 4 个元素：col2row 是从 x 上面顺序读取 4 个元素，转置后，每行一个地写入 y 中；row2col 是竖着读取 4 个元素，顺序写入 y 中

bear-zd · 2025-04-08T16:37:26Z

还有，global void mat_transpose_f32x4_shared_col2row2d_kernel 及以下的函数测试的结果都不正确，是有什么操作不对吗

关于编码虽然当时写的潦草但是基本上确实是前面的人提到的思路。
至于测试结果错误的问题，我目前在3090设备上进行测试好像还是没有问题，但是这个问题可能和设备有关，麻烦你提供更加详细的信息或者尝试调整一下M、N的取值范围。

DefTruth assigned bear-zd Apr 8, 2025

Provide feedback