JuliaGPU
diff --git a/‎src/device/matmul_kernels/epilogue.jl‎
Lines changed: 4 additions & 4 deletions b/‎src/device/matmul_kernels/epilogue.jl‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎src/device/matmul_kernels/kernel.jl‎
Lines changed: 19 additions & 19 deletions b/‎src/device/matmul_kernels/kernel.jl‎
Lines changed: 19 additions & 19 deletions
diff --git a/‎src/device/matmul_kernels/layout.jl‎
Lines changed: 31 additions & 10 deletions b/‎src/device/matmul_kernels/layout.jl‎
Lines changed: 31 additions & 10 deletions
diff --git a/‎src/device/matmul_kernels/operator.jl‎
Lines changed: 21 additions & 22 deletions b/‎src/device/matmul_kernels/operator.jl‎
Lines changed: 21 additions & 22 deletions
@@ -23,11 +23,11 @@ struct Default end
     block_tile = Tile(BLOCK_SHAPE)
 
     # Cooperatively store a BLOCK_SHAPE.M x BLOCK_SHAPE.N tile of D from shared to global memory within one threadblock
-    @unroll for warp_tile = parallellise(block_tile.MN, MEM_CD_WARP, warpId, WARPS_PER_BLOCK)
-        @unroll for thread_tile = parallellise(warp_tile, MEM_CD_THREAD, laneId, 32)
-            x = Layout.load(SHARED_D_LAYOUT, shmem_d, thread_tile, block_tile.MN.size)
+    @unroll for warp_tile = parallellise(block_tile.MN, Tile(MEM_CD_WARP), warpId, WARPS_PER_BLOCK)
+        @unroll for thread_tile = parallellise(warp_tile, Tile(MEM_CD_THREAD), laneId, 32)
+            x = Layout.load(SHARED_D_LAYOUT, shmem_d, thread_tile)
             x = transform(x, thread_tile)
-            Layout.store!(GLOBAL_D_LAYOUT, d, x, translate(thread_tile, (M = block_i, N = block_j)), gemm_sz.MN.size)
+            Layout.store!(GLOBAL_D_LAYOUT, d, x, translate(thread_tile, (M = block_i, N = block_j)))
         end
     end
 end
 
@@ -28,25 +28,25 @@ function matmul_impl(a, b, c, d,
     # (1) Cooperatively load a BLOCK_SHAPE.M x BLOCK_SHAPE.N tile of C from global to shared memory within one threadblock
     shmem_c = @cuDynamicSharedMem(Layout.eltype(SHARED_C_LAYOUT), Layout.size(SHARED_C_LAYOUT, block_tile.MN.size))
 
-    @unroll for warp_tile = parallellise(block_tile.MN, MEM_CD_WARP, warpId, WARPS_PER_BLOCK)
-        @unroll for thread_tile = parallellise(warp_tile, MEM_CD_THREAD, laneId, 32)
-            x = Layout.load(GLOBAL_C_LAYOUT, c, translate(thread_tile, (M = block_i, N = block_j)), gemm_sz.MN.size)
+    @unroll for warp_tile = parallellise(block_tile.MN, Tile(MEM_CD_WARP), warpId, WARPS_PER_BLOCK)
+        @unroll for thread_tile = parallellise(warp_tile, Tile(MEM_CD_THREAD), laneId, 32)
+            x = Layout.load(GLOBAL_C_LAYOUT, c, translate(thread_tile, (M = block_i, N = block_j)))
             x = transf_gl2sh_c(x, thread_tile)
-            Layout.store!(SHARED_C_LAYOUT, shmem_c, x, thread_tile, block_tile.MN.size)
+            Layout.store!(SHARED_C_LAYOUT, shmem_c, x, thread_tile)
         end
     end
 
     sync_threads()
 
     # (2) Load a COMPUTE_WARP.M x COMPUTE_WARP.N tile of C from shared memory into registers
-    warp_tile = subdivide(block_tile.MN, (M = COMPUTE_WARP.M, N = COMPUTE_WARP.N), warpId, WARPS_PER_BLOCK)
+    warp_tile = subdivide(block_tile.MN, Tile(COMPUTE_WARP).MN, warpId, WARPS_PER_BLOCK)
 
     c_frags = MArray{Tuple{NUM_FRAGMENTS_M, NUM_FRAGMENTS_N}, Operator.fragtype_accum(OPERATOR, SHARED_C_LAYOUT)}(undef)
 
     @unroll for i = 1 : NUM_FRAGMENTS_M
         @unroll for j = 1 : NUM_FRAGMENTS_N
             tile = translate(warp_tile, (M = (i-1)*COMPUTE_OP_SHAPE.M, N = (j-1)*COMPUTE_OP_SHAPE.N))
-            @inbounds c_frags[i, j] = transf_sh2rf_c(Operator.load_c(OPERATOR, SHARED_C_LAYOUT, shmem_c, tile, block_tile.MN.size), tile)
+            @inbounds c_frags[i, j] = transf_sh2rf_c(Operator.load_c(OPERATOR, SHARED_C_LAYOUT, shmem_c, tile), tile)
         end
     end
 
@@ -59,41 +59,41 @@ function matmul_impl(a, b, c, d,
 
     @unroll for block_k = 0 : block_tile.size.K : gemm_sz.size.K - 1
         # (3.1) Cooperatively load a BLOCK_SHAPE.M x BLOCK_SHAPE.K tile of A from global to shared memory within one threadblock
-        @unroll for warp_tile = parallellise(block_tile.MK, MEM_A_WARP, warpId, WARPS_PER_BLOCK)
-            @unroll for thread_tile = parallellise(warp_tile, MEM_A_THREAD, laneId, 32)
-                x = Layout.load(GLOBAL_A_LAYOUT, a, translate(thread_tile, (M = block_i, K = block_k)), gemm_sz.MK.size)
+        @unroll for warp_tile = parallellise(block_tile.MK, Tile(MEM_A_WARP), warpId, WARPS_PER_BLOCK)
+            @unroll for thread_tile = parallellise(warp_tile, Tile(MEM_A_THREAD), laneId, 32)
+                x = Layout.load(GLOBAL_A_LAYOUT, a, translate(thread_tile, (M = block_i, K = block_k)))
                 x = transf_gl2sh_a(x, thread_tile)
-                Layout.store!(SHARED_A_LAYOUT, shmem_a, x, thread_tile, block_tile.MK.size)
+                Layout.store!(SHARED_A_LAYOUT, shmem_a, x, thread_tile)
             end
         end
 
         # (3.2) Cooperatively load a BLOCK_SHAPE.K x BLOCK_SHAPE.N tile of B from global to shared memory within one threadblock
-        @unroll for warp_tile = parallellise(block_tile.KN, MEM_B_WARP, warpId, WARPS_PER_BLOCK)
-            @unroll for thread_tile = parallellise(warp_tile, MEM_B_THREAD, laneId, 32)
-                x = Layout.load(GLOBAL_B_LAYOUT, b, translate(thread_tile, (K = block_k, N = block_j)), gemm_sz.KN.size)
+        @unroll for warp_tile = parallellise(block_tile.KN, Tile(MEM_B_WARP), warpId, WARPS_PER_BLOCK)
+            @unroll for thread_tile = parallellise(warp_tile, Tile(MEM_B_THREAD), laneId, 32)
+                x = Layout.load(GLOBAL_B_LAYOUT, b, translate(thread_tile, (K = block_k, N = block_j)))
                 x = transf_gl2sh_b(x, thread_tile)
-                Layout.store!(SHARED_B_LAYOUT, shmem_b, x, thread_tile, block_tile.KN.size)
+                Layout.store!(SHARED_B_LAYOUT, shmem_b, x, thread_tile)
             end
         end
 
         sync_threads()
 
         # (3.3) Calculate a COMPUTE_WARP.M x COMPUTE_WARP.N tile of D, using a COMPUTE_WARP.M x COMPUTE_WARP.N x COMPUTE_WARP.K operation
-        @unroll for warp_tile = parallellise(block_tile, COMPUTE_WARP, warpId, WARPS_PER_BLOCK)
+        @unroll for warp_tile = parallellise(block_tile, Tile(COMPUTE_WARP), warpId, WARPS_PER_BLOCK)
             # (3.3.1) Load a COMPUTE_WARP.M x COMPUTE_WARP.K tile of A from shared memory into registers
             a_frags = MArray{Tuple{NUM_FRAGMENTS_M}, Operator.fragtype_a(OPERATOR, SHARED_A_LAYOUT)}(undef)
 
             @unroll for i = 1 : NUM_FRAGMENTS_M
                 a_tile = translate(warp_tile.MK, (M = (i-1)*COMPUTE_OP_SHAPE.M, K = 0))
-                @inbounds a_frags[i] = transf_sh2rf_a(Operator.load_a(OPERATOR, SHARED_A_LAYOUT, shmem_a, a_tile, block_tile.MK.size), a_tile)
+                @inbounds a_frags[i] = transf_sh2rf_a(Operator.load_a(OPERATOR, SHARED_A_LAYOUT, shmem_a, a_tile), a_tile)
             end
 
             # (3.3.2) Load a COMPUTE_WARP.K x COMPUTE_WARP.N tile of B from shared memory into registers
             b_frags = MArray{Tuple{NUM_FRAGMENTS_N}, Operator.fragtype_b(OPERATOR, SHARED_B_LAYOUT)}(undef)
 
             @unroll for j = 1 : NUM_FRAGMENTS_N
                 b_tile = translate(warp_tile.KN, (K = 0, N = (j-1)*COMPUTE_OP_SHAPE.N))
-                @inbounds b_frags[j] = transf_sh2rf_b(Operator.load_b(OPERATOR, SHARED_B_LAYOUT, shmem_b, b_tile, block_tile.KN.size), b_tile)
+                @inbounds b_frags[j] = transf_sh2rf_b(Operator.load_b(OPERATOR, SHARED_B_LAYOUT, shmem_b, b_tile), b_tile)
             end
 
             # (3.3.3) Compute a COMPUTE_WARP.M x COMPUTE_WARP.N x COMPUTE_WARP.K matrix product within one warp
@@ -110,12 +110,12 @@ function matmul_impl(a, b, c, d,
     # (4) Store the COMPUTE_WARP.M x COMPUTE_WARP.N tile of D from registers to shared memory
     shmem_d = @cuDynamicSharedMem(Layout.eltype(SHARED_D_LAYOUT), Layout.size(SHARED_D_LAYOUT, block_tile.MN.size))
 
-    warp_tile = subdivide(block_tile.MN, (M = COMPUTE_WARP.M, N = COMPUTE_WARP.N), warpId, WARPS_PER_BLOCK)
+    warp_tile = subdivide(block_tile.MN, Tile(COMPUTE_WARP).MN, warpId, WARPS_PER_BLOCK)
 
     @unroll for i = 1 : NUM_FRAGMENTS_M
         @unroll for j = 1 : NUM_FRAGMENTS_N
             tile = translate(warp_tile, (M = (i-1)*COMPUTE_OP_SHAPE.M, N = (j-1)*COMPUTE_OP_SHAPE.N))
-            Operator.store_d(OPERATOR, SHARED_D_LAYOUT, shmem_d, transf_rf2sh_d(c_frags[i, j], tile), tile, block_tile.MN.size)
+            Operator.store_d(OPERATOR, SHARED_D_LAYOUT, shmem_d, transf_rf2sh_d(c_frags[i, j], tile), tile)
         end
     end
 
 
@@ -3,6 +3,8 @@ module Layout
 
 using CUDAnative
 using CUDAnative.Tiling
+using GPUifyLoops
+using StaticArrays
 
 # -----------
 # Layout base
@@ -26,25 +28,44 @@ end
 
 @inline eltype(::Type{Padded{L, P}}) where {L, P} = eltype(L)
 @inline size(::Type{Padded{L, P}}, logical_size::NamedTuple) where {L, P} = size(L, pad_logical_coord(Padded{L, P}, logical_size))
-@inline load(::Type{Padded{L, P}}, workspace, tile::Tile, logical_size::NamedTuple) where {L, P} = load(L, workspace, tile, pad_logical_coord(Padded{L, P}, logical_size))
-@inline store!(::Type{Padded{L, P}}, workspace, value, tile::Tile, logical_size::NamedTuple) where {L, P} = store!(L, workspace, value, tile::Tile, pad_logical_coord(Padded{L, P}, logical_size))
+@inline load(::Type{Padded{L, P}}, workspace, tile::Tile, logical_size::NamedTuple) where {L, P} = load(L, workspace, tile)
+@inline store!(::Type{Padded{L, P}}, workspace, value, tile::Tile) where {L, P} = store!(L, workspace, value, tile::Tile)
 
 # ---------------
 # AlignedColMajor
 # ---------------
 
 struct AlignedColMajor{T} <: LayoutBase{T} end
 
-@inline function load(::Type{AlignedColMajor{T}}, workspace, tile::Tile, logical_size::NamedTuple) where {T}
-    N = 16 ÷ sizeof(T)
-    ptr = pointer(workspace, linearise(tile.base, logical_size))
-    return vloada(Vec{N, T}, ptr, linearise(tile.offset, logical_size))
+# TODO: cleanup vectorisation
+@inline function load(::Type{AlignedColMajor{T}}, workspace, tile::Tile{size}) where {T, size}
+    vec_len = 16 ÷ sizeof(T)
+    N = (sizeof(T) * vec_len) ÷ sizeof(Float32)
+    res = MArray{Tuple{size[1] ÷ vec_len, size[2]}, NTuple{N, VecElement{Float32}}}(undef)
+
+    @unroll for j = 1 : size[2]
+        @unroll for i = 1 : vec_len : size[1]
+            t = translate(tile, (i - 1, j - 1))
+            ind = Tuple(t.index) .+ 1
+            @inbounds linear_index = LinearIndices(Base.size(workspace))[ind...]
+            @inbounds res[i, j] = vloada(Vec{vec_len, T}, pointer(workspace), linear_index)
+        end
+    end
+
+    return res
 end
 
-@inline function store!(::Type{AlignedColMajor{T}}, workspace, value, tile::Tile, logical_size::NamedTuple) where {T}
-    N = 16 ÷ sizeof(T)
-    ptr = pointer(workspace, linearise(tile.base, logical_size))
-    return vstorea!(Vec{N, T}, ptr, value, linearise(tile.offset, logical_size))
+@inline function store!(::Type{AlignedColMajor{T}}, workspace, value, tile::Tile{size}) where {T, size}
+    vec_len = 16 ÷ sizeof(T)
+
+    @unroll for j = 1 : size[2]
+        @unroll for i = 1 : vec_len : size[1]
+            t = translate(tile, (i - 1, j - 1))
+            ind = Tuple(t.index) .+ 1
+            @inbounds linear_index = LinearIndices(Base.size(workspace))[ind...]
+            vstorea!(Vec{vec_len, T}, pointer(workspace), value[i, j], linear_index)
+        end
+    end
 end
 
 end
@@ -9,19 +9,10 @@ using CUDAnative.Tiling
 # Default definition for padded layouts
 # -------------------------------------
 
-# Fragment types
-for f in (:fragtype_a, :fragtype_b, :fragtype_accum)
+for f in (:fragtype_a, :fragtype_b, :fragtype_accum, :load_a, :load_b, :load_c, :store_d)
     @eval @inline $f(op, ::Type{Layout.Padded{L, P}}, args...) where {L, P} = $f(op, L, args...)
 end
 
-# Load fragments
-for f in (:load_a, :load_b, :load_c)
-    @eval @inline $f(op, ::Type{Layout.Padded{L, P}}, workspace, tile::Tile, logical_size::NamedTuple) where {L, P} = $f(op, L, workspace, tile, Layout.pad_logical_coord(Layout.Padded{L, P}, logical_size))
-end
-
-# Store fragments
-@inline store_d(op, ::Type{Layout.Padded{L, P}}, workspace, frag, tile::Tile, logical_size::NamedTuple) where {L, P} = store_d(op, L, workspace, frag, tile, Layout.pad_logical_coord(Layout.Padded{L, P}, logical_size))
-
 # ----
 # WMMA
 # ----
@@ -34,28 +25,36 @@ struct WMMAOp{M, N, K} end
 @inline fragtype_b(::Type{WMMAOp{16, 16, 16}}, ::Type{Layout.AlignedColMajor{Float16}}) = WMMA.Fragment{16, 16, 16, 16, Float16, WMMA.ColMajor, WMMA.MatrixB}
 @inline fragtype_accum(::Type{WMMAOp{16, 16, 16}}, ::Type{Layout.AlignedColMajor{Float32}}) = WMMA.Fragment{16, 16, 16, 8, Float32, WMMA.Unspecified, WMMA.Accumulator}
 
-function load_a(::Type{WMMAOp{M, N, K}}, ::Type{Layout.AlignedColMajor{Float16}}, workspace, tile::Tile, logical_size::NamedTuple) where {M, N, K}
+function load_a(::Type{WMMAOp{M, N, K}}, ::Type{Layout.AlignedColMajor{Float16}}, workspace, tile::Tile) where {M, N, K}
     conf = WMMA.Config{M, N, K, Float32}
-    ptr = pointer(workspace, linearise(tile.index, logical_size))
-    return WMMA.load_a(ptr, logical_size.M, WMMA.ColMajor, conf)
+    ind = Tuple(tile.index) .+ 1
+    @inbounds linear_index = LinearIndices(size(workspace))[ind...]
+    ptr = pointer(workspace, linear_index)
+    return WMMA.load_a(ptr, size(workspace, 1), WMMA.ColMajor, conf)
 end
 
-function load_b(::Type{WMMAOp{M, N, K}}, ::Type{Layout.AlignedColMajor{Float16}}, workspace, tile::Tile, logical_size::NamedTuple) where {M, N, K}
+function load_b(::Type{WMMAOp{M, N, K}}, ::Type{Layout.AlignedColMajor{Float16}}, workspace, tile::Tile) where {M, N, K}
     conf = WMMA.Config{M, N, K, Float32}
-    ptr = pointer(workspace, linearise(tile.index, logical_size))
-    return WMMA.load_b(ptr, logical_size.K, WMMA.ColMajor, conf)
+    ind = Tuple(tile.index) .+ 1
+    @inbounds linear_index = LinearIndices(size(workspace))[ind...]
+    ptr = pointer(workspace, linear_index)
+    return WMMA.load_b(ptr, size(workspace, 1), WMMA.ColMajor, conf)
 end
 
-function load_c(::Type{WMMAOp{M, N, K}}, ::Type{Layout.AlignedColMajor{Float32}}, workspace, tile::Tile, logical_size::NamedTuple) where {M, N, K}
+function load_c(::Type{WMMAOp{M, N, K}}, ::Type{Layout.AlignedColMajor{Float32}}, workspace, tile::Tile) where {M, N, K}
     conf = WMMA.Config{M, N, K, Float32}
-    ptr = pointer(workspace, linearise(tile.index, logical_size))
-    return WMMA.load_c(ptr, logical_size.M, WMMA.ColMajor, conf)
+    ind = Tuple(tile.index) .+ 1
+    @inbounds linear_index = LinearIndices(size(workspace))[ind...]
+    ptr = pointer(workspace, linear_index)
+    return WMMA.load_c(ptr, size(workspace, 1), WMMA.ColMajor, conf)
 end
 
-function store_d(::Type{WMMAOp{M, N, K}}, ::Type{Layout.AlignedColMajor{Float32}}, workspace, frag, tile::Tile, logical_size::NamedTuple) where {M, N, K}
+function store_d(::Type{WMMAOp{M, N, K}}, ::Type{Layout.AlignedColMajor{Float32}}, workspace, frag, tile::Tile) where {M, N, K}
     conf = WMMA.Config{M, N, K, Float32}
-    ptr = pointer(workspace, linearise(tile.index, logical_size))
-    WMMA.store_d(ptr, frag, logical_size.M, WMMA.ColMajor, conf)
+    ind = Tuple(tile.index) .+ 1
+    @inbounds linear_index = LinearIndices(size(workspace))[ind...]
+    ptr = pointer(workspace, linear_index)
+    WMMA.store_d(ptr, frag, size(workspace, 1), WMMA.ColMajor, conf)
 end
 
 function mma(::Type{WMMAOp{M, N, K}}, a_frag, b_frag, c_frag) where {M, N, K}