ikawrakow
diff --git a/‎ggml/src/CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion b/‎ggml/src/CMakeLists.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎ggml/src/ggml-cuda/cp-async.cuh‎
Lines changed: 10 additions & 0 deletions b/‎ggml/src/ggml-cuda/cp-async.cuh‎
Lines changed: 10 additions & 0 deletions
@@ -986,7 +986,7 @@ endif()
 set(CUDA_CXX_FLAGS "")
 
 if (GGML_CUDA)
-    set(CUDA_FLAGS -use_fast_math)
+    set(CUDA_FLAGS -use_fast_math -extended-lambda)
 
     if (GGML_FATAL_WARNINGS)
         list(APPEND CUDA_FLAGS -Werror all-warnings)
 
@@ -2,6 +2,16 @@
 
 #include "common.cuh"
 
+static __device__ __forceinline__ unsigned int ggml_cuda_cvta_generic_to_shared(void * generic_ptr) {
+#ifdef CP_ASYNC_AVAILABLE
+    return __cvta_generic_to_shared(generic_ptr);
+#else
+    GGML_UNUSED(generic_ptr);
+    NO_DEVICE_CODE;
+    return 0;
+#endif // CP_ASYNC_AVAILABLE
+}
+
 // Copies data from global to shared memory, cg == cache global.
 // Both the src and dst pointers must be aligned to 16 bit.
 // Shared memory uses 32 bit addressing, the pointer is passed as unsigned int.