10
10
#include " llama.h"
11
11
12
12
#include " ggml.h"
13
- #if defined GGML_USE_CUBLAS || defined GGML_USE_HIPBLAS
13
+ #ifdef GGML_USE_CUBLAS
14
14
#include " ggml-cuda.h"
15
15
#elif defined(GGML_USE_CLBLAST)
16
16
#include " ggml-opencl.h"
@@ -175,7 +175,7 @@ struct llama_kv_cache {
175
175
ggml_free (ctx);
176
176
}
177
177
178
- #if defined GGML_USE_CUBLAS || defined GGML_USE_HIPBLAS
178
+ #ifdef GGML_USE_CUBLAS
179
179
ggml_cuda_free_data (k);
180
180
ggml_cuda_free_data (v);
181
181
#endif // GGML_USE_CUBLAS
@@ -234,7 +234,7 @@ struct llama_model {
234
234
ggml_free (ctx);
235
235
}
236
236
237
- #if defined GGML_USE_CUBLAS || defined GGML_USE_HIPBLAS
237
+ #ifdef GGML_USE_CUBLAS
238
238
for (size_t i = 0 ; i < tensors_by_name.size (); ++i) {
239
239
ggml_cuda_free_data (tensors_by_name[i].second );
240
240
}
@@ -800,7 +800,7 @@ struct llama_model_loader {
800
800
lmlock->grow_to (lock_size);
801
801
}
802
802
break ;
803
- #if defined(GGML_USE_CUBLAS) || defined(GGML_USE_HIPBLAS)
803
+ #if defined(GGML_USE_CUBLAS)
804
804
case GGML_BACKEND_GPU:
805
805
case GGML_BACKEND_GPU_SPLIT:
806
806
ggml_cuda_transform_tensor (lt.data , lt.ggml_tensor );
@@ -920,7 +920,7 @@ static bool kv_cache_init(
920
920
ggml_set_name (cache.v , " cache_v" );
921
921
922
922
(void ) n_gpu_layers;
923
- #if defined GGML_USE_CUBLAS || defined GGML_USE_HIPBLAS
923
+ #ifdef GGML_USE_CUBLAS
924
924
if (n_gpu_layers > n_layer + 1 ) {
925
925
ggml_cuda_assign_buffers_no_scratch (cache.v );
926
926
}
@@ -1150,7 +1150,7 @@ static void llama_model_load_internal(
1150
1150
}
1151
1151
1152
1152
(void ) main_gpu;
1153
- #if defined(GGML_USE_CUBLAS) || defined(GGML_USE_HIPBLAS)
1153
+ #if defined(GGML_USE_CUBLAS)
1154
1154
fprintf (stderr, " %s: using CUDA for GPU acceleration\n " , __func__);
1155
1155
ggml_cuda_set_main_device (main_gpu);
1156
1156
#define LLAMA_BACKEND_OFFLOAD GGML_BACKEND_GPU
@@ -1261,7 +1261,7 @@ static void llama_model_load_internal(
1261
1261
1262
1262
(void ) vram_scratch;
1263
1263
(void ) n_batch;
1264
- #if defined GGML_USE_CUBLAS || defined GGML_USE_HIPBLAS
1264
+ #ifdef GGML_USE_CUBLAS
1265
1265
if (low_vram) {
1266
1266
fprintf (stderr, " %s: not allocating a VRAM scratch buffer due to low VRAM option\n " , __func__);
1267
1267
ggml_cuda_set_scratch_size (0 ); // disable scratch
@@ -1274,7 +1274,7 @@ static void llama_model_load_internal(
1274
1274
}
1275
1275
}
1276
1276
#endif // GGML_USE_CUBLAS
1277
- #if defined(GGML_USE_CUBLAS) || defined(GGML_USE_HIPBLAS) || defined( GGML_USE_CLBLAST)
1277
+ #if defined(GGML_USE_CUBLAS) || defined(GGML_USE_CLBLAST)
1278
1278
const int n_gpu = std::min (n_gpu_layers, int (hparams.n_layer ));
1279
1279
1280
1280
fprintf (stderr, " %s: offloading %d repeating layers to GPU\n " , __func__, n_gpu);
@@ -1314,7 +1314,7 @@ static void llama_model_load_internal(
1314
1314
}
1315
1315
1316
1316
(void ) tensor_split;
1317
- #if defined(GGML_USE_CUBLAS) || defined(GGML_USE_HIPBLAS)
1317
+ #if defined(GGML_USE_CUBLAS)
1318
1318
{
1319
1319
ggml_cuda_set_tensor_split (tensor_split);
1320
1320
}
@@ -1435,7 +1435,7 @@ static bool llama_eval_internal(
1435
1435
offload_func_t offload_func_kq = llama_nop;
1436
1436
offload_func_t offload_func_v = llama_nop;
1437
1437
1438
- #if defined GGML_USE_CUBLAS || defined GGML_USE_HIPBLAS
1438
+ #ifdef GGML_USE_CUBLAS
1439
1439
if (n_gpu_layers > n_layer) {
1440
1440
offload_func_nr = ggml_cuda_assign_buffers;
1441
1441
}
@@ -1450,7 +1450,7 @@ static bool llama_eval_internal(
1450
1450
for (int il = 0 ; il < n_layer; ++il) {
1451
1451
offload_func_t offload_func = llama_nop;
1452
1452
1453
- #if defined GGML_USE_CUBLAS || defined GGML_USE_HIPBLAS
1453
+ #ifdef GGML_USE_CUBLAS
1454
1454
if (il >= i_gpu_start) {
1455
1455
offload_func = ggml_cuda_assign_buffers;
1456
1456
}
0 commit comments