7373 embd = []
7474 if len (embd_inp ) <= input_consumed :
7575 logits = llama_cpp .llama_get_logits (ctx )
76- n_vocab = llama_cpp .llama_n_vocab (ctx )
76+ n_vocab = llama_cpp .llama_n_vocab (model )
7777
7878 _arr = (llama_cpp .llama_token_data * n_vocab )(* [
7979 llama_cpp .llama_token_data (token_id , logits [token_id ], 0.0 )
8383 llama_cpp .llama_token_data_array (_arr , len (_arr ), False ))
8484
8585 _arr = (llama_cpp .c_int * len (last_n_tokens_data ))(* last_n_tokens_data )
86- llama_cpp .llama_sample_repetition_penalty (ctx , candidates_p ,
86+ llama_cpp .llama_sample_repetition_penalties (ctx , candidates_p ,
8787 _arr ,
88- last_n_repeat , repeat_penalty )
89- llama_cpp . llama_sample_frequency_and_presence_penalties ( ctx , candidates_p ,
90- _arr ,
91- last_n_repeat , frequency_penalty , presence_penalty )
88+ penalty_last_n = last_n_repeat ,
89+ penalty_repeat = repeat_penalty ,
90+ penalty_freq = frequency_penalty ,
91+ penalty_present = presence_penalty )
9292
9393 llama_cpp .llama_sample_top_k (ctx , candidates_p , k = 40 , min_keep = 1 )
9494 llama_cpp .llama_sample_top_p (ctx , candidates_p , p = 0.8 , min_keep = 1 )
126126
127127llama_cpp .llama_print_timings (ctx )
128128
129- llama_cpp .llama_free (ctx )
129+ llama_cpp .llama_free (ctx )
0 commit comments