Minor fixes

ggml-org · jukofyork · Apr 2, 2025 · Apr 2, 2025 · Apr 2, 2025 · Apr 2, 2025
commit 7f92e7b6c64dbcdab0808e8915fbcfab7c748a24
diff --git a/src/llama-graph.h b/src/llama-graph.h
@@ -523,6 +523,17 @@ struct llm_graph_context {
                   float   kq_scale,
                     int   il) const;
 
+    ggml_tensor * build_attn_mla(
+            llm_graph_input_attn_kv_unified * inp,
+            ggml_cgraph * gf,
+            ggml_tensor * wv_b,
+            ggml_tensor * wo,
+            ggml_tensor * q_cur, // [n_embd_k, n_tokens, n_head]
+            ggml_tensor * k_cur, // [n_embd_k, n_tokens]
+            ggml_tensor * v_cur, // [n_embd_v, n_tokens]
+                   float  kq_scale,
+                   int    il) const;
+
     llm_graph_input_attn_cross * build_attn_inp_cross() const;
 
     ggml_tensor * build_attn(

diff --git a/src/llama-kv-cache.cpp b/src/llama-kv-cache.cpp
@@ -11,6 +11,8 @@
 #include <map>
 #include <stdexcept>
 
+#include <inttypes.h>
+
 llama_kv_cache_unified::llama_kv_cache_unified(const llama_hparams & hparams, callbacks cbs) : hparams(hparams), cbs(std::move(cbs)) {
 }
 
@@ -95,7 +97,7 @@ bool llama_kv_cache_unified::init(
             buft = ggml_backend_cpu_buffer_type();
         }
 
-        LLAMA_LOG_DEBUG("%s: layer %3ld: n_embd_k = %ld, n_embd_v = %d, dev = %s\n", __func__,
+        LLAMA_LOG_DEBUG("%s: layer %3d: n_embd_k = %" PRId64 ", n_embd_v = %" PRId64 ", dev = %s\n", __func__,
                 i, n_embd_k, n_embd_v, dev_name);
 
         ggml_context * ctx = ctx_for_buft(buft);

diff --git a/src/llama-model.cpp b/src/llama-model.cpp
@@ -9524,7 +9524,7 @@ struct llm_build_deepseek2 : public llm_graph_context {
         // inp_pos - contains the positions
         ggml_tensor * inp_pos = build_inp_pos();
 
-        auto * inp_attn = build_attn_inp_kv_mla();
+        auto * inp_attn = llm_graph_input_attn_kv_unified();
 
         for (int il = 0; il < n_layer; ++il) {
             ggml_tensor * inpSA = inpL;