Skip qkv reshaping for non-parallel attention

ggml-org · akawrykow · Aug 29, 2023 · Aug 29, 2023 · Aug 29, 2023 · Aug 29, 2023
commit de64f091c8b0ab1df364f93a2a0396d112f55692
diff --git a/convert-falcon-hf-to-gguf.py b/convert-falcon-hf-to-gguf.py
@@ -206,6 +206,7 @@ def count_model_parts(dir_model: str) -> int:
 
 # params for qkv transform
 head_dim = hparams["hidden_size"] // n_head
+parallel_attn = hparams["parallel_attn"]
 
 # tensor info
 print("gguf: get tensor metadata")
@@ -240,7 +241,7 @@ def count_model_parts(dir_model: str) -> int:
         # in contiguous fashion.
         # ref: https://github.com/jploski/ggml/blob/falcon40b/examples/falcon/convert-hf-to-ggml.py
 
-        if "query_key_value" in name:
+        if "query_key_value" in name and parallel_attn:
             qkv = data.view(n_head_kv, n_head // n_head_kv + 2, head_dim, head_dim * n_head)
             q = qkv[:, :-2 ].reshape(n_head * head_dim, head_dim * n_head)
             k = qkv[:, [-2]].reshape(n_head_kv * head_dim, head_dim * n_head)