Bugfix: only eval new tokens

abetlen · pull[bot] · commit d8487de965ff · 2023-05-01T18:48:02.000Z
diff --git a/llama_cpp/llama.py b/llama_cpp/llama.py
@@ -280,6 +280,7 @@ def generate(
             if self.verbose:
                 print("generate cache hit", file=sys.stderr)
             reset = False
+            tokens = tokens[len(self.tokens) :]
         ###
         if reset:
             self.reset()