anaconda
diff --git a/‎README.md
Lines changed: 43 additions & 0 deletions b/‎README.md
Lines changed: 43 additions & 0 deletions
diff --git a/‎pyproject.toml
Lines changed: 2 additions & 1 deletion b/‎pyproject.toml
Lines changed: 2 additions & 1 deletion
diff --git a/‎src/anaconda_models/litellm.py
Lines changed: 180 additions & 0 deletions b/‎src/anaconda_models/litellm.py
Lines changed: 180 additions & 0 deletions
@@ -14,6 +14,9 @@ Below you will find documentation for
 * [Integration with LLM CLI](#llm)
 * [Anaconda Model Cache SDK](#sdk)
 * [Langchain](#langchain)
+* [LlamaIndex](#llamaindex)
+* [LiteLLM](#litellm)
+* [DSPy](#dspy)
 * [PandasAI](#pandasai)
 * [Panel ChatInterface](#panel)
 * [Appendix: model download path](#download-path)
@@ -303,6 +306,46 @@ The `AnacondaModel` class supports the following arguments
 * `temperature`: Optional temperature to apply to all completions and chats (default is 0.1)
 * `max_tokens`: Optional Max tokens to predict (default is to let the model decide when to finish)
 
+## LiteLLM
+
+This provides a CustomLLM provider for use with `litellm`. But, since litellm does not currently support entrypoints to register the provider, the user must import the module first.
+
+```python
+import litellm
+import anaconda_models.litellm
+
+response = litellm.completion(
+    'anaconda/openhermes-2.5-mistral-7b/q4_k_m',
+    messages=[{'role': 'user', 'content': 'what is pi?'}]
+)
+```
+
+Supported usage:
+
+* completion (with and without stream=True)
+* acompletion (with and without stream=True)
+* Most OpenAI [inference parameters](https://docs.litellm.ai/docs/completion/input)
+  * `n`: number of completions is not supported
+* llama.cpp server options are passed as a dictionary called `llama_cpp_kwargs` (see above)
+
+## DSPy
+
+Since DSPy uses LiteLLM, Anaconda models can be used with dspy.
+Streaming and async are supported for raw LLM calls and for modules
+like Predict or ChainofThought
+.
+
+```python
+import dspy
+import anaconda_models.litellm
+
+lm = dspy.LM('anaconda/openhermes-2.5-mistral-7b/q4_k_m')
+dspy.configure(lm=lm)
+
+chai = dspy.ChainOfThought("question -> answer")
+chain(question="Who are you?")
+```
+
 ## PandasAI
 
 [PandasAI](https://github.com/Sinaptik-AI/pandas-ai): chat with data
 
@@ -29,7 +29,7 @@ anaconda = "anaconda_models.llm"
 
 [project.optional-dependencies]
 all = [
-  "anaconda-models[langchain,llm,llama-index,panel]"
+  "anaconda-models[langchain,litellm,llm,llama-index,panel]"
 ]
 dev = [
   "mypy",
@@ -40,6 +40,7 @@ dev = [
   "types-requests"
 ]
 langchain = ["langchain-openai>=0.2.8"]
+litellm = ["litellm"]
 llama-index = ["llama-index-llms-openai"]
 llm = ["llm", "click"]
 pandasai = ["pandasai>=2.4"]
 
@@ -0,0 +1,180 @@
+from typing import Callable, Iterator, Optional, Any, Union, cast, AsyncIterator
+
+import litellm
+from httpx import Timeout
+from litellm.llms.custom_httpx.http_handler import HTTPHandler, AsyncHTTPHandler
+from litellm.llms.custom_llm import CustomLLM
+from litellm.types.utils import ModelResponse, GenericStreamingChunk
+from litellm.litellm_core_utils.streaming_handler import CustomStreamWrapper
+
+from anaconda_models.core import (
+    AnacondaQuantizedModelCache,
+    AnacondaQuantizedModelService,
+)
+
+
+class AnacondaLLM(CustomLLM):
+    _model: Optional[AnacondaQuantizedModelCache] = None
+    _service: Optional[AnacondaQuantizedModelService] = None
+
+    def _prepare_inference_kwargs(self, optional_params: dict) -> dict:
+        inference_kwargs = optional_params.copy()
+        _ = inference_kwargs.pop("stream", None)
+        _ = inference_kwargs.pop("stream_options", None)
+        return inference_kwargs
+
+    def completion(
+        self,
+        model: str,
+        messages: list,
+        api_base: str,
+        custom_prompt_dict: dict,
+        model_response: ModelResponse,
+        print_verbose: Callable,
+        encoding: Any,
+        api_key: Any,
+        logging_obj: Any,
+        optional_params: dict,
+        acompletion: Optional[AsyncHTTPHandler] = None,
+        litellm_params: Optional[Any] = None,
+        logger_fn: Optional[Any] = None,
+        headers: Optional[dict] = None,
+        timeout: Optional[Union[float, Timeout]] = None,
+        client: Optional[HTTPHandler] = None,
+    ) -> ModelResponse:
+        _model = AnacondaQuantizedModelCache(name=model)
+        _service = _model.start(**optional_params.pop("llama_cpp_kwargs", {}))
+        _client = _service.openai_client
+
+        inference_kwargs = self._prepare_inference_kwargs(optional_params)
+        response = _client.chat.completions.create(
+            messages=messages, model=model, **inference_kwargs
+        )
+        mresponse = ModelResponse(**response.model_dump())
+        _service.options["Process"].terminate()
+        return mresponse
+
+    def streaming(
+        self,
+        model: str,
+        messages: list,
+        api_base: str,
+        custom_prompt_dict: dict,
+        model_response: ModelResponse,
+        print_verbose: Callable,
+        encoding: Any,
+        api_key: Any,
+        logging_obj: Any,
+        optional_params: dict,
+        acompletion: Optional[AsyncHTTPHandler] = None,
+        litellm_params: Optional[Any] = None,
+        logger_fn: Optional[Any] = None,
+        headers: Optional[dict] = None,
+        timeout: Optional[Union[float, Timeout]] = None,
+        client: Optional[HTTPHandler] = None,
+    ) -> Iterator[GenericStreamingChunk]:
+        _model = AnacondaQuantizedModelCache(name=model)
+        _service = _model.start(**optional_params.pop("llama_cpp_kwargs", {}))
+        _client = _service.openai_client
+
+        inference_kwargs = self._prepare_inference_kwargs(optional_params)
+        response = _client.chat.completions.create(
+            messages=messages, model=model, stream=True, **inference_kwargs
+        )
+        wrapped = CustomStreamWrapper(
+            custom_llm_provider="openai",
+            completion_stream=response,
+            model=model,
+            logging_obj=logging_obj,
+        )
+
+        for chunk in wrapped:
+            handled = cast(
+                GenericStreamingChunk,
+                wrapped.handle_openai_chat_completion_chunk(chunk),
+            )
+            yield handled
+
+        _service.options["Process"].terminate()
+
+    async def acompletion(
+        self,
+        model: str,
+        messages: list,
+        api_base: str,
+        custom_prompt_dict: dict,
+        model_response: ModelResponse,
+        print_verbose: Callable,
+        encoding: Any,
+        api_key: Any,
+        logging_obj: Any,
+        optional_params: dict,
+        acompletion: Optional[AsyncHTTPHandler] = None,
+        litellm_params: Optional[Any] = None,
+        logger_fn: Optional[Any] = None,
+        headers: Optional[dict] = None,
+        client: Optional[AsyncHTTPHandler] = None,
+    ) -> ModelResponse:
+        _model = AnacondaQuantizedModelCache(name=model)
+        _service = _model.start(**optional_params.pop("llama_cpp_kwargs", {}))
+        _client = _service.openai_async_client
+
+        inference_kwargs = self._prepare_inference_kwargs(optional_params)
+        response = await _client.chat.completions.create(
+            messages=messages, model=model, **inference_kwargs
+        )
+        mresponse = ModelResponse(**response.model_dump())
+        _service.options["Process"].terminate()
+        return mresponse
+
+    async def astreaming(  # type: ignore
+        self,
+        model: str,
+        messages: list,
+        api_base: str,
+        custom_prompt_dict: dict,
+        model_response: ModelResponse,
+        print_verbose: Callable,
+        encoding: Any,
+        api_key: Any,
+        logging_obj: Any,
+        optional_params: dict,
+        acompletion: Optional[AsyncHTTPHandler] = None,
+        litellm_params: Optional[Any] = None,
+        logger_fn: Optional[Any] = None,
+        headers: Optional[dict] = None,
+        timeout: Optional[Union[float, Timeout]] = None,
+        client: Optional[AsyncHTTPHandler] = None,
+    ) -> AsyncIterator[GenericStreamingChunk]:
+        _model = AnacondaQuantizedModelCache(name=model)
+        _service = _model.start(**optional_params.pop("llama_cpp_kwargs", {}))
+        _client = _service.openai_async_client
+
+        inference_kwargs = self._prepare_inference_kwargs(optional_params)
+        response = await _client.chat.completions.create(
+            messages=messages, model=model, stream=True, **inference_kwargs
+        )
+        wrapped = CustomStreamWrapper(
+            custom_llm_provider="openai",
+            completion_stream=response,
+            model=model,
+            logging_obj=logging_obj,
+        )
+
+        async for chunk in wrapped:
+            handled = cast(
+                GenericStreamingChunk,
+                wrapped.handle_openai_chat_completion_chunk(chunk),
+            )
+            yield handled
+
+        _service.options["Process"].terminate()
+
+
+# This should be moved to an entrypoint if implemented
+# https://github.com/BerriAI/litellm/issues/7733
+anaconda_llm = AnacondaLLM()
+litellm.custom_provider_map.append(
+    {"provider": "anaconda", "custom_handler": anaconda_llm}
+)